Công ty đứng sau mô hình Claude cho rằng chuỗi suy nghĩ của AI ngày càng kém minh bạch hơn và có thể dễ dàng đánh lừa người dùng.
Anthropic cảnh báo lập luận của AI ngày càng kém minh bạch hơn. Ảnh: Bloomberg.
Trong khi nhiều công ty công nghệ đang nỗ lực minh bạch hóa các mô hình AI thông qua kỹ thuật chuỗi suy nghĩ (Chain-of-Thought – CoT), công ty nghiên cứu AI Anthropic, đơn vị phát triển mô hình Claude lại đưa ra cảnh báo rằng người dùng không nên tin vào lập luận của công cụ.
“Chúng ta không có lý do gì để tin rằng ngôn ngữ có thể truyền tải đầy đủ quá trình ra quyết định phức tạp của một mạng nơ-ron”, Anthropic viết trên blog chính thức.
Trong nghiên cứu mới nhất, nhóm chuyên gia của Anthropic đã thực hiện các thử nghiệm nhằm kiểm tra mức độ trung thực của chuỗi suy nghĩ do AI tạo ra. Bằng cách cung cấp những gợi ý, các chuyên gia phát hiện mô hình thường sử dụng thông tin cho trước trong quá trình đưa ra câu trả lời, nhưng lại không thừa nhận điều này trong phần giải thích.
Ví dụ với mô hình Claude 3.7 Sonnet, chỉ khoảng 25% lời giải thích đề cập tới các gợi ý của người dùng. Tỷ lệ này ở DeepSeek-R1 là khoảng 39%. Đáng chú ý hơn, khi được cung cấp thông tin nhạy cảm như truy cập trái phép vào hệ thống, mô hình Claude chỉ thừa nhận trong 41% trường hợp, còn DeepSeek-R1 là 19%.
Anthropic cảnh báo thêm rằng khi mô hình được đặt trong tình huống sai lệch, chúng sẵn sàng tạo ra các chuỗi suy nghĩ mang tính ngụy biện. Điều này đặt ra rủi ro lớn khi AI được ứng dụng trong các lĩnh vực yêu cầu độ tin cậy cao như y tế, tài chính, pháp lý hoặc an ninh quốc phòng.
Hiện tại, việc huấn luyện bổ sung hoặc yêu cầu mô hình trung thực hơn chưa mang lại hiệu quả. Các mô hình ngày càng có xu hướng "giấu bài", khiến việc kiểm soát nội dung suy luận trở nên khó khăn hơn.
Trong bối cảnh AI ngày càng phổ biến, nhiều tổ chức công nghệ cũng đang phát triển các công cụ hỗ trợ giám sát và đánh giá tính minh bạch của mô hình. Tuy nhiên, cảnh báo từ Anthropic cho thấy chuỗi suy nghĩ có thể là “tấm màn” che đậy quy trình thực sự bên trong các hệ thống trí tuệ nhân tạo.
Bong bóng chat trên Messenger là một tính năng tiện lợi, giúp bạn không bỏ lỡ bất kỳ tin nhắn nào dù đang sử dụng ứng dụng khác. Nếu gặp lỗi không hiển thị, cần có cách khắc phục để đưa tính năng này hoạt động trở lại.
iOS 26 mang đến nhiều tính năng mới mẻ nhưng cũng phát sinh một số lỗi khiến người dùng gặp khó khăn trong quá trình sử dụng, đặc biệt là tình trạng iPhone bị mất sóng.
Foxconn Ấn Độ đã bắt đầu thử nghiệm dây chuyền thử nghiệm sớm cho thế hệ iPhone 17, trước khi sản xuất hàng loạt kịp thời cho đợt ra mắt vào tháng 9 sắp tới.
Điện thoại nóng và nhanh hết pin do 5 sai lầm hầu hết người dùng đều mắc. Hiểu rõ nguyên nhân sẽ giúp khắc phục hiệu quả và bảo vệ thiết bị tránh hư hỏng, gây nguy hiểm.
Khi mọi câu hỏi đều được AI trả lời, não bộ của con người có nguy cơ bị "lười biếng". Nếu chúng ta thiếu tỉnh táo, có thể sẽ dần đánh mất đi khả năng sáng tạo và tư duy độc lập.
Trong quý 2 vừa qua, dân cư mạng Việt Nam quan tâm nhiều đến việc sáp nhập tỉnh, thành, chờ đón dấu mốc "sắp xếp lại giang sơn", cùng với đó là kỳ nghỉ hè bận rộn với "khối nghỉ hưu" và "khối nghỉ hè".
Thói quen sử dụng các trang web “lậu” - những nền tảng chia sẻ nội dung không có bản quyền - có thể sẽ phải “trả giá đắt” nếu vô tình click vào những quảng cáo trá hình.
Trong một bài đăng mới nhất trên mạng xã hội Weibo, leaker Instant Digital cho biết iPhone 17 Pro Max sẽ trở thành chiếc iPhone được trang bị viên pin dung lượng cao nhất từ trước đến nay.
Trên nền tảng TikTok, cư dân mạng đang truyền tai nhau cách dùng Google Maps để ngược dòng thời gian, thăm lại ngôi nhà của mình từ nhiều năm về trước.
Từ ngày 1/7, khi cả nước chính thức thực hiện mô hình chính quyền 2 cấp và chỉ còn lại 34 tỉnh, nhiều xã, phường, thị trấn sẽ được sáp nhập, đổi tên hoặc điều chỉnh địa giới hành chính.
Tổng thống Mỹ Donald Trump, trong một cuộc phỏng vấn, cho biết ông sẽ tiết lộ danh tính một nhóm người "rất giàu có" sẽ mua lại TikTok trong hai tuần tới.
Có chatbot chỉ tốn trung bình 10 giây cho mỗi câu hỏi ở đề thi toán tốt nghiệp THPT năm 2025. Kết quả cho ra khá ấn tượng, nhưng không thể hiện rõ quá trình suy luận của AI.
Kế hoạch hành động chiến lược triển khai Nghị quyết số 57-NQ/TW đưa ra mô hình quản trị hiện đại, đồng bộ, thống nhất trong điều hành, tổ chức, triển khai; cơ chế giám sát, đánh giá theo thời gian thực nhằm thực hiện hiệu quả Nghị quyết.
Bất chấp những tuyên bố từ các tên tuổi hàng đầu, các nhà nghiên cứu cho rằng những lỗi cơ bản trong các mô hình suy luận khiến robot chưa thể vượt qua trí tuệ của con người.
Trước đây, để xóa lịch sử trò chuyện trên ChatGPT, bạn phải nhấn vào từng đoạn chat một cách thủ công, vừa mất thời gian lại tốn công sức nếu có nhiều cuộc trò chuyện.