Công ty đứng sau mô hình Claude cho rằng chuỗi suy nghĩ của AI ngày càng kém minh bạch hơn và có thể dễ dàng đánh lừa người dùng.
Anthropic cảnh báo lập luận của AI ngày càng kém minh bạch hơn. Ảnh: Bloomberg.
Trong khi nhiều công ty công nghệ đang nỗ lực minh bạch hóa các mô hình AI thông qua kỹ thuật chuỗi suy nghĩ (Chain-of-Thought – CoT), công ty nghiên cứu AI Anthropic, đơn vị phát triển mô hình Claude lại đưa ra cảnh báo rằng người dùng không nên tin vào lập luận của công cụ.
“Chúng ta không có lý do gì để tin rằng ngôn ngữ có thể truyền tải đầy đủ quá trình ra quyết định phức tạp của một mạng nơ-ron”, Anthropic viết trên blog chính thức.
Trong nghiên cứu mới nhất, nhóm chuyên gia của Anthropic đã thực hiện các thử nghiệm nhằm kiểm tra mức độ trung thực của chuỗi suy nghĩ do AI tạo ra. Bằng cách cung cấp những gợi ý, các chuyên gia phát hiện mô hình thường sử dụng thông tin cho trước trong quá trình đưa ra câu trả lời, nhưng lại không thừa nhận điều này trong phần giải thích.
Ví dụ với mô hình Claude 3.7 Sonnet, chỉ khoảng 25% lời giải thích đề cập tới các gợi ý của người dùng. Tỷ lệ này ở DeepSeek-R1 là khoảng 39%. Đáng chú ý hơn, khi được cung cấp thông tin nhạy cảm như truy cập trái phép vào hệ thống, mô hình Claude chỉ thừa nhận trong 41% trường hợp, còn DeepSeek-R1 là 19%.
Anthropic cảnh báo thêm rằng khi mô hình được đặt trong tình huống sai lệch, chúng sẵn sàng tạo ra các chuỗi suy nghĩ mang tính ngụy biện. Điều này đặt ra rủi ro lớn khi AI được ứng dụng trong các lĩnh vực yêu cầu độ tin cậy cao như y tế, tài chính, pháp lý hoặc an ninh quốc phòng.
Hiện tại, việc huấn luyện bổ sung hoặc yêu cầu mô hình trung thực hơn chưa mang lại hiệu quả. Các mô hình ngày càng có xu hướng "giấu bài", khiến việc kiểm soát nội dung suy luận trở nên khó khăn hơn.
Trong bối cảnh AI ngày càng phổ biến, nhiều tổ chức công nghệ cũng đang phát triển các công cụ hỗ trợ giám sát và đánh giá tính minh bạch của mô hình. Tuy nhiên, cảnh báo từ Anthropic cho thấy chuỗi suy nghĩ có thể là “tấm màn” che đậy quy trình thực sự bên trong các hệ thống trí tuệ nhân tạo.
Adobe Photoshop được tích hợp thẳng vào ChatGPT trên máy tính và điện thoại mở ra cách tiếp cận hoàn toàn mới cho việc chỉnh sửa hình ảnh ngay trong khung chat.
Chào đón Tết Nguyên đán 2026, Viettel công bố ra mắt gói cước chuyên biệt TET26 trong bối cảnh mạng 5G Viettel đã phủ sóng 100% tỉnh, thành phố, cũng như toàn bộ các lễ hội, sự kiện lớn trên cả nước.
YouTube Music bắt đầu hạn chế quyền xem lời bài hát với người dùng sử dụng miễn phí, đưa tính năng phổ biến này vào nhóm dịch vụ dành cho thuê bao Premium.
Chính trường Đức đang xuất hiện cuộc tranh luận mới về việc có nên đặt ra độ tuổi tối thiểu sử dụng mạng xã hội ở mức 16, trong bối cảnh gia tăng lo ngại về tác động tiêu cực của môi trường số đối với trẻ em và thanh thiếu niên.
Google dự kiến điều chỉnh cách hệ thống nhận diện và phân loại địa chỉ tại Việt Nam, dựa trên các thay đổi địa danh hành chính mới, sớm nhất từ giữa tháng 2/2026.
iPhone không kết nối được Bluetooth là lỗi khá phổ biến khiến nhiều người gặp khó khăn khi muốn ghép nối tai nghe, loa hoặc các thiết bị ngoại vi khác với điện thoại.
File PDF là một trong những định dạng văn bản phổ biến hiện nay nhờ tính bảo mật cao và khả năng giữ nguyên định dạng trên mọi thiết bị. Tuy nhiên, việc chỉnh sửa file PDF lại không đơn giản như các tài liệu Word hay Excel.
iPad là dòng máy tính bảng ngày càng được nhiều người yêu thích và tin dùng. Trong quá trình sử dụng, iPad có thể gặp sự cố không nhận SIM làm gián đoạn quá trình giải trí, học tập và làm việc của người dùng.
VNG (đơn vị vận hành Zalo) bị phạt tổng số tiền 810 triệu đồng, sau khi mắc hàng loạt vi phạm liên quan đến quyền lựa chọn và bảo vệ thông tin của người tiêu dùng trên nền tảng này.
Trong quá trình sử dụng hằng ngày, máy tính dễ phát sinh nhiều dữ liệu dư thừa làm giảm hiệu năng và chiếm dụng bộ nhớ. Việc xóa tệp rác đúng cách, đúng thời điểm sẽ giúp thiết bị hoạt động trơn tru hơn.
Trước đây, xóa lịch sử ChatGPT tốn công khi phải xóa từng cuộc trò chuyện. Bản mới cho phép xóa toàn bộ chỉ với một lần nhấn, thực hiện cả trên điện thoại và máy tính.
iOS 26 mang đến nhiều trải nghiệm thú vị hơn cùng Apple Intelligence tiếng Việt, giúp việc dùng iPhone trở nên tiện lợi hơn. Tuy nhiên, trong quá trình cập nhật, một số thiết bị lại phát sinh lỗi nhỏ do chưa tương thích hoàn toàn.
Google Dịch là công cụ dịch thuật “quốc dân” được ưa chuộng, vượt xa khỏi khả năng dịch văn bản thông thường. Ứng dụng này sở hữu tính năng dịch bằng camera cho phép bạn hiểu mọi thông tin được thể hiện dưới dạng hình ảnh.
Ngày nay, việc sử dụng điện thoại vào buổi tối đã trở thành thói quen phổ biến của nhiều người. Đây cũng chính là lý do khiến nhiều người quan tâm đến câu hỏi chế độ ban đêm trên điện thoại là gì và vì sao tính năng này lại được tích hợp sẵn trên hầu hết smartphone hiện đại.
Gửi định vị qua Zalo giúp bạn chia sẻ vị trí chính xác với người khác, để họ dễ tìm bạn hoặc theo dõi hành trình. Xem ngay hướng dẫn chi tiết trên điện thoại.
Bản cập nhật iOS mới có tính năng chuyển dữ liệu và thông báo sang các thiết bị không phải của Apple, hướng đi rất cởi mở so với cách tiếp cận đóng trước đây.