Đừng tin vào AI

Công ty đứng sau mô hình Claude cho rằng chuỗi suy nghĩ của AI ngày càng kém minh bạch hơn và có thể dễ dàng đánh lừa người dùng.

Anthropic cảnh báo lập luận của AI ngày càng kém minh bạch hơn. Ảnh: Bloomberg.
Anthropic cảnh báo lập luận của AI ngày càng kém minh bạch hơn. Ảnh: Bloomberg.

Trong khi nhiều công ty công nghệ đang nỗ lực minh bạch hóa các mô hình AI thông qua kỹ thuật chuỗi suy nghĩ (Chain-of-Thought – CoT), công ty nghiên cứu AI Anthropic, đơn vị phát triển mô hình Claude lại đưa ra cảnh báo rằng người dùng không nên tin vào lập luận của công cụ.

“Chúng ta không có lý do gì để tin rằng ngôn ngữ có thể truyền tải đầy đủ quá trình ra quyết định phức tạp của một mạng nơ-ron”, Anthropic viết trên blog chính thức.

Trong nghiên cứu mới nhất, nhóm chuyên gia của Anthropic đã thực hiện các thử nghiệm nhằm kiểm tra mức độ trung thực của chuỗi suy nghĩ do AI tạo ra. Bằng cách cung cấp những gợi ý, các chuyên gia phát hiện mô hình thường sử dụng thông tin cho trước trong quá trình đưa ra câu trả lời, nhưng lại không thừa nhận điều này trong phần giải thích.

Ví dụ với mô hình Claude 3.7 Sonnet, chỉ khoảng 25% lời giải thích đề cập tới các gợi ý của người dùng. Tỷ lệ này ở DeepSeek-R1 là khoảng 39%. Đáng chú ý hơn, khi được cung cấp thông tin nhạy cảm như truy cập trái phép vào hệ thống, mô hình Claude chỉ thừa nhận trong 41% trường hợp, còn DeepSeek-R1 là 19%.

Anthropic cảnh báo thêm rằng khi mô hình được đặt trong tình huống sai lệch, chúng sẵn sàng tạo ra các chuỗi suy nghĩ mang tính ngụy biện. Điều này đặt ra rủi ro lớn khi AI được ứng dụng trong các lĩnh vực yêu cầu độ tin cậy cao như y tế, tài chính, pháp lý hoặc an ninh quốc phòng.

Hiện tại, việc huấn luyện bổ sung hoặc yêu cầu mô hình trung thực hơn chưa mang lại hiệu quả. Các mô hình ngày càng có xu hướng "giấu bài", khiến việc kiểm soát nội dung suy luận trở nên khó khăn hơn.

Trong bối cảnh AI ngày càng phổ biến, nhiều tổ chức công nghệ cũng đang phát triển các công cụ hỗ trợ giám sát và đánh giá tính minh bạch của mô hình. Tuy nhiên, cảnh báo từ Anthropic cho thấy chuỗi suy nghĩ có thể là “tấm màn” che đậy quy trình thực sự bên trong các hệ thống trí tuệ nhân tạo.

znews.vn

Đọc thêm

Cách dùng Photoshop trực tiếp trong ChatGPT

Cách dùng Photoshop trực tiếp trong ChatGPT

Adobe Photoshop được tích hợp thẳng vào ChatGPT trên máy tính và điện thoại mở ra cách tiếp cận hoàn toàn mới cho việc chỉnh sửa hình ảnh ngay trong khung chat.
Đức tranh luận về bài toán cấm mạng xã hội với trẻ U16

Đức tranh luận về bài toán cấm mạng xã hội với trẻ U16

Chính trường Đức đang xuất hiện cuộc tranh luận mới về việc có nên đặt ra độ tuổi tối thiểu sử dụng mạng xã hội ở mức 16, trong bối cảnh gia tăng lo ngại về tác động tiêu cực của môi trường số đối với trẻ em và thanh thiếu niên.
Cách xử lý iPhone bắt Wifi yếu

Cách xử lý iPhone bắt Wifi yếu

Tình trạng iPhone bắt Wifi yếu không chỉ đơn thuần là một lỗi kỹ thuật, mà còn là rào cản ngăn bạn tiếp cận với thế giới số một cách trọn vẹn.
Tin buồn cho iPhone 18 Pro

Tin buồn cho iPhone 18 Pro

Một nguồn tin khẳng định iPhone 18 Pro sẽ không có sự thay đổi lớn về thiết kế do những nâng cấp trên iPhone 17 Pro đã quá thành công.
iPhone 18 tăng giá?

iPhone 18 tăng giá?

Làn sóng tăng giá bộ nhớ do nhu cầu máy chủ AI bùng nổ đang lan rộng ra toàn bộ chuỗi cung ứng, đẩy Apple vào thế khó khi chuẩn bị ra mắt iPhone 18.
Cách chỉnh sửa file PDF đơn giản, hiệu quả

Cách chỉnh sửa file PDF đơn giản, hiệu quả

File PDF là một trong những định dạng văn bản phổ biến hiện nay nhờ tính bảo mật cao và khả năng giữ nguyên định dạng trên mọi thiết bị. Tuy nhiên, việc chỉnh sửa file PDF lại không đơn giản như các tài liệu Word hay Excel.
Cách khắc phục lỗi iPad không nhận SIM

Cách khắc phục lỗi iPad không nhận SIM

iPad là dòng máy tính bảng ngày càng được nhiều người yêu thích và tin dùng. Trong quá trình sử dụng, iPad có thể gặp sự cố không nhận SIM làm gián đoạn quá trình giải trí, học tập và làm việc của người dùng.
Xóa tệp rác đúng cách giúp máy tính chạy nhanh và bền

Xóa tệp rác đúng cách giúp máy tính chạy nhanh và bền

Trong quá trình sử dụng hằng ngày, máy tính dễ phát sinh nhiều dữ liệu dư thừa làm giảm hiệu năng và chiếm dụng bộ nhớ. Việc xóa tệp rác đúng cách, đúng thời điểm sẽ giúp thiết bị hoạt động trơn tru hơn.
Khắc phục tình trạng iOS 26 lỗi chụp màn hình

Khắc phục tình trạng iOS 26 lỗi chụp màn hình

iOS 26 mang đến nhiều trải nghiệm thú vị hơn cùng Apple Intelligence tiếng Việt, giúp việc dùng iPhone trở nên tiện lợi hơn. Tuy nhiên, trong quá trình cập nhật, một số thiết bị lại phát sinh lỗi nhỏ do chưa tương thích hoàn toàn.
Cách sử dụng Google dịch hình ảnh trên iPhone

Cách sử dụng Google dịch hình ảnh trên iPhone

Google Dịch là công cụ dịch thuật “quốc dân” được ưa chuộng, vượt xa khỏi khả năng dịch văn bản thông thường. Ứng dụng này sở hữu tính năng dịch bằng camera cho phép bạn hiểu mọi thông tin được thể hiện dưới dạng hình ảnh.
Vì sao nhiều người sử dụng chế độ ban đêm trên điện thoại?

Vì sao nhiều người sử dụng chế độ ban đêm trên điện thoại?

Ngày nay, việc sử dụng điện thoại vào buổi tối đã trở thành thói quen phổ biến của nhiều người. Đây cũng chính là lý do khiến nhiều người quan tâm đến câu hỏi chế độ ban đêm trên điện thoại là gì và vì sao tính năng này lại được tích hợp sẵn trên hầu hết smartphone hiện đại.
Sắp không nhận ra iPhone

Sắp không nhận ra iPhone

Bản cập nhật iOS mới có tính năng chuyển dữ liệu và thông báo sang các thiết bị không phải của Apple, hướng đi rất cởi mở so với cách tiếp cận đóng trước đây.