Đừng tin vào AI

Công ty đứng sau mô hình Claude cho rằng chuỗi suy nghĩ của AI ngày càng kém minh bạch hơn và có thể dễ dàng đánh lừa người dùng.

Anthropic cảnh báo lập luận của AI ngày càng kém minh bạch hơn. Ảnh: Bloomberg.
Anthropic cảnh báo lập luận của AI ngày càng kém minh bạch hơn. Ảnh: Bloomberg.

Trong khi nhiều công ty công nghệ đang nỗ lực minh bạch hóa các mô hình AI thông qua kỹ thuật chuỗi suy nghĩ (Chain-of-Thought – CoT), công ty nghiên cứu AI Anthropic, đơn vị phát triển mô hình Claude lại đưa ra cảnh báo rằng người dùng không nên tin vào lập luận của công cụ.

“Chúng ta không có lý do gì để tin rằng ngôn ngữ có thể truyền tải đầy đủ quá trình ra quyết định phức tạp của một mạng nơ-ron”, Anthropic viết trên blog chính thức.

Trong nghiên cứu mới nhất, nhóm chuyên gia của Anthropic đã thực hiện các thử nghiệm nhằm kiểm tra mức độ trung thực của chuỗi suy nghĩ do AI tạo ra. Bằng cách cung cấp những gợi ý, các chuyên gia phát hiện mô hình thường sử dụng thông tin cho trước trong quá trình đưa ra câu trả lời, nhưng lại không thừa nhận điều này trong phần giải thích.

Ví dụ với mô hình Claude 3.7 Sonnet, chỉ khoảng 25% lời giải thích đề cập tới các gợi ý của người dùng. Tỷ lệ này ở DeepSeek-R1 là khoảng 39%. Đáng chú ý hơn, khi được cung cấp thông tin nhạy cảm như truy cập trái phép vào hệ thống, mô hình Claude chỉ thừa nhận trong 41% trường hợp, còn DeepSeek-R1 là 19%.

Anthropic cảnh báo thêm rằng khi mô hình được đặt trong tình huống sai lệch, chúng sẵn sàng tạo ra các chuỗi suy nghĩ mang tính ngụy biện. Điều này đặt ra rủi ro lớn khi AI được ứng dụng trong các lĩnh vực yêu cầu độ tin cậy cao như y tế, tài chính, pháp lý hoặc an ninh quốc phòng.

Hiện tại, việc huấn luyện bổ sung hoặc yêu cầu mô hình trung thực hơn chưa mang lại hiệu quả. Các mô hình ngày càng có xu hướng "giấu bài", khiến việc kiểm soát nội dung suy luận trở nên khó khăn hơn.

Trong bối cảnh AI ngày càng phổ biến, nhiều tổ chức công nghệ cũng đang phát triển các công cụ hỗ trợ giám sát và đánh giá tính minh bạch của mô hình. Tuy nhiên, cảnh báo từ Anthropic cho thấy chuỗi suy nghĩ có thể là “tấm màn” che đậy quy trình thực sự bên trong các hệ thống trí tuệ nhân tạo.

znews.vn

Đọc thêm

Năm 2026 sẽ không có iPhone 18

Năm 2026 sẽ không có iPhone 18

Apple sẽ dời ngày ra mắt iPhone 18 tiêu chuẩn sang đầu năm 2027 thay vì cuối 2026. Nếu tin đồn chính xác, đây sẽ là thay đổi lớn trong chu kỳ ra mắt iPhone sau 20 năm.
Có nên vừa sạc vừa dùng MacBook không?

Có nên vừa sạc vừa dùng MacBook không?

Nhiều người thường thắc mắc “Có nên vừa sạc vừa dùng MacBook hay không?”. Liệu việc cắm sạc liên tục có ảnh hưởng tới tuổi thọ pin hay gây hư hỏng linh kiện bên trong máy?
Rác AI xâm chiếm YouTube

Rác AI xâm chiếm YouTube

Một nghiên cứu chỉ ra rằng nội dung rác do AI tạo ra đang chiếm tỷ lệ lớn trong các video YouTube đề xuất cho người dùng mới, mang về doanh thu hàng trăm triệu USD mỗi năm.
Cách tạo link Google Drive trên điện thoại và máy tính

Cách tạo link Google Drive trên điện thoại và máy tính

Google Drive nổi bật nhờ tính bảo mật cao, dung lượng lớn và khả năng chia sẻ linh hoạt. Chỉ với vài thao tác đơn giản, bạn có thể tạo link Google Drive để gửi tài liệu, hình ảnh hoặc video cho người khác mà không cần đính kèm tệp nặng nề qua email.
Cách cập nhật iOS 26.2 trên iPhone

Cách cập nhật iOS 26.2 trên iPhone

iOS 26.2 là một trong những bản cập nhật được đánh giá cao nhất về độ ổn định và hiệu năng kể từ khi iOS 26 ra mắt.
Nỗi lo với iPhone gập

Nỗi lo với iPhone gập

Dù chưa ra mắt, chiếc iPhone được mong chờ từ lâu có thể rơi vào tình cảnh sản xuất chậm trễ, nguồn cung không đủ đáp ứng nhu cầu của thị trường.