Đừng tin vào AI

Công ty đứng sau mô hình Claude cho rằng chuỗi suy nghĩ của AI ngày càng kém minh bạch hơn và có thể dễ dàng đánh lừa người dùng.

Anthropic cảnh báo lập luận của AI ngày càng kém minh bạch hơn. Ảnh: Bloomberg.
Anthropic cảnh báo lập luận của AI ngày càng kém minh bạch hơn. Ảnh: Bloomberg.

Trong khi nhiều công ty công nghệ đang nỗ lực minh bạch hóa các mô hình AI thông qua kỹ thuật chuỗi suy nghĩ (Chain-of-Thought – CoT), công ty nghiên cứu AI Anthropic, đơn vị phát triển mô hình Claude lại đưa ra cảnh báo rằng người dùng không nên tin vào lập luận của công cụ.

“Chúng ta không có lý do gì để tin rằng ngôn ngữ có thể truyền tải đầy đủ quá trình ra quyết định phức tạp của một mạng nơ-ron”, Anthropic viết trên blog chính thức.

Trong nghiên cứu mới nhất, nhóm chuyên gia của Anthropic đã thực hiện các thử nghiệm nhằm kiểm tra mức độ trung thực của chuỗi suy nghĩ do AI tạo ra. Bằng cách cung cấp những gợi ý, các chuyên gia phát hiện mô hình thường sử dụng thông tin cho trước trong quá trình đưa ra câu trả lời, nhưng lại không thừa nhận điều này trong phần giải thích.

Ví dụ với mô hình Claude 3.7 Sonnet, chỉ khoảng 25% lời giải thích đề cập tới các gợi ý của người dùng. Tỷ lệ này ở DeepSeek-R1 là khoảng 39%. Đáng chú ý hơn, khi được cung cấp thông tin nhạy cảm như truy cập trái phép vào hệ thống, mô hình Claude chỉ thừa nhận trong 41% trường hợp, còn DeepSeek-R1 là 19%.

Anthropic cảnh báo thêm rằng khi mô hình được đặt trong tình huống sai lệch, chúng sẵn sàng tạo ra các chuỗi suy nghĩ mang tính ngụy biện. Điều này đặt ra rủi ro lớn khi AI được ứng dụng trong các lĩnh vực yêu cầu độ tin cậy cao như y tế, tài chính, pháp lý hoặc an ninh quốc phòng.

Hiện tại, việc huấn luyện bổ sung hoặc yêu cầu mô hình trung thực hơn chưa mang lại hiệu quả. Các mô hình ngày càng có xu hướng "giấu bài", khiến việc kiểm soát nội dung suy luận trở nên khó khăn hơn.

Trong bối cảnh AI ngày càng phổ biến, nhiều tổ chức công nghệ cũng đang phát triển các công cụ hỗ trợ giám sát và đánh giá tính minh bạch của mô hình. Tuy nhiên, cảnh báo từ Anthropic cho thấy chuỗi suy nghĩ có thể là “tấm màn” che đậy quy trình thực sự bên trong các hệ thống trí tuệ nhân tạo.

znews.vn

Đọc thêm

Cách khôi phục video TikTok đã xóa đơn giản, hiệu quả

Cách khôi phục video TikTok đã xóa đơn giản, hiệu quả

TikTok hiện đã hỗ trợ tính năng khôi phục video bị xóa, giúp người dùng dễ dàng lấy lại nội dung quý giá chỉ với vài thao tác. Tính năng này chỉ có thể khôi phục video đã xóa trong vòng 30 ngày tính từ thời điểm bạn xóa video.
Át chủ bài của Samsung

Át chủ bài của Samsung

iPhone vẫn dẫn đầu doanh số tại Mỹ, nhưng làn sóng smartphone gập từ Samsung, Google và Motorola đang dần thách thức vị thế thống trị của Apple.
Năm sau không có iPhone 18

Năm sau không có iPhone 18

Apple có thể dời ngày ra mắt iPhone 18 sang đầu năm 2027, trong khi các model cao cấp được ưu tiên giới thiệu sớm hơn.
MacBook giá rẻ sắp thành hiện thực

MacBook giá rẻ sắp thành hiện thực

Phiên bản MacBook giá 600 USD dự kiến được Apple sản xuất hàng loạt vào cuối năm, hứa hẹn cạnh tranh nhiều thương hiệu trên thị trường.
Cách khắc phục lỗi iOS 26 nóng máy hiệu quả

Cách khắc phục lỗi iOS 26 nóng máy hiệu quả

Apple đã chính thức ra mắt iOS 26 với hàng loạt cải tiến hấp dẫn. Tuy nhiên, một số người dùng đã nhanh chóng phát hiện lỗi iOS 26 nóng máy, khiến quá trình sử dụng trở nên bất tiện.
Cách sửa lỗi Google Map không định vị

Cách sửa lỗi Google Map không định vị

Google Map lỗi định vị khiến việc tìm đường trở nên khó khăn. Dưới đây là cách xác định nguyên nhân và khắc phục nhanh lỗi định vị không hoạt động.