Đừng tin vào AI

Công ty đứng sau mô hình Claude cho rằng chuỗi suy nghĩ của AI ngày càng kém minh bạch hơn và có thể dễ dàng đánh lừa người dùng.

Anthropic cảnh báo lập luận của AI ngày càng kém minh bạch hơn. Ảnh: Bloomberg.
Anthropic cảnh báo lập luận của AI ngày càng kém minh bạch hơn. Ảnh: Bloomberg.

Trong khi nhiều công ty công nghệ đang nỗ lực minh bạch hóa các mô hình AI thông qua kỹ thuật chuỗi suy nghĩ (Chain-of-Thought – CoT), công ty nghiên cứu AI Anthropic, đơn vị phát triển mô hình Claude lại đưa ra cảnh báo rằng người dùng không nên tin vào lập luận của công cụ.

“Chúng ta không có lý do gì để tin rằng ngôn ngữ có thể truyền tải đầy đủ quá trình ra quyết định phức tạp của một mạng nơ-ron”, Anthropic viết trên blog chính thức.

Trong nghiên cứu mới nhất, nhóm chuyên gia của Anthropic đã thực hiện các thử nghiệm nhằm kiểm tra mức độ trung thực của chuỗi suy nghĩ do AI tạo ra. Bằng cách cung cấp những gợi ý, các chuyên gia phát hiện mô hình thường sử dụng thông tin cho trước trong quá trình đưa ra câu trả lời, nhưng lại không thừa nhận điều này trong phần giải thích.

Ví dụ với mô hình Claude 3.7 Sonnet, chỉ khoảng 25% lời giải thích đề cập tới các gợi ý của người dùng. Tỷ lệ này ở DeepSeek-R1 là khoảng 39%. Đáng chú ý hơn, khi được cung cấp thông tin nhạy cảm như truy cập trái phép vào hệ thống, mô hình Claude chỉ thừa nhận trong 41% trường hợp, còn DeepSeek-R1 là 19%.

Anthropic cảnh báo thêm rằng khi mô hình được đặt trong tình huống sai lệch, chúng sẵn sàng tạo ra các chuỗi suy nghĩ mang tính ngụy biện. Điều này đặt ra rủi ro lớn khi AI được ứng dụng trong các lĩnh vực yêu cầu độ tin cậy cao như y tế, tài chính, pháp lý hoặc an ninh quốc phòng.

Hiện tại, việc huấn luyện bổ sung hoặc yêu cầu mô hình trung thực hơn chưa mang lại hiệu quả. Các mô hình ngày càng có xu hướng "giấu bài", khiến việc kiểm soát nội dung suy luận trở nên khó khăn hơn.

Trong bối cảnh AI ngày càng phổ biến, nhiều tổ chức công nghệ cũng đang phát triển các công cụ hỗ trợ giám sát và đánh giá tính minh bạch của mô hình. Tuy nhiên, cảnh báo từ Anthropic cho thấy chuỗi suy nghĩ có thể là “tấm màn” che đậy quy trình thực sự bên trong các hệ thống trí tuệ nhân tạo.

znews.vn

Đọc thêm

Lý do AI của iPhone tốt hơn Android

Lý do AI của iPhone tốt hơn Android

Nhiều tính năng mới của trí tuệ nhân tạo của Apple hoạt động trên thiết bị hoặc đám mây bảo mật. Đây là lợi thế cạnh tranh so với các thiết bị Android.
Loạt tính năng AI mới của Apple

Loạt tính năng AI mới của Apple

Apple Intelligence sẽ hỗ trợ tiếng Việt vào cuối năm, thêm tính năng dịch trực tiếp, nhận dạng hình ảnh để tìm kiếm hoặc lấy thông tin, tạo hình với ChatGPT.
BlackBerry sắp trở lại

BlackBerry sắp trở lại

Một công ty Trung Quốc muốn hồi sinh mẫu smartphone BlackBerry Classic (Q20) với hệ điều hành Android và trang bị phần cứng hiện đại.
AI có hại cho trẻ em?

AI có hại cho trẻ em?

Trong bối cảnh AI tạo sinh ngày càng dễ tiếp cận, các chuyên gia và phụ huynh cần quan tâm nhiều hơn về tác động của chatbot AI lên tâm lý trẻ em.
Hồi chuông báo động cho Apple

Hồi chuông báo động cho Apple

Sự kết hợp giữa OpenAI, cha đẻ ChatGPT và bậc thầy thiết kế Jony Ive trong việc tạo ra một thế hệ thiết bị AI mới khiến cách tiếp cận của Apple bị đặt dấu hỏi.
iPhone 17 sẽ đắt đến đâu?

iPhone 17 sẽ đắt đến đâu?

Dựa vào chính sách thuế thay đổi liên tục, xu hướng giá của các đời máy trước, iPhone 17 có thể là chiếc iPhone đắt nhất từ trước đến nay.
Viettel đấu giá thành công băng tần 700 MHz

Viettel đấu giá thành công băng tần 700 MHz

Tập đoàn Công nghiệp - Viễn thông Quân đội (Viettel) vừa đấu giá thành công quyền sử dụng tần số vô tuyến điện đối với khối tần B2 – B2’ của băng tần 700MHz trong vòng 15 năm tới.
Đừng mắc lỗi ngớ ngẩn này khi dùng AI

Đừng mắc lỗi ngớ ngẩn này khi dùng AI

Việc sử dụng AI để tạo nội dung vẫn thường thấy trên các nền tảng. Tuy nhiên, một số người dùng quên bỏ câu dẫn nhập của AI, tạo ra những lỗi ngớ ngẩn.