Đừng tin vào AI

Công ty đứng sau mô hình Claude cho rằng chuỗi suy nghĩ của AI ngày càng kém minh bạch hơn và có thể dễ dàng đánh lừa người dùng.

Anthropic cảnh báo lập luận của AI ngày càng kém minh bạch hơn. Ảnh: Bloomberg.
Anthropic cảnh báo lập luận của AI ngày càng kém minh bạch hơn. Ảnh: Bloomberg.

Trong khi nhiều công ty công nghệ đang nỗ lực minh bạch hóa các mô hình AI thông qua kỹ thuật chuỗi suy nghĩ (Chain-of-Thought – CoT), công ty nghiên cứu AI Anthropic, đơn vị phát triển mô hình Claude lại đưa ra cảnh báo rằng người dùng không nên tin vào lập luận của công cụ.

“Chúng ta không có lý do gì để tin rằng ngôn ngữ có thể truyền tải đầy đủ quá trình ra quyết định phức tạp của một mạng nơ-ron”, Anthropic viết trên blog chính thức.

Trong nghiên cứu mới nhất, nhóm chuyên gia của Anthropic đã thực hiện các thử nghiệm nhằm kiểm tra mức độ trung thực của chuỗi suy nghĩ do AI tạo ra. Bằng cách cung cấp những gợi ý, các chuyên gia phát hiện mô hình thường sử dụng thông tin cho trước trong quá trình đưa ra câu trả lời, nhưng lại không thừa nhận điều này trong phần giải thích.

Ví dụ với mô hình Claude 3.7 Sonnet, chỉ khoảng 25% lời giải thích đề cập tới các gợi ý của người dùng. Tỷ lệ này ở DeepSeek-R1 là khoảng 39%. Đáng chú ý hơn, khi được cung cấp thông tin nhạy cảm như truy cập trái phép vào hệ thống, mô hình Claude chỉ thừa nhận trong 41% trường hợp, còn DeepSeek-R1 là 19%.

Anthropic cảnh báo thêm rằng khi mô hình được đặt trong tình huống sai lệch, chúng sẵn sàng tạo ra các chuỗi suy nghĩ mang tính ngụy biện. Điều này đặt ra rủi ro lớn khi AI được ứng dụng trong các lĩnh vực yêu cầu độ tin cậy cao như y tế, tài chính, pháp lý hoặc an ninh quốc phòng.

Hiện tại, việc huấn luyện bổ sung hoặc yêu cầu mô hình trung thực hơn chưa mang lại hiệu quả. Các mô hình ngày càng có xu hướng "giấu bài", khiến việc kiểm soát nội dung suy luận trở nên khó khăn hơn.

Trong bối cảnh AI ngày càng phổ biến, nhiều tổ chức công nghệ cũng đang phát triển các công cụ hỗ trợ giám sát và đánh giá tính minh bạch của mô hình. Tuy nhiên, cảnh báo từ Anthropic cho thấy chuỗi suy nghĩ có thể là “tấm màn” che đậy quy trình thực sự bên trong các hệ thống trí tuệ nhân tạo.

znews.vn

Đọc thêm

Khắc phục tình trạng iOS 26 lỗi chụp màn hình

Khắc phục tình trạng iOS 26 lỗi chụp màn hình

iOS 26 mang đến nhiều trải nghiệm thú vị hơn cùng Apple Intelligence tiếng Việt, giúp việc dùng iPhone trở nên tiện lợi hơn. Tuy nhiên, trong quá trình cập nhật, một số thiết bị lại phát sinh lỗi nhỏ do chưa tương thích hoàn toàn.
Cách sử dụng Google dịch hình ảnh trên iPhone

Cách sử dụng Google dịch hình ảnh trên iPhone

Google Dịch là công cụ dịch thuật “quốc dân” được ưa chuộng, vượt xa khỏi khả năng dịch văn bản thông thường. Ứng dụng này sở hữu tính năng dịch bằng camera cho phép bạn hiểu mọi thông tin được thể hiện dưới dạng hình ảnh.
Vì sao nhiều người sử dụng chế độ ban đêm trên điện thoại?

Vì sao nhiều người sử dụng chế độ ban đêm trên điện thoại?

Ngày nay, việc sử dụng điện thoại vào buổi tối đã trở thành thói quen phổ biến của nhiều người. Đây cũng chính là lý do khiến nhiều người quan tâm đến câu hỏi chế độ ban đêm trên điện thoại là gì và vì sao tính năng này lại được tích hợp sẵn trên hầu hết smartphone hiện đại.
Sắp không nhận ra iPhone

Sắp không nhận ra iPhone

Bản cập nhật iOS mới có tính năng chuyển dữ liệu và thông báo sang các thiết bị không phải của Apple, hướng đi rất cởi mở so với cách tiếp cận đóng trước đây.
Cách kết nối MacBook với máy in qua Wifi

Cách kết nối MacBook với máy in qua Wifi

Việc in ấn tài liệu từ MacBook giờ đây trở nên dễ dàng hơn bao giờ hết nhờ khả năng kết nối không dây. Thay vì phải loay hoay với dây cáp rườm rà, bạn hoàn toàn có thể gửi lệnh in trực tiếp qua WiFi một cách nhanh chóng và tiện lợi.
Năm 2026 sẽ không có iPhone 18

Năm 2026 sẽ không có iPhone 18

Apple sẽ dời ngày ra mắt iPhone 18 tiêu chuẩn sang đầu năm 2027 thay vì cuối 2026. Nếu tin đồn chính xác, đây sẽ là thay đổi lớn trong chu kỳ ra mắt iPhone sau 20 năm.
Có nên vừa sạc vừa dùng MacBook không?

Có nên vừa sạc vừa dùng MacBook không?

Nhiều người thường thắc mắc “Có nên vừa sạc vừa dùng MacBook hay không?”. Liệu việc cắm sạc liên tục có ảnh hưởng tới tuổi thọ pin hay gây hư hỏng linh kiện bên trong máy?
Rác AI xâm chiếm YouTube

Rác AI xâm chiếm YouTube

Một nghiên cứu chỉ ra rằng nội dung rác do AI tạo ra đang chiếm tỷ lệ lớn trong các video YouTube đề xuất cho người dùng mới, mang về doanh thu hàng trăm triệu USD mỗi năm.
Cách tạo link Google Drive trên điện thoại và máy tính

Cách tạo link Google Drive trên điện thoại và máy tính

Google Drive nổi bật nhờ tính bảo mật cao, dung lượng lớn và khả năng chia sẻ linh hoạt. Chỉ với vài thao tác đơn giản, bạn có thể tạo link Google Drive để gửi tài liệu, hình ảnh hoặc video cho người khác mà không cần đính kèm tệp nặng nề qua email.