Công ty đứng sau mô hình Claude cho rằng chuỗi suy nghĩ của AI ngày càng kém minh bạch hơn và có thể dễ dàng đánh lừa người dùng.
Anthropic cảnh báo lập luận của AI ngày càng kém minh bạch hơn. Ảnh: Bloomberg.
Trong khi nhiều công ty công nghệ đang nỗ lực minh bạch hóa các mô hình AI thông qua kỹ thuật chuỗi suy nghĩ (Chain-of-Thought – CoT), công ty nghiên cứu AI Anthropic, đơn vị phát triển mô hình Claude lại đưa ra cảnh báo rằng người dùng không nên tin vào lập luận của công cụ.
“Chúng ta không có lý do gì để tin rằng ngôn ngữ có thể truyền tải đầy đủ quá trình ra quyết định phức tạp của một mạng nơ-ron”, Anthropic viết trên blog chính thức.
Trong nghiên cứu mới nhất, nhóm chuyên gia của Anthropic đã thực hiện các thử nghiệm nhằm kiểm tra mức độ trung thực của chuỗi suy nghĩ do AI tạo ra. Bằng cách cung cấp những gợi ý, các chuyên gia phát hiện mô hình thường sử dụng thông tin cho trước trong quá trình đưa ra câu trả lời, nhưng lại không thừa nhận điều này trong phần giải thích.
Ví dụ với mô hình Claude 3.7 Sonnet, chỉ khoảng 25% lời giải thích đề cập tới các gợi ý của người dùng. Tỷ lệ này ở DeepSeek-R1 là khoảng 39%. Đáng chú ý hơn, khi được cung cấp thông tin nhạy cảm như truy cập trái phép vào hệ thống, mô hình Claude chỉ thừa nhận trong 41% trường hợp, còn DeepSeek-R1 là 19%.
Anthropic cảnh báo thêm rằng khi mô hình được đặt trong tình huống sai lệch, chúng sẵn sàng tạo ra các chuỗi suy nghĩ mang tính ngụy biện. Điều này đặt ra rủi ro lớn khi AI được ứng dụng trong các lĩnh vực yêu cầu độ tin cậy cao như y tế, tài chính, pháp lý hoặc an ninh quốc phòng.
Hiện tại, việc huấn luyện bổ sung hoặc yêu cầu mô hình trung thực hơn chưa mang lại hiệu quả. Các mô hình ngày càng có xu hướng "giấu bài", khiến việc kiểm soát nội dung suy luận trở nên khó khăn hơn.
Trong bối cảnh AI ngày càng phổ biến, nhiều tổ chức công nghệ cũng đang phát triển các công cụ hỗ trợ giám sát và đánh giá tính minh bạch của mô hình. Tuy nhiên, cảnh báo từ Anthropic cho thấy chuỗi suy nghĩ có thể là “tấm màn” che đậy quy trình thực sự bên trong các hệ thống trí tuệ nhân tạo.
Muốn xem nhật ký Zalo, bạn chỉ cần nhấn biểu tượng đồng hồ trên điện thoại. Với PC hoặc web, cần dùng giả lập Android để truy cập và quản lý quyền riêng tư.
Phần lớn người dùng quan tâm tới tốc độ gói cước, thường được thể hiện bằng chỉ số Mbps. Tuy nhiên, ngoài tốc độ, còn nhiều yếu tố khác ảnh hưởng đến chất lượng và giá trị của dịch vụ.
Nhiều quốc gia đang tăng cường kiểm soát việc sử dụng mạng xã hội của trẻ vị thành niên, song hiệu quả và tính khả thi của các biện pháp này vẫn đang gây tranh cãi.
Chủ động đầu tư hạ tầng công nghệ, triển khai lực lượng hỗ trợ rộng khắp và mở rộng nhiều điểm phục vụ trên toàn quốc, Viettel đang tạo điều kiện để khách hàng thực hiện xác thực thông tin thuê bao theo quy định, bảo vệ SIM chính chủ và hạn chế nguy cơ gián đoạn liên lạc.
Đồng bộ danh bạ trên Messenger giúp bạn dễ dàng tìm và kết nối với bạn bè, nhưng đôi khi lại gây phiền khi hiển thị quá nhiều liên hệ không cần thiết. Nếu muốn kiểm soát danh sách này tốt hơn, bạn hoàn toàn có thể tắt tính năng đồng bộ.
Từ ngày 15/4/2026, quy định xác thực sinh trắc học khuôn mặt đối với thuê bao di động của Bộ Khoa học và Công nghệ chính thức có hiệu lực. Với các thuê bao đã sử dụng số điện thoại để đăng ký tài khoản VNeID mức độ 2 hoặc đã xác thực bằng căn cước công dân gắn chip sẽ không phải thực hiện xác thực lại, trừ trường hợp có thay đổi thiết bị từ ngày 15/6.
Điều tra của New Yorker dựa trên khoảng 200 trang tài liệu nội bộ và hơn 100 cuộc phỏng vấn kết luận Sam Altman liên tục nói dối và ưu tiên quyền lực hơn an toàn AI.
Vì một lý do nào đó mà bạn muốn tìm lại những cuộc trò chuyện đã bị ẩn trên tài khoản Zalo nhưng lại không nhớ tên người liên hệ? Điều này khiến nhiều người gặp khó khăn khi muốn mở lại tin nhắn để xem nội dung cũ.
Apple dự kiến ra mắt iPhone Ultra màn hình gập vào năm 2026 với mức giá vượt ngưỡng 2.000 USD, đánh dấu bước ngoặt mới trong phân khúc smartphone siêu cao cấp.
Nếu bạn quên mật khẩu cũ và không biết cách đổi mật khẩu Facebook, đừng quá lo lắng. Bài viết sẽ hướng dẫn chi tiết cách đặt lại mật khẩu và khôi phục quyền truy cập tài khoản trên máy tính hoặc iPhone.
Dù sở hữu thông số camera ấn tượng, cách phân bổ cảm biến của Samsung trên dòng Galaxy Ultra đang bộc lộ nhiều hạn chế về trải nghiệm thực tế và hiệu suất vận hành.
Bạn muốn bật ghi chú trên Instagram nhưng chưa biết cách? Bài viết sẽ hướng dẫn cách bật, tắt ghi chú, thêm nhạc vào ghi chú và cách xem ghi chú Instagram nhanh chóng.
Điện thoại hiển thị cột sóng đầy đủ, nhưng mỗi lần thực hiện cuộc gọi lại báo lỗi, không kết nối được hoặc bị ngắt ngay lập tức. Sự cố này có thể xuất phát từ nhiều nguyên nhân khác nhau.
Tình trạng điện thoại bị nóng là vấn đề nhiều người gặp phải trong quá trình sử dụng hằng ngày. Máy nóng không chỉ gây khó chịu khi cầm nắm mà còn ảnh hưởng đến hiệu suất, tuổi thọ pin và độ bền linh kiện bên trong.
Kiểm soát kết nối WiFi giúp mạng luôn ổn định và bảo vệ thông tin cá nhân. Nếu phát hiện thiết bị lạ truy cập, bạn có thể nhanh chóng chặn chúng ngay trên điện thoại chỉ với vài thao tác đơn giản.
iFixit chấm Galaxy S26 Ultra 5/10 về khả năng sửa chữa, tương tự S25 Ultra ra mắt năm ngoái. Màn hình vẫn là điểm yếu lớn nhất khi chi phí thay thế có thể lên đến 399 USD.
Meta đang xây dựng trợ lý AI riêng cho CEO Zuckerberg và triển khai hàng loạt công cụ AI nội bộ, trong bối cảnh công ty muốn vận hành tinh gọn để cạnh tranh với các startup AI.