Công ty đứng sau mô hình Claude cho rằng chuỗi suy nghĩ của AI ngày càng kém minh bạch hơn và có thể dễ dàng đánh lừa người dùng.
Anthropic cảnh báo lập luận của AI ngày càng kém minh bạch hơn. Ảnh: Bloomberg.
Trong khi nhiều công ty công nghệ đang nỗ lực minh bạch hóa các mô hình AI thông qua kỹ thuật chuỗi suy nghĩ (Chain-of-Thought – CoT), công ty nghiên cứu AI Anthropic, đơn vị phát triển mô hình Claude lại đưa ra cảnh báo rằng người dùng không nên tin vào lập luận của công cụ.
“Chúng ta không có lý do gì để tin rằng ngôn ngữ có thể truyền tải đầy đủ quá trình ra quyết định phức tạp của một mạng nơ-ron”, Anthropic viết trên blog chính thức.
Trong nghiên cứu mới nhất, nhóm chuyên gia của Anthropic đã thực hiện các thử nghiệm nhằm kiểm tra mức độ trung thực của chuỗi suy nghĩ do AI tạo ra. Bằng cách cung cấp những gợi ý, các chuyên gia phát hiện mô hình thường sử dụng thông tin cho trước trong quá trình đưa ra câu trả lời, nhưng lại không thừa nhận điều này trong phần giải thích.
Ví dụ với mô hình Claude 3.7 Sonnet, chỉ khoảng 25% lời giải thích đề cập tới các gợi ý của người dùng. Tỷ lệ này ở DeepSeek-R1 là khoảng 39%. Đáng chú ý hơn, khi được cung cấp thông tin nhạy cảm như truy cập trái phép vào hệ thống, mô hình Claude chỉ thừa nhận trong 41% trường hợp, còn DeepSeek-R1 là 19%.
Anthropic cảnh báo thêm rằng khi mô hình được đặt trong tình huống sai lệch, chúng sẵn sàng tạo ra các chuỗi suy nghĩ mang tính ngụy biện. Điều này đặt ra rủi ro lớn khi AI được ứng dụng trong các lĩnh vực yêu cầu độ tin cậy cao như y tế, tài chính, pháp lý hoặc an ninh quốc phòng.
Hiện tại, việc huấn luyện bổ sung hoặc yêu cầu mô hình trung thực hơn chưa mang lại hiệu quả. Các mô hình ngày càng có xu hướng "giấu bài", khiến việc kiểm soát nội dung suy luận trở nên khó khăn hơn.
Trong bối cảnh AI ngày càng phổ biến, nhiều tổ chức công nghệ cũng đang phát triển các công cụ hỗ trợ giám sát và đánh giá tính minh bạch của mô hình. Tuy nhiên, cảnh báo từ Anthropic cho thấy chuỗi suy nghĩ có thể là “tấm màn” che đậy quy trình thực sự bên trong các hệ thống trí tuệ nhân tạo.
Kiểm soát kết nối WiFi giúp mạng luôn ổn định và bảo vệ thông tin cá nhân. Nếu phát hiện thiết bị lạ truy cập, bạn có thể nhanh chóng chặn chúng ngay trên điện thoại chỉ với vài thao tác đơn giản.
iFixit chấm Galaxy S26 Ultra 5/10 về khả năng sửa chữa, tương tự S25 Ultra ra mắt năm ngoái. Màn hình vẫn là điểm yếu lớn nhất khi chi phí thay thế có thể lên đến 399 USD.
Meta đang xây dựng trợ lý AI riêng cho CEO Zuckerberg và triển khai hàng loạt công cụ AI nội bộ, trong bối cảnh công ty muốn vận hành tinh gọn để cạnh tranh với các startup AI.
Nhiều người trẻ đang dần đánh mất năng lực tư duy độc lập và bản năng sinh tồn khi phó mặc mọi quyết định từ việc ăn uống, yêu đương đến sức khỏe cho trí tuệ nhân tạo.
Sau nhiều năm bị chỉ trích là chỉ mang đến những bản nâng cấp "bình mới rượu cũ", Samsung Electronics cuối cùng đã có một bước đi gây tiếng vang thực sự.
Tổng Công ty Viễn thông Viettel (Viettel Telecom) vừa tổ chức Lễ tạo khóa chứng thư số cho dịch vụ chữ ký số từ xa MySign, dưới sự chứng kiến trực tiếp của Đoàn công tác Trung tâm Chứng thực điện tử quốc gia (Bộ Khoa học và Công nghệ).
Zalo đã trở thành ứng dụng quen thuộc trên điện thoại của nhiều người, giúp nhắn tin, gọi điện và trao đổi công việc một cách nhanh chóng. Tuy nhiên, trong quá trình sử dụng đôi khi người dùng vẫn có thể gặp phải một số sự cố gây gián đoạn trải nghiệm.
Gói sử dụng không giới hạn của ChatGPT sắp biến mất khi chi phí tính toán ngày càng tăng và AI trở nên tốn kém hơn, buộc OpenAI phải cân nhắc thay đổi cách thu phí người dùng.
Pin iPhone xuống cấp theo thời gian, song không phải ai cũng nhận ra đúng lúc để thay thế linh kiện. Đây là 9 dấu hiệu cho thấy đã đến lúc thay pin thay vì mua máy mới.
Trong quá trình sử dụng điện thoại Samsung, đôi khi bạn vô tình ẩn một ứng dụng và đến lúc cần dùng lại thì không biết nó đang nằm ở đâu. Ứng dụng không xuất hiện ngoài màn hình chính hay trong danh sách app có thể khiến nhiều người nhầm tưởng đã bị xóa.
Sự bùng nổ của các mô hình AI không chỉ hỗ trợ công việc mà còn đang trực tiếp tiếp sức cho tin tặc, biến các cuộc tấn công mạng thành một dây chuyền sản xuất tự động có sức công phá khủng khiếp.
Chỉ cần một vài thay đổi nhỏ trong thói quen sử dụng, bạn hoàn toàn có thể kéo dài tuổi thọ pin laptop đáng kể, đảm bảo thiết bị luôn hoạt động bền bỉ và ổn định.
Bạn muốn biết cách copy sheet trong Excel nhanh để tiết kiệm thời gian? Chỉ với vài thao tác đơn giản, bạn có thể sao chép một hoặc nhiều sheet mà vẫn giữ nguyên định dạng ban đầu.
Ra mắt cùng One UI 8.5 trên Galaxy S26 Series, Galaxy AI cho phép tạo sticker từ ảnh cá nhân chỉ trong vài bước, giúp bạn dễ dàng sáng tạo và chia sẻ sticker độc đáo.
Gemini nay có thể sáng tác nhạc nhờ mô hình Lyria 3, cho phép tạo giai điệu pop, rap, R&B hay cinematic từ mô tả ngắn, giúp bạn dễ dàng thử ý tưởng âm nhạc chỉ trong vài giây.
Indonesia tuyên bố cấm trẻ em dưới 16 tuổi truy cập mạng xã hội do lo ngại những nguy cơ như nội dung khiêu dâm, lừa đảo trực tuyến hay chứng nghiện Internet.