Công ty đứng sau mô hình Claude cho rằng chuỗi suy nghĩ của AI ngày càng kém minh bạch hơn và có thể dễ dàng đánh lừa người dùng.
Anthropic cảnh báo lập luận của AI ngày càng kém minh bạch hơn. Ảnh: Bloomberg.
Trong khi nhiều công ty công nghệ đang nỗ lực minh bạch hóa các mô hình AI thông qua kỹ thuật chuỗi suy nghĩ (Chain-of-Thought – CoT), công ty nghiên cứu AI Anthropic, đơn vị phát triển mô hình Claude lại đưa ra cảnh báo rằng người dùng không nên tin vào lập luận của công cụ.
“Chúng ta không có lý do gì để tin rằng ngôn ngữ có thể truyền tải đầy đủ quá trình ra quyết định phức tạp của một mạng nơ-ron”, Anthropic viết trên blog chính thức.
Trong nghiên cứu mới nhất, nhóm chuyên gia của Anthropic đã thực hiện các thử nghiệm nhằm kiểm tra mức độ trung thực của chuỗi suy nghĩ do AI tạo ra. Bằng cách cung cấp những gợi ý, các chuyên gia phát hiện mô hình thường sử dụng thông tin cho trước trong quá trình đưa ra câu trả lời, nhưng lại không thừa nhận điều này trong phần giải thích.
Ví dụ với mô hình Claude 3.7 Sonnet, chỉ khoảng 25% lời giải thích đề cập tới các gợi ý của người dùng. Tỷ lệ này ở DeepSeek-R1 là khoảng 39%. Đáng chú ý hơn, khi được cung cấp thông tin nhạy cảm như truy cập trái phép vào hệ thống, mô hình Claude chỉ thừa nhận trong 41% trường hợp, còn DeepSeek-R1 là 19%.
Anthropic cảnh báo thêm rằng khi mô hình được đặt trong tình huống sai lệch, chúng sẵn sàng tạo ra các chuỗi suy nghĩ mang tính ngụy biện. Điều này đặt ra rủi ro lớn khi AI được ứng dụng trong các lĩnh vực yêu cầu độ tin cậy cao như y tế, tài chính, pháp lý hoặc an ninh quốc phòng.
Hiện tại, việc huấn luyện bổ sung hoặc yêu cầu mô hình trung thực hơn chưa mang lại hiệu quả. Các mô hình ngày càng có xu hướng "giấu bài", khiến việc kiểm soát nội dung suy luận trở nên khó khăn hơn.
Trong bối cảnh AI ngày càng phổ biến, nhiều tổ chức công nghệ cũng đang phát triển các công cụ hỗ trợ giám sát và đánh giá tính minh bạch của mô hình. Tuy nhiên, cảnh báo từ Anthropic cho thấy chuỗi suy nghĩ có thể là “tấm màn” che đậy quy trình thực sự bên trong các hệ thống trí tuệ nhân tạo.
Gemini nay có thể sáng tác nhạc nhờ mô hình Lyria 3, cho phép tạo giai điệu pop, rap, R&B hay cinematic từ mô tả ngắn, giúp bạn dễ dàng thử ý tưởng âm nhạc chỉ trong vài giây.
Indonesia tuyên bố cấm trẻ em dưới 16 tuổi truy cập mạng xã hội do lo ngại những nguy cơ như nội dung khiêu dâm, lừa đảo trực tuyến hay chứng nghiện Internet.
Khi sử dụng TikTok, bạn có thể gặp phải những tin nhắn không mong muốn từ người lạ. TikTok cung cấp các công cụ để người dùng kiểm soát quyền riêng tư và chặn những tin nhắn gây phiền toái.
Tối 4/3, Apple đã giới thiệu dòng máy tính xách tay giá rẻ mới nhất của hãng. Đúng như những thông tin rò rỉ trước đó, thiết bị có tên gọi MacBook Neo.
Thị trường TV toàn cầu đối mặt nguy cơ tăng giá mạnh trong năm 2026 khi cơn sốt AI đang hút cạn nguồn cung chip nhớ, đẩy chi phí sản xuất và giá bán leo thang.
Tính năng thu hồi tin nhắn iMessage trên iOS 18.7 giúp người dùng iPhone xử lý nhanh các tin nhắn gửi nhầm, chỉnh sửa lỗi và kiểm soát nội dung trò chuyện.
Thỉnh thoảng khi lướt TikTok bạn sẽ thấy một vài video có nhạc nền rất hợp để đặt làm báo thức. Với vài thao tác đơn giản, bạn có thể tải bài nhạc đó về và cài cho nhạc chuông báo thức của mình.
Tổng Công ty Viễn thông Viettel (Viettel Telecom) vừa được đề cử Giải thưởng GLOMO Awards – giải thưởng uy tín hàng đầu thế giới trong lĩnh vực di động do GSMA tổ chức.
Với người dùng iPhone, một trong những vấn đề thường gặp nhất sau thời gian dài sử dụng chính là pin nhanh hao, phải sạc nhiều lần trong ngày. Chính vì vậy, giải pháp thay pin dung lượng cao ngày càng được nhiều người quan tâm.
Chụp màn hình MacBook là kỹ năng hữu ích giúp lưu nhanh nội dung hiển thị. Bài viết chia sẻ các cách chụp đơn giản, nhanh chóng để bạn ghi lại thông thông tin cần thiết mọi lúc.
MacBook giá rẻ sẽ có kích thước màn hình 13 inch, tương tự các mẫu MacBook Air hiện hành. Nhiều khả năng, Apple sẽ tận dụng lại thiết kế của MacBook Air để tối ưu chi phí nghiên cứu và phát triển.
Từ ngày 15/4, messenger.com sẽ ngừng hỗ trợ nhắn tin. Người dùng máy tính bị buộc chuyển sang trang web Facebook, mất đi không gian chat tách biệt khỏi mạng xã hội.
Sau một thời gian chờ đợi thông qua các phiên bản thử nghiệm, Apple đã gửi tới người dùng toàn cầu bản phát hành chính thức của hệ điều hành mới nhất iOS 26.3.
Các chuyên gia phát hiện tin tặc cố gắng sao chép Gemini bằng cách tấn công chưng cất kiến thức, trong đó có chiến dịch sử dụng 100.000 câu lệnh (prompt) để hiểu cách Gemini hoạt động.
Trong bối cảnh mẫu iPhone gập đầu tiên được kỳ vọng sẽ có thiết kế dạng cuốn sách, một nguồn tin rò rỉ mới đây khẳng định Apple cũng đang thử nghiệm song song phiên bản gập vỏ sò (clamshell).
Trên điện thoại realme, dù đã đăng xuất Google, tài khoản vẫn có thể lưu và đăng nhập lại không cần mật khẩu, tiềm ẩn rủi ro bảo mật khi cho mượn hoặc bán máy.