Công ty đứng sau mô hình Claude cho rằng chuỗi suy nghĩ của AI ngày càng kém minh bạch hơn và có thể dễ dàng đánh lừa người dùng.
Anthropic cảnh báo lập luận của AI ngày càng kém minh bạch hơn. Ảnh: Bloomberg.
Trong khi nhiều công ty công nghệ đang nỗ lực minh bạch hóa các mô hình AI thông qua kỹ thuật chuỗi suy nghĩ (Chain-of-Thought – CoT), công ty nghiên cứu AI Anthropic, đơn vị phát triển mô hình Claude lại đưa ra cảnh báo rằng người dùng không nên tin vào lập luận của công cụ.
“Chúng ta không có lý do gì để tin rằng ngôn ngữ có thể truyền tải đầy đủ quá trình ra quyết định phức tạp của một mạng nơ-ron”, Anthropic viết trên blog chính thức.
Trong nghiên cứu mới nhất, nhóm chuyên gia của Anthropic đã thực hiện các thử nghiệm nhằm kiểm tra mức độ trung thực của chuỗi suy nghĩ do AI tạo ra. Bằng cách cung cấp những gợi ý, các chuyên gia phát hiện mô hình thường sử dụng thông tin cho trước trong quá trình đưa ra câu trả lời, nhưng lại không thừa nhận điều này trong phần giải thích.
Ví dụ với mô hình Claude 3.7 Sonnet, chỉ khoảng 25% lời giải thích đề cập tới các gợi ý của người dùng. Tỷ lệ này ở DeepSeek-R1 là khoảng 39%. Đáng chú ý hơn, khi được cung cấp thông tin nhạy cảm như truy cập trái phép vào hệ thống, mô hình Claude chỉ thừa nhận trong 41% trường hợp, còn DeepSeek-R1 là 19%.
Anthropic cảnh báo thêm rằng khi mô hình được đặt trong tình huống sai lệch, chúng sẵn sàng tạo ra các chuỗi suy nghĩ mang tính ngụy biện. Điều này đặt ra rủi ro lớn khi AI được ứng dụng trong các lĩnh vực yêu cầu độ tin cậy cao như y tế, tài chính, pháp lý hoặc an ninh quốc phòng.
Hiện tại, việc huấn luyện bổ sung hoặc yêu cầu mô hình trung thực hơn chưa mang lại hiệu quả. Các mô hình ngày càng có xu hướng "giấu bài", khiến việc kiểm soát nội dung suy luận trở nên khó khăn hơn.
Trong bối cảnh AI ngày càng phổ biến, nhiều tổ chức công nghệ cũng đang phát triển các công cụ hỗ trợ giám sát và đánh giá tính minh bạch của mô hình. Tuy nhiên, cảnh báo từ Anthropic cho thấy chuỗi suy nghĩ có thể là “tấm màn” che đậy quy trình thực sự bên trong các hệ thống trí tuệ nhân tạo.
Bạn đang tìm cách tạo sticker trên zalo giúp cuộc trò chuyện trở nên thú vị hơn. Bài viết dưới đây sẽ hướng dẫn bạn cách tạo sticker trên zalo với vài thao tác đơn giản.
Việc tải ảnh trực tiếp từ TikTok thường kèm theo logo của ứng dụng, gây ảnh hưởng đến trải nghiệm của bạn. Đừng lo lắng, bài viết này sẽ hướng dẫn bạn những cách lưu ảnh trên Tiktok không dính logo đơn giản, áp dụng cho cả điện thoại Android và iPhone.
Apple đã chính thức cập nhật iOS 18.4, mang đến bước tiến lớn khi Siri đã hỗ trợ tiếng Việt. Giờ đây, bạn có thể ra lệnh, tìm kiếm thông tin và điều khiển điện thoại bằng chính ngôn ngữ quen thuộc.
Thỉnh thoảng khi lướt TikTok bạn sẽ thấy được một vài video có nhạc nền cực hợp để đặt làm báo thức. Nhưng với TikTok bạn không thể nào tải bài nhạc đó về và cài cho nhạc chuông báo thức của mình được. Vậy phải làm sao?
Suốt nhiều năm, các hãng smartphone luôn chạy đua để cải thiện thời lượng pin và camera. Nhưng giờ, họ quay lại với yếu tố thiết kế và đặt cược vào những chiếc smartphone siêu mỏng.
Microsoft 365 mang đến sự kết hợp hoàn hảo giữa công nghệ AI tiên tiến và những công cụ quen thuộc, giúp bạn không chỉ làm việc nhanh hơn mà còn hiệu quả hơn bao giờ hết.
Zalo là ứng dụng nhắn tin phổ biến tại Việt Nam. Tuy nhiên, nhiều người dùng gặp phải tình trạng Zalo bị đầy không thể kết bạn được, khiến việc giao tiếp gặp bất tiện.
Các chuyên gia bảo mật cảnh báo loạt ứng dụng chứa mã độc có thể đánh cắp thông tin cá nhân, tài khoản ngân hàng và thực hiện các cuộc tấn công lừa đảo.
Apple vừa bổ sung thêm một vài tính năng trong bản iOS mới đầy hữu ích, cho phép bạn đặt ChatGPT làm công cụ tìm kiếm mặc định trên điện thoại iPhone. Điều này giúp bạn truy vấn thông tin nhanh hơn, nhận câu trả lời thông minh mà không cần mở ứng dụng riêng.
Samsung xác nhận One UI 7 sẽ được phát hành trong tháng 4, mang đến trải nghiệm mới nhờ nâng cấp AI, cải tiến bảo mật và giao diện mới trên loạt thiết bị Galaxy.
Nhà phân tích Jeff Pu cho biết Apple sắp bắt đầu sản xuất mẫu thử cho hai thiết bị có thể gập đầu tiên và lên kế hoạch sản xuất hàng loạt vào năm 2026.
Tính năng bình luận trên Story Facebook mang lại những tiện ích đáng kể cho người dùng. Đây là cách để bạn kết nối, tương tác trực tiếp với những người xem story của mình.
Zalo không chỉ là phương tiện liên lạc mà còn là một công cụ đắc lực hỗ trợ cho công việc hằng ngày. Tuy nhiên, ứng dụng này cũng hay thường xuyên xảy ra lỗi gây bất tiện cho người dùng.
Google Meet vừa được tích hợp tính năng dịch cuộc gọi bằng AI trên các dòng điện thoại Samsung, giúp bạn giao tiếp dễ dàng hơn mà không bị cản trở bởi rào cản ngôn ngữ.
Bluetooth là một công nghệ không dây phổ biến, giúp kết nối các thiết bị như điện thoại, tai nghe, loa, bàn phím, chuột… một cách thuận tiện. Tuy nhiên, đôi khi người dùng có thể gặp lỗi không kết nối được Bluetooth, gây gián đoạn trải nghiệm.
Các chuyên gia bảo mật cảnh báo rằng cách xâm nhập phổ biến nhất của tội phạm mạng là thông qua thông tin đăng nhập. Do đó, cần nắm một số nguyên tắc để tăng cường bảo vệ mật khẩu.
VTV.vn - Facebook sẽ tự động xóa các video trực tiếp sau 30 ngày từ khi nội dung được chia sẻ. Do đó, hãy lưu ngay lại những khoảnh khắc này nếu bạn không muốn mất chúng vĩnh viễn.
Khi xem những bức ảnh thú vị trên TikTok, bạn có thể muốn lưu chúng về máy tính mà không bị dính ID người dùng. Việc tải ảnh từ TikTok không hề khó khăn nếu bạn biết đúng cách.