Công ty đứng sau mô hình Claude cho rằng chuỗi suy nghĩ của AI ngày càng kém minh bạch hơn và có thể dễ dàng đánh lừa người dùng.
Anthropic cảnh báo lập luận của AI ngày càng kém minh bạch hơn. Ảnh: Bloomberg.
Trong khi nhiều công ty công nghệ đang nỗ lực minh bạch hóa các mô hình AI thông qua kỹ thuật chuỗi suy nghĩ (Chain-of-Thought – CoT), công ty nghiên cứu AI Anthropic, đơn vị phát triển mô hình Claude lại đưa ra cảnh báo rằng người dùng không nên tin vào lập luận của công cụ.
“Chúng ta không có lý do gì để tin rằng ngôn ngữ có thể truyền tải đầy đủ quá trình ra quyết định phức tạp của một mạng nơ-ron”, Anthropic viết trên blog chính thức.
Trong nghiên cứu mới nhất, nhóm chuyên gia của Anthropic đã thực hiện các thử nghiệm nhằm kiểm tra mức độ trung thực của chuỗi suy nghĩ do AI tạo ra. Bằng cách cung cấp những gợi ý, các chuyên gia phát hiện mô hình thường sử dụng thông tin cho trước trong quá trình đưa ra câu trả lời, nhưng lại không thừa nhận điều này trong phần giải thích.
Ví dụ với mô hình Claude 3.7 Sonnet, chỉ khoảng 25% lời giải thích đề cập tới các gợi ý của người dùng. Tỷ lệ này ở DeepSeek-R1 là khoảng 39%. Đáng chú ý hơn, khi được cung cấp thông tin nhạy cảm như truy cập trái phép vào hệ thống, mô hình Claude chỉ thừa nhận trong 41% trường hợp, còn DeepSeek-R1 là 19%.
Anthropic cảnh báo thêm rằng khi mô hình được đặt trong tình huống sai lệch, chúng sẵn sàng tạo ra các chuỗi suy nghĩ mang tính ngụy biện. Điều này đặt ra rủi ro lớn khi AI được ứng dụng trong các lĩnh vực yêu cầu độ tin cậy cao như y tế, tài chính, pháp lý hoặc an ninh quốc phòng.
Hiện tại, việc huấn luyện bổ sung hoặc yêu cầu mô hình trung thực hơn chưa mang lại hiệu quả. Các mô hình ngày càng có xu hướng "giấu bài", khiến việc kiểm soát nội dung suy luận trở nên khó khăn hơn.
Trong bối cảnh AI ngày càng phổ biến, nhiều tổ chức công nghệ cũng đang phát triển các công cụ hỗ trợ giám sát và đánh giá tính minh bạch của mô hình. Tuy nhiên, cảnh báo từ Anthropic cho thấy chuỗi suy nghĩ có thể là “tấm màn” che đậy quy trình thực sự bên trong các hệ thống trí tuệ nhân tạo.
Trước đây, xóa lịch sử ChatGPT tốn công khi phải xóa từng cuộc trò chuyện. Bản mới cho phép xóa toàn bộ chỉ với một lần nhấn, thực hiện cả trên điện thoại và máy tính.
iOS 26 mang đến nhiều trải nghiệm thú vị hơn cùng Apple Intelligence tiếng Việt, giúp việc dùng iPhone trở nên tiện lợi hơn. Tuy nhiên, trong quá trình cập nhật, một số thiết bị lại phát sinh lỗi nhỏ do chưa tương thích hoàn toàn.
Google Dịch là công cụ dịch thuật “quốc dân” được ưa chuộng, vượt xa khỏi khả năng dịch văn bản thông thường. Ứng dụng này sở hữu tính năng dịch bằng camera cho phép bạn hiểu mọi thông tin được thể hiện dưới dạng hình ảnh.
Ngày nay, việc sử dụng điện thoại vào buổi tối đã trở thành thói quen phổ biến của nhiều người. Đây cũng chính là lý do khiến nhiều người quan tâm đến câu hỏi chế độ ban đêm trên điện thoại là gì và vì sao tính năng này lại được tích hợp sẵn trên hầu hết smartphone hiện đại.
Gửi định vị qua Zalo giúp bạn chia sẻ vị trí chính xác với người khác, để họ dễ tìm bạn hoặc theo dõi hành trình. Xem ngay hướng dẫn chi tiết trên điện thoại.
Bản cập nhật iOS mới có tính năng chuyển dữ liệu và thông báo sang các thiết bị không phải của Apple, hướng đi rất cởi mở so với cách tiếp cận đóng trước đây.
Đổi mật khẩu điểm truy cập cá nhân giúp bảo vệ kết nối, tránh người khác dùng chung mạng làm chậm tốc độ. Trên iPhone, bạn có thể thực hiện nhanh chóng việc này theo hướng dẫn sau.
Ứng dụng định danh quốc gia VNeID do Cục Cảnh sát quản lý hành chính về trật tự xã hội (Bộ Công an) quản lý, vận hành, sẽ được phát triển thành “siêu ứng dụng" cung cấp các tiện ích số cho công dân.
Trong thời đại số hiện nay, các cuộc gọi và tin nhắn lừa đảo ngày càng tinh vi, gây thiệt hại nghiêm trọng cho người dùng. Việc nhận biết và báo cáo số điện thoại lừa đảo trở thành nhu cầu thiết yếu để bảo vệ chính bản thân và cộng đồng.
Việc in ấn tài liệu từ MacBook giờ đây trở nên dễ dàng hơn bao giờ hết nhờ khả năng kết nối không dây. Thay vì phải loay hoay với dây cáp rườm rà, bạn hoàn toàn có thể gửi lệnh in trực tiếp qua WiFi một cách nhanh chóng và tiện lợi.
Apple sẽ dời ngày ra mắt iPhone 18 tiêu chuẩn sang đầu năm 2027 thay vì cuối 2026. Nếu tin đồn chính xác, đây sẽ là thay đổi lớn trong chu kỳ ra mắt iPhone sau 20 năm.
Nhiều người thường thắc mắc “Có nên vừa sạc vừa dùng MacBook hay không?”. Liệu việc cắm sạc liên tục có ảnh hưởng tới tuổi thọ pin hay gây hư hỏng linh kiện bên trong máy?
Zalo đang gây tranh cãi vì điều khoản dữ liệu mới, dù lo ngại quyền riêng tư, nhiều người vẫn chưa thể rời ứng dụng vì phải liên lạc và xử lý công việc hằng ngày.
Thời gian pin trên iPhone duy trì ổn định phụ thuộc vào rất nhiều yếu tố: dòng máy, thói quen sử dụng, cách sạc pin, môi trường bên ngoài, cài đặt hệ thống,…
Ủy ban Cạnh tranh quốc gia yêu cầu Zalo điều chỉnh cách triển khai thỏa thuận sử dụng dịch vụ theo hướng không buộc người dùng "phải đồng ý", mà được lựa chọn.
Kể từ ngày 1/1/2026, các nền tảng mạng xã hội tại Việt Nam sẽ bị cấm nghe lén, nghe trộm hoặc ghi âm cuộc gọi, đọc tin nhắn văn bản, theo dõi hoạt động… nếu người dùng chưa cho phép.
Một nghiên cứu chỉ ra rằng nội dung rác do AI tạo ra đang chiếm tỷ lệ lớn trong các video YouTube đề xuất cho người dùng mới, mang về doanh thu hàng trăm triệu USD mỗi năm.
Ủy ban Cạnh tranh quốc gia mời VNG làm việc sau khi ứng dụng Zalo của hãng bất ngờ cập nhật điều khoản sử dụng, yêu cầu đồng ý, nếu không sẽ xóa tài khoản.
Chuyển ảnh chứa dữ liệu thành bảng Excel giúp tiết kiệm thời gian và công sức. Bài viết hướng dẫn 2 cách đơn giản, hiệu quả để thực hiện trên máy tính.
Google Drive nổi bật nhờ tính bảo mật cao, dung lượng lớn và khả năng chia sẻ linh hoạt. Chỉ với vài thao tác đơn giản, bạn có thể tạo link Google Drive để gửi tài liệu, hình ảnh hoặc video cho người khác mà không cần đính kèm tệp nặng nề qua email.
Theo báo cáo tổng kết năm 2025 của Cloudflare Radar, Zalo tiếp tục khẳng định vị thế là nền tảng nhắn tin phổ biến nhất tại Việt Nam, đồng thời vào Top 10 dịch vụ nhắn tin toàn cầu.