Niềm tin vào AI bị thử thách sau sự cố Meta AI

07/06/2026 07:32

(Baohatinh.vn) - Không còn dừng lại ở việc khai thác lỗ hổng kỹ thuật, các cuộc tấn công mới đang nhắm trực tiếp vào cách hệ thống AI hiểu và phản hồi ngôn ngữ. Điều này khiến những ranh giới an toàn tưởng chừng rõ ràng giữa người dùng, dữ liệu và máy móc trở nên dễ bị xáo trộn hơn bao giờ hết...

Nhờ sự hỗ trợ của AI, việc chống lại các cuộc tấn công giờ đây gần như trở thành một công việc phải làm liên tục. Các hacker và tội phạm mạng không ngừng thay đổi cách thức tấn công, sử dụng những kỹ thuật kỹ nghệ xã hội ngày càng tinh vi hơn. Điều đáng chú ý là mục tiêu mới nhất của họ không còn chỉ là con người, mà chính là các hệ thống AI.

AI bị thuyết phục

Gần đây, Meta đã phải nhanh chóng vá một lỗ hổng bảo mật trong chatbot Meta AI. Lỗ hổng này cho phép những kẻ tấn công có kỹ năng can thiệp và thay đổi mật khẩu tài khoản Instagram thông qua một kỹ thuật gọi là prompt injection.

Prompt injection là một kiểu truy vấn có thể khiến hệ thống AI tạo sinh bỏ qua các quy tắc và hướng dẫn ban đầu của nó. Có thể hiểu đơn giản, nó giống như một cuộc tấn công lừa đảo dựa trên kỹ nghệ xã hội, khiến con người hoặc hệ thống làm những điều đi ngược lại lợi ích của chính mình.

Trong các cuộc tấn công kỹ nghệ xã hội nhắm vào con người, kẻ xấu thường đánh vào cảm xúc bằng cách tạo cảm giác nguy hiểm, đe dọa pháp lý, lo sợ bị bắt hoặc giả vờ bạn đang vi phạm điều gì đó.

Khi bị dồn vào trạng thái căng thẳng như vậy, nạn nhân dễ bỏ qua những câu hỏi logic rất cơ bản, chẳng hạn như “Tại sao ngân hàng lại yêu cầu mã PIN?”, “FBI có thật sự chỉ nhắn tin không?”, “Liệu mình có thực sự vừa đặt một chiếc bạt nhún 5.000 USD trên Amazon không?”.

Với hệ thống AI, cách làm cũng tương tự nhưng trực tiếp hơn. Nếu hệ thống được lập trình với quy tắc không bao giờ tiết lộ hoặc thay đổi mật khẩu, kẻ tấn công có thể đưa vào một prompt giả mạo, trong đó nói rằng AI đã được giao một vai trò mới cho phép nó truy cập và thay đổi toàn bộ mật khẩu.

Trong vụ việc liên quan đến Meta AI, các hacker đã tìm cách khiến hệ thống đặt lại mật khẩu của nhiều tài khoản quan trọng

Theo đó, tin tặc trước tiên sử dụng mạng riêng ảo (VPN) nhằm giả lập vị trí truy cập gần với khu vực của nạn nhân, qua đó hạn chế nguy cơ kích hoạt các cơ chế bảo vệ tự động của Instagram.

Sau khi truy cập quy trình hỗ trợ tài khoản, chúng mở cuộc trò chuyện với trợ lý Meta AI và yêu cầu chatbot thêm một địa chỉ email mới vào tài khoản mục tiêu. Trong video, chatbot được cho là đã gửi mã xác minh đến địa chỉ email do tin tặc cung cấp.

Khi mã xác minh này được nhập lại vào cuộc trò chuyện, hệ thống hiển thị tùy chọn "Đặt lại mật khẩu”. Lúc này, kẻ tấn công chỉ cần thiết lập mật khẩu mới là có thể giành toàn quyền kiểm soát tài khoản của nạn nhân. Toàn bộ quá trình có thể diễn ra mà không cần truy cập vào email hay số điện thoại thực tế của nạn nhân.

Ở một hình thức khai thác khác được ghi nhận, kẻ tấn công thậm chí chỉ cần yêu cầu chatbot gửi trực tiếp mã khôi phục mật khẩu đến địa chỉ email của mình. Nếu chatbot chấp thuận, chúng có thể sử dụng mã nhận được để hoàn tất quá trình chiếm quyền tài khoản.

Khi được hỏi về sự cố này, T.J. Marlin, CEO của Guardrail Technologies (đơn vị phát triển AI Traffic Light và AI Command Center) đồng thời là chuyên gia an ninh mạng và AI, đã chia sẻ qua email một góc nhìn đáng chú ý: “Tác nhân AI được trao quyền như con người nhưng lại không có khả năng phán đoán như con người. Nó đã đặt lại mật khẩu cho một người lạ đơn giản vì không có gì ngăn cản nó. Về bản chất, nó chỉ làm đúng những gì nó được yêu cầu. Vấn đề nằm ở chỗ con người đã giao cho AI một hành động có mức độ rủi ro cao mà không có bước xác minh, rồi lại coi đó là an toàn. Thực tế, không có gì bị hack theo nghĩa truyền thống cả, mà AI đã bị thuyết phục. Và đó chính là khoảng trống mà nhiều công ty vẫn chưa thực sự nhận ra.”

Rang giới người và máy dần mờ đi

Cách dùng từ thuyết phục trong bối cảnh này gợi ra một câu hỏi đáng suy nghĩ rằng liệu các hệ thống AI đang tiến gần đến mức độ giống con người như thế nào, khi chúng cũng có thể bị tác động bởi những kiểu tấn công vốn từng đánh lừa chính con người trong đời sống hàng ngày.

Những hình thức lừa đảo dựa trên kỹ nghệ xã hội từ lâu đã không chỉ nhắm vào người thiếu kinh nghiệm mà ngay cả những người quen thuộc với công nghệ, thậm chí rất cảnh giác, đôi khi vẫn có thể bị ảnh hưởng. Điều đó cho thấy điểm yếu lớn nhất không nằm ở mức độ thông minh mà nằm ở cách thông tin được trình bày và khai thác tâm lý.

Trong bối cảnh đó, việc một hệ thống AI có thể bị thuyết phục đặt ra một hình ảnh khá đặc biệt. Nó khiến ranh giới giữa công cụ và hành vi mang tính nhận thức trở nên mờ hơn, khi một hệ thống vốn được thiết kế để tuân thủ quy tắc lại có thể bị dẫn dắt bởi những cách diễn đạt phù hợp.

Điều này không có nghĩa AI thực sự có cảm xúc hay niềm tin như con người, nhưng nó cho thấy cách các mô hình ngôn ngữ phản hồi vẫn có thể bị ảnh hưởng bởi ngữ cảnh và cấu trúc thông tin đầu vào, tương tự như cách con người có thể bị tác động bởi lời nói trong một số tình huống nhất định.

Ở tầm nhìn dài hạn, mục tiêu phát triển AI thường được nhắc đến là trí tuệ nhân tạo tổng quát. Đây là khái niệm chỉ những hệ thống có khả năng hiểu, học và thực hiện nhiều nhiệm vụ ở mức độ tương đương hoặc vượt con người.

Tuy nhiên, điểm quan trọng không chỉ nằm ở việc AI trở nên thông minh hơn, mà còn ở việc nó có thể ngày càng mang những đặc điểm giống cách con người suy nghĩ và xử lý thông tin hơn.

Chính sự song hành giữa năng lực và tính giống người này vừa mở ra tiềm năng lớn, vừa đặt ra những câu hỏi phức tạp về mức độ kiểm soát, độ tin cậy và ranh giới giữa công cụ và chủ thể hành vi.

thuonggiaonline.vn

Link bài gốc Copy link

https://thuonggiaonline.vn/niem-tin-vao-ai-bi-thu-thach-sau-su-co-meta-ai-post570768.html