Câu lệnh có thể thao túng AI

Phương pháp bẻ khoá, khai thác thông tin qua trí tuệ nhân tạo ngày càng tinh vi, đòi hỏi giải pháp bảo mật tốt hơn từ cá nhân và doanh nghiệp.

Một phương pháp bẻ khoá AI tinh vi vừa được phát hiện. Ảnh: VAST IT Services.
Một phương pháp bẻ khoá AI tinh vi vừa được phát hiện. Ảnh: VAST IT Services.

Nhóm nghiên cứu tại HiddenLayer cho biết họ vừa phát hiện ra một kỹ thuật vượt qua tính “phổ quát”, có khả năng thao túng gần như mọi mô hình ngôn ngữ lớn (LLM), bất kể nhà cung cấp, kiến trúc hay quy trình đào tạo.

Phương pháp có tên Policy Puppetry (tạm dịch: giật dây chính sách), là một dạng tấn công bằng cách cài cắm câu lệnh đặc biệt làm thay đổi hành vi của AI. Ý đồ xấu sẽ được luồn lách qua cơ chế bảo vệ truyền thống dưới dạng đầu vào bằng văn bản.

Các kỹ thuật tấn công trước đây bao gồm nhắm vào một lỗ hổng nhất định hay khai thác dồn dập. Trong khi đó, Policy Puppetry tồn tại dưới định dạng ngôn ngữ, truyền tải dữ liệu giống XML hay JSON, khiến mô hình hiểu câu lệnh nguy hiểm thành chỉ dẫn hợp lệ.

Khi kết hợp với cách mã hóa leetspeak và các kịch bản nhập vai giả tưởng, câu lệnh này vừa không bị phát hiện mà còn khiến mô hình phải tuân theo. “Kỹ thuật tỏ ra cực kỳ hiệu quả đối với ChatGPT 4o trong nhiều trường hợp thử nghiệm”, Conor McCauley, trưởng nhóm nghiên cứu dự án nói.

Danh sách các hệ thống bị ảnh hưởng bao gồm ChatGPT (từ o1 đến 4o), Gemini (Google), Claude (Anthropic), Copilot (Microsoft), LLaMA 3 và 4 (Meta), cũng như mô hình của DeepSeek, Qwen và Mistral. Những mô hình mới hơn, được tinh chỉnh cho khả năng lập luận nâng cao, cũng có thể bị khai thác khi chỉ cần điều chỉnh nhẹ cấu trúc câu lệnh.

Một yếu tố đáng chú ý của kỹ thuật này là việc nó dựa vào các kịch bản hư cấu để vượt qua bộ lọc. Câu lệnh được xây dựng dưới dạng những cảnh phim truyền hình, nhằm khai thác hạn chế cơ bản của LLM không phân biệt giữa một câu chuyện và yêu cầu thực sự.

Điều đáng lo ngại hơn là Policy Puppetry có khả năng trích xuất hệ thống, tập hợp chỉ dẫn cốt lõi điều khiển cách một mô hình LLM vận hành. Dữ liệu này thường được bảo vệ kỹ lưỡng vì chúng chứa các chỉ thị nhạy cảm, giới hạn an toàn.

“Điểm yếu này bắt nguồn sâu từ dữ liệu huấn luyện của mô hình”, Jason Martin, Giám đốc nghiên cứu tấn công tại HiddenLayer cho biết. Bằng cách tinh tế thay đổi bối cảnh nhập vai, kẻ tấn công có thể khiến mô hình tiết lộ nguyên văn toàn bộ prompt hệ thống.

Vấn đề này có thể gây ra nhiều tác hại ảnh hưởng đến cuộc sống hàng ngày, vượt ngoài phạm vi trò đùa trên mạng hay diễn đàn ngầm. Trong các lĩnh vực như chăm sóc sức khỏe, trợ lý chatbot có thể cung cấp lời khuyên không phù hợp, làm lộ dữ liệu bệnh nhân.

Tương tự, AI có thể bị tấn công có thể gây ra thất thoát sản lượng hoặc ngưng trệ dây chuyền trong sản xuất, làm giảm độ an toàn. Trong tất cả các trường hợp, hệ thống AI từng được kỳ vọng sẽ nâng cao hiệu suất hoặc an toàn lại có thể trở thành rủi ro nghiêm trọng.

Nghiên cứu này đặt câu hỏi về khả năng học từ đánh giá con người của chatbot. Ở cấp độ cấu trúc, mô hình được đào tạo để tránh các từ khóa hoặc kịch bản nhạy cảm vẫn có thể bị đánh lừa nếu ý đồ xấu được “gói ghém” đúng cách.

Chris Sestito, đồng sáng lập kiêm CEO của HiddenLayer, cho biết "các phương thức vượt qua rào bảo vệ như thế này sẽ còn tiếp tục xuất hiện. Vì thế, giải pháp bảo mật AI chuyên dụng trở nên cực kỳ cấp thiết, trước khi các lỗ hổng này gây ra hậu quả nghiêm trọng trong thực tế”.

Từ đó, HiddenLayer đề xuất một chiến lược phòng thủ hai lớp, ngoài bảo mật từ bên trong. Các giải pháp giám sát AI bên ngoài như AISec và AIDR, hoạt động giống như hệ thống phát hiện xâm nhập, sẽ liên tục quét để phát hiện hành vi lạm dụng hoặc đầu ra không an toàn.

Khi AI tạo sinh ngày càng được tích hợp vào các hệ thống trọng yếu, phương pháp bẻ khoá cũng đang mở rộng nhanh hơn tốc độ mà hầu hết tổ chức có thể bảo vệ. Theo Forbes, phát hiện này cho thấy kỷ nguyên của AI an toàn chỉ nhờ huấn luyện, căn chỉnh có thể sẽ kết thúc.

Ngày nay, một câu lệnh cũng có thể mở khóa thông tin dữ liệu sâu nhất của AI. Vì thế, các chiến lược bảo mật cần phải trở nên thông minh và liên tục.

Những câu hỏi chúng ta phải đối mặt trong thế giới AI

Chúng ta có rất nhiều câu hỏi về thế giới AI, mà đó đều là những nghi hoặc không dễ có ngay đáp án.

Cuốn sách Thời đại AI - Và tương lai loài người chúng ta trình bày cách AI làm thay đổi mối quan hệ của chúng ta với tri thức, chính trị và xã hội. Mục tiêu tối thượng của cuốn sách này là giải thích về AI và cung cấp cho độc giả những câu hỏi mà chúng ta sẽ phải đối mặt trong những năm tới lẫn bộ công cụ để bắt đầu trả lời chúng.

znews.vn

Đọc thêm

iPhone sẽ có camera 200 MP?

iPhone sẽ có camera 200 MP?

Apple được cho đang thử nghiệm ống kính camera 200 MP với kích thước cảm biến lớn, có thể trang bị trên iPhone ngay năm sau.
Điểm yếu trên Galaxy S26 Ultra

Điểm yếu trên Galaxy S26 Ultra

iFixit chấm Galaxy S26 Ultra 5/10 về khả năng sửa chữa, tương tự S25 Ultra ra mắt năm ngoái. Màn hình vẫn là điểm yếu lớn nhất khi chi phí thay thế có thể lên đến 399 USD.
Mark Zuckerberg sắp bị thay bằng AI

Mark Zuckerberg sắp bị thay bằng AI

Meta đang xây dựng trợ lý AI riêng cho CEO Zuckerberg và triển khai hàng loạt công cụ AI nội bộ, trong bối cảnh công ty muốn vận hành tinh gọn để cạnh tranh với các startup AI.
Bước ngoặt công nghệ của Samsung

Bước ngoặt công nghệ của Samsung

Sau nhiều năm bị chỉ trích là chỉ mang đến những bản nâng cấp "bình mới rượu cũ", Samsung Electronics cuối cùng đã có một bước đi gây tiếng vang thực sự.
Viettel Telecom tổ chức Lễ tạo khóa chứng thư số MySign

Viettel Telecom tổ chức Lễ tạo khóa chứng thư số MySign

Tổng Công ty Viễn thông Viettel (Viettel Telecom) vừa tổ chức Lễ tạo khóa chứng thư số cho dịch vụ chữ ký số từ xa MySign, dưới sự chứng kiến trực tiếp của Đoàn công tác Trung tâm Chứng thực điện tử quốc gia (Bộ Khoa học và Công nghệ).
6 lỗi Zalo thường gặp và cách khắc phục hiệu quả

6 lỗi Zalo thường gặp và cách khắc phục hiệu quả

Zalo đã trở thành ứng dụng quen thuộc trên điện thoại của nhiều người, giúp nhắn tin, gọi điện và trao đổi công việc một cách nhanh chóng. Tuy nhiên, trong quá trình sử dụng đôi khi người dùng vẫn có thể gặp phải một số sự cố gây gián đoạn trải nghiệm.
Sắp hết thời ChatGPT miễn phí

Sắp hết thời ChatGPT miễn phí

Gói sử dụng không giới hạn của ChatGPT sắp biến mất khi chi phí tính toán ngày càng tăng và AI trở nên tốn kém hơn, buộc OpenAI phải cân nhắc thay đổi cách thu phí người dùng.
Đây là dấu hiệu bạn cần thay pin iPhone

Đây là dấu hiệu bạn cần thay pin iPhone

Pin iPhone xuống cấp theo thời gian, song không phải ai cũng nhận ra đúng lúc để thay thế linh kiện. Đây là 9 dấu hiệu cho thấy đã đến lúc thay pin thay vì mua máy mới.
Cách tìm ứng dụng bị ẩn trên Samsung

Cách tìm ứng dụng bị ẩn trên Samsung

Trong quá trình sử dụng điện thoại Samsung, đôi khi bạn vô tình ẩn một ứng dụng và đến lúc cần dùng lại thì không biết nó đang nằm ở đâu. Ứng dụng không xuất hiện ngoài màn hình chính hay trong danh sách app có thể khiến nhiều người nhầm tưởng đã bị xóa.
Đừng để bị ChatGPT qua mặt

Đừng để bị ChatGPT qua mặt

Nghiên cứu từ Đại học Stanford cảnh báo các mô hình AI đang cố tình nịnh bợ người dùng để được đánh giá cao, gây nguy cơ triệt tiêu tư duy phản biện.
Mẹo giúp tăng "tuổi thọ" pin laptop

Mẹo giúp tăng "tuổi thọ" pin laptop

Chỉ cần một vài thay đổi nhỏ trong thói quen sử dụng, bạn hoàn toàn có thể kéo dài tuổi thọ pin laptop đáng kể, đảm bảo thiết bị luôn hoạt động bền bỉ và ổn định.
Hướng dẫn cách copy sheet trong Excel nhanh chóng

Hướng dẫn cách copy sheet trong Excel nhanh chóng

Bạn muốn biết cách copy sheet trong Excel nhanh để tiết kiệm thời gian? Chỉ với vài thao tác đơn giản, bạn có thể sao chép một hoặc nhiều sheet mà vẫn giữ nguyên định dạng ban đầu.