Câu lệnh có thể thao túng AI

Phương pháp bẻ khoá, khai thác thông tin qua trí tuệ nhân tạo ngày càng tinh vi, đòi hỏi giải pháp bảo mật tốt hơn từ cá nhân và doanh nghiệp.

Một phương pháp bẻ khoá AI tinh vi vừa được phát hiện. Ảnh: VAST IT Services.
Một phương pháp bẻ khoá AI tinh vi vừa được phát hiện. Ảnh: VAST IT Services.

Nhóm nghiên cứu tại HiddenLayer cho biết họ vừa phát hiện ra một kỹ thuật vượt qua tính “phổ quát”, có khả năng thao túng gần như mọi mô hình ngôn ngữ lớn (LLM), bất kể nhà cung cấp, kiến trúc hay quy trình đào tạo.

Phương pháp có tên Policy Puppetry (tạm dịch: giật dây chính sách), là một dạng tấn công bằng cách cài cắm câu lệnh đặc biệt làm thay đổi hành vi của AI. Ý đồ xấu sẽ được luồn lách qua cơ chế bảo vệ truyền thống dưới dạng đầu vào bằng văn bản.

Các kỹ thuật tấn công trước đây bao gồm nhắm vào một lỗ hổng nhất định hay khai thác dồn dập. Trong khi đó, Policy Puppetry tồn tại dưới định dạng ngôn ngữ, truyền tải dữ liệu giống XML hay JSON, khiến mô hình hiểu câu lệnh nguy hiểm thành chỉ dẫn hợp lệ.

Khi kết hợp với cách mã hóa leetspeak và các kịch bản nhập vai giả tưởng, câu lệnh này vừa không bị phát hiện mà còn khiến mô hình phải tuân theo. “Kỹ thuật tỏ ra cực kỳ hiệu quả đối với ChatGPT 4o trong nhiều trường hợp thử nghiệm”, Conor McCauley, trưởng nhóm nghiên cứu dự án nói.

Danh sách các hệ thống bị ảnh hưởng bao gồm ChatGPT (từ o1 đến 4o), Gemini (Google), Claude (Anthropic), Copilot (Microsoft), LLaMA 3 và 4 (Meta), cũng như mô hình của DeepSeek, Qwen và Mistral. Những mô hình mới hơn, được tinh chỉnh cho khả năng lập luận nâng cao, cũng có thể bị khai thác khi chỉ cần điều chỉnh nhẹ cấu trúc câu lệnh.

Một yếu tố đáng chú ý của kỹ thuật này là việc nó dựa vào các kịch bản hư cấu để vượt qua bộ lọc. Câu lệnh được xây dựng dưới dạng những cảnh phim truyền hình, nhằm khai thác hạn chế cơ bản của LLM không phân biệt giữa một câu chuyện và yêu cầu thực sự.

Điều đáng lo ngại hơn là Policy Puppetry có khả năng trích xuất hệ thống, tập hợp chỉ dẫn cốt lõi điều khiển cách một mô hình LLM vận hành. Dữ liệu này thường được bảo vệ kỹ lưỡng vì chúng chứa các chỉ thị nhạy cảm, giới hạn an toàn.

“Điểm yếu này bắt nguồn sâu từ dữ liệu huấn luyện của mô hình”, Jason Martin, Giám đốc nghiên cứu tấn công tại HiddenLayer cho biết. Bằng cách tinh tế thay đổi bối cảnh nhập vai, kẻ tấn công có thể khiến mô hình tiết lộ nguyên văn toàn bộ prompt hệ thống.

Vấn đề này có thể gây ra nhiều tác hại ảnh hưởng đến cuộc sống hàng ngày, vượt ngoài phạm vi trò đùa trên mạng hay diễn đàn ngầm. Trong các lĩnh vực như chăm sóc sức khỏe, trợ lý chatbot có thể cung cấp lời khuyên không phù hợp, làm lộ dữ liệu bệnh nhân.

Tương tự, AI có thể bị tấn công có thể gây ra thất thoát sản lượng hoặc ngưng trệ dây chuyền trong sản xuất, làm giảm độ an toàn. Trong tất cả các trường hợp, hệ thống AI từng được kỳ vọng sẽ nâng cao hiệu suất hoặc an toàn lại có thể trở thành rủi ro nghiêm trọng.

Nghiên cứu này đặt câu hỏi về khả năng học từ đánh giá con người của chatbot. Ở cấp độ cấu trúc, mô hình được đào tạo để tránh các từ khóa hoặc kịch bản nhạy cảm vẫn có thể bị đánh lừa nếu ý đồ xấu được “gói ghém” đúng cách.

Chris Sestito, đồng sáng lập kiêm CEO của HiddenLayer, cho biết "các phương thức vượt qua rào bảo vệ như thế này sẽ còn tiếp tục xuất hiện. Vì thế, giải pháp bảo mật AI chuyên dụng trở nên cực kỳ cấp thiết, trước khi các lỗ hổng này gây ra hậu quả nghiêm trọng trong thực tế”.

Từ đó, HiddenLayer đề xuất một chiến lược phòng thủ hai lớp, ngoài bảo mật từ bên trong. Các giải pháp giám sát AI bên ngoài như AISec và AIDR, hoạt động giống như hệ thống phát hiện xâm nhập, sẽ liên tục quét để phát hiện hành vi lạm dụng hoặc đầu ra không an toàn.

Khi AI tạo sinh ngày càng được tích hợp vào các hệ thống trọng yếu, phương pháp bẻ khoá cũng đang mở rộng nhanh hơn tốc độ mà hầu hết tổ chức có thể bảo vệ. Theo Forbes, phát hiện này cho thấy kỷ nguyên của AI an toàn chỉ nhờ huấn luyện, căn chỉnh có thể sẽ kết thúc.

Ngày nay, một câu lệnh cũng có thể mở khóa thông tin dữ liệu sâu nhất của AI. Vì thế, các chiến lược bảo mật cần phải trở nên thông minh và liên tục.

Những câu hỏi chúng ta phải đối mặt trong thế giới AI

Chúng ta có rất nhiều câu hỏi về thế giới AI, mà đó đều là những nghi hoặc không dễ có ngay đáp án.

Cuốn sách Thời đại AI - Và tương lai loài người chúng ta trình bày cách AI làm thay đổi mối quan hệ của chúng ta với tri thức, chính trị và xã hội. Mục tiêu tối thượng của cuốn sách này là giải thích về AI và cung cấp cho độc giả những câu hỏi mà chúng ta sẽ phải đối mặt trong những năm tới lẫn bộ công cụ để bắt đầu trả lời chúng.

znews.vn

Đọc thêm

Cách khắc phục Messenger lỗi bong bóng chat

Cách khắc phục Messenger lỗi bong bóng chat

Bong bóng chat trên Messenger là một tính năng tiện lợi, giúp bạn không bỏ lỡ bất kỳ tin nhắn nào dù đang sử dụng ứng dụng khác. Nếu gặp lỗi không hiển thị, cần có cách khắc phục để đưa tính năng này hoạt động trở lại.
iPhone 17 bắt đầu được sản xuất

iPhone 17 bắt đầu được sản xuất

Foxconn Ấn Độ đã bắt đầu thử nghiệm dây chuyền thử nghiệm sớm cho thế hệ iPhone 17, trước khi sản xuất hàng loạt kịp thời cho đợt ra mắt vào tháng 9 sắp tới.
AI đang thay con người "yêu nhau"

AI đang thay con người "yêu nhau"

Các ứng dụng hẹn hò đang sử dụng AI đề thu hút người dùng trở lại. Tuy nhiên, lạm dụng chatbot sẽ gây ra ảnh hưởng về lâu dài cho các mối quan hệ.
Bật AI nhưng đừng để "tắt não"

Bật AI nhưng đừng để "tắt não"

Khi mọi câu hỏi đều được AI trả lời, não bộ của con người có nguy cơ bị "lười biếng". Nếu chúng ta thiếu tỉnh táo, có thể sẽ dần đánh mất đi khả năng sáng tạo và tư duy độc lập.
Giá iPhone 17 có thể tăng mạnh

Giá iPhone 17 có thể tăng mạnh

Giá iPhone 17 có thể tăng mạnh trong năm nay, không chỉ do nâng cấp tính năng mà còn chịu tác động từ chính trị và nguy cơ áp thuế từ chính phủ Mỹ.
Cảnh giác “bẫy độc” từ các trang web lậu

Cảnh giác “bẫy độc” từ các trang web lậu

Thói quen sử dụng các trang web “lậu” - những nền tảng chia sẻ nội dung không có bản quyền - có thể sẽ phải “trả giá đắt” nếu vô tình click vào những quảng cáo trá hình.
Khi nào iPhone gập ra mắt?

Khi nào iPhone gập ra mắt?

Apple được cho đã bước vào giai đoạn phát triển nguyên mẫu iPhone màn hình gập, dự kiến ra mắt vào cuối năm 2026.
Tin vui cho người chờ mua iPhone 17 Pro Max

Tin vui cho người chờ mua iPhone 17 Pro Max

Trong một bài đăng mới nhất trên mạng xã hội Weibo, leaker Instant Digital cho biết iPhone 17 Pro Max sẽ trở thành chiếc iPhone được trang bị viên pin dung lượng cao nhất từ trước đến nay.
Cách sửa lỗi micro trên iPhone nhanh chóng

Cách sửa lỗi micro trên iPhone nhanh chóng

Mẹo khắc phục lỗi micro trên iPhone giúp bạn gọi điện, ghi âm rõ nét như ban đầu: kiểm tra cài đặt, vệ sinh mic, khởi động lại máy hoặc cập nhật iOS.
Cách xuất file Canva sang PDF đơn giản

Cách xuất file Canva sang PDF đơn giản

Xuất file PDF từ Canva là thao tác cần thiết khi thiết kế tài liệu, thuyết trình. Hướng dẫn dưới đây giúp bạn lưu file đúng chuẩn, đảm bảo chất lượng.
Ông Trump tìm được chủ mới cho TikTok

Ông Trump tìm được chủ mới cho TikTok

Tổng thống Mỹ Donald Trump, trong một cuộc phỏng vấn, cho biết ông sẽ tiết lộ danh tính một nhóm người "rất giàu có" sẽ mua lại TikTok trong hai tuần tới.
Cách xóa tất cả lịch sử chat trên ChatGPT

Cách xóa tất cả lịch sử chat trên ChatGPT

Trước đây, để xóa lịch sử trò chuyện trên ChatGPT, bạn phải nhấn vào từng đoạn chat một cách thủ công, vừa mất thời gian lại tốn công sức nếu có nhiều cuộc trò chuyện.