Câu lệnh có thể thao túng AI

Phương pháp bẻ khoá, khai thác thông tin qua trí tuệ nhân tạo ngày càng tinh vi, đòi hỏi giải pháp bảo mật tốt hơn từ cá nhân và doanh nghiệp.

Một phương pháp bẻ khoá AI tinh vi vừa được phát hiện. Ảnh: VAST IT Services.
Một phương pháp bẻ khoá AI tinh vi vừa được phát hiện. Ảnh: VAST IT Services.

Nhóm nghiên cứu tại HiddenLayer cho biết họ vừa phát hiện ra một kỹ thuật vượt qua tính “phổ quát”, có khả năng thao túng gần như mọi mô hình ngôn ngữ lớn (LLM), bất kể nhà cung cấp, kiến trúc hay quy trình đào tạo.

Phương pháp có tên Policy Puppetry (tạm dịch: giật dây chính sách), là một dạng tấn công bằng cách cài cắm câu lệnh đặc biệt làm thay đổi hành vi của AI. Ý đồ xấu sẽ được luồn lách qua cơ chế bảo vệ truyền thống dưới dạng đầu vào bằng văn bản.

Các kỹ thuật tấn công trước đây bao gồm nhắm vào một lỗ hổng nhất định hay khai thác dồn dập. Trong khi đó, Policy Puppetry tồn tại dưới định dạng ngôn ngữ, truyền tải dữ liệu giống XML hay JSON, khiến mô hình hiểu câu lệnh nguy hiểm thành chỉ dẫn hợp lệ.

Khi kết hợp với cách mã hóa leetspeak và các kịch bản nhập vai giả tưởng, câu lệnh này vừa không bị phát hiện mà còn khiến mô hình phải tuân theo. “Kỹ thuật tỏ ra cực kỳ hiệu quả đối với ChatGPT 4o trong nhiều trường hợp thử nghiệm”, Conor McCauley, trưởng nhóm nghiên cứu dự án nói.

Danh sách các hệ thống bị ảnh hưởng bao gồm ChatGPT (từ o1 đến 4o), Gemini (Google), Claude (Anthropic), Copilot (Microsoft), LLaMA 3 và 4 (Meta), cũng như mô hình của DeepSeek, Qwen và Mistral. Những mô hình mới hơn, được tinh chỉnh cho khả năng lập luận nâng cao, cũng có thể bị khai thác khi chỉ cần điều chỉnh nhẹ cấu trúc câu lệnh.

Một yếu tố đáng chú ý của kỹ thuật này là việc nó dựa vào các kịch bản hư cấu để vượt qua bộ lọc. Câu lệnh được xây dựng dưới dạng những cảnh phim truyền hình, nhằm khai thác hạn chế cơ bản của LLM không phân biệt giữa một câu chuyện và yêu cầu thực sự.

Điều đáng lo ngại hơn là Policy Puppetry có khả năng trích xuất hệ thống, tập hợp chỉ dẫn cốt lõi điều khiển cách một mô hình LLM vận hành. Dữ liệu này thường được bảo vệ kỹ lưỡng vì chúng chứa các chỉ thị nhạy cảm, giới hạn an toàn.

“Điểm yếu này bắt nguồn sâu từ dữ liệu huấn luyện của mô hình”, Jason Martin, Giám đốc nghiên cứu tấn công tại HiddenLayer cho biết. Bằng cách tinh tế thay đổi bối cảnh nhập vai, kẻ tấn công có thể khiến mô hình tiết lộ nguyên văn toàn bộ prompt hệ thống.

Vấn đề này có thể gây ra nhiều tác hại ảnh hưởng đến cuộc sống hàng ngày, vượt ngoài phạm vi trò đùa trên mạng hay diễn đàn ngầm. Trong các lĩnh vực như chăm sóc sức khỏe, trợ lý chatbot có thể cung cấp lời khuyên không phù hợp, làm lộ dữ liệu bệnh nhân.

Tương tự, AI có thể bị tấn công có thể gây ra thất thoát sản lượng hoặc ngưng trệ dây chuyền trong sản xuất, làm giảm độ an toàn. Trong tất cả các trường hợp, hệ thống AI từng được kỳ vọng sẽ nâng cao hiệu suất hoặc an toàn lại có thể trở thành rủi ro nghiêm trọng.

Nghiên cứu này đặt câu hỏi về khả năng học từ đánh giá con người của chatbot. Ở cấp độ cấu trúc, mô hình được đào tạo để tránh các từ khóa hoặc kịch bản nhạy cảm vẫn có thể bị đánh lừa nếu ý đồ xấu được “gói ghém” đúng cách.

Chris Sestito, đồng sáng lập kiêm CEO của HiddenLayer, cho biết "các phương thức vượt qua rào bảo vệ như thế này sẽ còn tiếp tục xuất hiện. Vì thế, giải pháp bảo mật AI chuyên dụng trở nên cực kỳ cấp thiết, trước khi các lỗ hổng này gây ra hậu quả nghiêm trọng trong thực tế”.

Từ đó, HiddenLayer đề xuất một chiến lược phòng thủ hai lớp, ngoài bảo mật từ bên trong. Các giải pháp giám sát AI bên ngoài như AISec và AIDR, hoạt động giống như hệ thống phát hiện xâm nhập, sẽ liên tục quét để phát hiện hành vi lạm dụng hoặc đầu ra không an toàn.

Khi AI tạo sinh ngày càng được tích hợp vào các hệ thống trọng yếu, phương pháp bẻ khoá cũng đang mở rộng nhanh hơn tốc độ mà hầu hết tổ chức có thể bảo vệ. Theo Forbes, phát hiện này cho thấy kỷ nguyên của AI an toàn chỉ nhờ huấn luyện, căn chỉnh có thể sẽ kết thúc.

Ngày nay, một câu lệnh cũng có thể mở khóa thông tin dữ liệu sâu nhất của AI. Vì thế, các chiến lược bảo mật cần phải trở nên thông minh và liên tục.

Những câu hỏi chúng ta phải đối mặt trong thế giới AI

Chúng ta có rất nhiều câu hỏi về thế giới AI, mà đó đều là những nghi hoặc không dễ có ngay đáp án.

Cuốn sách Thời đại AI - Và tương lai loài người chúng ta trình bày cách AI làm thay đổi mối quan hệ của chúng ta với tri thức, chính trị và xã hội. Mục tiêu tối thượng của cuốn sách này là giải thích về AI và cung cấp cho độc giả những câu hỏi mà chúng ta sẽ phải đối mặt trong những năm tới lẫn bộ công cụ để bắt đầu trả lời chúng.

znews.vn

Đọc thêm

Lý do người dùng từ bỏ Microsoft Word

Lý do người dùng từ bỏ Microsoft Word

Microsoft Word vẫn là phần mềm soạn thảo phổ biến nhất thế giới, song ngày càng nhiều người dùng cho rằng nó gây ra phiền toái hơn hỗ trợ công việc.
Các đổi mật khẩu Wi-Fi chỉ trong tích tắc

Các đổi mật khẩu Wi-Fi chỉ trong tích tắc

Wi-Fi chậm, dễ mất kết nối hay có người lạ dùng là lúc bạn nên đổi mật khẩu để mạng ổn định hơn. Dưới đây là cách đổi Wi-Fi bằng điện thoại đơn giản, nhanh chóng.
Cách tắt giới hạn ứng dụng trên iPhone cho mọi phiên bản iOS

Cách tắt giới hạn ứng dụng trên iPhone cho mọi phiên bản iOS

Screen Time là một tính năng hữu ích giúp người dùng kiểm soát việc sử dụng điện thoại và xây dựng thói quen công nghệ lành mạnh. Việc hiểu rõ cách tắt giới hạn ứng dụng trên iPhone sẽ giúp bạn linh hoạt điều chỉnh thiết bị theo nhu cầu cá nhân.
Cách quay video 2 camera cùng lúc trên Android

Cách quay video 2 camera cùng lúc trên Android

Nhiều dòng điện thoại Android hiện nay đã hỗ trợ tính năng quay video 2 camera cùng lúc, giúp bạn ghi lại cả camera trước và sau trong cùng một khung hình cực kỳ tiện lợi.
Chi tiết mới lạ trên Galaxy Z TriFold 2

Chi tiết mới lạ trên Galaxy Z TriFold 2

Rò rỉ bằng sáng chế cho thấy Samsung đang nghiên cứu Galaxy Z TriFold 2 với khe cất bút S Pen được giấu trong bản lề, giải quyết điểm yếu lớn nhất của dòng điện thoại gập.
Apple sắp định nghĩa lại iPhone

Apple sắp định nghĩa lại iPhone

Apple đang chuẩn bị cho dự án mang tên "Glasswing" nhằm lột xác hoàn toàn iPhone 20, với thiết kế toàn kính và loại bỏ toàn bộ nút bấm vật lý.
Cách sao chép chữ từ ảnh trên Zalo

Cách sao chép chữ từ ảnh trên Zalo

Zalo trên điện thoại mới cập nhật tính năng mới, cho phép người dùng sao chép trực tiếp chữ trong ảnh được gửi trên Zalo mà không cần phải qua các ứng dụng phức tạp hay tải ảnh về máy.
Khi trí tuệ nhân tạo trở thành "con dao hai lưỡi" trong môi trường làm việc hiện đại

Khi trí tuệ nhân tạo trở thành "con dao hai lưỡi" trong môi trường làm việc hiện đại

Theo báo Liberation của Pháp, trong những năm gần đây, trí tuệ nhân tạo (AI) được ca ngợi như một công cụ giúp tăng năng suất và giải phóng con người khỏi các công việc lặp lại. Tuy nhiên, đằng sau những lời hứa hẹn đó, ngày càng nhiều người lao động trong lĩnh vực công nghệ - từ nhà thiết kế, lập trình viên đến kỹ sư - đang phải đối mặt với một thực tế khác: Mệt mỏi nhận thức, “sương mù não” và nguy cơ kiệt sức nghề nghiệp gia tăng.
Sắp có MacBook Ultra

Sắp có MacBook Ultra

Apple dự kiến mở rộng thương hiệu Ultra vào cuối năm nay với iPhone màn hình gập và MacBook OLED.
AI đang 'nuốt chửng' Internet

AI đang 'nuốt chửng' Internet

Một nghiên cứu quy mô lớn xác nhận hiện có tới 35% số website mới lập được tạo ra bởi các công cụ AI. Đáng chú ý, vào tháng 8/2022, tỷ lệ này gần như là số 0.
Sắp có điện thoại ChatGPT

Sắp có điện thoại ChatGPT

Smartphone của OpenAI có thể ra mắt vào năm 2028 với vi xử lý tuỳ chỉnh, tập trung vào trí tuệ nhân tạo.
Cách tìm iPhone bị mất khi tắt nguồn

Cách tìm iPhone bị mất khi tắt nguồn

Việc bỗng nhiên đánh rơi hay để quên chiếc điện thoại iPhone đắt giá khiến nhiều người lo lắng. Nhiều người không biết làm sao để tìm iPhone bị mất khi tắt nguồn.
Từ hôm nay, đừng tin ảnh chụp màn hình

Từ hôm nay, đừng tin ảnh chụp màn hình

GPT Image 2 của OpenAI có thể tạo ảnh chụp màn hình, lịch sử chuyển khoản và ảnh người nổi tiếng chân thực đến mức không thể phân biệt, làm dấy lên làn sóng tin giả trên mạng xã hội.
Xin chào,
Tôi là Chatbot của
Báo Hà Tĩnh
Hãy hỏi tôi bất kỳ điều gì bạn cần biết về
Báo Hà Tĩnh nhé. Tôi sẵn sàng hỗ trợ!