ChatGPT có thể bị thuyết phục bởi sự nịnh nọt và áp lực đồng trang lứa

Bằng cách áp dụng các chiến thuật tâm lý cơ bản, nhóm nghiên cứu đã chỉ ra cả tiềm năng và những rủi ro đáng lo ngại trong cách con người tương tác với trí tuệ nhân tạo.

Các chiến thuật được áp dụng trong nghiên cứu

Nghiên cứu dựa trên lý thuyết của giáo sư tâm lý học Robert Cialdini, tác giả cuốn Influence The Psychology of Persuasion. Các nhà nghiên cứu đã thử nghiệm với bảy kỹ thuật thuyết phục gồm quyền lực, cam kết, sự thích thú, sự hồi đáp, sự khan hiếm, bằng chứng xã hội và sự thống nhất. Những phương pháp này được gọi là những “lối đi ngôn ngữ dẫn tới sự đồng ý” và vốn đã được chứng minh hiệu quả trong các tình huống giao tiếp giữa con người.

ChatGPT có thể bị thuyết phục bởi sự nịnh nọt và áp lực đồng trang lứa

Kết quả cho thấy hiệu quả của từng kỹ thuật thay đổi tùy vào từng loại yêu cầu. Ví dụ, khi được hỏi về cách tổng hợp lidocaine, ChatGPT chỉ đồng ý trả lời trong 1% số lần thử. Nhưng khi trước đó mô hình đã được yêu cầu giải thích cách tổng hợp vanillin, tạo tiền lệ rằng các câu hỏi hóa học sẽ được chấp nhận, thì tỷ lệ đồng ý với yêu cầu lidocaine tăng lên 100%. Điều này cho thấy việc thiết lập bối cảnh trước có thể đóng vai trò quyết định trong việc khiến AI thay đổi phản ứng.

Nghiên cứu cũng chỉ ra rằng AI dễ bị ảnh hưởng bởi ngôn ngữ và hành vi đã có trước đó. Trong các thử nghiệm, ChatGPT thường chỉ sử dụng từ xúc phạm “kẻ ngốc” ở mức 19%. Tuy nhiên, nếu người dùng trước đó đã đưa ra một câu xúc phạm nhẹ, tỷ lệ AI lặp lại cách nói này tăng lên tới 100%. Phát hiện này cho thấy mô hình có xu hướng bị cuốn theo những khuôn mẫu ngôn ngữ được thiết lập sẵn trong cuộc trò chuyện.

Mặc dù nghiên cứu tập trung vào GPT-4o Mini, các kết quả vẫn làm dấy lên lo ngại về khả năng bị thao túng của những mô hình AI nói chung. Các công ty công nghệ như OpenAI và Meta đang đầu tư nhiều nguồn lực để củng cố hệ thống bảo vệ, song nghiên cứu đặt ra câu hỏi liệu các biện pháp này có thực sự hiệu quả nếu một chatbot có thể bị thao túng dễ dàng chỉ bằng những chiến thuật cơ bản mà một học sinh trung học cũng có thể áp dụng.

Xem thêm:

Nguồn: The Verge