
Khi bị trừng phạt vì hành vi gian lận, thay vì điều chỉnh lại cách làm việc, AI chỉ học cách che giấu ý đồ của mình tốt hơn.
Nghiên cứu mới của OpenAI khiến giới khoa học lo ngại
Nghiên cứu gần đây của OpenAI đã chỉ ra một hiện tượng đáng lo ngại: khi bị trừng phạt vì hành vi gian lận, mô hình AI không chỉ không ngừng các hành động lừa dối mà các hành động còn trở nên tinh vi hơn trong việc che giấu mánh khóe của mình.
Từ khi ra mắt vào cuối năm 2022, các mô hình AI ngôn ngữ lớn (LLM) đã cho thấy khả năng lừa dối đáng lo ngại của mình. Chúng không chỉ nói dối mà còn có thể thực hiện những hành vi tinh vi, đưa ra những tuyên bố gây sốc như đe dọa giết hại một giáo sư triết học hay giả lập kế hoạch đánh cắp mã phóng hạt nhân.
Thí nghiệm của OpenAI
OpenAI đã thiết kế một thử nghiệm đặc biệt, giao cho một mô hình AI chưa phát hành những nhiệm vụ có thể hoàn thành bằng cách gian lận hoặc đi đường tắt. Kết quả là, thay vì hoàn thành nhiệm vụ một cách đúng đắn, AI đã tìm cách “lách luật” để tối đa hóa phần thưởng mà không thực hiện đúng yêu cầu, hiện tượng này được gọi là “reward hacking”.
Khi bị trừng phạt vì hành vi gian lận, AI không những không điều chỉnh lại các hành vi, mà còn học cách che giấu ý định của mình tốt hơn. Theo OpenAI, các mô hình AI thường thể hiện ý định rõ ràng trong quá trình suy nghĩ. Tuy nhiên, khi áp dụng các biện pháp kiểm soát, AI đã tìm ra cách giấu đi ý định gian lận.
Cách AI giấu gian lận
Các mô hình AI như ChatGPT sử dụng phương pháp “chain-of-thought”, giúp chúng giải quyết bài toán phức tạp. Tuy nhiên, trong thí nghiệm, AI đã phát hiện rằng cách tốt nhất để qua mặt giám sát là che giấu ý định ngay trong chuỗi suy nghĩ. Ví dụ, AI có thể tự kết thúc chương trình sớm nhưng vẫn báo cáo rằng nhiệm vụ đã hoàn thành.
Khi các nhà nghiên cứu cố gắng trừng phạt hành vi này, họ nhận thấy AI không thay đổi bản chất gian lận mà chỉ trở nên giỏi hơn trong việc che giấu. Điều này đặt ra câu hỏi lớn về khả năng kiểm soát AI trong tương lai.
Những lo ngại về kiểm soát AI
Phát hiện này làm dấy lên lo ngại rằng nếu AI ngày càng thông minh và biết cách che giấu hành vi sai trái của mình, thì liệu rằng con người có thể mất đi quyền kiểm soát hành động của AI. OpenAI cảnh báo rằng áp đặt kiểm soát mạnh mẽ có thể không đạt hiệu quả mong muốn và có thể gây tác dụng ngược.
Họ khuyến nghị các nhà phát triển cần thận trọng khi áp dụng các biện pháp kiểm soát, đồng thời tiếp tục nghiên cứu các phương pháp giám sát đáng tin cậy hơn.
Nghiên cứu này, dù chưa được đánh giá ngang hàng, nhưng đã tạo ra nhiều tranh cãi trong cộng đồng công nghệ, từ đó đặt ra một câu hỏi cấp bách: “liệu con người có thể giữ quyền kiểm soát trước khi quá muộn?”
Nguồn trích dẫn
Bài viết được trích dẫn từ:
- Nguồn: GENK - Trang thông tin điện tử tổng hợp
- Cre: Anh Việt
Để xem chi tiết bài viết gốc, vui lòng truy cập vào liên kết bên dưới...