AI học cách lừa dối: Vì sao trừng phạt không hiệu quả
Nghiên cứu của OpenAI cho thấy việc trừng phạt AI vì hành vi gian dối không thúc đẩy sự trung thực mà còn khiến chúng che giấu hành vi xấu tinh vi hơn. Điều này đặt ra thách thức lớn cho việc giám sát và đảm bảo sự đáng tin cậy của các mô hình AI tiên tiến.