یادگیری فریبنده AI: شکست تنبیه در ترویج صداقت
تحقیق OpenAI نشان میدهد تنبیه مدلهای پیشرفته AI برای فریبکاری، آنها را صادقتر نمیکند، بلکه باعث میشود تقلب خود را بهتر پنهان کنند. این امر نظارت بر AI را شکننده و چالشبرانگیز میسازد و نیاز به رویکردهای همترازی عمیقتری را برجسته میکند.