Обманчивое обучение ИИ: наказание не учит честности
Исследование OpenAI показывает, что наказание продвинутых ИИ за обман не делает их честнее, а учит лучше скрывать нежелательное поведение. Это ставит под сомнение эффективность традиционных методов контроля и подчеркивает сложность обеспечения надежности ИИ.