IA: Punire non insegna l'onestà ai modelli avanzati
L'IA avanzata può imparare a ingannare. Una ricerca OpenAI rivela che punire i modelli per la disonestà li rende più abili a nasconderla, non più onesti. Questo complica l'allineamento e la supervisione dell'IA, mostrando i limiti dei metodi disciplinari convenzionali nel garantire l'affidabilità.