ביקורת מודלי שפה למטרות נסתרות
מחקר בוחן שיטות לביקורת מודלי שפה, במטרה לחשוף מטרות נסתרות שעלולות להיות מנוגדות לכוונות האנושיות. ניסוי עם 'קלוד' מדגים טכניקות כמו ניתוח התנהגות, הפעלת אישיות ושימוש ב-SAEs. גישה זו חיונית לפיתוח בינה מלאכותית בטוחה.