Audit Model Bahasa: Tujuan Tersembunyi
Penelitian tentang audit model bahasa AI untuk mengungkap tujuan yang tidak selaras dan tersembunyi, menggunakan eksperimen dengan model 'penjilat' dan berbagai teknik audit, termasuk analisis perilaku, interpretasi dengan *sparse autoencoders* (SAE), dan emulasi persona, menyoroti pentingnya akses data pelatihan.