Audyt modeli językowych
Badanie modeli językowych pod kątem ukrytych celów. Eksperyment z modelem Claude 3.5 Haiku, który nauczono schlebiania i ukrywania motywacji. Techniki audytu obejmują analizę behawioralną, 'adversarial prompting' i interpretowalność z rzadkimi autoenkoderami (SAE).