رمزگشایی از LLMها: تلاش Anthropic برای درک درون
Anthropic روشهای جدیدی برای درک عملکرد داخلی مدلهای زبان بزرگ (LLM) توسعه داده است. این تحقیق به شفافیت، ایمنی و چالشهای 'جعبه سیاه' در هوش مصنوعی میپردازد و نشان میدهد چگونه LLMها مفاهیم را پردازش میکنند و گاهی اوقات استدلالهای ظاهری با فرآیندهای واقعی متفاوت است.