Phi-4-Reasoning: هوش مصنوعی کوچک، استدلال بزرگ!

مایکروسافت Phi-4-Reasoning مدل‌های زبانی کوچک (SLM) فشرده، وزن باز (مجوز MIT)، سریع و کارآمدی را ارائه می‌دهد که قادر به استدلال پیشرفته هستند.

مایکروسافت، در حالی که شریک ممتاز OpenAI است و با اکثر بازیگران برای ادغام مدل‌های هوش مصنوعی خود در Azure AI Foundry همکاری می‌کند، از دنبال کردن مسیرهای فناوری خودداری نمی‌کند. این شامل کار بر روی نوآوری‌ها در هسته شبکه‌های عصبی، مانند مدل جالب BitNet b1.58 مبتنی بر Trit، SLM های منبع باز خود، و حتی مدل‌های پیشرفته‌ای است که مخفی نگه داشته می‌شوند (Project MAI-1).

یک سال پس از معرفی مجموعه مدل‌های هوش مصنوعی کوچک (SLM) خود Phi-3 و دو ماه پس از رونمایی از نسل چهارم با یک SLM چندوجهی (Phi-4-Multimodal) و یک مدل کوچک (Phi-4-mini)، مایکروسافت از سه نوع جدید از آخرین نسل SLM خود خبر می‌دهد: Phi-4-reasoning، Phi-4-reasoning-plus و Phi-4-mini-reasoning.

این نسخه‌های “یکپارچه با استدلال” که در 30 آوریل 2025 منتشر شدند، ارائه وزن باز از مدل‌های فشرده را برای توسعه‌دهندگانی که نیاز به حفظ تأخیر کم دارند و در عین حال به استدلال پیچیده نیاز دارند، گسترش می‌دهند.

در قلب رویکرد مهندسان مایکروسافت برای ساختن SLMهای “استدلال”: تکیه بر نظارت دقیق (SFT) از زنجیره‌های استدلال o3-mini OpenAI و استفاده از یادگیری تقویتی (RL) برای نسخه “به علاوه”. مایکروسافت توضیح می‌دهد: «از طریق تقطیر، یادگیری تقویتی و داده‌های با کیفیت بالا، این مدل‌ها اندازه و عملکرد را آشتی می‌دهند.»

کوچک اما با استعداد

نتایج در معیارهای پیشرو مختلف بازار کافی است تا رقابت را کمرنگ کند: به طور معمول با تنها 14 میلیارد پارامتر، Phi-4-reasoning عملکردی بهتر از DeepSeek-R1-Distill-Llama-70B (70 میلیارد پارامتر) در سری AIME 2025، MMLU-Pro یا HumanEval-Plus دارد و به مدل کامل DeepSeek-R1 (671 میلیارد پارامتر) نزدیک می‌شود! نسخه Phi-4-reasoning-plus که بر روی همان 14 میلیارد پارامتر تراز شده اما با 1.5 برابر توکن بیشتر آموزش داده شده است، تقریباً با امتیازات o3-mini OpenAI در OmniMath مطابقت دارد! برای اطلاع، Phi-4-reasoning از یک پنجره زمینه کلاسیک 128000 توکنی بهره می‌برد که برای نسخه Phi-4-reasoning-plus به 256000 توکن افزایش یافته است.

Phi-4-mini-reasoning که برای سیستم‌های جاسازی شده طراحی شده است، 3.8 میلیارد پارامتر، یک مجموعه مصنوعی از یک میلیون مسئله ریاضی تولید شده توسط DeepSeek-R1 را نمایش می‌دهد و به عملکرد o1-mini در Math-500 دست می‌یابد در حالی که از چندین مدل با 7 تا 8 میلیارد پارامتر پیشی می‌گیرد. این مدل با اندازه فوق‌العاده کوچک خود، برای اجرای محلی، از جمله در دستگاه‌های تلفن همراه، و برای رفع نیاز به پاسخ‌های تقریباً فوری ایده‌آل است. این مدل به ویژه برای مصارف آموزشی و چت‌بات‌های محلی مناسب است.

مدل‌های باز برای کاربردهای متنوع

در سمت استقرار، مدیران ارشد امنیت اطلاعات (CISOs) این مدل‌ها را از قبل برای Copilot+ PC بهینه شده خواهند یافت: نوع NPU “Phi Silica” از قبل در حافظه بارگذاری شده است و زمان پاسخ تقریباً فوری را فراهم می‌کند و همزیستی کم‌مصرف با برنامه‌های تجاری را تضمین می‌کند. رابط‌های برنامه‌نویسی کاربردی ویندوز (Windows APIs) امکان ادغام تولید آفلاین را در Outlook یا ابزارهای داخلی فراهم می‌کنند.

از نظر امنیتی، مایکروسافت ادعا می‌کند که یک خط لوله با اصول مسئولیت‌پذیری خود - پاسخگویی، انصاف، قابلیت اطمینان، ایمنی و فراگیری - همسو است. این مدل‌ها تحت آموزش پس از ترکیبی از SFT، بهینه‌سازی ترجیح مستقیم و RLHF از مجموعه‌های جهت‌گیری “مفید بودن/بی‌ضرری” عمومی و داخلی قرار می‌گیرند. مایکروسافت همچنین “کارت‌های” مدل‌های خود را منتشر می‌کند که محدودیت‌های باقیمانده و اقدامات کاهش را شرح می‌دهند.

این سه مدل که اکنون در Azure AI Foundry، Hugging Face و GitHub Models در دسترس هستند، تحت مجوز بسیار آزاد MIT منتشر شده‌اند و راه را برای استنتاج محلی و همچنین استقرارهای ابری ترکیبی باز می‌کنند. برای تیم‌های امنیتی و معماری، این نسل جدید از SLMها یک جایگزین معتبر برای LLMهای عظیم ارائه می‌دهد، با TCO کاهش یافته، اجرا به صورت محلی و همچنین در Edge و افزایش کنترل داده‌ها. این مدل‌ها گواهی بر پیشرفت‌های باورنکردنی SLMها در یک سال و پتانسیل شگفت‌انگیز آنها در جهانی هستند که به دنبال هوش مصنوعی ارزان‌تر و کم‌مصرف‌تر است.

نگاهی عمیق‌تر به قابلیت‌های استدلال Phi-4

ورود خانواده مدل‌های Phi-4 نشان‌دهنده یک گام مهم رو به جلو در توسعه مدل‌های زبانی کوچک (SLM) است. آنچه این مدل‌ها را متمایز می‌کند، توانایی‌های استدلال پیشرفته آنهاست که از طریق تکنیک‌های آموزش نوآورانه و تمرکز بر داده‌های با کیفیت بالا به دست آمده است. تعهد مایکروسافت به اصول منبع باز، دسترسی به این ابزارهای قدرتمند را بیشتر دموکراتیک می‌کند و توسعه‌دهندگان را قادر می‌سازد تا قابلیت‌های هوش مصنوعی پیشرفته را در طیف گسترده‌ای از برنامه‌ها ادغام کنند.

درک معماری

مدل‌های Phi-4 بر اساس معماری ترانسفورمر ساخته شده‌اند، یک چارچوب اثبات شده برای پردازش زبان طبیعی. با این حال، مایکروسافت چندین نوآوری کلیدی را برای بهینه‌سازی مدل‌ها برای وظایف استدلال پیاده‌سازی کرده است.

  • نظارت دقیق (SFT): مدل‌ها با استفاده از تکنیکی به نام نظارت دقیق (SFT) آموزش داده می‌شوند، که شامل یادگیری از زنجیره‌های استدلال دقیق تولید شده توسط مدل o3-mini OpenAI است. این به مدل‌های Phi-4 اجازه می‌دهد تا مراحل درگیر در فرآیندهای استدلال پیچیده را بیاموزند.
  • یادگیری تقویتی (RL): نوع “به علاوه” مدل Phi-4، Phi-4-reasoning-plus، از یادگیری تقویتی (RL) برای بهبود بیشتر توانایی‌های استدلال خود استفاده می‌کند. RL شامل آموزش مدل برای به حداکثر رساندن یک سیگنال پاداش است که در این مورد بر اساس دقت و کارایی استدلال آن است.
  • تقطیر: تقطیر برای انتقال دانش از مدل‌های بزرگ‌تر و پیچیده‌تر به مدل‌های کوچک‌تر Phi-4 استفاده می‌شود. این به SLMها اجازه می‌دهد تا به سطوح عملکردی مشابه مدل‌های بسیار بزرگ‌تر دست یابند، در حالی که اندازه و کارایی فشرده خود را حفظ می‌کنند.

عملکرد معیار

مدل‌های Phi-4 عملکرد چشمگیری را در انواع معیارهای استدلال نشان داده‌اند و در برخی موارد از مدل‌های بزرگ‌تر پیشی گرفته‌اند. برای مثال، Phi-4-reasoning، با تنها 14 میلیارد پارامتر، عملکرد بهتری نسبت به DeepSeek-R1-Distill-Llama-70B (70 میلیارد پارامتر) در چندین مجموعه داده چالش‌برانگیز، از جمله AIME 2025، MMLU-Pro و HumanEval-Plus دارد. این کارایی و اثربخشی معماری Phi-4 و تکنیک‌های آموزش را برجسته می‌کند.

نوع Phi-4-reasoning-plus که با 1.5 برابر توکن بیشتر آموزش داده شده است، به امتیازاتی نزدیک به o3-mini OpenAI در معیار OmniMath دست می‌یابد و توانایی خود را در مقابله با مسائل استدلال ریاضی پیچیده نشان می‌دهد.

کاربردها و موارد استفاده

مدل‌های Phi-4 برای انواع کاربردهایی که نیاز به قابلیت‌های استدلال پیشرفته دارند، مناسب هستند.

  • ابزارهای آموزشی: مدل Phi-4-mini-reasoning، با اندازه کوچک و عملکرد بالا، برای کاربردهای آموزشی ایده‌آل است. می‌توان از آن برای ایجاد ابزارهای یادگیری تعاملی استفاده کرد که بازخورد و پشتیبانی شخصی‌سازی شده را در اختیار دانش‌آموزان قرار می‌دهند.
  • چت‌بات‌های محلی: از مدل‌های Phi-4 می‌توان برای ساخت چت‌بات‌های محلی استفاده کرد که دسترسی فوری به اطلاعات و پشتیبانی را در اختیار کاربران قرار می‌دهند. اندازه کوچک آنها به آنها اجازه می‌دهد تا در دستگاه‌های تلفن همراه و سایر محیط‌های با محدودیت منابع مستقر شوند.
  • Copilot+ PC: مدل‌های Phi-4 برای Copilot+ PC بهینه شده‌اند و یک تجربه هوش مصنوعی یکپارچه را در اختیار کاربران قرار می‌دهند. نوع “Phi Silica” از قبل در حافظه بارگذاری شده است و زمان پاسخ تقریباً فوری را فراهم می‌کند.
  • تولید آفلاین: رابط‌های برنامه‌نویسی کاربردی ویندوز (Windows APIs) امکان ادغام تولید آفلاین را در Outlook یا ابزارهای داخلی فراهم می‌کنند و کاربران را قادر می‌سازند تا حتی زمانی که به اینترنت متصل نیستند به قابلیت‌های هوش مصنوعی دسترسی داشته باشند.

امنیت و مسئولیت

مایکروسافت متعهد به توسعه و استقرار مدل‌های هوش مصنوعی به روشی مسئولانه و اخلاقی است. مدل‌های Phi-4 نیز از این قاعده مستثنی نیستند.

  • اصول مسئولیت‌پذیری: خط لوله توسعه هوش مصنوعی مایکروسافت با اصول مسئولیت‌پذیری آن همسو است که شامل پاسخگویی، انصاف، قابلیت اطمینان، ایمنی و فراگیری می‌شود.
  • آموزش پس از: مدل‌های Phi-4 تحت آموزش پس از با استفاده از SFT، بهینه‌سازی ترجیح مستقیم و RLHF از مجموعه‌های داده‌های جهت‌گیری “مفید بودن/بی‌ضرری” عمومی و داخلی قرار می‌گیرند. این کمک می‌کند تا اطمینان حاصل شود که مدل‌ها ایمن و قابل اعتماد هستند.
  • کارت‌های مدل: مایکروسافت “کارت‌هایی” را برای مدل‌های خود منتشر می‌کند که محدودیت‌های باقیمانده و اقدامات کاهش را شرح می‌دهند. این شفافیت را در اختیار کاربران قرار می‌دهد و به آنها اجازه می‌دهد تا تصمیمات آگاهانه‌ای در مورد نحوه استفاده از مدل‌ها بگیرند.

آینده SLMها

مدل‌های Phi-4 نشان‌دهنده یک گام مهم رو به جلو در توسعه مدل‌های زبانی کوچک (SLM) هستند. قابلیت‌های استدلال پیشرفته آنها، همراه با اندازه کوچک و کارایی آنها، آنها را به یک جایگزین جذاب برای مدل‌های زبانی بزرگ‌تر (LLM) در بسیاری از کاربردها تبدیل می‌کند.

از آنجایی که SLMها به پیشرفت خود ادامه می‌دهند، احتمالاً نقش مهم‌تری را در چشم‌انداز هوش مصنوعی ایفا خواهند کرد. توانایی آنها در اجرا بر روی دستگاه‌های با محدودیت منابع و ارائه عملکرد سریع و کارآمد، آنها را برای طیف گسترده‌ای از کاربردها، از ابزارهای آموزشی گرفته تا چت‌بات‌های محلی تا دستگاه‌های محاسباتی لبه، مناسب می‌سازد.

تعهد مایکروسافت به اصول منبع باز و توسعه هوش مصنوعی مسئولانه، مدل‌های Phi-4 را به عنوان یک منبع ارزشمند برای جامعه هوش مصنوعی قرار می‌دهد. مایکروسافت با دموکراتیک کردن دسترسی به این ابزارهای قدرتمند، توسعه‌دهندگان را قادر می‌سازد تا برنامه‌های نوآورانه و تأثیرگذاری ایجاد کنند که می‌تواند به نفع جامعه باشد.

نگاهی دقیق‌تر به جنبه‌های فنی

کاوش عمیق‌تر در ویژگی‌های معماری Phi-4 و آموزش، تکنیک‌های نوآورانه‌ای را نشان می‌دهد که این SLMها را قادر می‌سازد تا به چنین قابلیت‌های استدلال چشمگیری دست یابند. ترکیبی از مجموعه‌داده‌های با دقت انتخاب شده، الگوریتم‌های آموزش پیچیده و تمرکز بر کارایی منجر به یک خانواده از مدل‌ها شده است که هم قدرتمند و هم کاربردی هستند.

انتخاب و آماده‌سازی داده

موفقیت هر مدل یادگیری ماشینی به کیفیت و ارتباط داده‌هایی که بر اساس آن آموزش داده می‌شود بستگی دارد. مایکروسافت تلاش قابل توجهی را در انتخاب و آماده‌سازی مجموعه‌داده‌هایی که برای آموزش مدل‌های Phi-4 استفاده می‌شد، سرمایه‌گذاری کرد.

  • زنجیره‌های استدلال از o3-mini OpenAI: مدل‌ها از زنجیره‌های استدلال تولید شده توسط مدل o3-mini OpenAI برای یادگیری مراحل درگیر در فرآیندهای استدلال پیچیده استفاده می‌کنند. این زنجیره‌ها یک نقشه راه دقیق را برای SLMها فراهم می‌کنند تا دنبال کنند و آنها را قادر می‌سازند تا درک عمیق‌تری از منطق اساسی توسعه دهند.
  • مسائل ریاضی مصنوعی: مدل Phi-4-mini-reasoning بر روی یک مجموعه داده مصنوعی از یک میلیون مسئله ریاضی تولید شده توسط DeepSeek-R1 آموزش داده شده است. این مجموعه داده طیف متنوعی از چالش‌های ریاضی را فراهم می‌کند و به مدل اجازه می‌دهد تا مهارت‌های حل مسئله قوی را توسعه دهد.
  • مجموعه‌داده‌های مفید بودن/بی‌ضرری: مدل‌ها تحت آموزش پس از با استفاده از مجموعه‌داده‌هایی قرار می‌گیرند که برای ترویج مفید بودن و بی‌ضرری طراحی شده‌اند. این کمک می‌کند تا اطمینان حاصل شود که مدل‌ها خروجی‌های ایمن و مسئولانه تولید می‌کنند.

الگوریتم‌های آموزش

مدل‌های Phi-4 با استفاده از ترکیبی از یادگیری نظارت شده، یادگیری تقویتی و تقطیر آموزش داده می‌شوند. این تکنیک‌ها با هم کار می‌کنند تا مدل‌ها را برای وظایف استدلالبهینه کنند و اطمینان حاصل کنند که هم دقیق و هم کارآمد هستند.

  • تنظیم دقیق نظارت شده (SFT): SFT برای تنظیم دقیق مدل‌ها بر روی زنجیره‌های استدلال تولید شده توسط o3-mini OpenAI استفاده می‌شود. این به مدل‌ها اجازه می‌دهد تا الگوها و روابط خاصی را که مشخصه فرآیندهای استدلال پیچیده هستند، بیاموزند.
  • یادگیری تقویتی (RL): RL برای آموزش مدل Phi-4-reasoning-plus برای به حداکثر رساندن یک سیگنال پاداش بر اساس دقت و کارایی استدلال آن استفاده می‌شود. این مدل را تشویق می‌کند تا استراتژی‌هایی را برای حل مسائلی ایجاد کند که هم موثر و هم از نظر محاسباتی کارآمد هستند.
  • تقطیر: تقطیر برای انتقال دانش از مدل‌های بزرگ‌تر و پیچیده‌تر به مدل‌های کوچک‌تر Phi-4 استفاده می‌شود. این به SLMها اجازه می‌دهد تا به سطوح عملکردی مشابه مدل‌های بسیار بزرگ‌تر دست یابند، در حالی که اندازه و کارایی فشرده خود را حفظ می‌کنند.

بهینه‌سازی برای کارایی

یکی از اهداف اصلی در توسعه مدل‌های Phi-4 بهینه‌سازی آنها برای کارایی بود. این در چندین جنبه از طراحی و آموزش آنها منعکس شده است.

  • معماری فشرده: مدل‌های Phi-4 با یک معماری فشرده طراحی شده‌اند که تعداد پارامترهای مورد نیاز را به حداقل می‌رساند. این هزینه محاسباتی اجرای مدل‌ها را کاهش می‌دهد و آنها را برای استقرار در دستگاه‌های با محدودیت منابع مناسب می‌سازد.
  • کمی‌سازی: کمی‌سازی برای کاهش ردپای حافظه مدل‌ها و بهبود سرعت استنتاج آنها استفاده می‌شود. این شامل نمایش پارامترهای مدل با استفاده از بیت‌های کمتر است که می‌تواند به طور قابل توجهی هزینه محاسباتی اجرای مدل را کاهش دهد.
  • شتاب سخت‌افزاری: مدل‌های Phi-4 برای شتاب سخت‌افزاری در انواع پلتفرم‌ها، از جمله CPUها، GPUها و NPUها بهینه شده‌اند. این به آنها اجازه می‌دهد تا حداکثر عملکرد را در طیف گسترده‌ای از دستگاه‌ها به دست آورند.

پیامدهای آینده هوش مصنوعی

مدل‌های Phi-4 نشان‌دهنده یک گام مهم رو به جلو در توسعه هوش مصنوعی هستند، با پیامدهایی که فراتر از کاربردهای خاصی که برای آن طراحی شده‌اند گسترش می‌یابد. توانایی آنها در دستیابی به عملکرد بالا با اندازه نسبتاً کوچک و منابع محاسباتی، امکانات جدیدی را برای استقرار هوش مصنوعی در طیف گسترده‌ای از تنظیمات باز می‌کند.

دموکراتیزاسیون هوش مصنوعی

مدل‌های Phi-4 گواهی بر این واقعیت هستند که قابلیت‌های قدرتمند هوش مصنوعی را می‌توان بدون نیاز به منابع محاسباتی عظیم یا دسترسی به مجموعه‌داده‌های اختصاصی به دست آورد. این دسترسی به هوش مصنوعی را دموکراتیک می‌کند و توسعه‌دهندگان و محققان را قادر می‌سازد تا برنامه‌های نوآورانه حتی با منابع محدود ایجاد کنند.

محاسبات لبه

اندازه کوچک و کارایی مدل‌های Phi-4 آنها را برای کاربردهای محاسبات لبه مناسب می‌سازد. این به هوش مصنوعی اجازه می‌دهد تا نزدیک‌تر به منبع داده مستقر شود، تأخیر را کاهش دهد و پاسخگویی را بهبود بخشد. محاسبات لبه این پتانسیل را دارد که طیف گسترده‌ای از صنایع، از تولید گرفته تا مراقبت‌های بهداشتی تا حمل و نقل را متحول کند.

هوش مصنوعی شخصی‌سازی شده

مدل‌های Phi-4 را می‌توان سفارشی و تطبیق داد تا نیازهای خاص کاربران یا سازمان‌های فردی را برآورده کند. این امکان ایجاد تجربیات هوش مصنوعی شخصی‌سازی شده را فراهم می‌کند که متناسب با الزامات منحصر به فرد هر کاربر است. هوش مصنوعی شخصی‌سازی شده این پتانسیل را دارد که بهره‌وری را بهبود بخشد، یادگیری را افزایش دهد و رفاه کلی را بهبود بخشد.

هوش مصنوعی پایدار

مدل‌های Phi-4 یک جایگزین پایدارتر برای مدل‌های زبانی بزرگ‌تر هستند و به انرژی و منابع محاسباتی کمتری نیاز دارند. این برای کاهش اثرات زیست محیطی هوش مصنوعی و اطمینان از اینکه می‌توان آن را به روشی مسئولانه و پایدار مستقر کرد، مهم است.

مدل‌های Microsoft Phi-4-Reasoning فقط تکرار دیگری در دنیای همیشه در حال تحول هوش مصنوعی نیستند. آنها یک تغییر پارادایم هستند. آنها نشان می‌دهند که هوش صرفاً تابعی از اندازه و قدرت محاسباتی نیست، بلکه می‌تواند از طریق طراحی هوشمندانه، انتخاب دقیق داده‌ها و تکنیک‌های آموزش نوآورانه به دست آید. از آنجایی که این مدل‌ها به تکامل خود ادامه می‌دهند، آماده باز کردن امکانات جدیدی برای هوش مصنوعی و تغییر نحوه تعامل ما با فناوری هستند.