در سالی که از معرفی طیف وسیعی از مدلهای زبانی کوچک (SLM) با انتشار Phi-3 در Azure AI Foundry میگذرد، مایکروسافت از نسل بعدی مدلهای خود رونمایی کرده است: Phi-4-reasoning، Phi-4-reasoning-plus و Phi-4-mini-reasoning. این نوآوریها نشاندهنده یک نقطه عطف برای SLMها هستند و آنچه را که با هوش مصنوعی جمع و جور و کارآمد قابل دستیابی است، دوباره تعریف میکنند.
طلوع مدلهای Phi-Reasoning
مدلهای جدید Phi-reasoning برای مهار مقیاسبندی زمان استنتاج برای وظایف پیچیدهای طراحی شدهاند که نیاز به تجزیه چند مرحلهای و بازتاب درونی دارند. این مدلها تواناییهای استثنایی در استدلال ریاضی از خود نشان میدهند و خود را به عنوان پایهای برای برنامههای کاربردی عاملمانند که وظایف پیچیده و چندوجهی را انجام میدهند، تثبیت میکنند. از لحاظ تاریخی، چنین تواناییهایی منحصر به مدلهای بسیار بزرگتر بود. مدلهای Phi-reasoning یک دسته جدید از SLMها را معرفی میکنند که از تقطیر، یادگیری تقویتی و دادههای با کیفیت بالا برای ایجاد تعادل بین اندازه و عملکرد استفاده میکنند. اندازه جمع و جور آنها باعث میشود برای محیطهای با تأخیر کم مناسب باشند، در حالی که تواناییهای استدلال قوی آنها با مدلهای بسیار بزرگتر رقابت میکند. این ترکیب کارایی و قابلیت به دستگاههای دارای محدودیت منابع نیز اجازه میدهد تا وظایف استدلال پیچیده را به طور موثر اجرا کنند.
Phi-4-Reasoning و Phi-4-Reasoning-Plus: بررسی عمیقتر
Phi-4-Reasoning: مدل استدلال با وزن باز
Phi-4-reasoning به عنوان یک مدل استدلال با وزن باز با 14 میلیارد پارامتر برجسته است. این مدل برای رقابت با مدلهای بسیار بزرگتر در وظایف استدلال پیچیده طراحی شده است. این مدل از طریق تنظیم دقیق نظارتشده Phi-4 بر روی نمونههای استدلال دقیقا انتخابشده برگرفته از o3-mini OpenAI آموزش داده شده است. Phi-4-reasoning زنجیرههای استدلال دقیقی ایجاد میکند و به طور موثر از زمان محاسباتی اضافی در طول استنتاج استفاده میکند. این دستاورد تأکید میکند که چگونه انتخاب دقیق دادهها و مجموعهدادههای مصنوعی با کیفیت بالا، مدلهای کوچکتر را قادر میسازد تا با همتایان بزرگتر خود رقابت کنند.
Phi-4-Reasoning-Plus: افزایش استدلال با یادگیری تقویتی
Phi-4-reasoning-plus با تکیه بر قابلیتهای Phi-4-reasoning، تحت آموزش بیشتر با یادگیری تقویتی قرار میگیرد تا از زمان محاسباتی اضافی در طول استنتاج استفاده کند. این مدل 1.5 برابر بیشتر از Phi-4-reasoning توکن پردازش میکند که منجر به افزایش دقت میشود.
معیارهای عملکرد
با وجود اندازه بسیار کوچکتر، هر دو Phi-4-reasoning و Phi-4-reasoning-plus از o1-mini OpenAI و DeepSeek-R1-Distill-Llama-70B در معیارهای مختلف، از جمله استدلال ریاضی و تحقیقات علمی در سطح دکترا، عملکرد بهتری دارند. به طور چشمگیری، آنها حتی از مدل کامل DeepSeek-R1 (با 671 میلیارد پارامتر) در آزمون AIME 2025، که به عنوان مسابقه مقدماتی برای المپیاد ریاضی ایالات متحده آمریکا در سال 2025 عمل میکند، پیشی میگیرند. هر دو مدل به راحتی در Azure AI Foundry و Hugging Face در دسترس هستند.
Phi-4-Mini-Reasoning: نیروگاه فشرده برای محیطهای محدود
Phi-4-mini-reasoning به طور خاص برای پاسخگویی به تقاضا برای یک مدل استدلال فشرده طراحی شده است. این مدل زبانی مبتنی بر ترانسفورماتور برای استدلال ریاضی بهینه شده است و قابلیتهای حل مسئله گام به گام با کیفیت بالا را در محیطهایی که قدرت محاسباتی یا تأخیر محدود است، ارائه میدهد. این مدل با استفاده از دادههای مصنوعی تولید شده توسط مدل Deepseek-R1 تنظیم دقیق شده است و به طور موثر بین کارایی و قابلیتهای استدلال پیشرفته تعادل برقرار میکند. این امر آن را برای برنامههای آموزشی، سیستمهای آموزش خصوصی تعبیهشده و استقرارهای سبکوزن در سیستمهای لبه یا تلفن همراه ایدهآل میسازد. این مدل بر روی بیش از یک میلیون مسئله ریاضی متنوع آموزش داده شده است که دامنه دشواری آنها از راهنمایی تا سطح دکترا متغیر است و تطبیقپذیری و اثربخشی آن را در طیف گستردهای از زمینههای آموزشی تضمین میکند.
Phi در عمل: گسترش افقها
تکامل Phi در طول سال گذشته به طور مداوم مرزهای کیفیت نسبت به اندازه را پیش برده است و این خانواده برای در بر گرفتن ویژگیهای جدید متناسب با نیازهای متنوع گسترش یافته است. این مدلها را میتوان به صورت محلی روی هر دو CPU و GPU در انواع دستگاههای Windows 11 اجرا کرد و انعطافپذیری و دسترسی را برای کاربرانی با پیکربندیهای سختافزاری مختلف فراهم کرد.
ادغام با Copilot+ PCs: عصری جدید از محاسبات مبتنی بر هوش مصنوعی
مدلهای Phi بخش جداییناپذیر Copilot+ PCs را تشکیل میدهند و از نوع Phi Silica بهینهسازیشده NPU استفاده میکنند. این نسخه بسیار کارآمد Phi، که توسط سیستم عامل مدیریت میشود، برای پیشبارگذاری در حافظه طراحی شده است و زمانهای پاسخ سریع و توان عملیاتی توکن کممصرف را ارائه میدهد. این امر آن را قادر میسازد تا همزمان با سایر برنامههای کاربردی روی رایانه شخصی فراخوانی شود، قابلیتهای چندوظیفهای و عملکرد کلی سیستم را افزایش دهد.
کاربردهای دنیای واقعی
مدلهای Phi در حال حاضر در تجربیات اصلی مانند Click to Do مورد استفاده قرار میگیرند که ابزارهای متنی هوشمندی را برای تمام محتوای روی صفحه ارائه میدهد. آنها همچنین به عنوان APIهای توسعهدهنده برای ادغام یکپارچه در برنامههای کاربردی در دسترس هستند. این مدلها در حال حاضر در برنامههای کاربردی بهرهوری مختلف مانند Outlook استفاده میشوند، جایی که ویژگیهای خلاصه آفلاین Copilot را ارائه میدهند. مدلهای Phi-4-reasoning و Phi-4-mini-reasoning از بهینهسازیهای کمبیت برای Phi Silica استفاده میکنند و به زودی برای اجرا بر روی Copilot+ PC NPUs در دسترس خواهند بود.
تعهد مایکروسافت به هوش مصنوعی مسئولانه و ایمنی
در مایکروسافت، هوش مصنوعی مسئولانه یک اصل اساسی است که توسعه و استقرار سیستمهای هوش مصنوعی، از جمله مدلهای Phi را هدایت میکند. مدلهای Phi مطابق با اصول هوش مصنوعی مایکروسافت توسعه یافتهاند: پاسخگویی، شفافیت، انصاف، قابلیت اطمینان و ایمنی، حریم خصوصی و امنیت، و فراگیری. خانواده مدلهای Phi از یک رویکرد قوی برای ایمنی پس از آموزش استفاده میکنند و از ترکیبی از تنظیم دقیق نظارتشده (SFT)، بهینهسازی ترجیحات مستقیم (DPO) و یادگیری تقویتی از بازخورد انسانی (RLHF) برای اطمینان از استفاده مسئولانه و اخلاقی از آنها استفاده میکنند.
مبانی فنی مدلهای Phi: بررسی دقیق
مدلهای Phi مایکروسافت نشاندهنده یک پیشرفت قابل توجه در زمینه مدلهای زبانی کوچک، به ویژه در توانایی آنها برای انجام وظایف استدلال پیچیده با پارامترهای نسبتاً کم است. این بخش به جزئیات فنی میپردازد که این مدلها را قادر میسازد تا به چنین عملکرد چشمگیری دست یابند.
نوآوریهای معماری
مدلهای Phi مبتنی بر معماری ترانسفورماتور هستند، یک مدل یادگیری عمیق که انقلابی در پردازش زبان طبیعی ایجاد کرده است. ترانسفورماتورها در捕获 وابستگیهای دوربرد در متن عالی هستند و به مدلها اجازه میدهند تا زمینه و ظرافتهای زبان را درک کنند.
مکانیسم توجه: هسته اصلی معماری ترانسفورماتور مکانیسم توجه است که به مدل اجازه میدهد تا بر روی مرتبطترین بخشهای ورودی هنگام تولید خروجی تمرکز کند. این امر به ویژه برای وظایف استدلال مهم است، جایی که مدل باید اطلاعات و روابط کلیدی را برای رسیدن به یک نتیجه صحیح شناسایی کند.
توجه نقطهای مقیاسشده: مدلهای Phi از توجه نقطهای مقیاسشده استفاده میکنند، یک نسخه اصلاحشده از مکانیسم توجه که شامل یک عامل مقیاسبندی برای جلوگیری از بیش از حد بزرگ شدن ضربات نقطهای است، که میتواند منجر به ناپایداری در طول آموزش شود.
توجه چند سر: برای捕获 جنبههای مختلف ورودی، مدلهای Phi از توجه چند سر استفاده میکنند، جایی که چندین مکانیسم توجه به صورت موازی عمل میکنند. هر سر بر روی زیرمجموعه متفاوتی از ورودی تمرکز میکند و به مدل اجازه میدهد تا نمایشهای پیچیدهتری را یاد بگیرد.
شبکههای تغذیه پیشرو: پس از لایههای توجه، معماری ترانسفورماتور شامل شبکههای تغذیه پیشرو است که اطلاعات را بیشتر پردازش میکنند. این شبکهها از چندین لایه نورون تشکیل شدهاند که یاد میگیرند ویژگیها را از خروجیهای توجه استخراج کنند.
روشهای آموزشی: رویکرد چندوجهی
آموزش مدلهای Phi شامل ترکیبی از تکنیکها، از جمله تنظیم دقیق نظارتشده، یادگیری تقویتی و تقطیر داده است.
تنظیم دقیق نظارتشده (SFT): تنظیم دقیق نظارتشده شامل آموزش مدل بر روی یک مجموعه داده برچسبگذاریشده است، جایی که ورودی یک سوال یا مشکل است و خروجی پاسخ یا راه حل صحیح است. این به مدل کمک میکند تا یاد بگیرد ورودیهای خاص را با خروجیهای مربوطه مرتبط کند.
یادگیری تقویتی (RL): یادگیری تقویتی تکنیکی است که در آن مدل با تعامل با یک محیط و دریافت پاداش یا جریمه برای اقدامات خود، تصمیمگیری را یاد میگیرد. در زمینه مدلهای زبانی، محیط میتواند مجموعهای از قوانین یا محدودیتها باشد و پاداش میتواند بر اساس دقت پاسخهای مدل باشد.
تقطیر داده: تقطیر داده تکنیکی است که در آن یک مدل کوچکتر آموزش داده میشود تا رفتار یک مدل بزرگتر و پیچیدهتر را تقلید کند. این به مدل کوچکتر اجازه میدهد تا به عملکردی قابل مقایسه با مدل بزرگتر دست یابد، در حالی که به منابع کمتری نیاز دارد.
انتخاب داده: سنگ بنای عملکرد
عملکرد مدلهای Phi به شدت وابسته به کیفیت دادههای مورد استفاده برای آموزش است. مایکروسافت تلاش قابل توجهی را برای انتخاب مجموعهدادههای با کیفیت بالا سرمایهگذاری کرده است که به طور خاص برای وظایف استدلال طراحی شدهاند.
تولید داده مصنوعی: برای افزایش دادههای موجود، مایکروسافت تکنیکهایی را برای تولید دادههای مصنوعی توسعه داده است که ویژگیهای دادههای دنیای واقعی را تقلید میکند. این به مدلها اجازه میدهد تا بر روی یک مجموعه داده بزرگتر و متنوعتر آموزش داده شوند، که توانایی تعمیم آنها را بهبود میبخشد.
فیلتر کردن داده: مایکروسافت از تکنیکهای فیلتر کردن داده دقیق برای حذف دادههای پر سر و صدا یا نامربوط از مجموعه داده آموزشی استفاده میکند. این تضمین میکند که مدلها بر روی دادههای تمیز و دقیق آموزش داده میشوند، که منجر به عملکرد بهتر میشود.
افزایش داده: از تکنیکهای افزایش داده برای افزایش تنوع مجموعه داده آموزشی با اعمال تغییراتی در دادههای موجود استفاده میشود. این به مدلها کمک میکند تا در برابر تغییرات در ورودی قویتر باشند.
تکنیکهای بهینهسازی: ایجاد تعادل بین کارایی و دقت
مدلهای Phi برای کارایی و دقت بهینه شدهاند و به آنها اجازه میدهند تا بدون فدا کردن عملکرد، روی دستگاههای با محدودیت منابع اجرا شوند.
کوانتیزاسیون: کوانتیزاسیون تکنیکی است که در آن دقت پارامترهای مدل کاهش مییابد، که ردپای حافظه و الزامات محاسباتی مدل را کاهش میدهد.
هرس کردن: هرس کردن تکنیکی است که در آن اتصالات کم اهمیتتر در مدل حذف میشوند، که اندازه و پیچیدگی مدل را کاهش میدهد.
تقطیر دانش: تقطیر دانش شامل انتقال دانش از یک مدل بزرگتر و پیچیدهتر به یک مدل کوچکتر است. این به مدل کوچکتر اجازه میدهد تا به عملکردی قابل مقایسه با مدل بزرگتر دست یابد، در حالی که به منابع کمتری نیاز دارد.
Phi Silica NPU: رویکرد همافزایی سختافزار-نرمافزار
مدلهای Phi مایکروسافت برای ادغام دقیق با Phi Silica NPU (واحد پردازش عصبی)، یک شتابدهنده سختافزاری تخصصی که برای بارهای کاری یادگیری عمیق بهینه شده است، طراحی شدهاند.
بهینهسازی کمبیت: Phi Silica NPU از بهینهسازی کمبیت پشتیبانی میکند، که به مدلها اجازه میدهد با دقت کاهشیافته اجرا شوند و ردپای حافظه و الزامات محاسباتی خود را بیشتر کاهش دهند.
پیشبارگذاری در حافظه: مدلهای Phi برای پیشبارگذاری در حافظه طراحی شدهاند، که به آنها اجازه میدهد تا به سرعت و کارآمدی فراخوانی شوند.
مدیریت سیستم عامل: Phi Silica NPU توسط سیستم عامل مدیریت میشود، که به آن اجازه میدهد تا به طور یکپارچه در تجربه کاربری ادغام شود.
به طور خلاصه، مدلهای Phi مایکروسافت نشاندهنده یک دستاورد قابل توجه در زمینه مدلهای زبانی کوچک است. با ترکیب طراحیهای معماری نوآورانه، روشهای آموزشی دقیق، انتخاب دقیق دادهها و طراحی مشترک سختافزار-نرمافزار، مایکروسافت یک خانواده از مدلها ایجاد کرده است که هم قدرتمند و هم کارآمد هستند و طیف گستردهای از برنامههای کاربردی مبتنی بر هوش مصنوعی را امکانپذیر میکنند.