مایکروسافت Phi-4، یک مدل زبانی کوچک با 14 میلیارد پارامتر را معرفی کرده است که هدف آن پیشبرد مرزهای استدلال ریاضی است. این مدل که ابتدا در Azure AI Foundry در دسترس بود، اخیراً در Hugging Face تحت مجوز MIT به صورت متن باز منتشر شده است.
نوآوری های Phi-4
به گفته مایکروسافت، Phi-4 در استدلال ریاضی از مدل های مشابه و حتی بزرگتر بهتر عمل می کند. این برتری به دلیل چندین تکنیک نوآورانه در آموزش آن است، از جمله:
- پیش آموزش و آموزش میانی با داده های مصنوعی: استفاده از داده های مصنوعی برای پیش آموزش و آموزش میانی، مسیر یادگیری ساختار یافته تری برای مدل فراهم می کند.
- مدیریت داده های ارگانیک: داده های ارگانیک به دقت انتخاب و غربال می شوند تا از کیفیت داده های آموزشی اطمینان حاصل شود.
- طرح آموزش پس از جدید: یک رویکرد جدید برای آموزش پس از آموزش، عملکرد مدل را بیشتر بهبود می بخشد.
این نوآوری ها باعث شده است که Phi-4 در توانایی های پرسش و پاسخ با تمرکز بر STEM از مدل مربی خود، GPT-4o، پیشی بگیرد، که نشان می دهد تکنیک های تولید داده و آموزش پس از آموزش مایکروسافت صرفاً یک تقطیر دانش ساده نیست.
مزایای منحصر به فرد داده های مصنوعی
استفاده از داده های مصنوعی در آموزش مدل های زبانی بزرگ (LLM) چیز جدیدی نیست، و مدل های Phi نیز قبلاً از این روش استفاده کرده اند. مایکروسافت اشاره می کند که داده های مصنوعی جایگزین ارزان قیمتی نیستند و در موارد زیر از داده های ارگانیک بهتر عمل می کنند:
- مسیر یادگیری تدریجی تر: داده های مصنوعی می توانند LLM را به تدریج یادگیری هدایت کنند، از بیان اولیه مسئله تا راه حل نهایی، و درک فرآیند استدلال را برای آن آسان تر کنند.
- همسویی بهتر با محیط استدلال: بر خلاف داده های ارگانیک که شامل بیان مسئله و راه حل نهایی هستند، داده های مصنوعی می توانند فرآیند استدلال گام به گام دقیق تری را ارائه دهند که با سناریوهای استدلال واقعی همخوانی بیشتری دارد.
داده های ارگانیک به دقت انتخاب شده
علاوه بر داده های مصنوعی، مایکروسافت از داده های ارگانیک به دقت انتخاب شده نیز استفاده کرده است، از جمله ده ها میلیون مسئله و راه حل ریاضی با کیفیت بالا که از وب سایت های عمومی و مجموعه داده های خارجی جمع آوری شده اند. برای مواردی که راه حل دقیقی ارائه نشده است، از روش اکثریت آرا برای تولید راه حل ها به صورت ترکیبی استفاده می شود تا دقت افزایش یابد. علاوه بر این، مقالات علمی، انجمن های آموزشی و آموزش های برنامه نویسی نیز جمع آوری شده اند.
مایکروسافت بر نقش کلیدی داده های طبیعی با کیفیت در تولید داده های مصنوعی تاکید کرده است و خاطرنشان می کند که حتی اشتباهات جزئی نیز می تواند منجر به کاهش شدید کیفیت اسناد مصنوعی مشتق شده شود. بنابراین، آنها تلاش زیادی را برای بهبود مدیریت داده های وب صرف کرده اند.
مرحله پس از آموزش Phi-4
مرحله پس از آموزش Phi-4 برای تبدیل آن به یک دستیار هوش مصنوعی قابل اعتماد طراحی شده است. این مرحله شامل مراحل زیر است:
- تنظیم دقیق: تنظیم دقیق مدل با استفاده از داده های با کیفیت بالا که از حوزه های مختلف مانند ریاضیات، کدنویسی، استدلال، مکالمه، هویت مدل و ایمنی تولید شده است.
- بهینه سازی ترجیحات مستقیم (DPO): اجرای دو مرحله DPO برای همسویی بهتر مدل با ترجیحات انسانی و حذف رفتارهای نامطلوب.
- جستجوی نشانه محوری: در مرحله اول، مایکروسافت از یک تکنیک جدید به نام جستجوی نشانه محوری برای تولید جفت های نتیجه مطلوب/نامطلوب استفاده می کند.
- GPT-4o به عنوان داور: در مرحله دوم، آنها از GPT-4o به عنوان داور برای برچسب گذاری هر جفت نتیجه با برچسب های مثبت یا منفی استفاده می کنند.
ارزیابی Phi-4
Phi-4 با استفاده از چارچوب SIMPLE-EVALS OpenAI ارزیابی شده است و در چندین معیار از Llama-3.1-405B پیشی گرفته است. علاوه بر این، در معیارهای GPQA (پرسش و پاسخ STEM در سطح تحصیلات تکمیلی) و MATH (مسابقات ریاضی) نیز از مدل مربی خود، GPT-4o، پیشی گرفته است.
جزئیات داده های آموزشی مدل Phi-4
مایکروسافت در آموزش مدل Phi-4 از یک استراتژی داده به دقت طراحی شده استفاده کرده است که عمدتاً حول داده های مصنوعی و داده های واقعی انتخاب شده می چرخد. این روش ترکیبی با هدف بهینه سازی روند یادگیری مدل و برتری آن در استدلال ریاضی طراحی شده است.
تولید داده های مصنوعی
داده های مصنوعی نقش حیاتی در آموزش Phi-4 ایفا می کنند. تیم مایکروسافت داده های مصنوعی را به عنوان جایگزینی ساده برای داده های واقعی در نظر نگرفته است، بلکه آن را ابزاری برای هدایت مدل به یادگیری تدریجی می داند. فرآیند تولید داده های مصنوعی معمولاً مراحل زیر را دنبال می کند:
- ایجاد مسئله: ابتدا، مسائل ریاضی مختلفی بر اساس قوانین و الگوهای از پیش تعریف شده تولید می شوند. این مسائل حوزه های مختلف ریاضی و سطوح دشواری را پوشش می دهند تا از یادگیری جامع مدل اطمینان حاصل شود.
- راه حل گام به گام: برای هر مسئله تولید شده، یک راه حل گام به گام ایجاد می شود که فرآیند استدلال از بیان مسئله تا پاسخ نهایی را به تفصیل توضیح می دهد. این راه حل گام به گام نه تنها شامل پاسخ نهایی، بلکه مراحل میانی و منطق استدلال است، که به مدل کمک می کند تا فرآیند حل مسئله را درک کند.
- افزایش داده ها: برای افزایش تنوع داده ها، داده های مصنوعی نیز افزایش می یابند، به عنوان مثال با تغییر بیان مسئله، تنظیم اعداد یا استفاده از روش های حل متفاوت.
داده های واقعی انتخاب شده
علاوه بر داده های مصنوعی، آموزش Phi-4 از تعداد زیادی داده واقعی انتخاب شده نیز استفاده کرده است. این داده ها از وب سایت های عمومی مختلف، مقالات علمی، انجمن های آموزشی و آموزش های برنامه نویسی، از جمله انواع زیر، جمع آوری شده اند:
- مسائل و راه حل های ریاضی: میلیون ها مسئله ریاضی با کیفیت بالا و راه حل های آنها از وب سایت های عمومی و مجموعه داده های خارجی جمع آوری شده است. این مسائل حوزه های مختلف ریاضی و سطوح دشواری را پوشش می دهند.
- مقالات علمی: برای بهبود توانایی درک و استدلال مدل، تعداد زیادی مقاله علمی نیز جمع آوری شده است که مفاهیم و نظریه های عمیق ریاضی را ارائه می دهند.
- انجمن های آموزشی: مسائل مطرح شده توسط دانش آموزان و راه حل های ارائه شده توسط متخصصان از انجمن های آموزشی جمع آوری شده است، که به مدل امکان می دهد مسائل ریاضی را از دیدگاه های مختلف درک کند.
- آموزش های برنامه نویسی: برای بهبود توانایی برنامه نویسی مدل، تعداد زیادی آموزش برنامه نویسی نیز جمع آوری شده است که زبان های برنامه نویسی و الگوریتم های مختلف را پوشش می دهند.
کنترل کیفیت داده ها
مایکروسافت تلاش زیادی را برای کنترل کیفیت داده ها انجام داده است تا از دقت و سازگاری داده های آموزشی اطمینان حاصل شود. آنها اقدامات زیر را انجام داده اند:
- بازبینی دستی: برای برخی مجموعه داده های کلیدی، بازبینی دستی انجام می شود تا از دقت و کیفیت داده ها اطمینان حاصل شود.
- اکثریت آرا: برای مسائلی که راه حل دقیقی ارائه نشده است، از روش اکثریت آرا برای تولید راه حل ها استفاده می شود، که دقت را افزایش می دهد.
- پاکسازی داده ها: تمام داده ها پاکسازی می شوند تا داده های تکراری، داده های نادرست و داده های نامربوط حذف شوند.
تجزیه و تحلیل دقیق استراتژی های پس از آموزش
مرحله پس از آموزش Phi-4 برای تبدیل آن به یک دستیار هوش مصنوعی قابل اعتماد طراحی شده است و این مرحله عمدتاً از تنظیم دقیق و بهینه سازی ترجیحات مستقیم (DPO) تشکیل شده است.
مرحله تنظیم دقیق
هدف از مرحله تنظیم دقیق، تطبیق مدل با وظایف و حوزه های مختلف است. در این مرحله، مایکروسافت از داده های با کیفیت بالا تولید شده از حوزه های زیر استفاده کرده است:
- ریاضیات: شامل مسائل و راه حل های مختلف ریاضی است که هدف آن بهبود توانایی استدلال ریاضی مدل است.
- کدنویسی: شامل مسائل و راه حل های مختلف برنامه نویسی است که هدف آن بهبود توانایی تولید و درک کد مدل است.
- استدلال: شامل مسائل استدلال منطقی مختلف است که هدف آن بهبود توانایی تفکر منطقی مدل است.
- مکالمه: شامل داده های مکالمه مختلف است که هدف آن بهبود درک و تولید زبان طبیعی مدل است.
- هویت مدل: شامل توصیفات مختلف هویت مدل است که هدف آن بهبود درک مدل از توانایی های خود است.
- ایمنی: شامل مسائل و راه حل های ایمنی مختلف است که هدف آن بهبود ایمنی مدل است.
مرحله بهینه سازی ترجیحات مستقیم (DPO)
هدف از مرحله بهینه سازی ترجیحات مستقیم (DPO)، همسویی بهتر رفتار مدل با ترجیحات انسانی و حذف رفتارهای نامطلوب است. این مرحله شامل دو مرحله است:
- جستجوی نشانه محوری: در مرحله اول، مایکروسافت از یک تکنیک جدید به نام جستجوی نشانه محوری برای تولید جفت های نتیجه مطلوب/نامطلوب استفاده می کند. این تکنیک با جستجوی فضای خروجی مدل، نشانه های کلیدی را پیدا می کند که می توانند رفتارهای مطلوب و نامطلوب را متمایز کنند.
- GPT-4o به عنوان داور: در مرحله دوم، آنها از GPT-4o به عنوان داور برای برچسب گذاری هر جفت نتیجه با برچسب های مثبت یا منفی استفاده می کنند. GPT-4o قادر است خروجی مدل را بر اساس ترجیحات انسانی ارزیابی کند، که به مدل کمک می کند تا ترجیحات انسانی را بهتر بیاموزد.
ارزیابی عملکرد Phi-4
برای ارزیابی عملکرد Phi-4، مایکروسافت از چارچوب SIMPLE-EVALS OpenAI استفاده کرده است، که شامل معیارهای مختلفی است که می تواند عملکرد مدل را در وظایف مختلف ارزیابی کند.
معیارهای ارزیابی
Phi-4 در معیارهای ارزیابی زیر عملکرد خوبی داشته است:
- GPQA (پرسش و پاسخ STEM در سطح تحصیلات تکمیلی): در این معیار ارزیابی، Phi-4 از مدل مربی خود، GPT-4o، پیشی گرفته است، که نشان دهنده توانایی بسیار قوی آن در پرسش و پاسخ در حوزه STEM است.
- MATH (مسابقات ریاضی): در این معیار ارزیابی نیز، Phi-4 از مدل مربی خود، GPT-4o، پیشی گرفته است، که نشان دهنده توانایی بسیار عالی آن در حل مسائل پیچیده ریاضی است.
- مقایسه با سایر مدل ها: در چندین معیار ارزیابی، Phi-4 از Llama-3.1-405B پیشی گرفته است، که نشان دهنده عملکرد کلی بسیار قوی آن است.
تجزیه و تحلیل عملکرد
از طریق ارزیابی عملکرد Phi-4، می توان به نتایج زیر دست یافت:
- توانایی استدلال ریاضی قوی: Phi-4 در استدلال ریاضی عملکرد بسیار خوبی دارد، که به دلیل رویکردهای نوآورانه استفاده شده در فرآیند آموزش، از جمله داده های مصنوعی، داده های واقعی انتخاب شده و استراتژی های پس از آموزش است.
- پیشی گرفتن از مدل مربی: در چندین معیار ارزیابی، Phi-4 از مدل مربی خود، GPT-4o، پیشی گرفته است، که نشان می دهد عملکرد آن صرفاً یک تقطیر دانش ساده نیست.
- مقایسه با سایر مدل ها: Phi-4 در چندین معیار ارزیابی از Llama-3.1-405B پیشی گرفته است، که نشان دهنده عملکرد کلی بسیار قوی آن است.
چشم انداز کاربردهای Phi-4
Phi-4 به عنوان یک مدل زبانی کوچک طراحی شده برای استدلال پیچیده ریاضی، چشم انداز کاربردهای گسترده ای دارد. می توان از آن در زمینه های زیر استفاده کرد:
- آموزش: می تواند به عنوان یک ابزار کمک آموزشی ریاضی استفاده شود، به دانش آموزان در حل مسائل ریاضی کمک کند و تجربه یادگیری شخصی سازی شده ای را ارائه دهد.
- تحقیقات: می تواند به عنوان یک ابزار تحقیقاتی استفاده شود، به محققان در مدل سازی ریاضی و تجزیه و تحلیل داده ها کمک کند.
- مهندسی: می تواند به عنوان یک ابزار مهندسی استفاده شود، به مهندسان در طراحی و تجزیه و تحلیل کمک کند.
- امور مالی: می تواند به عنوان یک ابزار مالی استفاده شود، به تحلیلگران مالی در ارزیابی ریسک و تصمیم گیری سرمایه گذاری کمک کند.
- سایر زمینه ها: همچنین می تواند در سایر زمینه هایی که نیاز به استدلال پیچیده ریاضی دارند، مانند مراقبت های بهداشتی، تدارکات و تولید، استفاده شود.
نتیجه گیری
ظهور Microsoft Phi-4 نشان دهنده پیشرفت قابل توجهی در مدل های زبانی کوچک در زمینه استدلال ریاضی است. استراتژی منحصر به فرد آموزش داده و روش های پس از آموزش آن، باعث شده است که عملکرد آن از مدل های مشابه و بزرگتر فراتر رود و ایده های جدیدی را برای توسعه هوش مصنوعی در آینده ارائه دهد. با متن باز شدن Phi-4 در Hugging Face، مطمئناً برای محققان و توسعه دهندگان بیشتری تسهیل ایجاد می کند و کاربرد فناوری هوش مصنوعی را در زمینه های مختلف پیش می برد.