مایکروسافت Phi-4-multimodal را معرفی کرد

خانواده Phi گسترش می‌یابد: معرفی قابلیت‌های چندوجهی

مشارکت مایکروسافت در این زمینه نوظهور SLM ها، خانواده Phi است، مجموعه‌ای از مدل‌های فشرده. نسل چهارم Phi در ابتدا در ماه دسامبر معرفی شد و اکنون، مایکروسافت این مجموعه را با دو مورد اضافه شده قابل توجه تکمیل می‌کند: Phi-4-multimodal و Phi-4-mini. مطابق با همتایان خود، این مدل‌های جدید از طریق Azure AI Foundry، Hugging Face و Nvidia API Catalog، همگی تحت مجوز MIT، به راحتی در دسترس خواهند بود.

Phi-4-multimodal، به طور خاص، برجسته است. این یک مدل 5.6 میلیارد پارامتری است که از یک تکنیک پیچیده به نام ‘mixture-of-LoRAs’ (Low-Rank Adaptations) استفاده می‌کند. این رویکرد مدل را قادر می‌سازد تا گفتار، ورودی بصری و داده‌های متنی را به طور همزمان پردازش کند. LoRA ها یک روش جدید برای افزایش عملکرد یک مدل زبان بزرگ در وظایف خاص ارائه می‌دهند، که نیاز به تنظیم دقیق گسترده در تمام پارامترهای آن را دور می‌زند. در عوض، توسعه دهندگانی که از LoRA استفاده می‌کنند، به طور استراتژیک تعداد کمتری از وزن‌های جدید را در مدل وارد می‌کنند. فقط این وزن‌های تازه معرفی شده تحت آموزش قرار می‌گیرند، که منجر به یک فرآیند به طور قابل توجهی سریع‌تر و کارآمدتر از نظر حافظه می‌شود. نتیجه مجموعه‌ای از مدل‌های سبک‌تر است که ذخیره، اشتراک‌گذاری و استقرار آن‌ها بسیار آسان‌تر است.

پیامدهای این کارایی قابل توجه است. Phi-4-multimodal به استنتاج با تاخیر کم دست می‌یابد – به این معنی که می‌تواند اطلاعات را پردازش کرده و پاسخ‌ها را خیلی سریع ارائه دهد – در حالی که برای اجرا بر روی دستگاه بهینه شده است. این به معنای کاهش چشمگیر سربار محاسباتی است، و اجرای برنامه‌های کاربردی هوش مصنوعی پیچیده را در دستگاه‌هایی که قبلاً فاقد قدرت پردازش لازم بودند، امکان پذیر می‌کند.

موارد استفاده بالقوه: از تلفن‌های هوشمند تا خدمات مالی

کاربردهای بالقوه Phi-4-multimodal متنوع و گسترده هستند. تصور کنید این مدل به طور یکپارچه بر روی تلفن‌های هوشمند کار می‌کند، ویژگی‌های پیشرفته را در وسایل نقلیه تقویت می‌کند، یا برنامه‌های کاربردی سازمانی سبک را هدایت می‌کند. یک مثال قانع کننده، یک برنامه خدمات مالی چند زبانه است که قادر به درک و پاسخگویی به پرسش‌های کاربر به زبان‌های مختلف، پردازش داده‌های بصری مانند اسناد، و همه اینها در حالی که به طور موثر بر روی دستگاه کاربر کار می‌کند، است.

تحلیلگران صنعت، پتانسیل تحول آفرین Phi-4-multimodal را تشخیص می‌دهند. این به عنوان یک گام مهم رو به جلو برای توسعه دهندگان، به ویژه کسانی که بر ایجاد برنامه‌های کاربردی مبتنی بر هوش مصنوعی برای دستگاه‌های تلفن همراه یا محیط‌هایی که منابع محاسباتی محدود هستند، تمرکز دارند، دیده می‌شود.

چارلی دای، معاون رئیس و تحلیلگر اصلی در Forrester، توانایی این مدل را برای ادغام پردازش متن، تصویر و صدا با قابلیت‌های استدلال قوی برجسته می‌کند. او تاکید می‌کند که این ترکیب، برنامه‌های کاربردی هوش مصنوعی را بهبود می‌بخشد و به توسعه دهندگان و شرکت‌ها ‘راه حل‌های همه کاره، کارآمد و مقیاس پذیر’ ارائه می‌دهد.

یوگال جوشی، شریک در Everest Group، مناسب بودن این مدل را برای استقرار در محیط‌های محدود از نظر محاسباتی تایید می‌کند. در حالی که او خاطرنشان می‌کند که دستگاه‌های تلفن همراه ممکن است پلتفرم ایده‌آل برای همه موارد استفاده از هوش مصنوعی مولد نباشند، او SLM های جدید را بازتابی از الهام گرفتن مایکروسافت از DeepSeek می‌داند، ابتکار دیگری که بر به حداقل رساندن اتکا به زیرساخت‌های محاسباتی در مقیاس بزرگ متمرکز است.

محک زدن عملکرد: نقاط قوت و زمینه‌های رشد

هنگامی که صحبت از عملکرد محک می‌شود، Phi-4-multimodal شکاف عملکردی را در مقایسه با مدل‌هایی مانند Gemini-2.0-Flash و GPT-4o-realtime-preview، به ویژه در وظایف پرسش و پاسخ گفتاری (QA) نشان می‌دهد. مایکروسافت اذعان دارد که اندازه کوچکتر مدل‌های Phi-4 ذاتاً ظرفیت آنها را برای حفظ دانش واقعی برای پرسش و پاسخ محدود می‌کند. با این حال، این شرکت بر تلاش‌های مداوم برای افزایش این قابلیت در تکرارهای بعدی مدل تاکید می‌کند.

با وجود این، Phi-4-multimodal نقاط قوت چشمگیری را در زمینه‌های دیگر نشان می‌دهد. به طور قابل توجهی، در وظایف مربوط به استدلال ریاضی و علمی، تشخیص نوری کاراکتر (OCR) و استدلال علمی بصری، از چندین LLM محبوب، از جمله Gemini-2.0-Flash Lite و Claude-3.5-Sonnet، بهتر عمل می‌کند. اینها قابلیت‌های حیاتی برای طیف گسترده‌ای از برنامه‌ها، از نرم افزارهای آموزشی گرفته تا ابزارهای تحقیقات علمی هستند.

Phi-4-mini: اندازه جمع و جور، عملکرد چشمگیر

در کنار Phi-4-multimodal، مایکروسافت Phi-4-mini را نیز معرفی کرد. این مدل حتی جمع و جورتر است و دارای 3.8 میلیارد پارامتر است. این مبتنی بر معماری ترانسفورماتور فقط رمزگشا متراکم است و از دنباله‌هایی تا 128000 توکن پشتیبانی می‌کند.

ویژو چن، معاون هوش مصنوعی مولد در مایکروسافت، عملکرد قابل توجه Phi-4-mini را با وجود اندازه کوچک آن برجسته می‌کند. در یک پست وبلاگ که به تفصیل مدل‌های جدید را شرح می‌دهد، او خاطرنشان می‌کند که Phi-4-mini ‘همچنان از مدل‌های بزرگتر در وظایف مبتنی بر متن، از جمله استدلال، ریاضی، کدنویسی، پیروی از دستورالعمل و فراخوانی تابع، بهتر عمل می‌کند.’ این امر بر پتانسیل مدل‌های کوچکتر برای ارائه ارزش قابل توجه در حوزه‌های کاربردی خاص تاکید می‌کند.

به‌روزرسانی‌های Granite IBM: افزایش قابلیت‌های استدلال

پیشرفت‌ها در SLM ها محدود به مایکروسافت نیست. IBM همچنین به‌روزرسانی‌ای را برای خانواده مدل‌های بنیادی Granite خود منتشر کرده است و مدل‌های Granite 3.2 2B و 8B را معرفی کرده است. این مدل‌های جدید دارای قابلیت‌های بهبود یافته ‘زنجیره فکر’ هستند، جنبه‌ای حیاتی برای افزایش توانایی‌های استدلال. این بهبود به مدل‌ها اجازه می‌دهد تا در مقایسه با مدل‌های قبلی خود به عملکرد بهتری دست یابند.

علاوه بر این، IBM از یک مدل زبان بصری (VLM) جدید که به طور خاص برای وظایف درک اسناد طراحی شده است، رونمایی کرده است. این VLM عملکردی را نشان می‌دهد که در معیارهایی مانند DocVQA، ChartQA، AI2D و OCRBench1، با مدل‌های به طور قابل توجهی بزرگتر، مانند Llama 3.2 11B و Pixtral 12B، مطابقت دارد یا از آنها پیشی می‌گیرد. این امر روند رو به رشد مدل‌های کوچکتر و تخصصی را که عملکرد رقابتی را در حوزه‌های خاص ارائه می‌دهند، برجسته می‌کند.

آینده هوش مصنوعی روی دستگاه: یک تغییر پارادایم

معرفی Phi-4-multimodal و Phi-4-mini، همراه با به‌روزرسانی‌های Granite IBM، گامی مهم به سوی آینده‌ای است که در آن قابلیت‌های قدرتمند هوش مصنوعی به راحتی در طیف گسترده‌ای از دستگاه‌ها در دسترس هستند. این تغییر پیامدهای عمیقی برای صنایع و کاربردهای مختلف دارد:

  • دموکراتیزه کردن هوش مصنوعی: مدل‌های کوچکتر و کارآمدتر، هوش مصنوعی را برای طیف وسیع‌تری از توسعه‌دهندگان و کاربران، نه فقط کسانی که به منابع محاسباتی عظیم دسترسی دارند، در دسترس قرار می‌دهند.
  • حریم خصوصی و امنیت پیشرفته: پردازش روی دستگاه نیاز به انتقال داده‌های حساس به ابر را کاهش می‌دهد و حریم خصوصی و امنیت را افزایش می‌دهد.
  • پاسخگویی و تأخیر بهبود یافته: پردازش محلی تأخیرهای مرتبط با هوش مصنوعی مبتنی بر ابر را از بین می‌برد و منجر به زمان پاسخ‌دهی سریع‌تر و تجربه کاربری یکپارچه‌تر می‌شود.
  • عملکرد آفلاین: هوش مصنوعی روی دستگاه می‌تواند حتی بدون اتصال به اینترنت کار کند، و امکانات جدیدی را برای برنامه‌ها در محیط‌های دورافتاده یا با اتصال کم باز می‌کند.
  • کاهش مصرف انرژی: مدل‌های کوچکتر به انرژی کمتری برای کار کردن نیاز دارند، که به عمر باتری بیشتر برای دستگاه‌های تلفن همراه و کاهش اثرات زیست محیطی کمک می‌کند.
  • کاربردهای محاسبات لبه: این شامل بخش‌هایی مانند رانندگی خودران، تولید هوشمند و مراقبت‌های بهداشتی از راه دور می‌شود.

پیشرفت‌ها در SLM ها باعث تغییر پارادایم در چشم انداز هوش مصنوعی می‌شوند. در حالی که مدل‌های زبان بزرگ همچنان نقش حیاتی ایفا می‌کنند، ظهور مدل‌های فشرده و کارآمد مانند مدل‌های خانواده Phi راه را برای آینده‌ای هموار می‌کند که در آن هوش مصنوعی فراگیرتر، در دسترس‌تر و با زندگی روزمره ما یکپارچه شده است. تمرکز از اندازه صرف به کارایی، تخصص و توانایی ارائه قابلیت‌های قدرتمند هوش مصنوعی به طور مستقیم بر روی دستگاه‌هایی که هر روز استفاده می‌کنیم، تغییر می‌کند. این روند احتمالاً شتاب خواهد گرفت و منجر به برنامه‌های کاربردی نوآورانه‌تر و پذیرش گسترده‌تر هوش مصنوعی در بخش‌های مختلف خواهد شد. توانایی انجام وظایف پیچیده، مانند درک ورودی‌های چندوجهی، در دستگاه‌های با منابع محدود، فصل جدیدی را در تکامل هوش مصنوعی باز می‌کند.
مسابقه برای ایجاد SLM های هوشمندتر و تواناتر ادامه دارد و پیشنهاد جدید مایکروسافت یک گام بزرگ رو به جلو است.