خانواده Phi گسترش مییابد: معرفی قابلیتهای چندوجهی
مشارکت مایکروسافت در این زمینه نوظهور SLM ها، خانواده Phi است، مجموعهای از مدلهای فشرده. نسل چهارم Phi در ابتدا در ماه دسامبر معرفی شد و اکنون، مایکروسافت این مجموعه را با دو مورد اضافه شده قابل توجه تکمیل میکند: Phi-4-multimodal و Phi-4-mini. مطابق با همتایان خود، این مدلهای جدید از طریق Azure AI Foundry، Hugging Face و Nvidia API Catalog، همگی تحت مجوز MIT، به راحتی در دسترس خواهند بود.
Phi-4-multimodal، به طور خاص، برجسته است. این یک مدل 5.6 میلیارد پارامتری است که از یک تکنیک پیچیده به نام ‘mixture-of-LoRAs’ (Low-Rank Adaptations) استفاده میکند. این رویکرد مدل را قادر میسازد تا گفتار، ورودی بصری و دادههای متنی را به طور همزمان پردازش کند. LoRA ها یک روش جدید برای افزایش عملکرد یک مدل زبان بزرگ در وظایف خاص ارائه میدهند، که نیاز به تنظیم دقیق گسترده در تمام پارامترهای آن را دور میزند. در عوض، توسعه دهندگانی که از LoRA استفاده میکنند، به طور استراتژیک تعداد کمتری از وزنهای جدید را در مدل وارد میکنند. فقط این وزنهای تازه معرفی شده تحت آموزش قرار میگیرند، که منجر به یک فرآیند به طور قابل توجهی سریعتر و کارآمدتر از نظر حافظه میشود. نتیجه مجموعهای از مدلهای سبکتر است که ذخیره، اشتراکگذاری و استقرار آنها بسیار آسانتر است.
پیامدهای این کارایی قابل توجه است. Phi-4-multimodal به استنتاج با تاخیر کم دست مییابد – به این معنی که میتواند اطلاعات را پردازش کرده و پاسخها را خیلی سریع ارائه دهد – در حالی که برای اجرا بر روی دستگاه بهینه شده است. این به معنای کاهش چشمگیر سربار محاسباتی است، و اجرای برنامههای کاربردی هوش مصنوعی پیچیده را در دستگاههایی که قبلاً فاقد قدرت پردازش لازم بودند، امکان پذیر میکند.
موارد استفاده بالقوه: از تلفنهای هوشمند تا خدمات مالی
کاربردهای بالقوه Phi-4-multimodal متنوع و گسترده هستند. تصور کنید این مدل به طور یکپارچه بر روی تلفنهای هوشمند کار میکند، ویژگیهای پیشرفته را در وسایل نقلیه تقویت میکند، یا برنامههای کاربردی سازمانی سبک را هدایت میکند. یک مثال قانع کننده، یک برنامه خدمات مالی چند زبانه است که قادر به درک و پاسخگویی به پرسشهای کاربر به زبانهای مختلف، پردازش دادههای بصری مانند اسناد، و همه اینها در حالی که به طور موثر بر روی دستگاه کاربر کار میکند، است.
تحلیلگران صنعت، پتانسیل تحول آفرین Phi-4-multimodal را تشخیص میدهند. این به عنوان یک گام مهم رو به جلو برای توسعه دهندگان، به ویژه کسانی که بر ایجاد برنامههای کاربردی مبتنی بر هوش مصنوعی برای دستگاههای تلفن همراه یا محیطهایی که منابع محاسباتی محدود هستند، تمرکز دارند، دیده میشود.
چارلی دای، معاون رئیس و تحلیلگر اصلی در Forrester، توانایی این مدل را برای ادغام پردازش متن، تصویر و صدا با قابلیتهای استدلال قوی برجسته میکند. او تاکید میکند که این ترکیب، برنامههای کاربردی هوش مصنوعی را بهبود میبخشد و به توسعه دهندگان و شرکتها ‘راه حلهای همه کاره، کارآمد و مقیاس پذیر’ ارائه میدهد.
یوگال جوشی، شریک در Everest Group، مناسب بودن این مدل را برای استقرار در محیطهای محدود از نظر محاسباتی تایید میکند. در حالی که او خاطرنشان میکند که دستگاههای تلفن همراه ممکن است پلتفرم ایدهآل برای همه موارد استفاده از هوش مصنوعی مولد نباشند، او SLM های جدید را بازتابی از الهام گرفتن مایکروسافت از DeepSeek میداند، ابتکار دیگری که بر به حداقل رساندن اتکا به زیرساختهای محاسباتی در مقیاس بزرگ متمرکز است.
محک زدن عملکرد: نقاط قوت و زمینههای رشد
هنگامی که صحبت از عملکرد محک میشود، Phi-4-multimodal شکاف عملکردی را در مقایسه با مدلهایی مانند Gemini-2.0-Flash و GPT-4o-realtime-preview، به ویژه در وظایف پرسش و پاسخ گفتاری (QA) نشان میدهد. مایکروسافت اذعان دارد که اندازه کوچکتر مدلهای Phi-4 ذاتاً ظرفیت آنها را برای حفظ دانش واقعی برای پرسش و پاسخ محدود میکند. با این حال، این شرکت بر تلاشهای مداوم برای افزایش این قابلیت در تکرارهای بعدی مدل تاکید میکند.
با وجود این، Phi-4-multimodal نقاط قوت چشمگیری را در زمینههای دیگر نشان میدهد. به طور قابل توجهی، در وظایف مربوط به استدلال ریاضی و علمی، تشخیص نوری کاراکتر (OCR) و استدلال علمی بصری، از چندین LLM محبوب، از جمله Gemini-2.0-Flash Lite و Claude-3.5-Sonnet، بهتر عمل میکند. اینها قابلیتهای حیاتی برای طیف گستردهای از برنامهها، از نرم افزارهای آموزشی گرفته تا ابزارهای تحقیقات علمی هستند.
Phi-4-mini: اندازه جمع و جور، عملکرد چشمگیر
در کنار Phi-4-multimodal، مایکروسافت Phi-4-mini را نیز معرفی کرد. این مدل حتی جمع و جورتر است و دارای 3.8 میلیارد پارامتر است. این مبتنی بر معماری ترانسفورماتور فقط رمزگشا متراکم است و از دنبالههایی تا 128000 توکن پشتیبانی میکند.
ویژو چن، معاون هوش مصنوعی مولد در مایکروسافت، عملکرد قابل توجه Phi-4-mini را با وجود اندازه کوچک آن برجسته میکند. در یک پست وبلاگ که به تفصیل مدلهای جدید را شرح میدهد، او خاطرنشان میکند که Phi-4-mini ‘همچنان از مدلهای بزرگتر در وظایف مبتنی بر متن، از جمله استدلال، ریاضی، کدنویسی، پیروی از دستورالعمل و فراخوانی تابع، بهتر عمل میکند.’ این امر بر پتانسیل مدلهای کوچکتر برای ارائه ارزش قابل توجه در حوزههای کاربردی خاص تاکید میکند.
بهروزرسانیهای Granite IBM: افزایش قابلیتهای استدلال
پیشرفتها در SLM ها محدود به مایکروسافت نیست. IBM همچنین بهروزرسانیای را برای خانواده مدلهای بنیادی Granite خود منتشر کرده است و مدلهای Granite 3.2 2B و 8B را معرفی کرده است. این مدلهای جدید دارای قابلیتهای بهبود یافته ‘زنجیره فکر’ هستند، جنبهای حیاتی برای افزایش تواناییهای استدلال. این بهبود به مدلها اجازه میدهد تا در مقایسه با مدلهای قبلی خود به عملکرد بهتری دست یابند.
علاوه بر این، IBM از یک مدل زبان بصری (VLM) جدید که به طور خاص برای وظایف درک اسناد طراحی شده است، رونمایی کرده است. این VLM عملکردی را نشان میدهد که در معیارهایی مانند DocVQA، ChartQA، AI2D و OCRBench1، با مدلهای به طور قابل توجهی بزرگتر، مانند Llama 3.2 11B و Pixtral 12B، مطابقت دارد یا از آنها پیشی میگیرد. این امر روند رو به رشد مدلهای کوچکتر و تخصصی را که عملکرد رقابتی را در حوزههای خاص ارائه میدهند، برجسته میکند.
آینده هوش مصنوعی روی دستگاه: یک تغییر پارادایم
معرفی Phi-4-multimodal و Phi-4-mini، همراه با بهروزرسانیهای Granite IBM، گامی مهم به سوی آیندهای است که در آن قابلیتهای قدرتمند هوش مصنوعی به راحتی در طیف گستردهای از دستگاهها در دسترس هستند. این تغییر پیامدهای عمیقی برای صنایع و کاربردهای مختلف دارد:
- دموکراتیزه کردن هوش مصنوعی: مدلهای کوچکتر و کارآمدتر، هوش مصنوعی را برای طیف وسیعتری از توسعهدهندگان و کاربران، نه فقط کسانی که به منابع محاسباتی عظیم دسترسی دارند، در دسترس قرار میدهند.
- حریم خصوصی و امنیت پیشرفته: پردازش روی دستگاه نیاز به انتقال دادههای حساس به ابر را کاهش میدهد و حریم خصوصی و امنیت را افزایش میدهد.
- پاسخگویی و تأخیر بهبود یافته: پردازش محلی تأخیرهای مرتبط با هوش مصنوعی مبتنی بر ابر را از بین میبرد و منجر به زمان پاسخدهی سریعتر و تجربه کاربری یکپارچهتر میشود.
- عملکرد آفلاین: هوش مصنوعی روی دستگاه میتواند حتی بدون اتصال به اینترنت کار کند، و امکانات جدیدی را برای برنامهها در محیطهای دورافتاده یا با اتصال کم باز میکند.
- کاهش مصرف انرژی: مدلهای کوچکتر به انرژی کمتری برای کار کردن نیاز دارند، که به عمر باتری بیشتر برای دستگاههای تلفن همراه و کاهش اثرات زیست محیطی کمک میکند.
- کاربردهای محاسبات لبه: این شامل بخشهایی مانند رانندگی خودران، تولید هوشمند و مراقبتهای بهداشتی از راه دور میشود.
پیشرفتها در SLM ها باعث تغییر پارادایم در چشم انداز هوش مصنوعی میشوند. در حالی که مدلهای زبان بزرگ همچنان نقش حیاتی ایفا میکنند، ظهور مدلهای فشرده و کارآمد مانند مدلهای خانواده Phi راه را برای آیندهای هموار میکند که در آن هوش مصنوعی فراگیرتر، در دسترستر و با زندگی روزمره ما یکپارچه شده است. تمرکز از اندازه صرف به کارایی، تخصص و توانایی ارائه قابلیتهای قدرتمند هوش مصنوعی به طور مستقیم بر روی دستگاههایی که هر روز استفاده میکنیم، تغییر میکند. این روند احتمالاً شتاب خواهد گرفت و منجر به برنامههای کاربردی نوآورانهتر و پذیرش گستردهتر هوش مصنوعی در بخشهای مختلف خواهد شد. توانایی انجام وظایف پیچیده، مانند درک ورودیهای چندوجهی، در دستگاههای با منابع محدود، فصل جدیدی را در تکامل هوش مصنوعی باز میکند.
مسابقه برای ایجاد SLM های هوشمندتر و تواناتر ادامه دارد و پیشنهاد جدید مایکروسافت یک گام بزرگ رو به جلو است.