توانمندسازی نوآوری نسل بعدی فی

فی-۴-چندوجهی: رویکردی یکپارچه به هوش مصنوعی چندوجهی

فی-۴-چندوجهی به عنوان اولین گام پیشگامانه مایکروسافت در عرصه مدل‌های زبانی چندوجهی ظهور می‌کند. این مدل پیشگام، با ۵.۶ میلیارد پارامتر، به طور یکپارچه پردازش گفتار، بینایی و متن را در یک معماری واحد و منسجم ادغام می‌کند. این رویکرد نوآورانه مستقیماً از بازخورد ارزشمند مشتریان نشأت می‌گیرد و نشان‌دهنده تعهد مایکروسافت به بهبود مستمر و پاسخگویی به نیازهای کاربران است.

توسعه فی-۴-چندوجهی از تکنیک‌های پیشرفته یادگیری بین‌وجهی بهره می‌برد. این امر مدل را قادر می‌سازد تا تعاملات طبیعی‌تر و آگاهانه‌تر از زمینه را تقویت کند. دستگاه‌های مجهز به فی-۴-چندوجهی می‌توانند به طور همزمان انواع مختلف ورودی را درک کرده و استدلال کنند. این مدل در تفسیر زبان گفتاری، تجزیه و تحلیل تصاویر و پردازش اطلاعات متنی برتری دارد. علاوه بر این، استنتاج بسیار کارآمد و با تأخیر کم را ارائه می‌دهد و در عین حال برای اجرا روی دستگاه بهینه‌سازی شده است، در نتیجه سربار محاسباتی را به حداقل می‌رساند.

یکی از ویژگی‌های بارز فی-۴-چندوجهی، معماری یکپارچه آن است. برخلاف رویکردهای مرسوم که به خطوط لوله پیچیده یا مدل‌های جداگانه برای حالت‌های مختلف متکی هستند، فی-۴-چندوجهی به عنوان یک موجودیت واحد عمل می‌کند. این مدل به طرز ماهرانه‌ای ورودی‌های متنی، صوتی و تصویری را در همان فضای بازنمایی مدیریت می‌کند. این طراحی ساده، کارایی را افزایش می‌دهد و فرآیند توسعه را تسهیل می‌کند.

معماری فی-۴-چندوجهی شامل چندین پیشرفت برای افزایش عملکرد و تطبیق‌پذیری آن است. این موارد عبارتند از:

  • واژگان بزرگتر: قابلیت‌های پردازش بهبود یافته را تسهیل می‌کند.
  • پشتیبانی چند زبانه: کاربرد مدل را در زمینه‌های مختلف زبانی گسترش می‌دهد.
  • استدلال زبان یکپارچه: درک زبان را با ورودی‌های چندوجهی ترکیب می‌کند.

این پیشرفت‌ها در یک مدل فشرده و بسیار کارآمد به دست می‌آیند که برای استقرار در دستگاه‌ها و پلتفرم‌های محاسبات لبه‌ای ایده‌آل است. قابلیت‌های گسترده و سازگاری فی-۴-چندوجهی، امکانات متعددی را برای توسعه‌دهندگان برنامه‌ها، کسب‌وکارها و صنایعی که به دنبال استفاده از هوش مصنوعی به روش‌های نوآورانه هستند، باز می‌کند.

در حوزه وظایف مرتبط با گفتار، فی-۴-چندوجهی توانایی استثنایی خود را نشان داده و به عنوان یک پیشرو در میان مدل‌های باز ظاهر شده است. به طور قابل توجهی، این مدل از مدل‌های تخصصی مانند WhisperV3 و SeamlessM4T-v2-Large هم در تشخیص خودکار گفتار (ASR) و هم در ترجمه گفتار (ST) پیشی می‌گیرد. این مدل جایگاه برتر را در تابلوی امتیازات HuggingFace OpenASR به دست آورده است و به نرخ خطای کلمه چشمگیر ۶.۱۴٪ دست یافته است که از بهترین نتیجه قبلی ۶.۵٪ (از فوریه ۲۰۲۵) بهتر است. علاوه بر این، این مدل یکی از معدود مدل‌های باز است که قادر به پیاده‌سازی موفقیت‌آمیز خلاصه‌سازی گفتار است و به سطوح عملکردی قابل مقایسه با مدل GPT-4o دست می‌یابد.

در حالی که فی-۴-چندوجهی در مقایسه با مدل‌هایی مانند Gemini-2.0-Flash و GPT-4o-realtime-preview در وظایف پرسش و پاسخ (QA) گفتاری، شکاف کمی را نشان می‌دهد، که عمدتاً به دلیل اندازه کوچکتر و در نتیجه محدودیت در حفظ دانش QA واقعی است، تلاش‌های مداوم بر افزایش این قابلیت در تکرارهای بعدی متمرکز شده است.

فراتر از گفتار، فی-۴-چندوجهی قابلیت‌های بینایی قابل توجهی را در معیارهای مختلف نشان می‌دهد. این مدل به ویژه در استدلال ریاضی و علمی عملکرد قوی دارد. علیرغم اندازه جمع و جور، این مدل عملکرد رقابتی را در وظایف چندوجهی عمومی حفظ می‌کند، از جمله:

  • درک اسناد و نمودار
  • تشخیص کاراکتر نوری (OCR)
  • استدلال علمی بصری

این مدل با عملکرد مدل‌های قابل مقایسه مانند Gemini-2-Flash-lite-preview و Claude-3.5-Sonnet مطابقت دارد یا از آن فراتر می‌رود.

فی-۴-مینی: نیروگاه فشرده برای وظایف مبتنی بر متن

مکمل فی-۴-چندوجهی، فی-۴-مینی است، یک مدل ۳.۸ میلیارد پارامتری که برای سرعت و کارایی در وظایف مبتنی بر متن طراحی شده است. این ترانسفورماتور متراکم و فقط رمزگشا دارای ویژگی‌های زیر است:

  • توجه پرس و جو گروه بندی شده
  • یک واژگان ۲۰۰,۰۰۰ کلمه‌ای
  • جاسازی‌های ورودی-خروجی مشترک

علیرغم اندازه جمع و جور، فی-۴-مینی به طور مداوم در طیف وسیعی از وظایف مبتنی بر متن، از جمله موارد زیر، از مدل‌های بزرگتر بهتر عمل می‌کند:

  • استدلال
  • ریاضی
  • برنامه نویسی
  • پیروی از دستورالعمل
  • فراخوانی تابع

این مدل از دنباله‌هایی تا ۱۲۸,۰۰۰ توکن پشتیبانی می‌کند و دقت و مقیاس‌پذیری استثنایی را ارائه می‌دهد. این امر آن را به یک راه حل قدرتمند برای برنامه‌های پیشرفته هوش مصنوعی تبدیل می‌کند که به عملکرد بالا در پردازش متن نیاز دارند.

فراخوانی تابع، پیروی از دستورالعمل، پردازش زمینه طولانی و استدلال، همگی قابلیت‌های قدرتمندی هستند که مدل‌های زبانی کوچک مانند فی-۴-مینی را قادر می‌سازند تا به دانش و عملکرد خارجی دسترسی پیدا کنند و به طور موثر بر محدودیت‌های ناشی از اندازه جمع و جور خود غلبه کنند. از طریق یک پروتکل استاندارد، فراخوانی تابع به مدل اجازه می‌دهد تا به طور یکپارچه با رابط‌های برنامه‌نویسی ساختاریافته ادغام شود.

هنگامی که یک درخواست کاربر ارائه می‌شود، فی-۴-مینی می‌تواند:

۱. از طریق پرس و جو استدلال کند.
۲. توابع مربوطه را با پارامترهای مناسب شناسایی و فراخوانی کند.
۳. خروجی‌های تابع را دریافت کند.
۴. این نتایج را در پاسخ‌های خود بگنجاند.

این یک سیستم توسعه‌پذیر و مبتنی بر عامل ایجاد می‌کند که در آن قابلیت‌های مدل را می‌توان با اتصال آن به ابزارهای خارجی، رابط‌های برنامه کاربردی (API) و منابع داده از طریق رابط‌های تابع کاملاً تعریف‌شده، افزایش داد. یک مثال گویا، یک عامل کنترل خانه هوشمند است که توسط فی-۴-مینی تغذیه می‌شود و به طور یکپارچه دستگاه‌ها و عملکردهای مختلف را مدیریت می‌کند.

ردپای کوچکتر فی-۴-مینی و فی-۴-چندوجهی، آنها را برای محیط‌های استنتاج محدود به محاسبات بسیار مناسب می‌کند. این مدل‌ها به ویژه برای استقرار روی دستگاه، به ویژه هنگامی که با ONNX Runtime برای در دسترس بودن بین پلتفرمی بهینه‌سازی شده‌اند، سودمند هستند. نیازهای محاسباتی کاهش یافته آنها به هزینه‌های کمتر و تأخیر به طور قابل توجهی بهبود یافته تبدیل می‌شود. پنجره زمینه گسترده به مدل‌ها اجازه می‌دهد تا محتوای متنی گسترده، از جمله اسناد، صفحات وب، کد و موارد دیگر را پردازش و استدلال کنند. هم فی-۴-مینی و هم فی-۴-چندوجهی قابلیت‌های استدلال و منطق قوی را نشان می‌دهند و آنها را به عنوان رقبای قوی برای وظایف تحلیلی قرار می‌دهند. اندازه جمع و جور آنها همچنین تنظیم دقیق یا سفارشی‌سازی را ساده کرده و هزینه آن را کاهش می‌دهد.

کاربردهای دنیای واقعی: دگرگونی صنایع

طراحی این مدل‌ها آنها را قادر می‌سازد تا به طور موثر وظایف پیچیده را انجام دهند و آنها را برای سناریوهای محاسبات لبه‌ای و محیط‌هایی با منابع محاسباتی محدود ایده‌آل می‌کند. قابلیت‌های گسترده فی-۴-چندوجهی و فی-۴-مینی، افق‌های کاربردهای فی را در صنایع مختلف گسترش می‌دهد. این مدل‌ها در اکوسیستم‌های هوش مصنوعی ادغام می‌شوند و برای کشف طیف گسترده‌ای از موارد استفاده مورد استفاده قرار می‌گیرند.

در اینجا چند نمونه قانع کننده آورده شده است:

  • ادغام در ویندوز: مدل‌های زبان به عنوان موتورهای استدلال قدرتمند عمل می‌کنند. ادغام مدل‌های زبانی کوچک مانند فی در ویندوز امکان حفظ قابلیت‌های محاسباتی کارآمد را فراهم می‌کند و راه را برای آینده‌ای از هوش پیوسته که به طور یکپارچه در تمام برنامه‌ها و تجربیات کاربر ادغام شده است، هموار می‌کند. رایانه‌های شخصی +Copilot از قابلیت‌های فی-۴-چندوجهی استفاده می‌کنند و قدرت SLMهای پیشرفته مایکروسافت را بدون مصرف انرژی بیش از حد ارائه می‌دهند. این ادغام بهره‌وری، خلاقیت و تجربیات آموزشی را افزایش می‌دهد و استاندارد جدیدی را برای پلتفرم توسعه‌دهنده ایجاد می‌کند.

  • دستگاه‌های هوشمند: تصور کنید تولیدکنندگان گوشی‌های هوشمند فی-۴-چندوجهی را مستقیماً در دستگاه‌های خود تعبیه کنند. این امر به گوشی‌های هوشمند اجازه می‌دهد تا دستورات صوتی را پردازش و درک کنند، تصاویر را تشخیص دهند و متن را به طور یکپارچه تفسیر کنند. کاربران می‌توانند از ویژگی‌های پیشرفته‌ای مانند ترجمه زبان در زمان واقعی، تجزیه و تحلیل عکس و ویدیو پیشرفته و دستیاران شخصی هوشمند که قادر به درک و پاسخگویی به پرسش‌های پیچیده هستند، بهره‌مند شوند. این امر با ارائه قابلیت‌های هوش مصنوعی قدرتمند به طور مستقیم روی دستگاه، تجربه کاربری را به طور قابل توجهی ارتقا می‌دهد و تأخیر کم و کارایی بالا را تضمین می‌کند.

  • صنعت خودرو: یک شرکت خودروسازی را در نظر بگیرید که فی-۴-چندوجهی را در سیستم‌های دستیار داخل خودرو خود ادغام می‌کند. این مدل می‌تواند وسایل نقلیه را قادر سازد تا دستورات صوتی را درک کرده و به آنها پاسخ دهند، حرکات راننده را تشخیص دهند و ورودی‌های بصری دوربین‌ها را تجزیه و تحلیل کنند. به عنوان مثال، می‌تواند با تشخیص خواب آلودگی از طریق تشخیص چهره و ارائه هشدارهای زمان واقعی، ایمنی راننده را افزایش دهد. علاوه بر این، می‌تواند کمک ناوبری یکپارچه ارائه دهد، علائم راهنمایی و رانندگی را تفسیر کند و اطلاعات متنی را ارائه دهد و تجربه رانندگی بصری‌تر و ایمن‌تری را هم در هنگام اتصال به ابر و هم به صورت آفلاین در زمانی که اتصال در دسترس نیست، ایجاد کند.

  • خدمات مالی چند زبانه: یک شرکت خدمات مالی را تصور کنید که از فی-۴-مینی برای خودکارسازی محاسبات پیچیده مالی، تولید گزارش‌های دقیق و ترجمه اسناد مالی به چندین زبان استفاده می‌کند. این مدل می‌تواند با انجام محاسبات پیچیده ریاضی که برای ارزیابی ریسک، مدیریت پورتفولیو و پیش‌بینی مالی بسیار مهم است، به تحلیلگران کمک کند. علاوه بر این، می‌تواند صورت‌های مالی، اسناد نظارتی و ارتباطات مشتری را به زبان‌های مختلف ترجمه کند و در نتیجه روابط جهانی مشتری را بهبود بخشد.

تضمین ایمنی و امنیت

Azure AI Foundry مجموعه‌ای قوی از قابلیت‌ها را در اختیار کاربران قرار می‌دهد تا به سازمان‌ها در اندازه‌گیری، کاهش و مدیریت ریسک‌های هوش مصنوعی در طول چرخه عمر توسعه هوش مصنوعی کمک کند. این امر هم برای یادگیری ماشین سنتی و هم برای برنامه‌های هوش مصنوعی مولد اعمال می‌شود. ارزیابی‌های هوش مصنوعی Azure در AI Foundry به توسعه‌دهندگان این امکان را می‌دهد تا به طور مکرر کیفیت و ایمنی مدل‌ها و برنامه‌ها را با استفاده از معیارهای داخلی و سفارشی برای اطلاع‌رسانی استراتژی‌های کاهش، ارزیابی کنند.

هم فی-۴-چندوجهی و هم فی-۴-مینی تحت آزمایش‌های امنیتی و ایمنی دقیقی قرار گرفته‌اند که توسط کارشناسان امنیتی داخلی و خارجی انجام شده است. این کارشناسان از استراتژی‌های طراحی شده توسط تیم قرمز هوش مصنوعی مایکروسافت (AIRT) استفاده کردند. این روش‌ها، که در مدل‌های قبلی فی اصلاح شده‌اند، دیدگاه‌های جهانی و سخنرانان بومی همه زبان‌های پشتیبانی شده را در بر می‌گیرند. آنها طیف گسترده‌ای از زمینه‌ها را شامل می‌شوند، از جمله:

  • امنیت سایبری
  • امنیت ملی
  • انصاف
  • خشونت

این ارزیابی‌ها از طریق کاوش چند زبانه به روندهای فعلی می‌پردازند. با استفاده از ابزار شناسایی ریسک پایتون منبع باز AIRT (PyRIT) و کاوش دستی، تیم‌های قرمز حملات تک نوبتی و چند نوبتی را انجام دادند. AIRT که مستقل از تیم‌های توسعه عمل می‌کند، به طور مداوم بینش‌هایی را با تیم مدل به اشتراک می‌گذارد. این رویکرد به طور کامل چشم‌انداز امنیتی و ایمنی جدید هوش مصنوعی را که توسط آخرین مدل‌های فی معرفی شده است، ارزیابی کرد و ارائه قابلیت‌های با کیفیت بالا و ایمن را تضمین کرد.

کارت‌های مدل جامع برای فی-۴-چندوجهی و فی-۴-مینی، همراه با مقاله فنی همراه، خلاصه‌ای دقیق از کاربردهای توصیه شده و محدودیت‌های این مدل‌ها را ارائه می‌دهند. این شفافیت بر تعهد مایکروسافت به توسعه و استقرار مسئولانه هوش مصنوعی تأکید می‌کند. این مدل‌ها آماده‌اند تا تأثیر قابل توجهی بر توسعه هوش مصنوعی بگذارند.