فی-۴-چندوجهی: رویکردی یکپارچه به هوش مصنوعی چندوجهی
فی-۴-چندوجهی به عنوان اولین گام پیشگامانه مایکروسافت در عرصه مدلهای زبانی چندوجهی ظهور میکند. این مدل پیشگام، با ۵.۶ میلیارد پارامتر، به طور یکپارچه پردازش گفتار، بینایی و متن را در یک معماری واحد و منسجم ادغام میکند. این رویکرد نوآورانه مستقیماً از بازخورد ارزشمند مشتریان نشأت میگیرد و نشاندهنده تعهد مایکروسافت به بهبود مستمر و پاسخگویی به نیازهای کاربران است.
توسعه فی-۴-چندوجهی از تکنیکهای پیشرفته یادگیری بینوجهی بهره میبرد. این امر مدل را قادر میسازد تا تعاملات طبیعیتر و آگاهانهتر از زمینه را تقویت کند. دستگاههای مجهز به فی-۴-چندوجهی میتوانند به طور همزمان انواع مختلف ورودی را درک کرده و استدلال کنند. این مدل در تفسیر زبان گفتاری، تجزیه و تحلیل تصاویر و پردازش اطلاعات متنی برتری دارد. علاوه بر این، استنتاج بسیار کارآمد و با تأخیر کم را ارائه میدهد و در عین حال برای اجرا روی دستگاه بهینهسازی شده است، در نتیجه سربار محاسباتی را به حداقل میرساند.
یکی از ویژگیهای بارز فی-۴-چندوجهی، معماری یکپارچه آن است. برخلاف رویکردهای مرسوم که به خطوط لوله پیچیده یا مدلهای جداگانه برای حالتهای مختلف متکی هستند، فی-۴-چندوجهی به عنوان یک موجودیت واحد عمل میکند. این مدل به طرز ماهرانهای ورودیهای متنی، صوتی و تصویری را در همان فضای بازنمایی مدیریت میکند. این طراحی ساده، کارایی را افزایش میدهد و فرآیند توسعه را تسهیل میکند.
معماری فی-۴-چندوجهی شامل چندین پیشرفت برای افزایش عملکرد و تطبیقپذیری آن است. این موارد عبارتند از:
- واژگان بزرگتر: قابلیتهای پردازش بهبود یافته را تسهیل میکند.
- پشتیبانی چند زبانه: کاربرد مدل را در زمینههای مختلف زبانی گسترش میدهد.
- استدلال زبان یکپارچه: درک زبان را با ورودیهای چندوجهی ترکیب میکند.
این پیشرفتها در یک مدل فشرده و بسیار کارآمد به دست میآیند که برای استقرار در دستگاهها و پلتفرمهای محاسبات لبهای ایدهآل است. قابلیتهای گسترده و سازگاری فی-۴-چندوجهی، امکانات متعددی را برای توسعهدهندگان برنامهها، کسبوکارها و صنایعی که به دنبال استفاده از هوش مصنوعی به روشهای نوآورانه هستند، باز میکند.
در حوزه وظایف مرتبط با گفتار، فی-۴-چندوجهی توانایی استثنایی خود را نشان داده و به عنوان یک پیشرو در میان مدلهای باز ظاهر شده است. به طور قابل توجهی، این مدل از مدلهای تخصصی مانند WhisperV3 و SeamlessM4T-v2-Large هم در تشخیص خودکار گفتار (ASR) و هم در ترجمه گفتار (ST) پیشی میگیرد. این مدل جایگاه برتر را در تابلوی امتیازات HuggingFace OpenASR به دست آورده است و به نرخ خطای کلمه چشمگیر ۶.۱۴٪ دست یافته است که از بهترین نتیجه قبلی ۶.۵٪ (از فوریه ۲۰۲۵) بهتر است. علاوه بر این، این مدل یکی از معدود مدلهای باز است که قادر به پیادهسازی موفقیتآمیز خلاصهسازی گفتار است و به سطوح عملکردی قابل مقایسه با مدل GPT-4o دست مییابد.
در حالی که فی-۴-چندوجهی در مقایسه با مدلهایی مانند Gemini-2.0-Flash و GPT-4o-realtime-preview در وظایف پرسش و پاسخ (QA) گفتاری، شکاف کمی را نشان میدهد، که عمدتاً به دلیل اندازه کوچکتر و در نتیجه محدودیت در حفظ دانش QA واقعی است، تلاشهای مداوم بر افزایش این قابلیت در تکرارهای بعدی متمرکز شده است.
فراتر از گفتار، فی-۴-چندوجهی قابلیتهای بینایی قابل توجهی را در معیارهای مختلف نشان میدهد. این مدل به ویژه در استدلال ریاضی و علمی عملکرد قوی دارد. علیرغم اندازه جمع و جور، این مدل عملکرد رقابتی را در وظایف چندوجهی عمومی حفظ میکند، از جمله:
- درک اسناد و نمودار
- تشخیص کاراکتر نوری (OCR)
- استدلال علمی بصری
این مدل با عملکرد مدلهای قابل مقایسه مانند Gemini-2-Flash-lite-preview و Claude-3.5-Sonnet مطابقت دارد یا از آن فراتر میرود.
فی-۴-مینی: نیروگاه فشرده برای وظایف مبتنی بر متن
مکمل فی-۴-چندوجهی، فی-۴-مینی است، یک مدل ۳.۸ میلیارد پارامتری که برای سرعت و کارایی در وظایف مبتنی بر متن طراحی شده است. این ترانسفورماتور متراکم و فقط رمزگشا دارای ویژگیهای زیر است:
- توجه پرس و جو گروه بندی شده
- یک واژگان ۲۰۰,۰۰۰ کلمهای
- جاسازیهای ورودی-خروجی مشترک
علیرغم اندازه جمع و جور، فی-۴-مینی به طور مداوم در طیف وسیعی از وظایف مبتنی بر متن، از جمله موارد زیر، از مدلهای بزرگتر بهتر عمل میکند:
- استدلال
- ریاضی
- برنامه نویسی
- پیروی از دستورالعمل
- فراخوانی تابع
این مدل از دنبالههایی تا ۱۲۸,۰۰۰ توکن پشتیبانی میکند و دقت و مقیاسپذیری استثنایی را ارائه میدهد. این امر آن را به یک راه حل قدرتمند برای برنامههای پیشرفته هوش مصنوعی تبدیل میکند که به عملکرد بالا در پردازش متن نیاز دارند.
فراخوانی تابع، پیروی از دستورالعمل، پردازش زمینه طولانی و استدلال، همگی قابلیتهای قدرتمندی هستند که مدلهای زبانی کوچک مانند فی-۴-مینی را قادر میسازند تا به دانش و عملکرد خارجی دسترسی پیدا کنند و به طور موثر بر محدودیتهای ناشی از اندازه جمع و جور خود غلبه کنند. از طریق یک پروتکل استاندارد، فراخوانی تابع به مدل اجازه میدهد تا به طور یکپارچه با رابطهای برنامهنویسی ساختاریافته ادغام شود.
هنگامی که یک درخواست کاربر ارائه میشود، فی-۴-مینی میتواند:
۱. از طریق پرس و جو استدلال کند.
۲. توابع مربوطه را با پارامترهای مناسب شناسایی و فراخوانی کند.
۳. خروجیهای تابع را دریافت کند.
۴. این نتایج را در پاسخهای خود بگنجاند.
این یک سیستم توسعهپذیر و مبتنی بر عامل ایجاد میکند که در آن قابلیتهای مدل را میتوان با اتصال آن به ابزارهای خارجی، رابطهای برنامه کاربردی (API) و منابع داده از طریق رابطهای تابع کاملاً تعریفشده، افزایش داد. یک مثال گویا، یک عامل کنترل خانه هوشمند است که توسط فی-۴-مینی تغذیه میشود و به طور یکپارچه دستگاهها و عملکردهای مختلف را مدیریت میکند.
ردپای کوچکتر فی-۴-مینی و فی-۴-چندوجهی، آنها را برای محیطهای استنتاج محدود به محاسبات بسیار مناسب میکند. این مدلها به ویژه برای استقرار روی دستگاه، به ویژه هنگامی که با ONNX Runtime برای در دسترس بودن بین پلتفرمی بهینهسازی شدهاند، سودمند هستند. نیازهای محاسباتی کاهش یافته آنها به هزینههای کمتر و تأخیر به طور قابل توجهی بهبود یافته تبدیل میشود. پنجره زمینه گسترده به مدلها اجازه میدهد تا محتوای متنی گسترده، از جمله اسناد، صفحات وب، کد و موارد دیگر را پردازش و استدلال کنند. هم فی-۴-مینی و هم فی-۴-چندوجهی قابلیتهای استدلال و منطق قوی را نشان میدهند و آنها را به عنوان رقبای قوی برای وظایف تحلیلی قرار میدهند. اندازه جمع و جور آنها همچنین تنظیم دقیق یا سفارشیسازی را ساده کرده و هزینه آن را کاهش میدهد.
کاربردهای دنیای واقعی: دگرگونی صنایع
طراحی این مدلها آنها را قادر میسازد تا به طور موثر وظایف پیچیده را انجام دهند و آنها را برای سناریوهای محاسبات لبهای و محیطهایی با منابع محاسباتی محدود ایدهآل میکند. قابلیتهای گسترده فی-۴-چندوجهی و فی-۴-مینی، افقهای کاربردهای فی را در صنایع مختلف گسترش میدهد. این مدلها در اکوسیستمهای هوش مصنوعی ادغام میشوند و برای کشف طیف گستردهای از موارد استفاده مورد استفاده قرار میگیرند.
در اینجا چند نمونه قانع کننده آورده شده است:
ادغام در ویندوز: مدلهای زبان به عنوان موتورهای استدلال قدرتمند عمل میکنند. ادغام مدلهای زبانی کوچک مانند فی در ویندوز امکان حفظ قابلیتهای محاسباتی کارآمد را فراهم میکند و راه را برای آیندهای از هوش پیوسته که به طور یکپارچه در تمام برنامهها و تجربیات کاربر ادغام شده است، هموار میکند. رایانههای شخصی +Copilot از قابلیتهای فی-۴-چندوجهی استفاده میکنند و قدرت SLMهای پیشرفته مایکروسافت را بدون مصرف انرژی بیش از حد ارائه میدهند. این ادغام بهرهوری، خلاقیت و تجربیات آموزشی را افزایش میدهد و استاندارد جدیدی را برای پلتفرم توسعهدهنده ایجاد میکند.
دستگاههای هوشمند: تصور کنید تولیدکنندگان گوشیهای هوشمند فی-۴-چندوجهی را مستقیماً در دستگاههای خود تعبیه کنند. این امر به گوشیهای هوشمند اجازه میدهد تا دستورات صوتی را پردازش و درک کنند، تصاویر را تشخیص دهند و متن را به طور یکپارچه تفسیر کنند. کاربران میتوانند از ویژگیهای پیشرفتهای مانند ترجمه زبان در زمان واقعی، تجزیه و تحلیل عکس و ویدیو پیشرفته و دستیاران شخصی هوشمند که قادر به درک و پاسخگویی به پرسشهای پیچیده هستند، بهرهمند شوند. این امر با ارائه قابلیتهای هوش مصنوعی قدرتمند به طور مستقیم روی دستگاه، تجربه کاربری را به طور قابل توجهی ارتقا میدهد و تأخیر کم و کارایی بالا را تضمین میکند.
صنعت خودرو: یک شرکت خودروسازی را در نظر بگیرید که فی-۴-چندوجهی را در سیستمهای دستیار داخل خودرو خود ادغام میکند. این مدل میتواند وسایل نقلیه را قادر سازد تا دستورات صوتی را درک کرده و به آنها پاسخ دهند، حرکات راننده را تشخیص دهند و ورودیهای بصری دوربینها را تجزیه و تحلیل کنند. به عنوان مثال، میتواند با تشخیص خواب آلودگی از طریق تشخیص چهره و ارائه هشدارهای زمان واقعی، ایمنی راننده را افزایش دهد. علاوه بر این، میتواند کمک ناوبری یکپارچه ارائه دهد، علائم راهنمایی و رانندگی را تفسیر کند و اطلاعات متنی را ارائه دهد و تجربه رانندگی بصریتر و ایمنتری را هم در هنگام اتصال به ابر و هم به صورت آفلاین در زمانی که اتصال در دسترس نیست، ایجاد کند.
خدمات مالی چند زبانه: یک شرکت خدمات مالی را تصور کنید که از فی-۴-مینی برای خودکارسازی محاسبات پیچیده مالی، تولید گزارشهای دقیق و ترجمه اسناد مالی به چندین زبان استفاده میکند. این مدل میتواند با انجام محاسبات پیچیده ریاضی که برای ارزیابی ریسک، مدیریت پورتفولیو و پیشبینی مالی بسیار مهم است، به تحلیلگران کمک کند. علاوه بر این، میتواند صورتهای مالی، اسناد نظارتی و ارتباطات مشتری را به زبانهای مختلف ترجمه کند و در نتیجه روابط جهانی مشتری را بهبود بخشد.
تضمین ایمنی و امنیت
Azure AI Foundry مجموعهای قوی از قابلیتها را در اختیار کاربران قرار میدهد تا به سازمانها در اندازهگیری، کاهش و مدیریت ریسکهای هوش مصنوعی در طول چرخه عمر توسعه هوش مصنوعی کمک کند. این امر هم برای یادگیری ماشین سنتی و هم برای برنامههای هوش مصنوعی مولد اعمال میشود. ارزیابیهای هوش مصنوعی Azure در AI Foundry به توسعهدهندگان این امکان را میدهد تا به طور مکرر کیفیت و ایمنی مدلها و برنامهها را با استفاده از معیارهای داخلی و سفارشی برای اطلاعرسانی استراتژیهای کاهش، ارزیابی کنند.
هم فی-۴-چندوجهی و هم فی-۴-مینی تحت آزمایشهای امنیتی و ایمنی دقیقی قرار گرفتهاند که توسط کارشناسان امنیتی داخلی و خارجی انجام شده است. این کارشناسان از استراتژیهای طراحی شده توسط تیم قرمز هوش مصنوعی مایکروسافت (AIRT) استفاده کردند. این روشها، که در مدلهای قبلی فی اصلاح شدهاند، دیدگاههای جهانی و سخنرانان بومی همه زبانهای پشتیبانی شده را در بر میگیرند. آنها طیف گستردهای از زمینهها را شامل میشوند، از جمله:
- امنیت سایبری
- امنیت ملی
- انصاف
- خشونت
این ارزیابیها از طریق کاوش چند زبانه به روندهای فعلی میپردازند. با استفاده از ابزار شناسایی ریسک پایتون منبع باز AIRT (PyRIT) و کاوش دستی، تیمهای قرمز حملات تک نوبتی و چند نوبتی را انجام دادند. AIRT که مستقل از تیمهای توسعه عمل میکند، به طور مداوم بینشهایی را با تیم مدل به اشتراک میگذارد. این رویکرد به طور کامل چشمانداز امنیتی و ایمنی جدید هوش مصنوعی را که توسط آخرین مدلهای فی معرفی شده است، ارزیابی کرد و ارائه قابلیتهای با کیفیت بالا و ایمن را تضمین کرد.
کارتهای مدل جامع برای فی-۴-چندوجهی و فی-۴-مینی، همراه با مقاله فنی همراه، خلاصهای دقیق از کاربردهای توصیه شده و محدودیتهای این مدلها را ارائه میدهند. این شفافیت بر تعهد مایکروسافت به توسعه و استقرار مسئولانه هوش مصنوعی تأکید میکند. این مدلها آمادهاند تا تأثیر قابل توجهی بر توسعه هوش مصنوعی بگذارند.