Следващо поколение Phi модели

Phi-4-Multimodal: Унифициран подход към мултимодалния изкуствен интелект

Phi-4-multimodal е пионерският набег на Microsoft в областта на мултимодалните езикови модели. Този революционен модел, със своите 5,6 милиарда параметъра, безпроблемно интегрира обработката на реч, зрение и текст в рамките на една, кохезионна архитектура. Този иновативен подход произтича директно от ценната обратна връзка от клиентите, отразявайки ангажимента на Microsoft към непрекъснато усъвършенстване и отзивчивост към нуждите на потребителите.

Разработката на Phi-4-multimodal използва усъвършенствани техники за междумодално обучение. Това позволява на модела да насърчава по-естествени и контекстуално осъзнати взаимодействия. Устройствата, оборудвани с Phi-4-multimodal, могат да разбират и разсъждават върху различни входни модалности едновременно. Той се отличава с интерпретиране на говорим език, анализиране на изображения и обработка на текстова информация. Освен това, той осигурява високоефективен извод с ниска латентност, като същевременно оптимизира за изпълнение на устройството, като по този начин минимизира изчислителните разходи.

Една от определящите характеристики на Phi-4-multimodal е неговата унифицирана архитектура. За разлика от конвенционалните подходи, които разчитат на сложни конвейери или отделни модели за различни модалности, Phi-4-multimodal работи като едно цяло. Той умело обработва текст, аудио и визуални входове в рамките на същото представящо пространство. Този рационализиран дизайн повишава ефективността и опростява процеса на разработка.

Архитектурата на Phi-4-multimodal включва няколко подобрения за повишаване на неговата производителност и гъвкавост. Те включват:

  • По-голям речник: Улеснява подобрените възможности за обработка.
  • Многоезична поддръжка: Разширява приложимостта на модела в различни езикови контексти.
  • Интегрирано езиково разсъждение: Комбинира разбирането на езика с мултимодални входове.

Тези постижения са постигнати в рамките на компактен и високоефективен модел, идеално подходящ за внедряване на устройства и платформи за периферни изчисления. Разширените възможности и адаптивността на Phi-4-multimodal отключват множество възможности за разработчиците на приложения, бизнеса и индустриите, които се стремят да използват изкуствения интелект по иновативни начини.

В областта на задачите, свързани с речта, Phi-4-multimodal демонстрира изключителна способност, излизайки като лидер сред отворените модели. По-специално, той надминава специализирани модели като WhisperV3 и SeamlessM4T-v2-Large както при автоматичното разпознаване на реч (ASR), така и при превода на реч (ST). Той си осигури първата позиция в класацията HuggingFace OpenASR, постигайки впечатляващ процент на грешки в думите от 6,14%, надминавайки предишния най-добър резултат от 6,5% (към февруари 2025 г.). Освен това, той е сред малкото отворени модели, способни успешно да прилагат обобщаване на реч, постигайки нива на производителност, сравними с модела GPT-4o.

Въпреки че Phi-4-multimodal показва леко изоставане в сравнение с модели като Gemini-2.0-Flash и GPT-4o-realtime-preview в задачите за отговаряне на въпроси (QA) с реч, главно поради по-малкия си размер и произтичащите от това ограничения в запазването на фактически QA знания, текущите усилия са фокусирани върху подобряването на тази способност в бъдещи итерации.

Отвъд речта, Phi-4-multimodal демонстрира забележителни визуални възможности в различни бенчмаркове. Той постига особено силна производителност в математическите и научните разсъждения. Въпреки компактния си размер, моделът поддържа конкурентна производителност в общи мултимодални задачи, включително:

  • Разбиране на документи и диаграми
  • Оптично разпознаване на символи (OCR)
  • Визуално научно разсъждение

Той съответства или надвишава производителността на сравними модели като Gemini-2-Flash-lite-preview и Claude-3.5-Sonnet.

Phi-4-Mini: Компактна мощ за текстови задачи

В допълнение към Phi-4-multimodal е Phi-4-mini, модел с 3,8 милиарда параметъра, проектиран за бързина и ефективност при текстови задачи. Този плътен, само декодиращ трансформатор включва:

  • Групирано внимание на заявките
  • Речник от 200 000 думи
  • Споделени вграждания на вход-изход

Въпреки компактния си размер, Phi-4-mini последователно превъзхожда по-големите модели в редица текстови задачи, включително:

  • Разсъждение
  • Математика
  • Кодиране
  • Следване на инструкции
  • Извикване на функции

Той поддържа последователности до 128 000 токена, осигурявайки изключителна точност и мащабируемост. Това го прави мощно решение за усъвършенствани AI приложения, които изискват висока производителност при обработката на текст.

Извикването на функции, следването на инструкции, обработката на дълъг контекст и разсъжденията са всички мощни възможности, които позволяват на малки езикови модели като Phi-4-mini да имат достъп до външни знания и функционалност, ефективно преодолявайки ограниченията, наложени от техния компактен размер. Чрез стандартизиран протокол, извикването на функции дава възможност на модела да се интегрира безпроблемно със структурирани интерфейси за програмиране.

Когато му бъде представена заявка от потребител, Phi-4-mini може:

  1. Да разсъждава върху заявката.
  2. Да идентифицира и извика съответните функции с подходящи параметри.
  3. Да получи изходите на функцията.
  4. Да включи тези резултати в своите отговори.

Това създава разширяема, базирана на агенти система, където възможностите на модела могат да бъдат увеличени чрез свързването му с външни инструменти, интерфейси за приложно програмиране (API) и източници на данни чрез добре дефинирани функционални интерфейси. Илюстративен пример е агент за интелигентно управление на дома, задвижван от Phi-4-mini, който безпроблемно управлява различни устройства и функционалности.

По-малките размери на Phi-4-mini и Phi-4-multimodal ги правят изключително подходящи за среди с ограничени изчислителни ресурси. Тези модели са особено изгодни за внедряване на устройства, особено когато са допълнително оптимизирани с ONNX Runtime за междуплатформена наличност. Техните намалени изчислителни изисквания се изразяват в по-ниски разходи и значително подобрена латентност. Разширеният прозорец на контекста позволява на моделите да обработват и разсъждават върху обширно текстово съдържание, включително документи, уеб страници, код и др. Както Phi-4-mini, така и Phi-4-multimodal показват стабилни възможности за разсъждение и логика, позиционирайки ги като силни претенденти за аналитични задачи. Техният компактен размер също опростява и намалява разходите за фина настройка или персонализиране.

Приложения в реалния свят: Трансформиране на индустрии

Дизайнът на тези модели им позволява ефективно да се справят със сложни задачи, което ги прави идеално подходящи за сценарии за периферни изчисления и среди с ограничени изчислителни ресурси. Разширените възможности на Phi-4-multimodal и Phi-4-mini разширяват хоризонтите на приложенията на Phi в различни индустрии. Тези модели се интегрират в AI екосистеми и се използват за изследване на широк спектър от случаи на употреба.

Ето някои убедителни примери:

  • Интеграция в Windows: Езиковите модели служат като мощни двигатели за разсъждение. Интегрирането на малки езикови модели като Phi в Windows позволява поддържането на ефективни изчислителни възможности и проправя пътя за бъдеще на непрекъснат интелект, безпроблемно интегриран във всички приложения и потребителски изживявания. Copilot+ компютрите ще използват възможностите на Phi-4-multimodal, предоставяйки силата на усъвършенстваните SLM на Microsoft без прекомерна консумация на енергия. Тази интеграция ще подобри производителността, креативността и образователните изживявания, установявайки нов стандарт за платформата за разработчици.

  • Интелигентни устройства: Представете си производители на смартфони, които вграждат Phi-4-multimodal директно в своите устройства. Това би дало възможност на смартфоните да обработват и разбират гласови команди, да разпознават изображения и да интерпретират текст безпроблемно. Потребителите биха могли да се възползват от усъвършенствани функции като превод на език в реално време, подобрен анализ на снимки и видео и интелигентни лични асистенти, способни да разбират и отговарят на сложни заявки. Това би повишило значително потребителското изживяване, като предоставя мощни AI възможности директно на устройството, осигурявайки ниска латентност и висока ефективност.

  • Автомобилна индустрия: Помислете за автомобилна компания, която интегрира Phi-4-multimodal в своите системи за асистенти в автомобила. Моделът би могъл да позволи на превозните средства да разбират и отговарят на гласови команди, да разпознават жестове на водача и да анализират визуални входове от камери. Например, той би могъл да подобри безопасността на водача чрез откриване на сънливост чрез разпознаване на лица и предоставяне на сигнали в реално време. Освен това, той би могъл да предложи безпроблемна помощ при навигация, да интерпретира пътни знаци и да предоставя контекстуална информация, създавайки по-интуитивно и безопасно шофиране, както когато е свързан към облака, така и офлайн, когато връзката не е налична.

  • Многоезични финансови услуги: Представете си компания за финансови услуги, която използва Phi-4-mini за автоматизиране на сложни финансови изчисления, генериране на подробни отчети и превод на финансови документи на множество езици. Моделът би могъл да подпомага анализаторите, като извършва сложни математически изчисления, които са от решаващо значение за оценките на риска, управлението на портфейли и финансовото прогнозиране. Освен това, той би могъл да превежда финансови отчети, регулаторни документи и комуникации с клиенти на различни езици, като по този начин подобрява глобалните отношения с клиентите.

Осигуряване на безопасност и сигурност

Azure AI Foundry предоставя на потребителите стабилен набор от възможности, за да помогне на организациите да измерват, смекчават и управляват рисковете, свързани с изкуствения интелект, през целия жизнен цикъл на разработка на AI. Това се отнася както за традиционното машинно обучение, така и за приложенията за генеративен AI. Оценките на Azure AI в рамките на AI Foundry дават възможност на разработчиците да оценяват итеративно качеството и безопасността на моделите и приложенията, използвайки както вградени, така и персонализирани показатели, за да информират стратегиите за смекчаване.

Както Phi-4-multimodal, така и Phi-4-mini са преминали строги тестове за сигурност и безопасност, проведени от вътрешни и външни експерти по сигурността. Тези експерти са използвали стратегии, изработени от Microsoft AI Red Team (AIRT). Тези методологии, усъвършенствани спрямо предишните модели Phi, включват глобални перспективи и носители на всички поддържани езици. Те обхващат широк спектър от области, включително:

  • Киберсигурност
  • Национална сигурност
  • Справедливост
  • Насилие

Тези оценки се справят с текущите тенденции чрез многоезично сондиране. Използвайки инструментариума за идентифициране на риска с отворен код на AIRT, Python Risk Identification Toolkit (PyRIT) и ръчно сондиране, червените екипи проведоха както еднократни, така и многократни атаки. Работейки независимо от екипите за разработка, AIRT непрекъснато споделяше прозрения с екипа на модела. Този подход задълбочено оцени новия пейзаж на AI сигурността и безопасността, въведен от най-новите модели Phi, гарантирайки предоставянето на висококачествени и сигурни възможности.

Изчерпателните карти на моделите за Phi-4-multimodal и Phi-4-mini, заедно с придружаващия технически документ, предоставят подробен преглед на препоръчителните употреби и ограничения на тези модели. Тази прозрачност подчертава ангажимента на Microsoft към отговорното разработване и внедряване на AI. Тези модели са готови да окажат значително въздействие върху развитието на AI.