Семейството Phi се разширява: Представяне на мултимодални възможности
Приносът на Microsoft към тази процъфтяваща област на SLM е семейството Phi, набор от компактни модели. Четвъртото поколение на Phi беше първоначално представено през декември, а сега Microsoft разширява гамата с две значителни допълнения: Phi-4-multimodal и Phi-4-mini. В съответствие с техните събратя, тези нови модели ще бъдат лесно достъпни чрез Azure AI Foundry, Hugging Face и Nvidia API Catalog, всички под разрешителния лиценз на MIT.
Phi-4-multimodal, по-специално, се откроява. Това е модел с 5,6 милиарда параметъра, който използва сложна техника, наречена ‘mixture-of-LoRAs’ (Low-Rank Adaptations). Този подход позволява на модела да обработва едновременно реч, визуални входове и текстови данни. LoRA представляват нов метод за повишаване на производителността на голям езиков модел в специфични задачи, заобикаляйки необходимостта от обширна фина настройка на всички негови параметри. Вместо това, разработчиците, използващи LoRA, стратегически вмъкват по-малък брой нови тегла в модела. Само тези нововъведени тегла се подлагат на обучение, което води до значително по-бърз и по-ефективен процес по отношение на паметта. Резултатът е колекция от по-леки модели, които са много по-лесни за съхранение, споделяне и внедряване.
Последиците от тази ефективност са значителни. Phi-4-multimodal постига извод с ниска латентност – което означава, че може да обработва информация и да предоставя отговори много бързо – като същевременно е оптимизиран за изпълнение на устройството. Това се изразява в драстично намаляване на изчислителните разходи, което прави възможно стартирането на сложни AI приложения на устройства, които преди това не са разполагали с необходимата процесорна мощност.
Потенциални случаи на употреба: От смартфони до финансови услуги
Потенциалните приложения на Phi-4-multimodal са разнообразни и широкообхватни. Представете си модела, работещ безпроблемно на смартфони, захранващ разширени функции в превозни средства или управляващ леки корпоративни приложения. Убедителен пример е многоезично приложение за финансови услуги, способно да разбира и отговаря на потребителски заявки на различни езици, да обработва визуални данни като документи и всичко това, докато работи ефективно на устройството на потребителя.
Индустриалните анализатори признават трансформиращия потенциал на Phi-4-multimodal. Той се разглежда като значителна стъпка напред за разработчиците, особено тези, които са фокусирани върху създаването на AI-базирани приложения за мобилни устройства или среди, където изчислителните ресурси са ограничени.
Charlie Dai, вицепрезидент и главен анализатор във Forrester, подчертава способността на модела да интегрира обработка на текст, изображения и аудио със стабилни възможности за разсъждение. Той подчертава, че тази комбинация подобрява AI приложенията, предоставяйки на разработчиците и предприятията ‘гъвкави, ефективни и мащабируеми решения’.
Yugal Joshi, партньор в Everest Group, признава пригодността на модела за внедряване в среди с ограничени изчислителни ресурси. Въпреки че отбелязва, че мобилните устройства може да не са идеалната платформа за всички случаи на използване на генеративен AI, той вижда новите SLM като отражение на Microsoft, черпещ вдъхновение от DeepSeek, друга инициатива, фокусирана върху минимизиране на зависимостта от широкомащабна изчислителна инфраструктура.
Сравнителен анализ на производителността: Силни страни и области за растеж
Що се отнася до сравнителния анализ на производителността, Phi-4-multimodal показва разлика в производителността в сравнение с модели като Gemini-2.0-Flash и GPT-4o-realtime-preview, по-специално в задачите за отговаряне на въпроси с реч (QA). Microsoft признава, че по-малкият размер на моделите Phi-4 по своята същност ограничава капацитета им да запазват фактически знания за отговаряне на въпроси. Компанията обаче подчертава текущите усилия за подобряване на тази способност в бъдещите итерации на модела.
Въпреки това, Phi-4-multimodal демонстрира впечатляващи силни страни в други области. По-специално, той превъзхожда няколко популярни LLM, включително Gemini-2.0-Flash Lite и Claude-3.5-Sonnet, в задачи, включващи математически и научни разсъждения, оптично разпознаване на знаци (OCR) и визуални научни разсъждения. Това са ключови възможности за широк спектър от приложения, от образователен софтуер до инструменти за научни изследвания.
Phi-4-mini: Компактен размер, впечатляваща производителност
Наред с Phi-4-multimodal, Microsoft представи и Phi-4-mini. Този модел е още по-компактен, с 3,8 милиарда параметъра. Той е базиран на плътна архитектура на трансформатор само с декодер и поддържа последователности до впечатляващите 128 000 токена.
Weizhu Chen, вицепрезидент на Generative AI в Microsoft, подчертава забележителната производителност на Phi-4-mini въпреки малкия му размер. В публикация в блог, описваща подробно новите модели, той отбелязва, че Phi-4-mini ‘продължава да превъзхожда по-големите модели в текстови задачи, включително разсъждения, математика, кодиране, следване на инструкции и извикване на функции’. Това подчертава потенциала на още по-малките модели да предоставят значителна стойност в специфични области на приложение.
Актуализации на Granite на IBM: Подобряване на възможностите за разсъждение
Напредъкът в SLM не се ограничава само до Microsoft. IBM също пусна актуализация на своето семейство основни модели Granite, представяйки моделите Granite 3.2 2B и 8B. Тези нови модели се отличават с подобрени възможности за ‘верига от мисли’, ключов аспект за подобряване на способностите за разсъждение. Това подобрение позволява на моделите да постигнат по-добра производителност в сравнение с техните предшественици.
Освен това IBM представи нов модел за визуален език (VLM), специално проектиран за задачи за разбиране на документи. Този VLM демонстрира производителност, която или съответства, или надминава тази на значително по-големи модели, като Llama 3.2 11B и Pixtral 12B, на бенчмаркове като DocVQA, ChartQA, AI2D и OCRBench1. Това подчертава нарастващата тенденция на по-малки, специализирани модели, които осигуряват конкурентна производителност в специфични области.
Бъдещето на AI на устройството: Промяна на парадигмата
Въвеждането на Phi-4-multimodal и Phi-4-mini, заедно с актуализациите на Granite на IBM, представлява значителна стъпка към бъдеще, в което мощните AI възможности са лесно достъпни на широк спектър от устройства. Тази промяна има дълбоки последици за различни индустрии и приложения:
- Демократизация на AI: По-малките, по-ефективни модели правят AI достъпен за по-широк кръг от разработчици и потребители, а не само за тези с достъп до огромни изчислителни ресурси.
- Подобрена поверителност и сигурност: Обработката на устройството намалява необходимостта от предаване на чувствителни данни към облака, повишавайки поверителността и сигурността.
- Подобрена отзивчивост и латентност: Локалната обработка елиминира закъсненията, свързани с облачно базирания AI, което води до по-бързо време за реакция и по-безпроблемно потребителско изживяване.
- Офлайн функционалност: AI на устройството може да работи дори без интернет връзка, отваряйки нови възможности за приложения в отдалечени среди или среди с ниска свързаност.
- Намалена консумация на енергия: По-малките модели изискват по-малко енергия за работа, което допринася за по-дълъг живот на батерията за мобилни устройства и намалено въздействие върху околната среда.
- Приложения за Edge Computing: Това включва сектори като автономно шофиране, интелигентно производство и дистанционно здравеопазване.
Напредъкът в SLM води до промяна на парадигмата в AI пейзажа. Докато големите езикови модели продължават да играят жизненоважна роля, възходът на компактните, ефективни модели като тези в семейството Phi проправя пътя за бъдеще, в което AI е по-всеобхватен, достъпен и интегриран в ежедневието ни. Фокусът се измества от чистия размер към ефективност, специализация и способността да се предоставят мощни AI възможности директно на устройствата, които използваме всеки ден. Тази тенденция вероятно ще се ускори, което ще доведе до още по-иновативни приложения и по-широко приемане на AI в различни сектори. Способността да се изпълняват сложни задачи, като разбиране на мултимодални входове, на устройства с ограничени ресурси, отваря нова глава в еволюцията на изкуствения интелект.
Надпреварата е за създаване на все по-интелигентни и способни SLM, а новото предложение на Microsoft е голяма стъпка напред.