Пейзажът на големите езикови модели (LLM) претърпя значителна трансформация, като Google се очертава като виден играч, докато Meta и OpenAI са изправени пред забележителни предизвикателства. Първоначално OpenAI доминираше в областта със своите революционни GPT модели, поставяйки нови критерии за производителността на LLM. Meta също си осигури значителна позиция, предлагайки модели с отворена тежест, които се отличаваха с впечатляващи възможности и позволяваха неограничено използване, модификация и разгръщане на техния публично достъпен код.
Въпреки това, тази ранна доминация остави други технологични гиганти, включително Google, да играят наваксване. Въпреки ключовата изследователска статия на Google от 2017 г. за архитектурата на трансформатора, която е в основата на LLM, първоначалните усилия на компанията бяха засенчени от широко критикуваното пускане на Bard през 2023 г.
Наскоро тенденциите се обърнаха с въвеждането на мощни нови LLM от Google, съчетани с неуспехи, претърпени от Meta и OpenAI. Тази промяна значително промени динамиката на LLM пейзажа.
Meta’s Llama 4: Грешна стъпка?
Неочакваното пускане на Llama 4 от Meta в събота, 5 април, повдигна вежди в цялата индустрия.
Решението да се пусне голям модел през уикенда беше възприето като неконвенционално, което доведе до приглушен прием и затъмни съобщението сред новинарския поток през следващата седмица.
Въпреки че Llama 4 притежава определени силни страни, включително мултимодалните си възможности (обработка на изображения, аудио и други модалности) и наличието си в три версии (Llama 4 Behemoth, Maverick и Scout) с различни размери и силни страни, пускането му беше посрещнато с критики. По-специално, версията Llama 4 Scout разполагаше със значителен контекстен прозорец до 10 милиона токена, което позволява на модела да обработва и генерира огромни количества текст в една сесия.
Въпреки това, приемът на модела се влоши, когато се появиха несъответствия по отношение на подхода на Meta за класиране в LMArena, платформа, която класира LLM въз основа на потребителски гласове. Беше открито, че конкретният модел Llama 4, използван за класирането, се различава от този, предоставен на широката публика. LMArena заяви, че Meta е предоставила ‘персонализиран модел, за да оптимизира предпочитанията на хората’.
Освен това твърденията на Meta относно контекстния прозорец от 10 милиона токена на Llama 4 Scout бяха посрещнати със скептицизъм. Въпреки техническата точност на тази цифра, бенчмарковете разкриха, че Llama 4 изостава от конкурентните модели в дългосрочна производителност.
В допълнение към притесненията, Meta се въздържа от пускането на Llama 4 ‘reasoning’ или ‘thinking’ модел и задържа по-малки варианти, въпреки че компанията посочи, че предстои модел за разсъждение.
Бен Лорика, основател на AI консултантската фирма Gradient Flow, отбеляза, че Meta се е отклонила от стандартната практика на по-систематично пускане, където всички компоненти са напълно подготвени. Това предполага, че Meta може да е била нетърпелива да покаже нов модел, дори ако му липсват основни елементи, като модел за разсъждение и по-малки версии.
OpenAI’s GPT-4.5: Преждевременно отстъпление
OpenAI също се сблъска с предизвикателства през последните месеци.
GPT-4.5, представен като изследователски преглед на 27 февруари, беше рекламиран като ‘най-големият и най-добър модел на компанията за чат досега’. Бенчмарковете на OpenAI показват, че GPT-4.5 като цяло превъзхожда своя предшественик, GPT-4o.
Въпреки това, ценовата структура на модела предизвика критики. OpenAI определи цената за API достъп на 150 щатски долара за милион изходни токена, което е зашеметяващо 15-кратно увеличение в сравнение с цената на GPT-4o от 10 долара за милион токена. API позволява на разработчиците да интегрират OpenAI модели в своите приложения и услуги.
Алън Д. Томпсън, AI консултант и анализатор в Life Architect, изчисли, че GPT-4.5 вероятно е най-големият традиционен LLM, пуснат през първото тримесечие на 2025 г., с приблизително 5,4 трилиона параметри. Той твърди, че такъв огромен мащаб е трудно да се оправдае предвид настоящите хардуерни ограничения и представлява значителни предизвикателства при обслужването на голяма потребителска база.
На 14 април OpenAI обяви решението си да прекрати GPT-4.5 достъп чрез API след по-малко от три месеца. Въпреки че GPT-4.5 ще остане достъпен, той ще бъде ограничен до потребителите на ChatGPT чрез интерфейса на ChatGPT.
Това съобщение съвпадна с представянето на GPT-4.1, по-икономичен модел на цена от 8 долара за милион токена. Бенчмарковете на OpenAI показват, че GPT-4.1 не е съвсем толкова способен, колкото GPT-4.5 като цяло, въпреки че показва превъзходна производителност в определени бенчмаркове за кодиране.
OpenAI също наскоро пусна нови модели за разсъждение, o3 и o4-mini, като моделът o3 демонстрира особено силна бенчмарк производителност. Въпреки това, цената остава проблем, тъй като API достъпът до o3 е на цена от 40 долара за милион изходни токена.
Възходът на Google: Използване на възможността
Смесеният прием на Llama 4 и ChatGPT-4.5 създаде възможност за конкурентите да се възползват и те се възползваха от възможността.
Проблемното пускане на Llama 4 от Meta е малко вероятно да разубеди разработчиците да приемат алтернативи като DeepSeek-V3, Gemma на Google и Qwen2.5 на Alibaba. Тези LLM, въведени в края на 2024 г., се превърнаха в предпочитаните модели с отворена тежест в класациите на LMArena и HuggingFace. Те се конкурират или надминават Llama 4 в популярни бенчмаркове, предлагат достъпен API достъп и, в някои случаи, са достъпни за изтегляне и използване на хардуер от потребителски клас.
Въпреки това, именно най-съвременният LLM на Google, Gemini 2.5 Pro, привлече истинското внимание.
Пуснатият на 25 март, Google Gemini 2.5 Pro е ‘мислещ модел’, подобен на GPT-o1 и DeepSeek-R1, използващ самоподтикване, за да разсъждава чрез задачи. Gemini 2.5 Pro е мултимодален, разполага с контекстен прозорец от един милион токена и поддържа задълбочено проучване.
Gemini 2.5 бързо постигна бенчмарк победи, включително първото място в SimpleBench (въпреки че отстъпи тази позиция на o3 на OpenAI на 16 април) и в комбинирания индекс за AI интелигентност на Artificial Analysis. Gemini 2.5 Pro в момента заема първата позиция в LMArena. Към 14 април моделите на Google заемаха 5 от 10-те най-добри позиции в LMArena, включително Gemini 2.5 Pro, три варианта на Gemini 2.0 и Gemma 3-27B.
Освен впечатляващата си производителност, Google е и лидер в цените. Google Gemini 2.5 в момента е достъпен за безплатно използване чрез приложението Gemini на Google и уебсайта AI Studio на Google. Ценообразуването на API на Google също е конкурентно, като Gemini 2.5 Pro е на цена от 10 долара за милион изходни токена, а Gemini 2.0 Flash е на цена само 40 цента за милион токена.
Лорика отбелязва, че за задачи за разсъждение с голям обем той често избира DeepSeek-R1 или Google Gemini, докато използването на OpenAI модели изисква по-внимателно разглеждане на ценообразуването.
Въпреки че Meta и OpenAI не са непременно на ръба на колапс, OpenAI се възползва от популярността на ChatGPT, който според съобщенията се гордее с един милиард потребители. Независимо от това, силните класирания и бенчмарк производителността на Gemini показват промяна в LLM пейзажа, която в момента благоприятства Google.