Ландшафт больших языковых моделей (LLMs) претерпел значительные изменения, и Google становится заметным игроком, в то время как Meta и OpenAI сталкиваются с заметными проблемами. Первоначально OpenAI доминировала в этой области благодаря своим новаторским моделям GPT, установившим новые ориентиры для производительности LLM. Meta также заняла значительную позицию, предложив модели с открытым весом, которые могли похвастаться впечатляющими возможностями и позволяли неограниченное использование, модификацию и развертывание своего общедоступного кода.
Однако это раннее доминирование заставило другие технологические гиганты, в том числе Google, догонять. Несмотря на основополагающую исследовательскую работу Google 2017 года по архитектуре Transformer, лежащей в основе LLM, первоначальные усилия компании были омрачены широко раскритикованным запуском Bard в 2023 году.
В последнее время ситуация изменилась с появлением новых мощных LLM от Google, а также неудач, испытанных Meta и OpenAI. Этот сдвиг значительно изменил динамику ландшафта LLM.
Llama 4 от Meta: Ошибка?
Неожиданный выпуск Llama 4 компанией Meta в субботу, 5 апреля, вызвал удивление во всей отрасли.
Решение выпустить крупную модель в выходные было воспринято как нетрадиционное, что привело к приглушенному приему и затмило объявление в потоке новостей последующей недели.
Хотя Llama 4 обладает определенными сильными сторонами, в том числе ее мультимодальными возможностями (обработка изображений, аудио и других модальностей) и ее доступностью в трех версиях (Llama 4 Behemoth, Maverick и Scout) с различными размерами и сильными сторонами, ее развертывание было встречено критикой. Версия Llama 4 Scout, в частности, имеет существенное окно контекста до 10 миллионов токенов, что позволяет модели обрабатывать и генерировать огромные объемы текста за один сеанс.
Однако прием модели испортился, когда появились расхождения в отношении подхода Meta к ранжированию на LMArena, платформе, которая ранжирует LLM на основе голосов пользователей. Было обнаружено, что конкретная модель Llama 4, использованная для ранжирования, отличалась от той, которая была предоставлена широкой публике. LMArena заявила, что Meta предоставила ‘настроенную модель для оптимизации предпочтений человека’.
Кроме того, заявления Meta относительно окна контекста Llama 4 Scout в 10 миллионов токенов были встречены со скептицизмом. Несмотря на техническую точность этой цифры, тесты показали, что Llama 4 отстает от конкурирующих моделей по производительности в длинном контексте.
В дополнение к опасениям Meta воздержалась от выпуска модели Llama 4 ‘рассуждений’ или ‘мышления’ и удержала более мелкие варианты, хотя компания указала, что модель рассуждений появится в ближайшее время.
Бен Лорика, основатель консалтинговой фирмы Gradient Flow AI, отметил, что Meta отклонилась от стандартной практики более систематического выпуска, где все компоненты полностью подготовлены. Это говорит о том, что Meta, возможно, стремилась продемонстрировать новую модель, даже если ей не хватало существенных элементов, таких как модель рассуждений и более мелкие версии.
GPT-4.5 от OpenAI: Преждевременное отступление
OpenAI также столкнулась с проблемами в последние месяцы.
GPT-4.5, представленная в качестве исследовательского предварительного просмотра 27 февраля, была объявлена ‘самой большой и лучшей моделью для чата на сегодняшний день’. Бенчмарки OpenAI показали, что GPT-4.5 в целом превосходит своего предшественника, GPT-4o.
Однако структура ценообразования модели вызвала критику. OpenAI установила цену доступа к API на уровне 150 долларов США за миллион выходных токенов, что в 15 раз превышает цену GPT-4o в 10 долларов за миллион токенов. API позволяет разработчикам интегрировать модели OpenAI в свои приложения и сервисы.
Алан Д. Томпсон, консультант и аналитик по искусственному интеллекту в Life Architect, подсчитал, что GPT-4.5, вероятно, была крупнейшей традиционной LLM, выпущенной в первом квартале 2025 года, с приблизительно 5,4 триллионами параметров. Он утверждал, что такой огромный масштаб трудно оправдать, учитывая текущие ограничения оборудования, и создает значительные проблемы в обслуживании большой базы пользователей.
14 апреля OpenAI объявила о своем решении прекратить доступ к GPT-4.5 через API менее чем через три месяца. Хотя GPT-4.5 останется доступной, она будет ограничена пользователями ChatGPT через интерфейс ChatGPT.
Это объявление совпало с представлением GPT-4.1, более экономичной модели по цене 8 долларов за миллион токенов. Бенчмарки OpenAI показывают, что GPT-4.1 не так способна, как GPT-4.5 в целом, хотя она демонстрирует превосходную производительность в определенных тестах кодирования.
OpenAI также недавно выпустила новые модели рассуждений, o3 и o4-mini, причем модель o3 демонстрирует особенно сильную производительность в тестах. Однако стоимость остается проблемой, поскольку доступ к API для o3 оценивается в 40 долларов за миллион выходных токенов.
Возвышение Google: Использование Возможности
Смешанный прием Llama 4 и ChatGPT-4.5 создал возможность для конкурентов извлечь выгоду, и они воспользовались этой возможностью.
Проблемный запуск Llama 4 от Meta вряд ли отговорит разработчиков от использования альтернатив, таких как DeepSeek-V3, Gemma от Google и Qwen2.5 от Alibaba. Эти LLM, представленные в конце 2024 года, стали предпочтительными моделями с открытым весом в таблицах лидеров LMArena и HuggingFace. Они конкурируют или превосходят Llama 4 в популярных тестах, предлагают доступный доступ к API и, в некоторых случаях, доступны для загрузки и использования на оборудовании потребительского класса.
Однако именно передовая LLM Google, Gemini 2.5 Pro, действительно привлекла внимание.
Запущенный 25 марта Google Gemini 2.5 Pro - это ‘модель мышления’, подобная GPT-o1 и DeepSeek-R1, использующая самоподсказку для рассуждений при выполнении задач. Gemini 2.5 Pro является мультимодальным, имеет окно контекста в один миллион токенов и поддерживает углубленные исследования.
Gemini 2.5 быстро достигла побед в тестах, включая первое место в SimpleBench (хотя 16 апреля она уступила эту позицию o3 от OpenAI) и в сводном индексе AI Intelligence от Artificial Analysis. Gemini 2.5 Pro в настоящее время занимает первое место на LMArena. По состоянию на 14 апреля модели Google занимали 5 из 10 лучших мест на LMArena, включая Gemini 2.5 Pro, три варианта Gemini 2.0 и Gemma 3-27B.
Помимо впечатляющей производительности, Google также является лидером по цене. Google Gemini 2.5 в настоящее время доступна для бесплатного использования через приложение Google Gemini и веб-сайт Google AI Studio. Ценообразование API Google также является конкурентоспособным: Gemini 2.5 Pro стоит 10 долларов за миллион выходных токенов, а Gemini 2.0 Flash - всего 40 центов за миллион токенов.
Лорика отмечает, что для больших объемов задач рассуждений он часто выбирает DeepSeek-R1 или Google Gemini, в то время как использование моделей OpenAI требует более тщательного рассмотрения ценообразования.
Хотя Meta и OpenAI не обязательно находятся на грани краха, OpenAI выигрывает от популярности ChatGPT, который, по сообщениям, насчитывает один миллиард пользователей. Тем не менее, сильные рейтинги и результаты тестов Gemini указывают на сдвиг в ландшафте LLM, в настоящее время в пользу Google.
Стоит также отметить, что конкуренция в сфере LLM не ограничивается только этими тремя компаниями. Существует множество других игроков, таких как DeepMind, Anthropic, Cohere и AI21 Labs, которые также разрабатывают и выпускают передовые LLM. Эти компании часто предлагают уникальные подходы к разработке LLM и сосредотачиваются на конкретных нишах или приложениях.
Например, DeepMind, принадлежащая Google, разработала модель AlphaFold, которая произвела революцию в области прогнозирования структуры белков. Anthropic, основанная бывшими сотрудниками OpenAI, разрабатывает LLM, ориентированные на безопасность и надежность. Cohere специализируется на предоставлении LLM для корпоративного использования, а AI21 Labs разрабатывает LLM с акцентом на понимание и генерацию естественного языка.
Разнообразие игроков в ландшафте LLM способствует инновациям и конкуренции, что в конечном итоге приводит к созданию более мощных и полезных моделей для различных целей.
Кроме того, развитие LLM также оказывает влияние на другие области искусственного интеллекта, такие как компьютерное зрение, распознавание речи и робототехника. LLM используются для улучшения производительности этих систем и для создания новых возможностей, таких как генерация изображений из текста, преобразование речи в текст и управление роботами с помощью естественного языка.
В заключение, ландшафт LLM постоянно меняется, и конкуренция между различными игроками, включая Google, Meta, OpenAI и других, способствует инновациям и прогрессу. Успех Gemini от Google и трудности, с которыми сталкиваются Meta и OpenAI, указывают на сдвиг в динамике этой области, и важно следить за дальнейшим развитием событий, чтобы понять, как эти изменения повлияют на будущее искусственного интеллекта и его применение в различных областях.
Важно также учитывать этические аспекты развития LLM, такие как потенциальное предвзятость, дезинформация и злоупотребление. Разработчики LLM должны уделять приоритетное внимание разработке и развертыванию моделей, которые являются справедливыми, надежными и безопасными. Правительства и регулирующие органы также должны играть роль в обеспечении ответственного использования LLM и в предотвращении потенциального вреда.
В будущем можно ожидать дальнейшего развития LLM в нескольких направлениях. Во-первых, LLM, вероятно, станут еще более мощными и эффективными, благодаря улучшению архитектур, алгоритмов обучения и объемов данных. Во-вторых, LLM, вероятно, станут более специализированными и ориентированными на конкретные задачи или области применения. В-третьих, LLM, вероятно, станут более интегрированными с другими системами искусственного интеллекта и технологиями, такими как облачные вычисления, мобильные устройства и Интернет вещей.
В целом, развитие LLM представляет собой захватывающую и перспективную область, которая имеет потенциал изменить многие аспекты нашей жизни. Однако важно подходить к разработке и использованию LLM с осторожностью и ответственностью, чтобы обеспечить их пользу для общества и предотвратить потенциальный вред. Конкуренция между различными игроками в этой области будет продолжать стимулировать инновации и прогресс, и важно следить за дальнейшим развитием событий, чтобы понять, как эти изменения повлияют на будущее искусственного интеллекта и его применение в различных областях.
Таким образом, можно сделать вывод, что, несмотря на то, что OpenAI и Meta остаются важными игроками в области LLM, Google предприняла значительные шаги, чтобы утвердить себя в качестве лидера в этой области. Благодаря своим инновационным моделям, конкурентоспособным ценам и широкой доступности, Google Gemini имеет потенциал изменить ландшафт LLM и открыть новые возможности для применения искусственного интеллекта в различных отраслях.