Разочарования LlamaCon и изменение ожиданий
Траектория развития большой языковой модели (LLM) Llama от Meta стала предметом пристального внимания и споров в сообществе искусственного интеллекта. Примерно год разделил выпуски Llama 3 и Llama 4, что является вечностью в быстро развивающейся области искусственного интеллекта. Если первоначально Llama приветствовалась как новаторская альтернатива с открытым исходным кодом проприетарным моделям, таким как предложения OpenAI, то последние события указывают на изменение восприятия, и некоторые ставят под сомнение дальнейшую актуальность Llama на передовой инноваций в области искусственного интеллекта.
На LlamaCon, первой конференции Meta, посвященной ее LLM с открытым исходным кодом, в атмосфере ощущалось чувство несбывшихся ожиданий. Несколько присутствовавших разработчиков признались, что ожидали представления сложной модели рассуждений или, по крайней мере, традиционной модели, способной превзойти конкурентов, таких как V3 от DeepSeek и Qwen, последняя из которых является набором моделей, разработанных подразделением облачных вычислений Alibaba.
Отсутствие таких анонсов усилило опасения, что Llama теряет позиции в гонке за превосходство в области искусственного интеллекта. Всего за месяц до конференции Meta запустила четвертое поколение семейства Llama, включая модели с открытым весом Llama 4 Scout и Llama 4 Maverick. Scout разработан для эффективной работы на одном GPU, а Maverick - как более крупная модель, чтобы конкурировать с другими базовыми моделями.
В дополнение к Scout и Maverick Meta предоставила предварительный обзор Llama 4 Behemoth, значительно более крупной «учительской модели», которая все еще находится в стадии обучения. Цель Behemoth — облегчить дистилляцию, метод создания более мелких, специализированных моделей из более крупной, более общей модели.
Однако появились сообщения, указывающие на задержки в выпуске Behemoth и проблемы в достижении конкурентоспособной производительности с набором Llama 4. Несмотря на заявления Meta о самых современных возможностях, у некоторых разработчиков сложилось впечатление, что Llama больше не лидирует.
Подъем конкурентов: Qwen и DeepSeek
Разочарование, окружающее LlamaCon и модели Llama 4, отражает более широкое мнение о том, что LLM Meta с открытым исходным кодом теряют импульс как с точки зрения технических характеристик, так и с точки зрения энтузиазма разработчиков. В то время как Meta подчеркивает свою приверженность принципам открытого исходного кода, построению экосистемы и инновациям, конкуренты, такие как DeepSeek, Qwen и OpenAI, быстро продвигаются вперед в таких важных областях, как рассуждения, использование инструментов и развёртывания реального мира.
Один из разработчиков, Винит Сай Варикунтла, выразил свое разочарование, заявив, что надеялся, что Llama превзойдет Qwen и DeepSeek в общих случаях использования и рассуждениях, но обнаружил, что Qwen значительно опережает.
Это мнение подчеркивает проблемы, с которыми сталкивается Meta в поддержании позиции Llama как ведущей LLM с открытым исходным кодом. В то время как первоначальные выпуски Llama привлекли значительное внимание и похвалу, появление все более способных альтернатив усилило конкурентную среду.
Многообещающее начало: влияние Llama 2
Чтобы полностью оценить нынешний нарратив, окружающий Llama, важно помнить ее истоки и первоначальное волнение, которое она вызвала. В 2023 году генеральный директор Nvidia Дженсен Хуанг назвал запуск Llama 2 «вероятно, самым важным событием в области искусственного интеллекта» в том году. К июлю 2024 года выпуск Llama 3 считался прорывом, представляющим первую открытую LLM, способную бросить вызов доминированию OpenAI.
Прибытие Llama 3 вызвало немедленный скачок спроса на вычислительные мощности, что привело к увеличению цен на аренду GPU, по словам Дилана Пателя, главного аналитика SemiAnalysis. Количество поисковых запросов в Google по словам «Meta» и «Llama» также достигло пика в этот период, что указывает на широкий интерес к новой модели.
Llama 3 отмечали как LLM американского производства, открытую и первоклассную. Хотя он и не всегда возглавлял отраслевые тесты, он оказал значительное влияние и актуальность в сообществе ИИ. Однако эта динамика постепенно изменилась.
Архитектурные сдвиги и критика
В моделях Llama 4 была представлена архитектура «смесь экспертов» (mixture of experts), дизайн, популяризированный DeepSeek. Эта архитектура позволяет модели активировать только наиболее релевантные знания для конкретной задачи, тем самым повышая эффективность.
Однако выпуск Llama 4 был встречен критикой, когда разработчики обнаружили, что версия, используемая для публичного тестирования, отличалась от версии, доступной для загрузки и развертывания. Это несоответствие привело к обвинениям в «игре в таблицу лидеров", которые Meta отрицала, заявив, что рассматриваемый вариант является экспериментальным и что оценка нескольких версий модели является стандартной практикой.
Несмотря на объяснения Meta, спор способствовал восприятию того, что Llama изо всех сил пытается сохранить свои конкурентные преимущества. Поскольку конкурирующие модели продолжали развиваться, Meta, казалось, не хватало четкого направления.
Измерение внедрения разработчиками: сложная задача
Определение того, какое семейство LLM является наиболее популярным среди разработчиков, является сложной задачей. Однако имеющиеся данные свидетельствуют о том, что последние модели Llama не входят в число лидеров.
Qwen, в частности, постоянно занимает высокие места в различных таблицах лидеров в Интернете. Согласно Artificial Analysis, сайту, который ранжирует модели на основе производительности, Llama 4 Maverick и Scout расположены чуть выше модели GPT-4 от OpenAI (выпущенной в конце предыдущего года) и ниже Grok от xAI и Claude от Anthropic с точки зрения интеллекта.
OpenRouter, платформа, которая предоставляет разработчикам доступ к различным моделям и публикует таблицы лидеров на основе использования API, показывает Llama 3.3 в числе 20 лучших моделей по состоянию на начало мая, но не Llama 4.
Эти данные, хотя и не являются окончательными, свидетельствуют о том, что последние итерации Llama не нашли такого сильного отклика у разработчиков, как их предшественники.
Помимо тестов: использование инструментов и рассуждения
Хотя стандартные оценки Llama 4 могли быть неутешительными, эксперты утверждают, что сдержанный энтузиазм проистекает из факторов, выходящих за рамки показателей необработанной производительности.
Эй Джей Кураби, аналитик SemiAnalysis, подчеркивает важность «вызова инструментов» и способности модели выходить за рамки простой функциональности чат-бота. Вызов инструментов относится к способности модели получать доступ к другим приложениям в Интернете или на устройстве пользователя и инструктировать их, что является важной функцией для агентного ИИ, который обещает автоматизировать такие задачи, как бронирование поездок и управление расходами.
Meta заявила, что модели Llama поддерживают вызов инструментов через свой API. Однако Тео Браун, разработчик и YouTube-блогер, утверждает, что вызов инструментов стал необходимостью для передовой актуальности по мере того, как агентные инструменты приобретают известность.
Anthropic стала одним из первых лидеров в использовании инструментов, и проприетарные модели, такие как OpenAI, быстро догоняют. Способность надежно вызывать правильный инструмент для создания правильного ответа очень ценна, и OpenAI сместила акцент на приоритизацию этой возможности.
Кураби утверждает, что отсутствие сильной модели рассуждений является важным показателем того, что Meta отстает. Рассуждение считается фундаментальным элементом в уравнении агентного ИИ, позволяющим моделям анализировать задачи и определять соответствующий образ действий.
Ниша Llama: практическое применение и внедрение на предприятиях
Несмотря на опасения по поводу ее положения на переднем крае исследований в области ИИ, Llama остается ценным инструментом для многих разработчиков и организаций.
Нейт Джонс, руководитель отдела продуктов в RockerBox, советует разработчикам включать Llama в свои резюме, поскольку знание модели, вероятно, будет востребовано в будущем.
Пол Байер, генеральный директор и главный аналитик GAI Insights, считает, что Llama будет и впредь оставаться ключевым компонентом стратегий в области ИИ для многих компаний, особенно тех, которые не относятся к технологической отрасли.
Предприятия признают важность моделей с открытым исходным кодом, ярким примером которых является Llama, для обработки менее сложных задач и контроля затрат. Многие организации предпочитают комбинацию закрытых и открытых моделей для удовлетворения своих разнообразных потребностей.
Барис Гюльтекин, руководитель отдела ИИ в Snowflake, отмечает, что клиенты часто оценивают модели на основе конкретных случаев использования, а не полагаются исключительно на тесты. Учитывая низкую стоимость, Llama часто оказывается достаточной для многих приложений.
В Snowflake Llama используется для таких задач, как обобщение расшифровок звонков отдела продаж и извлечение структурированной информации из отзывов клиентов. В Dremio Llama генерирует код SQL и пишет маркетинговые электронные письма.
Томер Ширан, соучредитель и директор по продуктам Dremio, предполагает, что конкретная модель может быть не критичной для 80% приложений, поскольку большинство моделей теперь являются «достаточно хорошими» для удовлетворения основных потребностей.
Диверсифицирующийся ландшафт: укрепление роли Llama
Хотя Llama может отходить от прямой конкуренции с проприетарными моделями в определенных областях, общий ландшафт ИИ становится более диверсифицированным, и роль Llama укрепляется в определенных нишах.
Ширан подчеркивает, что тесты не являются основным фактором выбора модели, поскольку пользователи отдают приоритет тестированию моделей на своих собственных случаях использования. Производительность модели на данных клиента имеет первостепенное значение, и эта производительность может меняться со временем.
Гюльтекин добавляет, что выбор модели часто является решением, зависящим от конкретного случая использования, а не разовым событием.
Llama может терять разработчиков, которые постоянно ищут последние достижения, но сохраняет поддержку многих разработчиков, занимающихся созданием практических инструментов на базе ИИ.
Эта динамика соответствует более широкой стратегии Meta в отношении открытого исходного кода, примером которой является запуск React в 2013 году и создание PyTorch в 2016 году. Развивая успешные экосистемы, Meta получает выгоду от вклада сообщества открытого исходного кода.
Как отмечает Нейт Джонс, Цукерберг получает значительные попутные ветры от инициатив Meta с открытым исходным кодом.