Meta представляет Llama 4: новое поколение ИИ-моделей

Неустанный темп развития искусственного интеллекта продолжается, и крупные технологические игроки соперничают за превосходство в создании более мощных, эффективных и универсальных моделей. В эту жесткую конкурентную среду Meta бросила новый вызов, анонсировав свою серию Llama 4 — коллекцию фундаментальных ИИ-моделей, призванных значительно продвинуть современный уровень технологий и обеспечить работу широкого спектра приложений, от инструментов для разработчиков до ассистентов для потребителей. Этот запуск знаменует собой поворотный момент для амбиций Meta в области ИИ, представляя не одну, а сразу две различные модели, доступные немедленно, и анонсируя третью, потенциально революционную гигантскую модель, которая в настоящее время проходит тщательное обучение. Семейство Llama 4 представляет собой стратегическую эволюцию, включающую передовые архитектурные решения и нацеленную на то, чтобы бросить вызов установленным эталонам, заданным такими конкурентами, как OpenAI, Google и Anthropic. Эта инициатива подчеркивает приверженность Meta формированию будущего ИИ, как путем вклада в открытое исследовательское сообщество (хотя и с определенными оговорками), так и путем интеграции этих передовых возможностей непосредственно в свою обширную экосистему социальных сетей и коммуникационных платформ.

Llama 4 Scout: Мощь в компактном корпусе

Во главе наступления стоит Llama 4 Scout, модель, разработанная с упором на эффективность и доступность. Meta подчеркивает замечательную способность Scout эффективно работать, будучи достаточно компактной, чтобы ‘поместиться в один GPU Nvidia H100’. Это значительное техническое достижение и стратегическое преимущество. В эпоху, когда вычислительные ресурсы, особенно высокопроизводительные GPU, такие как H100, являются одновременно дорогими и востребованными, мощная модель, способная работать на одном устройстве, значительно снижает барьер входа для разработчиков, исследователей и небольших организаций. Это открывает возможности для развертывания сложных ИИ-возможностей в средах с ограниченными ресурсами, потенциально позволяя более локализованную или выполняемую на устройстве обработку ИИ, снижая задержку и повышая конфиденциальность.

Meta не стесняется позиционировать Scout против своих конкурентов. Компания утверждает, что Scout превосходит несколько заметных моделей в своей весовой категории, включая Gemma 3 и Gemini 2.0 Flash-Lite от Google, а также широко уважаемую модель с открытым исходным кодом Mistral 3.1. Эти утверждения основаны на производительности ‘по широкому спектру широко известных бенчмарков’. Хотя результаты бенчмарков всегда требуют тщательного изучения — поскольку они могут не отражать все аспекты реальной производительности — последовательное превосходство над устоявшимися моделями предполагает, что Scout обладает убедительным балансом мощности и эффективности. Эти бенчмарки обычно оценивают такие возможности, как понимание языка, рассуждение, решение математических задач и генерация кода. Превосходство в разнообразных задачах говорит о том, что Scout — это не нишевая модель, а универсальный инструмент, способный эффективно справляться с различными задачами.

Кроме того, Llama 4 Scout может похвастаться впечатляющим контекстным окном в 10 миллионов токенов. Контекстное окно, по сути, определяет объем информации, которую ИИ-модель может ‘помнить’ или учитывать в любой момент времени во время разговора или выполнения задачи. Большее контекстное окно позволяет модели поддерживать связность в более длительных взаимодействиях, понимать сложные документы, следовать запутанным инструкциям и вспоминать детали из более ранних частей ввода. Емкость в 10 миллионов токенов является существенной, позволяя использовать такие приложения, как суммирование длинных отчетов, анализ обширных кодовых баз или ведение продолжительных многоходовых диалогов без потери нити повествования. Эта функция значительно повышает полезность Scout для сложных, информационно насыщенных задач, делая его гораздо большим, чем просто легковесной альтернативой. Сочетание совместимости с одним GPU и большого контекстного окна делает Scout особенно интригующим предложением для разработчиков, ищущих мощный ИИ без необходимости в огромных инфраструктурных инвестициях.

Maverick: Основной претендент

Позиционируемый как более мощный собрат в первоначальном выпуске Llama 4, Llama 4 Maverick предназначен для прямой конкуренции с тяжеловесами мира ИИ, проводя параллели с такими грозными моделями, как GPT-4o от OpenAI и Gemini 2.0 Flash от Google. Maverick представляет собой заявку Meta на лидерство в области крупномасштабного, высокопроизводительного ИИ, стремясь предоставить возможности, способные справиться с самыми требовательными задачами генеративного ИИ. Это движок, предназначенный для обеспечения самых сложных функций в ассистенте Meta AI, теперь доступном через веб и интегрированном в основные коммуникационные приложения компании: WhatsApp, Messenger и Instagram Direct.

Meta подчеркивает мастерство Maverick, сравнивая его производительность в выгодном свете с основными конкурентами. Компания утверждает, что Maverick держится наравне, а в некоторых сценариях потенциально превосходит возможности GPT-4o и Gemini 2.0 Flash. Эти сравнения имеют решающее значение, поскольку GPT-4o и семейство Gemini представляют собой передовой край широко доступных ИИ-моделей. Успех здесь подразумевает, что Maverick способен к тонкой генерации языка, сложным рассуждениям, изощренному решению проблем и потенциально мультимодальным взаимодействиям (хотя первоначальный выпуск в значительной степени сосредоточен на текстовых бенчмарках).

Интересно, что Meta также подчеркивает эффективность Maverick по сравнению с другими высокопроизводительными моделями, конкретно упоминая DeepSeek-V3 в областях кодирования и задач на рассуждение. Meta заявляет, что Maverick достигает сопоставимых результатов, используя ‘менее половины активных параметров’. Это утверждение указывает на значительные достижения в архитектуре модели и методах обучения. Параметры — это, грубо говоря, переменные, которые модель изучает во время обучения и которые хранят ее знания. ‘Активные параметры’ часто относятся к архитектурам типа Mixture of Experts (MoE), где для любого данного ввода используется только подмножество общих параметров. Достижение аналогичной производительности с меньшим количеством активных параметров предполагает, что Maverick может быть вычислительно дешевле в эксплуатации (стоимость инференса) и потенциально быстрее, чем модели с большим количеством активных параметров, предлагая лучшее соотношение производительности на ватт или производительности на доллар. Эта эффективность критически важна для развертывания ИИ в масштабах, в которых работает Meta, где даже незначительные улучшения могут привести к существенной экономии затрат и улучшению пользовательского опыта. Таким образом, Maverick стремится найти баланс между первоклассной производительностью и операционной эффективностью, что делает его подходящим как для требовательных приложений разработчиков, так и для интеграции в продукты, обслуживающие миллиарды пользователей.

Behemoth: Ожидаемый гигант

Хотя Scout и Maverick доступны уже сейчас, Meta также предварительно анонсировала разработку еще более крупной и потенциально более мощной модели: Llama 4 Behemoth. Как следует из названия, Behemoth задуман как титан в ландшафте ИИ. Генеральный директор Meta Марк Цукерберг (Mark Zuckerberg) публично заявил об амбициях этой модели, описав ее как потенциально ‘самую производительную базовую модель в мире’ по завершении ее обучения. Это сигнализирует о намерении Meta раздвинуть абсолютные границы возможностей ИИ.

Масштаб Behemoth поражает. Meta раскрыла, что он обладает 288 миллиардами активных параметров, взятых из огромного пула в 2 триллиона общих параметров. Это убедительно указывает на использование сложной архитектуры Mixture of Experts (MoE) в беспрецедентном масштабе. Сам размер модели предполагает, что она обучается на огромных наборах данных и предназначена для улавливания невероятно сложных закономерностей и знаний. Хотя обучение такой модели является колоссальной задачей, требующей огромных вычислительных ресурсов и времени, потенциальная отдача столь же значительна.

Хотя Behemoth еще не выпущен, Meta уже устанавливает высокие ожидания относительно его производительности. Компания утверждает, что, основываясь на продолжающемся обучении и оценке, Behemoth демонстрирует потенциал превзойти ведущих конкурентов, таких как ожидаемый GPT-4.5 от OpenAI и Claude Sonnet 3.7 от Anthropic, особенно ‘по нескольким бенчмаркам STEM’. Успех в бенчмарках по науке, технологиям, инженерии и математике (Science, Technology, Engineering, and Mathematics - STEM) часто рассматривается как ключевой показатель продвинутых способностей к рассуждению и решению проблем. Модели, преуспевающие в этих областях, могут открыть путь к прорывам в научных исследованиях, ускорить процессы инженерного проектирования и решать сложные аналитические задачи, которые в настоящее время находятся за пределами досягаемости ИИ. Фокус на STEM предполагает, что Meta видит Behemoth не просто как языковую модель, а как мощный двигатель для инноваций и открытий. Разработка Behemoth подчеркивает долгосрочную стратегию Meta: не только конкурировать на самом высоком уровне, но и потенциально переопределить потолок производительности для фундаментальных ИИ-моделей. Его возможный выпуск будет внимательно отслеживаться всем сообществом ИИ.

Под капотом: Преимущество Mixture of Experts

Ключевым технологическим сдвигом, лежащим в основе серии Llama 4, является принятие Meta архитектуры ‘смеси экспертов’ (mixture of experts - MoE). Это представляет собой значительную эволюцию по сравнению с монолитными конструкциями моделей, где вся модель обрабатывает каждый входной сигнал. MoE предлагает путь к созданию гораздо более крупных и способных моделей без пропорционального увеличения вычислительных затрат во время инференса (процесса использования модели для генерации вывода).

В модели MoE система состоит из множества меньших, специализированных ‘экспертных’ сетей. Когда поступает входной сигнал (например, текстовый промпт), сеть-шлюз или механизм маршрутизации анализирует входные данные и определяет, какое подмножество экспертов лучше всего подходит для обработки этой конкретной задачи или типа информации. Только эти выбранные эксперты активируются для обработки входных данных, в то время как остальные остаются неактивными. Это условное вычисление является основным преимуществом MoE.

Преимущества двояки:

  1. Масштабируемость: Это позволяет разработчикам значительно увеличить общее количество параметров в модели (например, 2 триллиона в Behemoth), поскольку только их часть (активные параметры, например, 288 миллиардов для Behemoth) задействуется для любого отдельного инференса. Это позволяет модели хранить значительно больший объем знаний и изучать более специализированные функции в своих экспертных сетях.
  2. Эффективность: Поскольку в любой момент времени активна только часть модели, вычислительные затраты и энергопотребление, необходимые для инференса, могут быть значительно ниже по сравнению с плотной моделью аналогичного общего размера параметров. Это делает запуск очень больших моделей более практичным и экономичным, особенно в больших масштабах.

Явное упоминание Meta о переходе на MoE для Llama 4 указывает на то, что эта архитектура является центральной для достижения целей производительности и эффективности, установленных для Scout, Maverick и особенно для колоссального Behemoth. Хотя архитектуры MoE вносят свои сложности, особенно в эффективном обучении сети-шлюза и управлении связью между экспертами, их принятие крупными игроками, такими как Meta, сигнализирует об их растущей важности в продвижении границ разработки ИИ. Этот архитектурный выбор, вероятно, является ключевым фактором заявленной эффективности Maverick по сравнению с DeepSeek-V3 и огромного масштаба, предусмотренного для Behemoth.

Стратегия распространения: Открытый доступ и интегрированный опыт

Meta придерживается двуединой стратегии распространения и использования своих моделей Llama 4, отражая желание как развивать широкую экосистему разработчиков, так и использовать свою собственную огромную базу пользователей.

Во-первых, Llama 4 Scout и Llama 4 Maverick становятся доступными для скачивания. Разработчики и исследователи могут получить модели непосредственно от Meta или через популярные платформы, такие как Hugging Face, центральный узел для сообщества машинного обучения. Этот подход поощряет эксперименты, позволяет сторонним организациям создавать приложения поверх Llama 4 и облегчает независимую проверку и валидацию возможностей моделей. Предлагая модели для скачивания, Meta вносит вклад в более широкий ландшафт ИИ, позволяя инновациям выходить за рамки ее собственных продуктовых команд. Это, по крайней мере частично, соответствует духу открытых исследований и разработок, который исторически ускорял прогресс в этой области.

Во-вторых, и одновременно, Meta глубоко интегрирует возможности Llama 4 в свои собственные продукты. Ассистент Meta AI, работающий на этих новых моделях, развертывается на веб-ресурсах компании и, что, возможно, более важно, в ее широко используемых коммуникационных приложениях: WhatsApp, Messenger и Instagram Direct. Это мгновенно предоставляет передовые инструменты ИИ в руки потенциально миллиардов пользователей по всему миру. Эта интеграция служит нескольким стратегическим целям: она обеспечивает немедленную ценность для пользователей платформ Meta, генерирует огромные объемы данных о взаимодействии в реальном мире (которые могут быть бесценны для дальнейшего совершенствования моделей, с учетом соображений конфиденциальности) и позиционирует приложения Meta как передовые платформы, насыщенные интеллектом ИИ. Это создает мощную петлю обратной связи и гарантирует, что Meta напрямую извлекает выгоду из своих собственных достижений в области ИИ, улучшая свои основные сервисы.

Эта двойная стратегия контрастирует с подходами, принятыми некоторыми конкурентами. В то время как OpenAI в основном предлагает доступ через API (например, для GPT-4), а Google глубоко интегрирует Gemini в свои сервисы, также предлагая доступ через API, акцент Meta на предоставлении самих моделей для скачивания (с условиями лицензирования) представляет собой особый подход, направленный на завоевание умов как в сообществе разработчиков, так и на рынке конечных пользователей.

Вопрос открытого исходного кода: Лицензионная головоломка

Meta последовательно называет свои выпуски моделей Llama, включая Llama 4, ‘открытым исходным кодом’ (‘open-source’). Однако это обозначение было постоянным предметом споров в технологическом сообществе, в первую очередь из-за конкретных условий лицензии Llama. Хотя модели действительно предоставляются для использования и модификации другими, лицензия налагает определенные ограничения, которые отклоняются от стандартных определений открытого исходного кода, отстаиваемых такими организациями, как Open Source Initiative (OSI).

Наиболее существенное ограничение касается крупномасштабного коммерческого использования. Лицензия Llama 4 предусматривает, что коммерческие организации, имеющие более 700 миллионов ежемесячных активных пользователей (MAU), должны получить явное разрешение от Meta перед развертыванием или использованием моделей Llama 4. Этот порог эффективно предотвращает свободное использование Llama 4 крупнейшими технологическими компаниями — потенциальными прямыми конкурентами Meta — для улучшения их собственных сервисов без согласия Meta.

Это ограничение привело к тому, что Open Source Initiative, широко признанный блюститель принципов открытого исходного кода, ранее заявлял (относительно Llama 2, имевшей аналогичные условия), что такие условия выводят лицензию ‘из категории ‘Open Source’’. Настоящие лицензии с открытым исходным кодом, согласно определению OSI, не должны дискриминировать области деятельности или конкретных лиц или группы, и они обычно разрешают широкое коммерческое использование без необходимости специального разрешения на основе размера пользователя или его положения на рынке.

Подход Meta можно рассматривать как форму лицензии ‘source-available’ или ‘community’, а не чисто ‘open source’. Обоснование этой стратегии лицензирования, вероятно, многогранно. Она позволяет Meta завоевать расположение и способствовать инновациям в более широких сообществах разработчиков и исследователей, предоставляя доступ к мощным моделям. Одновременно она защищает стратегические интересы Meta, не позволяя ее крупнейшим конкурентам напрямую использовать ее значительные инвестиции в ИИ против нее. Хотя этот прагматичный подход может служить бизнес-целям Meta, использование термина ‘open-source’ остается спорным, поскольку это может вызвать путаницу и потенциально размыть значение термина, который несет в себе специфические коннотации свободы и неограниченного доступа в мире разработки программного обеспечения. Эта продолжающаяся дискуссия подчеркивает сложное пересечение открытого сотрудничества, корпоративной стратегии и интеллектуальной собственности в быстро развивающейся области искусственного интеллекта.

Meta планирует поделиться дополнительными подробностями о своей дорожной карте в области ИИ и взаимодействовать с сообществом на своей предстоящей конференции LlamaCon, запланированной на 29 апреля. Это мероприятие, вероятно, предоставит больше информации о технических основах Llama 4, потенциальных будущих итерациях и более широком видении компанией роли ИИ в ее экосистеме и за ее пределами. Выпуск Llama 4 Scout и Maverick, наряду с обещанием Behemoth, ясно сигнализирует о решимости Meta быть ведущей силой в революции ИИ, формируя ее траекторию как через технологические инновации, так и через стратегическое распространение.