AI-Поле Битвы: Ответ на DeepSeek R1 | ru

В 2025 году произошло сейсмическое событие в мире искусственного интеллекта: китайская команда DeepSeek представила DeepSeek-R1. Эта языковая модель с открытым исходным кодом и 671 миллиардом параметров быстро зарекомендовала себя как грозный соперник, конкурирующий с ведущими моделями OpenAI в таких важных областях, как математика, программирование и логическое мышление. Способность DeepSeek-R1 решать сложные задачи была особенно примечательна благодаря использованию обучения с подкреплением. Лицензия MIT модели еще больше изменила ситуацию, устранив коммерческие барьеры. Отголоски дебюта DeepSeek-R1 ощущались во всем технологическом мире и даже на финансовых рынках, что, как сообщается, вызвало значительное падение акций AI в течение недели после его выпуска.

DeepSeek-R1 ознаменовал собой значительный скачок вперед для китайского движения AI с открытым исходным кодом в сфере высококлассных языковых моделей. Этот непредвиденный вызов побудил мировых лидеров AI из Соединенных Штатов и Китая ускорить свои инициативы, раскрывая свои стратегии как в технологиях, так и в рыночном позиционировании. Это положило начало гонке AI вокруг модели DeepSeek-R1.

Давайте рассмотрим, как основные игроки на арене AI – Meta, Google, OpenAI, Anthropic, Alibaba и Baidu – отреагировали на эту новую конкуренцию.

Meta: Использование масштаба и эффективности с помощью LLaMA 4

Meta, лидер в сообществе моделей с открытым исходным кодом, отреагировала на DeepSeek R1, представив LLaMA 4. В апреле 2025 года Meta запустила LLaMA 4, свою самую мощную модель на сегодняшний день, предоставив доступ к API через такие платформы, как Cloudflare. LLaMA 4 использует архитектуру Mixture-of-Experts (MoE), которая разделяет модель на подмодели и активирует только часть из них во время каждого вывода. Эта конструкция уравновешивает крупномасштабные параметры с эффективностью вывода.

Серия LLaMA 4 включает в себя несколько подмоделей, в том числе «Scout», с 109 миллиардами общих параметров и только 17 миллиардами активных параметров, что позволяет ей работать на одной карте H100. Модель «Maverick» имеет 400 миллиардов общих параметров (128 экспертов), но по-прежнему только 17 миллиардов активных параметров, что требует кластера DGX. Эта конструкция позволяет LLaMA 4 поддерживать окна контекста до 10 миллионов токенов, что делает ее одной из первых моделей с открытым исходным кодом, предлагающих эту возможность. Это особенно полезно для обобщения длинных документов и анализа больших репозиториев кода.

LLaMA 4 поддерживает быстрое время отклика и поддерживает мультимодальные входы для изображений, аудио и видео благодаря своей архитектуре MoE. Meta выбрала стратегию эффективности, укрепляя свои мультимодальные возможности и оптимизируя свои операции, чтобы укрепить свои позиции в секторе с открытым исходным кодом, в то время как DeepSeek фокусируется на возможностях вывода.

Google: Эволюция Gemini в сторону автономных интеллектуальных агентов

Столкнувшись с объединенным давлением со стороны OpenAI и DeepSeek, Google выбрала стратегию технологических инноваций. В феврале 2025 года Google представила серию Gemini 2.0, в которую вошли версии Flash, Pro и Lite, что сигнализирует о переходе к возможностям «интеллектуального агента».

Агентские возможности Gemini 2.0 представляют собой значительный прогресс. Модель может понимать несколько модальностей и активно использовать поисковые системы, среды исполнения кода и веб-браузинг. Проект Mariner от Google позволяет выполнять операции браузера Chrome на основе AI, позволяя AI заполнять формы и нажимать кнопки.

Google также представила протокол Agent2Agent, который позволяет различным интеллектуальным агентам общаться и работать вместе, чтобы поддерживать свою экосистему агентов. Кроме того, она создала Agent Garden, инструмент и набор для разработки, чтобы стимулировать участие сторонних разработчиков.

Google переопределяет основные сценарии следующей эры, концентрируясь на сотрудничестве интеллектуальных агентов, поскольку AI развивается в сторону основанных на инструментах и автономных возможностей, в отличие от сосредоточения внимания на гонке параметров с DeepSeek и OpenAI. Эволюция Gemini представляет собой стратегический сдвиг, а не просто обновление модели.

OpenAI: Итерация моделей и интеграция экосистем для надежности и лидерства

OpenAI ускорила итерации своих моделей и развертывание продуктов в ответ на DeepSeek R1. В феврале 2025 года OpenAI запустила GPT-4.5, промежуточную версию GPT-4, которая улучшает логическую согласованность и фактическую точность, а также прокладывает путь для GPT-5.

GPT-4.5 считается последней крупной моделью, которая не включает в себя цепочку рассуждений. GPT-5 объединит функции экспериментальной модели рассуждений o3-mini и серии GPT для создания унифицированной «общей когнитивной модели». OpenAI также заявила, что GPT-5 будет иметь высоко регулируемые уровни интеллекта и возможности использования инструментов.

OpenAI решила разрешить бесплатным пользователям ChatGPT использовать базовую версию GPT-5, в то время как платные пользователи будут иметь доступ к более расширенным функциям, чтобы снизить риск переключения пользователей на альтернативы с открытым исходным кодом. Эта стратегия направлена на то, чтобы удержать пользователей с широким охватом.

OpenAI также интегрирует возможности, такие как плагины, браузеры и исполнители кода, в основную модель GPT, а не держит их отдельно, чтобы создать «полнофункциональный AI». OpenAI отвечает на вызов R1 путем систематической интеграции и увеличения плотности интеллекта.

Anthropic: Углубление надежного интеллекта с помощью смешанных рассуждений и бюджетов мышления

Anthropic представила Claude 3.7 Sonnet в феврале 2025 года, которая фокусируется на «смешанном рассуждении» и «бюджетах мышления». Пользователи могут выбрать «стандартный режим» для быстрых ответов или включить «расширенный режим» для более глубокого, пошагового мышления.

Этот метод похож на «больше думать», когда люди сталкиваются с трудными задачами, поскольку он позволяет AI тратить больше времени на рассуждения, чтобы повысить точность. Anthropic также позволяет пользователям устанавливать «время мышления», чтобы сбалансировать глубину рассуждений и затраты на вызовы.

Claude 3.7 превосходит своего предшественника, 3.5, в сложных задачах, таких как программирование и рассуждение, и является одной из немногих моделей в отрасли, которая фокусируется на прозрачности процесса рассуждения. Ее возможности кодирования также достигли 70,3% точности в самых последних оценках.

Claude 3.7 демонстрирует приверженность Anthropic «контролируемому интеллекту», фокусируясь на создании моделей с объяснимыми, стабильными и настраиваемыми схемами мышления, а не на стремлении к наращиванию параметров. Anthropic неуклонно продвигается в своем собственном темпе в «гонке рассуждений», вызванной R1.

Alibaba: Создание китайской экосистемы с открытым исходным кодом с помощью Qwen

Damo Academy Alibaba быстро обновила свое семейство моделей Qwen всего через неделю после выпуска DeepSeek R1, выпустив серию Qwen 2.5 в феврале 2025 года и новую серию Qwen 3 в конце апреля, демонстрируя сильную оперативность продукта и стратегическое видение.

Серия Qwen 3 включает в себя версии моделей с диапазоном от 600 миллионов до 235 миллиардов параметров. Она использует архитектуру MoE для поддержания производительности модели при использовании меньшего количества вычислительных ресурсов. Флагманской модели Qwen3-235B-A22B требуется всего четыре высокопроизводительных графических процессора для развертывания путем оптимизации параметров активации, что значительно снижает барьер для предприятий для внедрения больших моделей. В нескольких стандартных тестах общая производительность Qwen 3 превосходит показатели ведущих международных моделей, таких как DeepSeek R1, OpenAI o1 и Gemini 2.5 Pro.

Alibaba уделяет большое внимание созданию экосистемы с открытым исходным кодом, в дополнение к технологической конкурентоспособности. Qwen 3 полностью открыт под лицензией Apache 2.0, с открытыми весами, кодом обучения и инструментами развертывания, поддерживающими многоязычные (119 языков) и мультимодальные приложения, с целью создания базовой модели, которая может использоваться и настраиваться непосредственно глобальными разработчиками.

Стратегия Alibaba «технология + экосистема» дополняет легкий прорывной стиль DeepSeek. Одна подчеркивает быструю итерацию и ведущий вывод, в то время как другая подчеркивает построение экосистемы и балансирование масштаба и разнообразия. Qwen постепенно зарекомендовывает себя как «экосистемный центр» больших моделей с открытым исходным кодом на внутреннем рынке, что является устойчивым ответом на отраслевые сбои, вызванные DeepSeek.

Baidu: Улучшение мультимодальности и инструментов плагинов с обновлением ERNIE Bot

Baidu значительно обновила свою флагманскую модель ERNIE Bot в марте, выпустив ERNIE Bot 4.5 и ERNIE X1 для публичного тестирования. ERNIE X1 позиционируется как «модель глубокого мышления», фокусируясь на улучшении способности AI понимать, планировать и выполнять сложные задачи.

ERNIE 4.5 – это первая собственная мультимодальная большая модель Baidu, поддерживающая совместное моделирование текста, изображений, аудио и видео. Эта версия также значительно снижает генерацию галлюцинаций и улучшает понимание кода и логические рассуждения, превосходя уровни GPT-4.5 во многих задачах китайского сценария.

Baidu создает «экосистему инструментов AI», которая более полезна. Модель X1 может использовать поиск, Q&A документов, чтение PDF, выполнение кода, распознавание изображений, доступ к веб-страницам и функции запроса бизнес-информации, чтобы по-настоящему реализовать «практическую способность» AI, что перекликается с маршрутом агента Google Gemini.

Baidu также объявила, что откроет некоторые параметры модели ERNIE к концу июня 2025 года и дополнительно расширит интеграцию приложений с корпоративными клиентами. Серия ERNIE переходит от продукта с замкнутым циклом к платформенной экосистеме, привлекая разработчиков и предприятия через API и системы плагинов.

Вместо того, чтобы напрямую конкурировать с R1 и Qwen в пространстве открытого исходного кода, Baidu использует свое глубокое накопление в китайском контенте, поисковых сервисах и графах знаний для глубокой интеграции модели со сценариями продуктов, такими как поиск, офис и информационный поток, создавая более локализованный портфель продуктов AI.

Таким образом, выпуск DeepSeek R1 был больше, чем просто технологическим прорывом; это был катализатор на мировой арене AI. Он заставил гигантов улучшить производительность вывода, стимулировал отечественные компании к конкуренции за открытый исходный код и побудил американские компании ускорить разработку агентов, интеграции и мультимодальности.

Хотя ответы китайских и американских гигантов AI различаются, их цели совпадают: создать более сильные, более надежные и более гибкие большие модели и выиграть тройную конкуренцию технологий, экосистемы и пользователей. Этот процесс далек от завершения. Поскольку GPT-5, Gemini 3, Claude 4 и даже DeepSeek R2 и Qwen 4 выпускаются один за другим, глобальный AI вступает в новую стадию «спирального подъема».

Для корпоративных пользователей и разработчиков эта конкуренция принесет больше выбора, снижение затрат и более мощные инструменты больших моделей. Глобальные возможности AI распространяются и демократизируются беспрецедентными темпами, и следующий решающий технологический прорыв, возможно, уже на подходе.

обновлено 2025-05-06

# Agent # DeepSeek # LLaMA