Baidu: ERNIE X1 и ERNIE 4.5

ERNIE X1 и ERNIE 4.5: новые претенденты на арене ИИ от Baidu

Baidu, доминирующая сила в технологическом ландшафте Китая, выпустила два значительных обновления своей базовой модели ERNIE (Enhanced Representation through Knowledge Integration). Эти новые итерации, ERNIE X1 и ERNIE 4.5, представляют собой стратегический ответ Baidu на растущую конкуренцию в глобальном ландшафте ИИ, особенно на достижения, достигнутые как китайскими, так и американскими компаниями. Эти модели — не просто постепенные обновления; они разработаны для прямой конкуренции с некоторыми из самых передовых доступных систем ИИ, обладая возможностями, которые, по словам Baidu, соответствуют или превосходят возможности их конкурентов. Обе модели доступны пользователям через чат-бот ERNIE Bot, и Baidu планирует поэтапную интеграцию в свой более широкий ассортимент продуктов, включая свой флагманский продукт Baidu Search.

Время этого релиза имеет решающее значение. Сектор генеративного ИИ переживает период быстрых инноваций и интенсивного соперничества, с особым акцентом на динамику отношений между Китаем и Соединенными Штатами. DeepSeek, китайский ИИ-стартап, привлек внимание отрасли в начале 2025 года с помощью R1, модели рассуждений с открытым исходным кодом, которая, как сообщается, превзошла ведущие модели ИИ при значительно более низкой стоимости. Этот шаг вывел DeepSeek вперед конкурентов как в Китае, так и в США, включая Baidu. Baidu, однако, была одной из первых китайских компаний, представивших конкурента ChatGPT, ERNIE Bot.

ERNIE X1 и ERNIE 4.5: подробный обзор новых моделей Baidu

ERNIE X1 и ERNIE 4.5, хотя и разработаны Baidu, представляют собой отдельные базовые модели, предназначенные для различных приложений:

  • ERNIE X1: Эта модель позиционируется как высокоэффективный механизм рассуждений, напрямую конкурирующий с такими моделями, как DeepSeek R1 и o3 mini от OpenAI. Она предназначена для задач, требующих сложной логической обработки и многоэтапного решения проблем.

  • ERNIE 4.5: Эта модель представляет собой большую мультимодальную модель ИИ, способную обрабатывать и понимать различные формы медиа – текст, изображения, аудио и видео. Она конкурирует с такими моделями, как GPT-4o и Gemini от Google.

Появление R1 от DeepSeek вызвало смену приоритетов у основных игроков в области ИИ, таких как Google, OpenAI, Anthropic и xAI. Эти компании начали сосредотачиваться на эффективности и доступности, наряду с чистым масштабом модели. Внедрение Baidu ERNIE X1, в частности, означает ее выход на эту глобальную гонку ИИ, предлагая производительность, сравнимую с R1 и другими моделями, потенциально по еще более конкурентоспособной цене.

Baidu подчеркивает, что 2025 год является поворотным годом для эволюции больших языковых моделей и связанных с ними технологий. В пресс-релизе компании подчеркивается ее неизменная приверженность инвестициям в искусственный интеллект, центры обработки данных и облачную инфраструктуру, с целью дальнейшего расширения своих возможностей ИИ и разработки еще более мощных моделей следующего поколения.

ERNIE X1: погружение в глубокое мышление

ERNIE X1 — это языковая модель, специально разработанная для ‘глубокого мышления’. Это отличает ее от традиционных языковых моделей, которые преуспевают в генерации быстрых, основанных на шаблонах ответов. Модели рассуждений, напротив, предназначены для разбиения сложных проблем на ряд логических шагов. Они оценивают различные потенциальные решения и уточняют свои ответы, прежде чем представить окончательный результат. Это делает их особенно подходящими для задач, связанных с многоэтапным планированием, логическим выводом и сложным решением проблем.

Baidu приписывает мастерство рассуждений ERNIE X1 нескольким передовым методам, в том числе:

  • Progressive Reinforcement Learning: Это предполагает итеративный процесс обучения, при котором модель постоянно улучшает свою производительность с помощью обратной связи.
  • End-to-End Training: Это подразумевает целостныйподход к обучению, при котором вся модель оптимизируется одновременно, а не на отдельных этапах.
  • Chains of Thought and Action: Этот метод, вероятно, позволяет модели следовать последовательности логических шагов, имитируя мыслительные процессы человека.
  • Unified Multi-faceted Reward System: Это предполагает сложную систему оценки и вознаграждения производительности модели по различным аспектам рассуждений.

Хотя Baidu не раскрыла исчерпывающих технических деталей, эти методы указывают на акцент на итеративном обучении, контекстном понимании и структурированном рассуждении – сильных сторонах, которые также характерны для других успешных моделей рассуждений.

В практических приложениях, как утверждает Baidu, ERNIE X1 демонстрирует ‘расширенные возможности в понимании, планировании, рефлексии и эволюции’. Компания подчеркивает ее мастерство в таких областях, как:

  • Literary Creation: Создание креативных текстовых форматов.
  • Manuscript Writing: Помощь в составлении более длинных документов.
  • Dialogue: Участие в естественных и связных беседах.
  • Logical Reasoning: Решение проблем, требующих логического вывода.
  • Complex Calculations: Выполнение сложных математических операций.
  • ‘Chinese Knowledge’: Эта неуказанная возможность, вероятно, относится к глубокому пониманию китайского языка, культуры и контекста.

Следовательно, ERNIE X1 предназначена для поддержки широкого спектра приложений, в том числе:

  • Search Engines: Улучшение результатов поиска с более тонким пониманием.
  • Document Summarization and Q&A: Предоставление кратких сводок и точных ответов на вопросы.
  • Image Understanding and Generation: Интерпретация и создание визуального контента.
  • Code Interpretation: Анализ и понимание программного кода.
  • Webpage Analysis: Извлечение ключевой информации с веб-страниц.
  • Mind Mapping: Создание визуальных представлений идей и концепций.
  • Academic Research: Помощь в исследовательских задачах в различных дисциплинах.
  • Business and Franchise Information Search: Предоставление релевантной информации для бизнес-запросов.

ERNIE X1: сравнение с конкурентами

Хотя Baidu не опубликовала конкретных показателей тестов или подробных оценок для ERNIE X1, она утверждает, что производительность модели ‘наравне с’ DeepSeek R1, при этом предлагается ‘всего за половину цены’. В настоящее время Baidu не предоставила сравнений с другими моделями рассуждений на рынке. Отсутствие подробных сравнительных данных затрудняет полную оценку конкурентоспособности ERNIE X1, но заявление о сопоставимой производительности при более низкой стоимости, безусловно, заслуживает внимания.

ERNIE 4.5: использование собственных мультимодальных возможностей

ERNIE 4.5 представлена Baidu как ‘собственная мультимодальная модель’. Это означает, что она предназначена для бесшовной интеграции и понимания различных форм медиа – текста, изображений, аудио и видео – в рамках единой структуры. В отличие от многих систем ИИ, которые обрабатывают различные типы медиа отдельно, ERNIE 4.5 разработана для объединения этих модальностей и даже преобразования между ними (например, текста в аудио и наоборот).

Baidu подчеркивает, что ERNIE 4.5 ‘достигает совместной оптимизации за счет совместного моделирования нескольких модальностей, демонстрируя исключительные возможности мультимодального понимания’. Это предполагает сложный подход, при котором модель учится понимать и связывать информацию между различными типами медиа.

В дополнение к своему мультимодальному мастерству, ERNIE 4.5 может похвастаться ‘улучшенными языковыми навыками’, улучшающими ее возможности понимания и генерации, а также ее логическое мышление, память и способности к кодированию. Baidu также подчеркивает ‘сильный интеллект’ и ‘контекстную осведомленность’ модели, особенно ее способность распознавать тонкий контент, такой как интернет-мемы и сатирические карикатуры. Это указывает на акцент на понимании не только буквального значения контента, но и его культурного и социального контекста.

Кроме того, Baidu утверждает, что ERNIE 4.5 менее подвержена ‘галлюцинациям’ – распространенной проблеме в ИИ, когда модели генерируют ложную или вводящую в заблуждение информацию, которая может показаться правдоподобной на первый взгляд. Это важное улучшение, поскольку галлюцинации могут подорвать надежность и достоверность систем ИИ.

Baidu приписывает эти достижения нескольким ключевым технологиям, в том числе:

  • Spatiotemporal Representation Compression: Это, вероятно, относится к методам эффективного представления и обработки информации, которая изменяется во времени и пространстве, например, видеоконтента.
  • Knowledge-Centric Training Data Construction: Это предполагает акцент на создании обучающих наборов данных, богатых фактическими знаниями.
  • Self-Feedback Enhanced Post-Training: Это подразумевает механизм, при котором модель может учиться на своих собственных выходных данных и улучшать свою производительность с течением времени.
  • Heterogeneous Multimodal Mixture-of-Experts (MoE): Этот подход использует меньшие, специализированные ‘экспертные’ модели, которые активируются только при необходимости. Это оптимизирует производительность и снижает вычислительные затраты. Модели MoE часто меньше и более экономичны, чем традиционные модели на основе трансформеров, но при этом они могут достигать сопоставимой или даже превосходящей производительности, что делает их привлекательным вариантом для разработки ИИ.

Заглядывая вперед, отчеты показывают, что Baidu планирует выпустить ERNIE 5 позже в 2025 году, обещая ‘большие улучшения’ в его мультимодальных возможностях. Это свидетельствует о неизменной приверженности расширению границ мультимодального ИИ.

ERNIE 4.5: сравнительный анализ

Baidu напрямую сравнила мультимодальные возможности ERNIE 4.5 с GPT-4o от OpenAI. Компания утверждает, что ERNIE 4.5 превзошла GPT-4o почти во всех тестах, за исключением MMU (Massive Multi-discipline Understanding). MMU оценивает модели по широкому спектру задач университетского уровня, требующих глубоких предметных знаний и обдуманного рассуждения. Это говорит о том, что, хотя ERNIE 4.5 превосходит во многих областях, GPT-4o может по-прежнему иметь преимущество в задачах, требующих специализированных академических знаний.

Baidu также представляет результаты тестов, показывающие, что ERNIE 4.5 превосходит GPT-4o и GPT-4.5 от OpenAI, а также DeepSeek-V3, в нескольких других областях, в том числе:

  • C-Eval: Этот тест оценивает передовые знания и способности к рассуждению в различных дисциплинах, от гуманитарных наук до науки и техники. Высокие показатели ERNIE 4.5 здесь свидетельствуют о широком понимании различных предметов.
  • CMMLU: Этот тест оценивает знания и способности к рассуждению в конкретном контексте китайского языка и культуры. Успех ERNIE 4.5 здесь подчеркивает ее мастерство в этой области.
  • GSM8K: Этот тест оценивает многоэтапное рассуждение с использованием математических задач начальной школы. Производительность ERNIE 4.5 указывает на сильные способности к математическому рассуждению.
  • DROP: Этот тест измеряет способности LLM к пониманию прочитанного. Результаты ERNIE 4.5 свидетельствуют о высоком уровне понимания текста.

Важно отметить, однако, что многие из тестов, в которых ERNIE 4.5 продемонстрировала превосходную производительность, были специально ориентированы на китайский язык и культуру. Это может частично объяснить, почему GPT-4o и GPT-4.5, модели, разработанные американской компанией, показали не такие хорошие результаты. Тем не менее, ERNIE 4.5 также превзошла DeepSeek-V3, модель, разработанную китайской компанией, во многих из этих тестов, что указывает на подлинное конкурентное преимущество в китайском контексте.

И наоборот, ERNIE 4.5, как сообщается, показала не такие хорошие результаты в некоторых других тестах, в том числе:

  • MMLU-Pro: Этот тест оценивает понимание языка по более широкому и сложному набору задач. GPT-4.5 превзошла ERNIE 4.5 здесь, что предполагает потенциальное преимущество в общем понимании языка.
  • GPQA: Этот тест состоит из набора вопросов с несколькими вариантами ответов, написанных экспертами в области биологии, физики и химии. GPT-4.5 снова превзошла ERNIE 4.5, что указывает на более сильное понимание специализированных научных знаний.
  • Math-500: Этот тест проверяет способность решать сложные математические задачи уровня средней школы. И DeepSeek-V3, и GPT-4.5 превзошли ERNIE 4.5, что указывает на необходимость дальнейшего улучшения в продвинутом математическом рассуждении.
  • LiveCodeBench: Этот тест измеряет возможности кодирования. GPT-4.5 превзошла ERNIE 4.5, что указывает на потенциальное преимущество в генерации и понимании кода.

Несмотря на превосходную производительность GPT-4.5 в некоторых тестах, Baidu подчеркивает, что цена ERNIE 4.5 составляет всего 1% от цены модели OpenAI. Эта значительная разница в стоимости может сделать ERNIE 4.5 очень привлекательным вариантом для предприятий и разработчиков, ищущих экономичное мультимодальное решение ИИ.

Доступ к ERNIE X1 и ERNIE 4.5

ERNIE 4.5 в настоящее время доступна через свой API и на платформе Baidu AI Cloud MaaS (Model-as-a-Service), Qianfan. Цены на ввод начинаются с 0,004 юаня за тысячу токенов, а цены на вывод — с 0,016 юаня за тысячу токенов. Baidu заявляет, что ERNIE X1 будет доступна на платформе ‘в ближайшее время’, при этом цены на ввод начинаются с 0,002 юаня за тысячу токенов, а цены на вывод — с 0,008 юаня за тысячу токенов.

Пользователи также могут взаимодействовать с обеими моделями через чат-бот Baidu, ERNIE Bot, обеспечивающий удобный и понятный интерфейс для изучения их возможностей.

Конкретная структура ценообразования и детали доступности подчеркивают стремление Baidu сделать эти передовые модели ИИ доступными для широкого круга пользователей, от отдельных разработчиков до крупных предприятий. Конкурентоспособные цены, особенно для ERNIE X1, позиционируют Baidu как сильного конкурента на мировом рынке ИИ, предлагая убедительную альтернативу моделям от американских технологических гигантов.