Baidu пуска ERNIE X1 и 4.5

ERNIE X1 и ERNIE 4.5: Нов поглед към новите модели на Baidu

ERNIE X1 и ERNIE 4.5, макар и разработени от Baidu, са различни базови модели, пригодени за различни приложения:

  • ERNIE X1: Този модел е позициониран като високоефективен механизъм за разсъждение, директно предизвикващ модели като DeepSeek R1 и OpenAI’s o3 mini. Той е предназначен за задачи, изискващи комплексна логическа обработка и решаване на проблеми в няколко стъпки.

  • ERNIE 4.5: Този модел е голям мултимодален AI, способен да обработва и разбира различни форми на медия – текст, изображения, аудио и видео. Той се конкурира с модели като GPT-4o и Google’s Gemini.

Появата на DeepSeek’s R1 предизвика промяна в приоритетите на основните AI играчи като Google, OpenAI, Anthropic и xAI. Тези компании започнаха да се фокусират върху ефективността и достъпността, наред с мащаба на суровия модел. Въвеждането на ERNIE X1 от Baidu, в частност, означава навлизането му в тази глобална AI надпревара, предлагайки производителност, сравнима с R1 и други модели, потенциално на още по-конкурентна цена.

Baidu подчертава, че 2025 г. е ключова година за еволюцията на големите езикови модели и свързаните с тях технологии. Съобщението за пресата на компанията подчертава нейния постоянен ангажимент да инвестира в изкуствен интелект, центрове за данни и облачна инфраструктура, с цел по-нататъшно подобряване на своите AI възможности и разработване на още по-мощни модели от следващо поколение.

ERNIE X1: Задълбочаване в задълбоченото разсъждение

ERNIE X1 е езиков модел, специално проектиран за “задълбочено мислене”. Това го отличава от традиционните езикови модели, които се отличават с генериране на бързи, базирани на шаблони отговори. Моделите за разсъждение, за разлика от тях, са предназначени да разчленяват сложни проблеми на поредица от логически стъпки. Те оценяват различни потенциални решения и усъвършенстват отговорите си, преди да представят окончателен резултат. Това ги прави особено подходящи за задачи, които включват планиране в няколко стъпки, логическа дедукция и сложно решаване на проблеми.

Baidu приписва способността за разсъждение на ERNIE X1 на няколко усъвършенствани техники, включително:

  • Progressive Reinforcement Learning: Това предполага итеративен процес на обучение, при който моделът непрекъснато подобрява своята производителност чрез обратна връзка.
  • End-to-End Training: Това предполага холистичен подход на обучение, при който целият модел се оптимизира едновременно, а не на отделни етапи.
  • Chains of Thought and Action: Тази техника вероятно позволява на модела да следва последователност от логически стъпки, имитирайки човешките мисловни процеси.
  • Unified Multi-faceted Reward System: Това предполага сложна система за оценка и възнаграждаване на производителността на модела в различни аспекти на разсъждението.

Въпреки че Baidu не е разкрил изчерпателни технически подробности, тези методи сочат фокус върху итеративното обучение, контекстуалното разбиране и структурираното разсъждение – силни страни, които са характерни и за други успешни модели за разсъждение.

В практически приложения Baidu твърди, че ERNIE X1 показва “подобрени възможности за разбиране, планиране, размисъл и еволюция”. Компанията подчертава неговата компетентност в области като:

  • Literary Creation: Генериране на креативни текстови формати.
  • Manuscript Writing: Подпомагане при изготвянето на по-дълги документи.
  • Dialogue: Участие в естествени и последователни разговори.
  • Logical Reasoning: Решаване на проблеми, които изискват логическа дедукция.
  • Complex Calculations: Извършване на сложни математически операции.
  • ‘Chinese Knowledge’: Тази неуточнена способност вероятно се отнася до дълбоко разбиране на китайския език, култура и контекст.

Следователно, ERNIE X1 се предвижда да захранва разнообразна гама от приложения, включително:

  • Search Engines: Подобряване на резултатите от търсенето с по-нюансирано разбиране.
  • Document Summarization and Q&A: Предоставяне на кратки резюмета и точни отговори на въпроси.
  • Image Understanding and Generation: Интерпретиране и създаване на визуално съдържание.
  • Code Interpretation: Анализиране и разбиране на програмен код.
  • Webpage Analysis: Извличане на ключова информация от уеб страници.
  • Mind Mapping: Създаване на визуални представяния на идеи и концепции.
  • Academic Research: Подпомагане на изследователски задачи в различни дисциплини.
  • Business and Franchise Information Search: Предоставяне на релевантна информация за бизнес запитвания.

ERNIE X1: Сравнителен анализ спрямо конкуренцията

Въпреки че Baidu не е публикувал конкретни резултати от бенчмарк тестове или подробни оценки за ERNIE X1, компанията твърди, че производителността на модела е “наравно с” DeepSeek R1, като същевременно се предлага на “само половината от цената”. Понастоящем Baidu не е предоставил сравнения с други модели за разсъждение на пазара. Тази липса на подробни сравнителни данни затруднява пълната оценка на конкурентната позиция на ERNIE X1, но твърдението за сравнима производителност на по-ниска цена със сигурност е забележително.

ERNIE 4.5: Възприемане на Native Multimodal Capabilities

ERNIE 4.5 е представен от Baidu като “native multimodal model”. Това означава, че той е проектиран да интегрира безпроблемно и да разбира различни форми на медия – текст, изображения, аудио и видео – в рамките на единна рамка. За разлика от много AI системи, които обработват различни типове медии поотделно, ERNIE 4.5 е проектиран да комбинира тези модалности и дори да конвертира между тях (например текст към аудио и обратно).

Baidu подчертава, че ERNIE 4.5 “постига съвместна оптимизация чрез съвместно моделиране на множество модалности, демонстрирайки изключителни мултимодални възможности за разбиране”. Това предполага сложен подход, при който моделът се научава да разбира и свързва информация в различни типове медии.

В допълнение към своята мултимодална мощ, ERNIE 4.5 може да се похвали с “усъвършенствани езикови умения”, подобрявайки своите възможности за разбиране и генериране, както и своите логически разсъждения, памет и способности за кодиране. Baidu също така подчертава “силната интелигентност” и “контекстуалната осведоменост” на модела, особено способността му да разпознава нюансирано съдържание като интернет мемета и сатирични карикатури. Това показва фокус върху разбирането не само на буквалното значение на съдържанието, но и на неговия културен и социален контекст.

Освен това Baidu твърди, че ERNIE 4.5 е по-малко податлив на “халюцинации” – често срещан проблем в AI, при който моделите генерират невярна или подвеждаща информация, която може да изглежда правдоподобна на пръв поглед. Това е решаващо подобрение, тъй като халюцинациите могат да подкопаят надеждността и достоверността на AI системите.

Baidu приписва тези постижения на няколко ключови технологии, включително:

  • Spatiotemporal Representation Compression: Това вероятно се отнася до техники за ефективно представяне и обработка на информация, която се променя с течение на времето и пространството, като например видео съдържание.
  • Knowledge-Centric Training Data Construction: Това предполага фокус върху изграждането на набори от данни за обучение, които са богати на фактологични знания.
  • Self-Feedback Enhanced Post-Training: Това предполага механизъм, при който моделът може да се учи от собствените си резултати и да подобрява производителността си с течение на времето.
  • Heterogeneous Multimodal Mixture-of-Experts (MoE): Този подход използва по-малки, специализирани “експертни” модели, които се активират само когато е необходимо. Това оптимизира производителността и намалява изчислителните разходи. MoE моделите често са по-малки и по-рентабилни от традиционните модели, базирани на трансформатори, но въпреки това могат да постигнат сравнима или дори по-добра производителност, което ги прави привлекателна опция за AI разработка.

Гледайки напред, докладите сочат, че Baidu планира да пусне ERNIE 5 по-късно през 2025 г., обещавайки “големи подобрения” в своите мултимодални възможности. Това предполага постоянен ангажимент за разширяване на границите на мултимодалния AI.

ERNIE 4.5: Сравнителен анализ

Baidu директно сравнява мултимодалните възможности на ERNIE 4.5 с GPT-4o на OpenAI. Компанията твърди, че ERNIE 4.5 превъзхожда GPT-4o в почти всеки бенчмарк, с изключение на MMU (Massive Multi-discipline Understanding). MMU оценява моделите на широк спектър от задачи на ниво колеж, които изискват задълбочени познания по предмета и обмислено разсъждение. Това предполага, че докато ERNIE 4.5 се отличава в много области, GPT-4o може все още да има предимство в задачи, изискващи специализирани академични познания.

Baidu също така представя резултати от бенчмарк тестове, показващи, че ERNIE 4.5 превъзхожда GPT-4o и GPT-4.5 на OpenAI, както и DeepSeek’s V3, в няколко други области, включително:

  • C-Eval: Този бенчмарк оценява напреднали знания и способности за разсъждение в различни дисциплини, от хуманитарните науки до науката и инженерството. Силното представяне на ERNIE 4.5 тук предполага широко разбиране на различни теми.
  • CMMLU: Този бенчмарк оценява знанията и способностите за разсъждение в специфичния контекст на китайския език и култура. Успехът на ERNIE 4.5 тук подчертава неговата компетентност в тази област.
  • GSM8K: Този бенчмарк оценява разсъжденията в няколко стъпки, използвайки математически задачи от началното училище. Производителността на ERNIE 4.5 показва силни възможности за математическо разсъждение.
  • DROP: Този бенчмарк измерва способностите за четене с разбиране на LLM. Резултатите на ERNIE 4.5 предполагат високо ниво на разбиране на текста.

Важно е да се признае обаче, че много от бенчмарковете, при които ERNIE 4.5 демонстрира превъзходно представяне, са били специално фокусирани върху китайския език и култура. Това може частично да обясни защо GPT-4o и GPT-4.5, модели, разработени от американска компания, не са се представили толкова добре. Независимо от това, ERNIE 4.5 също така превъзхожда DeepSeek-V3, модел, разработен от китайска компания, на много от тези бенчмаркове, което показва истинско конкурентно предимство в китайския контекст.

Обратно, ERNIE 4.5 се съобщава, че не се е представил толкова добре на някои други бенчмаркове, включително:

  • MMLU-Pro: Този бенчмарк оценява разбирането на езика в по-широк и по-предизвикателен набор от задачи. GPT-4.5 превъзхожда ERNIE 4.5 тук, което предполага потенциално предимство в общото разбиране на езика.
  • GPQA: Този бенчмарк се състои от набор от данни с въпроси с избираем отговор, написани от експерти по биология, физика и химия. GPT-4.5 отново превъзхожда ERNIE 4.5, което показва по-силно разбиране на специализираните научни познания.
  • Math-500: Този бенчмарк тества способността за решаване на предизвикателни математически задачи на ниво гимназия. Както DeepSeek-V3, така и GPT-4.5 превъзхождат ERNIE 4.5, което предполага необходимост от по-нататъшно подобрение в напредналите математически разсъждения.
  • LiveCodeBench: Този бенчмарк измерва възможностите за кодиране. GPT-4.5 превъзхожда ERNIE 4.5, което показва потенциално предимство в генерирането и разбирането на код.

Въпреки превъзходното представяне на GPT-4.5 на някои бенчмаркове, Baidu подчертава, че ERNIE 4.5 е на цена само 1% от модела на OpenAI. Тази значителна разлика в цената може да направи ERNIE 4.5 изключително привлекателна опция за фирми и разработчици, търсещи рентабилно мултимодално AI решение.

Достъп до ERNIE X1 и ERNIE 4.5

ERNIE 4.5 понастоящем е достъпен чрез своя API и на платформата MaaS (Model-as-a-Service) на Baidu AI Cloud, Qianfan. Цените за вход започват от 0.004 RMB на хиляда токена, а цените за изход започват от 0.016 RMB на хиляда токена. Baidu заявява, че ERNIE X1 ще бъде достъпен на платформата “скоро”, като цените за вход започват от 0.002 RMB на хиляда токена, а цените за изход започват от 0.008 RMB на хиляда токена.

Потребителите могат също така да взаимодействат с двата модела чрез чатбота на Baidu, ERNIE Bot, осигурявайки удобен и лесен за използване интерфейс за изследване на техните възможности.

Конкретната ценова структура и подробностите за наличността подчертават ангажимента на Baidu да направи тези усъвършенствани AI модели достъпни за широк кръг от потребители, от отделни разработчици до големи предприятия. Конкурентните цени, особено за ERNIE X1, позиционират Baidu като силен претендент на световния AI пазар, предлагайки убедителна алтернатива на моделите от американските технологични гиганти.