百度发布ERNIE X1和4.5:AI领域新挑战者

百度,作为中国科技领域的领军企业,推出了其 ERNIE (Enhanced Representation through Knowledge Integration) 基础模型的两个重要更新。这两个新版本,ERNIE X1ERNIE 4.5,代表了百度对日益激烈的全球 AI 竞争格局,特别是中美两国公司所取得的进步的战略回应。这些模型不仅仅是渐进式的升级;它们旨在与一些最先进的 AI 系统正面竞争,据百度称,它们的能力可以与竞争对手相媲美甚至超越。用户可以通过 ERNIE Bot 聊天机器人访问这两个模型,百度计划将其逐步整合到更广泛的产品范围中,包括其旗舰产品百度搜索。

此次发布的时机至关重要。生成式 AI 领域正经历着快速创新和激烈竞争的时期,特别关注中国和美国之间的动态。DeepSeek,一家中国 AI 初创公司,在 2025 年初凭借 R1 引起了业界的关注,R1 是一款开源推理模型,据报道,它以显著降低的成本超越了领先的 AI 模型。这一举动使 DeepSeek 在中国和美国的竞争对手(包括百度)中脱颖而出。然而,百度是最早推出 ChatGPT 竞争对手 ERNIE Bot 的中国公司之一。

ERNIE X1 和 ERNIE 4.5:深入了解百度的新模型

ERNIE X1 和 ERNIE 4.5 虽然都是由百度开发的,但却是为不同应用量身定制的不同基础模型:

  • ERNIE X1: 该模型被定位为高效推理引擎,直接挑战 DeepSeek R1 和 OpenAI 的 o3 mini 等模型。它专为需要复杂逻辑处理和多步骤问题解决的任务而设计。

  • ERNIE 4.5: 该模型是一个大型多模态 AI,能够处理和理解各种形式的媒体——文本、图像、音频和视频。它与 GPT-4o 和 Google 的 Gemini 等模型竞争。

DeepSeek 的 R1 的出现促使 Google、OpenAI、Anthropic 和 xAI 等主要 AI 参与者的优先事项发生了转变。这些公司开始关注效率和可负担性,以及原始模型规模。百度推出 ERNIE X1,尤其表明其进入了这场全球 AI 竞赛,提供了与 R1 和其他模型相当的性能,而且可能以更具竞争力的价格。

百度强调,2025 年是大型语言模型和相关技术发展的关键一年。该公司的新闻稿强调了其对人工智能、数据中心和云基础设施的持续投资承诺,旨在进一步增强其 AI 能力并开发更强大的下一代模型。

ERNIE X1:深入研究深度思考推理

ERNIE X1 是一种专门为“深度思考推理”设计的语言模型。这使它区别于擅长生成快速、基于模式的响应的传统语言模型。相比之下,推理模型旨在将复杂问题分解为一系列逻辑步骤。它们评估各种潜在的解决方案并在提出最终输出之前完善他们的答案。这使得它们特别适合涉及多步骤规划、逻辑推理和复杂问题解决的任务。

百度将 ERNIE X1 的推理能力归功于几项先进技术,包括:

  • 渐进式强化学习 (Progressive Reinforcement Learning): 这表明一个迭代学习过程,模型通过反馈不断提高其性能。
  • 端到端训练 (End-to-End Training): 这意味着一种整体训练方法,其中整个模型同时优化,而不是分阶段进行。
  • 思维链和行动链 (Chains of Thought and Action): 这种技术可能使模型能够遵循一系列逻辑步骤,模仿人类的思维过程。
  • 统一的多方面奖励系统 (Unified Multi-faceted Reward System): 这表明一个复杂的系统,用于评估和奖励模型在推理各个方面的表现。

虽然百度尚未披露详尽的技术细节,但这些方法表明了对迭代学习、上下文理解和结构化推理的关注——这些优势也是其他成功推理模型的特征。

在实际应用中,百度声称 ERNIE X1 表现出“在理解、规划、反思和进化方面的增强能力”。该公司强调其在以下领域的熟练程度:

  • 文学创作: 生成创意文本格式。
  • 文稿撰写: 协助起草较长的文档。
  • 对话: 进行自然和连贯的对话。
  • 逻辑推理: 解决需要逻辑推理的问题。
  • 复杂计算: 执行复杂的数学运算。
  • “中国知识”: 这种未指定的能力可能指的是对中国语言、文化和背景的深刻理解。

因此,ERNIE X1 预计将支持各种应用,包括:

  • 搜索引擎: 通过更细致的理解增强搜索结果。
  • 文档摘要和问答: 提供简明摘要和对问题的准确回答。
  • 图像理解和生成: 解释和创建视觉内容。
  • 代码解释: 分析和理解编程代码。
  • 网页分析: 从网页中提取关键信息。
  • 思维导图: 创建思想和概念的可视化表示。
  • 学术研究: 协助各个学科的研究任务。
  • 商业和特许经营信息搜索: 为商业查询提供相关信息。

ERNIE X1:与竞争对手的基准测试

虽然百度尚未发布 ERNIE X1 的具体基准分数或详细评估,但它断言该模型的性能“与”DeepSeek R1“相当”,而提供的价格“仅为其一半”。目前,百度尚未提供与市场上其他推理模型的比较。缺乏详细的比较数据使得难以全面评估 ERNIE X1 的竞争地位,但以较低成本获得可比性能的说法当然值得注意。

ERNIE 4.5:拥抱原生多模态能力

百度将 ERNIE 4.5 呈现为“原生多模态模型”。这意味着它旨在在统一的框架内无缝集成和理解各种形式的媒体——文本、图像、音频和视频。与许多分别处理不同媒体类型的 AI 系统不同,ERNIE 4.5 旨在组合这些模态,甚至在它们之间进行转换(例如,文本到音频,反之亦然)。

百度强调,ERNIE 4.5“通过多模态联合建模实现协同优化,展现出卓越的多模态理解能力”。这表明一种复杂的方法,模型学习理解和关联不同媒体类型的信息。

除了多模态能力外,ERNIE 4.5 还拥有“精细的语言技能”,增强了其理解和生成能力,以及逻辑推理、记忆和编码能力。百度还强调了该模型的“强大智能”和“上下文感知”,特别是它识别细微内容的能力,例如网络迷因和讽刺漫画。这表明不仅要关注内容的字面意义,还要关注其文化和社会背景。

此外,百度声称 ERNIE 4.5 不太容易出现“幻觉”——这是 AI 中的一个常见问题,模型会生成虚假或误导性信息,这些信息乍一看似乎是合理的。这是一个至关重要的改进,因为幻觉会破坏 AI 系统的可靠性和可信度。

百度将这些进步归功于几项关键技术,包括:

  • 时空表示压缩 (Spatiotemporal Representation Compression): 这可能指的是有效表示和处理随时间和空间变化的信息(例如视频内容)的技术。
  • 以知识为中心的训练数据构建 (Knowledge-Centric Training Data Construction): 这表明专注于构建富含事实知识的训练数据集。
  • 自反馈增强后训练 (Self-Feedback Enhanced Post-Training): 这意味着一种机制,模型可以从自己的输出中学习并随着时间的推移提高其性能。
  • 异构多模态混合专家 (Heterogeneous Multimodal Mixture-of-Experts, MoE): 这种方法利用较小的、专门的“专家”模型,这些模型仅在需要时才被激活。这优化了性能并降低了计算成本。MoE 模型通常比传统的基于 transformer 的模型更小、更具成本效益,但它们可以实现相当甚至更好的性能,这使得它们成为 AI 开发的一个有吸引力的选择。

展望未来,报告表明百度计划在 2025 年晚些时候发布 ERNIE 5,承诺在其多模态能力方面进行“重大增强”。这表明了对推动多模态 AI 边界的持续承诺。

ERNIE 4.5:比较分析

百度已将 ERNIE 4.5 的多模态能力与 OpenAI 的 GPT-4o 进行了直接比较。该公司声称 ERNIE 4.5 在几乎所有基准测试中都优于 GPT-4o,除了 MMU (Massive Multi-discipline Understanding)。MMU 评估模型在需要深入学科知识和深思熟虑的推理的各种大学水平任务中的表现。这表明,虽然 ERNIE 4.5 在许多领域表现出色,但 GPT-4o 在需要专业学术知识的任务中可能仍然具有优势。

百度还提供了基准测试结果,表明 ERNIE 4.5 在其他几个领域也优于 OpenAI 的 GPT-4o 和 GPT-4.5,以及 DeepSeek 的 V3,包括:

  • C-Eval: 该基准测试评估跨各种学科(从人文科学到科学和工程)的高级知识和推理能力。ERNIE 4.5 在此处的强劲表现表明对不同学科的广泛理解。
  • CMMLU: 该基准测试评估在中国语言和文化特定背景下的知识和推理能力。ERNIE 4.5 在此处的成功突出了其在该领域的熟练程度。
  • GSM8K: 该基准测试使用小学数学问题评估多步推理。ERNIE 4.5 的性能表明其在数学推理方面具有很强的能力。
  • DROP: 该基准测试衡量 LLM 的阅读理解能力。ERNIE 4.5 的结果表明其具有高水平的文本理解能力。

然而,重要的是要承认,ERNIE 4.5 表现出卓越性能的许多基准测试都特别关注中国语言和文化。这可能部分解释了为什么由美国公司开发的模型 GPT-4o 和 GPT-4.5 表现不佳。尽管如此,ERNIE 4.5 在许多这些基准测试中也优于由中国公司开发的模型 DeepSeek-V3,这表明在中国背景下具有真正的竞争优势。

相反,据报道,ERNIE 4.5 在某些其他基准测试中表现不佳,包括:

  • MMLU-Pro: 该基准测试评估更广泛和更具挑战性的一组任务中的语言理解能力。GPT-4.5 在这里优于 ERNIE 4.5,表明在一般语言理解方面具有潜在优势。
  • GPQA: 该基准测试包含由生物学、物理学和化学专家编写的多项选择题数据集。GPT-4.5 再次优于 ERNIE 4.5,表明其对专业科学知识的掌握更强。
  • Math-500: 该基准测试测试解决具有挑战性的高中水平数学问题的能力。DeepSeek-V3 和 GPT-4.5 都优于 ERNIE 4.5,表明需要进一步改进高级数学推理。
  • LiveCodeBench: 该基准测试衡量编码能力。GPT-4.5 优于 ERNIE 4.5,表明在代码生成和理解方面具有潜在优势。

尽管 GPT-4.5 在某些基准测试中表现出色,但百度强调 ERNIE 4.5 的价格仅为 OpenAI 模型的 1%。这种巨大的成本差异可能使 ERNIE 4.5 成为寻求经济高效的多模态 AI 解决方案的企业和开发人员极具吸引力的选择。

访问 ERNIE X1 和 ERNIE 4.5

ERNIE 4.5 目前可通过其 API 和百度 AI Cloud 的 MaaS (Model-as-a-Service) 平台 Qianfan 访问。输入价格从每千个 token 人民币 0.004 元起,输出价格从每千个 token 人民币 0.016 元起。百度表示 ERNIE X1 将“很快”在该平台上可用,输入价格从每千个 token 人民币 0.002 元起,输出价格从每千个 token 人民币 0.008 元起。

用户还可以通过百度的聊天机器人 ERNIE Bot 与这两个模型进行交互,提供一个方便且用户友好的界面来探索它们的功能。

具体的定价结构和可用性细节突出了百度致力于使这些先进的 AI 模型可供广泛用户访问的承诺,从个人开发人员到大型企业。具有竞争力的定价,特别是 ERNIE X1,使百度成为全球 AI 市场的有力竞争者,为美国科技巨头的模型提供了一个引人注目的替代方案。