百度发布ERNIE 4.5与X1,公众免费使用

ERNIE 4.5:新一代多模态基础模型

百度公司推出了其最新的人工智能成果,发布了原生多模态基础模型 ERNIE 4.5 和深度思考推理模型 ERNIE X1。这些模型代表了人工智能能力的重大飞跃,为了让更多人可以使用这些尖端技术,百度已通过 ERNIE Bot 官方网站向个人用户免费提供这两种模型。这一举措早于原计划的 4 月 1 日,突显了百度不仅致力于推动人工智能研究的边界,还致力于让更广泛的受众可以使用这些强大的工具。

ERNIE 4.5 是百度最新自主研发的原生多模态基础模型。该模型旨在通过联合建模多种模态来实现协同优化。这种创新方法带来了卓越的多模态理解能力。ERNIE 4.5 的独特之处在于其精细的语言技能,以及在理解、生成、推理和记忆方面的整体增强。此外,它在人工智能模型通常具有挑战性的领域(包括幻觉预防、逻辑推理和编码能力)表现出显著的改进。

ERNIE 4.5 的多模态特性体现在其能够无缝集成和理解各种类型的内容,包括:

  • 文本: 处理和理解书面信息。
  • 图像: 解释和分析视觉内容。
  • 音频: 理解和响应口语。
  • 视频: 分析和理解动态的视觉和听觉信息。

这种全面的多模态能力使 ERNIE 4.5 能够处理各种任务,从回答复杂问题到生成创意内容。

除了其核心的多模态功能外,ERNIE 4.5 还展示了卓越的智能和上下文感知能力。它毫不费力地理解当代互联网文化,包括表情包和讽刺漫画,展示了其适应不断变化的语言和沟通方式的能力。

作为百度的旗舰基础模型和原生多模态产品,ERNIE 4.5 在各种基准测试中都有望超越 GPT-4.5。值得注意的是,它仅以 GPT-4.5 成本的一小部分(大约 1%)实现了这种卓越的性能。这种成本效益,加上其先进的功能,使 ERNIE 4.5 成为人工智能领域中极具竞争力和可访问性的选择。

ERNIE 4.5 能力的显著增强是几项关键技术突破的直接结果:

  • ‘FlashMask’ 动态注意力掩码: 这种技术可能允许模型动态地关注输入数据中最相关的部分,从而提高效率和准确性。
  • 异构多模态专家混合 (Mixture-of-Experts): 这表明 ERNIE 4.5 利用了一组不同的专业子模型,每个子模型都针对不同的模态或任务进行了优化,然后将它们组合起来以实现卓越的整体性能。
  • 时空表示压缩: 这意味着该模型采用先进的技术来压缩和有效地表示随时间和空间变化的数据,例如视频内容。
  • 以知识为中心的训练数据构建: 这表明 ERNIE 4.5 的训练数据经过精心策划和构建,以强调知识获取和表示,从而提高推理能力。
  • 自我反馈增强的后训练: 这表明该模型在初始训练后会经历一个细化过程,在该过程中,它会从自己的输出中学习并迭代地提高其性能。

这些技术进步共同促成了 ERNIE 4.5 令人印象深刻的性能和多功能性。

ERNIE X1:增强人工智能能力的深度思考推理模型

ERNIE X1 代表了一种不同的人工智能方法,专注于深度思考和推理能力。该模型旨在擅长需要高级认知功能的任务,例如:

  • 理解: 理解复杂的信息和概念。
  • 规划: 制定策略和行动顺序以实现目标。
  • 反思: 评估自己的推理过程并确定需要改进的领域。
  • 进化: 从新信息和经验中适应和学习。

作为百度首个具有工具使用能力的多模态深度思考推理模型,ERNIE X1 在几个关键领域表现出特别的优势:

  • 中文知识问答: 基于庞大的中文和文化知识库回答问题。
  • 文学创作: 生成创意文本格式,例如诗歌、剧本或文章。
  • 文稿写作: 协助起草和撰写较长篇幅的书面内容。
  • 对话: 进行自然且连贯的对话。
  • 逻辑推理: 解决需要演绎和归纳推理的问题。
  • 复杂计算: 执行复杂的数学计算。

ERNIE X1 使用工具的能力是一个重要的区别。它可以利用各种工具来增强其性能并提供更全面的解决方案。这些工具包括:

  • 高级搜索: 从搜索引擎访问和检索信息。
  • 给定文档问答: 根据特定文档的内容回答问题。
  • 图像理解: 分析和解释视觉信息。
  • AI 图像生成: 根据文本描述创建新图像。
  • 代码解释: 理解和执行计算机代码。
  • 网页阅读: 从网页中提取信息。
  • TreeMind 思维导图: 创建和操作思维导图。
  • 百度学术搜索: 从百度的学术搜索引擎访问和检索信息。
  • 商业信息搜索: 收集有关企业和组织的信息。
  • 特许经营信息搜索: 检索与特许经营机会相关的信息。

这种工具使用的集成使 ERNIE X1 能够解决复杂的、现实世界的问题,这些问题需要从多个来源访问和处理信息。

ERNIE X1 增强的能力得到了几项关键技术进步的支持:

  • 渐进式强化学习方法: 这种方法可能涉及通过一系列越来越具有挑战性的任务来训练模型,使其能够逐渐提高其性能。
  • 集成思维链和行动的端到端训练方法: 这表明该模型不仅被训练来生成输出,而且还被训练来推理达到这些输出所涉及的步骤,从而产生更易于解释和更可靠的结果。
  • 统一的多方面奖励系统: 这意味着该模型因实现各种目标而获得奖励,鼓励它发展广泛的技能和能力。

这些技术有助于 ERNIE X1 执行复杂推理任务并有效地与其环境交互。

访问和集成:将 ERNIE 4.5 和 X1 带给用户

百度致力于可访问性,这体现在其决定通过 ERNIE Bot 网站向个人用户免费提供 ERNIE 4.5 和 ERNIE X1。此举使广大受众可以亲身体验这些先进人工智能模型的力量。

对于企业用户和开发人员,可以通过百度智能云的 MaaS 平台千帆 (Qianfan) 上的 API 访问 ERNIE 4.5。该平台提供了一个强大且可扩展的基础设施,用于将 ERNIE 4.5 的功能集成到各种应用程序中。千帆上 ERNIE 4.5 的定价极具竞争力,输入价格低至每千个 tokens 人民币 0.004 元,输出价格为每千个 tokens 人民币 0.016 元。ERNIE X1 计划很快在千帆平台上推出,进一步扩展企业用户的选择。

百度还计划逐步将 ERNIE 4.5 和 X1 集成到其更广泛的产品生态系统中。这种集成将涵盖各种百度产品,包括:

  • 百度搜索: 通过先进的人工智能功能增强搜索体验。
  • 文心一言 App: 将模型集成到百度流行的写作助手应用程序中。
  • 其他产品: 将 ERNIE 4.5 和 X1 的覆盖范围扩展到其他百度产品和服务。

这种广泛的集成将确保这些先进人工智能模型的好处在广泛的用户体验中得到体现。

这些进步代表了人工智能领域向前迈出的重要一步。通过专注于多模态理解和深度思考推理,百度创建了两个强大的模型,解决了人工智能能力的不同方面。通过免费的公共访问和对企业用户的具有竞争力的定价,对可访问性的承诺确保了这些进步将产生广泛的影响。将这些模型集成到百度的产品生态系统中,进一步巩固了它们作为公司人工智能战略关键组成部分的地位。对人工智能、数据中心和云基础设施的持续投资突显了百度致力于推进人工智能能力并在未来开发更智能、更强大的下一代模型。