阿里巴巴推出开源LLM Qwen3

阿里巴巴推出了 Qwen3,这是其最新的开源大型语言模型 (LLM),为人工智能创新树立了新的基准。这一系列的 LLM 为开发者提供了前所未有的灵活性,使他们能够在各种设备上部署下一代 AI。从智能手机和智能眼镜到自动驾驶汽车和机器人,Qwen3 有望彻底改变 AI 集成到我们日常生活中的方式。

Qwen3 系列:模型深入剖析

Qwen3 系列包括六个密集模型和两个混合专家 (MoE) 模型。这些模型满足了广泛的计算需求和应用场景。参数范围从 0.6B 到 32B 的密集模型,在性能和效率之间实现了平衡。参数分别为 30B(3B 活跃)和 235B(22B 活跃)的 MoE 模型,为复杂任务提供了增强的功能。这种多样化的选择使开发者可以选择最适合其特定要求的模型。

密集模型:Qwen3 的主力军

Qwen3 系列中的密集模型专为通用 AI 任务而设计。它们擅长语言理解、生成和翻译。0.6B 和 1.7B 参数模型非常适合资源受限的设备,例如智能手机和可穿戴设备。4B、8B、14B 和 32B 模型提供越来越复杂的功能,适用于要求更高的应用程序。

MoE 模型:释放高级 AI 功能

Qwen3 中的 MoE 模型专为复杂的推理和问题解决任务而设计。它们利用混合专家架构,其中模型的不同部分专门研究任务的不同方面。这使得模型能够以更高的效率和准确性处理复杂的问题。30B(3B 活跃)模型在性能和计算成本之间实现了平衡,而 235B(22B 活跃)模型为最具挑战性的 AI 任务提供了最先进的功能。

混合推理:一种新颖的 AI 方法

Qwen3 标志着阿里巴巴进入混合推理模型领域,将传统 LLM 功能与高级动态推理相结合。这种创新方法使模型能够在复杂任务的不同思维模式之间无缝过渡。它可以根据手头任务的特定要求动态调整其推理过程,从而获得更准确和高效的解决方案。

传统 LLM 功能

Qwen3 保留了传统 LLM 的核心功能,例如语言理解、生成和翻译。它可以处理和生成多种语言的文本,回答问题,总结文档以及执行其他常见的 NLP 任务。这些功能构成了 Qwen3 混合推理方法的基础。

动态推理:适应复杂性

Qwen3 的动态推理组件允许模型根据任务的复杂性调整其推理过程。对于简单的任务,它可以依靠其预先训练的知识并执行直接推理。对于更复杂的任务,它可以参与更复杂的推理过程,例如计划、问题分解和假设检验。这种适应性使 Qwen3 能够应对各种 AI 挑战。

Qwen3 的主要优势

Qwen3 系列比现有的开源 LLM 具有几个关键优势。这些包括多语言支持、原生模型上下文协议 (MCP) 支持、可靠的函数调用以及在各种基准测试中表现出色。

多语言支持:打破语言障碍

Qwen3 支持 119 种语言和方言,使其成为可用的最多语言的开源 LLM 之一。这种广泛的语言支持使开发者能够构建可以满足全球受众需求的 AI 应用程序。它可以理解和生成各种语言的文本,使其成为机器翻译、多语言聊天机器人和全球内容创建等应用程序的理想选择。

原生 MCP 支持:增强 Agent AI 功能

Qwen3 具有对模型上下文协议 (MCP) 的原生支持,从而实现更强大和可靠的函数调用。这对于 Agent AI 应用程序尤其重要,在这些应用程序中,AI 系统需要与外部工具和服务交互以完成任务。MCP 提供了一种标准化的方式,使 AI 模型可以与这些工具进行通信,从而确保无缝集成和可靠的性能。

函数调用:与外部工具无缝集成

Qwen3 的可靠函数调用功能使其可以与外部工具和服务无缝集成。这使开发者能够构建 AI Agent,通过利用各种外部系统的功能来执行复杂的任务。例如,AI Agent 可以使用函数调用来访问天气 API,从数据库中检索信息或控制机器人手臂。

卓越的性能:超越以前的模型

Qwen3 在数学、编码和逻辑推理的基准测试中超越了以前的 Qwen 模型。它还在生成创意写作、角色扮演和进行听起来自然的对话方面表现出色。这些改进使 Qwen3 成为各种 AI 应用程序的强大工具。

Qwen3 面向开发者:赋能创新

Qwen3 为开发者提供了对推理时长的细粒度控制,最多可达 38,000 个 Token,从而可以在智能性能和计算效率之间实现最佳平衡。这种灵活性使开发者能够根据特定的应用程序要求定制模型的行为。

推理时长控制:优化性能

控制推理时长的能力使开发者能够针对不同的任务优化 Qwen3 的性能。对于需要更深入推理的任务,开发者可以增加推理时长,以使模型可以探索更多的可能性。对于需要更快响应的任务,开发者可以减少推理时长以减少延迟。

Token 限制:平衡准确性和效率

38,000 个 Token 的限制在准确性和效率之间实现了平衡。它允许模型在做出决策时考虑大量的上下文,同时仍保持合理的计算成本。这使得 Qwen3 适用于各种应用程序,从长篇文本生成到复杂的问题解决。

具有成本效益的 Qwen3-235B-A22B 部署

与其它最先进的模型相比,MoE 模型 Qwen3-235B-A22B 显著降低了部署成本。它在 36 万亿 Token 的海量数据集上进行训练,是其前身 Qwen2.5 的两倍,以极低的成本提供了卓越的性能。

降低部署成本:普及 AI

Qwen3-235B-A22B 的较低部署成本使其更容易被资源有限的开发者和组织所接受。这普及了 AI 创新,使更广泛的个人和团体能够构建和部署高级 AI 应用程序。

海量训练数据集:提升性能

36 万亿 Token 的海量训练数据集使 Qwen3-235B-A22B 能够学习语言数据中更复杂的模式和关系。这提高了各种 AI 任务的性能。

行业基准成就

阿里巴巴的最新模型在各种行业基准测试中取得了出色的成绩,包括 AIME25(数学推理)、LiveCodeBench(编码能力)、BFCL(工具使用和函数处理)和 Arena-Hard(用于指导LLM的基准)。这些成就证明了 Qwen3 在 AI 关键领域中的卓越能力。

AIME25:掌握数学推理

AIME25 基准测试评估模型解决复杂数学问题的能力。 Qwen3 在此基准测试中的出色表现突显了其逻辑推理以及应用数学概念来解决实际问题的能力。

LiveCodeBench:擅长编码任务

LiveCodeBench 基准测试评估模型生成和理解代码的能力。 Qwen3 在此基准测试中的出色表现证明了它精通编程语言并且能够帮助开发者完成编码任务。

BFCL:精通工具使用和函数处理

BFCL 基准测试衡量模型使用外部工具和处理函数的能力。 Qwen3 在此基准测试中的出色表现突显了它与外部系统集成以及通过利用各种工具的功能来执行复杂任务的能力。

Arena-Hard:在指令遵循方面处于领先地位

Arena-Hard 基准测试评估模型遵循复杂指令的能力。 Qwen3 在此基准测试中的出色表现证明了它能够理解和执行详细指令,使其成为需要精确控制和协调的应用程序的理想选择。

训练过程:一个四阶段的方法

为了开发这种混合推理模型,阿里巴巴采用了四阶段的训练过程,包括长链思维 (CoT) 冷启动、基于推理的强化学习 (RL)、思维模式融合和通用强化学习。

长链思维 (CoT) 冷启动:构建基础

长链思维 (CoT) 冷启动阶段涉及训练模型为其推理过程生成详细的解释。这有助于模型更深入地了解问题并确定解决问题所需的关键步骤。

基于推理的强化学习 (RL):完善推理过程

基于推理的强化学习 (RL) 阶段涉及训练模型通过试错来改进其推理过程。模型因生成正确的答案而获得奖励,因生成不正确的答案而受到惩罚。这有助于模型学习哪种推理策略最有效。

思维模式融合:结合不同的方法

思维模式融合阶段涉及结合不同的推理方法来创建混合推理模型。这使模型能够利用不同方法的优势来解决复杂的问题。

通用强化学习:优化整体性能

通用强化学习阶段涉及训练模型以优化其在各种任务中的整体性能。这有助于模型概括其知识并适应新的和未见过的情况。

可用性和访问

Qwen3 现已通过 Hugging Face、GitHub 和 ModelScope 免费下载。也可以通过 chat.qwen.ai 直接访问它。API 访问将很快通过阿里巴巴的 AI 模型开发平台 Model Studio 提供。此外,Qwen3 还是阿里巴巴旗舰 AI 超级助手应用程序 Quark 背后的核心技术。

Hugging Face、GitHub 和 ModelScope:开放获取创新

Qwen3 在 Hugging Face、GitHub 和 ModelScope 上的可用性为世界各地的开发者和研究人员提供了对模型的开放访问权限。这促进了 AI 领域的协作并加速了创新。

chat.qwen.ai:与 Qwen3 直接互动

chat.qwen.ai 平台允许用户直接与 Qwen3 互动,从而提供模型功能的实践经验。这使开发者可以在将模型集成到自己的应用程序之前对其进行测试和评估。

Model Studio:简化的 AI 开发

即将通过阿里巴巴 Model Studio 平台提供的 API 访问将为开发者提供一个简化的环境,用于构建和部署由 Qwen3 提供支持的 AI 应用程序。这将进一步加速 Qwen3 的采用及其集成到更广泛的产品和服务中。

Quark:为阿里巴巴的 AI 超级助手提供支持

Qwen3 作为阿里巴巴旗舰 AI 超级助手应用程序 Quark 背后的核心技术的集成,证明了该公司致力于利用 AI 来增强其产品和服务。这种集成将为用户提供更智能和更直观的体验,并由 Qwen3 的高级功能提供支持。