赋能创新Phi家族新一代模型

Phi-4-Multimodal:多模态人工智能的统一方法

Phi-4-multimodal 是微软在多模态语言模型领域的首次尝试。这款开创性的模型拥有 56 亿个参数,将语音、视觉和文本的处理无缝集成到一个统一的架构中。这种创新方法直接源于宝贵的客户反馈,体现了微软对持续改进和响应用户需求的承诺。

Phi-4-multimodal 的开发利用了先进的跨模态学习技术。这使得该模型能够促进更自然、更具上下文感知能力的交互。配备 Phi-4-multimodal 的设备可以同时理解和推理各种输入模态。它擅长解释口语、分析图像和处理文本信息。此外,它还提供高效、低延迟的推理,同时针对设备端执行进行了优化,从而最大限度地减少了计算开销。

Phi-4-multimodal 的一个显著特征是其统一的架构。与依赖复杂流程或不同模态的独立模型的传统方法不同,Phi-4-multimodal 作为一个单一实体运行。它在相同的表示空间内熟练地处理文本、音频和视觉输入。这种精简的设计提高了效率并简化了开发过程。

Phi-4-multimodal 的架构包含多项增强功能,以提高其性能和多功能性。这些包括:

  • 更大的词汇表: 促进改进的处理能力。
  • 多语言支持: 扩展了模型在不同语言环境中的适用性。
  • 集成语言推理: 将语言理解与多模态输入相结合。

这些进步是在一个紧凑且高效的模型中实现的,非常适合部署在设备和边缘计算平台上。Phi-4-multimodal 扩展的功能和适应性为寻求以创新方式利用人工智能的应用程序开发人员、企业和行业开启了多种可能性。

在语音相关任务领域,Phi-4-multimodal 表现出了卓越的能力,成为开放模型中的领跑者。值得注意的是,它在自动语音识别 (ASR) 和语音翻译 (ST) 方面都超越了 WhisperV3 和 SeamlessM4T-v2-Large 等专用模型。它在 HuggingFace OpenASR 排行榜上名列前茅,实现了 6.14% 的惊人单词错误率,优于之前的最佳成绩 6.5%(截至 2025 年 2 月)。此外,它是少数几个能够成功实现语音摘要的开放模型之一,其性能水平可与 GPT-4o 模型相媲美。

虽然与 Gemini-2.0-Flash 和 GPT-4o-realtime-preview 等模型相比,Phi-4-multimodal 在语音问答 (QA) 任务中表现出轻微差距,这主要是由于其较小的规模和由此导致的保留事实性 QA 知识的局限性,但目前的工作重点是在未来的迭代中增强此功能。

除了语音之外,Phi-4-multimodal 在各种基准测试中展示了卓越的视觉能力。它在数学和科学推理方面表现尤为出色。尽管其体积小巧,但该模型在一般多模态任务中仍保持着具有竞争力的性能,包括:

  • 文档和图表理解
  • 光学字符识别 (OCR)
  • 视觉科学推理

它与 Gemini-2-Flash-lite-preview 和 Claude-3.5-Sonnet 等同类模型的性能相当或更胜一筹。

Phi-4-Mini:用于文本任务的紧凑型强大模型

与 Phi-4-multimodal 相辅相成的是 Phi-4-mini,这是一款 38 亿参数的模型,专为文本任务的速度和效率而设计。这款密集的、仅解码器的 Transformer 具有:

  • 分组查询注意力
  • 200,000 词的词汇表
  • 共享的输入输出嵌入

尽管体积小巧,Phi-4-mini 在一系列基于文本的任务中始终优于较大的模型,包括:

  • 推理
  • 数学
  • 编码
  • 指令跟随
  • 函数调用

它支持高达 128,000 个标记的序列,提供卓越的准确性和可扩展性。这使其成为需要高性能文本处理的高级人工智能应用程序的强大解决方案。

函数调用、指令跟随、长上下文处理和推理都是强大的功能,使像 Phi-4-mini 这样的小型语言模型能够访问外部知识和功能,有效地克服了其紧凑尺寸所带来的限制。通过标准化协议,函数调用使模型能够与结构化编程接口无缝集成。

当收到用户请求时,Phi-4-mini 可以:

  1. 推理查询。
  2. 识别并使用适当的参数调用相关函数。
  3. 接收函数输出。
  4. 将这些结果整合到其响应中。

这创建了一个可扩展的、基于代理的系统,其中模型的功能可以通过将其连接到外部工具、应用程序接口 (API) 和通过定义明确的函数接口的数据源来增强。一个说明性的例子是由 Phi-4-mini 驱动的智能家居控制代理,无缝管理各种设备和功能。

Phi-4-mini 和 Phi-4-multimodal 较小的占用空间使其非常适合计算受限的推理环境。这些模型对于设备端部署特别有利,尤其是在使用 ONNX Runtime 进一步优化以实现跨平台可用性时。它们降低的计算要求转化为更低的成本和显著改善的延迟。扩展的上下文窗口允许模型处理和推理广泛的文本内容,包括文档、网页、代码等。Phi-4-mini 和 Phi-4-multimodal 都表现出强大的推理和逻辑能力,使它们成为分析任务的有力竞争者。它们紧凑的尺寸还简化并降低了微调或定制的成本。

实际应用:改变行业

这些模型的设计使它们能够有效地处理复杂的任务,使其非常适合边缘计算场景和计算资源有限的环境。Phi-4-multimodal 和 Phi-4-mini 扩展的功能正在拓宽 Phi 在各个行业的应用范围。这些模型正在被集成到人工智能生态系统中,并被用于探索广泛的用例。

以下是一些引人注目的例子:

  • 集成到 Windows 中: 语言模型是强大的推理引擎。将像 Phi 这样的小型语言模型集成到 Windows 中可以保持高效的计算能力,并为跨所有应用程序和用户体验无缝集成的持续智能的未来铺平道路。Copilot+ PC 将利用 Phi-4-multimodal 的功能,提供微软先进 SLM 的强大功能,而不会消耗过多的能源。这种集成将增强生产力、创造力和教育体验,为开发者平台建立新的标准。

  • 智能设备: 想象一下智能手机制造商将 Phi-4-multimodal 直接嵌入到他们的设备中。这将使智能手机能够无缝地处理和理解语音命令、识别图像和解释文本。用户可以受益于高级功能,例如实时语言翻译、增强的照片和视频分析,以及能够理解和响应复杂查询的智能个人助理。这将通过直接在设备上提供强大的人工智能功能来显著提升用户体验,确保低延迟和高效率。

  • 汽车行业: 考虑一家汽车公司将 Phi-4-multimodal 集成到他们的车载助理系统中。该模型可以使车辆理解和响应语音命令、识别驾驶员手势并分析来自摄像头的视觉输入。例如,它可以通过面部识别检测驾驶员的困倦并提供实时警报来提高驾驶员的安全性。此外,它可以提供无缝的导航辅助、解释路标并提供上下文信息,从而创造更直观、更安全的驾驶体验,无论是在连接到云端时还是在无法连接的离线状态下。

  • 多语言金融服务: 设想一家金融服务公司利用 Phi-4-mini 自动执行复杂的财务计算、生成详细报告并将财务文件翻译成多种语言。该模型可以通过执行对风险评估、投资组合管理和财务预测至关重要的复杂数学计算来协助分析师。此外,它可以将财务报表、监管文件和客户通信翻译成各种语言,从而加强全球客户关系。

确保安全保障

Azure AI Foundry 为用户提供了一套强大的功能,以帮助组织在整个 AI 开发生命周期中测量、缓解和管理 AI 风险。这适用于传统的机器学习和生成式 AI 应用程序。AI Foundry 中的 Azure AI 评估使开发人员能够使用内置和自定义指标迭代评估模型和应用程序的质量和安全性,以告知缓解策略。

Phi-4-multimodal 和 Phi-4-mini 都经过了内部和外部安全专家进行的严格安全保障测试。这些专家采用了由微软 AI 红队 (AIRT) 制定的策略。这些方法在以前的 Phi 模型中得到了改进,融合了全球视角和所有支持语言的母语人士的意见。它们涵盖广泛的领域,包括:

  • 网络安全
  • 国家安全
  • 公平性
  • 暴力

这些评估通过多语言探测来解决当前的趋势。利用 AIRT 的开源 Python 风险识别工具包 (PyRIT) 和手动探测,红队成员进行了单轮和多轮攻击。AIRT 独立于开发团队运作,不断与模型团队分享见解。这种方法彻底评估了最新 Phi 模型引入的新 AI 安全保障环境,确保提供高质量和安全的功能。

Phi-4-multimodal 和 Phi-4-mini 的综合模型卡以及随附的技术论文详细概述了这些模型的推荐用途和限制。这种透明度强调了微软对负责任的人工智能开发和部署的承诺。这些模型有望对人工智能发展产生重大影响。