OpenAI发布构建自定义AI Agent的新工具

OpenAI 发布用于构建自定义 AI Agent 的新工具

OpenAI 最近推出了一套新的工具,旨在帮助开发者创建复杂的、可用于生产环境的 AI Agent。这些工具包括 Responses API、Agents SDK 以及增强的可观察性功能。这些进步解决了 Agent 开发中的关键挑战,例如自定义编排和管理跨复杂、多步骤任务的提示迭代。

AI Agent 在劳动力中的崛起

OpenAI 设想了一个未来,AI Agent 深度融入劳动力,显著提高各个行业的生产力。这些 Agent 预计将通过利用推理和多模态交互等高级功能来处理复杂的任务。新推出的工具专门用于使用 OpenAI 平台简化基于 Agent 的工作流程的开发。

Responses API 简介

Responses API 是一个重要的进步,它融合了聊天补全和助手功能。OpenAI 建议开发者在新项目中优先使用此 API。

Responses API 的主要优点:

  • 灵活性: 它为构建基于 Agent 的应用程序提供了更具适应性的基础。
  • 复杂性管理: 单个 Responses API 调用使开发者能够使用多个工具和模型轮次来处理日益复杂的任务。
  • 内置工具支持: 该 API 为外部工具提供原生支持,包括 Web 搜索、本地文件访问和计算机控制(使用鼠标和键盘)。
  • 开发者驱动的改进: 基于先前模型的反馈,该 API 具有统一的设计、简化的多态性、增强的流式处理和各种 SDK 助手。

Web 搜索功能

对于 Web 搜索功能,Responses API 使用与 ChatGPT 搜索、GPT-4o 搜索预览和 GPT-4o mini 搜索预览相同的模型。这些模型在 SimpleQA 基准测试中表现出令人印象深刻的准确性,得分分别为 90% 和 88%。这明显优于’普通’ GPT 模型,后者的得分通常在 15% 到 63% 之间。

计算机控制限制

虽然 Web 搜索功能很强大,但计算机使用工具仍有改进空间。它目前在 OSWorld 基准测试中得分为 38.1%,表明该模型在操作系统内自动执行任务方面还不是很可靠。

API 演变:重点转移

尽管 Chat Completions API 和 Assistants API 暂时仍将可用,但 OpenAI 致力于使用新模型和功能增强 Chat Completions API。然而,该公司已宣布 Assistants API 将于明年弃用,这表明向 Responses API 的明确转变,将其作为 Agent 开发的主要工具。

Agents SDK:编排 Agentic 工作流

除了 Responses API,OpenAI 还推出了新的 Agents SDK。此 SDK 旨在通过提供以下工具来促进 Agentic 工作流的编排:

  • 定义不同的 Agent: 为特定任务创建专门的 Agent。
  • 管理控制权转移(切换): 在不同的 Agent 之间无缝转移控制权。
  • 实施安全检查(护栏): 定义输入和输出检查,以防止不相关、有害或不良行为。
  • 启用人机交互: 在必要时纳入人为干预。

Agents SDK 的实际应用:

Agents SDK 适用于广泛的实际应用,包括:

  • 客户支持自动化
  • 多步骤研究
  • 内容生成
  • 代码审查
  • 销售线索

模型和工具兼容性

Agents SDK 支持所有当前的 OpenAI 模型,包括 o1、o3-mini、GPT-4.5、GPT-4o 和 GPT-4o-mini。它还允许开发者通过嵌入和 Knowledge API 使用外部和持久知识来增强他们的 Agent。利用 Responses API,Agents SDK 支持相同的外部工具,用于 Web 搜索、本地文件访问和计算机控制。

取代以前的框架

Agents SDK 取代了其前身,并且与任何 Chat Completions 风格的 API 兼容,包括 Responses API 和第三方 API。

社区反应和战略考虑

这些新工具的发布引发了开发者社区内的讨论。Hacker News (HN) 社区的一些成员表示担心,OpenAI 放弃 Chat Completions API 可能会导致与其平台的锁定增加。

对锁定的担忧:

一些开发者认为,Assistant API 的逐步淘汰凸显了构建自定义编排的重要性。这种方法允许更大的灵活性,并且能够在需要时替换底层的 LLM。

‘自己动手’的方法:

一些 HN 读者指出,采用 Agents SDK 或其他 Agentic 中间件本质上可能意味着将应用程序的核心逻辑外包。他们认为开发者可能更喜欢通过构建自己的解决方案来保持更多的控制权。

深入了解 Responses API

Responses API 不仅仅是现有功能的组合;它代表了开发者与 OpenAI 模型交互方式的根本转变。它旨在成为 Agentic 开发的基石,提供以前无法实现的控制和灵活性水平。

对模型行为的细粒度控制

Responses API 的主要优势之一是它提供了对模型行为的细粒度控制。开发者现在可以指定详细的指令和约束,以更高的精度指导模型的响应。这对于需要多个步骤和交互的复杂任务尤其重要。

增强的提示工程

Responses API 促进了更复杂的提示工程。开发者可以制作包含多个工具和数据源的提示,使模型能够生成更明智和上下文相关的响应。这为创建可以处理细微和复杂任务的 Agent 开辟了可能性。

简化的开发工作流程

Responses API 的统一设计和改进的流式处理功能有助于简化开发工作流程。开发者可以更快地迭代提示和 Agent 设计,从而缩短开发周期并提高 Agent 性能。

详细探索 Agents SDK

Agents SDK 不仅仅是工具的集合;它是一个用于构建和管理复杂 Agentic 工作流的框架。它为 Agent 开发提供了一种结构化的方法,使其更容易创建健壮且可扩展的应用程序。

模块化 Agent 设计

SDK 鼓励采用模块化方法进行 Agent 设计。开发者可以为特定任务创建专门的 Agent,然后将它们组合起来创建更复杂的系统。这种模块化使得随着时间的推移维护和更新 Agent 变得更加容易。

切换:无缝过渡

切换机制是 Agents SDK 的一个关键特性。它允许在不同的 Agent 之间无缝过渡,确保任务在每个阶段都由最合适的 Agent 处理。这对于创建涉及多个步骤和决策点的工作流至关重要。

护栏:确保安全性和相关性

护栏功能提供了一种强制执行安全性和相关性约束的机制。开发者可以定义规则,防止 Agent 生成有害或不良的输出。这对于与用户交互或处理敏感数据的应用程序尤其重要。

人机交互:两全其美

能够纳入人机交互是 Agents SDK 的一项强大功能。它允许开发者创建可以自主处理复杂任务的 Agent,但也可以在必要时让人工干预。这种自动化和人工监督的结合对于许多实际应用至关重要。

Agentic 开发的未来

OpenAI 的新工具代表了 Agentic 开发领域的重大进步。它们为开发者提供了创建复杂 AI Agent 的能力和灵活性,这些 Agent 可以处理各种各样的任务。随着技术的不断发展,我们可以期待在各个行业看到 AI Agent 的更多创新应用。

向 Responses API 和 Agents SDK 的转变反映了 AI 行业的更广泛趋势:转向更模块化、可定制和可控的 AI 系统。这种趋势是由对 AI 解决方案的需求驱动的,这些解决方案可以根据特定任务进行定制并集成到复杂的工作流程中。

OpenAI 致力于为开发者提供构建这些系统所需的工具,这对 AI 的未来是一个积极的信号。随着越来越多的开发者采用这些工具并探索其功能,我们可以预期 AI Agent 在各个领域的开发和部署将迅速加速。提高生产力、提高效率和新的创新解决方案的潜力是巨大的。这是一场有可能重塑我们工作方式和与技术互动方式的变革。AI Agent 的演变不仅仅是自动化;它是关于增强人类能力和创造新的可能性。