MCP：AI Agent工具交互的革命 | zh-CN

AI Agent工具交互的革命：模型上下文协议 (MCP)

AI Agent的领域正在迅速发展，对这些Agent与外部工具和数据交互的方法提出了更高的要求。过去，将大型语言模型 (LLM) 与外部工具集成是一个复杂且分散的过程。现在，模型上下文协议 (MCP) 正在成为一种变革性的解决方案。MCP为各种模型上的AI Agent工具调用提供了一种标准化、简化和面向未来的方法，为可扩展、安全和可互操作的工作流程铺平了道路。

传统AI工具集成的挑战

在MCP出现之前，LLM依赖于特定的、模型定制的集成来访问外部工具。诸如ReAct、Toolformer、LangChain和LlamaIndex以及Auto-GPT等方法虽然具有创新性，但导致了分散且难以维护的代码库。每个新的数据源或API都需要自己的包装器，并且Agent必须经过专门培训才能使用它。这种方法造成了孤立的、非标准的工作流程，凸显了对统一解决方案的需求。

特定集成： LLM传统上使用自定义的、模型特定的集成来访问外部工具。
分散的代码库： 每个新的数据源或API都需要自己的包装器，导致代码复杂且难以维护。
非标准工作流程： 孤立的工作流程使得在不同模型和工具之间实现无缝集成变得困难。

介绍模型上下文协议 (MCP)

模型上下文协议 (MCP) 标准化了AI Agent如何发现和调用外部工具和数据源。MCP是一个开放协议，它定义了LLM主机和服务端之间通用的基于JSON-RPC的API层。MCP的功能就像AI应用程序的“USB-C端口”，它提供了一个通用接口，任何模型都可以使用该接口来访问工具。这实现了组织的数据源和AI驱动的工具之间的安全双向连接，取代了过去零散的连接器。

MCP 的主要优势

将模型与工具分离： Agent可以连接到MCP服务端，而无需模型特定的提示或硬编码的函数调用。
标准化接口： MCP为模型访问工具提供了一个通用接口，简化了集成过程。
安全连接： 实现了数据源和AI驱动的工具之间的安全双向连接。
通用可访问性： 任何模型都可以使用MCP来访问工具，使其成为一种通用的解决方案。

Agent不是编写模型特定的提示或硬编码函数调用，而是简单地连接到一个或多个MCP服务端，每个服务端都以标准化方式公开数据或功能。Agent（或主机）从服务端检索可用工具的列表，包括它们的名称、描述和输入/输出模式。然后，模型可以通过名称调用任何工具。这种标准化和重用是优于以前方法的核心优势。

MCP 定义的核心角色

MCP的开放规范定义了三个核心角色：主机、客户端和服务端。

主机： 用户与之交互的LLM应用程序或用户界面（例如，聊天UI、IDE或Agent编排引擎）。主机嵌入了LLM并充当MCP客户端。
客户端： 主机内实现MCP协议的软件模块（通常通过SDK）。客户端处理消息传递、身份验证以及编排模型提示和响应。
服务端： 提供上下文和工具的服务（本地或远程）。每个MCP服务端都可以包装数据库、API、代码库或其他系统，并向客户端通告其功能。

MCP的灵感明确来自于IDE中使用的语言服务器协议 (LSP)：正如LSP标准化了编辑器查询语言特性的方式一样，MCP标准化了LLM查询上下文工具的方式。通过使用通用的JSON-RPC 2.0消息格式，任何遵守MCP的客户端和服务端都可以互操作，而不管使用的编程语言或LLM如何。

技术设计和架构

MCP依赖于JSON-RPC 2.0来传递三种类型的消息：请求、响应和通知，从而允许Agent执行同步工具调用并接收异步更新。在本地部署中，客户端通常生成一个子进程并通过stdin/stdout（stdio传输）进行通信。相比之下，远程服务端通常使用带有服务端发送事件 (SSE) 的HTTP来实时流式传输消息。这种灵活的消息传递层确保可以调用工具并传递结果，而不会阻塞主机应用程序的主工作流程。

每个服务端都公开三个标准化实体：资源、工具和提示。

资源： 可提取的上下文片段，例如文本文件、数据库表或缓存的文档，客户端可以通过ID检索它们。
工具： 具有明确定义的输入和输出模式的命名函数，无论是搜索API、计算器还是自定义数据处理例程。
提示： 可选的、更高级别的模板或工作流程，用于指导模型完成多步骤交互。

通过为每个实体提供JSON模式，MCP使任何有能力的大型语言模型 (LLM) 能够解释和调用这些功能，而无需定制的解析或硬编码的集成。

模块化设计

MCP架构在三个角色之间清晰地分离了关注点。主机嵌入LLM并编排对话流程，将用户查询传递到模型并处理其输出。客户端实现MCP协议本身，管理所有消息编排、身份验证和传输细节。服务端通告可用资源和工具，执行传入请求（例如，列出工具或执行查询），并返回结构化结果。这种模块化设计，包括主机中的AI和UI、客户端中的协议逻辑以及服务端中的执行，确保系统保持可维护、可扩展且易于演进。

交互模型和Agent工作流程

在Agent中使用MCP遵循一个简单的发现和执行模式。当Agent连接到MCP服务端时，它首先调用list_tools()方法来检索所有可用的工具和资源。然后，客户端将这些描述集成到LLM的上下文中（例如，通过将它们格式化为提示）。模型现在知道这些工具存在以及它们接受哪些参数。

简化的工作流程

发现： Agent连接到MCP服务端并使用list_tools()方法检索可用工具和资源的列表。
集成： 客户端将这些描述集成到LLM的上下文中。
执行： 当Agent决定使用某个工具时，LLM会发出一个结构化的调用（例如，一个带有call: tool_name, args: {...}的JSON对象）。
调用： 主机将其识别为工具调用，并且客户端向服务端发出相应的call_tool()请求。
响应： 服务端执行该工具并发送回结果。然后，客户端将此结果馈送到模型的下一个提示中，使其显示为额外的上下文。

当Agent决定使用某个工具时（通常由用户的查询提示），LLM会发出一个结构化的调用（例如，带有”call”: “tool_name”, “args”: {…}的JSON对象）。主机将其识别为工具调用，并且客户端向服务端发出相应的call_tool()请求。服务端执行该工具并发送回结果。然后，客户端将此结果馈送到模型的下一个提示中，使其显示为额外的上下文。此协议透明地处理 discover→prompt→tool→respond 的循环。

实现和生态系统

MCP与实现无关。官方规范在GitHub上维护，并且有多种语言的SDK可用，包括TypeScript、Python、Java、Kotlin和C#。开发人员可以使用他们喜欢的堆栈编写MCP客户端或服务端。例如，OpenAI Agents SDK包含一些类，这些类使从Python轻松连接到标准MCP服务端成为可能。InfraCloud的教程演示了如何设置一个基于Node.js的文件系统MCP服务端，以允许LLM浏览本地文件。

不断增长的生态系统

语言 SDK： 提供 TypeScript、Python、Java、Kotlin 和 C# 版本。
开源服务端： Anthropic 已经发布了许多流行服务的连接器，包括 Google Drive、Slack、GitHub、Postgres、MongoDB 以及带有 Puppeteer 的网络浏览等。
集成平台： Claude Desktop、Google 的 Agent Development Kit 和 Cloudflare 的 Agents SDK 已经集成了 MCP 支持。
Auto-Agents： Auto-GPT 可以插入 MCP，从而实现动态工具发现和利用。

一旦一个团队为Jira或Salesforce构建了一个服务端，任何兼容的Agent都可以使用它而无需返工。在客户端/主机方面，许多Agent平台已经集成了MCP支持。Claude Desktop可以连接到MCP服务端。Google的Agent Development Kit将MCP服务端视为Gemini模型的工具提供程序。Cloudflare的Agents SDK添加了一个McpAgent类，因此任何FogLAMP都可以通过内置的身份验证支持成为MCP客户端。即使是像Auto-GPT这样的自动Agent也可以插入MCP：Agent不是为每个API编写特定的函数，而是使用MCP客户端库来调用工具。这种通用连接器的趋势预示着一种更模块化的自主Agent架构。

在实践中，这个生态系统使任何给定的AI助手能够同时连接到多个数据源。人们可以想象一个Agent在一个会话中，使用一个用于公司文档的MCP服务端，另一个用于CRM查询，还有一个用于设备上的文件搜索。MCP甚至可以优雅地处理命名冲突：如果两个服务端都有一个名为“analyze”的工具，客户端可以对它们进行命名空间（例如，“ImageServer.analyze” vs “CodeServer.analyze”），以便两者在没有冲突的情况下保持可用。

优于先前的范例

MCP带来了几个早期方法所缺乏的关键优势：

标准化集成： MCP为所有工具提供了一个协议。
动态工具发现： Agent可以在运行时发现工具。
互操作性和重用： 同一个工具服务端可以为多个LLM客户端提供服务。
可扩展性和维护： MCP大大减少了重复的工作。
可组合的生态系统： MCP支持独立开发服务端的市场。
安全性和控制： 该协议支持清晰的授权流程。

关键优势总结

统一协议： MCP为所有工具提供了一个协议，简化了开发并消除了对自定义解析逻辑的需求。
运行时发现： Agent可以动态地发现可用的功能，消除了在添加新工具时重新启动或重新编程的需要。
模型无关： MCP允许同一工具服务端为多个LLM客户端提供服务，避免了供应商锁定并减少了重复的工程工作。
减少重复： 开发人员可以为诸如文件搜索之类的任务编写一个MCP服务端，从而使所有模型中的所有Agent受益。
开放生态系统： MCP鼓励建立一个开放的连接器市场，类似于Web API。
授权流程： MCP支持明确的授权流程，与自由形式的提示相比，增强了可审计性和安全性。

行业影响和实际应用

MCP的采用正在迅速增长。主要的供应商和框架已经公开投资了MCP或相关的Agent标准。各组织正在探索MCP，以将内部系统（例如CRM、知识库和分析平台）集成到AI助手中。

具体的用例

开发人员工具： 代码编辑器和搜索平台利用MCP使助手能够查询代码存储库、文档和提交历史记录。
企业知识和聊天机器人： Helpdesk机器人可以通过MCP服务端访问Zendesk或SAP数据，回答有关未解决工单的问题或根据实时企业数据生成报告。
增强的检索增强生成： RAG Agent可以将基于嵌入的检索与用于数据库查询或图搜索的专用MCP工具结合使用。
主动助手： 事件驱动的Agent监视电子邮件或任务流，并通过调用日历和笔记工具（通过MCP）自主安排会议或总结行动项目。

在每种情况下，MCP都使Agent能够在各种系统上扩展，而无需重写集成代码，从而提供可维护、安全和可互操作的AI解决方案。

与先前范例的比较

MCP统一并扩展了先前的方法，在协议中提供了动态发现、标准化模式和跨模型互操作性。

与 ReAct 相比： MCP使用JSON模式为模型提供了一个接口，使客户端能够无缝地管理执行。
与 Toolformer 相比： MCP将工具接口完全从模型中外部化，从而无需重新训练即可为任何已注册的工具提供零样本支持。
与框架库相比： MCP将集成逻辑转移到可重用的协议中，使Agent更加灵活并减少了代码重复。
与自主Agent相比： 通过使用MCP客户端，此类Agent无需为新服务编写定制代码，而是依赖于动态发现和JSON-RPC调用。
与函数调用API相比： MCP跨任何客户端和服务端推广函数调用，并支持流式传输、发现和多路复用服务。

局限性和挑战

尽管MCP前景广阔，但仍在成熟中：

身份验证和授权： 当前的解决方案需要在外部分层OAuth或API密钥，这会使没有统一身份验证标准的部署复杂化。
多步骤工作流程： 协调长时间运行、有状态的工作流程通常仍依赖于外部调度程序或提示链接，因为该协议缺乏内置的会话概念。
大规模发现： 在大型环境中管理许多MCP服务端点可能很麻烦。
生态系统成熟度： MCP是新事物，因此并非每个工具或数据源都具有现有的连接器。
开发开销： 对于单个、简单的工具调用，与快速、直接的API调用相比，MCP设置可能会感觉很繁重。

更新于 2025-05-06

# AI # LLM # Agent