Эра AI Agent: MCP и A2A для новой эпохи

Расцвет концепции Agent

В последние годы с запуском Microsoft GitHub MCP Server, публикацией Google протокола меж-агентного взаимодействия A2A и запуском Alipay MCP Server, область Agent (интеллектуальных агентов) привлекает беспрецедентное внимание рынка. Хотя единого определения Agent пока не существует, три основных компонента, предложенные бывшим исследователем OpenAI Лилиан Венг: “планирование”, “память” и “использование инструментов”, широко признаны и являются ключевыми для понимания Agent.

В области искусственного интеллекта концепция Agent не нова, но с быстрым развитием больших языковых моделей (LLM) перспективы применения Agent открывают новые горизонты. Agent можно рассматривать как интеллектуальную систему, способную воспринимать окружающую среду, самостоятельно планировать и выполнять задачи. Его суть заключается в имитации процесса принятия решений человеком и использовании различных инструментов и ресурсов для достижения поставленных целей.

Современное состояние Agent: огромный потенциал, низкий уровень проникновения

Будучи эволюционировавшей версией чат-ботов, текущие приложения Agent в основном интегрированы в платные сервисы больших моделей, и лишь немногие Agent, такие как Manus и Devin, предлагают отдельные платные услуги. Тем не менее, даже такие Agent, как Deep Research и Manus, обладающие возможностью самостоятельного планирования, имеют множество ограничений в использовании, и число пользователей, которые действительно могут их испытать, может быть невелико. До появления ‘хитовых’ приложений еще далеко.

Однако, с постоянным улучшением возможностей рассуждений больших моделей, Agent постепенно становится центром инноваций в приложениях. Все больше и больше разработчиков и исследователей начинают изучать применение Agent в различных областях, таких как интеллектуальные помощники, автоматизированные процессы, анализ данных и т.д. Потенциал Agent постепенно раскрывается, и пространство для будущего развития очень велико.

Массовое применение Agent не за горами: движущая сила множества благоприятных условий

Прорыв в обучении моделей

  • Стремительный рост контекстного окна: Контекстное окно больших моделей - это максимальная длина текста, которую модель может учитывать при обработке текста. С развитием технологий контекстное окно моделей быстро растет, что означает, что модель может лучше понимать контекст длинных текстов и, следовательно, принимать более точные решения.
  • Глубокое применение обучения с подкреплением: Обучение с подкреплением - это метод обучения Agent с помощью вознаграждений и наказаний. В последние годы обучение с подкреплением широко используется в обучении Agent, что позволяет Agent лучше адаптироваться к сложным средам и изучать оптимальные стратегии.
  • Постепенное созревание моделей рассуждений: Модель рассуждений является основной частью Agent, которая отвечает за рассуждения и суждения на основе входной информации. С углублением исследований модели рассуждений становятся все более зрелыми и могут лучше поддерживать различные приложения Agent.

Бурное развитие экосистемы

  • Быстрое развитие протоколов MCP и A2A: MCP (Model Communication Protocol) и A2A (Agent-to-Agent) - это два важных протокола связи Agent. Быстрое развитие этих протоколов позволяет Agent более удобно вызывать различные инструменты и сервисы, тем самым реализуя более сложные функции.
  • Вызов инструментов Agent становится все более удобным: С развитием технологий способы вызова Agent внешних инструментов и сервисов становятся все более удобными. Например, через API (интерфейс прикладного программирования) Agent может легко получить доступ к различным источникам данных и онлайн-сервисам, тем самым расширяя свои возможности.

В ноябре 2024 года Anthropic выпустила и открыла протокол MCP, призванный стандартизировать, как внешние данные и инструменты предоставляют контекст моделям. Этот шаг значительно будет способствовать развитию экосистемы Agent, позволяя Agent лучше использовать внешние ресурсы.

MCP и A2A: ключ к взаимодействию Agent

Протокол MCP: соединение Agent с внешним миром

Основная цель протокола MCP - реализовать ‘подключение в один клик’ Agent к внешним данным и инструментам. С помощью протокола MCP Agent может удобно получать доступ к различным внешним ресурсам, таким как базы данных, API, веб-сервисы и т.д. Это позволяет Agent лучше понимать среду и принимать более разумные решения.

Протокол A2A: построение моста связи между Agent

Цель протокола A2A - реализовать связь между Agent. С помощью протокола A2A Agent могут сотрудничать друг с другом для совместного выполнения сложных задач. Это имеет большое значение для построения распределенных интеллектуальных систем.

Хотя цель протокола A2A - связь между Agent, а MCP - связь Agent с внешними инструментами и данными, в сложной ситуации, когда ‘инструменты также могут быть упакованы как Agent’, функции обоих могут перекрываться, но эта конкуренция помогает снизить стоимость вызова больших моделей внешних инструментов и коммуникации. Эта конкуренция будет способствовать прогрессу технологий и в конечном итоге принесет пользу всей экосистеме Agent.

Перспективы развития Agent

End-to-End Agent: без вмешательства человека

В настоящее время на рынке существует большое количество ‘интеллектуальных агентов’, но значительная их часть разработана на платформах, таких как Coze, Dify и т.д., и требует от людей предварительного написания рабочих процессов. Эти Agent больше похожи на суперпозицию инженерных подсказок и относятся к относительно начальным Agent.

Более продвинутый Agent - это ‘end-to-end’, что означает ‘ввод задачи в Agent, Agent автоматически выполняет результаты задач, необходимые человеку’. Например, пользователю нужно только ввести цель в Agent, и Agent может самостоятельно планировать и выполнять задачи, и, наконец, завершить цель. L3/L4/L5 и другие подобные продвинутые Agent больше соответствуют потребностям человека и станут важным направлением будущего развития Agent.

Agent помогает роботам и беспилотным автомобилям

Когда определение Agent применяется к воплощенному интеллекту, обнаруживается, что роботы и автомобили, управляемые большими моделями, также являются Agent. Особенно роботы, нынешнее узкое место в развитии роботов заключается не в ‘том, как совершать физические действия’ ‘мозжечка’, а в размышлении о ‘каких физических действиях совершать’ ‘мозге’, и это как раз входит в зону поражения Agent.

В области робототехники Agent может помочь роботам лучше понимать окружающую среду и принимать более рациональные решения. Например, Agent может самостоятельно планировать маршрут перемещения робота и выполнять различные задачи в зависимости от объектов и людей в окружающей среде.

В области автономного вождения Agent может помочь транспортным средствам лучше воспринимать окружающую среду и принимать более безопасные решения о вождении. Например, Agent может самостоятельно регулировать скорость и направление транспортного средства в зависимости от сигналов светофора, других транспортных средств и пешеходов, тем самым избегая дорожно-транспортных происшествий.

Взаимосвязь Agent и AI-ориентированная сеть

В будущем, возможно, все Agent должны иметь возможность общаться друг с другом, самоорганизовываться, вести переговоры, чтобы построить сеть сотрудничества с более низкой стоимостью и более высокой эффективностью, чем существующий Интернет. Китайское сообщество разработчиков также разрабатывает протоколы, такие как ANP, с целью стать протоколом HTTP в эпоху Agent-интернета. А что касается аутентификации личности между Agent, можно использовать такие технологии, как DID.

  • Взаимосвязь Agent: Взаимосвязь Agent может реализовать обмен ресурсами и сотрудничество, тем самым повышая эффективность всей системы. Например, различные Agent могут совместно использовать данные, инструменты и сервисы для совместного выполнения сложных задач.
  • AI-ориентированная сеть: AI-ориентированная сеть - это сеть, специально разработанная для приложений искусственного интеллекта. Эта сеть может обеспечить более высокую пропускную способность, более низкую задержку и более высокую безопасность, тем самым лучше поддерживая различные приложения Agent.
  • Технология DID: DID (Decentralized Identifier) - это децентрализованная технология аутентификации личности. С помощью технологии DID Agent может иметь свою собственную личность, тем самым реализуя более безопасную и надежную связь.

Развитие технологии Agent принесет огромные изменения, и будущий Интернет больше не будет простой сетью передачи информации, а сетью сотрудничества, полной интеллекта.