Agentes de IA: MCP e A2A na Nova Era | pt

A Ascensão do Conceito de Agente

Nos últimos anos, o campo dos Agentes (agentes inteligentes) tem recebido uma atenção sem precedentes do mercado, impulsionado por eventos como o lançamento do servidor GitHub MCP pela Microsoft, a publicação do protocolo de comunicação entre agentes inteligentes A2A pelo Google e o lançamento do servidor MCP pela Alipay. Embora ainda não haja uma definição totalmente unificada de Agente, os três componentes principais propostos por Lilian Weng, ex-pesquisadora da OpenAI – “planejamento”, “memória” e “uso de ferramentas” – são amplamente reconhecidos como elementos-chave para a compreensão de um Agente.

No campo da inteligência artificial, o conceito de Agente não é novo, mas com o rápido desenvolvimento de grandes modelos de linguagem (LLMs), as perspectivas de aplicação de Agentes receberam um novo impulso. Um Agente pode ser visto como um sistema inteligente capaz de perceber o ambiente, planejar de forma autônoma e executar tarefas. Seu ponto central é a capacidade de simular o processo de tomada de decisão humana e utilizar várias ferramentas e recursos para atingir objetivos predefinidos.

Estado Atual do Desenvolvimento de Agentes: Grande Potencial, Taxa de Penetração a Ser Melhorada

Como uma versão evoluída dos chatbots, a maioria das aplicações atuais de Agentes está integrada aos serviços pagos de grandes modelos, com apenas alguns Agentes, como Manus e Devin, oferecendo serviços pagos independentes. No entanto, mesmo Agentes com capacidade de planejamento autônomo, como Deep Research e Manus, ainda têm muitas limitações em termos de uso, e o número de usuários que podem realmente experimentá-los pode não ser grande. Ainda há muito espaço para melhorias antes do surgimento de aplicações “blockbuster”.

No entanto, com a melhoria contínua da capacidade de inferência de grandes modelos, os Agentes estão gradualmente se tornando o foco da inovação de aplicações. Cada vez mais desenvolvedores e pesquisadores estão começando a explorar as aplicações de Agentes em vários campos, como assistentes inteligentes, fluxos de trabalho automatizados e análise de dados. O potencial dos Agentes está sendo gradualmente explorado e o espaço para desenvolvimento futuro é muito amplo.

Aplicação em Larga Escala de Agentes Iminente: Impulsionada por Múltiplas Condições Favoráveis

Avanços no Lado do Treinamento de Modelos

Aumento Rápido da Janela de Contexto: A janela de contexto (Context Window) de um grande modelo refere-se ao comprimento máximo do texto que o modelo pode considerar ao processar texto. Com o avanço da tecnologia, a janela de contexto dos modelos está crescendo rapidamente, o que significa que o modelo pode entender melhor o contexto de textos longos, permitindo tomadas de decisão mais precisas.
Aplicação Profunda do Aprendizado por Reforço: O aprendizado por reforço é um método para treinar Agentes por meio de recompensas e punições. Nos últimos anos, o aprendizado por reforço tem sido amplamente utilizado no treinamento de Agentes, permitindo que os Agentes se adaptem melhor a ambientes complexos e aprendam estratégias ótimas.
Modelos de Inferência Tornando-se Mais Maduros: O modelo de inferência é o componente central de um Agente, responsável por inferir e julgar com base nas informações de entrada. Com a profundidade da pesquisa, os modelos de inferência estão se tornando cada vez mais maduros, capazes de suportar melhor as várias aplicações de Agentes.

Ecossistema em Expansão

Rápido Desenvolvimento de Protocolos como MCP e A2A: MCP (Model Communication Protocol) e A2A (Agent-to-Agent) são dois importantes protocolos de comunicação de Agentes. O rápido desenvolvimento desses protocolos permite que os Agentes invoquem várias ferramentas e serviços mais facilmente, permitindo funções mais complexas.
Invocação de Ferramentas por Agentes Tornando-se Mais Conveniente: Com o avanço da tecnologia, a maneira como os Agentes invocam ferramentas e serviços externos está se tornando cada vez mais conveniente. Por exemplo, por meio de APIs (interfaces de programação de aplicações), os Agentes podem acessar facilmente várias fontes de dados e serviços online, expandindo suas próprias capacidades.

Em novembro de 2024, a Anthropic lançou e abriu o protocolo MCP, com o objetivo de padronizar como dados e ferramentas externas fornecem contexto para os modelos. Essa medida promoverá muito o desenvolvimento do ecossistema de Agentes, permitindo que os Agentes utilizem melhor os recursos externos.

MCP e A2A: Chaves para a Interconexão de Agentes

Protocolo MCP: Conectando Agentes com o Mundo Exterior

O principal objetivo do protocolo MCP é alcançar a “interconexão com um clique” entre Agentes e dados e ferramentas externas. Por meio do protocolo MCP, os Agentes podem acessar facilmente vários recursos externos, como bancos de dados, APIs, serviços Web, etc. Isso permite que os Agentes entendam melhor o ambiente e tomem decisões mais informadas.

Protocolo A2A: Construindo uma Ponte de Comunicação entre Agentes

O objetivo do protocolo A2A é permitir a comunicação entre Agentes. Por meio do protocolo A2A, os Agentes podem colaborar entre si para concluir tarefas complexas. Isso é de grande importância para a construção de sistemas inteligentes distribuídos.

Embora o objetivo do protocolo A2A seja a comunicação entre Agentes, e o MCP seja para Agentes e ferramentas e dados externos, na complexa situação em que “as ferramentas também podem ser encapsuladas como Agentes”, as funções dos dois podem se sobrepor, mas essa competição ajuda a reduzir os custos de invocação de ferramentas externas e comunicação de grandes modelos. Essa competição impulsionará o progresso tecnológico e, finalmente, beneficiará todo o ecossistema de Agentes.

Perspectivas de Desenvolvimento de Agentes

Agentes de Ponta a Ponta: Sem Intervenção Humana

Atualmente, existe um grande número de “agentes inteligentes” no mercado, mas uma parte considerável deles é desenvolvida com base em plataformas como Coze, Dify, etc., e requer que os humanos escrevam fluxos de trabalho antecipadamente. Esses Agentes são mais como uma sobreposição de engenharia de prompt, pertencendo a Agentes relativamente primários.

Agentes mais avançados são “de ponta a ponta”, o que significa “inserir tarefas para o Agente e o Agente conclui automaticamente os resultados de tarefas exigidos pelos humanos”. Por exemplo, os usuários só precisam inserir um objetivo para o Agente, e o Agente pode planejar e executar tarefas de forma autônoma, concluindo finalmente o objetivo. Agentes avançados como L3/L4/L5 são mais adequados para as necessidades humanas e se tornarão uma direção importante para o desenvolvimento futuro de Agentes.

Agentes Ajudando Robôs e Condução Autônoma

Ao aplicar a definição de Agente à inteligência incorporada, descobrimos que robôs e veículos dominados por grandes modelos também são Agentes. Especialmente robôs, o gargalo atual no desenvolvimento de robôs não está no “como fazer ações físicas” do “cerebelo”, mas no pensamento sobre “quais ações físicas fazer” do “cérebro”, e isso está precisamente dentro do alcance do Agente.

No campo da robótica, os Agentes podem ajudar os robôs a entender melhor o ambiente e tomar decisões mais razoáveis. Por exemplo, um Agente pode planejar de forma autônoma o caminho de movimento de um robô e executar várias tarefas com base em objetos e pessoas no ambiente.

No campo da direção autônoma, os Agentes podem ajudar os veículos a perceber melhor o ambiente circundante e a tomar decisões de direção mais seguras. Por exemplo, um Agente pode ajustar autonomamente a velocidade e a direção de um veículo com base em sinais de trânsito, outros veículos e pedestres, evitando assim a ocorrência de acidentes de trânsito.

Interconexão de Agentes e Rede Nativa de IA

No futuro, talvez todos os Agentes devam ser capazes de se comunicar entre si, auto-organizar e auto-negociar, construindo uma rede de colaboração de custo mais baixo e maior eficiência do que a Internet existente. A comunidade de desenvolvedores chineses também está construindo protocolos como ANP, com o objetivo de se tornar o protocolo HTTP da era da Internet de Agentes. E sobre a autenticação de identidade entre Agentes, pode-se usar tecnologias como DID.

Interconexão de Agentes: A interconexão entre Agentes pode realizar o compartilhamento e a colaboração de recursos, melhorando assim a eficiência de todo o sistema. Por exemplo, diferentes Agentes podem compartilhar dados, ferramentas e serviços para concluir tarefas complexas em conjunto.
Rede Nativa de IA: Uma rede nativa de IA refere-se a uma rede especialmente projetada para aplicações de inteligência artificial. Essa rede pode fornecer maior largura de banda, menor latência e maior segurança, suportando assim melhor as várias aplicações de Agentes.
Tecnologia DID: DID (Decentralized Identifier) é uma tecnologia de autenticação de identidade descentralizada. Por meio da tecnologia DID, os Agentes podem ter suas próprias identidades, permitindo assim uma comunicação mais segura e confiável.

O desenvolvimento da tecnologia de Agentes trará grandes mudanças. A Internet do futuro não será mais uma simples rede de transmissão de informações, mas uma rede de colaboração cheia de inteligência.

atualizado em 2025-04-22

# AI # LLM # Agent