A Ascensão do Conceito de Agente
Nos últimos anos, o campo dos Agentes (agentes inteligentes) tem recebido uma atenção sem precedentes do mercado, impulsionado por eventos como o lançamento do servidor GitHub MCP pela Microsoft, a publicação do protocolo de comunicação entre agentes inteligentes A2A pelo Google e o lançamento do servidor MCP pela Alipay. Embora ainda não haja uma definição totalmente unificada de Agente, os três componentes principais propostos por Lilian Weng, ex-pesquisadora da OpenAI – “planejamento”, “memória” e “uso de ferramentas” – são amplamente reconhecidos como elementos-chave para a compreensão de um Agente.
No campo da inteligência artificial, o conceito de Agente não é novo, mas com o rápido desenvolvimento de grandes modelos de linguagem (LLMs), as perspectivas de aplicação de Agentes receberam um novo impulso. Um Agente pode ser visto como um sistema inteligente capaz de perceber o ambiente, planejar de forma autônoma e executar tarefas. Seu ponto central é a capacidade de simular o processo de tomada de decisão humana e utilizar várias ferramentas e recursos para atingir objetivos predefinidos.
Estado Atual do Desenvolvimento de Agentes: Grande Potencial, Taxa de Penetração a Ser Melhorada
Como uma versão evoluída dos chatbots, a maioria das aplicações atuais de Agentes está integrada aos serviços pagos de grandes modelos, com apenas alguns Agentes, como Manus e Devin, oferecendo serviços pagos independentes. No entanto, mesmo Agentes com capacidade de planejamento autônomo, como Deep Research e Manus, ainda têm muitas limitações em termos de uso, e o número de usuários que podem realmente experimentá-los pode não ser grande. Ainda há muito espaço para melhorias antes do surgimento de aplicações “blockbuster”.
No entanto, com a melhoria contínua da capacidade de inferência de grandes modelos, os Agentes estão gradualmente se tornando o foco da inovação de aplicações. Cada vez mais desenvolvedores e pesquisadores estão começando a explorar as aplicações de Agentes em vários campos, como assistentes inteligentes, fluxos de trabalho automatizados e análise de dados. O potencial dos Agentes está sendo gradualmente explorado e o espaço para desenvolvimento futuro é muito amplo.
Aplicação em Larga Escala de Agentes Iminente: Impulsionada por Múltiplas Condições Favoráveis
Avanços no Lado do Treinamento de Modelos
- Aumento Rápido da Janela de Contexto: A janela de contexto (Context Window) de um grande modelo refere-se ao comprimento máximo do texto que o modelo pode considerar ao processar texto. Com o avanço da tecnologia, a janela de contexto dos modelos está crescendo rapidamente, o que significa que o modelo pode entender melhor o contexto de textos longos, permitindo tomadas de decisão mais precisas.
- Aplicação Profunda do Aprendizado por Reforço: O aprendizado por reforço é um método para treinar Agentes por meio de recompensas e punições. Nos últimos anos, o aprendizado por reforço tem sido amplamente utilizado no treinamento de Agentes, permitindo que os Agentes se adaptem melhor a ambientes complexos e aprendam estratégias ótimas.
- Modelos de Inferência Tornando-se Mais Maduros: O modelo de inferência é o componente central de um Agente, responsável por inferir e julgar com base nas informações de entrada. Com a profundidade da pesquisa, os modelos de inferência estão se tornando cada vez mais maduros, capazes de suportar melhor as várias aplicações de Agentes.
Ecossistema em Expansão
- Rápido Desenvolvimento de Protocolos como MCP e A2A: MCP (Model Communication Protocol) e A2A (Agent-to-Agent) são dois importantes protocolos de comunicação de Agentes. O rápido desenvolvimento desses protocolos permite que os Agentes invoquem várias ferramentas e serviços mais facilmente, permitindo funções mais complexas.
- Invocação de Ferramentas por Agentes Tornando-se Mais Conveniente: Com o avanço da tecnologia, a maneira como os Agentes invocam ferramentas e serviços externos está se tornando cada vez mais conveniente. Por exemplo, por meio de APIs (interfaces de programação de aplicações), os Agentes podem acessar facilmente várias fontes de dados e serviços online, expandindo suas próprias capacidades.
Em novembro de 2024, a Anthropic lançou e abriu o protocolo MCP, com o objetivo de padronizar como dados e ferramentas externas fornecem contexto para os modelos. Essa medida promoverá muito o desenvolvimento do ecossistema de Agentes, permitindo que os Agentes utilizem melhor os recursos externos.
MCP e A2A: Chaves para a Interconexão de Agentes
Protocolo MCP: Conectando Agentes com o Mundo Exterior
O principal objetivo do protocolo MCP é alcançar a “interconexão com um clique” entre Agentes e dados e ferramentas externas. Por meio do protocolo MCP, os Agentes podem acessar facilmente vários recursos externos, como bancos de dados, APIs, serviços Web, etc. Isso permite que os Agentes entendam melhor o ambiente e tomem decisões mais informadas.
Protocolo A2A: Construindo uma Ponte de Comunicação entre Agentes
O objetivo do protocolo A2A é permitir a comunicação entre Agentes. Por meio do protocolo A2A, os Agentes podem colaborar entre si para concluir tarefas complexas. Isso é de grande importância para a construção de sistemas inteligentes distribuídos.
Embora o objetivo do protocolo A2A seja a comunicação entre Agentes, e o MCP seja para Agentes e ferramentas e dados externos, na complexa situação em que “as ferramentas também podem ser encapsuladas como Agentes”, as funções dos dois podem se sobrepor, mas essa competição ajuda a reduzir os custos de invocação de ferramentas externas e comunicação de grandes modelos. Essa competição impulsionará o progresso tecnológico e, finalmente, beneficiará todo o ecossistema de Agentes.
Perspectivas de Desenvolvimento de Agentes
Agentes de Ponta a Ponta: Sem Intervenção Humana
Atualmente, existe um grande número de “agentes inteligentes” no mercado, mas uma parte considerável deles é desenvolvida com base em plataformas como Coze, Dify, etc., e requer que os humanos escrevam fluxos de trabalho antecipadamente. Esses Agentes são mais como uma sobreposição de engenharia de prompt, pertencendo a Agentes relativamente primários.
Agentes mais avançados são “de ponta a ponta”, o que significa “inserir tarefas para o Agente e o Agente conclui automaticamente os resultados de tarefas exigidos pelos humanos”. Por exemplo, os usuários só precisam inserir um objetivo para o Agente, e o Agente pode planejar e executar tarefas de forma autônoma, concluindo finalmente o objetivo. Agentes avançados como L3/L4/L5 são mais adequados para as necessidades humanas e se tornarão uma direção importante para o desenvolvimento futuro de Agentes.
Agentes Ajudando Robôs e Condução Autônoma
Ao aplicar a definição de Agente à inteligência incorporada, descobrimos que robôs e veículos dominados por grandes modelos também são Agentes. Especialmente robôs, o gargalo atual no desenvolvimento de robôs não está no “como fazer ações físicas” do “cerebelo”, mas no pensamento sobre “quais ações físicas fazer” do “cérebro”, e isso está precisamente dentro do alcance do Agente.
No campo da robótica, os Agentes podem ajudar os robôs a entender melhor o ambiente e tomar decisões mais razoáveis. Por exemplo, um Agente pode planejar de forma autônoma o caminho de movimento de um robô e executar várias tarefas com base em objetos e pessoas no ambiente.
No campo da direção autônoma, os Agentes podem ajudar os veículos a perceber melhor o ambiente circundante e a tomar decisões de direção mais seguras. Por exemplo, um Agente pode ajustar autonomamente a velocidade e a direção de um veículo com base em sinais de trânsito, outros veículos e pedestres, evitando assim a ocorrência de acidentes de trânsito.
Interconexão de Agentes e Rede Nativa de IA
No futuro, talvez todos os Agentes devam ser capazes de se comunicar entre si, auto-organizar e auto-negociar, construindo uma rede de colaboração de custo mais baixo e maior eficiência do que a Internet existente. A comunidade de desenvolvedores chineses também está construindo protocolos como ANP, com o objetivo de se tornar o protocolo HTTP da era da Internet de Agentes. E sobre a autenticação de identidade entre Agentes, pode-se usar tecnologias como DID.
- Interconexão de Agentes: A interconexão entre Agentes pode realizar o compartilhamento e a colaboração de recursos, melhorando assim a eficiência de todo o sistema. Por exemplo, diferentes Agentes podem compartilhar dados, ferramentas e serviços para concluir tarefas complexas em conjunto.
- Rede Nativa de IA: Uma rede nativa de IA refere-se a uma rede especialmente projetada para aplicações de inteligência artificial. Essa rede pode fornecer maior largura de banda, menor latência e maior segurança, suportando assim melhor as várias aplicações de Agentes.
- Tecnologia DID: DID (Decentralized Identifier) é uma tecnologia de autenticação de identidade descentralizada. Por meio da tecnologia DID, os Agentes podem ter suas próprias identidades, permitindo assim uma comunicação mais segura e confiável.
O desenvolvimento da tecnologia de Agentes trará grandes mudanças. A Internet do futuro não será mais uma simples rede de transmissão de informações, mas uma rede de colaboração cheia de inteligência.