El Auge del Concepto de Agente
En los últimos años, el ámbito de los Agentes (inteligentes) ha recibido una atención sin precedentes en el mercado, impulsado por eventos como el lanzamiento del servidor GitHub MCP por parte de Microsoft, la publicación del protocolo de comunicación inter-agentes A2A por parte de Google y la puesta en marcha del servidor MCP por parte de Alipay. Si bien aún no se ha logrado una definición totalmente unificada de Agente, los tres componentes centrales propuestos por Lilian Weng, ex investigadora de OpenAI, ‘Planificación’, ‘Memoria’ y ‘Uso de herramientas’, son ampliamente reconocidos como elementos clave para comprender a los Agentes.
En el campo de la inteligencia artificial, el concepto de Agente no es nada nuevo, pero con el rápido desarrollo de los grandes modelos lingüísticos (LLM), las perspectivas de aplicación de los Agentes han experimentado un nuevo avance. Un Agente puede considerarse como un sistema inteligente capaz de percibir el entorno, planificar y ejecutar tareas de forma autónoma, cuyo núcleo es la capacidad de simular el proceso de toma de decisiones humanas y utilizar diversas herramientas y recursos para alcanzar los objetivos establecidos.
Estado Actual del Desarrollo de los Agentes: Gran Potencial, Penetración Pendiente de Mejora
Como versión evolucionada de los chatbots, las aplicaciones actuales de los Agentes se integran principalmente en los servicios de pago de grandes modelos, y solo unos pocos Agentes como Manus y Devin ofrecen servicios de pago independientes. A pesar de ello, el uso de Agentes como Deep Research y Manus, que tienen capacidad de planificación autónoma, sigue estando sujeto a muchas restricciones, y es posible que el número de usuarios que realmente pueden experimentar estos Agentes no sea muy elevado, por lo que aún queda mucho margen de mejora para la aparición de aplicaciones ‘superventas’.
Sin embargo, a medida que la capacidad de inferencia de los grandes modelos sigue mejorando, los Agentes se están convirtiendo gradualmente en el foco de la innovación de aplicaciones. Cada vez más desarrolladores e investigadores están empezando a explorar las aplicaciones de los Agentes en diversos campos, como asistentes inteligentes, flujos de trabajo automatizados, análisis de datos, etc. El potencial de los Agentes se está descubriendo gradualmente, y el espacio para el desarrollo futuro es muy amplio.
Aplicación a Gran Escala de los Agentes Inminente: Impulsada por Múltiples Condiciones Favorables
Avances en el Extremo del Entrenamiento de Modelos
- Rápido Crecimiento de las Ventanas de Contexto: La ventana de contexto de un gran modelo (Context Window) es la longitud máxima de texto que el modelo puede considerar al procesar texto. Con los avances tecnológicos, la ventana de contexto de los modelos está creciendo rápidamente, lo que significa que los modelos pueden comprender mejor el contexto de textos largos, lo que les permite tomar decisiones más precisas.
- Aplicación Profunda del Aprendizaje por Refuerzo: El aprendizaje por refuerzo es un método para entrenar Agentes mediante recompensas y castigos. En los últimos años, el aprendizaje por refuerzo se ha utilizado ampliamente en el entrenamiento de Agentes, lo que permite a los Agentes adaptarse mejor a entornos complejos y aprender estrategias óptimas.
- Madurez Creciente de los Modelos de Inferencia: Los modelos de inferencia son el componente central de los Agentes, responsables de inferir y juzgar en función de la información introducida. A medida que se profundiza la investigación, los modelos de inferencia son cada vez más maduros y pueden dar un mejor soporte a las diversas aplicaciones de los Agentes.
El Auge del Ecosistema
- Rápido Desarrollo de Protocolos como MCP y A2A: MCP (Model Communication Protocol) y A2A (Agent-to-Agent) son dos importantes protocolos de comunicación de Agentes. El rápido desarrollo de estos protocolos facilita que los Agentes invoquen diversas herramientas y servicios, permitiéndoles realizar funciones más complejas.
- Cada Vez Más Fácil para los Agentes Invocar Herramientas: Con los avances tecnológicos, la forma en que los Agentes invocan herramientas y servicios externos es cada vez más conveniente. Por ejemplo, a través de las API (interfaces de programación de aplicaciones), los Agentes pueden acceder fácilmente a diversas fuentes de datos y servicios en línea, ampliando así sus propias capacidades.
En noviembre de 2024, Anthropic publicó y liberó el protocolo MCP, cuyo objetivo es estandarizar la forma en que los datos y las herramientas externas proporcionan contexto a los modelos. Esta medida promoverá enormemente el desarrollo del ecosistema de Agentes, permitiendo a los Agentes utilizar mejor los recursos externos.
MCP y A2A: Clave para la Interconexión de Agentes
Protocolo MCP: Conectando Agentes con el Mundo Exterior
El objetivo principal del protocolo MCP es lograr la ‘interconexión con un solo clic’ de los Agentes con datos y herramientas externas. A través del protocolo MCP, los Agentes pueden acceder cómodamente a diversos recursos externos, como bases de datos, API, servicios web, etc. Esto permite a los Agentes comprender mejor el entorno y tomar decisiones más informadas.
Protocolo A2A: Construyendo un Puente de Comunicación entre Agentes
El objetivo del protocolo A2A es lograr la comunicación entre Agentes. A través del protocolo A2A, los Agentes pueden colaborar entre sí para completar tareas complejas. Esto es de gran importancia para la construcción de sistemas inteligentes distribuidos.
Aunque el objetivo del protocolo A2A es la comunicación entre Agentes, y MCP es para Agentes con herramientas y datos externos, en la compleja situación de que ‘las herramientas también pueden estar encapsuladas como Agentes’, las dos funciones pueden solaparse, pero esta competencia ayuda a reducir los costes de invocación de herramientas externas y comunicación de grandes modelos. Esta competencia impulsará el progreso tecnológico y, en última instancia, beneficiará a todo el ecosistema de Agentes.
Perspectivas de Desarrollo de los Agentes
Agentes de Extremo a Extremo: Sin Intervención Humana
Actualmente, existe una gran cantidad de ‘agentes inteligentes’ en el mercado, pero una parte considerable de ellos se desarrollan sobre plataformas como Coze, Dify, etc., y requieren que los humanos escriban flujos de trabajo de antemano. Estos Agentes se parecen más a una superposición de ingeniería de prompts, y son Agentes relativamente primitivos.
Y los Agentes más avanzados son ‘de extremo a extremo’, lo que significa ‘introducir una tarea al Agente, y el Agente completa automáticamente los resultados de la tarea requeridos por los humanos’. Por ejemplo, los usuarios solo necesitan introducir un objetivo al Agente, y el Agente puede planificar y ejecutar tareas de forma autónoma, y finalmente completar el objetivo. Los Agentes avanzados como L3/L4/L5, etc., se ajustan más a las necesidades humanas y se convertirán en una dirección importante para el desarrollo futuro de los Agentes.
Agentes que Ayudan a la Robótica y la Conducción Autónoma
Cuando se aplica la definición de Agente a la inteligencia incorporada, se descubre que los robots y vehículos dominados por grandes modelos también son Agentes. Especialmente los robots, el cuello de botella actual del desarrollo de robots no está en el ‘cerebelo’ de ‘cómo hacer movimientos físicos’, sino en el ‘cerebro’ de pensar ‘qué tipo de movimientos físicos hacer’, y esto entra precisamente en el rango de alcance de los Agentes.
En el campo de la robótica, los Agentes pueden ayudar a los robots a comprender mejor el entorno y a tomar decisiones más razonables. Por ejemplo, los Agentes pueden planificar de forma autónoma la ruta de movimiento de los robots y ejecutar diversas tareas en función de los objetos y el personal del entorno.
En el campo de la conducción autónoma, los Agentes pueden ayudar a los vehículos a percibir mejor el entorno circundante y a tomar decisiones de conducción más seguras. Por ejemplo, los Agentes pueden ajustar de forma autónoma la velocidad y la dirección del vehículo en función de las señales de tráfico, otros vehículos y peatones, evitando así accidentes de tráfico.
Interconexión de Agentes y Redes Nativas de IA
En el futuro, tal vez todos los Agentes deberían poder comunicarse entre sí, autoorganizarse, autonegociarse y construir una red de colaboración de menor coste y mayor eficiencia que la Internet actual. La comunidad de desarrolladores chinos también está construyendo protocolos como ANP, cuyo objetivo es convertirse en el protocolo HTTP de la era de Internet de los Agentes. Y con respecto a la autenticación de identidad entre Agentes, se pueden utilizar tecnologías como DID.
- Interconexión de Agentes: La interconexión entre Agentes puede lograr el intercambio de recursos y la colaboración, mejorando así la eficiencia de todo el sistema. Por ejemplo, diferentes Agentes pueden compartir datos, herramientas y servicios para completar conjuntamente tareas complejas.
- Redes Nativas de IA: Las redes nativas de IA se refieren a un tipo de red diseñada específicamente para aplicaciones de inteligencia artificial. Este tipo de red puede proporcionar un mayor ancho de banda, menor latencia y mayor seguridad, apoyando así mejor las diversas aplicaciones de los Agentes.
- Tecnología DID: DID (Decentralized Identifier) es una tecnología de autenticación de identidad descentralizada. A través de la tecnología DID, los Agentes pueden tener su propia identidad, logrando así una comunicación más segura y fiable.
El desarrollo de la tecnología de Agentes traerá consigo una enorme transformación, y la Internet del futuro ya no será una simple red de transmisión de información, sino una red de colaboración llena de inteligencia.