L’Ascesa del Concetto di Agent
Negli ultimi anni, il settore degli Agent (agenti intelligenti) ha attirato l’attenzione del mercato come mai prima d’ora, con il lancio del server GitHub MCP di Microsoft, la pubblicazione del protocollo di comunicazione inter-agente A2A di Google e il lancio del server MCP di Alipay. Sebbene non esista ancora una definizione completamente unificata di Agent, i tre componenti chiave proposti dall’ex ricercatrice di OpenAI Lilian Weng, “pianificazione”, “memoria” e “utilizzo degli strumenti”, sono ampiamente riconosciuti e sono diventati elementi chiave per comprendere gli Agent.
Nel campo dell’intelligenza artificiale, il concetto di Agent non è una novità, ma con il rapido sviluppo dei modelli linguistici di grandi dimensioni (LLM), le prospettive di applicazione degli Agent hanno accolto una nuova svolta. Un Agent può essere visto come un sistema intelligente in grado di percepire l’ambiente, pianificare ed eseguire autonomamente le attività. Il suo fulcro è la capacità di simulare il processo decisionale umano e di utilizzare vari strumenti e risorse per raggiungere gli obiettivi prefissati.
Stato Attuale dello Sviluppo degli Agent: Enorme Potenziale, Penetrazione da Migliorare
In quanto versione evoluta dei chatbot, le attuali applicazioni di Agent sono per lo più integrate nei servizi a pagamento di modelli di grandi dimensioni e solo pochi Agent, come Manus e Devin, forniscono servizi a pagamento indipendenti. Tuttavia, Agent come Deep Research e Manus, che hanno la capacità di pianificare autonomamente, presentano ancora molte limitazioni nell’uso e il numero di utenti che possono sperimentarli realmente potrebbe non essere elevato, e c’è ancora un ampio margine di miglioramento prima che emerga un’applicazione “di successo”.
Tuttavia, con il continuo miglioramento della capacità di inferenza dei modelli di grandi dimensioni, gli Agent stanno gradualmente diventando il fulcro dell’innovazione applicativa. Sempre più sviluppatori e ricercatori stanno iniziando a esplorare le applicazioni degli Agent in vari campi, come assistenti intelligenti, processi automatizzati, analisi dei dati, ecc. Il potenziale degli Agent viene gradualmente sfruttato e gli spazi di sviluppo futuri sono molto ampi.
Applicazioni su Larga Scala degli Agent Imminenti: Trainate da Molteplici Condizioni Favorevoli
Progressi nel Training dei Modelli
- Crescita Rapida delle Finestre di Contesto: La finestra di contesto (Context Window) di un modello di grandi dimensioni si riferisce alla lunghezza massima del testo che il modello può considerare durante l’elaborazione del testo. Con il progresso della tecnologia, la finestra di contesto dei modelli sta crescendo rapidamente, il che significa che i modelli sono in grado di comprendere meglio il contesto di testi lunghi, prendendo così decisioni più accurate.
- Applicazione Approfondita dell’Apprendimento per Rinforzo: L’apprendimento per rinforzo è un metodo per addestrare gli Agent attraverso premi e punizioni. Negli ultimi anni, l’apprendimento per rinforzo è stato ampiamente utilizzato nell’addestramento degli Agent, consentendo loro di adattarsi meglio ad ambienti complessi e di apprendere strategie ottimali.
- Modelli di Inferenza Sempre Più Matura: Il modello di inferenza è il componente principale di un Agent, responsabile dell’inferenza e del giudizio in base alle informazioni di input. Con l’approfondimento della ricerca, i modelli di inferenza stanno diventando sempre più maturi, in grado di supportare meglio le varie applicazioni degli Agent.
Il Fiorire dell’Ecosistema
- Sviluppo Rapido di Protocolli Come MCP e A2A: MCP (Model Communication Protocol) e A2A (Agent-to-Agent) sono due importanti protocolli di comunicazione tra Agent. Il rapido sviluppo di questi protocolli consente agli Agent di richiamare più facilmente vari strumenti e servizi, realizzando così funzioni più complesse.
- Chiamata di Strumenti da Parte degli Agent Sempre Più Conveniente: Con il progresso della tecnologia, i modi in cui gli Agent chiamano strumenti e servizi esterni stanno diventando sempre più convenienti. Ad esempio, attraverso le API (Application Programming Interface), gli Agent possono accedere facilmente a varie fonti di dati e servizi online, ampliando così le proprie capacità.
Nel novembre 2024, Anthropic ha rilasciato e reso open source il protocollo MCP, con l’obiettivo di standardizzare il modo in cui i dati e gli strumenti esterni forniscono contesto ai modelli. Questa mossa promuoverà notevolmente lo sviluppo dell’ecosistema Agent, consentendo agli Agent di utilizzare meglio le risorse esterne.
MCP e A2A: La Chiave per l’Interconnessione degli Agent
Protocollo MCP: Collegare gli Agent al Mondo Esterno
L’obiettivo principale del protocollo MCP è quello di realizzare l’”interconnessione con un clic” tra gli Agent e i dati e gli strumenti esterni. Attraverso il protocollo MCP, gli Agent possono accedere facilmente a varie risorse esterne, come database, API, servizi web, ecc. Ciò consente agli Agent di comprendere meglio l’ambiente e di prendere decisioni più informate.
Protocollo A2A: Costruire un Ponte di Comunicazione tra gli Agent
L’obiettivo del protocollo A2A è quello di realizzare la comunicazione tra gli Agent. Attraverso il protocollo A2A, gli Agent possono collaborare tra loro per completare compiti complessi. Ciò è di grande importanza per la costruzione di sistemi intelligenti distribuiti.
Sebbene l’obiettivo del protocollo A2A sia la comunicazione tra Agent e MCP tra Agent e strumenti e dati esterni, nella complessa situazione in cui “gli strumenti possono anche essere incapsulati come Agent”, le due funzioni possono sovrapporsi, ma questa competizione aiuta a ridurre i costi di chiamata degli strumenti esterni e di comunicazione dei grandi modelli. Questa competizione promuoverà il progresso tecnologico e alla fine andrà a vantaggio dell’intero ecosistema Agent.
Prospettive di Sviluppo degli Agent
Agent End-to-End: Nessun Intervento Umano
Attualmente, sul mercato esiste un gran numero di “agenti intelligenti”, ma una parte considerevole di essi è sviluppata su piattaforme come Coze, Dify, ecc. e richiede che gli esseri umani scrivano in anticipo il flusso di lavoro. Questi Agent sono più simili alla sovrapposizione di ingegneria dei prompt e appartengono ad Agent relativamente primari.
Agent più avanzati sono “end-to-end”, il che significa che “l’input di un’attività a un Agent, l’Agent completa automaticamente i risultati dell’attività richiesti dagli esseri umani”. Ad esempio, gli utenti devono solo inserire un obiettivo in un Agent e l’Agent è in grado di pianificare ed eseguire autonomamente l’attività, completando infine l’obiettivo. Agent avanzati come L3/L4/L5 sono più in linea con le esigenze umane e diventeranno un’importante direzione per lo sviluppo futuro degli Agent.
Gli Agent Supportano Robot e Guida Autonoma
Quando la definizione di Agent viene applicata all’intelligenza incarnata, si scopre che i robot e i veicoli dominati da modelli di grandi dimensioni sono anche Agent. Soprattutto i robot, l’attuale collo di bottiglia dello sviluppo dei robot non risiede nel “come fare azioni fisiche” del “cervelletto”, ma nel pensare “quale azione fisica fare” del “cervello”, che rientra proprio nel raggio d’azione dell’Agent.
Nel campo della robotica, gli Agent possono aiutare i robot a comprendere meglio l’ambiente e a prendere decisioni più ragionevoli. Ad esempio, gli Agent possono pianificare autonomamente il percorso di movimento dei robot ed eseguire varie attività in base agli oggetti e alle persone nell’ambiente.
Nel campo della guida autonoma, gli Agent possono aiutare i veicoli a percepire meglio l’ambiente circostante e a prendere decisioni di guida più sicure. Ad esempio, gli Agent possono regolare autonomamente la velocità e la direzione del veicolo in base ai segnali stradali, ad altri veicoli e ai pedoni, evitando così il verificarsi di incidenti stradali.
Interconnessione degli Agent e Rete AI Nativa
In futuro, forse tutti gli Agent dovrebbero essere in grado di comunicare tra loro, auto-organizzarsi, auto-negoziare e costruire una rete di collaborazione a costi inferiori e maggiore efficienza rispetto all’attuale Internet. La comunità di sviluppatori cinese sta anche costruendo protocolli come ANP, con l’obiettivo di diventare il protocollo HTTP dell’era Internet degli Agent. Per quanto riguarda l’autenticazione dell’identità tra Agent, è possibile utilizzare tecnologie come DID.
- Interconnessione degli Agent: L’interconnessione tra Agent può realizzare la condivisione delle risorse e la collaborazione, migliorando così l’efficienza dell’intero sistema. Ad esempio, diversi Agent possono condividere dati, strumenti e servizi per completare insieme compiti complessi.
- Rete AI Nativa: La rete AI nativa si riferisce a una rete appositamente progettata per applicazioni di intelligenza artificiale. Questa rete può fornire una maggiore larghezza di banda, una minore latenza e una maggiore sicurezza, supportando così meglio le varie applicazioni degli Agent.
- Tecnologia DID: DID (Decentralized Identifier) è una tecnologia di autenticazione dell’identità decentralizzata. Attraverso la tecnologia DID, gli Agent possono avere la propria identità, realizzando così una comunicazione più sicura e affidabile.
Lo sviluppo della tecnologia Agent porterà enormi cambiamenti e il futuro di Internet non sarà più una semplice rete di trasmissione di informazioni, ma una rete di collaborazione piena di intelligenza.