Dall’avvento di ChatGPT, la ricerca incessante di progressi nei modelli linguistici di grandi dimensioni (LLM) è stata una caratteristica distintiva del panorama dell’IA. L’attenzione iniziale sulla dimensione dei parametri si è gradualmente spostata verso applicazioni pratiche, ma permangono sfide significative per le aziende che cercano di sfruttare la potenza dell’IA. Gli alti costi associati alla potenza di calcolo e la natura frammentata dell’ecosistema delle applicazioni di IA rimangono punti critici. Le aziende spesso scoprono che i loro ingenti investimenti in IA non si traducono nei rendimenti previsti, portando a un persistente “dilemma del ROI”.
L’Alba di MCP e A2A: Un Cambio di Paradigma
L’emergere dei protocolli Model Context Protocol (MCP) e Agent2Agent (A2A) nel 2025 segna un momento cruciale nell’evoluzione dello sviluppo di applicazioni di IA. MCP mira a standardizzare le interfacce per abbattere i silos di dati, consentendo agli LLM di accedere in modo efficiente alle risorse esterne e facilitando il flusso di dati senza interruzioni tra sistemi e piattaforme. A2A promuove ulteriormente l’interazione senza interruzioni tra gli agenti, favorendo la collaborazione e la comunicazione per formare sistemi coesi e integrati.
Il passaggio da MCP ad A2A sottolinea la crescente enfasi sull’”apertura” come motore chiave nell’ecosistema delle applicazioni di IA. Questa apertura comprende sia l’interoperabilità tecnica che lo spirito di collaborazione. Da una prospettiva più ampia, questa trasformazione riflette una progressione naturale nello sviluppo tecnologico: una transizione dall’eccitazione iniziale all’implementazione pratica e dall’innovazione isolata all’evoluzione collaborativa dell’ecosistema.
Storicamente, il valore degli LLM è stato attribuito in modo sproporzionato alla scala dei parametri e alle capacità autonome. Oggi, MCP e A2A affrontano la questione critica dell’interconnessione tra le applicazioni di IA e rimodellano le dinamiche competitive dell’ecosistema LLM. Lo sviluppo di applicazioni di IA si sta evolvendo da un approccio da “lupo solitario” a un modello di interconnessione. Ciò richiede una rivalutazione del valore dell’IA per i CTO, spostando l’attenzione dalla semplice ricerca delle dimensioni del modello e delle strategie “all-in” allo sfruttamento di piattaforme che collegano diverse capacità di IA. L’obiettivo è incorporare organicamente l’IA nei processi aziendali e nei sistemi di produzione esistenti, migliorare l’efficienza complessiva attraverso la collaborazione e la standardizzazione, risolvere problemi critici con risorse di calcolo minime e superare il “dilemma del ROI”.
Il Flagello del Calcolo Sprecato e degli Scenari Disallineati
L’incapacità di superare il collo di bottiglia ad alto investimento e bassa resa ha a lungo afflitto l’implementazione degli LLM. Questo fenomeno riflette profonde contraddizioni nello sviluppo dell’IA. Innanzitutto, vi è un significativo spreco di potenza di calcolo. I dati indicano che i centri di calcolo generici a livello aziendale operano solo al 10-15% di utilizzo, lasciando inattive vaste quantità di risorse di calcolo. In secondo luogo, vi è un disallineamento di scenari in cui le prestazioni del modello non soddisfano le reali esigenze degli scenari aziendali.
Un problema comune è l’”eccessivo utilizzo” di modelli di grandi dimensioni per attività leggere. Alcune aziende si affidano eccessivamente a LLM generici per applicazioni semplici. Inoltre, la natura unica degli scenari aziendali crea dilemmi. L’utilizzo di modelli di grandi dimensioni comporta costi computazionali elevati e lunghi tempi di inferenza. Optare per modelli più piccoli potrebbe non soddisfare i requisiti aziendali. Questo conflitto è particolarmente evidente negli scenari aziendali che richiedono conoscenze specialistiche del dominio.
Si consideri lo scenario di abbinamento talento-lavoro nel settore del reclutamento. Le aziende richiedono modelli con profonde capacità di ragionamento per comprendere le complesse relazioni tra curriculum e descrizioni del lavoro, richiedendo anche tempi di risposta rapidi. I lunghi tempi di inferenza degli LLM generici possono degradare significativamente l’esperienza dell’utente, soprattutto in caso di elevata concorrenza tra gli utenti.
Per bilanciare prestazioni ed efficienza, la distillazione del modello ha guadagnato terreno negli ultimi anni. Il lancio di DeepSeek-R1 all’inizio di quest’anno ha ulteriormente evidenziato il valore di questa tecnica. Nella gestione di complesse attività di ragionamento, la distillazione del modello cattura lo schema di “catena di pensiero” di DeepSeek-R1, consentendo ai modelli student leggeri di ereditare le sue capacità di ragionamento piuttosto che limitarsi a imitare i risultati di output.
Ad esempio, Zhaopin, una piattaforma di reclutamento leader, ha utilizzato DeepSeek-R1 (oltre 600 miliardi di parametri) come modello di insegnante per distillare la catena di pensiero e la logica decisionale utilizzate nelle attività di abbinamento talento-lavoro. Hanno utilizzato la piattaforma di sviluppo del modello Qianfan di Baidu AI Cloud per distillare il modello dell’insegnante e trasferirlo al modello ERNIE Speed (oltre 10 miliardi di parametri), il modello dello studente. Questo approccio ha raggiunto prestazioni comparabili a quelle del modello dell’insegnante (DeepSeek-R1 ha raggiunto l’85% di accuratezza nei risultati del collegamento di ragionamento, mentre il modello dello studente ha raggiunto oltre l’81%), ha migliorato la velocità di inferenza a un livello accettabile e ha ridotto i costi al 30% dell’originale ottenendo al contempo velocità 1x più veloci rispetto al DeepSeek-R1 completo.
Attualmente, le aziende adottano in genere due approcci alla distillazione del modello: costruire un sistema tecnico completo dall’infrastruttura e dalle GPU ai framework di addestramento oppure utilizzare soluzioni basate su piattaforma come la piattaforma di sviluppo del modello Qianfan o altri fornitori. Yao Sijia, esperto di applicazioni di IA presso Zhaopin, ha affermato che, sebbene Zhaopin abbia il proprio framework di addestramento, ha scelto la piattaforma di sviluppo del modello Qianfan per la distillazione del modello a causa di tre considerazioni principali:
- Supporto completo: la piattaforma di sviluppo del modello Qianfan offre un supporto leader del settore per la distillazione del modello, ottimizzando profondamente l’intera catena tecnica attorno agli scenari di distillazione.
- Controllo dei costi: rispetto all’acquisto e alla manutenzione hardware indipendenti, la piattaforma di sviluppo del modello Qianfan offre vantaggi significativi nel controllo dei costi e un’allocazione delle risorse più flessibile.
- Profonda comprensione degli scenari aziendali: il team di soluzioni professionali di Baidu comprende profondamente i requisiti fondamentali come ‘abbinamento accurato’ e ‘risposta ad alta concorrenza’ nel settore del reclutamento e collabora con le aziende per esplorare soluzioni.
Yao Sijia ha aggiunto che Zhaopin continuerà a essere pioniere negli scenari di reclutamento AI+, utilizzando la tecnologia Reinforcement Learning Fine-Tuning (RFT) di Qianfan per migliorare ulteriormente le prestazioni del modello. Hanno in programma di esplorare se il modello dell’insegnante possa essere ulteriormente migliorato e se meccanismi di ricompensa migliori possano ottimizzare i modelli degli studenti già distillati per migliorare l’accuratezza. Qianfan è la prima piattaforma in Cina a commercializzare metodi di apprendimento per rinforzo leader come RFT e GRPO. Trasformando questi metodi di apprendimento per rinforzo all’avanguardia in soluzioni implementabili, Qianfan offre ad aziende come Zhaopin più possibilità per ottimizzare le prestazioni del modello.
Tuttavia, la distillazione del modello ottimizza solo le prestazioni di un singolo modello. In scenari aziendali complessi, è necessario abbinare precisamente diverse capacità di IA agli scenari.
Si consideri uno smartphone. Negli scenari di riconoscimento dell’intento come gli assistenti di chiamata, vengono in genere utilizzati modelli leggeri per identificare rapidamente i problemi dell’utente. Per scenari di domande e risposte sulla conoscenza generale come query meteorologiche e recupero di notizie, vengono in genere utilizzati modelli di medie dimensioni per fornire rapidamente risposte accurate e informative. Negli scenari di analisi dei dati e di ragionamento logico che richiedono un pensiero approfondito, vengono in genere utilizzati modelli di grandi dimensioni.
Ciò significa che uno smartphone deve chiamare in modo flessibile più LLM in diversi scenari di richiesta dell’utente. Per i produttori di telefoni, ciò presenta sfide come costi elevati di selezione del modello e processi di chiamata complessi a causa di diversi protocolli di interfaccia del modello.
Per affrontare questi punti critici del settore, la piattaforma di sviluppo del modello Qianfan ha prodotto interfacce di routing del modello. Rispetto all’utilizzo diretto dei modelli di fabbrica originali, fornisce capacità di sviluppo personalizzate e di chiamata API pronte all’uso, aiutando le aziende a risparmiare carico di lavoro ingegneristico e tempo di sviluppo riducendo al contempo i costi. Inoltre, la piattaforma di sviluppo del modello Qianfan supporta chiamate flessibili per utenti su larga scala, garantendo velocità e stabilità anche in caso di richieste di chiamata ad alta frequenza e alta concorrenza.
A livello di modello, capacità tecniche come la distillazione del modello e la chiamata multi-modello stanno aiutando sempre più aziende a ottimizzare l’allocazione delle risorse, consentendo alle capacità di IA di corrispondere precisamente agli scenari aziendali riducendo al contempo i costi. A livello di applicazione, MCP e A2A, che hanno raccolto una notevole attenzione del settore, riducono ulteriormente i costi di prova ed errore dell’IA, aiutano le aziende a ottimizzare i paradigmi di collaborazione delle applicazioni e cambiano l’inefficiente modello di ‘reinventare la ruota’ nello sviluppo tradizionale di agenti.
Un ‘pugno combinato’ dai modelli alle applicazioni è la risposta perfetta per aiutare gli LLM a superare il ‘dilemma del ROI’.
Da Chiuso ad Aperto: Abbassare la Barriera alla Sperimentazione con l’IA
Dal 2023, la parola chiave per l’implementazione di applicazioni di IA si è gradualmente spostata su Agent. Entro il 2024, quasi tutte le aziende discutevano di applicazioni e sviluppo di Agent. Tuttavia, gli agenti a quel tempo mancavano di vere capacità di pianificazione ed erano principalmente basati su prospettive di flusso di lavoro, collegando gli LLM con applicazioni di base cucendo o proceduralizzando componenti attraverso regole guidate da esperti.
Con la recente ascesa dei protocolli MCP e A2A, il 2025 è diventato il vero ‘Anno Zero dell’Agent’. In particolare, l’impatto di MCP sul campo dell’IA è paragonabile a quello del protocollo TCP/IP su Internet.
Zhou Ze’an, CEO di Biyao Technology, ha affermato in un’intervista a InfoQ che il valore fondamentale di MCP per il campo dell’IA si riflette in tre dimensioni:
- Standardizzazione della chiamata degli strumenti LLM: in passato, ogni azienda aveva la propria implementazione di Function Call, con differenze significative tra loro. MCP stabilisce uno standard di accesso unificato, consentendo una vera standardizzazione degli schemi di pianificazione delle applicazioni tra client e server. Inoltre, MCP consente l’interazione non solo tra LLM che supportano Function Call ma anche con LLM che non hanno questa funzionalità.
- Risoluzione delle sfide della collaborazione degli strumenti: lo standard unificato del protocollo MCP rende più diversificata la costruzione di servizi Agent. Gli sviluppatori devono considerare non solo i propri agenti e servizi MCP, ma anche come integrare le capacità esterne per ottenere funzioni Agent più potenti.
- Controllo dell’intero contesto attraverso gli LLM, con conseguente interazione più intuitiva: durante la creazione di processi, può utilizzare una gamma più ampia di fonti di dati per risolvere compiti complessi che prima erano impossibili.
‘In generale, il protocollo MCP riduce significativamente la barriera per le aziende all’adozione della tecnologia AI. In passato, il processo di integrazione tecnica per l’accesso agli agenti era complesso. Ora, le aziende non hanno più bisogno di comprendere a fondo i complessi dettagli di implementazione tecnica, ma devono solo chiarire le proprie esigenze aziendali’, ha affermato Zhou Ze’an. Biyao Technology ha aperto completamente le capacità di elaborazione dei documenti del suo LLM verticale del settore delle risorse umane autosviluppato ‘Bole’ tramite il protocollo MCP, inclusi contratti, curriculum e PPT, ed è diventata uno dei primi sviluppatori aziendali a lanciare componenti MCP sulla piattaforma di sviluppo di applicazioni Qianfan. Attualmente, qualsiasi azienda o sviluppatore individuale può chiamare direttamente le sue capacità professionali sulla piattaforma Qianfan.
‘Baidu aiuterà gli sviluppatori ad abbracciare attivamente e in modo completo MCP.’ Alla Create2025 Baidu AI Developer Conference tenutasi il 25 aprile, la piattaforma Qianfan ha lanciato ufficialmente servizi MCP di livello aziendale. Il fondatore di Baidu, Li Yanhong, ha dimostrato il caso della piattaforma Qianfan che abbraccia MCP, consentendo agli sviluppatori di accedere in modo flessibile a 1000 server MCP, tra cui ricerca AI, mappe e Wenku di Baidu, durante la creazione di agenti. Inoltre, Qianfan ha lanciato uno strumento low-code per la creazione di server MCP, consentendo agli sviluppatori di sviluppare facilmente i propri server MCP su Qianfan e pubblicarli su Qianfan MCP Square con un clic. Questi server MCP saranno anche prontamente indicizzati dalla ricerca di Baidu, consentendo loro di essere scoperti e utilizzati da più sviluppatori.
Infatti, Qianfan ha continuamente risolto il problema dell’ultimo miglio dell’implementazione dell’IA prima dell’ascesa del protocollo MCP, aiutando le aziende in modo efficiente e con basse barriere a godere dei vantaggi della tecnologia AI e fornendo soluzioni mature per più settori.
Ad esempio, nel settore della smart home, le aziende affrontano generalmente un problema comune: come fornire servizi intelligenti accurati per modelli di prodotti massicci? Con l’accelerata implementazione degli LLM, sempre più aziende utilizzano agenti per fornire rapidamente agli utenti risposte accurate e personalizzate. Tuttavia, ciò porta anche una nuova sfida: come sviluppare e gestire numerosi agenti? I marchi di smart home hanno in genere molte diverse categorie e modelli di prodotti. La creazione di un agente per ogni prodotto separatamente non solo comporterebbe costi di sviluppo elevati, ma anche costi di gestione e manutenzione significativi nelle fasi successive.
Ad esempio, un marchio leader di smart home ha utilizzato la piattaforma di sviluppo di applicazioni Qianfan di Baidu AI Cloud per trattare i nomi dei file come sezioni indipendenti e incorporare informazioni sulle sezioni del nome file in ogni sezione a grana fine. Invece di creare un agente per ogni prodotto separatamente, avevano solo bisogno di ordinare la base di conoscenza corrispondente e definire i nomi dei modelli di prodotto. Quindi, potrebbero utilizzare la strategia di analisi automatica del framework RAG della piattaforma Qianfan per ottenere una corrispondenza precisa dei modelli di prodotto e dei punti di conoscenza.
La piattaforma di sviluppo di applicazioni Qianfan fornisce inoltre al marchio una serie di strumenti operativi per costruire un hub intelligente in continua evoluzione. Attraverso la funzione di riflusso dei dati, tutti i record di interazione dell’utente vengono trasformati in materiali di ottimizzazione. Il personale operativo può visualizzare i problemi ad alta frequenza in tempo reale e intervenire immediatamente sui punti di conoscenza scoperti, formando un ciclo chiuso di ‘operazione - feedback - ottimizzazione’. Inoltre, la piattaforma di sviluppo di applicazioni Qianfan e Xiaodu AI Assistant hanno costruito congiuntamente un framework di interazione vocale. Affidandosi a questo framework, il marchio può consentire all’hardware di ‘parlare’ direttamente con gli utenti, ottenendo un’esperienza interattiva più naturale, efficiente e personalizzata.
Da MCP ad A2A, l’apertura è diventata una nuova parola chiave nell’ecosistema delle applicazioni LLM. L’apertura è anche l’intento originale della piattaforma Qianfan. Dal primo giorno della sua uscita nel 2023, Qianfan ha adottato la posizione più aperta per accedere a una vasta gamma di LLM di terze parti. Attualmente, Qianfan ha accesso a oltre 100 modelli di oltre 30 fornitori di modelli, che coprono 11 tipi di capacità come testo, immagine e ragionamento profondo, inclusi modelli di terze parti come DeepSeek, LLaMA, Tongyi e Vidu. Fornisce inoltre una gamma completa di LLM Wenxin, tra cui il modello multi-modale nativo Wenxin 4.5 Turbo di recente rilascio e il modello di pensiero profondo Wenxin X1 Turbo, nonché il modello di pensiero profondo Wenxin X1 precedentemente rilasciato.
Per le aziende che desiderano implementare rapidamente la tecnologia AI, Baidu AI Cloud sta gradualmente diventando la prima scelta. I dati di mercato sono la migliore prova. Attualmente, la piattaforma Qianfan serve oltre 400.000 clienti, con un tasso di penetrazione di oltre il 60% nelle imprese centrali. Secondo il China Large Model Bidding Project Monitoring and Insight Report (2025Q1), Baidu ha ottenuto un doppio primato nel numero di progetti di offerte di grandi modelli e nell’importo delle offerte vincenti nel primo trimestre: vincendo 19 progetti di offerte di grandi modelli con un importo di progetto divulgato di oltre 450 milioni di yuan, e i progetti di grandi modelli vincenti provenivano quasi tutti da clienti di imprese statali centrali in settori come energia e finanza.
La pagella di Baidu AI Cloud invia anche un segnale al mondo esterno: in questa battaglia a lungo termine per l’implementazione della tecnologia AI, solo le soluzioni che comprendono veramente i punti deboli del settore e possono aiutare le aziende a ridurre i costi di prova ed errore sono le più vitali.