Riconsiderare i Benchmark AI: Una Misura Significativa

La ricerca di un’intelligenza artificiale (AI) superiore è spesso alimentata dai punteggi dei benchmark, ma questi punteggi sono veramente indicativi delle capacità del mondo reale? La comunità dell’AI è alle prese con questa domanda mentre i benchmark tradizionali affrontano un esame sempre più approfondito.

SWE-Bench, introdotto nel novembre 2024, ha rapidamente guadagnato terreno come strumento popolare per valutare l’abilità di codifica di un modello AI. Sfrutta oltre 2.000 autentiche sfide di programmazione estratte da repository GitHub pubblici in una dozzina di progetti basati su Python. Un forte punteggio SWE-Bench è diventato un badge ambito, esposto in modo prominente nelle principali versioni di modelli di importanti sviluppatori di AI come OpenAI, Anthropic e Google. Oltre a questi giganti, le aziende di AI specializzate nella messa a punto competono costantemente per la supremazia nella classifica SWE-Bench.

Tuttavia, il fervore che circonda questi benchmark potrebbe essere fuorviante. John Yang, un ricercatore dell’Università di Princeton coinvolto nello sviluppo di SWE-Bench, osserva che l’intensa competizione per il primo posto ha portato al “gaming” del sistema. Ciò solleva preoccupazioni sul fatto che questi benchmark riflettano accuratamente i risultati reali dell’AI.

Il problema non è necessariamente un palese imbroglio, ma piuttosto lo sviluppo di strategie specificamente adattate per sfruttare i limiti del benchmark. Ad esempio, l’iniziale SWE-Bench si concentrava esclusivamente sul codice Python, incentivando gli sviluppatori ad addestrare i propri modelli esclusivamente su Python. Yang ha osservato che questi modelli con punteggi elevati spesso vacillavano quando confrontati con diversi linguaggi di programmazione, esponendo una comprensione superficiale che descrive come “dorata”.

“Sembra bello e brillante a prima vista, ma poi provi a eseguirlo su un linguaggio diverso e tutto crolla”, spiega Yang. “A quel punto, non stai progettando un agente di ingegneria del software. Stai progettando per creare un agente SWE-Bench, il che è molto meno interessante.”

Questo “problema SWE-Bench” riflette una sfida più ampia nella valutazione dell’AI. I benchmark, una volta considerati indicatori affidabili di progresso, sono sempre più distaccati dalle capacità del mondo reale. A complicare il problema, sono emerse preoccupazioni sulla trasparenza, erodendo ulteriormente la fiducia in queste metriche. Nonostante questi problemi, i benchmark continuano a svolgere un ruolo fondamentale nello sviluppo del modello, anche se molti esperti ne mettono in discussione il valore intrinseco. Il co-fondatore di OpenAI, Andrej Karpathy, ha persino definito la situazione attuale una “crisi di valutazione”, lamentando la mancanza di metodi affidabili per misurare le capacità dell’AI e l’assenza di un chiaro percorso da seguire.

Vanessa Parli, direttrice della ricerca presso l’Institute for Human-Centered AI della Stanford University, chiede: “Storicamente, i benchmark erano il modo in cui valutavamo i sistemi AI. È questo il modo in cui vogliamo valutare i sistemi in futuro? E se non lo è, qual è il modo?”

Un contingente crescente di accademici e ricercatori di AI sostiene un approccio più mirato, traendo ispirazione dalle scienze sociali. Propongono di dare priorità alla “validità”, un concetto centrale per la scienza sociale quantitativa, che valuta quanto bene uno strumento di misurazione cattura accuratamente il costrutto previsto. Questa enfasi sulla validità potrebbe sfidare i benchmark che valutano concetti vagamente definiti come “ragionamento” o “conoscenza scientifica”. Sebbene possa temperare la ricerca dell’intelligenza artificiale generale (AGI), fornirebbe una base più solida per valutare i singoli modelli.

Abigail Jacobs, professoressa all’Università del Michigan e una voce di spicco nella spinta alla validità, afferma: “Prendere sul serio la validità significa chiedere alle persone nel mondo accademico, nell’industria o ovunque di dimostrare che il loro sistema fa ciò che dicono che fa. Penso che indichi una debolezza nel mondo dell’AI se vogliono tirarsi indietro dal dimostrare che possono supportare la loro affermazione.”

I Limiti dei Test Tradizionali

La dipendenza dell’industria dell’AI dai benchmark deriva dai loro successi passati, in particolare in sfide come ImageNet.

ImageNet, lanciato nel 2010, ha presentato ai ricercatori un database di oltre 3 milioni di immagini classificate in 1.000 classi diverse. La sfida era agnostica rispetto al metodo, consentendo a qualsiasi algoritmo di successo di acquisire credibilità indipendentemente dal suo approccio sottostante. La svolta di AlexNet nel 2012, che utilizzava una forma non convenzionale di addestramento GPU, è diventata una pietra angolare dell’AI moderna. Sebbene pochi avrebbero potuto prevedere che le reti neurali convoluzionali di AlexNet avrebbero sbloccato il riconoscimento delle immagini, il suo punteggio elevato ha silenziato ogni dubbio. (In particolare, uno degli sviluppatori di AlexNet è diventato co-fondatore di OpenAI.)

L’efficacia di ImageNet derivava dalla stretta corrispondenza tra la sfida e le attività di riconoscimento delle immagini del mondo reale. Anche con i dibattiti sui metodi, il modello con il punteggio più alto ha invariabilmente dimostrato prestazioni superiori nelle applicazioni pratiche.

Tuttavia, negli anni successivi, i ricercatori di AI hanno applicato questo stesso approccio agnostico rispetto al metodo a compiti sempre più generali. SWE-Bench, ad esempio, viene spesso utilizzato come proxy per una più ampia capacità di codifica, mentre altri benchmark in stile esame vengono utilizzati per valutare la capacità di ragionamento. Questa ampia portata rende difficile definire rigorosamente ciò che misura un benchmark specifico, ostacolando l’interpretazione responsabile dei risultati.

Dove le Cose si Rompono

Anka Reuel, una studentessa di dottorato a Stanford, sostiene che la spinta verso la generalità è alla radice del problema della valutazione. “Siamo passati da modelli specifici per attività a modelli per scopi generali”, afferma Reuel. “Non si tratta più di una singola attività, ma di un intero gruppo di attività, quindi la valutazione diventa più difficile.”

Come Jacobs, Reuel crede che “il problema principale dei benchmark sia la validità, anche più dell’implementazione pratica”, osservando: “È lì che molte cose si rompono.” Per compiti complessi come la codifica, è quasi impossibile racchiudere ogni scenario concepibile in un set di problemi. Di conseguenza, diventa difficile discernere se il punteggio più alto di un modello riflette una vera abilità di codifica o semplicemente un’abile manipolazione del set di problemi. L’intensa pressione per raggiungere punteggi record incentiva ulteriormente le scorciatoie.

Gli sviluppatori sperano che il successo in una moltitudine di benchmark specifici si traduca in un modello generalmente capace. Tuttavia, l’ascesa dell’AI agentica, in cui un singolo sistema può incorporare una complessa serie di modelli, rende difficile valutare se i miglioramenti su compiti specifici si generalizzeranno. “Ci sono solo molte più manopole che puoi girare”, afferma Sayash Kapoor, un informatico di Princeton e un critico delle pratiche negligenti nell’industria dell’AI. “Quando si tratta di agenti, si sono un po’ arresi alle migliori pratiche per la valutazione.”

In un articolo pubblicato lo scorso luglio, Kapoor ha evidenziato problemi specifici con il modo in cui i modelli AI si sono avvicinati al benchmark WebArena nel 2024, che testa la capacità di un agente AI di navigare sul web. Il benchmark è costituito da oltre 800 compiti eseguiti su siti web clonati che imitano Reddit, Wikipedia e altri. Kapoor e il suo team hanno scoperto che il modello vincente, STeP, sfruttava la struttura degli URL di Reddit per accedere direttamente alle pagine del profilo utente, un requisito frequente nei compiti di WebArena.

Pur non essendo un vero e proprio imbroglio, Kapoor considera questa una “seria falsa rappresentazione di quanto bene l’agente avrebbe funzionato se avesse visto i compiti in WebArena per la prima volta”. Nonostante ciò, l’agente web di OpenAI, Operator, ha successivamente adottato una politica simile.

Illustrando ulteriormente i problemi con i benchmark AI, Kapoor e un team di ricercatori hanno recentemente pubblicato un articolo rivelando problemi significativi in Chatbot Arena, un popolare sistema di valutazione crowdsourcing. I loro risultati hanno indicato che la classifica veniva manipolata, con alcuni modelli di fondazione di punta che si impegnavano in test privati non divulgati e rilasciando selettivamente i loro punteggi.

Anche ImageNet, il benchmark che ha dato inizio a tutto, sta ora affrontando problemi di validità. Uno studio del 2023 condotto da ricercatori dell’Università di Washington e di Google Research ha scoperto che gli algoritmi vincenti di ImageNet hanno mostrato “poco o nessun progresso” quando applicati a sei set di dati del mondo reale, suggerendo che la validità esterna del test aveva raggiunto il suo limite.

Andare Più Piccolo

Per affrontare il problema della validità, alcuni ricercatori propongono di ricollegare i benchmark a compiti specifici. Come afferma Reuel, gli sviluppatori di AI “devono ricorrere a questi benchmark di alto livello che sono quasi privi di significato per i consumatori a valle, perché gli sviluppatori del benchmark non possono più prevedere l’attività a valle”.

Nel novembre 2024, Reuel ha lanciato BetterBench, un progetto di classifica pubblica che valuta i benchmark in base a vari criteri, tra cui la chiarezza della documentazione del codice e, soprattutto, la validità del benchmark nella misurazione della sua capacità dichiarata. BetterBench sfida i progettisti a definire chiaramente cosa testa il loro benchmark e come si relaziona alle attività che comprendono il benchmark.

“È necessario avere una ripartizione strutturale delle capacità”, afferma Reuel. “Quali sono le competenze reali a cui tieni e come le rendi operative in qualcosa che possiamo misurare?”

I risultati sono rivelatori. L’Arcade Learning Environment (ALE), istituito nel 2013 per testare la capacità dei modelli di imparare a giocare ai giochi Atari 2600, emerge come uno dei benchmark con il punteggio più alto. Al contrario, il benchmark Massive Multitask Language Understanding (MMLU), un test ampiamente utilizzato per le competenze linguistiche generali, riceve uno dei punteggi più bassi a causa di una connessione scarsamente definita tra le domande e la competenza sottostante.

Sebbene BetterBench non abbia ancora avuto un impatto significativo sulla reputazione di benchmark specifici, è riuscito a portare la validità in prima linea nelle discussioni su come migliorare i benchmark AI. Reuel si è unita a un nuovo gruppo di ricerca ospitato da Hugging Face, l’Università di Edimburgo ed EleutherAI, dove svilupperà ulteriormente le sue idee sulla validità e la valutazione del modello AI.

Irene Solaiman, responsabile della politica globale di Hugging Face, afferma che il gruppo si concentrerà sulla costruzione di benchmark validi che vadano oltre la misurazione delle capacità dirette. “C’è solo così tanta fame di un buon benchmark pronto all’uso che funzioni già”, afferma Solaiman. “Molte valutazioni stanno cercando di fare troppo.”

L’industria più ampia sembra convergere su questo punto di vista. In un articolo pubblicato a marzo, ricercatori di Google, Microsoft, Anthropic e altri hanno delineato un nuovo quadro per migliorare le valutazioni, con la validità come pietra angolare.

“La scienza della valutazione dell’AI deve”, sostengono i ricercatori, “andare oltre le affermazioni generiche di ‘intelligenza generale’ verso misure di progresso più specifiche per attività e rilevanti per il mondo reale.”

Misurare le Cose “Molli”

Per facilitare questo cambiamento, alcuni ricercatori si stanno rivolgendo agli strumenti delle scienze sociali. Un documento di posizione di febbraio ha sostenuto che “la valutazione dei sistemi GenAI è una sfida di misurazione delle scienze sociali”, esplorando specificamente come i sistemi di validità delle scienze sociali possono essere applicati al benchmarking AI.

Gli autori, principalmente del ramo di ricerca di Microsoft, ma che includono anche accademici di Stanford e dell’Università del Michigan, indicano gli standard che gli scienziati sociali usano per misurare concetti contestati come ideologia, democrazia e parzialità dei media. Applicate ai benchmark AI, queste stesse procedure potrebbero fornire un modo per misurare concetti come “ragionamento” e “competenza matematica” senza ricorrere a vaghe generalizzazioni.

La letteratura delle scienze sociali sottolinea l’importanza di definire rigorosamente il concetto che viene misurato. Ad esempio, un test progettato per misurare il livello di democrazia in una società deve prima stabilire una definizione chiara di una “società democratica” e quindi formulare domande pertinenti a tale definizione.

Per applicare questo a un benchmark come SWE-Bench, i progettisti dovrebbero abbandonare il tradizionale approccio di apprendimento automatico di raccogliere problemi di programmazione da GitHub e creare uno schema per convalidare le risposte. Invece, dovrebbero prima definire ciò che il benchmark mira a misurare (ad esempio, “capacità di risolvere problemi contrassegnati nel software”), suddividerlo in sottocompetenze (ad esempio, diversi tipi di problemi o strutture di programma) e quindi costruire domande che coprano accuratamente tali sottocompetenze.

Per ricercatori come Jacobs, questo profondo cambiamento rispetto al modo in cui i ricercatori di AI si avvicinano in genere al benchmarking è proprio il punto. “C’è una discrepanza tra ciò che sta accadendo nel settore tecnologico e questi strumenti delle scienze sociali”, afferma. “Abbiamo decenni e decenni di riflessioni su come vogliamo misurare queste cose molli sugli umani.”

Nonostante il crescente impatto di queste idee nella comunità di ricerca, la loro influenza sul modo in cui le aziende di AI utilizzano effettivamente i benchmark è stata lenta.

Le recenti versioni di modelli di OpenAI, Anthropic, Google e Meta continuano a fare molto affidamento su benchmark di conoscenza a scelta multipla come MMLU, lo stesso approccio che i ricercatori sulla validità stanno tentando di superare. Le versioni dei modelli, per la maggior parte, si concentrano ancora sulla dimostrazione di aumenti dell’intelligenza generale e i benchmark ampi vengono utilizzati per supportare queste affermazioni.

Alcuni osservatori lo trovano soddisfacente. Il professore di Wharton Ethan Mollick suggerisce che i benchmark, pur essendo “misure cattive delle cose, sono anche ciò che abbiamo”. Aggiunge: “Allo stesso tempo, i modelli stanno migliorando. Molti peccatisono perdonati da un rapido progresso.”

Per ora, la focalizzazione di lunga data dell’industria sull’intelligenza artificiale generale sembra oscurare un approccio più mirato e basato sulla validità. Finché i modelli AI continuano ad avanzare nell’intelligenza generale, le applicazioni specifiche sembrano meno interessanti, anche se i professionisti utilizzano strumenti di cui non si fidano più completamente.

“Questa è la corda tesa su cui stiamo camminando”, afferma Solaiman di Hugging Face. “È troppo facile buttare fuori il sistema, ma le valutazioni sono davvero utili per capire i nostri modelli, anche con questi limiti.”