L'IA di Meta si Risveglia su Windows 98 | it

In un’affascinante collisione di ere tecnologiche, è emersa una narrazione che collega i primi giorni dell’informatica domestica diffusa con l’avanguardia dell’intelligenza artificiale. Marc Andreessen, figura di spicco nel mondo tecnologico e co-fondatore dell’influente società di venture capital Andreessen Horowitz, ha recentemente messo in luce un’impresa notevole: una versione compatta del modello di intelligenza artificiale Llama di Meta è stata eseguita con successo su un computer con il venerabile sistema operativo Windows 98, dotato di soli 128 megabyte di RAM. Questa rivelazione funge da potente promemoria del potenziale tecnologico e solleva intriganti interrogativi sulla traiettoria storica dell’informatica.

L’idea stessa di eseguire un’IA sofisticata, anche se ridotta, su hardware risalente a oltre un quarto di secolo fa sembra quasi paradossale. L’IA generativa moderna, la tecnologia che alimenta strumenti come ChatGPT e Copilot di Microsoft, è tipicamente associata a processori potenti, allocazioni di memoria sostanziali e, spesso, infrastrutture basate su cloud. Microsoft stessa ha investito massicciamente nell’integrazione delle capacità di IA, in particolare del suo assistente Copilot, profondamente nel suo ultimo sistema operativo, Windows 11, e in una nuova generazione di hardware denominata Copilot+ PCs, progettata esplicitamente pensando ai carichi di lavoro dell’IA. Questo contrasto rende l’esperimento di Windows 98 ancora più sorprendente. Sfida le nostre supposizioni sulle risorse veramente necessarie per determinate funzioni di IA e offre uno sguardo su una linea temporale tecnologica alternativa.

Resuscitare il Passato: Lo Sforzo Ercoleo Dietro l’Esperimento

Mentre Andreessen ha portato maggiore attenzione a questo risultato, il lavoro tecnico pesante sembra derivare da lavori precedenti, in particolare dal team di Exo Labs. Il loro percorso per convincere un’IA moderna a funzionare su macchinari così datati è stato tutt’altro che semplice; è stato un esercizio di archeologia digitale e problem solving creativo, evidenziando le vaste differenze tra l’informatica di allora e quella di oggi.

Il primo ostacolo riguardava la logistica di base e la compatibilità hardware. Trovare hardware funzionante dell’era di Windows 98 è già abbastanza impegnativo. Ma oltre al semplice avvio della macchina, il team aveva bisogno di periferiche. Le moderne interfacce USB, oggi onnipresenti, non erano standard nel periodo d’oro di Windows 98. Ciò ha reso necessario reperire dispositivi di input compatibili utilizzando i vecchi connettori PS/2 – tastiere e mouse che molti giovani appassionati di tecnologia potrebbero non aver mai incontrato.

Una volta affrontata la configurazione fisica, l’ostacolo significativo successivo è stato il trasferimento dei dati. Come si trasferiscono i file del modello AI necessari e gli strumenti di sviluppo su una macchina priva di opzioni di connettività moderne come porte USB ad alta velocità o integrazione di rete senza soluzione di continuità? Ciò ha probabilmente comportato il ricorso a metodi più vecchi e lenti, forse masterizzando file su CD o utilizzando protocolli di rete limitati dell’epoca, trasformando una semplice copia di file in un processo potenzialmente lungo.

La sfida tecnica principale, tuttavia, risiedeva nella compilazione di codice moderno per un ambiente antico. Il modello AI, basato sull’architettura Llama di Meta, è costruito utilizzando pratiche e linguaggi di programmazione contemporanei. Rendere questo codice comprensibile ed eseguibile da Windows 98 richiedeva un compilatore – un programma che traduce il codice sorgente in linguaggio macchina – che potesse funzionare sul vecchio sistema operativo e gestire le complessità del codice AI.

Exo Labs si è inizialmente rivolta a Borland C++ 5.02, anch’esso un pezzo di storia del software – una combinazione di ambiente di sviluppo integrato (IDE) e compilatore vecchia di 26 anni che funzionava nativamente su Windows 98. Questa scelta rappresentava un potenziale ponte tra la base di codice moderna e il sistema operativo vintage. Tuttavia, il percorso era irto di complicazioni. Le complessità degli standard e delle librerie C++ moderne si sono rivelate difficili da conciliare con le capacità e le limitazioni del compilatore Borland e dell’ambiente Windows 98. Sono sorti problemi di compatibilità, costringendo il team a cambiare strategia.

La loro soluzione ha comportato la regressione a una versione precedente del linguaggio di programmazione C. Sebbene C sia un linguaggio fondamentale e il precursore di C++, l’utilizzo di uno standard C più vecchio significava sacrificare alcune delle astrazioni di livello superiore e delle comodità di C++. Ciò ha richiesto un processo di codifica più laborioso, gestendo manualmente elementi come funzioni e variabili che C++ gestisce in modo più elegante. Il progresso è stato inevitabilmente più lento, richiedendo un’attenzione meticolosa ai dettagli per evitare errori che i vecchi strumenti di sviluppo potrebbero non rilevare facilmente.

La Stretta della Memoria: Domare Llama per Risorse Limitate

Forse il vincolo più scoraggiante era la memoria ad accesso casuale (RAM) estremamente limitata. La macchina target possedeva solo 128 megabyte di RAM. Per mettere questo in prospettiva, gli smartphone moderni vengono regolarmente forniti con 8, 12 o addirittura 16 gigabyte di RAM (un gigabyte corrisponde a circa 1000 megabyte). I PC di fascia alta progettati per i giochi o il lavoro professionale spesso dispongono di 32GB, 64GB o più. Eseguire un’applicazione complessa come un modello AI all’interno di un’impronta di memoria così minuscola è come eseguire un intervento chirurgico complesso in uno sgabuzzino.

La famiglia di modelli Llama di Meta, sebbene generalmente considerata più efficiente in termini di risorse rispetto a colossi come GPT-4 di OpenAI, comprende comunque versioni con miliardi di parametri. L’architettura Llama 2, ad esempio, include modelli che scalano fino a 70 miliardi di parametri. Questi modelli più grandi richiedono una notevole potenza computazionale e, soprattutto, enormi quantità di memoria per caricare i pesi del modello e gestire i calcoli coinvolti nell’elaborazione delle informazioni e nella generazione delle risposte. Un modello Llama 2 standard sarebbe assolutamente incapace di funzionare entro un vincolo di 128MB.

Pertanto, il successo dell’esperimento dipendeva dall’utilizzo o dallo sviluppo di un’iterazione altamente ottimizzata e significativamente più piccola dell’architettura Llama. Questa versione specializzata doveva essere adattata specificamente per funzionare sotto severe limitazioni hardware. Probabilmente ha coinvolto tecniche come la quantizzazione del modello (riducendo la precisione dei numeri utilizzati nei calcoli del modello) e il pruning (rimuovendo parti meno importanti della rete neurale) per ridurne drasticamente l’impronta di memoria e computazionale. Exo Labs ha reso disponibile la loro versione adattata su GitHub, mostrando le modifiche specifiche necessarie.

Questa minuscola IA, funzionante su hardware antiquato, non possederebbe l’ampia conoscenza o le sfumate capacità conversazionali dei suoi cugini più grandi, eseguiti su cloud. Le sue capacità sarebbero limitate. Tuttavia, il fatto stesso che potesse funzionare ed eseguire compiti generativi di base rappresenta un significativo risultato tecnico. Dimostra che i concetti fondamentali dei modelli linguistici di grandi dimensioni possono, in linea di principio, essere ridimensionati drasticamente, anche se l’utilità pratica è limitata a tali estremi.

La Provocazione di Andreessen: Una Linea Temporale Perduta per l’Informatica Conversazionale?

Marc Andreessen ha colto questa dimostrazione tecnica per fare un punto più ampio e provocatorio sulla storia e sul potenziale futuro dell’informatica. La sua riflessione non riguardava semplicemente la curiosità tecnica di eseguire nuovo software su vecchio hardware; era una riflessione su una possibile storia alternativa dell’interazione uomo-computer.

Lo ha articolato suggerendo che il successo dell’operazione di Llama su un PC Dell di 26 anni implica un’opportunità mancata che abbraccia decenni. “Tutti quei vecchi PC avrebbero potuto letteralmente essere intelligenti per tutto questo tempo”, ha ipotizzato Andreessen. “Avremmo potuto parlare ai nostri computer per 30 anni ormai.”

Questa affermazione ci invita a immaginare un mondo in cui la traiettoria dello sviluppo dell’IA è converguta diversamente con l’ascesa del personal computing. Invece di PC che erano principalmente strumenti per il calcolo, la creazione di documenti e, infine, l’accesso a Internet, forse avrebbero potuto evolversi molto prima in partner conversazionali. L’immagine evocata è quella di utenti che interagiscono con le loro macchine Windows 95, 98 o anche precedenti attraverso il linguaggio naturale, ponendo domande, ottenendo assistenza e impegnandosi in un dialogo in un modo che è diventato realtà mainstream solo con l’avvento dei moderni assistenti digitali e dei sofisticati LLM.

Naturalmente, questo è un significativo salto controfattuale. L’IA generativa, come la intendiamo oggi, con la sua dipendenza da enormi set di dati, sofisticate architetture di reti neurali (come l’architettura Transformer alla base dei modelli Llama e GPT) e immensa potenza computazionale per l’addestramento, è un fenomeno relativamente recente. La ricerca sull’IA degli anni ‘80 e ‘90, sebbene ambiziosa, si concentrava su paradigmi diversi, come i sistemi esperti e il ragionamento simbolico. L’hardware dell’epoca, sebbene capace di eseguire la versione ridotta di Llama dimostrata da Exo Labs, era ordini di grandezza meno potente dei sistemi odierni, e i vasti set di dati digitali necessari per addestrare modelli generativi capaci semplicemente non esistevano in forma accessibile.

Andreessen ha riconosciuto questo contesto, notando l’ottimismo del boom dell’IA degli anni ‘80: “Molte persone intelligenti negli anni ‘80 pensavano che tutto questo sarebbe successo allora”. Quell’era vide investimenti e ricerche significativi nell’intelligenza artificiale, ma alla fine portò a un “inverno dell’IA” – un periodo di finanziamenti e interesse ridotti quando la tecnologia non riuscì a mantenere le sue promesse più ambiziose. Le limitazioni nella potenza computazionale, nella disponibilità dei dati e negli approcci algoritmici erano profonde.

Pertanto, il commento di Andreessen è forse meglio inteso non come un’affermazione letterale che un’IA sofisticata e simile all’uomo fosse fattibile sull’hardware degli anni ‘90 nel modo in cui la sperimentiamo ora, ma piuttosto come un esperimento mentale. Evidenzia il potenziale che avrebbe potuto essere sbloccato se le priorità della ricerca, le scoperte algoritmiche e lo sviluppo hardware avessero seguito un corso diverso. Sottolinea l’idea che gli elementi costitutivi per qualche forma di interazione intelligente potrebbero essere stati tecnicamente realizzabili, anche se il risultato sarebbe stato molto più semplice dell’IA odierna.

Ere a Confronto: Dai Sogni del Dial-Up alla Realtà Infusa di IA

L’esperimento di Windows 98 funge da netto punto di contrasto con l’attuale panorama dell’integrazione dell’IA. Oggi, l’IA si sta rapidamente spostando da un servizio incentrato sul cloud a essere profondamente incorporata all’interno del sistema operativo e persino dell’hardware stesso.

La spinta di Microsoft con Copilot e Copilot+ PCs esemplifica questa tendenza. Windows 11 presenta numerosi punti di ingresso per Copilot, offrendo assistenza AI per compiti che vanno dal riassumere documenti e redigere email alla generazione di immagini e alla regolazione delle impostazioni di sistema. La nuova specifica Copilot+ PC impone l’inclusione di una Neural Processing Unit (NPU) – silicio specializzato progettato per accelerare i calcoli AI in modo efficiente. Ciò significa un cambiamento fondamentale in cui l’elaborazione AI sta diventando una funzione principale del personal computer, gestita localmente anziché fare affidamento esclusivamente su server remoti.

Questo approccio moderno presuppone, e sfrutta, risorse abbondanti. I Copilot+ PCs richiedono un minimo di 16GB di RAM e archiviazione veloce a stato solido, specifiche che superano di gran lunga gli umili 128MB della macchina Windows 98. I modelli AI impiegati, sebbene ottimizzati per l’esecuzione lato client, sono molto più complessi e capaci della versione miniaturizzata di Llama utilizzata nell’esperimento. Beneficiano di decenni di affinamento algoritmico, enormi set di dati di addestramento e hardware specificamente progettato per le loro esigenze.

Il contrasto illumina diversi punti:

Ottimizzazione del Software vs. Gonfiamento: L’esperimento di Exo Labs è una testimonianza dell’ottimizzazione estrema, costringendo algoritmi moderni in un ambiente altamente vincolato. Critica implicitamente la tendenza del software moderno ad assumere risorse hardware sempre crescenti, portando talvolta a inefficienza o “gonfiamento” (bloat).
Evoluzione dell’Hardware: La pura differenza di potenza computazionale e memoria tra un tipico PC del 1998 e un Copilot+ PC del 2024 è sbalorditiva, rappresentando molteplici generazioni della Legge di Moore e innovazione architettonica.
Accessibilità dei Dati: L’addestramento dei moderni LLM si basa su set di dati su scala Internet che erano inimmaginabili nell’era di Windows 98. L’universo digitale era semplicemente troppo piccolo e disconnesso allora.
Scoperte Algoritmiche: Lo sviluppo di architetture come il modello Transformer nel 2017 è stato un momento cruciale, consentendo la scalabilità e le prestazioni viste nell’IA generativa odierna. Gli approcci AI precedenti avevano limitazioni fondamentali.

Mentre Andreessen sogna computer parlanti 30 anni fa, la realtà è che la confluenza di potenza hardware, disponibilità di dati e innovazione algoritmica richiesta per l’esperienza AI odierna si è verificata solo molto più recentemente.

Cosa Significa Tutto Ciò? Riflessioni Oltre la Nostalgia

L’implementazione riuscita di un modello Llama su Windows 98 è semplicemente un hack intelligente, un’acrobazia nostalgica per gli appassionati di tecnologia? O ha un significato più profondo? Si può sostenere che serva a diversi scopi:

Dimostrare Scalabilità Estrema: Dimostra che i principi fondamentali alla base dei modelli linguistici di grandi dimensioni possono essere adattati per operare sotto vincoli di risorse incredibilmente stretti. Ciò ha potenziali implicazioni per l’implementazione dell’IA su sistemi embedded a basso consumo, dispositivi IoT o hardware più vecchio che rimane in uso in varie parti del mondo.
Evidenziare il Potere dei Vincoli: Lavorare entro limiti severi spesso forza l’innovazione e l’efficienza. Il team di Exo Labs ha dovuto trovare soluzioni creative e ottimizzare spietatamente, competenze preziose anche in ambienti ricchi di risorse.
Sfidare le Presupposizioni: Spinge a riflettere se tutta la potenza computazionale e la memoria utilizzate dalle applicazioni moderne siano strettamente necessarie per il valore che forniscono. Alcuni software potrebbero essere più snelli ed efficienti?
Illustrare la Contingenza dei Percorsi Tecnologici: La storia raramente segue una linea retta. Il fatto che qualche IA rudimentale potesse essere possibile su hardware più vecchio sottolinea come scelte diverse, direzioni di ricerca o persino scoperte casuali avrebbero potuto condurci lungo un percorso tecnologico diverso.

Questo esperimento non riscrive la storia, né significa che le sofisticate esperienze AI del 2024 fossero in qualche modo realizzabili nel 1998. Il divario nelle tecnologie abilitanti – potenza di elaborazione, memoria, dati, algoritmi – rimane immenso. Tuttavia, fornisce un affascinante punto dati, una testimonianza dell’ingegnosità ingegneristica e un catalizzatore per contemplare il percorso tortuoso del progresso tecnologico. Ci ricorda che i limiti di ieri possono talvolta essere superati con la conoscenza di oggi, producendo risultati sorprendenti e spingendoci a riconsiderare ciò che potrebbe essere possibile, sia ora che in futuro. Il fantasma nella vecchia macchina sussurra non solo di ciò che è stato, ma forse anche di un potenziale non sfruttato che risiede nella semplicità e nell’efficienza.

aggiornato il 2025-04-02

# AIGC # Llama # Meta