DeepSeek ha introdotto DeepSeek-Prover-V2, un modello linguistico di grandi dimensioni (LLM) open source rivoluzionario, meticolosamente realizzato per il complesso dominio della dimostrazione formale di teoremi all’interno del framework Lean 4. Questo nuovo modello sfrutta una pipeline ricorsiva di dimostrazione di teoremi, sfruttando la potenza del modello DeepSeek-V3 all’avanguardia di DeepSeek. Lean 4, l’ultima iterazione del dimostratore di teoremi Lean, è un assistente interattivo per la dimostrazione sviluppato da Microsoft Research. Questo sofisticato linguaggio di programmazione funzionale e sistema interattivo di dimostrazione di teoremi consente a matematici e informatici di costruire dimostrazioni formali con una verifica automatica senza pari.
Il progetto rappresenta un passo fondamentale verso la riduzione del divario tra il ragionamento matematico formale e informale. Sfruttando le capacità intrinseche degli LLM di uso generale, cerca di affrontare efficacemente il dominio altamente strutturato della dimostrazione formale di teoremi.Il team di ricerca di DeepSeek postula che il loro approccio innovativo rispecchi i processi cognitivi impiegati dai matematici umani quando costruiscono dimostrazioni, sezionando meticolosamente teoremi complessi in componenti più gestibili e comprensibili.
Ampliare il framework di valutazione: introduzione di ProverBench
In una mossa significativa per migliorare il rigore della loro ricerca, il team di DeepSeek ha ampliato significativamente il proprio framework di valutazione con l’introduzione di ProverBench, una nuovissima raccolta di benchmark meticolosamente progettata specificamente per la valutazione completa delle capacità di dimostrazione formale di teoremi. Questa raccolta completa funge da risorsa preziosa per valutare le prestazioni degli LLM nel contesto della matematica formale.
"Oltre ai benchmark convenzionali, presentiamo con orgoglio ProverBench, una raccolta curata meticolosamente di 325 problemi formalizzati, per arricchire il nostro processo di valutazione. Questa raccolta include 15 problemi attentamente selezionati provenienti direttamente dalle recenti competizioni dell’American Invitational Mathematics Examination (AIME), in particolare degli anni 24-25", hanno elaborato i ricercatori.
L’inclusione dei problemi AIME nel set di dati ProverBench è particolarmente degna di nota, in quanto introduce un insieme di problemi matematici impegnativi e consolidati, ampiamente riconosciuti all’interno della comunità matematica. Ciò fornisce una base standardizzata e rigorosa per valutare le prestazioni di DeepSeek-Prover-V2 e confrontarle con altri approcci.
Risultati iniziali promettenti: affrontare i problemi AIME
I risultati iniziali derivanti da test rigorosi su questi impegnativi problemi AIME hanno rivelato prestazioni eccezionalmente promettenti dal loro modello specializzato di dimostrazione di teoremi meticolosamente progettato. Il team di DeepSeek riferisce con orgoglio che DeepSeek-Prover-V2 ha dimostrato la sua abilità risolvendo con successo ben 6 dei 15 problemi AIME presentati. In confronto, il modello DeepSeek-V3 di uso generale, quando impiega tecniche di voto a maggioranza, è riuscito a risolvere con successo 8 problemi.
Questi risultati evidenziano il potenziale di LLM sia specializzati che di uso generale nell’affrontare complessi problemi matematici. Mentre il modello di uso generale ha mostrato un tasso di successo leggermente superiore in questo particolare benchmark, il modello specializzato di dimostrazione di teoremi ha dimostrato la sua competenza nel ragionamento matematico formale.
Imitare la costruzione umana delle dimostrazioni: un approccio di catena di pensiero
"Date le ben documentate sfide che i modelli di uso generale spesso incontrano quando tentano di produrre dimostrazioni Lean complete, abbiamo strategicamente incaricato DeepSeek-V3 di generare solo uno schema di dimostrazione di alto livello, omettendo deliberatamente i dettagli intricati. La catena di pensiero risultante culmina in un teorema Lean composto da una sequenza di affermazioni have, ciascuna meticolosamente conclusa con un segnaposto sorry, che indica efficacemente un sottobiettivo che deve essere risolto. Questo approccio innovativo rispecchia elegantemente lo stile umano di costruzione delle dimostrazioni, in cui un teorema complesso viene ridotto in modo incrementale a una sequenza di lemmi più gestibili", ha elaborato il team di DeepSeek.
Questo approccio innovativo alla generazione di schemi di dimostrazione di alto livello si allinea al modo in cui i matematici spesso affrontano dimostrazioni complesse. Concentrandosi sulla struttura generale e sui passaggi chiave, il modello può guidare efficacemente il successivo perfezionamento e completamento della dimostrazione.
Una strategia metodica: affrontare individualmente ogni componente della dimostrazione
Il sistema impiega quindi meticolosamente una strategia metodica e strutturata per affrontare ogni singolo componente della dimostrazione. Questo approccio sistematico garantisce che ogni aspetto della dimostrazione sia attentamente considerato e affrontato in modo logico e coerente. Il sistema crea un approccio altamente strutturato alla dimostrazione di teoremi, basandosi su risultati precedentemente stabiliti per garantire una solida base per ogni fase successiva.
"Sfruttando i sottobiettivi generati da DeepSeek-V3, adottiamo una strategia di risoluzione ricorsiva per risolvere sistematicamente ogni fase intermedia della dimostrazione. Estraiamo le espressioni dei sottobiettivi dalle affermazioni have per sostituirle agli obiettivi originali nei problemi dati e quindi incorporiamo i sottobiettivi precedenti come premesse. Questa costruzione consente di risolvere i sottobiettivi successivi utilizzando i risultati intermedi delle fasi precedenti, promuovendo in tal modo una struttura di dipendenza più localizzata e facilitando lo sviluppo di lemmi più semplici", hanno spiegato i ricercatori.
La strategia di risoluzione ricorsiva è un aspetto fondamentale della capacità del sistema di gestire dimostrazioni complesse. Suddividendo il problema in sottobiettivi più piccoli e gestibili, il sistema può applicare efficacemente le proprie capacità di ragionamento a ogni singolo componente.
Ottimizzazione delle risorse computazionali: un modello specializzato con 7 miliardi di parametri
Per ottimizzare efficacemente le risorse computazionali e garantire un’elaborazione efficiente, il sistema impiega strategicamente un modello più piccolo e altamente specializzato con 7 miliardi di parametri per l’elaborazione dei lemmi decomposti. Questo approccio è fondamentale per gestire efficacemente le esigenze computazionali associate alle ricerche approfondite di dimostrazioni, garantendo che il sistema possa operare in modo efficiente senza essere sopraffatto dalla complessità dello spazio di ricerca. L’approccio culmina infine in una dimostrazione completa derivata automaticamente quando tutte le fasi decomposte vengono risolte con successo.
"Il framework algoritmico opera in due fasi distinte, sfruttando due modelli complementari: DeepSeek-V3 per la decomposizione dei lemmi e un modello di dimostrazione 7B per completare i corrispondenti dettagli formali della dimostrazione", hanno descritto i ricercatori.
Questo approccio a due fasi consente al sistema di sfruttare i punti di forza sia di un ampio modello di uso generale sia di un modello specializzato più piccolo. Il modello di grandi dimensioni viene utilizzato per generare schemi di dimostrazione di alto livello, mentre il modello più piccolo viene utilizzato per completare i dettagli e completare la dimostrazione formale.
Sintetizzare dati di ragionamento formale: un percorso naturale
Questa architettura meticolosamente progettata stabilisce efficacemente un percorso naturale e intuitivo per sintetizzare dati di ragionamento formale, unendo perfettamente il ragionamento matematico di alto livello con i requisiti rigorosi e rigorosi della verifica formale. Questa integrazione è essenziale per garantire l’affidabilità e l’attendibilità dei risultati del sistema.
"Curiamo un sottoinsieme di problemi impegnativi che rimangono irrisolti dal modello di dimostrazione 7B in modo end-to-end, ma per i quali tutti i sottobiettivi decomposti sono stati risolti con successo. Componendo le dimostrazioni di tutti i sottobiettivi, costruiamo una dimostrazione completa e formale per il problema originale", hanno spiegato i ricercatori.
Questo approccio consente al sistema di imparare dai propri errori e migliorare la propria capacità di risolvere problemi complessi. Identificando i sottobiettivi specifici che causano difficoltà, il sistema può concentrare i propri sforzi per migliorare le proprie prestazioni in tali aree.
Preoccupazioni e sfide: dettagli di implementazione sotto esame
Nonostante gli innegabili risultati tecnici dimostrati da DeepSeek-Prover-V2, alcuni esperti del settore hanno sollevato pertinenti preoccupazioni riguardo a determinati dettagli di implementazione. Elliot Glazer, un matematico principale molto rispettato presso Epoch AI, ha evidenziato potenziali problemi che giustificano ulteriori indagini.
Alcune preoccupazioni riguardo al documento DeepSeek-Prover-V2. Esempi potenzialmente formalizzati in modo errato e la discussione su Lean zulip suggerisce che le dimostrazioni di PutnamBench sono prive di senso e utilizzano un sorry implicito (possibilmente nascosto nella tattica apply?) non riportato nel loro read-eval-print-loop.
Queste preoccupazioni evidenziano vividamente le continue sfide inerenti allo spazio della verifica formale, in cui anche i dettagli di implementazione più minuti e apparentemente insignificanti possono esercitare un impatto sproporzionatamente grande sulla validità e sull’affidabilità complessive dei risultati. Il processo di verifica formale richiede un’attenzione incrollabile ai dettagli e una meticolosa adesione agli standard stabiliti.
Il potenziale per esempi formalizzati in modo errato e la possibilità di tattiche "sorry" nascoste nelle dimostrazioni di PutnamBench sollevano importanti interrogativi sul rigore e sulla completezza del processo di verifica. Queste preoccupazioni sottolineano la necessità di un continuo esame e di una verifica indipendente dei risultati.
Disponibilità e risorse: democratizzare l’accesso alla dimostrazione formale di teoremi
DeepSeek ha reso disponibile il suo Prover-V2 in due diverse dimensioni di modello, per soddisfare una vasta gamma di risorse computazionali e obiettivi di ricerca. La prima versione è un modello con 7 miliardi di parametri costruito sul loro precedente Prover-V1.5-Base, con una lunghezza del contesto estesa fino a 32K token. La seconda versione è un modello notevolmente più grande con 671 miliardi di parametri addestrato su DeepSeek-V3-Base. Entrambi i modelli sono ora facilmente accessibili su HuggingFace, una piattaforma leader per la condivisione e la collaborazione su modelli di machine learning.
Oltre ai modelli stessi, DeepSeek ha anche reso disponibile su HuggingFace l’intero set di dati ProverBench, contenente 325 problemi formalizzati meticolosamente per scopi di valutazione. Questo set di dati completo fornisce a ricercatori e sviluppatori una risorsa preziosa per valutare le prestazioni dei propri modelli e confrontarli con DeepSeek-Prover-V2.
Rendendo queste risorse liberamente disponibili, DeepSeek sta democratizzando l’accesso alla tecnologia di dimostrazione formale di teoremi e promuovendo la collaborazione all’interno della comunità di ricerca. Questo approccio open source è destinato ad accelerare il progresso nel campo e portare a nuove scoperte nel ragionamento automatizzato e nella verifica.
Questa versione consente a ricercatori e sviluppatori di disporre delle risorse necessarie per approfondire le capacità e i limiti di questa tecnologia. Fornendo un accesso aperto ai modelli e al set di dati ProverBench, DeepSeek incoraggia un’ulteriore esplorazione e sforzi collaborativi per affrontare le preoccupazioni sollevate dagli esperti del settore. Questo approccio collaborativo detiene la chiave per svelare le complessità della dimostrazione formale di teoremi e per consolidare l’affidabilità di questi progressi rivoluzionari.