DeepSeek telah memperkenalkan DeepSeek-Prover-V2, sebuah model bahasa besar (LLM) sumber terbuka yang terobosan yang dirancang dengan cermat untuk domain yang rumit dari pembuktian teorema formal dalam kerangka kerja Lean 4. Model baru ini memanfaatkan saluran pembuktian teorema rekursif, memanfaatkan kekuatan model dasar DeepSeek-V3 mutakhir dari DeepSeek. Lean 4, iterasi terbaru dari pembuktian teorema Lean, berdiri sebagai asisten pembuktian interaktif yang dikembangkan oleh Microsoft Research. Bahasa pemrograman fungsional yang canggih dan sistem pembuktian teorema interaktif ini memberdayakan para matematikawan dan ilmuwan komputer untuk membangun bukti formal dengan verifikasi yang diperiksa mesin yang tak tertandingi.
Proyek ini menandakan langkah monumental menuju menjembatani kesenjangan antara penalaran matematika formal dan informal. Dengan memanfaatkan kemampuan inheren dari LLM tujuan umum, ia berusaha untuk secara efektif mengatasi domain yang sangat terstruktur dari pembuktian teorema formal. Tim peneliti DeepSeek berpendapat bahwa pendekatan inovatif mereka mencerminkan proses kognitif yang digunakan oleh matematikawan manusia ketika membangun bukti, dengan cermat membedah teorema kompleks menjadi komponen yang lebih mudah dikelola dan dipahami.
Memperluas Kerangka Evaluasi: Memperkenalkan ProverBench
Dalam langkah signifikan untuk meningkatkan kekakuan penelitian mereka, tim DeepSeek telah secara signifikan memperluas kerangka evaluasi mereka dengan pengenalan ProverBench, koleksi tolok ukur yang semuanya baru yang dirancang dengan cermat secara khusus untuk penilaian komprehensif kemampuan pembuktian teorema formal. Koleksi komprehensif ini berfungsi sebagai sumber daya yang berharga untuk mengevaluasi kinerja LLM dalam konteks matematika formal.
"Di luar tolok ukur konvensional, kami dengan bangga memperkenalkan ProverBench, koleksi yang dikuratori dengan cermat dari 325 masalah yang diformalkan, untuk memperkaya proses evaluasi kami. Koleksi ini mencakup 15 masalah yang dipilih dengan cermat yang bersumber langsung dari kompetisi American Invitational Mathematics Examination (AIME) baru-baru ini, khususnya dari tahun 24-25," para peneliti menjelaskan.
Pencantuman masalah AIME dalam dataset ProverBench sangat penting, karena memperkenalkan serangkaian masalah matematika yang menantang dan mapan yang diakui secara luas dalam komunitas matematika. Ini memberikan dasar yang terstandarisasi dan ketat untuk mengevaluasi kinerja DeepSeek-Prover-V2 dan membandingkannya dengan pendekatan lain.
Hasil Awal yang Menjanjikan: Mengatasi Masalah AIME
Hasil awal yang berasal dari pengujian ketat pada masalah AIME yang menantang ini telah mengungkapkan kinerja yang sangat menjanjikan dari model pembuktian teorema khusus yang dirancang dengan cermat mereka. Tim DeepSeek dengan bangga melaporkan bahwa DeepSeek-Prover-V2 menunjukkan kehebatannya dengan berhasil memecahkan 6 dari 15 masalah AIME yang disajikan kepadanya. Sebagai perbandingan, model DeepSeek-V3 tujuan umum, ketika menggunakan teknik pemungutan suara mayoritas, berhasil memecahkan 8 masalah.
Temuan ini menyoroti potensi LLM khusus dan tujuan umum dalam mengatasi masalah matematika yang kompleks. Sementara model tujuan umum menunjukkan tingkat keberhasilan yang sedikit lebih tinggi dalam tolok ukur khusus ini, model pembuktian teorema khusus menunjukkan kemahirannya dalam penalaran matematika formal.
Meniru Konstruksi Bukti Manusia: Pendekatan Rantai Pikiran
"Mengingat tantangan yang terdokumentasi dengan baik yang sering dihadapi model tujuan umum ketika mencoba menghasilkan bukti Lean yang lengkap, kami secara strategis menginstruksikan DeepSeek-V3 untuk menghasilkan hanya sketsa bukti tingkat tinggi, dengan sengaja menghilangkan detail yang rumit. Rantai pemikiran yang dihasilkan memuncak dalam teorema Lean yang terdiri dari serangkaian pernyataan have, masing-masing disimpulkan dengan cermat dengan placeholder sorry, secara efektif menunjukkan sub-tujuan yang perlu diselesaikan. Pendekatan inovatif ini dengan elegan mencerminkan gaya konstruksi bukti manusia, di mana teorema kompleks secara bertahap direduksi menjadi serangkaian lemma yang lebih mudah dikelola," tim DeepSeek menjelaskan.
Pendekatan inovatif menghasilkan sketsa bukti tingkat tinggi ini selaras dengan bagaimana matematikawan sering mendekati bukti kompleks. Dengan berfokus pada struktur keseluruhan dan langkah-langkah kunci, model dapat secara efektif memandu penyempurnaan dan penyelesaian bukti berikutnya.
Strategi Metodis: Menangani Setiap Komponen Bukti Secara Individual
Sistem kemudian dengan cermat menggunakan strategi metodis dan terstruktur untuk menangani setiap komponen individual dari bukti tersebut. Pendekatan sistematis ini memastikan bahwa setiap aspek dari bukti tersebut dipertimbangkan dengan cermat dan ditangani secara logis dan koheren. Sistem ini menciptakan pendekatan yang sangat terstruktur untuk pembuktian teorema, membangun hasil yang telah ditetapkan sebelumnya untuk memastikan fondasi yang kuat untuk setiap langkah berikutnya.
"Dengan memanfaatkan sub-tujuan yang dihasilkan oleh DeepSeek-V3, kami mengadopsi strategi pemecahan rekursif untuk secara sistematis menyelesaikan setiap langkah bukti menengah. Kami mengekstrak ekspresi sub-tujuan dari pernyataan have untuk menggantikannya dengan tujuan asli dalam masalah yang diberikan dan kemudian menggabungkan sub-tujuan sebelumnya sebagai premis. Konstruksi ini memungkinkan sub-tujuan berikutnya untuk diselesaikan menggunakan hasil menengah dari langkah-langkah sebelumnya, sehingga meningkatkan struktur ketergantungan yang lebih terlokalisasi dan memfasilitasi pengembangan lemma yang lebih sederhana," para peneliti merinci.
Strategi pemecahan rekursif adalah aspek kunci dari kemampuan sistem untuk menangani bukti kompleks. Dengan memecah masalah menjadi sub-tujuan yang lebih kecil dan lebih mudah dikelola, sistem secara efektif dapat menerapkan kemampuan penalarannya ke setiap komponen individual.
Mengoptimalkan Sumber Daya Komputasi: Model Parameter 7B Khusus
Untuk secara efektif mengoptimalkan sumber daya komputasi dan memastikan pemrosesan yang efisien, sistem secara strategis menggunakan model parameter 7B yang lebih kecil dan sangat khusus untuk memproses lemma yang didekomposisi. Pendekatan ini sangat penting untuk secara efektif mengelola tuntutan komputasi yang terkait dengan pencarian bukti yang ekstensif, memastikan bahwa sistem dapat beroperasi secara efisien tanpa kewalahan oleh kompleksitas ruang pencarian. Pendekatan ini pada akhirnya memuncak dalam bukti lengkap yang diturunkan secara otomatis ketika semua langkah dekomposisi berhasil diselesaikan.
"Kerangka kerja algoritmik beroperasi dalam dua tahap berbeda, memanfaatkan dua model pelengkap: DeepSeek-V3 untuk dekomposisi lemma dan model prover 7B untuk menyelesaikan detail bukti formal yang sesuai," para peneliti menjelaskan.
Pendekatan dua tahap ini memungkinkan sistem untuk memanfaatkan kekuatan dari model tujuan umum yang besar dan model khusus yang lebih kecil. Model besar digunakan untuk menghasilkan sketsa bukti tingkat tinggi, sementara model yang lebih kecil digunakan untuk mengisi detail dan menyelesaikan bukti formal.
Mensintesis Data Penalaran Formal: Jalur Alami
Arsitektur yang dirancang dengan cermat ini secara efektif membangun jalur alami dan intuitif untuk mensintesis data penalaran formal, dengan mulus menggabungkan penalaran matematika tingkat tinggi dengan persyaratan ketat dan ketat dari verifikasi formal. Integrasi ini penting untuk memastikan keandalan dan kepercayaan hasil sistem.
"Kami mengkurasi subset masalah yang menantang yang tetap tidak terpecahkan oleh model prover 7B secara end-to-end, tetapi yang semua sub-tujuan dekomposisi telah berhasil diselesaikan. Dengan menyusun bukti dari semua sub-tujuan, kami membangun bukti formal lengkap untuk masalah asli," para peneliti menjelaskan.
Pendekatan ini memungkinkan sistem untuk belajar dari kesalahannya dan meningkatkan kemampuannya untuk memecahkan masalah yang kompleks. Dengan mengidentifikasi sub-tujuan spesifik yang menyebabkan kesulitan, sistem dapat memfokuskan upayanya untuk meningkatkan kinerjanya di bidang-bidang tersebut.
Kekhawatiran dan Tantangan: Detail Implementasi di Bawah Pengawasan
Terlepas dari pencapaian teknis yang tak dapat disangkal yang ditunjukkan oleh DeepSeek-Prover-V2, beberapa ahli di bidang ini telah mengangkat kekhawatiran yang relevan mengenai detail implementasi tertentu. Elliot Glazer, seorang matematikawan Utama yang sangat dihormati di Epoch AI, telah menunjukkan potensi masalah yang memerlukan penyelidikan lebih lanjut.
Beberapa kekhawatiran tentang makalah DeepSeek-Prover-V2. Contoh yang mungkin salah diformalkan, dan diskusi tentang Lean zulip menunjukkan bahwa bukti PutnamBench tidak masuk akal dan menggunakan sorry implisit (mungkin tersembunyi dalam taktik apply?) yang tidak dilaporkan dalam loop read-eval-print mereka.
Kekhawatiran ini dengan jelas menyoroti tantangan berkelanjutan yang melekat dalam ruang verifikasi formal, di mana bahkan detail implementasi yang paling kecil dan tampaknya tidak signifikan dapat memiliki dampak yang sangat besar pada validitas dan keandalan keseluruhan hasil. Proses verifikasi formal menuntut perhatian tanpa henti terhadap detail dan kepatuhan yang cermat terhadap standar yang ditetapkan.
Potensi untuk contoh yang salah diformalkan dan kemungkinan taktik "sorry" tersembunyi dalam bukti PutnamBench menimbulkan pertanyaan penting tentang kekakuan dan kelengkapan proses verifikasi. Kekhawatiran ini menggarisbawahi perlunya pengawasan berkelanjutan dan verifikasi independen terhadap hasil.
Ketersediaan dan Sumber Daya: Mendemokratisasikan Akses ke Pembuktian Teorema Formal
DeepSeek telah menyediakan Prover-V2 dalam dua ukuran model yang berbeda, melayani berbagai sumber daya komputasi dan tujuan penelitian. Versi pertama adalah model parameter 7B yang dibangun di atas Prover-V1.5-Base mereka sebelumnya, menampilkan panjang konteks yang diperluas hingga 32K token. Versi kedua adalah model parameter 671B yang jauh lebih besar yang dilatih pada DeepSeek-V3-Base. Kedua model sekarang mudah diakses di HuggingFace, platform terkemuka untuk berbagi dan berkolaborasi dalam model pembelajaran mesin.
Selain model itu sendiri, DeepSeek juga telah membuat dataset ProverBench lengkap, yang berisi 325 masalah yang diformalkan dengan cermat untuk tujuan evaluasi, tersedia di HuggingFace. Dataset komprehensif ini memberi para peneliti dan pengembang sumber daya yang berharga untuk mengevaluasi kinerja model mereka dan membandingkannya dengan DeepSeek-Prover-V2.
Dengan menjadikan sumber daya ini tersedia secara gratis, DeepSeek mendemokratisasikan akses ke teknologi pembuktian teorema formal dan mendorong kolaborasi dalam komunitas penelitian. Pendekatan sumber terbuka ini kemungkinan akan mempercepat kemajuan di lapangan dan mengarah pada terobosan baru dalam penalaran dan verifikasi otomatis.
Rilis ini memberdayakan para peneliti dan pengembang dengan sumber daya yang dibutuhkan untuk mempelajari kemampuan dan batasan teknologi ini. Dengan menyediakan akses terbuka ke model dan dataset ProverBench, DeepSeek mendorong eksplorasi lebih lanjut dan upaya kolaborasi untuk mengatasi kekhawatiran yang diajukan oleh para ahli di lapangan. Pendekatan kolaboratif ini memegang kunci untuk mengungkap kompleksitas pembuktian teorema formal dan memperkuat keandalan kemajuan terobosan ini.