डीपसीक ने डीपसीक-Prover-V2 पेश किया है, जो औपचारिक प्रमेय साबित करने के जटिल क्षेत्र के लिए सावधानीपूर्वक तैयार किया गया एक अभूतपूर्व ओपन-सोर्स बड़ा भाषा मॉडल (LLM) है, जो Lean 4 ढांचे के भीतर है। यह उपन्यास मॉडल डीपसीक के अत्याधुनिक डीपसीक-V3 फाउंडेशन मॉडल की शक्ति का उपयोग करते हुए, एक पुनरावर्ती प्रमेय साबित करने वाली पाइपलाइन का लाभ उठाता है। Lean 4, Lean प्रमेय प्रोवर का नवीनतम पुनरावृति है, जो Microsoft रिसर्च द्वारा विकसित एक इंटरैक्टिव प्रमाण सहायक के रूप में खड़ा है। यह परिष्कृत कार्यात्मक प्रोग्रामिंग भाषा और इंटरैक्टिव प्रमेय साबित करने वाली प्रणाली गणितज्ञों और कंप्यूटर वैज्ञानिकों को बेजोड़ मशीन-जांच किए गए सत्यापन के साथ औपचारिक प्रमाणों का निर्माण करने का अधिकार देती है।
परियोजना औपचारिक और अनौपचारिक गणितीय तर्क के बीच की खाई को पाटने की दिशा में एक स्मारकीय कदम दर्शाती है। सामान्य प्रयोजन वाले LLM की अंतर्निहित क्षमताओं का लाभ उठाकर, यह औपचारिक प्रमेय साबित करने के अत्यधिक संरचित डोमेन को प्रभावी ढंग से संबोधित करने का प्रयास करता है। डीपसीक अनुसंधान दल का कहना है कि उनका अभिनव दृष्टिकोण मानव गणितज्ञों द्वारा प्रमाणों के निर्माण के दौरान नियोजित संज्ञानात्मक प्रक्रियाओं को दर्शाता है, जटिल प्रमेयों को अधिक प्रबंधनीय और समझने योग्य घटकों में सावधानीपूर्वक विच्छेदित करता है।
मूल्यांकन ढांचे का विस्तार: ProverBench का परिचय
अपने शोध की कठोरता को बढ़ाने के लिए एक महत्वपूर्ण कदम में, डीपसीक टीम ने ProverBench की शुरूआत के साथ अपने मूल्यांकन ढांचे का काफी विस्तार किया है, जो औपचारिक प्रमेय साबित करने की क्षमताओं के व्यापक मूल्यांकन के लिए विशेष रूप से डिज़ाइन किया गया एक बिल्कुल नया बेंचमार्क संग्रह है। यह व्यापक संग्रह औपचारिक गणित के संदर्भ में LLM के प्रदर्शन का मूल्यांकन करने के लिए एक मूल्यवान संसाधन के रूप में कार्य करता है।
शोधकर्ताओं ने बताया, "पारंपरिक बेंचमार्क से परे, हम गर्व से ProverBench पेश करते हैं, जो 325 औपचारिक समस्याओं का सावधानीपूर्वक क्यूरेटेड संग्रह है, जो हमारी मूल्यांकन प्रक्रिया को समृद्ध करता है। इस संग्रह में हाल ही में अमेरिकन इनविटेशनल मैथमेटिक्स एग्जामिनेशन (AIME) प्रतियोगिताओं से सीधे लिए गए 15 सावधानीपूर्वक चयनित समस्याएं शामिल हैं, विशेष रूप से वर्ष 24-25 से।"
ProverBench डेटासेट में AIME समस्याओं को शामिल करना विशेष रूप से उल्लेखनीय है, क्योंकि यह चुनौतीपूर्ण और अच्छी तरह से स्थापित गणितीय समस्याओं का एक सेट पेश करता है जो गणितीय समुदाय के भीतर व्यापक रूप से मान्यता प्राप्त हैं। यह डीपसीक-Prover-V2 के प्रदर्शन का मूल्यांकन करने और अन्य दृष्टिकोणों के साथ इसकी तुलना करने के लिए एक मानकीकृत और कठोर आधार प्रदान करता है।
आशाजनक प्रारंभिक परिणाम: AIME समस्याओं का समाधान
इन चुनौतीपूर्ण AIME समस्याओं पर कठोर परीक्षण से उपजे प्रारंभिक परिणामों ने उनके सावधानीपूर्वक डिज़ाइन किए गए विशेष प्रमेय साबित करने वाले मॉडल से असाधारण रूप से आशाजनक प्रदर्शन का पता लगाया है। डीपसीक टीम गर्व से रिपोर्ट करती है कि डीपसीक-Prover-V2 ने इसे प्रस्तुत की गई 15 AIME समस्याओं में से 6 को सफलतापूर्वक हल करके अपनी दक्षता का प्रदर्शन किया। तुलनात्मक रूप से, सामान्य प्रयोजन वाले डीपसीक-V3 मॉडल ने, जब बहुमत मतदान तकनीकों को नियोजित किया, तो 8 समस्याओं को सफलतापूर्वक हल करने में कामयाबी हासिल की।
ये निष्कर्ष जटिल गणितीय समस्याओं को हल करने में विशेष और सामान्य प्रयोजन वाले LLM दोनों की क्षमता को उजागर करते हैं। जबकि सामान्य प्रयोजन वाले मॉडल ने इस विशेष बेंचमार्क में थोड़ी अधिक सफलता दर प्रदर्शित की, विशेष प्रमेय साबित करने वाले मॉडल ने औपचारिक गणितीय तर्क में अपनी प्रवीणता का प्रदर्शन किया।
मानव प्रमाण निर्माण का अनुकरण: एक चेन-ऑफ-थॉट अप्रोच
डीपसीक टीम ने विस्तृत किया, "यह देखते हुए कि सामान्य प्रयोजन वाले मॉडलों को पूर्ण Lean प्रमाण उत्पन्न करने का प्रयास करते समय अक्सर मिलने वाली अच्छी तरह से प्रलेखित चुनौतियों को देखते हुए, हमने रणनीतिक रूप से डीपसीक-V3 को केवल एक उच्च-स्तरीय प्रमाण स्केच उत्पन्न करने के लिए निर्देशित किया, जानबूझकर जटिल विवरणों को छोड़ दिया। विचार की परिणामी श्रृंखला Lean प्रमेय में समाप्त होती है, जिसमें have कथनों का एक क्रम होता है, प्रत्येक को सावधानीपूर्वक सॉरी प्लेसहोल्डर के साथ समाप्त किया जाता है, जो प्रभावी रूप से एक उप-लक्ष्य को दर्शाता है जिसे हल करने की आवश्यकता है। यह अभिनव दृष्टिकोण प्रमाण निर्माण की मानव शैली को खूबसूरती से दर्शाता है, जिसमें एक जटिल प्रमेय को उत्तरोत्तर अधिक प्रबंधनीय लेम्मा की एक श्रृंखला में कम किया जाता है।"
उच्च-स्तरीय प्रमाण स्केच उत्पन्न करने का यह अभिनव दृष्टिकोण इस बात के अनुरूप है कि गणितज्ञ अक्सर जटिल प्रमाणों से कैसे संपर्क करते हैं। समग्र संरचना और प्रमुख चरणों पर ध्यान केंद्रित करके, मॉडल प्रभावी रूप से प्रमाण के बाद के शोधन और समापन का मार्गदर्शन कर सकता है।
एक व्यवस्थित रणनीति: प्रत्येक प्रमाण घटक को व्यक्तिगत रूप से संबोधित करना
सिस्टम तब प्रमाण के प्रत्येक व्यक्तिगत घटक को संबोधित करने के लिए एक व्यवस्थित और संरचित रणनीति को सावधानीपूर्वक नियोजित करता है। यह व्यवस्थित दृष्टिकोण यह सुनिश्चित करता है कि प्रमाण के हर पहलू पर सावधानीपूर्वक विचार किया जाए और तार्किक और सुसंगत तरीके से संबोधित किया जाए। सिस्टम प्रमेय को साबित करने के लिए एक अत्यधिक संरचित दृष्टिकोण बनाता है, जो प्रत्येक बाद के चरण के लिए एक ठोस आधार सुनिश्चित करने के लिए पहले स्थापित परिणामों पर आधारित है।
शोधकर्ताओं ने विस्तृत किया, "डीपसीक-V3 द्वारा उत्पन्न उप-लक्ष्यों का लाभ उठाते हुए, हम प्रत्येक मध्यवर्ती प्रमाण चरण को व्यवस्थित रूप से हल करने के लिए एक पुनरावर्ती समाधान रणनीति अपनाते हैं। हम दिए गए समस्याओं में मूल लक्ष्यों के लिए उन्हें प्रतिस्थापित करने के लिए have कथनों से उप-लक्ष्य अभिव्यक्तियों को निकालते हैं और फिर पूर्ववर्ती उप-लक्ष्यों को परिसर के रूप में शामिल करते हैं। यह निर्माण बाद के उप-लक्ष्यों को पहले के चरणों के मध्यवर्ती परिणामों का उपयोग करके हल करने में सक्षम बनाता है, जिससे अधिक स्थानीयकृत निर्भरता संरचना को बढ़ावा मिलता है और सरल लेम्मा के विकास में सुविधा होती है।"
पुनरावर्ती समाधान रणनीति सिस्टम की जटिल प्रमाणों को संभालने की क्षमता का एक प्रमुख पहलू है। समस्या को छोटे, अधिक प्रबंधनीय उप-लक्ष्यों में तोड़कर, सिस्टम प्रभावी रूप से अपनी तर्क क्षमताओं को प्रत्येक व्यक्तिगत घटक पर लागू कर सकता है।
कम्प्यूटेशनल संसाधनों का अनुकूलन: एक विशेष 7B पैरामीटर मॉडल
कम्प्यूटेशनल संसाधनों को प्रभावी ढंग से अनुकूलित करने और कुशल प्रसंस्करण सुनिश्चित करने के लिए, सिस्टम रणनीतिक रूप से विघटित लेम्मा को संसाधित करने के लिए एक छोटे, अत्यधिक विशेष 7B पैरामीटर मॉडल को नियोजित करता है। व्यापक प्रमाण खोजों से जुड़ी कम्प्यूटेशनल मांगों को प्रभावी ढंग से प्रबंधित करने के लिए यह दृष्टिकोण महत्वपूर्ण है, यह सुनिश्चित करता है कि सिस्टम खोज स्थान की जटिलता से अभिभूत हुए बिना कुशलतापूर्वक काम कर सके। दृष्टिकोण अंततः स्वचालित रूप से व्युत्पन्न पूर्ण प्रमाण में समाप्त होता है जब सभी विघटित चरणों को सफलतापूर्वक हल किया जाता है।
शोधकर्ताओं ने वर्णन किया, "एल्गोरिदमिक ढांचा दो अलग-अलग चरणों में काम करता है, दो पूरक मॉडलों का लाभ उठाता है: लेम्मा अपघटन के लिए डीपसीक-V3 और संबंधित औपचारिक प्रमाण विवरणों को पूरा करने के लिए एक 7B प्रोवर मॉडल।"
यह दो-चरणीय दृष्टिकोण सिस्टम को एक बड़े सामान्य प्रयोजन वाले मॉडल और एक छोटे विशेष मॉडल दोनों की ताकत का लाभ उठाने की अनुमति देता है। बड़े मॉडल का उपयोग उच्च-स्तरीय प्रमाण स्केच उत्पन्न करने के लिए किया जाता है, जबकि छोटे मॉडल का उपयोग विवरण भरने और औपचारिक प्रमाण को पूरा करने के लिए किया जाता है।
औपचारिक तर्क डेटा का संश्लेषण: एक प्राकृतिक मार्ग
यह सावधानीपूर्वक डिज़ाइन किया गया आर्किटेक्चर औपचारिक तर्क डेटा को संश्लेषित करने के लिए प्रभावी ढंग से एक प्राकृतिक और सहज मार्ग स्थापित करता है, उच्च-स्तरीय गणितीय तर्क को औपचारिक सत्यापन की सख्त और कठोर आवश्यकताओं के साथ मूल रूप से विलय करता है। यह एकीकरण सिस्टम के परिणामों की विश्वसनीयता और भरोसेमंदता सुनिश्चित करने के लिए आवश्यक है।
शोधकर्ताओं ने समझाया, "हम चुनौतीपूर्ण समस्याओं का एक सबसेट तैयार करते हैं जो अंत-से-अंत तरीके से 7B प्रोवर मॉडल द्वारा अनसुलझी रहती हैं, लेकिन जिनके लिए सभी विघटित उप-लक्ष्यों को सफलतापूर्वक हल कर लिया गया है। सभी उप-लक्ष्यों के प्रमाणों को मिलाकर, हम मूल समस्या के लिए एक पूर्ण-औपचारिक प्रमाण का निर्माण करते हैं।"
यह दृष्टिकोण सिस्टम को अपनी गलतियों से सीखने और जटिल समस्याओं को हल करने की अपनी क्षमता में सुधार करने की अनुमति देता है। विशिष्ट उप-लक्ष्यों की पहचान करके जो कठिनाइयों का कारण बन रहे हैं, सिस्टम इन क्षेत्रों में अपने प्रदर्शन को बेहतर बनाने के प्रयासों पर ध्यान केंद्रित कर सकता है।
चिंताएं और चुनौतियां: जांच के तहत कार्यान्वयन विवरण
डीपसीक-Prover-V2 द्वारा प्रदर्शित निर्विवाद तकनीकी उपलब्धियों के बावजूद, क्षेत्र के कुछ विशेषज्ञों ने कुछ कार्यान्वयन विवरणों के बारे में प्रासंगिक चिंताएं उठाई हैं। Epoch AI में अग्रणी गणितज्ञ, Elliot Glazer ने संभावित मुद्दों को इंगित किया है जिन पर आगे जांच की आवश्यकता है।
डीपसीक-Prover-V2 पेपर के बारे में कुछ चिंताएं। संभावित रूप से गलत तरीके से स्वरूपित उदाहरण, और Lean zulip पर चर्चा से पता चलता है कि PutnamBench प्रमाण बकवास हैं और एक अंतर्निहित सॉरी (संभवतः एप्लाई में छिपा हुआ? युक्ति) का उपयोग करते हैं जो उनके पढ़ने-मूल्यांकन-प्रिंट-लूप में रिपोर्ट नहीं की गई है।
ये चिंताएं औपचारिक सत्यापन स्थान में अंतर्निहित चल रही चुनौतियों को स्पष्ट रूप से उजागर करती हैं, जहां सबसे छोटे और प्रतीत होने वाले महत्वहीन कार्यान्वयन विवरण भी परिणामों की समग्र वैधता और विश्वसनीयता पर अनुपातहीन रूप से बड़ा प्रभाव डाल सकते हैं। औपचारिक सत्यापन प्रक्रिया के लिए विवरण पर अटूट ध्यान और स्थापित मानकों का सावधानीपूर्वक पालन आवश्यक है।
PutnamBench प्रमाणों में गलत तरीके से स्वरूपित उदाहरणों की संभावना और छिपी हुई "सॉरी" युक्तियों की संभावना सत्यापन प्रक्रिया की कठोरता और पूर्णता के बारे में महत्वपूर्ण प्रश्न उठाती है। ये चिंताएं परिणामों की निरंतर जांच और स्वतंत्र सत्यापन की आवश्यकता को रेखांकित करती हैं।
उपलब्धता और संसाधन: औपचारिक प्रमेय साबित करने के लिए पहुंच का लोकतंत्रीकरण
डीपसीक ने अपने Prover-V2 को दो अलग-अलग मॉडल आकारों में उपलब्ध कराया है, जो कम्प्यूटेशनल संसाधनों और अनुसंधान उद्देश्यों की विविध श्रेणी को पूरा करता है। पहला संस्करण उनके पिछले Prover-V1.5-Base पर निर्मित 7B पैरामीटर मॉडल है, जिसमें 32K टोकन तक की विस्तारित संदर्भ लंबाई है। दूसरा संस्करण डीपसीक-V3-Base पर प्रशिक्षित एक काफी बड़ा 671B पैरामीटर मॉडल है। दोनों मॉडल अब HuggingFace पर आसानी से उपलब्ध हैं, जो मशीन लर्निंग मॉडल को साझा करने और उन पर सहयोग करने के लिए एक अग्रणी प्लेटफॉर्म है।
मॉडलों के अलावा, डीपसीक ने HuggingFace पर मूल्यांकन उद्देश्यों के लिए 325 सावधानीपूर्वक औपचारिक समस्याओं वाले पूरे ProverBench डेटासेट को भी उपलब्ध कराया है। यह व्यापक डेटासेट शोधकर्ताओं और डेवलपर्स को अपने मॉडलों के प्रदर्शन का मूल्यांकन करने और उनकी तुलना डीपसीक-Prover-V2 से करने के लिए एक मूल्यवान संसाधन प्रदान करता है।
इन संसाधनों को मुफ्त में उपलब्ध कराकर, डीपसीक औपचारिक प्रमेय साबित करने की तकनीक तक पहुंच का लोकतंत्रीकरण कर रहा है और अनुसंधान समुदाय के भीतर सहयोग को बढ़ावा दे रहा है। यह ओपन-सोर्स दृष्टिकोण क्षेत्र में प्रगति को तेज करेगा और स्वचालित तर्क और सत्यापन में नई खोजों का नेतृत्व करेगा।
यह रिलीज शोधकर्ताओं और डेवलपर्स को इस तकनीक की क्षमताओं और सीमाओं में गहराई से उतरने के लिए आवश्यक संसाधनों के साथ सशक्त बनाती है। मॉडलों और ProverBench डेटासेट तक खुली पहुंच प्रदान करके, डीपसीक क्षेत्र के विशेषज्ञों द्वारा उठाई गई चिंताओं को दूर करने के लिए आगे की खोज और सहयोगात्मक प्रयासों को प्रोत्साहित करता है। यह सहयोगात्मक दृष्टिकोण औपचारिक प्रमेय साबित करने की जटिलताओं को उजागर करने और इन अभूतपूर्व प्रगति की विश्वसनीयता को ठोस बनाने की कुंजी रखता है।
मूल्यांकन ढांचे का विस्तार: ProverBench का परिचय
मूल्यांकन ढांचे का विस्तार: ProverBench का परिचय
आशाजनक प्रारंभिक परिणाम: AIME समस्याओं का समाधान
आशाजनक प्रारंभिक परिणाम: AIME समस्याओं का समाधान
मानव प्रमाण निर्माण का अनुकरण: एक चेन-ऑफ-थॉट अप्रोच
मानव प्रमाण निर्माण का अनुकरण: एक चेन-ऑफ-थॉट अप्रोच
एक व्यवस्थित रणनीति: प्रत्येक प्रमाण घटक को व्यक्तिगत रूप से संबोधित करना
एक व्यवस्थित रणनीति: प्रत्येक प्रमाण घटक को व्यक्तिगत रूप से संबोधित करना
कम्प्यूटेशनल संसाधनों का अनुकूलन: एक विशेष 7B पैरामीटर मॉडल
कम्प्यूटेशनल संसाधनों का अनुकूलन: एक विशेष 7B पैरामीटर मॉडल
औपचारिक तर्क डेटा का संश्लेषण: एक प्राकृतिक मार्ग
औपचारिक तर्क डेटा का संश्लेषण: एक प्राकृतिक मार्ग
चिंताएं और चुनौतियां: जांच के तहत कार्यान्वयन विवरण
चिंताएं और चुनौतियां: जांच के तहत कार्यान्वयन विवरण
उपलब्धता और संसाधन: औपचारिक प्रमेय साबित करने के लिए पहुंच का लोकतंत्रीकरण
उपलब्धता और संसाधन: औपचारिक प्रमेय साबित करने के लिए पहुंच का लोकतंत्रीकरण