कृत्रिम बुद्धिमत्तेच्या क्षेत्रात (Artificial Intelligence) तर्क करू शकणाऱ्या प्रणाली (system) विकसित करणे हे एक महत्त्वाचे ध्येय आहे. OpenAI च्या “o1” मॉडेलने मोठ्या प्रमाणावर प्रबलित शिक्षण (Reinforcement Learning - RL) वापरून तर्कसंगत प्रणाली बनवण्याच्या शक्यतेबद्दल उत्साह निर्माण केला. त्यानंतर, DeepSeek-R1 ने त्यांचे मॉडेल ओपन-सोर्स (open-source) म्हणून जाहीर केल्याने AI समुदायाला (AI community) प्रगत तर्क मॉडेल (reasoning models) विकसित करण्याची प्रेरणा मिळाली.
सुरुवातीला उत्साह होता, पण लवकरच एक मोठी समस्या समोर आली. DeepSeek-R1 च्या अहवालात डेटा क्युरेशन (data curation) आणि RL प्रशिक्षणाच्या (training) पद्धतींबद्दलची महत्त्वाची माहिती दिलेली नव्हती. यामुळे संशोधकांना (researchers) अनेक अडचणी आल्या आणि अपेक्षित यश मिळवणे कठीण झाले. परिणामी, संशोधनाचे क्षेत्र विभागले गेले, आणि विविध आकारमानांचे मॉडेल, प्रारंभिक चेकपॉइंट्स (checkpoints) आणि लक्ष्य डोमेन (target domain) वापरून स्वतंत्र प्रयत्न सुरू झाले. तरीही, एक प्रभावी प्रशिक्षण पद्धती शोधणे बाकी होते.
तर्कसाठी भाषा मॉडेलला (language models) प्रशिक्षित करण्याच्या पारंपरिक पद्धतींमध्ये गणित (mathematics) आणि कंप्यूटर कोडच्या (computer code) क्षेत्रांवर लक्ष केंद्रित केले जाते. या पद्धतींमध्ये मोठ्या डेटासेटवर (datasets) पूर्व-प्रशिक्षण (pre-training) आणि विशिष्ट कार्यांसाठी मॉडेलला तयार करण्यासाठी पर्यवेक्षित फाइन-ट्यूनिंगचा (supervised fine-tuning) वापर केला जातो. प्रबलित शिक्षणाचा (reinforcement learning) वापर करण्याच्या सुरुवातीच्या प्रयत्नांमध्ये, डोमेन-विशिष्ट रिवॉर्ड मॉडेलचा (reward models) वापर करून मर्यादित यश मिळाले. याचे कारण गणित आणि कोडिंगच्या कार्यांमध्ये लहान चुकांमुळे मोठे परिणाम होऊ शकतात.
DeepSeek-R1 च्या रिलीझनंतर, नियमांवर आधारित पडताळणी पद्धतींचा (rule-based verification methods) वापर करणे सुरू झाले. गणितामध्ये, अचूक आणि स्वयंचलित पडताळणीसाठी विशिष्ट आउटपुट फॉरमॅटची (output format) आवश्यकता असते. त्याचप्रमाणे, कोडमध्ये, कंपायलेशन (compilation) आणि एक्झिक्यूशनच्या (execution) feedback mechanisms चा वापर करून शिकण्याची प्रक्रिया (learning process) सुधारली जाते. मात्र, या पद्धती विशिष्ट डोमेनवर केंद्रित होत्या आणि गणित आणि कोडिंगच्या समस्या (problems) एकत्र हाताळण्याची क्षमता त्यांच्यात नव्हती. तसेच, AIME आणि LiveCodeBench सारख्या विशिष्ट बेंचमार्कपर्यंत (benchmarks) मूल्यमापन मर्यादित होते, त्यामुळे निष्कर्षांची व्यापकता (generalizability) कमी होती. प्रशिक्षण अस्थिरतेची (training instability) समस्या अजूनही कायम आहे, ज्यामुळे प्रगतीशील प्रतिसाद लांबी वाढवणे (progressive response length increases) आणि एंट्रॉपी कोलाप्स शमन (entropy collapse mitigation) यांसारख्या क्लिष्ट तंत्रांचा वापर करणे आवश्यक आहे.
आता, NVIDIA च्या संशोधकांनी मोठे बदल केले आहेत. त्यांनी दाखवून दिले आहे की मोठ्या प्रमाणावर प्रबलित शिक्षण (large-scale reinforcement learning) तुलनेने लहान आणि मध्यम आकाराच्या मॉडेलच्या तर्क क्षमतेत (reasoning capabilities) लक्षणीय सुधारणा करू शकते. NVIDIA ची पद्धत एक क्रमवार प्रशिक्षण धोरण (sequential training strategy) वापरते: प्रथम, केवळ गणिताशी संबंधित प्रॉम्प्टवर (prompts) RL प्रशिक्षण (RL training) करणे, आणि नंतर फक्त कोडवर लक्ष केंद्रित करणे.
वर्धित तर्कासाठी क्रमवार पद्धत
संशोधनात असे आढळून आले आहे की गणिताच्या समस्यांवर RL प्रशिक्षण (RL training) केल्याने केवळ गणिताच्या बेंचमार्कवरच (mathematical benchmarks) नव्हे, तर कोडच्या तर्क क्षमतेतही (code reasoning capabilities) सुधारणा होते. याव्यतिरिक्त, कोडवर केंद्रित RL प्रशिक्षणाच्या विस्तारित पुनरावृत्तीमुळे गणिताच्या कार्यात घट न होता कोड कार्यक्षमतेत वाढ होते. यावरून हे स्पष्ट होते की गणिताचे प्रशिक्षण कोडिंगसारख्या अधिक जटिल तर्क कार्यांसाठी एक मजबूत पाया (strong foundation) म्हणून कार्य करू शकते.
NVIDIA च्या दृष्टिकोन (approach) चा एक महत्त्वाचा भाग म्हणजे मजबूत डेटा क्युरेशन पाइपलाइन (data curation pipeline). ही पाइपलाइन उच्च गुणवत्ता, पडताळणी करण्यायोग्य उत्तरे आणि चाचणी प्रकरणांवर (test cases) आधारित आव्हानात्मक प्रॉम्प्ट गोळा करण्यासाठी डिझाइन केलेली आहे. यामुळे गणित आणि कोडिंग दोन्ही डोमेनमध्ये (domains) verification-based RL प्रभावीपणे वापरता येते.
गणित आणि कोडसाठी डेटा क्युरेशन
NVIDIA च्या संशोधकांनी गणित-आधारित RL आणि कोड-आधारित RL साठी डेटा क्युरेशन पद्धतीमध्ये (data curation methodology) फरक केला आहे.
गणित-आधारित RL: गणित-आधारित RL साठी प्रशिक्षण डेटा तयार करण्यासाठी DeepScaler आणि NuminaMath डेटासेटमधील (datasets) डेटा एकत्र केला जातो. या डेटासेटमध्ये बीजगणित (algebra), कॉम्बिनेटोरिक्स (combinatorics), संख्या सिद्धांत (number theory) आणि भूमिती (geometry) यांसारख्या गणिताच्या विविध विषयांचा समावेश आहे. डेटाची अखंडता (integrity) राखण्यासाठी, एक कठोर फिल्टरिंग प्रक्रिया (filtering process) वापरली जाते. यामध्ये डेटा फिल्टर करण्यासाठी 9-ग्राम फिल्टरचा (9-gram filter) वापर केला जातो आणि संभाव्य समस्याग्रस्त नोंदी (entries) काढण्यासाठी कडक नियम लागू केले जातात. DeepSeek-R1 मॉडेल प्रश्नांची गुणवत्ता (quality of questions) तपासण्यासाठी महत्त्वपूर्ण भूमिका बजावते. प्रत्येक प्रश्नाचे मॉडेलद्वारे (model) आठ स्वतंत्र प्रयत्न केले जातात, आणि नियमांवर आधारित पडताळणीद्वारे (rule-based verification) ज्या उत्तरांना सर्वाधिक मान्यता मिळते, ती उत्तरे अंतिम डेटासेटमध्ये (dataset) समाविष्ट केली जातात.
कोड-आधारित RL: कोड-आधारित RL साठी डेटासेट आधुनिक स्पर्धात्मक प्रोग्रामिंग प्लॅटफॉर्मवरून (competitive programming platforms) मिळवलेल्या डेटाचा वापर करून तयार केला जातो. हे प्लॅटफॉर्म विविध अल्गोरिदम विषयांवरील (algorithmic topics) कोडिंग समस्यांचा (coding problems) एक समृद्ध स्रोत (rich source) आहेत. या समस्या फंक्शन-कॉलिंग (function-calling) आणि स्टँडर्ड इनपुट/आउटपुट (stdin/stdout) नियमांनुसार मांडल्या जातात, ज्या सामान्यतः या वातावरणात वापरल्या जातात. संशोधक विसंगत समस्या (incompatible problems) दूर करण्यासाठी एक काळजीपूर्वक फिल्टरिंग प्रक्रिया (filtering process) करतात आणि एज केसेस (edge cases) आणि बाउंड्री कंडिशन्स (boundary conditions) समाविष्ट करण्यासाठी तयार केलेल्या सर्वसमावेशक चाचणी प्रकरणांचे (test cases) परीक्षण करतात. याव्यतिरिक्त, प्रत्येक समस्येसाठी DeepSeek-R1-671B मॉडेलद्वारे (model) मूल्यांकन करून difficulty score निश्चित केला जातो. या कठोर प्रक्रियेमुळे 8,520 सत्यापित कोडिंग समस्यांचा एक उच्च-गुणवत्तेचा डेटासेट तयार होतो.
AceReason-Nemotron: परिणाम आणि बेंचमार्क
NVIDIA संशोधनाचे निष्कर्ष खूपच प्रभावी आहेत. AceReason-Nemotron-7B मॉडेलने AIME 2024 आणि 2025 च्या स्पर्धांमध्ये (competitions) अनुक्रमे 14.5% आणि 14.6% अचूकता सुधारणा दर्शविली आहे, याउलट सुरुवातीच्या SFT मॉडेलमध्ये (SFT models) सुधारणा कमी होती. यासोबतच, LiveCodeBench v5 आणि v6 बेंचमार्कवर (benchmarks) अनुक्रमे 14.2% आणि 8% चा लक्षणीय फायदा दर्शविला आहे. मॉडेलच्या मोठ्या 14B प्रकाराने DeepSeek-R1-Distill-Qwen-32B आणि DeepSeek-R1-Distill-Llama-70B सारख्या मोठ्या मॉडेलपेक्षाही (models) चांगली कामगिरी केली आहे. यामुळे ओपन RL-आधारित तर्क मॉडेलमध्ये (reasoning models) सर्वोत्तम निकाल प्राप्त झाले आहेत.
स्टेट-ऑफ-द-आर्ट डिस्टिलेशन-आधारित मॉडेलच्या (distillation-based models) तुलनेत, AceReason-Nemotron-14B ने AIME बेंचमार्कवर OpenMath-14B/32B पेक्षा 2.1%/4.4% आणि LiveCodeBench वर OpenCodeReasoning-14B पेक्षा 1.7%/0.8% चांगली कामगिरी केली आहे. हे स्पष्टपणे दर्शवते की RL डिस्टिलेशन दृष्टिकोनपेक्षा (distillation approaches) जास्त चांगली कामगिरी करू शकते आणि QWQ-32B आणि o3-mini सारख्या प्रगत फ्रंटियर मॉडेलच्या (frontier models) तुलनेत स्पर्धात्मक कार्यक्षमतेची पातळी राखते.
या निष्कर्षांचे महत्त्व खूप मोठे आहे. हे सूचित करतात की मोठ्या प्रमाणावर RL मध्ये AI मॉडेलमध्ये (AI models) तर्क क्षमता (reasoning capabilities) सुधारण्याची क्षमता आहे, जी पारंपरिक दृष्टिकोनच्या मर्यादांपेक्षा अधिक आहे. क्रमवार डोमेन-विशिष्ट प्रशिक्षण धोरण (sequential domain-specific training strategy) आणि मजबूत डेटा क्युरेशन पाइपलाइन (data curation pipeline) या क्षेत्रातील भविष्यातील संशोधनासाठी एक ब्लूप्रिंट (blueprint) प्रदान करतात.
प्रबलित शिक्षण तर्क मर्यादांना प्रोत्साहन देते
हे संशोधन मॉडेलच्या तर्क क्षमतांच्या (model reasoning capabilities) सीमांना पुढे नेण्यासाठी प्रबलित शिक्षणाच्या (reinforcement learning) महत्त्वपूर्ण क्षमतेवर जोर देते. धोरणात्मकदृष्ट्या डोमेन-विशिष्ट प्रशिक्षणाचा (domain-specific training) वापर करणे आणि उच्च-गुणवत्तेचा डेटा काळजीपूर्वक क्युरेट (curate) करणे AI मॉडेलला (AI models) पूर्वीच्या न सुटणाऱ्या समस्यांचे निराकरण करण्यास मदत करते. यासोबतच, तर्क मॉडेल विकासासाठी (reasoning model development) नवीन मापदंड स्थापित करते, ज्यामुळे अभूतपूर्व अचूकता (unprecedented accuracy) आणि कार्यक्षमतेसह (efficiency) वास्तविक जगातील आव्हानांना तोंड देण्यासाठी AI प्रणालींची (AI systems) नवीन पिढी तयार होते. प्रभावीपणे तर्क करण्याची क्षमता बुद्धिमत्तेचा (intelligence) आधारस्तंभ आहे. NVIDIA ने केलेली प्रगती कृत्रिम बुद्धिमत्तेची (artificial intelligence) पूर्ण क्षमता साकार करण्याच्या दिशेने एक मोठे पाऊल आहे. भविष्यातील संशोधन या तंत्रांना आणखी मोठ्या मॉडेलपर्यंत (models) विस्तारित करण्यावर आणि तर्क कार्यक्षमतेत (reasoning performance) सुधारणा करण्यासाठी नवीन डेटा क्युरेशन धोरणे (data curation strategies) शोधण्यावर लक्ष केंद्रित करेल. अधिक अत्याधुनिक रिवॉर्ड फंक्शन्स (reward functions) आणि एक्सप्लोरेशन स्ट्रॅटेजी (exploration strategies) विकसित करणे देखील क्लिष्ट तर्क कार्यांसाठी (complex reasoning tasks) AI मॉडेलला प्रशिक्षण देण्याशी संबंधित असलेल्या समस्यांवर मात करण्यासाठी महत्त्वाचे ठरेल. मानवांप्रमाणे तर्क करू शकतील, शिकू शकतील आणि जुळवून घेऊ शकतील अशा AI प्रणाली तयार करणे हे अंतिम ध्येय आहे. यामुळे त्यांना जटिल समस्यांचे निराकरण (solve complex problems) करता येईल आणि विविध क्षेत्रांमध्ये माहितीपूर्ण निर्णय (informed decisions) घेता येतील.
शिवाय, RL चा वापर अचूकतेच्या पलीकडेही अनेक फायदे देतो. RL एजंट कार्यक्षमतेसारख्या (efficiency) विविध उद्दिष्टांसाठी ऑप्टिमाइझ (optimize) करण्यास शिकू शकतात. उदाहरणार्थ, एक RL एजंट केवळ योग्यच नाही, तर कार्यक्षम आणि समजण्यास सोपा कोड तयार करण्यासाठी प्रशिक्षित केला जाऊ शकतो. ही क्षमता सुरक्षा-गंभीर (safety-critical) ऍप्लिकेशन्समध्ये (applications) विशेषतः महत्त्वाची आहे, जिथे AI प्रणाली विश्वसनीय (reliable) आणि अंदाजे (predictable) आहेत याची खात्री करणे आवश्यक आहे.
NVIDIA च्या कार्यामुळे AI संशोधनात डेटा क्युरेशनचे (data curation) महत्त्व वाढत आहे हे दिसून येते. प्रशिक्षण डेटाच्या गुणवत्तेचा AI मॉडेलच्या (AI models) कार्यक्षमतेवर लक्षणीय परिणाम होतो, आणि अत्याधुनिक निकाल (state-of-the-art results) प्राप्त करण्यासाठी काळजीपूर्वक क्युरेट केलेले (curated) डेटासेट आवश्यक आहेत. NVIDIA ने विकसित केलेली डेटा क्युरेशन पाइपलाइन (data curation pipeline) तर्क मॉडेलवर (reasoning models) काम करणाऱ्या संशोधकांसाठी एक मौल्यवान (valuable) संसाधन (resource) आहे, आणि ती इतर डोमेनमध्ये (domains) देखील वापरली जाऊ शकते.
मोठ्या प्रमाणावर RL, डोमेन-विशिष्ट प्रशिक्षण (domain-specific training) आणि मजबूत डेटा क्युरेशनचे (data curation) संयोजन AI मॉडेलच्या (AI models) तर्क क्षमता (reasoning capabilities) सुधारण्यासाठी एक प्रभावी उपाय आहे हे सिद्ध झाले आहे. ही तंत्रे विकसित होत राहतील, तसतसे आपण AI च्या क्षेत्रात अधिक प्रभावी प्रगती पाहू शकतो आणि नजीकच्या भविष्यात AI मॉडेलमध्ये (AI models) सतत सुधारणा अपेक्षित आहेत.