OpenAI के GPT-4.5 प्रशिक्षण का विश्लेषण: 100,000 GPUs और ‘विनाशकारी समस्याओं’ पर विजय
OpenAI ने हाल ही में अपने सबसे महत्वाकांक्षी मॉडल GPT-4.5 के विकास के बारे में जानकारी साझा की है। यह खुलासा मॉडल के जारी होने के एक महीने से अधिक समय बाद आया है, OpenAI के सह-संस्थापक और CEO, सैम ऑल्टमैन, GPT-4.5 परियोजना के तीन प्रमुख तकनीकी व्यक्तियों के साथ 45 मिनट की बातचीत में शामिल थे। इस चर्चा में पहले से अज्ञात चुनौतियों, महत्वपूर्ण समय-सीमाओं, संगणना क्लस्टर में लगातार विफलताओं और प्रदर्शन वृद्धि के अप्रत्याशित मार्गों का पता चला।
GPT-4.5 का उदय: दो साल की यात्रा
GPT-4.5 पहल, अपनी शुरुआत से दो साल पहले शुरू हुई, OpenAI के सबसे सावधानीपूर्वक नियोजित प्रयास का प्रतिनिधित्व करती है। इसमें सैकड़ों व्यक्तियों के ठोस प्रयास की आवश्यकता थी, ऑल्टमैन ने उल्लेख किया कि इस परियोजना ने प्रभावी रूप से OpenAI में ‘लगभग सभी’ को शामिल किया। यह व्यापक भागीदारी संगठन के व्यापक मिशन के भीतर GPT-4.5 के सामरिक महत्व को रेखांकित करती है।
विकास के दौरान, OpenAI टीम को ‘विनाशकारी समस्याओं’ का सामना करना पड़ा। 100,000 GPU क्लस्टर की तैनाती ने अंतर्निहित बुनियादी ढांचा कमजोरियों को उजागर किया जो दुर्लभ अभी तक गंभीर विफलताओं के रूप में प्रकट हुईं। तात्कालिकता और इष्टतम प्रदर्शन के बीच संतुलन बनाने के लिए, सिस्टम इंजीनियरों ने एक पुनरावृत्त दृष्टिकोण अपनाया, अनिवार्य रूप से ‘निर्माण और फिक्सिंग’ एक साथ। एक विशेष रूप से मायावी बग ने क्लस्टर को बार-बार त्रुटियों से ग्रस्त कर दिया, प्रशिक्षण प्रक्रिया लगभग 40% पूरी होने तक इसका पता नहीं चला।
विरोधाभासी रूप से, इन परीक्षणों ने OpenAI की तकनीकी नींव को मजबूत करने में योगदान दिया। प्राप्त विशेषज्ञता अब GPT-4 के परिमाण के मॉडल को दोहराने के लिए केवल 5-10 व्यक्तियों की एक दुबली टीम को सक्षम बनाती है। GPT-4 से GPT-4.5 तक प्रदर्शन छलांग, लगभग दस गुना अनुमानित, ‘मात्रा निर्धारित करने में मुश्किल लेकिन पूरी तरह से बढ़ी हुई बुद्धिमत्ता’ द्वारा विशेषता थी, यहां तक कि OpenAI के भीतर के लोगों को भी आश्चर्यचकित करती है। यह गुणात्मक छलांग मात्र स्केलिंग से परे प्रगति का सुझाव देती है, जो मॉडल की तर्क करने और समझने की क्षमता में मौलिक सुधारों की ओर इशारा करती है।
आगे देखते हुए, OpenAI को पता है कि प्रदर्शन में अगले क्रम को प्राप्त करना अकेले कम्प्यूटेशनल शक्ति पर निर्भर नहीं करेगा, बल्कि डेटा दक्षता पर निर्भर करेगा। ध्यान उन एल्गोरिदम को विकसित करने की ओर बढ़ रहा है जो मौजूदा डेटासेट से अधिक ज्ञान निकाल सकते हैं, जिससे उपलब्ध कंप्यूट संसाधनों की उपयोगिता अधिकतम हो सके।
इसके अलावा, आर्किटेक्चर एक एकल-क्लस्टर से मल्टी-क्लस्टर डिज़ाइन में विकसित हो रहा है, जिसमें भविष्य के प्रशिक्षण परिदृश्यों को 10 मिलियन GPUs के साथ सहयोगी शिक्षण शामिल है। इस परिवर्तन के लिए इस तरह के बड़े पैमाने पर वितरित सिस्टम की स्थिरता और विश्वसनीयता सुनिश्चित करने के लिए दोष सहिष्णुता में महत्वपूर्ण सुधार की आवश्यकता है।
बातचीत में डेटा के ‘लंबे पूंछ’ और स्केलिंग कानूनों के बीच संबंध, मशीन लर्निंग और सिस्टम टीमों (सह-डिजाइन) के बीच घनिष्ठ सहयोग के फायदे, बिना पर्यवेक्षित सीखने का सार और सावधानीपूर्वक समस्या-समाधान की संस्कृति पर भी ध्यान दिया गया।
GPT-4.5 के पीछे प्रमुख खिलाड़ी
ऑल्टमैन के अलावा, इस बातचीत में भाग लेने वाले तीन अन्य OpenAI टीम सदस्य थे:
- एलेक्स पाइनो: GPT-4.5 के पूर्व-प्रशिक्षण मशीन लर्निंग एल्गोरिदम के लिए जिम्मेदार।
- अमीन टूटनचियन: OpenAI के मुख्य सिस्टम आर्किटेक्ट।
- डेनियल सेल्सम: डेटा दक्षता और एल्गोरिदम पर शोध करते हैं।
GPT-4.5 की उत्पत्ति और विकास
सैम ऑल्टमैन: GPT-4.5 जितना बड़ा मॉडल बनाने में वास्तव में क्या लगता है?
एलेक्स पाइनो: हमने यह परियोजना लगभग दो साल पहले शुरू की थी। उस समय, OpenAI एक नया बड़ा कंप्यूटिंग क्लस्टर लॉन्च करने वाला था, और हमारी टीम ने इस अवसर को देखा और मॉडल को शामिल करने की आवश्यकता वाले कार्यों को निर्धारित करने के लिए कार्यों की एक श्रृंखला की, और बड़ी संख्या में जोखिम कम करने वाले ऑपरेशन परीक्षण किए।
हमने इसके लिए एक लंबी योजना विकसित की, जिसमें सिस्टम से लेकर मशीन लर्निंग तक पूरे प्रौद्योगिकी ढेर को शामिल किया गया। जोखिमों को कम करना और प्रशिक्षण की तैयारी एक लंबी निष्पादन प्रक्रिया है, और प्रशिक्षण अपने आप में एक बहुत बड़ी परियोजना है।
अमीन टूटनचियन: मुझे लगता है कि इस प्रक्रिया के लिए मशीन लर्निंग टीम और सिस्टम टीम के बीच शुरू से ही घनिष्ठ सहयोग की आवश्यकता होती है, जब तक कि हम स्पष्ट रूप से यह नहीं जान लेते कि हम किस मॉडल को प्रशिक्षित करना चाहते हैं, और फिर प्रशिक्षण शुरू करते हैं।
हमने मशीन लर्निंग और सिस्टम में भविष्यवाणियां की हैं, अपेक्षाओं और वास्तविकता के बीच अंतर को कम करने की कोशिश कर रहे हैं। हालाँकि, क्योंकि हमारी कार्य लय बहुत तेज है और हमें नवीनतम कंप्यूटिंग संसाधनों का उपयोग करना है, मॉडल प्रशिक्षण कुछ ऐसा हो गया है जिसकी पहले से पूरी तरह से योजना बनाना मुश्किल है।
हम लगभग हमेशा कई अनसुलझी समस्याओं के साथ प्रशिक्षण शुरू करते हैं और प्रक्रिया के दौरान चुनौतियों को दूर करने और प्रगति करने की कोशिश करते हैं। मुख्य समाधान अधिक कंप्यूटिंग संसाधनों को बढ़ाना है।
अंतिम चरण निष्पादन है, जिसके लिए कई लोगों को प्रशिक्षण प्रक्रिया को पूरा करने के लिए लंबे समय तक बहुत ऊर्जा और प्रेरणा का निवेश करने की आवश्यकता होती है।
सैम ऑल्टमैन: आपको क्या लगता है कि हमारी अपेक्षाओं और वास्तविकता के बीच कितना अंतर है?
अमीन टूटनचियन: सिस्टम के संदर्भ में, शुरुआत में, हम आमतौर पर अपेक्षित स्थिति से बहुत दूर होते हैं। हम हमेशा एक विकल्प का सामना करते हैं: लॉन्च को स्थगित करना और समस्या के हल होने की प्रतीक्षा करना, या जल्दी शुरू करना और प्रक्रिया में समस्या को हल करना। इस प्रक्रिया में अनुचित देरी से बचने के लिए हमेशा ट्रेड-ऑफ की आवश्यकता होती है।
लेकिन लगभग हमेशा अप्रत्याशित समस्याएं होती हैं, और हमें जो करना होता है वह इन नोड्स को यथासंभव संभालना, अज्ञात कारकों से निपटना और मॉडल प्रशिक्षण के लिए एक योजना तैयार करना है।
एलेक्स पाइनो: इस परियोजना में, हमारा लक्ष्य GPT-4.5 बनाना है, जिसका अर्थ है कि इसकी क्षमताएं GPT-4 की तुलना में 10 गुना अधिक स्मार्ट होनी चाहिए। यह शुरुआती लक्ष्य है जिसे हमने लगभग 2 साल पहले निर्धारित किया था।
इस प्रक्रिया में कई चीजें हुईं। हम सोच रहे थे कि क्या हम अपेक्षा से बेहतर या बदतर कर सकते हैं? यह एक बहुत जटिल प्रक्रिया है, लेकिन अंत में, हमारे द्वारा डाले गए प्रभावी गणनाओं के संदर्भ में, हमें एक मॉडल मिला जो हमें लगता है कि GPT-4 की तुलना में 10 गुना अधिक स्मार्ट है।
अमीन टूटनचियन: निष्पादन के संदर्भ में, GPT-4.5 परियोजना पर बिताया गया समय हमारी शुरुआती अपेक्षा से बहुत दूर है।
दुबली टीम क्रांति: न्यूनतम संसाधनों के साथ GPT-4 को प्रशिक्षित करना
सैम ऑल्टमैन: जब क्लस्टर 10,000 कार्ड से बढ़कर 100,000 कार्ड हो गया, तो आपको इतनी सारी समस्याएं क्यों आईं?
अमीन टूटनचियन: मुझे लगता है कि यदि सिस्टम डेवलपर पर्याप्त संवेदनशील हैं, तो अधिकांश समस्याओं को छोटे पैमाने के चरण में देखा जा सकता है।
कुछ ऐसी समस्याएं भी हैं जो बड़े पैमाने पर प्रशिक्षण चरण के लिए अद्वितीय नहीं हैं, लेकिन मूल रूप से अक्सर होती हैं, लेकिन पैमाने बढ़ने के बाद विनाशकारी समस्याएं बन जाएंगी, खासकर जब टीम को यह उम्मीद नहीं थी कि ये समस्याएं पहले से इतनी हद तक खराब हो जाएंगी।
सैम ऑल्टमैन: किन चीजों ने विनाशकारी परिणाम दिए हैं?
अमीन टूटनचियन: मुझे लगता है कि बुनियादी ढांचा की समस्याएं अच्छी तरह से ज्ञात हैं। विफलता दर, विफलता प्रकार और विफलताओं की कुल मात्रा बहुत अधिक है। 100,000 कार्ड क्लस्टर एक बड़े पैमाने पर नमूना पूल है, इसलिए हमने उन समस्याओं की भी खोज की जिन्हें कंप्यूटिंग पावर आपूर्तिकर्ता ने नहीं देखा।
नेटवर्क इसका एक हिस्सा है, और व्यक्तिगत त्वरक में भी समस्याएं हो सकती हैं। लेकिन यह भी इस प्रणाली की सुंदरता है - अपेक्षित परिणाम प्राप्त करने के लिए लगभग सभी घटकों को अपेक्षित रूप से काम करने की आवश्यकता है। हमारा काम इस समस्या को यथासंभव कम करना है।
सैम ऑल्टमैन: क्लस्टर पैमाने की सीमा पर काम करना वास्तव में मुश्किल है, लेकिन मैंने यह भी देखा कि ऐसी चीजें करना जो अब प्रौद्योगिकी के सबसे आगे नहीं हैं, बहुत आसान हो गया है। GPT-4.5 को प्रशिक्षित करने के लिए सैकड़ों लोगों की आवश्यकता होती है, और OpenAI में लगभग हर कोई शामिल होता है।
लेकिन आज, यदि आप OpenAI से एक सबसे छोटी टीम चुनते हैं और हमारे सभी ज्ञान और सभी सिस्टम कार्य के साथ GPT-4 को खरोंच से पुन: प्रशिक्षित करते हैं, तो इसमें कितने लोग लगेंगे?
एलेक्स पाइनो: मुझे लगता है कि अब GPT-4 स्तर का मॉडल बनाने में लगभग 5 से 10 लोग लग सकते हैं। GPT-4.5 को पूरा करने की प्रक्रिया में प्रौद्योगिकी ढेर में काफी सुधार हुआ है।
वास्तव में, हमने GPT-4.5 को प्रशिक्षित करने की प्रक्रिया में इसी तरह की चीजें की हैं - हमने GPT-4o को प्रशिक्षित किया, जो GPT-4 स्तर का मॉडल है, और GPT-4.5 शोध परियोजना की कई समान सामग्री का उपयोग करके इसे फिर से प्रशिक्षित किया। उस प्रशिक्षण के लिए कम लोगों का उपयोग किया गया था।
डेटा दक्षता: अगली पीढ़ी के मॉडल को अनलॉक करने की कुंजी
सैम ऑल्टमैन: आपके नजरिए से, डैन? बड़े मॉडल को प्रशिक्षित करना मुश्किल क्यों है?
डेनियल सेल्सम: मुझे लगता है कि कुछ भी नया करना मुश्किल है। मुझे लगता है कि यहां तक कि यह पता लगाना कि किसी और ने कुछ किया है, इसे बहुत आसान बना देता है, क्योंकि सबसे कठिन हिस्सा यह विश्वास करना है कि आप पहली जगह में कुछ कर सकते हैं। मुझे लगता है कि यह जानना कि कुछ व्यवहार्य है, एक सुपर चीट कोड है, जिससे चीजें बहुत आसान हो जाती हैं।
एलेक्स पाइनो: हम GPT पूर्व-प्रशिक्षण ऑपरेशन को पहले की तुलना में 10 गुना तक बढ़ा रहे हैं, और हमें हमेशा कुछ दिलचस्प नई चीजें मिलेंगी जिनकी आप जरूरी नहीं कि भविष्यवाणी कर सकें।
सैम ऑल्टमैन: पूर्व-प्रशिक्षण पैमाने में अगले 10x या 100x विकास को प्राप्त करने के लिए क्या आवश्यक है?
डेनियल सेल्सम: डेटा दक्षता। ट्रांसफॉर्मर आर्किटेक्चर (जो कि GPT है) डेटा का उपयोग करने में बहुत कुशल है। यह जानकारी को अच्छी तरह से अवशोषित और संकुचित कर सकता है और सामान्यीकरण प्राप्त कर सकता है। इसकी सबसे बड़ी विशेषता यह है कि यह कंप्यूटिंग संसाधनों के साथ कुशलता से जानकारी को अवशोषित कर सकता है।
हालांकि, डेटा से प्राप्त अंतर्दृष्टि की गहराई सीमित है। जब कंप्यूटिंग पावर तेजी से बढ़ती है जबकि डेटा अपेक्षाकृत धीरे-धीरे बढ़ता है, तो डेटा इस मानक मॉडल में एक बाधा बन जाता है। इसके लिए एल्गोरिथम नवाचार की आवश्यकता होती है, ऐसी विधियों का विकास करना जो समान मात्रा में डेटा से अधिक ज्ञान सीखने के लिए अधिक कंप्यूटिंग पावर का उपयोग कर सकें।
सैम ऑल्टमैन: इसके अलावा आपको क्या लगता है कि हमें विस्तार बनाए रखने के लिए क्या चाहिए?
अमीन टूटनचियन: मेरा जवाब सिस्टम के बारे में है। मुझे लगता है कि GPT-4.5 के लिए आवश्यक विशाल काम अनिवार्य रूप से मॉडल विनिर्देशों का अपरिहार्य परिणाम है। हम GPT-4.5 को GPT-4 के समान तकनीकी आर्किटेक्चर के साथ प्रशिक्षित नहीं कर सकते हैं।
राज्य प्रबंधन के संदर्भ में, क्योंकि आवश्यक कंप्यूटिंग संसाधन एक एकल क्लस्टर की वहन क्षमता से अधिक हो गए हैं, इसलिए हमें मल्टी-क्लस्टर प्रशिक्षण आर्किटेक्चर पर स्विच करना होगा। इस लक्ष्य को प्राप्त करने के लिए, हमें कम समय में कई अलग-अलग वर्कफ़्लो को एकीकृत करना होगा।
यद्यपि इसने हमें एक चरणबद्ध सफलता प्राप्त करने में मदद की, प्रदर्शन सुधार के अगले क्रम को प्राप्त करने के लिए, हमें अभी भी कई ज्ञात लेकिन अस्थायी रूप से आश्रयित तकनीकी समस्याओं को हल करने की आवश्यकता है - इन समस्याओं से बचा नहीं जा सकता है। यह इस प्रकार का तकनीकी ट्रेड-ऑफ है जो एक परिपूर्ण प्रणाली के विकास चक्र को लगातार लंबा करता है। हम इष्टतम कार्यान्वयन योजना का पालन करने की प्रक्रिया में हमेशा रणनीतिक ट्रेड-ऑफ कर रहे हैं।
यह स्पष्ट होना चाहिए कि सिस्टम अपने आप में अंतिम लक्ष्य नहीं है। इसका वास्तविक आउटपुट मूल्य मुख्य विचार है। अगले 10x प्रदर्शन सुधार के लिए, मुझे लगता है कि दोष सहिष्णुता में सफलता महत्वपूर्ण है। हमें एक दोष सहिष्णु तंत्र बनाने की आवश्यकता है जो संचालन और रखरखाव की चिंता को महत्वपूर्ण रूप से कम करने के लिए वर्कलोड के साथ गहराई से सहयोग करता है। वर्तमान सुपर-बड़े सिस्टम की संचालन और रखरखाव जटिलता अनिवार्य रूप से पिछले सिस्टम से अलग है।
सैम ऑल्टमैन: क्या आपको पता है कि GPT-4.5 प्रशिक्षण के दौरान कुछ घटकों के कारण कितने प्रतिशत विफलताएं हुईं?
अमीन टूटनचियन: मेरे पास साझा करने के लिए विशिष्ट आंकड़े नहीं हैं, लेकिन सामान्य तौर पर, नई पीढ़ी के हार्डवेयर की शुरुआती तैनाती को अक्सर कई तकनीकी चुनौतियों का सामना करना पड़ता है जिन्हें पूरी तरह से समझा नहीं गया है। हमने समस्या को पूरी तरह से स्पष्ट करने से पहले परियोजना को आगे बढ़ाने का विकल्प चुना, जिसके कारण शुरुआती विफलता दर अधिक हो गई।
लेकिन अनुभव से पता चलता है कि जैसे ही मूल कारण की पहचान की जाती है और हल किया जाता है, विफलता दर में काफी कमी आएगी। यह घटना अनिवार्य रूप से बुनियादी ढांचे की हमारी गहरी समझ को दर्शाती है - कुछ लोग इसे बुनियादी ढांचे को साफ करना या बुनियादी ढांचे की बुनियादी समस्याओं को समझना कहते हैं।
निष्पादन के शुरुआती चरण लगभग हमेशा काफी दर्दनाक होते हैं। जबकि हम परियोजना को आगे बढ़ा रहे हैं, हम लगातार नए विफलता मोड की खोज और समाधान भी कर रहे हैं, लेकिन अंततः विफलता दर धीरे-धीरे कम हो जाएगी और सामान्य चलने का समय बढ़ जाएगा।
यह अनिवार्य रूप से प्राथमिकता ट्रेड-ऑफ का मामला है: बुनियादी ढांचे के जीवन चक्र के शुरुआती चरणों में, इसकी विफलता जोखिम का सटीक अनुमान लगाना अक्सर मुश्किल होता है; और यदि हम अत्यधिक अंतिम आदर्श स्थिति (मूल ‘सिटी एस्टेट’ है, आदर्श शहर-राज्य डिजाइन) का पीछा करते हैं, तो इससे सिस्टम की प्रारंभिक उपलब्धता प्रदर्शन बेहद खराब हो सकता है।
गणना से परे: एल्गोरिथम नवाचार और डेटा की अप्रयुक्त क्षमता
सैम ऑल्टमैन: यद्यपि अनुमान मॉडल हमारे भविष्य के प्रौद्योगिकी ढेर का एक महत्वपूर्ण घटक है, आइए अस्थायी रूप से पारंपरिक पूर्व-प्रशिक्षण मॉडल की विकास सीमाओं पर ध्यान केंद्रित करें। यह मानते हुए कि हमारे पास असीमित GPU कंप्यूटिंग पावर, असीमित नेटवर्क बैंडविड्थ और असीमित बिजली आपूर्ति है, लेकिन फिर भी मौजूदा तकनीकी बाधाओं से सीमित हैं - जिसमें सिस्टम विश्वसनीयता मुद्दे, दोष सहिष्णु प्रशिक्षण विधियों की कमी और मौजूदा डेटासेट की सीमाएं शामिल हैं।
प्रत्येक प्रमुख GPT संस्करण संख्या के लिए 100 गुना पैमाने पर वृद्धि प्राप्त करने के हमारे विकास नियम के अनुसार, वर्तमान तकनीकी सीमाओं के आधार पर, पूर्व-प्रशिक्षण मॉडल का विकास किस स्तर तक पहुँच सकता है? विशेष रूप से, GPT श्रृंखला मॉडल के लिए, हमारे मौजूदा ज्ञान प्रणाली के आधार पर, सैद्धांतिक रूप से किस प्रकार के मॉडल को प्रशिक्षित किया जा सकता है? क्या हम GPT-5.5 बना सकते हैं?
एलेक्स पाइनो: मशीन लर्निंग और एल्गोरिथम विकास के दृष्टिकोण से, हम अभी तक एक स्पष्ट सैद्धांतिक सीमा तक नहीं पहुंचे हैं। वास्तव में, हमने केवल उच्च डेटा दक्षता वाले एल्गोरिदम का पता लगाना और मौजूदा डेटा संसाधनों का पूरी तरह से उपयोग करना शुरू किया है। यह स्थिति बहुत दिलचस्प है - यहां तक कि GPT-4 जैसे मॉडल भी बड़े पैमाने पर सीमित कंप्यूटिंग संसाधनों की स्थितियों के तहत विकसित किए गए हैं, जिसने अधिकांश पूर्व अनुसंधान की दिशा निर्धारित की है।
लेकिन अब स्थिति पूरी तरह से अलग है। GPT-4.5 के बाद से, कुछ प्रमुख आयामों में, गणना के बजाय डेटा मुख्य बाधा बनता जा रहा है। इस बदलाव से संबंधित अनुसंधान कम रोमांचक हो गया है।
सैम ऑल्टमैन: लेकिन यह वास्तव में एक अद्भुत प्रगति है, और दुनिया को पूरी तरह से एहसास नहीं हो सकता है कि कम्प्यूटेशनल संसाधन अब हमारे द्वारा बनाए जा सकने वाले सर्वोत्तम मॉडल पर मुख्य बाधा नहीं हैं। यह बदलाव बहुत सार्थक है, आखिरकार, हम बहुत लंबे समय से कम्प्यूटेशनल रूप से सीमित वातावरण में जी रहे हैं।
आश्चर्य का अनावरण: पूर्वानुमेयता बनाम अप्रत्याशित बुद्धिमत्ता
सैम ऑल्टमैन: GPT-4.5 के प्रशिक्षण के दौरान हमने सबसे दिलचस्प मशीन लर्निंग अनुभव क्या सीखा? बस आप जो साझा करना चाहते हैं, वह कहें।
अमीन टूटनचियन: सामान्य तौर पर, सबसे विचारोत्तेजक चीजें वे हैं जो हमारी भविष्यवाणियों से भटक जाती हैं - खासकर जब हम यह समझने की कोशिश करते हैं कि वास्तविक प्रदर्शन अपेक्षित वक्र से क्यों भटक जाता है।
एलेक्स पाइनो: हमारे लिए सबसे आश्चर्यजनक खोजों में से एक यह है कि विभिन्न मशीन लर्निंग घटकों में बहुत अलग स्केलेबिलिटी प्रदर्शन हैं। कुछ भागों को बहुत अच्छी तरह से विस्तारित किया जा सकता है, जबकि अन्य को नहीं किया जा सकता है। यह वही है जो हमने वास्तविक प्रशिक्षण प्रक्रिया के दौरान वास्तव में महसूस किया। इस अनुभव ने हमें बहुत प्रेरणा दी।
डेनियल सेल्सम: मुझे लगता है कि GPT प्रतिमान की दो मुख्य विशेषताएं हैं: पहला, परीक्षण हानि (एक मीट्रिक जो मापता है कि मॉडल अनदेखे परीक्षण डेटा पर कितना अच्छा प्रदर्शन करता है) का सटीक अनुमान लगाया जा सकता है; दूसरा, मॉडल प्रदर्शन पैमाने में वृद्धि के साथ एक अनुमानित सुधार दिखाता है। इससे भी अधिक आश्चर्यजनक यह है कि परीक्षण हानि में कमी को विभिन्न कठिन-से-मात्रा निर्धारित करने वाले लेकिन अद्भुत और रहस्यमय तरीकों से सभी-गोल बढ़ी हुई बुद्धिमत्ता के स्तर में बदल दिया जाएगा।
सैम ऑल्टमैन: क्या आप इसके बारे में बिल्कुल आशावादी हैं? क्या आप इस दृष्टिकोण से पूरी तरह सहमत हैं?
डेनियल सेल्सम: वास्तव में, मैं जो कहना चाहता हूं वह यह है कि हमें GPT-4.5 परीक्षण में एक विशेष रूप से दिलचस्प घटना मिली - पुन: परीक्षण के बाद, मॉडल द्वारा दिखाई गई कई परिष्कृत क्षमताओं ने सभी की अपेक्षाओं को पूरी तरह से पार कर लिया।
हमें यकीन है कि यह विभिन्न तरीकों से स्मार्ट हो जाएगा जिन्हें पहले से परिभाषित करना मुश्किल है, और इन सूक्ष्म सुधारों को वास्तविक तैनाती के बाद उपयोगकर्ता की संतुष्टि से देखा जा सकता है: मजबूत सामान्य ज्ञान भंडार, अधिक सटीक प्रासंगिक समझ क्षमता, और अधिक सूक्ष्म अर्थपूर्ण पकड़ - यह उन अतिरिक्त परीक्षण नुकसानों द्वारा लाया गया जादू है। मेरी राय में, स्केलिंग लॉ को इस आयाम में पूरी तरह से सत्यापित किया गया है।
सहयोग की शक्ति: मशीन लर्निंग और सिस्टम टीमें सद्भाव में काम कर रही हैं
सैम ऑल्टमैन: पूरी प्रशिक्षण प्रक्रिया के दौरान सबसे सकारात्मक क्षण क्या था? आपकी पसंदीदा स्मृति क्या है? जाहिर है कि बहुत दर्द है, लेकिन मुझे उम्मीद है कि उस दर्द को कम कर दिया गया है।
एलेक्स पाइनो: मेरे पास ऐसा एक क्षण है। हमने प्रशिक्षण के दौरान बहुत सारे मशीन लर्निंग काम किए, और मुझे लगता है कि प्रक्रिया के दौरान हमारे द्वारा किए गए कुछ परिवर्तनों का काफी अच्छा प्रभाव पड़ा, शायद अपेक्षा से भी बेहतर, जो हमारे लिए एक बहुत ही रोमांचक क्षण था।
अमीन टूटनचियन: मेरे लिए, प्रशिक्षण के साथ-साथ, हम बुनियादी ढांचे का निर्माण भी कर रहे हैं। हमें दृढ़ विश्वास है कि हम इस प्रदर्शन चट्टान को पार कर सकते हैं, और हमारे पास एक योजना है, और हर कोई इसे निष्पादित कर रहा है, लेकिन इसमें बहुत समय लगता है। यह कड़ी मेहनत है और निश्चित रूप से मेरी सोच से भी ज्यादा मुश्किल है। मेरी भविष्यवाणी गलत थी, और मैंने इन समस्याओं को हल करने में लगने वाले समय को कम करके आंका।
जब टीम ने आखिरकार उन महत्वपूर्ण समस्याओं को दूर किया और प्रदर्शन में काफी सुधार हुआ, तो वह पल अभी भी मेरी स्मृति में ताजा है। आप पूरी टीम में ऊर्जा परिवर्तन को स्पष्ट रूप से महसूस कर सकते हैं - हर कोई अचानक ऊर्जा से भरा है और नए प्रेरणा के साथ अंतिम लक्ष्य की ओर बढ़ रहा है।
सबसे अद्भुत बात यह है कि हमारी स्थिति ट्रैकर पर प्रदर्शित अनुमानित समापन समय शुरुआती दो वर्षों से कम होता रहा, और अंत में एक स्पष्ट समय नोड पर लॉक हो गया। टीम के मनोबल को बढ़ाने के लिए यह दृश्यमान प्रगति अथाह है। मुझे लगता है कि यही इसकी सुंदरता है।
मैं यह रेखांकित करना चाहूंगा कि मशीन लर्निंग कार्य कभी नहीं रुका। प्रशिक्षण शुरू होने के बाद भी, यह मशीन लर्निंग सह-डिजाइन प्रक्रिया अभी भी जारी है। मशीन लर्निंग टीम ने न केवल उन समस्याओं पर सक्रिय रूप से अनुवर्ती कार्रवाई की जिन्हें ‘बाद में प्रसंस्करण’ के रूप में चिह्नित किया गया था, बल्कि उन सुधारों को भी वितरित करना जारी रखा जिन्होंने वास्तव में प्रशिक्षण समय को अनुकूलित किया।
यह पूरी तरह से हमारी टीम भावना का प्रतीक है - यहां ‘अपने दरवाजे के सामने बर्फ को झाड़ने’ की कोई कार्य सीमा नहीं है, बल्कि वास्तव में निर्बाध सहयोग है। यह सामंजस्य हमारा सबसे बड़ा लाभ है।
GPT-4.5 पूर्व-प्रशिक्षण में सावधानीपूर्वक योजना और विसंगतियों का अथक पीछा
डेनियल सेल्सम: बाहरी दुनिया ने इस प्रशिक्षण की चुनौतियों और भविष्य कहनेवाला सटीकता के बारे में बहुत चर्चा की है। लेकिन वास्तव में, यह सब बेहद सावधानीपूर्वक योजना पर बनाया गया है - क्या आप इसके बारे में विस्तार से बता सकते हैं?
एलेक्स पाइनो: यह निश्चित रूप से अब तक हमने बनाई गई सबसे सावधानीपूर्वक योजना है। जैसा कि मैंने कहा, हमने प्रशिक्षण के आधिकारिक लॉन्च से एक साल पहले इस परियोजना की तैयारी शुरू कर दी थी। इस अवधि के दौरान, हमने कई बड़े पैमाने पर जोखिम नियंत्रण परीक्षण रन आयोजित किए।
हम सभी सुधारों को धीरे-धीरे पेश करने पर विशेष ध्यान देते हैं: एक उच्च-आत्मविश्वास बुनियादी विन्यास से शुरू होकर - जिसे GPT-4 के समान एक परिपक्व आर्किटेक्चर के रूप में समझा जा सकता है, हमने मशीन लर्निंग स्तर पर इस विन्यास को पूरी तरह से महारत हासिल कर लिया है - और फिर बिल्डिंग ब्लॉक्स की तरह नई सुविधाओं को स्तरित किया गया है।
मुख्य बात विभिन्न पैमानों पर प्रत्येक सुधार की स्केलेबिलिटी को कड़ाई से सत्यापित करना है: न केवल प्रदर्शन सुधारों को देखना है, बल्कि यह सुनिश्चित करना है कि ये सुधार मॉडल आकार बढ़ने पर प्रभावी बने रह सकते हैं। कई सुधार छोटे पैमाने के परीक्षणों में अच्छा प्रदर्शन करते हैं, लेकिन बड़े पैमाने के अनुप्रयोगों में विफल हो जाएंगे।
इसलिए, हमने पूरी प्रक्रिया में उच्च स्तर की सतर्कता बनाए रखी है और अपनी स्केलिंग कानून पद्धति को दोहराना और सुधारना जारी रखा है। इस जोखिम नियंत्रण अभ्यास के माध्यम से, हमने बहुत मूल्यवान अनुभव जमा किया है, जो भविष्य के GPT श्रृंखला मॉडल के विकास का मार्गदर्शन करना जारी रखेगा।
अमीन टूटनचियन: मुझे एक विशेष रूप से दिलचस्प क्षण याद है जिसे मैं बहुत याद करता हूं। आप जानते हैं, हम लगभग अपरिहार्य रूप से हर बार एक प्रशिक्षण कार्य शुरू करने पर विभिन्न बगों का सामना करते हैं, जो कि एक आम बात है। लेकिन मुख्य बात यह सुनिश्चित करना है कि प्रगति में बाधा न आए, और हमें हमेशा यह पुष्टि करनी चाहिए कि क्या वर्तमान प्रगति वास्तव में सही रास्ते पर है और क्या ये बग प्रशिक्षण के स्वास्थ्य पर घातक प्रभाव डालेंगे।
यद्यपि हमें शुरू में बहुत यकीन था कि बड़ी खामियां थीं, लेकिन हमारे द्वारा बनाए गए पूरे निगरानी प्रणाली के माध्यम से, हम समस्या के मूल कारण को सटीक रूप से अलग करने में सक्षम थे: क्या यह हार्डवेयर विफलता है? किस प्रकार की हार्डवेयर विफलता? क्या यह डेटा भ्रष्टाचार है? या क्या यह मशीन लर्निंग मॉडल में ही एक बग है? या क्या यह कोड में एक रेस कंडीशन है?
उस समय, हमारे पास एक ही समय में कई समस्या चर्चा क्षेत्र खुले थे, जिनमें विभिन्न प्रकार के लक्षण थे। बग फिक्स की एक श्रृंखला के बाद, हम एक गतिरोध में आ गए: कई अनसुलझी समस्याएं हमारे सामने ढेर हो गईं, और हर कोई अपना दिमाग खपा रहा था - क्या ये विभिन्न बगों के कारण हुए थे? या क्या यह एक बग है जो परेशानी पैदा कर रहा है?
बाद में, हमने एक वोट आयोजित किया और टीम के सदस्यों को सबसे संभावित मूल कारण के लिए वोट करने के लिए कहा। परिणामस्वरूप, सबसे कम आशावादी विकल्प सच्चाई से टकरा गया: यह पता चला कि PyTorch के अपस्ट्रीम में torch.sum फ़ंक्शन, एक साधारण योग ऑपरेशन के साथ एक समस्या थी।
यह बग बहुत दिलचस्प है। आप जानते हैं कि हम मुख्य रूप से ट्रिटॉन कर्नेल का उपयोग करते हैं, और केवल कुछ महत्वहीन सीमांत परिदृश्यों में हम टॉर्च संचालन पर वापस आ जाएंगे। हमारी विशिष्ट कोड पथ द्वारा ट्रिगर किया गया torch.sum फ़ंक्शन बग डेटा वितरण विशेषताओं के कारण कभी-कभी अवैध मेमोरी एक्सेस का कारण बनता है - इसने मेमोरी ऑफ़सेट की गणना करते समय गलती की।
सबसे नाटकीय बात यह है कि जब एक इंजीनियर ने आखिरकार समस्या का पता लगाया और एक फिक्स सबमिट किया, तो विभिन्न लक्षणों वाली सभी त्रुटियां गायब हो गईं। हर किसी ने उत्साह से स्लैक चैनल को ‘मल्टी-बग थ्योरी’ से ‘सिंगल-बग थ्योरी’ में बदल दिया, और दृश्य बहुत खुश था।
यह बग कितने समय से दुबका हुआ है? यह प्रशिक्षण के शुरुआती चरणों से मौजूद है और लगभग 40% प्रगति बार गुजरने तक नहीं मिला था। खोज प्रक्रिया भी नाटक से भरी हुई थी: उस समय, एक जटिल कर्नेल लगातार एक अनुक्रम को बुलाता था, और दूसरी कॉल ने अवैध मेमोरी एक्सेस को ट्रिगर किया।
यद्यपि यह क्रैश आवृत्ति बेहद कम है (यह केवल कुछ सौ या यहां तक कि हजारों प्रशिक्षण चरणों में एक बार होता है), इसे एक सामयिक विफलता के रूप में अनदेखा करना आसान है, लेकिन हमारी टीम का सिद्धांत है: किसी भी विसंगति को कभी भी जाने न दें। इस कहानी का सबसे अच्छा हिस्सा हल्के ढंग से हार न मानने के इस दृढ़ संकल्प में निहित है।
आदर्श प्रणालियों की खोज: एक दूर का क्षितिज
सैम ऑल्टमैन: GPT-4.5 पूर्व-प्रशिक्षण शुरू होने के बाद, आपको और क्या करना है?
एलेक्स पाइनो: हम सभी को अक्सर हानि वक्र का निरीक्षण करने की आवश्यकता होती है। इसके अलावा, हमें सिस्टम को लगातार अनुकूलित करने और उस सह-डिजाइन में सुधार करने की आवश्यकता है जो प्रशिक्षण शुरू होने से पहले पूरा नहीं हुआ था। प्रशिक्षण प्रक्रिया के दौरान हम विभिन्न सांख्यिकीय संकेतकों की बारीकी से निगरानी करते हैं ताकि यह सुनिश्चित हो सके कि कोई अप्रत्याशित असामान्य रुझान नहीं हैं। साथ ही, हम मशीन लर्निंग परिप्रेक्ष्य से संभावित सुधार योजनाओं का पता लगाते हैं। हालांकि डेटा-स्तर का काम पूर्व-प्रशिक्षण शुरू होने के बाद अस्थायी रूप से कम हो जाएगा, लेकिन अभी भी बड़ी संख्या में कार्यों को संसाधित करना बाकी है।
अमीन टूटनचियन: मुझे लगता है कि मशीन लर्निंग काफी हद तक निर्णय की शुद्धता पर निर्भर करती है। पूर्व-प्रशिक्षण शुरू होने के बाद, बड़ी संख्या में शोर संकेतों का सामना करते हुए, हम चाय की पत्तियों की व्याख्या करने वाले भाग्य टेलर की तरह हैं, और हमें यह तय करने की आवश्यकता है कि सिस्टम स्वस्थ है या नहीं। यह हमारी जिम्मेदारी है।
सैम ऑल्टमैन: सिस्टम स्तर पर, मॉडल प्रशिक्षण का संचालन करने से हमें क्या रोकता है? क्या यह चिप्स, प्रोसेसर, मेमोरी, नेटवर्क या पावर है?
अमीन टूटनचियन: सिस्टम की सुंदरता यह है कि सह-डिजाइन करते समय, वर्कलोड उस बुनियादी ढांचे के अनुकूल हो सकता है जिसे आप बनाते हैं। यहां कोई सामान्य कहावत नहीं है कि नेटवर्क बाधा है, या मेमोरी बैंडविड्थ बाधा है, और इसी तरह। यहां तक कि समान विनिर्देशों के मॉडल के लिए, हम संसाधन आवश्यकताओं को स्थानांतरित करने का विकल्प चुन सकते हैं, और हम एक अधिक संतुलित प्रणाली बनाने का विकल्प चुन सकते हैं, लेकिन अधिक मेमोरी बैंडविड्थ होना हमेशा फायदेमंद होता है। बिना सीमित परिस्थितियों के इस प्रश्न का उत्तर देना मुश्किल है।
GPT-4.5 को डिज़ाइन करते समय, हमें सिस्टम को किसी प्रकार का गुण रखने की आवश्यकता हो सकती है, जिसे मानव मार्गदर्शन के तहत उत्पन्न करने की आवश्यकता है। इसलिए, मॉडल आर्किटेक्चर और आर्किटेक्चर तत्वों को बनाने के लिए सह-डिजाइन बहुत महत्वपूर्ण है, और एक निश्चित सीमा तक सिस्टम और मशीन लर्निंग पहलुओं को जोड़ता है। यदि सिस्टम में एक ऐसा गुण है जिसे हम बहुत अधिक नहीं रखना चाहते हैं, तो मेरी आदर्श स्थिति यह है कि सब कुछ एक दूसरे को अधिकतम स्थान देने के लिए अलग कर दिया जाना चाहिए।
कभी-कभी चीजें एक साथ जुड़ी होती हैं, और हमें बुनियादी ढांचे की आवश्यकताओं को पूरा करने की आवश्यकता होती है, या चीजें ऐसी होनी चाहिए। ज्यादातर समय, हमें एक संतुलित प्रणाली और संतुलित संचार की आवश्यकता होती है। और हमारे पास समायोजन का सबसे अच्छा साधन ये सभी सह-डिज़ाइन हैं।
सैम ऑल्टमैन: हम इस आदर्श प्रणाली लक्ष्य से कितने दूर हैं?
अमीन टूटनचियन: यह उस लक्ष्य से अभी भी बहुत दूर है। एक प्रणाली बनाने की प्रक्रिया हमेशा इस तरह होती है: पहले इस बारे में एक आदर्श दृष्टिकोण होता है कि चीजें कैसे काम करनी चाहिए, और फिर मौजूदा संसाधनों के साथ उन अंतरों को समेटना है।
मुझे लगता है कि हम इसे सिद्धांत के लिए नहीं कर रहे हैं, बल्कि यह चर्चा करने के लिए कर रहे हैं कि हम इसे क्या बनाना चाहते हैं, इसे साकार करना चाहते हैं और जितना संभव हो सके उस आदर्श के करीब पहुंचना चाहते हैं। यह सिस्टम क्षेत्र का सबसे रोमांचक हिस्सा हो सकता है। लोग पहले कहते थे कि यह एक सुरुचिपूर्ण प्रणाली डिजाइन है, और अंततः इतिहास हमें बताएगा कि यह विकल्प सही है या गलत।
सैम ऑल्टमैन: यदि आप अगले बड़े प्रशिक्षण से पहले एक मशीन लर्निंग समस्या का उत्तर प्राप्त कर सकते हैं, तो आप सबसे अधिक क्या जानना चाहेंगे?
एलेक्स पाइनो: मैं जानना चाहूंगा कि सीमित डेटा और विशिष्ट क्षेत्रों के तहत हमें किन एल्गोरिदम का उपयोग करना चाहिए। हालांकि यह एक व्यापक प्रश्न है, लेकिन वास्तव में यह सबसे महत्वपूर्ण प्रश्न है।
सैम ऑल्टमैन: क्या आप भविष्य में 10 मिलियन या अधिक GPUs के साथ सिंक्रोनस पूर्व-प्रशिक्षण का संचालन करेंगे?
एलेक्स पाइनो: मुझे लगता है कि वहां होगा, लेकिन यह पारंपरिक पूर्व-प्रशिक्षण मॉडलनहीं हो सकता है। इसका रूप मौजूदा तकनीक से बहुत अलग हो सकता है, लेकिन यह अभी भी बिना पर्यवेक्षित सीखने के मूल को बरकरार रखेगा।
अमीन टूटनचियन: मैं अर्ध-सिंक्रोनस मोड पसंद करता हूं। भौतिक कानूनों के कारण, पूर्ण सिंक्रनाइज़ेशन यथार्थवादी नहीं है।
डेनियल सेल्सम: मुझे लगता है कि यह विकेंद्रीकृत होने की अधिक संभावना है। सीखने और कार्यों को करने के लिए एक AI प्रणाली में निश्चित रूप से 10 मिलियन GPU एक साथ काम करेंगे, लेकिन मस्तिष्क के विभिन्न हिस्सों की तरह, वे जरूरी नहीं कि एक दूसरे के साथ संवाद करें।
एल्गोरिथम सुधार और डेटा दक्षता की सहक्रियात्मक शक्ति
सैम ऑल्टमैन: सबसे उन्नत एल्गोरिदम और मानव डेटा दक्षता के बीच अंतर कितना बड़ा है? क्या हम भविष्य में पकड़ने की उम्मीद कर सकते हैं?
डेनियल सेल्सम: दोनों की सीधे तुलना करना मुश्किल है। भाषा सीखने में अंतर निश्चित रूप से बहुत बड़ा है। मुख्य बात यह है कि मानव दृश्य नसों द्वारा प्राप्त जानकारी की मात्रा को कैसे परिभाषित किया जाए। मुझे लगता है कि एल्गोरिदम आम तौर पर मनुष्यों की तुलना में बहुत कम डेटा कुशल हैं।
दशकों से, गहरी सीखने ने कंप्यूटिंग पावर दक्षता पर ध्यान केंद्रित किया है। डेटा और कंप्यूटिंग पावर की वृद्धि के अलावा, वास्तव में आश्चर्यजनक बात एल्गोरिथम सुधारों द्वारा उत्पादित सहक्रियात्मक प्रभाव है। प्रत्येक बार एल्गोरिथम प्रदर्शन में 10% या 20% सुधार होता है, तो डेटा दक्षता पर सुपरइम्पोज किए जाने पर इसका महत्वपूर्ण प्रभाव पड़ेगा। अब तक, डेटा दक्षता के आसपास कोई गतिशीलता नहीं है, क्योंकि डेटा परिचालित नहीं होने और कंप्यूटिंग पावर सीमित होने पर यह दृष्टिकोण सार्थक नहीं है।
अब, हम AI अनुसंधान के एक नए चरण में प्रवेश कर रहे हैं, और हम डेटा दक्षता में जीत हासिल करना शुरू कर देंगे। मुझे लगता है कि अब यह भविष्यवाणी करना कुछ मूर्खतापूर्ण है कि हम दुर्गम बाधाओं का सामना करेंगे। मानव मस्तिष्क जिस तरह से काम करता है वह निश्चित रूप से हमारे एल्गोरिथम सुधारों से अलग है, और हमें इस संबंध में सावधान रहना चाहिए। लेकिन मुझे लगता है कि हमें एल्गोरिदम के भविष्य के विकास के बारे में आशावादी रहना चाहिए।
सैम ऑल्टमैन: बड़े पैमाने पर पूर्व-प्रशिक्षण और मॉडल की मजबूत सीखने और तर्क क्षमताओं के बीच क्या संबंध है?
एलेक्स पाइनो: हमने जो देखा है वह यह है कि बेहतर पूर्व-प्रशिक्षण और बिना पर्यवेक्षित सीखने से अक्सर मॉडल की समग्र बुद्धिमत्ता में सुधार होता है और सामान्यीकरण में बहुत मदद मिलती है। यह तर्क क्षमता के पूरक है, जबकि तर्क बुद्धिमत्ता में सुधार करने में अधिक सुस्त हो सकता है। मुझे लगता है कि वे पूरक हैं।
सैम ऑल्टमैन: पूर्व-प्रशिक्षण कई चीजों में सामान्य प्रतीत होता है, जबकि एक मॉडल को प्रशिक्षित करने से यह केवल एक प्रकार की चीज में अच्छा प्रदर्शन कर सकता है, क्या यह सही है?
एलेक्स पाइनो: यह बहुत दिलचस्प है, लेकिन आप इस स्थिति से आश्चर्यचकित नहीं होंगे जब आप उस डेटा को देखते हैं जो उन्हें प्रशिक्षित करता है। पूर्व-प्रशिक्षण डेटासेट रेंज बहुत बड़ी है, और हम जिस चीज का पीछा करते हैं वह चौड़ाई और विविधता है। जब मॉडल सुदृढीकरण सीखने की बात आती है और इसे स्पष्ट रूप से अच्छे इनाम संकेत और एक अच्छा प्रशिक्षण वातावरण मिलता है, तो मुझे लगता है कि डेटासेट की चौड़ाई को संतुलित करना मुश्किल है।
डेनियल सेल्सम: मैं सहमत हूं, लेकिन मुझे लगता है कि एक और कारक है। पूर्व-प्रशिक्षण अनिवार्य रूप से डेटा को संपीड़ित कर रहा है, जिससे विभिन्न चीजों के बीच कनेक्शन की खोज हो रही है। यह उपमाओं और अधिक सार के बारे में है। तर्क एक ऐसा कौशल है जिसके लिए एक विशिष्ट समस्या पर सावधानीपूर्वक सोचने की आवश्यकता होती है और कई प्रकार की समस्याओं के समाधान भी प्राप्त हो सकते हैं। हालांकि, पूर्व-प्रशिक्षण प्रक्रिया में, विभिन्न क्षेत्रों में डेटा को संपीड़ित करते समय अधिक सार ज्ञान सीखा जा सकता है।
बुद्धिमत्ता का सार: संपीड़न और लंबी पूंछ प्रभाव
सैम ऑल्टमैन: बिना पर्यवेक्षित सीखना प्रभावी क्यों है?
डेनियल सेल्सम: मुख्य बात संपीड़न है। बुद्धिमत्ता का आदर्श रूप सोलोमनोफ इंडक्शन है। सामान्य तौर पर, मशीन लर्निंग सभी संभावनाओं पर विचार करेगी, लेकिन सरल कार्यक्रमों के साथ परीक्षण शुरू करने की प्रवृत्ति रखती है।
वर्तमान पूर्व-प्रशिक्षण का सार एक संपीड़न प्रक्रिया है, जो अब तक मनुष्यों द्वारा उत्पादित सभी डेटा को समझाने के लिए सबसे सरल कार्यक्रम ढूंढकर अनुमानित अभिव्यक्ति प्राप्त करती है।
सैम ऑल्टमैन: अगला टोकन भविष्यवाणी संपीड़न प्राप्त करने में कैसे मदद करता है?
डेनियल सेल्सम: आंकड़ों में एक विरोधाभास है - गहरी नेटवर्क सामान्यीकरण कैसे प्राप्त कर सकते हैं, भले ही वे संपीड़ित करने में असमर्थ प्रतीत होते हैं? आमतौर पर, जब आपके पास बहुत सारा डेटा और कुछ छोटे मॉडल होते हैं, तो इन मॉडलों को कुछ सीखने के लिए संपीड़न से गुजरना होगा।
पूर्व-प्रशिक्षण में, डेटा और मॉडल का पैमाना बहुत बड़ा होता है। कुछ लोग सोचते हैं कि यह प्रशिक्षण सिर्फ मेमोरी और इंटरपोलेशन लर्निंग है। वास्तव में, वे संपीड़न के एक और समझने के परिप्रेक्ष्य को अनदेखा करते हैं - पूर्व-अनुक्रमिक संपीड़न। यह एक कंप्रेसर की तरह है। यहां तक कि अगर डेटा वजन बहुत बड़ा है, तो बाइनरी को इस जानकारी को संग्रहीत करने की आवश्यकता नहीं है। अगला टोकन भविष्यवाणी का परिणाम जल्दी से उपयोगी जानकारी प्राप्त कर सकता है और संपीड़न दक्षता में सुधार कर सकता है।
सैम ऑल्टमैन: GPT-4.5 को प्रशिक्षित करने की प्रक्रिया में बहुत सारे जनशक्ति, समय और धन खर्च हुए, जिसे वास्तव में स्केलिंग लॉ को सत्यापित करने के लिए एक प्रयोग माना जा सकता है, और परिणाम साबित करते हैं कि यह प्रभावी है और लंबे समय तक जारी रहेगा। स्केलिंग लॉ को ब्रह्मांड का नियम क्यों कहा जा सकता है?
डेनियल सेल्सम: संपीड़न की डिग्री जितनी अधिक होगी, बुद्धिमत्ता उतनी ही मजबूत होगी। इसमें गहरा दार्शनिक अर्थ है। बड़े मॉडल को प्रशिक्षित करने में अधिक समय क्यों लगता है और संपीड़न दर अधिक है? इसमें कई सिद्धांत शामिल हैं, जिनमें से मुझे विरल प्रतिनिधित्व पसंद है।
वास्तविकता में मुख्य अवधारणाएँ शक्ति कानून वितरण का पालन करती हैं। उदाहरण के लिए, 100 वीं महत्वपूर्ण अवधारणा प्रत्येक 100 दस्तावेजों में केवल एक बार दिखाई दे सकती है, और एक स्पष्ट लंबी पूंछ प्रभाव होता है। यह वितरण विशेषता प्रभावी रूप से सभी प्रमुख अवधारणाओं को कैप्चर करने के लिए बड़े पैमाने पर डेटा और कंप्यूटिंग पावर की आवश्यकता की ओर ले जाती है, और यह भी निर्धारित करती है कि स्केलिंग लॉ लंबे समय तक प्रभावी ढंग से मौजूद रहेगा।