GPT-4.5 का विकास, जो दो साल पहले शुरू हुई एक परियोजना है, OpenAI का अब तक का सबसे महत्वाकांक्षी प्रयास है। इस विशाल कार्य में सैकड़ों व्यक्तियों के सहयोगात्मक प्रयास शामिल थे, OpenAI के CEO Sam Altman ने उल्लेख किया कि परियोजना में लगभग-कुल संगठनात्मक जुड़ाव की मांग थी।
बड़े पैमाने पर प्रशिक्षण में ‘विनाशकारी समस्याओं’ पर काबू पाना
GPT-4.5 बनाने की यात्रा बाधाओं से रहित नहीं थी। टीम को अनुसंधान और विकास चरण के दौरान कई ‘विनाशकारी समस्याओं’ का सामना करना पड़ा। 100,000 GPU के एक क्लस्टर का उपयोग करने से पहले से अनदेखी, कम-संभाव्यता, फिर भी गंभीर बुनियादी ढांचे की विफलताएं सामने आईं। अनुकूलतम प्रदर्शन के साथ सुविधा को संतुलित करने के लिए, OpenAI की सिस्टम टीम को ‘मरम्मत-जैसे-हम-चलते हैं’ दृष्टिकोण अपनाने के लिए मजबूर किया गया था। एक विशेष रूप से मायावी बग ने क्लस्टर को लगातार त्रुटियों से त्रस्त कर दिया, जो प्रशिक्षण प्रक्रिया के लगभग 40% तक पता नहीं चला था।
इन चुनौतियों के बावजूद, GPT-4.5 परियोजना ने एक अधिक मजबूत प्रौद्योगिकी स्टैक के विकास को उत्प्रेरित किया। आज, सिर्फ 5-10 व्यक्तियों की एक दुबली-पतली टीम GPT-4 के समान एक बड़ा मॉडल दोहरा सकती है। GPT-4 से GPT-4.5 तक प्रदर्शन लाभ लगभग दस गुना था, जिससे ‘खुफिया जानकारी मिली जिसे मात्रा निर्धारित करना मुश्किल है लेकिन सभी पहलुओं में बढ़ाया गया है,’ एक परिणाम जिसने OpenAI के अपने कर्मियों को भी आश्चर्यचकित कर दिया।
फोकस बदलना: कम्प्यूटेशनल शक्ति से डेटा दक्षता की ओर
OpenAI को यह एहसास हुआ है कि प्रदर्शन में अगले दस गुना या सौ गुना छलांग हासिल करना कच्ची कम्प्यूटेशनल शक्ति पर नहीं, बल्कि डेटा दक्षता पर निर्भर करता है - विशेष रूप से, अधिक कम्प्यूटेशनल संसाधनों का दोहन करते हुए समान मात्रा में डेटा से अधिक ज्ञान निकालने की क्षमता।
आर्किटेक्चर भी एक एकल-क्लस्टर से एक बहु-क्लस्टर प्रतिमान में विकसित हो रहा है। भविष्य के प्रशिक्षण पुनरावृत्तियों में 10 मिलियन GPU तक सहयोगी शिक्षण शामिल हो सकता है, जिसके लिए बढ़ी हुई दोष सहिष्णुता की आवश्यकता होती है।
Sam Altman का GPT-4.5 टीम के साथ संवाद
निम्नलिखित Sam Altman और OpenAI GPT-4.5 टीम के बीच एक चर्चा का संपादित संकलन है:
Sam Altman: GPT-4.5 जैसे बड़े मॉडल बनाने में क्या लगता है?
Alex Paino: हमने यह परियोजना लगभग दो साल पहले शुरू की थी। उस समय, OpenAI एक नया बड़ा कंप्यूटिंग क्लस्टर लॉन्च करने वाला था, और हमारी टीम ने इसे मॉडल में शामिल करने के लिए आवश्यक कार्यों को निर्धारित करने के लिए संचालन की एक श्रृंखला आयोजित करने के अवसर के रूप में देखा, और बड़ी संख्या में जोखिम कम करने वाले संचालन परीक्षण किए।
हमने इसके लिए एक लंबी योजना विकसित की है, जिसमें सिस्टम से लेकर मशीन लर्निंग तक का पूरा टेक्नोलॉजी स्टैक शामिल है। जोखिमों को कम करना और प्रशिक्षण की तैयारी करना एक लंबी निष्पादन प्रक्रिया है, और प्रशिक्षण स्वयं एक बहुत बड़ी परियोजना है।
Amin Tootoonchian: मुझे लगता है कि इस प्रक्रिया में मशीन लर्निंग टीम और सिस्टम टीम के बीच शुरू से ही घनिष्ठ सहयोग की आवश्यकता होती है, जब तक कि हम यह स्पष्ट नहीं कर देते कि हम किस मॉडल को प्रशिक्षित करना चाहते हैं, और फिर प्रशिक्षण शुरू कर देते हैं।
हमने मशीन लर्निंग और सिस्टम दोनों पहलुओं में भविष्यवाणियां की हैं, जितना संभव हो सके अपेक्षा और वास्तविकता के बीच की खाई को पाटने की कोशिश कर रहे हैं। लेकिन क्योंकि हमारी कार्य लय तेज है और हमें नवीनतम कंप्यूटिंग संसाधनों का उपयोग करना है, मॉडल प्रशिक्षण कुछ ऐसा हो गया है जिसकी अग्रिम रूप से पूरी तरह से योजना बनाना मुश्किल है।
हम लगभग हमेशा कई अनसुलझी समस्याओं के साथ प्रशिक्षण शुरू करते हैं और संचालन के दौरान चुनौतियों पर काबू पाने और प्रगति करने की कोशिश करते हैं। मुख्य समाधान अधिक कंप्यूटिंग संसाधन जोड़ना है।
अंतिम चरण निष्पादन है, जिसके लिए कई लोगों को प्रशिक्षण प्रक्रिया को पूरा करने के लिए लंबे समय तक बहुत अधिक ऊर्जा और प्रेरणा का निवेश करने की आवश्यकता होती है।
Sam Altman: आपको क्या लगता है कि हमारी अपेक्षाओं और वास्तविकता के बीच कितना अंतर है?
Amin Tootoonchian: सिस्टम के संदर्भ में, हम आमतौर पर शुरुआत में अपेक्षित स्थिति से बहुत दूर होते हैं। हमारे सामने हमेशा एक विकल्प होता है: शुरू को स्थगित करना और समस्या के हल होने का इंतजार करना, या जल्दी शुरू करना और प्रक्रिया में समस्या का समाधान करना। इसके लिए प्रक्रिया में अनुचित देरी से बचने के लिए हमेशा एक समझौता आवश्यक होता है।
लेकिन लगभग हमेशा कुछ अप्रत्याशित समस्याएं होती हैं, और हमें जो करना होता है वह इन नोड्स से जितना संभव हो उतना निपटना है, अज्ञात कारकों से निपटना है और मॉडल प्रशिक्षण के लिए एक योजना तैयार करना है।
Alex Paino: इस परियोजना में, हमारा लक्ष्य GPT-4.5 बनाना है, जिसका अर्थ है कि इसकी क्षमताएं GPT-4 से 10 गुना अधिक स्मार्ट होनी चाहिए। यह प्रारंभिक लक्ष्य है जो हमने लगभग 2 साल पहले निर्धारित किया था।
इस प्रक्रिया के दौरान बहुत कुछ हुआ। हम सोच रहे थे कि क्या हम बेहतर कर सकते हैं या अपेक्षा से भी बदतर होंगे? यह एक बहुत ही जटिल प्रक्रिया है, लेकिन अंत में, हमारे द्वारा किए गए प्रभावी गणनाओं के संदर्भ में, हमें एक ऐसा मॉडल मिला है जिसके बारे में हमें लगता है कि यह GPT-4 से 10 गुना अधिक स्मार्ट हो गया है।
Amin Tootoonchian: निष्पादन के संदर्भ में, GPT-4.5 परियोजना पर बिताया गया समय हमारी प्रारंभिक अपेक्षा से बहुत दूर है।
Sam Altman: 10,000 कार्ड से 100,000 कार्ड तक क्लस्टर का विस्तार करते समय आपको इतनी सारी समस्याओं कासामना क्यों करना पड़ा?
Amin Tootoonchian: मुझे लगता है कि यदि सिस्टम डेवलपर पर्याप्त संवेदनशील हैं, तो अधिकांश समस्याओं को छोटे पैमाने के चरण में देखा जा सकता है।
कुछ समस्याएं बड़े पैमाने पर प्रशिक्षण चरण के लिए अद्वितीय नहीं हैं, लेकिन पहले भी अक्सर हुई हैं, लेकिन पैमाने में वृद्धि के बाद विनाशकारी समस्याएं बन जाएंगी, खासकर जब टीम ने यह अनुमान नहीं लगाया है कि ये समस्याएं इतनी हद तक बिगड़ जाएंगी।
Sam Altman: किन चीजों ने विनाशकारी परिणाम दिए हैं?
Amin Tootoonchian: मुझे लगता है कि बुनियादी ढाँचे की समस्याएं अच्छी तरह से ज्ञात हैं, चाहे विफलता दर, विफलता प्रकार या विफलता की कुल मात्रा बहुत अधिक हो। 100,000-कार्ड क्लस्टर एक बड़े पैमाने का नमूना पूल है, इसलिए हमने उन समस्याओं की भी खोज की जिन्हें कंप्यूटिंग पावर आपूर्तिकर्ता ने नहीं देखा।
नेटवर्क उनमें से एक है, और व्यक्तिगत एक्सीलरेटर में भी समस्याएं हो सकती हैं। लेकिन यह इस प्रणाली की सुंदरता भी है - अपेक्षित परिणाम उत्पन्न करने के लिए लगभग सभी घटकों को अपेक्षित रूप से काम करने की आवश्यकता है। हमारा काम इस समस्या को जितना संभव हो उतना कम करना है।
Sam Altman: क्लस्टर आकार की सीमा पर काम करना वास्तव में मुश्किल है, लेकिन मैंने यह भी देखा है कि उन चीजों को करना बहुत आसान हो गया है जो अब प्रौद्योगिकी के सबसे आगे नहीं हैं। GPT-4.5 को प्रशिक्षित करने के लिए सैकड़ों लोगों की आवश्यकता होती है, और OpenAI में लगभग हर कोई बोर्ड पर है।
लेकिन आज, यदि आप OpenAI से सबसे छोटी टीम का चयन करते हैं और हमारे द्वारा ज्ञात सभी ज्ञान और सिस्टम कार्य के साथ GPT-4 को स्क्रैच से फिर से प्रशिक्षित करते हैं, तो इसमें कितने लोग लगेंगे?
Alex Paino: मुझे लगता है कि अब GPT-4-स्तर का मॉडल बनाने में लगभग 5 से 10 लोगों को लग सकते हैं। GPT-4.5 को पूरा करने की प्रक्रिया में टेक्नोलॉजी स्टैक में काफी सुधार हुआ है।
वास्तव में, हमने GPT-4.5 को प्रशिक्षित करने की प्रक्रिया में इसी तरह की चीजें की हैं - हमने GPT-4o को प्रशिक्षित किया, जो एक GPT-4-स्तर का मॉडल है, और GPT-4.5 अनुसंधान परियोजना की बहुत सारी समान सामग्री का उपयोग करके इसे फिर से प्रशिक्षित किया। उस प्रशिक्षण के लिए कम लोगों का उपयोग किया गया।
Sam Altman: आपके दृष्टिकोण से, Dan? बड़े मॉडल को प्रशिक्षित करना मुश्किल क्यों है?
Daniel Selsam: मुझे लगता है कि कुछ भी नया करना मुश्किल है। मुझे लगता है कि यह पता लगाना भी कि किसी और ने कुछ किया है, इसे बहुत आसान बना देता है, क्योंकि सबसे कठिन हिस्सा पहली बार में कुछ करने का विश्वास रखना है। मुझे लगता है कि यह जानना कि कुछ संभव है, एक सुपर चीट कोड है जो चीजों को बहुत आसान बना देता है।
Alex Paino: हम GPT पूर्व-प्रशिक्षण रन को उसके पिछले आकार से 10 गुना बढ़ा रहे हैं, और हमें हमेशा कुछ नई दिलचस्प चीजें मिलती हैं जिनकी आप जरूरी भविष्यवाणी नहीं कर सकते।
Sam Altman: पूर्व-प्रशिक्षण पैमाने में अगले 10x या 100x विकास को प्राप्त करने के लिए क्या आवश्यक है?
Daniel Selsam: डेटा दक्षता। ट्रांसफॉर्मर आर्किटेक्चर (यानी GPT) डेटा का उपयोग करने में बहुत कुशल है। यह जानकारी को अच्छी तरह से अवशोषित और संपीड़ित कर सकता है और सामान्यीकरण प्राप्त कर सकता है। इसकी सबसे बड़ी विशेषता यह है कि यह कंप्यूटिंग संसाधनों के साथ जानकारी को कुशलता से अवशोषित कर सकता है।
हालांकि, डेटा से प्राप्त अंतर्दृष्टि की गहराई सीमित है। जब कंप्यूटिंग शक्ति तेजी से बढ़ती है और डेटा अपेक्षाकृत धीरे-धीरे बढ़ता है, तो डेटा इस मानक मॉडल के लिए एक बाधा बन जाता है। इसके लिए एल्गोरिथम नवाचार की आवश्यकता है ताकि उन विधियों को विकसित किया जा सके जो समान मात्रा में डेटा से अधिक ज्ञान सीखने के लिए अधिक कंप्यूटिंग शक्ति का उपयोग कर सकें।
Sam Altman: विस्तार को बनाए रखने के लिए आपको और क्या लगता है कि हमें चाहिए?
Amin Tootoonchian: मेरा जवाब सिस्टम के बारे में है। मुझे लगता है कि GPT-4.5 के लिए आवश्यक भारी मात्रा में काम अनिवार्य रूप से मॉडल विनिर्देशों का अपरिहार्य परिणाम है। हम GPT-4.5 को GPT-4 के समान तकनीकी आर्किटेक्चर के साथ प्रशिक्षित नहीं कर सकते हैं।
स्टेट मैनेजमेंट के संदर्भ में, क्योंकि आवश्यक कंप्यूटिंग संसाधन एक एकल क्लस्टर की क्षमता से अधिक हो गए हैं, इसलिए हमें एक बहु-क्लस्टर प्रशिक्षण आर्किटेक्चर की ओर रुख करना होगा। इस लक्ष्य को प्राप्त करने के लिए, हमें कम समय में कई अलग-अलग वर्कफ़्लो को एकीकृत करना होगा।
यद्यपि इसने वास्तव में हमें मंच सफलताओं को प्राप्त करने में मदद की है, प्रदर्शन में अगली परिमाण सुधार को प्राप्त करने के लिए, हमें अभी भी कई ज्ञात लेकिन अस्थायी रूप से शेल्फ तकनीकी समस्याओं को हल करने की आवश्यकता है - इन समस्याओं से बचा नहीं जा सकता है। यह इस प्रकार का तकनीकी समझौता है जो लगातार सही प्रणाली के अनुसंधान एवं विकास चक्र को बढ़ाता है, और हम हमेशा इष्टतम कार्यान्वयन योजना को आगे बढ़ाने की प्रक्रिया में रणनीतिक व्यापार-ऑफ कर रहे हैं।
यह स्पष्ट होना चाहिए कि सिस्टम स्वयं अंतिम लक्ष्य नहीं है, और इसका वास्तविक उत्पादन मूल्य मुख्य विचार है। अगले 10x प्रदर्शन सुधार के लिए, मुझे लगता है कि दोष सहिष्णुता में सफलता महत्वपूर्ण है। हमें एक दोष-सहिष्णु तंत्र बनाने की आवश्यकता है जो वर्कलोड के साथ गहराई से तालमेल बिठाए ताकि संचालन और रखरखाव की चिंता काफी कम हो सके। वर्तमान अति-बड़े पैमाने की प्रणालियों की संचालन और रखरखाव जटिलता अनिवार्य रूप से पिछली प्रणालियों से अलग है।
Sam Altman: क्या आप जानते हैं कि GPT-4.5 प्रशिक्षण के दौरान कुछ घटकों के कारण कितने प्रतिशत विफलताएं हुईं?
Amin Tootoonchian: मेरे पास साझा करने के लिए विशिष्ट संख्याएं नहीं हैं, लेकिन सामान्य तौर पर, हार्डवेयर की एक नई पीढ़ी को तैनात करने के शुरुआती चरणों में, सिस्टम संचालन को अक्सर कई तकनीकी चुनौतियों का सामना करना पड़ता है जिन्हें पूरी तरह से समझा नहीं जाता है। हमने समस्या को पूरी तरह से परिभाषित करने से पहले परियोजना को आगे बढ़ाने का विकल्प चुना, जिसके कारण शुरुआती विफलता दर अधिक हो गई।
लेकिन अनुभव से पता चला है कि जैसे ही मूल कारण की पहचान की जाती है और हल किया जाता है, विफलता दर में काफी कमी आएगी। यह घटना अनिवार्य रूप से बुनियादी ढांचे की हमारी गहरी समझ को दर्शाती है - कुछ लोग इसे बुनियादी ढांचे को साफ करना या बुनियादी ढांचे की बुनियादी समस्याओं को समझना कहते हैं।
निष्पादन के शुरुआती चरण लगभग हमेशा काफी दर्दनाक होते हैं। परियोजना को आगे बढ़ाते हुए, हम लगातार नए विफलता मोड की खोज और समाधान भी कर रहे हैं, लेकिन विफलता दर धीरे-धीरे कम हो जाएगी और सामान्य संचालन का समय लंबा हो जाएगा।
यह अनिवार्य रूप से प्राथमिकता व्यापार-ऑफ का मामला है: बुनियादी ढांचे के जीवन चक्र के शुरुआती चरणों में, इसकी विफलता जोखिम का सटीक अनुमान लगाना अक्सर मुश्किल होता है; और यदि हम अत्यधिक रूप से अंतिम आदर्श स्थिति (मूल ‘सिटी एस्टेट’ है, आदर्श शहर-राज्य डिजाइन) का पीछा करते हैं, तो इससे सिस्टम शुरुआती चरणों में उपलब्धता प्रदर्शन बेहद खराब हो सकता है।
Sam Altman: यद्यपि तर्क मॉडल हमारी भविष्य की प्रौद्योगिकी स्टैक का एक महत्वपूर्ण घटक है, आइए अस्थायी रूप से पारंपरिक पूर्व-प्रशिक्षण मॉडल की विकास सीमा पर ध्यान केंद्रित करें। मान लीजिए कि हमारे पास असीमित GPU कंप्यूटिंग शक्ति, असीमित नेटवर्क बैंडविड्थ और असीमित बिजली आपूर्ति है, लेकिन फिर भी मौजूदा तकनीकी बाधाओं से सीमित हैं - जिसमें सिस्टम विश्वसनीयता मुद्दे, दोष-सहिष्णु प्रशिक्षण विधियों की कमी और मौजूदा डेटा सेट की सीमाएं शामिल हैं।
प्रत्येक प्रमुख GPT संस्करण संख्या में 100 गुना पैमाने में वृद्धि प्राप्त करने के हमारे विकास कानून के अनुसार, वर्तमान तकनीकी सीमाओं के आधार पर, पूर्व-प्रशिक्षण मॉडल का विकास किस स्तर तक पहुंच सकता है? विशेष रूप से GPT श्रृंखला मॉडल के लिए, हमारे मौजूदा ज्ञान प्रणाली के साथ, हम सैद्धांतिक रूप से किस प्रकार का मॉडल प्रशिक्षित कर सकते हैं? क्या GPT-5.5 बनाया जा सकता है?
Alex Paino: मशीन लर्निंग और एल्गोरिथम विकास के दृष्टिकोण से, हम अभी तक एक स्पष्ट सैद्धांतिक ऊपरी सीमा तक नहीं पहुंचे हैं। वास्तव में, हम अभी केवल उच्च डेटा दक्षता वाले एल्गोरिदम का पता लगाना शुरू कर रहे हैं और मौजूदा डेटा संसाधनों का अधिक पूर्ण उपयोग कैसे करें। यह स्थिति बहुत दिलचस्प है - यहां तक कि GPT-4 जैसे मॉडल भी काफी हद तक सीमित कंप्यूटिंग संसाधनों की बाधाओं के तहत विकसित किए गए हैं, जो अधिकांश पिछले शोध की दिशा भी निर्धारित करता है।
लेकिन स्थिति अब पूरी तरह से अलग है। GPT-4.5 के बाद से, कुछ प्रमुख आयामों में, डेटा कंप्यूटिंग की तुलना में मुख्य बाधा बनता जा रहा है। यह बदलाव संबंधित अनुसंधान को कम रोमांचक बनाता है।
Sam Altman: लेकिन यह वास्तव में एक अद्भुत प्रगति है, और दुनिया को पूरी तरह से एहसास नहीं हो सकता है कि कंप्यूटिंग संसाधन अब हमारे द्वारा बनाए जा सकने वाले सर्वोत्तम मॉडल में मुख्य बाधा नहीं हैं। यह बदलाव गहरा है, आखिरकार, हम बहुत लंबे समय से कंप्यूटिंग-बाधित वातावरण में रह रहे हैं।
Sam Altman: GPT-4.5 को प्रशिक्षित करने की प्रक्रिया में हमने सबसे दिलचस्प मशीन लर्निंग अनुभव क्या सीखा है? बस उस बारे में बात करें जिसे आप साझा करना चाहते हैं।
Amin Tootoonchian: सामान्य तौर पर, सबसे अधिक विचारोत्तेजक वे स्थितियां हैं जो हमारी भविष्यवाणियों से विचलित होती हैं - खासकर जब हम यह समझने की कोशिश करते हैं कि वास्तविक प्रदर्शन अपेक्षित वक्र से क्यों विचलित होता है।
Alex Paino: हमारे लिए सबसे आश्चर्यजनक निष्कर्षों में से एक यह है कि विभिन्न मशीन लर्निंग घटकों का स्केलेबिलिटी प्रदर्शन बहुत भिन्न होता है। कुछ भागों को अच्छी तरह से स्केल किया जा सकता है, जबकि अन्य को नहीं किया जा सकता है। यह वही है जो हमने वास्तविक प्रशिक्षण प्रक्रिया में वास्तव में महसूस किया। इस अनुभव ने हमें बहुत प्रेरणा दी।
Daniel Selsam: मुझे लगता है कि GPT प्रतिमान की दो मुख्य विशेषताएं हैं: पहला, परीक्षण नुकसान (अनदेखे परीक्षण डेटा पर मॉडल कितना अच्छा प्रदर्शन करता है, इसे मापने के लिए एक मीट्रिक) की सटीक भविष्यवाणी की जा सकती है; दूसरा, मॉडल प्रदर्शन पैमाने के विस्तार के साथ एक अनुमानित सुधार दिखाता है। अधिक जादुई रूप से, परीक्षण नुकसान की कमी विभिन्न तरीकों से बुद्धि के एक सर्वांगीण उन्नत स्तर में बदल जाएगी जिसे मात्रा निर्धारित करना मुश्किल है लेकिन अद्भुत है।
Sam Altman: क्या आप इसके बारे में बिल्कुल आशावादी हैं? क्या आप इस दृष्टिकोण से पूरी तरह सहमत हैं?
Daniel Selsam: वास्तव में, मैं यह कहना चाहता हूं कि हमें GPT-4.5 परीक्षण में विशेष रूप से दिलचस्प घटनाएं मिलीं - पुन: परीक्षण के बाद, मॉडल ने कई सूक्ष्म क्षमताएं दिखाईं जो सभी की अपेक्षाओं से पूरी तरह से अधिक थीं।
हमें यकीन है कि यह विभिन्न तरीकों से समझदार हो जाएगा जिन्हें पहले से परिभाषित नहीं किया जा सकता है, और वास्तविक तैनाती के बाद, हम उपयोगकर्ता संतुष्टि से सुधार के इन सूक्ष्म स्तरों का निरीक्षण कर सकते हैं: मजबूत सामान्य ज्ञान भंडार, अधिक सटीक प्रासंगिक समझ क्षमताएं, और अधिक नाजुक सिमेंटिक समझ - यह वास्तव में उन अतिरिक्त परीक्षण नुकसानों द्वारा लाया गया जादू है। मेरी राय में, स्केलिंग कानून को इस आयाम में पूरी तरह से सत्यापित किया गया है।
Sam Altman: पूरी प्रशिक्षण प्रक्रिया के दौरान सबसे सकारात्मक क्षण कौन सा था? आपकी पसंदीदा स्मृति क्या है? जाहिर है कि बहुत दर्द है, लेकिन मुझे उम्मीद है कि उन दर्दों को कम कर दिया गया है।
Alex Paino: मेरे पास ऐसा एक क्षण है। हमने प्रशिक्षण के दौरान बहुत सारे मशीन लर्निंग काम किए। मुझे लगता है कि ऑपरेशन के दौरान हमने जो बदलाव किए उनका काफी अच्छा प्रभाव पड़ा, संभवतः अपेक्षा से भी बेहतर, जो हमारे लिए एक बहुत ही रोमांचक क्षण था।
Amin Tootoonchian: मेरे लिए, प्रशिक्षण के साथ-साथ, हम बुनियादी ढांचे का निर्माण भी कर रहे हैं। हमें दृढ़ विश्वास है कि हम इस प्रदर्शन चट्टान को पार कर सकते हैं, और हमारे पास एक योजना है, और हर कोई इसे निष्पादित कर रहा है, लेकिन इसमें लंबा समय लगता है। यह कठिन काम है और निश्चित रूप से जितना मैंने सोचा था उससे कहीं अधिक कठिन है। मेरी भविष्यवाणी गलत थी, और मैंने इन समस्याओं को हल करने में लगने वाले समय को कम आंका।
जब टीम ने अंततः उन प्रमुख समस्याओं को दूर किया और प्रदर्शन में काफी सुधार हुआ, तो वह पल अभी भी मेरी स्मृति में ताजा है। आप पूरी टीम के ऊर्जा परिवर्तन को स्पष्ट रूप से महसूस कर सकते हैं - हर कोई अचानक ऊर्जा से भर जाता है और नए प्रेरणा के साथ अंतिम लक्ष्य की ओर दौड़ता है।
सबसे जादुई बात यह है कि हमारी स्थिति ट्रैकर पर प्रदर्शित अनुमानित समाप्ति समय प्रारंभिक दो वर्षों से लगातार कम होता रहा, और अंत में एक स्पष्ट समय नोड पर लॉक हो गया। इस दृश्यमान प्रगति का टीम के मनोबल पर एक अतुलनीय बढ़ावा है। मुझे लगता है कि यह इसकी सुंदरता है।
मैं इस बात पर जोर देना चाहूंगा कि मशीन लर्निंग का काम कभी नहीं रुका है। प्रशिक्षण शुरू होने के बाद भी, यह मशीन लर्निंग सह-डिजाइन प्रक्रिया जारी है। मशीन लर्निंग टीम न केवल उन मुद्दों पर सक्रिय रूप से अनुवर्ती कार्रवाई करती है जिन्हें ‘बाद की प्रसंस्करण’ के रूप में चिह्नित किया गया था, बल्कि लगातार उन सुधारों को भी प्रदान करती है जो प्रशिक्षण समय को वास्तव में अनुकूलित करते हैं।
यह पूरी तरह से हमारी टीम भावना को दर्शाता है - यहां कोई ‘प्रत्येक व्यक्ति अपने दरवाजे के सामने की बर्फ को साफ करता है’ कार्य सीमा नहीं है, बल्कि वास्तव में निर्बाध सहयोग है, और यह सामंजस्य हमारी सबसे बड़ी ताकत है।
Sam Altman: बाहरी दुनिया ने इस प्रशिक्षण की चुनौतियों और भविष्यवाणी सटीकता के बारे में बहुत चर्चा की है। लेकिन वास्तव में, यह सब बेहद पूरी योजना पर आधारित है - क्या आप इस बारे में विस्तार से बात कर सकते हैं?
Alex Paino: यह निश्चित रूप से अब तक की हमारी सबसे पूरी योजना है। जैसा कि मैंने कहा, हमने प्रशिक्षण के आधिकारिक शुरुआत से एक साल पहले इस परियोजना की तैयारी शुरू कर दी थी। इस अवधि के दौरान, हमने कई बड़े पैमाने पर जोखिम नियंत्रण परीक्षण किए।
हम सभी सुधारों को धीरे-धीरे पेश करने पर विशेष ध्यान देते हैं: एक उच्च-विश्वास बुनियादी कॉन्फ़िगरेशन से शुरू करके - जिसे GPT-4 के समान एक परिपक्व आर्किटेक्चर के रूप में समझा जा सकता है, हमने मशीन लर्निंग स्तर पर इस कॉन्फ़िगरेशन में पूरी तरह से महारत हासिल की है - और फिर बिल्डिंग ब्लॉक्स की तरह परत द्वारा नई सुविधाओं को जोड़ना।
कुंजी विभिन्न पैमानों पर प्रत्येक सुधार की स्केलेबिलिटी को सख्ती से सत्यापित करना है: न केवल प्रदर्शन सुधार देखने के लिए, बल्कि यह भी सुनिश्चित करने के लिए कि ये सुधार मॉडल पैमाने के विस्तार के साथ प्रभावी बने रहें। कई सुधार छोटे पैमाने के परीक्षणों में अच्छा प्रदर्शन करते हैं, लेकिन बड़े पैमाने के अनुप्रयोगों में विफल हो जाएंगे।
इसलिए, हमने पूरी प्रक्रिया के दौरान उच्च स्तर की सतर्कता बनाए रखी है और अपने विस्तार कानून पद्धति को दोहराना और सुधारना जारी रखा है। इस जोखिम नियंत्रण अभ्यास के माध्यम से, हमने बहुत सारा मूल्यवान अनुभव जमा किया है जो भविष्य के GPT श्रृंखला मॉडल के विकास को निर्देशित करना जारी रखेगा।
Amin Tootoonchian: मुझे एक विशेष रूप से दिलचस्प क्षण याद है जिसे मैं बहुत याद करता हूं। आप जानते हैं, हर बार जब हम कोई प्रशिक्षण कार्य शुरू करते हैं तो हमें लगभग हमेशा विभिन्न बगों का सामना करना पड़ता है। यह पहले से ही आम बात है। लेकिन कुंजी यह सुनिश्चित करना है कि प्रगति अवरुद्ध न हो और हमेशा यह पुष्टि करें कि वर्तमान प्रगति वास्तव में सही रास्ते पर है और क्या इन बगों का प्रशिक्षण के स्वास्थ्य पर घातक प्रभाव पड़ेगा।
यद्यपि हमें शुरू में बहुत विश्वास था कि प्रमुख दोष थे, लेकिन हमने जो पूरी निगरानी प्रणाली बनाई है, उसके माध्यम से हम समस्या के मूल कारण को सटीक रूप से अलग करने में सक्षम हैं: क्या यह हार्डवेयर विफलता है? किस प्रकार की हार्डवेयर विफलता? क्या यह डेटा भ्रष्टाचार है? या क्या यह मशीन लर्निंग मॉडल में ही एक बग है? या क्या यह कोड में एक रेस कंडीशन है?
उस समय, हमारे पास एक ही समय में कई समस्या चर्चा क्षेत्र खुले थे, जिसमें विभिन्न लक्षण थे। बग फिक्स की एक श्रृंखला के बाद, हम फंस गए: हमारे सामने कई अनसुलझी समस्याएं थीं, और हर कोई अपने दिमाग को झकझोर रहा था - क्या ये विभिन्न बगों के कारण हुए थे? या क्या यह काम पर एक बग है?
बाद में, हमने टीम के सदस्यों को सबसे संभावित मूल कारण के लिए वोट करने के लिए एक वोट आयोजित किया। सबसे कम आशाजनक विकल्प सच तक पहुंच गया: यह पता चला कि PyTorch के ऊपर की ओर torch.sum फ़ंक्शन के साथ एक समस्या थी, एक साधारण संकलन ऑपरेशन।
यह बग विशेष रूप से दिलचस्प है। आप जानते हैं, हम मुख्य रूप से ट्रिटन कर्नेल का उपयोग करते हैं, और हम कुछ महत्वहीन किनारे परिदृश्यों में ही टॉर्च संचालन पर वापस आ जाएंगे। और torch.sum फ़ंक्शन बग हमारे विशिष्ट कोड पथ द्वारा ट्रिगर किया गया, डेटा वितरण विशेषताओं के कारण अनजाने में अवैध मेमोरी एक्सेस का कारण बनेगा - इसने मेमोरी ऑफसेट की गणना करते समय गलती की।
सबसे नाटकीय बात यह है कि जब एक इंजीनियर ने अंततः समस्या का पता लगाया और एक फिक्स सबमिट किया, तो विभिन्न लक्षणों वाली सभी त्रुटि रिपोर्ट गायब हो गईं। हर किसी ने उत्साहपूर्वक Slack चैनल को ‘बहु-बग सिद्धांत’ से ‘एकल-बग सिद्धांत’ में बदल दिया, और दृश्य बहुत खुश था।
यह बग कितने समय से छिपा हुआ है? यह प्रशिक्षण के शुरुआती चरणों से मौजूद है और प्रगति बार लगभग 40% गुजरने तक इसकी पहचान नहीं की गई थी। खोज प्रक्रिया भी नाटक से भरी हुई थी: उस समय, एक जटिल कर्नेल क्रमिक रूप से दृश्यों को बुलाता था, और दूसरा कॉल अवैध मेमोरी एक्सेस को ट्रिगर करता था।
यद्यपि यह क्रैश आवृत्ति बहुत कम है (यह केवल कुछ सौ या यहां तक कि हजारों प्रशिक्षण चरणों में एक बार होती है), लेकिन इसे कभी-कभार होने वाली विफलता के रूप में अनदेखा करना आसान है, लेकिन हमारी टीम का दिशानिर्देश है: किसी भी विसंगति को कभी भी जाने न दें। इस कहानी का सबसे अच्छा हिस्सा आसानी से हार न मानने का यह दृढ़ संकल्प है।
Sam Altman: GPT-4.5 पूर्व-प्रशिक्षण शुरू होने के बाद आपको और क्या करने की आवश्यकता है?
Alex Paino: हम सभी को अक्सर नुकसान वक्र का निरीक्षण करने की आवश्यकता होती है। इसके अलावा, हमें सिस्टम को अनुकूलित करना और उन सह-डिज़ाइनों को बेहतर बनाना जारी रखना होगा जो प्रशिक्षण शुरू होने से पहले पूरे नहीं हुए थे। हम प्रशिक्षण प्रक्रिया के दौरान विभिन्न आंकड़ों की बारीकी से निगरानी करते हैं ताकि यह सुनिश्चित हो सके कि कोई अप्रत्याशित रुझान नहीं हैं। साथ ही, हम मशीन लर्निंग के दृष्टिकोण से संभावित सुधार योजनाओं का पता लगाते हैं। यद्यपि पूर्व-प्रशिक्षण शुरू होने के बाद डेटा-स्तर का काम अस्थायी रूप से कम हो जाएगा, फिर भी संसाधित करने के लिए बहुत सारे कार्य हैं।
Amin Tootoonchian: मुझे लगता है कि मशीन लर्निंग काफी हद तक शुद्धता निर्णय पर निर्भर करता है। पूर्व-प्रशिक्षण शुरू होने के बाद, बड़ी मात्रा में शोर संकेतों का सामना करते हुए, हम भाग्य बताने वालों की तरह चाय की तलछट की व्याख्या कर रहे हैं, और हमें यह तय करने की आवश्यकता है कि सिस्टम स्वस्थ है या नहीं। यह हमारी जिम्मेदारी है।
Sam Altman: सिस्टम स्तर पर, मॉडल प्रशिक्षण आयोजित करने से हमें क्या सीमित करेगा? क्या यह चिप, प्रोसेसर, मेमोरी, नेटवर्क या बिजली आपूर्ति है?
Amin Tootoonchian: सिस्टम की सुंदरता यह है कि, सहयोगी डिजाइन करते समय, वर्कलोड उस बुनियादी ढांचे को अपना सकता है जिसे आप बनाते हैं। ऐसा कोई सार्वभौमिक कथन नहीं है कि नेटवर्क एक बाधा है, या मेमोरी बैंडविड्थ एक बाधा है, आदि। यहां तक कि समान विनिर्देशों के मॉडल के लिए भी, हम संसाधन आवश्यकताओं को स्थानांतरित करने का विकल्प चुन सकते हैं। हम एक अधिक संतुलित प्रणाली बनाने का विकल्प चुन सकते हैं, लेकिन अधिक मेमोरी बैंडविड्थ होने से हमेशा लाभ होता है। बिना सीमा की शर्तों के इस प्रश्न का उत्तर देना मुश्किल है।
GPT-4.5 को डिजाइन करते समय, हमें सिस्टम में एक निश्चित विशेषता की आवश्यकता हो सकती है, जिसे मानव मार्गदर्शन के माध्यम से उत्पन्न करने की आवश्यकता है। इसलिए, मॉडल आर्किटेक्चर और आर्किटेक्चरल तत्वों को बनाने के लिए सहयोगी डिजाइन बहुत महत्वपूर्ण है, और एक निश्चित सीमा तक सिस्टम और मशीन लर्निंग पहलुओं को जोड़ता है। यदि सिस्टम में एक ऐसी विशेषता है जिसे हम बहुत अधिक नहीं चाहते हैं। मेरी आदर्श स्थिति यह है कि हर चीज को अलग कर देना चाहिए ताकि एक-दूसरे को सबसे अधिक जगह मिल सके।
कभी-कभी चीजें एक साथ जुड़ी होती हैं, और हमें बुनियादी ढांचे की आवश्यकताओं को पूरा करने की आवश्यकता होती है, या चीजें ऐसी होनी चाहिए। ज्यादातर समय, हमें एक संतुलित प्रणाली, एक संतुलित संचार की आवश्यकता होती है। और हमारे पास विनियमन का सबसे अच्छा साधन इन सभी सहयोगी डिज़ाइनों का है।
Sam Altman: हम इस तरह के एक आदर्श सिस्टम लक्ष्य से कितने दूर हैं?
Amin Tootoonchian: हम उस लक्ष्य से बहुत दूर हैं। एक प्रणाली बनाने की प्रक्रिया हमेशा इस तरह होती है: पहले इस बात का एक आदर्श दृष्टिकोण होता है कि चीजें कैसे काम करनी चाहिए, और फिर उन अंतरों को मौजूदा संसाधनों के साथ समेट दिया जाता है।
मुझे नहीं लगता कि हम सिद्धांत के लिए सिद्धांत के लिए कर रहे हैं, बल्कि सिर्फ यह चर्चा करने के लिए कि हम इसे क्या बनना चाहते हैं, इसे साकार करना चाहते हैं और जितना संभव हो सके उस आदर्श के करीब पहुंचना चाहते हैं। यह सिस्टम क्षेत्र का सबसे रोमांचक हिस्सा हो सकता है। लोग कहते थे कि यह एक सुरुचिपूर्ण प्रणाली डिजाइन है, और अंततः इतिहास हमें बताएगा कि यह विकल्प सही है या गलत।
Sam Altman: यदि आप अगले बड़े प्रशिक्षण से पहले मशीन लर्निंग प्रश्न का उत्तर प्राप्त कर सकते हैं, तो आप सबसे अधिक क्या जानना चाहेंगे?
Alex Paino: मैं जानना चाहता हूं कि हमें सीमित डेटा और विशिष्ट क्षेत्रों के तहत किन एल्गोरिदम का उपयोग करना चाहिए। यद्यपि यह एक व्यापक प्रश्न है, लेकिन यह वास्तव में सबसे महत्वपूर्ण है।
Sam Altman: क्या आप भविष्य में 10 मिलियन GPU या उससे अधिक के साथ सिंक्रोनस पूर्व-प्रशिक्षण आयोजित करेंगे?
Alex Paino: मुझे लगता है कि होगा, लेकिन यह पारंपरिक पूर्व-प्रशिक्षण मॉडल नहीं हो सकता है। इसका रूप मौजूदा तकनीकों से बहुत अलग हो सकता है, लेकिन यह अभी भी अपरिहार्य सीखने के मूल को बरकरार रखेगा।
Amin Tootoonchian: मैं एक अर्ध-सिंक्रोनस मॉडल पसंद करता हूं। भौतिक कानूनों के कारण, पूर्ण सिंक्रनाइजेशन बहुत यथार्थवादी नहीं है।
Daniel Selsam: मुझे लगता है कि यह विकेंद्रीकृत होने की अधिक संभावना है। एक AI प्रणाली में निश्चित रूप से 10 मिलियन GPU एक साथ काम करेंगे जो सीखते हैं और कार्यों को करते हैं, लेकिन मस्तिष्क के विभिन्न हिस्सों की तरह, वे एक-दूसरे के साथ संवाद नहीं कर सकते हैं।
Sam Altman: वर्तमान सबसे उन्नत एल्गोरिदम और मानव डेटा दक्षता के बीच कितना अंतर है? क्या भविष्य में इसे पकड़ना संभव है?
Daniel Selsam: दोनों की सीधे तुलना करना मुश्किल है। भाषा सीखने में अंतर निश्चित रूप से बहुत बड़ा है। कुंजी यह है कि मानव दृश्य नसों द्वारा प्राप्त जानकारी की मात्रा को कैसे परिभाषित किया जाए। मुझे लगता है कि एल्गोरिदम की समग्र डेटा दक्षता मनुष्यों की तुलना में बहुत कम है।
दशकों से, डीप लर्निंग कंप्यूटिंग दक्षता पर केंद्रित है। डेटा और कंप्यूटिंग शक्ति के विकास के अलावा, वास्तव में आश्चर्यजनक एल्गोरिथम सुधारों द्वारा उत्पादित सुपरिम्पोज्ड प्रभाव है। हर बार जब एल्गोरिथम प्रदर्शन में 10% या 20% का सुधार होता है, तो डेटा दक्षता पर आरोपित होने पर इसका महत्वपूर्ण प्रभाव पड़ेगा। अब तक, डेटा दक्षता के आसपास ऐसा कोई जुटान नहीं हुआ है, क्योंकि डेटा प्रवाहित नहीं होने और कंप्यूटिंग शक्ति सीमित होने पर यह सार्थक नहीं है।
अब, हम AI अनुसंधान के एक नए चरण में प्रवेश कर रहे हैं, और हम डेटा दक्षता जीत को जमा करना शुरू कर देंगे। मुझे लगता है कि अब यह भविष्यवाणी करना थोड़ा मूर्खतापूर्ण है कि हमें दुर्गम बाधाओं का सामना करना पड़ेगा। मानव मस्तिष्क जिस तरह से काम करता है, वह निश्चित रूप से हमारे एल्गोरिथम सुधारों से अलग है, और हमें इस संबंध में सतर्क रहना चाहिए। लेकिन मुझे लगता है कि हमें एल्गोरिदम के भविष्य के विकास के बारे में आशावादी बने रहना चाहिए।
Sam Altman: बड़े पैमाने पर पूर्व-प्रशिक्षण और मॉडल की मजबूत सीखने और तर्क क्षमताओं के बीच क्या संबंध है?
Alex Paino: हमने जो देखा है वह यह है कि बेहतर पूर्व-प्रशिक्षण और अपरिहार्य सीखने से मॉडल की समग्र बुद्धिमत्ता में सुधार होता है और सामान्यीकरण में बहुत मदद मिलती है, जो तर्क क्षमता के पूरक है, जबकि तर्क बुद्धिमत्ता में सुधार करने में थोड़ा सुस्त हो सकता है। मुझे लगता है कि वे पूरक हैं।
Sam Altman: पूर्व-प्रशिक्षण कई चीजों में सार्वभौमिक लगता है, जबकि एक मॉडल को प्रशिक्षित करने से यह केवल एक प्रकार की चीज में अच्छा प्रदर्शन कर सकता है, क्या यह सही है?
Alex Paino: यह बहुत दिलचस्प है, लेकिन जब आप उन डेटा को देखते हैं जो उन्हें प्रशिक्षित करते हैं, तो आपको इस स्थिति से आश्चर्य नहीं होगा। पूर्व-प्रशिक्षण डेटा सेट रेंज बहुत बड़ी है, और हम जो खोजते हैं वह चौड़ाई और विविधता है। जब मॉडल सुदृढीकरण सीखने और इसे स्पष्ट रूप से अच्छे इनाम संकेत और एक अच्छा प्रशिक्षण वातावरण प्राप्त करने की बात आती है, तो मुझे लगता है कि डेटा सेट की चौड़ाई को ध्यान में रखना मुश्किल है।
Daniel Selsam: मैं सहमत हूं, लेकिन मुझे लगता है कि एक और कारक है। पूर्व-प्रशिक्षण अनिवार्य रूप से डेटा को संपीड़ित कर रहा है, जिससे विभिन्न चीजों के बीच संबंध खोजे जा रहे हैं। यह सादृश्य और अधिक अमूर्त के बारे में है। तर्क एक कौशल है जिसके लिए एक विशिष्ट मुद्दे पर सावधानीपूर्वक सोचने की आवश्यकता होती है और यह कई प्रकार की समस्याओं के लिए समाधान भी प्राप्त कर सकता है। लेकिन पूर्व-प्रशिक्षण प्रक्रिया में, विभिन्न क्षेत्रों में डेटा को संपीड़ित करते समय अधिक अमूर्त ज्ञान सीखा जा सकता है।
Sam Altman: अपरिहार्य सीखना प्रभावी क्यों है?
Daniel Selsam: कुंजी संपीड़न है। बुद्धिमत्ता का आदर्श रूप सोलोमोनोव इंडक्शन है। सामान्य तौर पर, मशीन लर्निंग सभी संभावनाओं पर विचार करेगी, लेकिन परीक्षण के लिए सरल कार्यक्रमों से शुरू करने की प्रवृत्ति होगी।
वर्तमान पूर्व-प्रशिक्षण का सार एक संपीड़न प्रक्रिया है, जो उन सभी डेटा को समझाने के लिए सबसे सरल कार्यक्रम खोजकर अनुमानित अभिव्यक्ति प्राप्त करती है जो मनुष्यों ने अब तक उत्पादित किए हैं।
Sam Altman: अगला टोकन भविष्यवाणी संपीड़न प्राप्त करने में कैसे मदद करता है?
Daniel Selsam: आंकड़ों में एक विरोधाभास है - डीप नेटवर्क संपीड़ित करने में असमर्थ क्यों लगते हैं लेकिन सामान्यीकरण प्राप्त कर सकते हैं? सामान्य तौर पर, जब आपके पास बहुत सारा डेटा और कुछ छोटे मॉडल होते हैं, तो इन मॉडलों को कुछ सीखने के लिए संपीड़न से गुजरना होगा।
पूर्व-प्रशिक्षण में, डेटा और मॉडल दोनों का पैमाना बहुत बड़ा है। कुछ लोगों को लगता है कि यह प्रशिक्षण सिर्फ स्मृति और प्रक्षेप सीखने है। वास्तव में, वे संपीड़न को समझने के एक और दृष्टिकोण को अनदेखा करते हैं - पूर्व-अनुक्रमिक संपीड़न। यह एक कंप्रेसर की तरह है। भले ही डेटा वजन बहुत बड़ा हो, बाइनरी को इस जानकारी को संग्रहीत करने की आवश्यकता नहीं है। अगला टोकन भविष्यवाणी का परिणाम जल्दी से उपयोगी जानकारी प्राप्त कर सकता है और संपीड़न दक्षता में सुधार कर सकता है।
Sam Altman: GPT-4.5 को प्रशिक्षित करने की प्रक्रिया में बहुत सारी जनशक्ति, समय और धन खर्च हुआ, जिसे वास्तव में स्केलिंग कानून को सत्यापित करने के लिए एक प्रयोग माना जा सकता है, और परिणाम साबित करते हैं कि यह प्रभावी है और लंबे समय तक जारी रहेगा। स्केलिंग कानून को ब्रह्मांड का नियम क्यों कहा जा सकता है?
Daniel Selsam: संपीड़न की डिग्री जितनी अधिक होगी, बुद्धिमत्ता उतनी ही शक्तिशाली होगी, जिसके गहरे दार्शनिक निहितार्थ हैं। बड़े मॉडल को प्रशिक्षित करने में अधिक समय क्यों लगता है और संपीड़न दर अधिक है? इसमें कई सिद्धांत शामिल हैं, जिनमें से मुझे विरल प्रतिनिधित्व पसंद हैं।
वास्तविकता में मुख्य अवधारणाएं एक शक्ति कानून वितरण का पालन करती हैं। उदाहरण के लिए, 100 वीं सबसे महत्वपूर्ण अवधारणा प्रत्येक 100 दस्तावेजों में केवल एक बार दिखाई दे सकती है, और एक स्पष्ट लंबी-पूंछ प्रभाव है। यह वितरण विशेषता का अर्थ है कि सभी प्रमुख अवधारणाओं को प्रभावी ढंग से कैप्चर करने के लिए बड़े पैमाने पर डेटा और कंप्यूटिंग शक्ति की आवश्यकता होती है, और यह भी निर्धारित करता है कि स्केलिंग कानून लंबे समय तक प्रभावी रहेगा।