OpenAI च्या GPT-4.5 प्रशिक्षणाचे रहस्य

GPT-4.5 चा विकास, दोन वर्षांपूर्वी सुरू झालेला प्रकल्प, OpenAI चा आजपर्यंतचा सर्वात महत्वाकांक्षी प्रयत्न आहे. या मोठ्या उपक्रमात शेकडो व्यक्तींनी सहकार्य केले, OpenAI चे CEO सॅम Altman यांनी नमूद केले की या प्रकल्पाला जवळपास संपूर्ण संस्थेच्या सहभागाची आवश्यकता आहे.

मोठ्या प्रमाणावर प्रशिक्षणातील ‘घातक समस्यां’वर मात करणे

GPT-4.5 तयार करण्याचा प्रवास अडचणींशिवाय नव्हता. संशोधन आणि विकास टप्प्यात टीमला अनेक ‘घातक समस्या’ आल्या. 100,000 GPUs च्या क्लस्टरचा उपयोग केल्याने यापूर्वी न पाहिलेली, कमी संभाव्यतेची, परंतु पायाभूत सुविधांची मोठी विफलता उघडकीस आली. गती आणि इष्टतम कार्यक्षमतेचा समतोल राखण्यासाठी, OpenAI च्या सिस्टम टीमला ‘सुधारा आणि पुढे चला’ (fix-as-we-go) दृष्टीकोन स्वीकारावा लागला. विशेषत: एक अनाकलनीय बग क्लस्टरला वारंवार त्रुटी देत होता, जो अंदाजे 40% प्रशिक्षण प्रक्रिया पूर्ण होईपर्यंत undetected राहिला.

या आव्हानांना न जुमानता, GPT-4.5 प्रकल्पामुळे अधिक मजबूत तंत्रज्ञान स्टॅकचा विकास झाला. आज, केवळ 5-10 लोकांची एक टीम GPT-4 प्रमाणे मोठे मॉडेल तयार करू शकते. GPT-4 पासून GPT-4.5 पर्यंत कार्यक्षमतेत अंदाजे दहापट वाढ झाली, ज्यामुळे ‘अशी बुद्धिमत्ता प्राप्त झाली जी मोजणे कठीण आहे परंतु सर्व बाबींमध्ये वर्धित आहे,’ असे परिणाम मिळाले ज्याने OpenAI च्या कर्मचाऱ्यांसुद्धा आश्चर्यचकित केले.

लक्ष केंद्रित करणे: संगणकीय शक्तीवरून डेटा कार्यक्षमतेकडे

OpenAI ला हे समजले आहे की कार्यक्षमतेत पुढील दहापट किंवा शंभरपट वाढ केवळ कच्च्या संगणकीय शक्तीवर अवलंबून नाही, तर डेटा कार्यक्षमतेवर अवलंबून आहे – विशेषतः, अधिक संगणकीय संसाधनांचा उपयोग करताना डेटाच्या समान प्रमाणात अधिक ज्ञान काढण्याची क्षमता.

आर्किटेक्चर देखील सिंगल-क्लस्टरवरून मल्टी-क्लस्टर paradigms मध्ये विकसित होत आहे. भविष्यातील प्रशिक्षण iterations मध्ये 10 दशलक्ष GPUs पर्यंत सहयोगी शिक्षण समाविष्ट असू शकते, ज्यामुळे fault tolerance वाढवणे आवश्यक आहे.

सॅम Altman यांचा GPT-4.5 टीमसोबत संवाद

खाली सॅम Altman आणि OpenAI GPT-4.5 टीम यांच्यातील चर्चेचे संपादित संकलन आहे:

सॅम Altman: GPT-4.5 सारखे मोठे मॉडेल तयार करण्यासाठी काय लागते?

ऍलेक्स Paino: आम्ही हा प्रकल्प सुमारे दोन वर्षांपूर्वी सुरू केला. त्यावेळी, OpenAI एक नवीन मोठे کمپیوटिंग क्लस्टर लॉन्च करणार होते, आणि आमच्या टीमने हे मॉडेलमध्ये समाविष्ट करणे आवश्यक असलेल्या फंक्शन्स निर्धारित करण्यासाठी ऑपरेशन्सची मालिका आयोजित करण्याची संधी म्हणून पाहिले आणि मोठ्या संख्येने धोके कमी करण्याच्या ऑपरेशन चाचण्या घेतल्या.

आम्ही यासाठी एक दीर्घ योजना विकसित केली आहे, ज्यामध्ये सिस्टमपासून मशीन लर्निंगपर्यंत संपूर्ण तंत्रज्ञान स्टॅकचा समावेश आहे. धोके कमी करणे आणि प्रशिक्षणाची तयारी करणे ही एक दीर्घ अंमलबजावणी प्रक्रिया आहे, आणि प्रशिक्षण स्वतःच एक खूप मोठा प्रकल्प आहे.

अमीन Tootoonchian: मला वाटते की या प्रक्रियेत मशीन लर्निंग टीम आणि सिस्टम टीम यांच्यात सुरुवातीपासूनच जवळचे सहकार्य आवश्यक आहे, जोपर्यंत आम्हाला कोणते मॉडेल प्रशिक्षित करायचे आहे हे स्पष्ट होत नाही, आणि त्यानंतर प्रशिक्षण सुरू करावे.

आम्ही मशीन लर्निंग आणि सिस्टम दोन्ही पैलूंमध्ये अंदाज लावले आहेत, अपेक्षा आणि वास्तव यांच्यातील अंतर शक्य तितके कमी करण्याचा प्रयत्न करत आहोत. परंतु आमचा कामाचा वेग वेगवान असल्याने आणि आम्हाला नवीनतम संगणकीय संसाधने वापरावी लागतात, मॉडेल प्रशिक्षण ही अशी गोष्ट बनली आहे की तिची आगाऊ योजना बनवणे कठीण आहे.

आम्ही जवळजवळ नेहमीच अनेक न सुटलेल्या समस्यांसह प्रशिक्षण सुरू करतो आणि ऑपरेशन दरम्यान येणाऱ्या अडचणींवर मात करण्याचा आणि प्रगती करण्याचा प्रयत्न करतो. मुख्य उपाय म्हणजे अधिक संगणकीय संसाधने जोडणे.

अंतिम टप्पा म्हणजे अंमलबजावणी, ज्यामध्ये प्रशिक्षण प्रक्रिया पूर्ण करण्यासाठी बर्‍याच लोकांना दीर्घकाळ ऊर्जा आणि प्रेरणा गुंतवावी लागते.

सॅम Altman: आमच्या अपेक्षा आणि वास्तवातील अंतर किती आहे असे तुम्हाला वाटते?

अमीन Tootoonchian: सिस्टमच्या दृष्टीने, आम्ही सुरुवातीला अपेक्षित स्थितीपेक्षा सहसा खूप दूर असतो. आमच्यासमोर नेहमीच एक पर्याय असतो: सुरुवात पुढे ढकलायची आणि समस्येचे निराकरण होण्याची वाट पहायची, की लवकर सुरुवात करायची आणि प्रक्रियेत समस्येचे निराकरण करायचे. प्रक्रियेत অযৌক্তিক विलंब टाळण्यासाठी यात नेहमीच trade-off आवश्यक असतो.

परंतु जवळजवळ नेहमीच काही অপ্রত্যাশিত समस्या येतात, आणि आम्हाला शक्य तितक्या लवकर या समस्यांशीसामना करणे, अज्ञात घटकांशी सामना करणे आणि मॉडेल प्रशिक्षणासाठी योजना तयार करणे आवश्यक आहे.

ऍलेक्स Paino: या प्रकल्पात, GPT-4.5 बनवणे हे आमचे ध्येय आहे, याचा अर्थ असा आहे की त्याची क्षमता GPT-4 पेक्षा 10 पट अधिक स्मार्ट असावी. हे आम्ही सुमारे 2 वर्षांपूर्वी निश्चित केलेले प्रारंभिक ध्येय आहे.

या प्रक्रियेदरम्यान बऱ्याच गोष्टी घडल्या. आम्ही विचार करत होतो की आम्ही अपेक्षेपेक्षा चांगले करू शकतो की वाईट? ही एक अतिशय गुंतागुंतीची प्रक्रिया आहे, परंतु शेवटी, आम्ही केलेल्या प्रभावी गणनेच्या दृष्टीने, आम्हाला असे मॉडेल मिळाले आहे जे GPT-4 पेक्षा 10 पट अधिक स्मार्ट आहे असे आम्हाला वाटते.

अमीन Tootoonchian: अंमलबजावणीच्या दृष्टीने, GPT-4.5 प्रकल्पावर खर्च केलेला वेळ आम्ही सुरुवातीला अपेक्षेपेक्षा खूपच जास्त आहे.

सॅम Altman: 10,000 कार्ड्सवरून 100,000 कार्ड्सपर्यंत क्लस्टर वाढवताना तुम्हाला इतक्या समस्या का आल्या?

अमीन Tootoonchian: मला वाटते की जर सिस्टम डेव्हलपर पुरेसे संवेदनशील असतील, तर बहुतेक समस्या लहान-स्केल टप्प्यातच दिसू शकतात.

काही समस्या केवळ मोठ्या-स्केल प्रशिक्षण टप्प्यातच उद्भवत नाहीत, तर त्यापूर्वीही अनेकदा घडल्या आहेत, परंतु स्केल वाढवल्यानंतर त्या आपत्तीजनक समस्या बनतील, विशेषत: जेव्हा टीमने हे अपेक्षित केले नसेल की या समस्या इतक्या गंभीर होतील.

सॅम Altman: कोणत्या गोष्टींमुळे आपत्तीजनक परिणाम झाले?

अमीन Tootoonchian: मला वाटते की पायाभूत सुविधांच्या समस्या चांगल्या प्रकारे ज्ञात आहेत, मग ते अपयशाचे प्रमाण, अपयशाचा प्रकार किंवा अपयशाची एकूण रक्कम खूप जास्त असो. 100,000-कार्ड क्लस्टर हे मोठ्या-स्केलचे सॅम्पल पूल आहे, त्यामुळे आम्हाला अशा समस्या देखील आढळल्या ज्या संगणकीय शक्ती पुरवठादारांनी पाहिल्या नाहीत.

नेटवर्क त्यापैकी एक आहे, आणि वैयक्तिक ऍक्सिलरेटरमध्ये देखील समस्या असू शकतात. परंतु हे या सिस्टमचे सौंदर्य देखील आहे - अपेक्षित परिणाम मिळवण्यासाठी जवळजवळ सर्व घटकांनी अपेक्षेप्रमाणे कार्य करणे आवश्यक आहे. आमचे काम ही समस्या शक्य तितकी कमी करणे आहे.

सॅम Altman: क्लस्टर आकाराच्या मर्यादेत काम करणे खरोखरच कठीण आहे, परंतु मला हे देखील आढळले आहे की जे तंत्रज्ञान आघाडीवर नाही अशा गोष्टी करणे खूप सोपे झाले आहे. GPT-4.5 ला प्रशिक्षित करण्यासाठी शेकडो लोकांची आवश्यकता आहे, आणि OpenAI मध्ये जवळजवळ प्रत्येकजण सामील आहे.

परंतु आज, जर तुम्ही OpenAI मधून सर्वात लहान टीम निवडली आणि आम्हाला माहित असलेल्या सर्व ज्ञानाने आणि सिस्टमच्या कामातून GPT-4 ला सुरवातीपासून पुन्हा प्रशिक्षित केले, तर किती लोक लागतील?

ऍलेक्स Paino: मला वाटते की आता GPT-4-लेव्हल मॉडेल बनवण्यासाठी सुमारे 5 ते 10 लोक लागू शकतात. GPT-4.5 पूर्ण करण्याच्या प्रक्रियेत तंत्रज्ञान स्टॅकमध्ये खूप सुधारणा झाली आहे.

खरं तर, आम्ही GPT-4.5 च्या प्रशिक्षणाच्या प्रक्रियेत अशाच गोष्टी केल्या आहेत - आम्ही GPT-4o ला प्रशिक्षित केले, जे GPT-4-लेव्हल मॉडेल आहे, आणि GPT-4.5 संशोधन प्रकल्पातील बऱ्याच समान सामग्रीचा वापर करून ते पुन्हा प्रशिक्षित केले. त्या प्रशिक्षणासाठी कमी लोकांचा वापर केला गेला.

सॅम Altman: तुमच्या दृष्टिकोनतून, Dan? मोठे मॉडेल प्रशिक्षित करणे कठीण का आहे?

Daniel Selsam: मला वाटते की कोणतीही नवीन गोष्ट करणे कठीण आहे. मला वाटते की जरी इतर कोणीतरी काहीतरी केले आहे हे शोधणे देखील खूप सोपे करते, कारण सर्वात कठीण भाग म्हणजे प्रथम काहीतरी करण्याची श्रद्धा असणे. मला वाटते की काहीतरी व्यवहार्य आहे हे जाणून घेणे हा एक सुपर चीट कोड आहे जो गोष्टी खूप सोप्या करतो.

ऍलेक्स Paino: आम्ही GPT प्री-ट्रेनिंग रन त्याच्या मागील आकाराच्या 10 पट वाढवत आहोत, आणि आम्हाला नेहमी काहीतरी नवीन आणि मनोरंजक गोष्टी सापडतात ज्याचा तुम्ही अंदाज लावू शकत नाही.

सॅम Altman: प्री-ट्रेनिंग स्केलमध्ये पुढील 10x किंवा 100x वाढ साध्य करण्यासाठी काय आवश्यक आहे?

Daniel Selsam: डेटा कार्यक्षमता. Transformer आर्किटेक्चर (म्हणजे GPT) डेटा वापरण्यात खूप कार्यक्षम आहे. ते माहिती चांगले शोषून घेऊ शकते आणि कॉम्प्रेस करू शकते आणि सामान्यीकरण साध्य करू शकते. त्याचे सर्वात मोठे वैशिष्ट्य म्हणजे ते संगणकीय संसाधनांसह माहिती कार्यक्षमतेने शोषून घेऊ शकते.

तथापि, डेटावरून मिळणाऱ्या ज्ञानाची खोली मर्यादित आहे. जेव्हा संगणकीय शक्ती वेगाने वाढते आणि डेटा तुलनेने हळू वाढतो, तेव्हा डेटा या मानक मॉडेलसाठी अडथळा बनतो. यासाठी अल्गोरिदममध्ये नवीनता आणणे आवश्यक आहे जेणेकरून समान प्रमाणात डेटावरून अधिक ज्ञान शिकण्यासाठी अधिक संगणकीय शक्ती वापरता येईल.

सॅम Altman: विस्तारासाठी आपल्याला आणखी काय आवश्यक आहे असे तुम्हाला वाटते?

अमीन Tootoonchian: माझे उत्तर सिस्टमबद्दल आहे. मला वाटते की GPT-4.5 साठी आवश्यक असलेले प्रचंड काम हे मॉडेल स्पेसिफिकेशन्सचा अपरिहार्य परिणाम आहे. GPT-4 प्रमाणेच तंतोतंत तांत्रिक आर्किटेक्चर वापरून आम्ही GPT-4.5 ला प्रशिक्षित करू शकत नाही.

स्टेट मॅनेजमेंटच्या दृष्टीने, आवश्यक संगणकीय संसाधने एका क्लस्टरची क्षमता ओलांडली असल्याने, आम्हाला मल्टी-क्लस्टर प्रशिक्षण आर्किटेक्चरकडे वळावे लागेल. हे ध्येय साध्य करण्यासाठी, आम्ही कमी वेळात अनेक वेगवेगळ्या वर्कफ्लो समाकलित करणे आवश्यक आहे.

जरी यामुळे आम्हाला स्टेजमध्ये प्रगती साधण्यास मदत झाली असली तरी, पुढील ऑर्डर ऑफ मॅग्निट्यूड कार्यक्षमता सुधारण्यासाठी, आम्हाला अजूनही काही ज्ञात परंतु तात्पुरत्या बाजूला ठेवलेल्या तांत्रिक समस्यांचे निराकरण करणे आवश्यक आहे - या समस्या टाळता येणार नाहीत. हे तांत्रिक trade-off आहे जे परिपूर्ण सिस्टमचे संशोधन आणि विकास चक्र सतत वाढवते, आणि आम्ही नेहमी इष्टतम अंमलबजावणी योजनेचा पाठपुरावा करण्याच्या प्रक्रियेत धोरणात्मक trade-off करत असतो.

हे स्पष्ट असणे आवश्यक आहे की सिस्टम स्वतःच अंतिम ध्येय नाही, आणि त्याचे वास्तविक आउटपुट मूल्य हे मुख्य consideration आहे. पुढील 10x कार्यप्रदर्शन सुधारण्यासाठी, मला वाटते की fault tolerance मधील breakthrough महत्त्वपूर्ण आहे. ऑपरेशन आणि मेंटेनन्सची चिंता मोठ्या प्रमाणात कमी करण्यासाठी आम्हाला वर्कलोडशी खोलवर समन्वय साधणारी fault-tolerant यंत्रणा तयार करणे आवश्यक आहे. सध्याच्या अल्ट्रा-लार्ज-स्केल सिस्टमची ऑपरेशन आणि मेंटेनन्सची गुंतागुंत पूर्वीच्या सिस्टमपेक्षा मूलत: वेगळी आहे.

सॅम Altman: GPT-4.5 प्रशिक्षणादरम्यान काही विशिष्ट घटकांमुळे किती टक्के अपयश आले हे तुम्हाला माहीत आहे का?

अमीन Tootoonchian: माझ्याकडे सामायिक करण्यासाठी विशिष्ट आकडेवारी नाही, परंतु सामान्यतः, नवीन पिढीचे हार्डवेअर तैनात करण्याच्या सुरुवातीच्या टप्प्यात, सिस्टम ऑपरेशनला अनेक तांत्रिक आव्हानांचा सामना करावा लागतो जे पूर्णपणे समजलेले नसतात. समस्येची पूर्णपणे व्याख्या होण्यापूर्वी आम्ही प्रकल्प पुढे नेण्याचे निवडले, ज्यामुळे सुरुवातीच्या काळात अपयशाचे प्रमाण जास्त होते.

परंतु अनुभवाने हे सिद्ध केले आहे की मूळ कारण ओळखले आणि त्याचे निराकरण केले की, अपयशाचे प्रमाण लक्षणीयरीत्या कमी होईल. ही घटना अनिवार्यपणे पायाभूत सुविधांबद्दलची आपली सखोल समजूत दर्शवते - काही लोक याला पायाभूत सुविधा स्वच्छ करणे किंवा पायाभूत सुविधांच्या मूलभूत समस्या समजून घेणे म्हणतात.

अंमलबजावणीचे सुरुवातीचे टप्पे जवळजवळ नेहमीच खूप वेदनादायक असतात. प्रकल्प पुढे नेत असताना, आम्ही सतत नवीन अपयश मोड शोधत आणि सोडवत आहोत, परंतु अपयशाचे प्रमाण हळूहळू कमी होईल आणि सामान्य ऑपरेशनचा वेळ जास्त होईल.

हे अनिवार्यपणे प्राधान्य trade-offs ची बाब आहे: पायाभूत सुविधा जीवनचक्राच्या सुरुवातीच्या टप्प्यात, त्याच्या अपयशाचा धोका अचूकपणे अंदाज लावणे कठीण आहे; आणि जर आम्ही अंतिम आदर्श स्थितीचा (मूळ ‘सिटी इस्टेट’ आहे, आदर्श शहर-राज्य डिझाइन) अत्यधिक पाठपुरावा केला, तर ते सिस्टमला कारणीभूत ठरू शकते सुरुवातीच्या टप्प्यात उपलब्धता कार्यप्रदर्शन अत्यंत खराब आहे.

सॅम Altman: जरी रिझनिंग मॉडेल आमच्या भविष्यातील तंत्रज्ञान स्टॅकचा एक महत्त्वाचा घटक असला तरी, तात्पुरते पारंपरिक प्री-ट्रेनिंग मॉडेलच्या विकास मर्यादेवर लक्ष केंद्रित करूया. समजा आपल्याकडे अमर्यादित GPU संगणकीय शक्ती, अमर्यादित नेटवर्क बँडविड्थ आणि अमर्यादित वीज पुरवठा आहे, परंतु तरीही विद्यमान तांत्रिक अडचणींनी मर्यादित आहोत—ज्यामध्ये सिस्टम विश्वासार्हता समस्या, fault-tolerant प्रशिक्षण पद्धतींचा अभाव आणि विद्यमान डेटा सेट्सच्या मर्यादा यांचा समावेश आहे.

प्रत्येक मोठ्या GPT आवृत्ती क्रमांकात 100 पट स्केल वाढवण्याच्या आपल्या उत्क्रांती नियमानुसार, सध्याच्या तांत्रिक सीमांच्या आधारावर, प्री-ट्रेनिंग मॉडेलचा विकास कोणत्या स्तरावर पोहोचू शकतो? विशेषतः GPT मालिकेतील मॉडेल्ससाठी, आपल्या विद्यमान ज्ञान प्रणालीसह, आपण सैद्धांतिकदृष्ट्या कोणत्या प्रकारचे मॉडेल प्रशिक्षित करू शकतो? GPT-5.5 बनवता येईल का?

ऍलेक्स Paino: मशीन लर्निंग आणि अल्गोरिदम विकासाच्या दृष्टिकोनातून, आम्ही अद्याप स्पष्ट सैद्धांतिक उच्च मर्यादेपर्यंत पोहोचलेलो नाही. खरं तर, आम्ही नुकतेच उच्च डेटा कार्यक्षमतेसह अल्गोरिदम शोधण्यास सुरुवात केली आहे आणि विद्यमान डेटा संसाधनांचा अधिक पूर्णपणे कसा उपयोग करायचा हे शिकत आहोत. ही परिस्थिती खूपच मनोरंजक आहे - GPT-4 सारखी मॉडेल्स देखील मोठ्या प्रमाणात मर्यादित संगणकीय संसाधनांच्या Constraints अंतर्गत विकसित केली गेली आहेत, जी मागील बहुतेक संशोधनाची दिशा देखील ठरवते.

परंतु आता परिस्थिती पूर्णपणे वेगळी आहे. GPT-4.5 पासून, काही महत्त्वाच्या Dimensions मध्ये, डेटा हा संगणनापेक्षा मुख्य Constraint बनत आहे. या बदलामुळे संबंधित संशोधन कमी रोमांचक झाले आहे.

सॅम Altman: परंतु ही खरोखरच आश्चर्यकारक प्रगती आहे, आणि जगाला हे पूर्णपणे जाणवले नसेल की आपण तयार करू शकणाऱ्या सर्वोत्तम मॉडेलमध्ये संगणकीय संसाधने आता मुख्य अडथळा नाहीत. हा बदल खूप महत्वाचा आहे, कारण आपण खूप दिवसांपासून संगणकीय-Constraint वातावरणात जगत आहोत.

सॅम Altman: GPT-4.5 ला प्रशिक्षित करण्याच्या प्रक्रियेत आपण शिकलेला सर्वात मनोरंजक मशीन लर्निंग अनुभव कोणता आहे? फक्त तुम्हाला जे share करायचे आहे त्याबद्दल बोला.

अमीन Tootoonchian: सामान्यतः, सर्वात विचार करायला लावणारे ते situations आहेत जे आपल्या अंदाजांपासून Deviate होतात - विशेषत: जेव्हा आपण हे समजून घेण्याचा प्रयत्न करतो की वास्तविक कार्यप्रदर्शन अपेक्षित वक्रातून का Deviate होते.

ऍलेक्स Paino: आमच्यासाठी सर्वात आश्चर्यकारक शोध म्हणजे वेगवेगळ्या मशीन लर्निंग घटकांची स्केलेबिलिटी कार्यक्षमता खूप बदलते. काही भाग चांगले स्केल केले जाऊ शकतात, तर काही नाही. हे आम्हाला वास्तविक प्रशिक्षण प्रक्रियेत खऱ्या अर्थाने समजले. या अनुभवाने आम्हाला खूप प्रेरणा दिली.

Daniel Selsam: मला वाटते की GPT paradigms ची दोन मुख्य वैशिष्ट्ये आहेत: पहिले, टेस्ट लॉस (unseen टेस्ट डेटावर मॉडेल किती चांगले कार्य करते हे मोजण्यासाठी मेट्रिक) अचूकपणे predict केले जाऊ शकते; दुसरे, मॉडेल कार्यप्रदर्शन स्केलच्या विस्तारामुळे predictable सुधारणा दर्शवते. अधिक जादू म्हणजे, टेस्ट लॉसची घट विविध मार्गांनी बुद्धिमत्तेच्या सर्वांगीण वर्धित स्तरामध्ये रूपांतरित होईल जी quantify करणे कठीण आहे परंतु आश्चर्यकारक आहे.

सॅम Altman: तुम्ही याबद्दल पूर्णपणे आशावादी आहात का? तुम्ही या दृष्टिकोनशी पूर्णपणे सहमत आहात का?

Daniel Selsam: खरं तर, मला हे सांगायचे आहे की आम्हाला GPT-4.5 टेस्टमध्ये विशेषतः मनोरंजक phenomena आढळले - retesting केल्यानंतर, मॉडेलने अनेक सूक्ष्म क्षमता दर्शविल्या ज्याने प्रत्येकाच्या अपेक्षा पूर्णपणे ओलांडल्या.

आम्ही खात्रीपूर्वक सांगू शकतो की ते विविध मार्गांनी अधिक स्मार्ट होईल जे आगाऊ define केले जाऊ शकत नाही, आणि वास्तविक deployment केल्यानंतर, आम्ही वापरकर्त्यांच्या समाधानातून सुधारणेचे हे सूक्ष्म स्तर पाहू शकतो: मजबूत common sense reserves, अधिक अचूक contextual understanding क्षमता आणि अधिक delicate semantic grasp - हीच जादू त्या extra टेस्ट लॉसेसमुळे येते. माझ्या मते, Scaling Law या Dimension मध्ये पूर्णपणे verified झाले आहे.

सॅम Altman: संपूर्ण प्रशिक्षण प्रक्रियेदरम्यान सर्वात सकारात्मक क्षण कोणता होता? तुमची आवडती आठवण कोणती आहे? यात खूप वेदना आहेत हे उघड आहे, परंतु मला आशा आहे की त्या वेदना कमी झाल्या असतील.

ऍलेक्स Paino: माझ्याकडे असा एक क्षण आहे. आम्ही प्रशिक्षणादरम्यान खूप मशीन लर्निंगचे काम केले. मला वाटते की ऑपरेशन दरम्यान आम्ही केलेल्या काही बदलांचा चांगला परिणाम झाला, शक्यतो अपेक्षेपेक्षा चांगला, जो आमच्यासाठी खूप रोमांचक क्षण होता.

अमीन Tootoonchian: माझ्यासाठी, प्रशिक्षणाच्या वेळी, आम्ही पायाभूत सुविधा देखील तयार करत आहोत. आम्हाला ठामपणे विश्वास आहे की आम्ही ही कार्यक्षमतेची Cliff ओलांडू शकतो, आणि आमच्याकडे योजना आहे, आणि प्रत्येकजण ती execute करत आहे, परंतु त्याला खूप वेळ लागतो. हे कठीण काम आहे आणि नक्कीच माझ्या विचारपेक्षा जास्त कठीण आहे. माझा अंदाज चुकीचा होता, आणि या समस्यांचे निराकरण करण्यासाठी लागणारा वेळ मी कमी लेखला.

जेव्हा टीमने शेवटी त्या महत्त्वाच्या समस्यांवर मात केली आणि कार्यक्षमतेत लक्षणीय सुधारणा झाली तो क्षण अजूनही माझ्या मनात ताaza आहे. तुम्ही संपूर्ण टीमचे ऊर्जा रूपांतरण स्पष्टपणे जाणवू शकता - प्रत्येकजण अचानक ऊर्जेने परिपूर्ण आहे आणि नवीन प्रेरणेने अंतिम ध्येयाकडे धावत आहे.

सर्वात जादूची गोष्ट म्हणजे आमच्या स्टेटस ट्रॅकरवर दर्शविलेला अंदाजित पूर्ण होण्याचा वेळ सुरुवातीच्या दोन वर्षांपासून सतत कमी होत गेला आणि शेवटी एका स्पष्ट वेळेच्या Node वर Lock झाला. या दृश्यमान प्रगतीमुळे टीमच्या मनोबलाला अमाप चालना मिळाली. मला वाटते की हे त्याचे सौंदर्य आहे.

मी हे जोर देऊन सांगू इच्छितो की मशीन लर्निंगचे काम कधीही थांबले नाही. प्रशिक्षण सुरू झाल्यानंतरही, हे मशीन लर्निंग को-डिझाइन प्रक्रिया सुरूच आहे. मशीन लर्निंग टीमने केवळ त्या समस्यांवर सक्रियपणे पाठपुरावा केला नाही ज्या ‘subsequent processing’ म्हणून चिन्हांकित केल्या गेल्या होत्या, तर प्रशिक्षण वेळ खऱ्या अर्थाने ऑप्टिमाइझ करणारे सुधारणे देखील सतत दिले.

हे आमच्या टीमच्या भावनेचे उत्तम प्रकारे प्रतिबिंब आहे - येथे ‘प्रत्येक व्यक्ती त्यांच्या स्वतःच्या दारासमोरची बर्फ झाडते’ अशी कामाची सीमा नाही, तर एक खऱ्या अर्थाने अखंड सहकार्य आहे, आणि हे cohesion ही आमची सर्वात मोठी ताकद आहे.

सॅम Altman: बाहेरील जगात या प्रशिक्षणाच्या आव्हानांबद्दल आणि prediction अचूकतेबद्दल बरीच चर्चा झाली आहे. परंतु खरं तर, हे सर्व अत्यंत Thorough planning वर आधारित आहे - याबद्दल तुम्ही अधिक तपशीलवार बोलू शकता का?

ऍलेक्स Paino: ही नक्कीच आत्तापर्यंतची आमची सर्वात Thorough योजना आहे. मी म्हटल्याप्रमाणे, आम्ही प्रशिक्षणाची अधिकृत सुरुवात होण्याच्या एक वर्ष आधी या प्रकल्पाची तयारी सुरू केली. या काळात, आम्ही अनेक मोठ्या-स्केलच्या रिस्क कंट्रोलटेस्ट्स घेतल्या.

आम्ही हळूहळू सर्व सुधारणा सादर करण्याकडे विशेष लक्ष देतो: उच्च-आत्मविश्वास असलेल्या मूलभूत कॉन्फिगरेशनपासून सुरुवात करणे - ज्याला GPT-4 प्रमाणे Mature आर्किटेक्चर म्हणून समजले जाऊ शकते, आम्ही मशीन लर्निंग स्तरावर हे कॉन्फिगरेशन पूर्णपणे Master केले आहे - आणि नंतर बिल्डिंग ब्लॉक्ससारखे स्तरानुसार नवीन वैशिष्ट्ये जोडणे.

प्रत्येक सुधारणेची स्केलेबिलिटी वेगवेगळ्या Scales वर काटेकोरपणे verify करणे हे महत्त्वाचे आहे: केवळ कार्यक्षमतेत सुधारणा पाहण्यासाठीच नाही, तर मॉडेल स्केल expand होत असताना ही सुधारणे प्रभावी राहतील याची खात्री करणे देखील महत्त्वाचे आहे. अनेक सुधारणा लहान-स्केल टेस्ट्समध्ये चांगले कार्य करतात, परंतु मोठ्या-स्केल ऍप्लिकेशन्समध्ये अयशस्वी ठरतील.

म्हणून, आम्ही संपूर्ण प्रक्रियेदरम्यान उच्च पातळीची Vigilance राखली आहे आणि आमची विस्तार कायदा पद्धती सतत Iterate आणि Improve करत आहोत. या रिस्क कंट्रोल प्रॅक्टिसद्वारे, आम्ही भरपूर मौल्यवान अनुभव जमा केला आहे जो भविष्यातील GPT मालिकेतील मॉडेल्सच्या विकासाला मार्गदर्शन करत राहील.

अमीन Tootoonchian: मला एक विशेष मनोरंजक क्षण आठवतो जो मला खूप आठवतो. तुम्हाला माहीत आहे, आम्ही प्रत्येक वेळी प्रशिक्षण कार्य सुरू करतो तेव्हा आम्हाला जवळजवळ नेहमीच विविध Bugs येतात. हे आता सामान्य झाले आहे. परंतु मुख्य गोष्ट म्हणजे प्रगती अवरोधित होणार नाही याची खात्री करणे आणि सध्याची प्रगती खरोखरच योग्य मार्गावर आहे की नाही आणि या Bugs चा प्रशिक्षणाच्या आरोग्यावर प्राणघातक परिणाम होईल की नाही याची नेहमी पुष्टी करणे.

जरी आम्हाला सुरुवातीला खात्री होती की Major Defects आहेत, तरीही आम्ही तयार केलेल्या संपूर्ण मॉनिटरिंग सिस्टमद्वारे, आम्ही समस्येचे मूळ कारण अचूकपणे ओळखण्यास सक्षम आहोत: ते हार्डवेअर Failure आहे का? कोणत्या प्रकारचे हार्डवेअर Failure? डेटा Corruption आहे का? किंवा मशीन लर्निंग मॉडेलमध्येच Bug आहे? किंवा कोडमध्ये Race Condition आहे?

त्यावेळी, आमच्याकडे एकाच वेळी अनेक समस्या चर्चा क्षेत्रे खुली होती, ज्यात विविध लक्षणे होती. Bug Fixes च्या मालिकेनंतर, आम्ही अडकलो: आमच्यासमोर अनेक न सुटलेल्या समस्या होत्या, आणि प्रत्येकजण आपापल्या मेंदूला ताण देत होता - हे वेगवेगळ्या Bugs मुळे झाले आहेत का? किंवा कामावर Bug आहे?

नंतर, आम्ही टीम सदस्यांना सर्वात संभाव्य मूळ कारणासाठी मतदान करण्यासाठी एक Vote घेतले. सर्वात कमी आश्वासक पर्याय सत्यावर पोहोचला: PyTorch च्या upstream मधील torch.sum फंक्शनमध्ये एक समस्या असल्याचे दिसून आले, एक साधे Summations ऑपरेशन.

हा Bug विशेषतः मनोरंजक आहे. तुम्हाला माहीत आहे, आम्ही प्रामुख्याने Triton Kernel वापरतो, आणि आम्ही काही unimportant Edge scenarios मध्येच टॉर्च ऑपरेशन्सवर परत येऊ. आणि torch.sum फंक्शन Bug आमच्या विशिष्ट कोड path ने ट्रिगर केल्याने डेटा वितरण वैशिष्ट्यांमुळे Illegal मेमरी ऍक्सेस होऊ शकतो - मेमरी ऑफसेटची गणना करताना त्याने चूक केली.

सर्वात नाट्यमय गोष्ट म्हणजे जेव्हा एका इंजिनियरने शेवटी समस्येचे Location केले आणि Fix सबमिट केले, तेव्हा वेगवेगळ्या लक्षणांचे सर्व Error रिपोर्ट्स गायब झाले. प्रत्येकाने उत्साहाने Slack चॅनल ‘multi-bug theory’ मधून ‘single-bug theory’ मध्ये बदलले, आणि ते दृश्य खूप आनंदी होते.

हा Bug किती दिवसांपासून दबा धरून बसला होता? तो प्रशिक्षणाच्या सुरुवातीच्या टप्प्यांपासून अस्तित्वात होता आणि सुमारे 40% प्रगती बार पार होईपर्यंत identified झाला नाही. शोध प्रक्रिया देखील नाटकाने परिपूर्ण होती: त्यावेळी, एक Complex Kernel sequentially सीक्वेन्स कॉल करत होता, आणि दुसऱ्या कॉलने Illegal मेमरी ऍक्सेस ट्रिगर केला.

जरी ही क्रॅश फ्रिक्वेन्सी अत्यंत कमी असली तरी (ती दर काही शेकडो किंवा हजारो प्रशिक्षण Steps मध्ये फक्त एकदाच येते), तरीही ती occasional Failure म्हणून दुर्लक्षित करणे सोपे आहे, परंतु आमच्या टीमची Guideline आहे: कोणतीही Anomaly सोडू नका. या कथेतील सर्वोत्तम भाग म्हणजे सहज हार न मानण्याचा हा Perseverance आहे.

सॅम Altman: GPT-4.5 प्री-ट्रेनिंग सुरू झाल्यानंतर तुम्हाला आणखी काय करण्याची आवश्यकता आहे?

ऍलेक्स Paino: आम्हा सर्वांना Loss Curve वारंवार Observe करण्याची आवश्यकता आहे. याव्यतिरिक्त, आम्हाला सिस्टम ऑप्टिमाइझ करणे आणि प्रशिक्षण सुरू होण्यापूर्वी पूर्ण न झालेले को-डिझाइन Improve करणे सुरू ठेवण्याची आवश्यकता आहे. अनपेक्षित ट्रेंड नाहीत याची खात्री करण्यासाठी आम्ही प्रशिक्षण प्रक्रियेदरम्यान विविध आकडेवारीचे बारकाईने निरीक्षण करतो. त्याच वेळी, आम्ही मशीन लर्निंगच्या दृष्टिकोनातून शक्य असलेल्या Improvement योजना शोधतो. जरी प्री-ट्रेनिंग सुरू झाल्यानंतर डेटा-लेव्हलचे काम तात्पुरते कमी केले जाईल, तरीही process करण्यासाठी बरीच कार्ये आहेत.

अमीन Tootoonchian: मला वाटते की मशीन लर्निंग मोठ्या प्रमाणात Correction Judgment वर अवलंबून असते. प्री-ट्रेनिंग सुरू झाल्यानंतर, मोठ्या प्रमाणात Noise Signals चा सामना करत असताना, आम्ही चहाच्या पानाच्या ढिगाऱ्यांचा अर्थ लावणाऱ्या भविष्यवेत्त्यांसारखे आहोत आणि सिस्टम Healthy आहे की नाही हे Judge करण्याची आवश्यकता आहे. ही आमची जबाबदारी आहे.

सॅम Altman: सिस्टम स्तरावर, मॉडेल प्रशिक्षण आयोजित करण्यापासून आम्हाला काय Limit करेल? ते Chip, प्रोसेसर, मेमरी, नेटवर्क की वीज पुरवठा असेल?

अमीन Tootoonchian: सिस्टमचे सौंदर्य हे आहे की, Collaborative डिझाइन करताना, वर्कलोड तुम्ही तयार केलेल्या पायाभूत सुविधांशी Adapt होऊ शकते. नेटवर्क हा Bottleneck आहे, किंवा मेमरी बँडविड्थ हा Bottleneck आहे, वगैरे असे कोणतेही Universal विधान नाही. समान Specification च्या मॉडेल्ससाठी देखील, आम्ही Resource आवश्यकता Transfer करणे निवडू शकतो. आम्ही अधिक Balanced सिस्टम तयार करणे निवडू शकतो, परंतु जास्त मेमरी बँडविड्थ असणे नेहमीच फायदेशीर असते. Limit शर्तींशिवाय या प्रश्नाचे उत्तर देणे कठीण आहे.

GPT-4.5 डिझाइन करताना, आम्हाला सिस्टममध्ये एक विशिष्ट Attribute असणे आवश्यक आहे, जे मानवी मार्गदर्शनाद्वारे तयार करणे आवश्यक आहे. म्हणून, मॉडेल आर्किटेक्चर आणि आर्किटेक्चरल घटक तयार करण्यासाठी सहयोगी डिझाइन खूप महत्वाचे आहे, आणि काही प्रमाणात सिस्टम आणि मशीन लर्निंग पैलू जोडते. जर सिस्टममध्ये एक Attribute असेल जी आम्हाला जास्त प्रमाणात नको आहे. माझी Ideal Situation अशी आहे की प्रत्येक गोष्टीला एकमेकांना सर्वात जास्त Space देण्यासाठी Decouple केले जावे.

कधीकधी गोष्टी Connect केलेल्या असतात आणि आम्हाला पायाभूत सुविधांच्या आवश्यकता पूर्ण करण्याची आवश्यकता असते, किंवा गोष्टी अशाच असाव्यात. बहुतेक वेळा, आम्हाला Balanced सिस्टम, Balanced कम्युनिकेशनची आवश्यकता असते. आणि आमच्याकडे असलेले Regulats करण्याचे सर्वोत्तम Means म्हणजे हे सर्व Collaborative डिझाइन आहेत.

सॅम Altman: अशा Ideal सिस्टम ध्येयापासून आपण किती दूर आहोत?

अमीन Tootoonchian: आम्ही त्या ध्येयापासून खूप दूर आहोत. सिस्टम तयार करण्याची प्रक्रिया नेहमीच अशी असते: प्रथम गोष्टी कशा कार्य करायला हव्यात याबद्दल एक Idealized दृष्टीकोन असतो, आणि नंतर ते Differences विद्यमान संसाधनांशी Reconcile केले जातात.

मला वाटत नाही की आम्ही Theory साठी Theory करत आहोत, तर फक्त ते काय बनायला हवे यावर चर्चा करण्यासाठी, ते Realize करण्यासाठी आणि त्या Ideal च्या शक्य तितके जवळ जाण्यासाठी करत आहोत. सिस्टम क्षेत्रातील हा कदाचित सर्वात Exciting भाग आहे. लोक पूर्वी म्हणायचे की हे एक Elegant सिस्टम डिझाइन आहे, आणि शेवटी इतिहास आपल्याला सांगेल की ही निवड बरोबर आहे की चूक.

सॅम Altman: जर तुम्हाला पुढील मोठ्या प्रशिक्षणापूर्वी मशीन लर्निंग प्रश्नाचे उत्तर मिळू शकले, तर तुम्हाला सर्वात जास्त काय जाणून घ्यायला आवडेल?

ऍलेक्स Paino: मला हे जाणून घ्यायचे आहे की मर्यादित डेटा आणि विशिष्ट फील्ड्स अंतर्गत आपण कोणते अल्गोरिदम वापरायला हवे. जरी हा एक व्यापक प्रश्न असला तरी, तो खरोखरच सर्वात Critical आहे.

सॅम Altman: तुम्ही भविष्यात 10 दशलक्ष किंवा त्याहून अधिक GPUs सह Synchronous प्री-ट्रेनिंग कराल का?

ऍलेक्स Paino: मला वाटते की तेथे असेल, परंतु ते पारंपरिक प्री-ट्रेनिंग मॉडेल नसेल. त्याचे स्वरूप विद्यमान तंत्रज्ञानापेक्षा खूप वेगळे असू शकते, परंतु ते अजूनही Unsupervised लर्निंगचे Core टिकवून ठेवेल.

अमीन Tootoonchian: मला Semi-Synchronous मॉडेल अधिक आवडते. Physical Law मुळे, Complete Synchronization फार Realistic नाही.

Daniel Selsam: मला वाटते की ते Decentralized असण्याची शक्यता जास्त आहे. AI सिस्टममध्ये 10 दशलक्ष GPUs एकत्रितपणे शिकून कार्ये पार पाडतील, परंतु मेंदूच्या विविध भागांप्रमाणे, ते एकमेकांशी Communicate करण्याची आवश्यकता नाही.

सॅम Altman: सध्याच्या सर्वात Advanced अल्गोरिदम आणि मानवी डेटा कार्यक्षमतेमध्ये किती Difference आहे? भविष्यात पकडणे शक्य आहे का?

Daniel Selsam: दोघांची थेट तुलना करणे कठीण आहे. भाषा शिकण्यातील Gap निश्चितच खूप मोठा आहे. मानवी Visual Nerves द्वारे प्राप्त केलेल्या माहितीची Amount Define कशी करायची यावर हे अवलंबून आहे. मला वाटते की अल्गोरिदमची एकूण डेटा कार्यक्षमता मानवांपेक्षा खूपच कमी आहे.

दशकांपासून, Deep Learning ने कंप्यूटिंग कार्यक्षमतेवर लक्ष केंद्रित केले आहे. डेटा आणि कंप्यूटिंग पॉवरच्या वाढीव्यतिरिक्त, अल्गोरिदम Improvement द्वारे तयार केलेला Superimposed इफेक्ट खरोखरच आश्चर्यकारक आहे. प्रत्येक वेळी अल्गोरिदम कार्यक्षमतेत 10% किंवा 20% सुधारणा होते, तेव्हा डेटा कार्यक्षमतेवर Superimposed केल्यावर त्याचा Significant Effect होतो. आतापर्यंत, डेटा वाहत नसल्यामुळे आणि कंप्यूटिंग पॉवर मर्यादित असल्याने डेटा कार्यक्षमतेभोवती अशी कोणतीही Mobilization झालेली नाही.

आता, आपण AI संशोधनाच्या एका नवीन टप्प्यात प्रवेश करत आहोत आणि आपण डेटा कार्यक्षमतेचे विजय जमा करण्यास सुरुवात करू. मला वाटते की आपण Insurmountable अडथळ्यांचा सामना करू असे Predict करणे थोडे Foolish आहे. मानवी मेंदू ज्या प्रकारे कार्य करतो तो आपल्या अल्गोरिदम Improvement पेक्षा निश्चितच वेगळा आहे, आणि आपण या संदर्भात Cautionous असावे. परंतु मला वाटते की आपण अल्गोरिदमच्या भविष्यातील विकासाबद्दल Optimistic असले पाहिजे.

सॅम Altman: मोठ्या-स्केल प्री-ट्रेनिंग आणि मॉडेलच्या Strong Learning आणि रिझनिंग क्षमता यांच्यात काय Correlation आहे?

ऍलेक्स Paino: आम्ही जे Observe केले आहे ते हे आहे की चांगले प्री-ट्रेनिंग आणि Unsupervised लर्निंग मॉडेलच्या एकूण बुद्धिमत्तेत Improve करतात आणि सामान्यीकरणात खूप मदत करतात, जे रिझनिंग क्षमतेस पूरक आहे, तर रिझनिंग बुद्धिमत्ता Improve करण्यात थोडे Duller असू शकते. मला वाटते की ते एकमेकांना पूरक आहेत.

सॅम Altman: प्री-ट्रेनिंग बऱ्याच गोष्टींमध्ये Universal असल्याचे दिसते, तर मॉडेलला प्रशिक्षित केल्याने ते फक्त एकाच प्रकारची गोष्ट चांगले करू शकते, बरोबर?

ऍलेक्स Paino: हे खूप मनोरंजक आहे, परंतु जेव्हा तुम्ही त्यांना प्रशिक्षित करणारा डेटा पाहता, तेव्हा तुम्हाला या परिस्थितीबद्दल आश्चर्य वाटणार नाही. प्री-ट्रेनिंग डेटा सेटची Range खूप मोठी आहे, आणि आपण ज्याचा पाठपुरावा करतो तो म्हणजे Breadth आणि Diversity. जेव्हा मॉडेल Reinforcement लर्निंग आणि त्याला स्पष्टपणे चांगले Reward Signals आणि चांगले प्रशिक्षण वातावरण मिळवून देण्याची बाब येते, तेव्हा मला वाटते की डेटा सेटची Breadth विचारात घेणे कठीण आहे.

Daniel Selsam: मी सहमत आहे, परंतु मला वाटते की आणखी एक Factor आहे. प्री-ट्रेनिंग अनिवार्यपणे डेटा कॉम्प्रेस करत आहे, ज्यामुळे वेगवेगळ्या गोष्टींमधील Connections शोधले जातात. हे Anology आणि अधिक Abstract बद्दल आहे. रिझनिंग हे एक Skill आहे ज्यामध्ये विशिष्ट समस्येवर काळजीपूर्वक विचार करणे आवश्यक आहे आणि अनेक प्रकारच्या समस्यांसाठी Solutions देखील मिळू शकतात. परंतु प्री-ट्रेनिंग प्रक्रियेत, वेगवेगळ्या फील्ड्समध्ये डेटा कॉम्प्रेस करताना अधिक Abstract ज्ञान शिकले जाऊ शकते.

सॅम Altman: Unsupervised लर्निंग प्रभावी का आहे?

Daniel Selsam: Compression हे Key आहे. बुद्धिमत्तेचे Ideal स्वरूप म्हणजे Solomonov Inductions. सामान्यतः, मशीन लर्निंग सर्व शक्यतांचा विचार करेल, परंतु Testing साठी Simple प्रोग्रामपासून सुरुवात करण्याचा कल असतो.

सध्याच्या प्री-ट्रेनिंगचा Essence म्हणजे Compression प्रक्रिया, जी मानवांनी आत्तापर्यंत तयार केलेल्या सर्व डेटाचे स्पष्टीकरण देण्यासाठी सर्वात Simple प्रोग्राम शोधून Approximate Expression साध्य करते.

सॅम Altman: पुढील Token Prediction Compression साध्य करण्यात कशी मदत करते?

Daniel Selsam: स्टॅटिस्टिक्समध्ये एक Paradox आहे - Deep Networks कॉम्प्रेस करण्यास असमर्थ असूनही Generalization का साध्य करतात? सामान्यतः बोलताना, जेव्हा तुमच्याकडे खूप डेटा आणि काही Small मॉडेल असतील, तेव्हा या मॉडेल्सना काहीतरी शिकण्यासाठी Compression मधून जावे लागते.

प्री-ट्रेनिंगमध्ये, डेटा आणि मॉडेल्स दोन्हीचे Scale खूप मोठे आहे. काही लोकांना वाटते की हे प्रशिक्षण फक्त मेमरी आणि इंटरपोलेशन लर्निंग आहे. खरं तर, ते Compression समजून घेण्याचा आणखी एक दृष्टिकोन दुर्लक्षित करतात - Pre-quential Compression. हे Compressor सारखे आहे. जरी डेटा वेट खूप मोठा असला तरी, बायनरीला ही माहिती स्टोअर करण्याची आवश्यकता नाही. पुढील Token Prediction चा परिणाम उपयुक्त माहिती त्वरीत Retrieve करू शकतो आणि Compression कार्यक्षमता Improve करू शकतो.

सॅम Altman: GPT-4.5 ला प्रशिक्षित करण्याच्या प्रक्रियेत खूप Manpower, वेळ आणि Money खर्च झाला, ज्याला Scaling Law Verify करण्याचा प्रयोग म्हणून Consider केले जाऊ शकते, आणि Results Prove करतात की ते Effective आहे आणि ते दीर्घकाळ सुरू राहील. Scaling Law ला युनिव्हर्सचा Law का म्हटले जाऊ शकते?

Daniel Selsam: Compression ची Degree जितकी जास्त तितकी बुद्धिमत्ता अधिक Powerful, ज्यामध्ये Profound फिलॉसॉफिकल Implications आहेत. मोठ्या मॉडेल्सना प्रशिक्षित करण्यासाठी जास्त वेळ का लागतो आणि Compression Rate जास्त का असतो? यामध्ये अनेक Theory चा समावेश आहे, ज्यापैकी मला Sparse Representations आवडतात.

रिॲलिटीमधील Key Concepts पॉवर Law डिस्ट्रिब्यूशन फॉलो करतात. उदाहरणार्थ, 100 वे सर्वात महत्वाचे Concept दर 100 डॉक्युमेंट्समध्ये फक्त एकदाच दिसू शकते आणि तेथे एक Obvious Long-Tail Effect आहे. या डिस्ट्रिब्यूशन वैशिष्ट्याचा अर्थ असा आहे की सर्व Key Concepts प्रभावीपणे Capture करण्यासाठी मोठ्या-स्केल डेटा आणि कंप्यूटिंग पॉवरची आवश्यकता आहे आणि हे Scaling Law दीर्घकाळ Effective राहील हे देखील ठरवते.