GPT-4.5 प्रशिक्षण: 100,000 GPUs चा वापर | mr

GPT-4.5 ची निर्मिती: दोन वर्षांचा प्रवास

GPT-4.5 उपक्रम, त्याच्या लॉन्चिंगच्या दोन वर्षांपूर्वी सुरू झाला, OpenAI चा आतापर्यंतचा सर्वात काळजीपूर्वक योजनाबद्ध प्रकल्प होता. यासाठी शेकडो लोकांच्या एकत्रित प्रयत्नांची आवश्यकता होती, अल्टमन यांनी नमूद केले की या प्रकल्पात OpenAI मधील ‘जवळजवळ प्रत्येकजण’ गुंतलेला होता. संस्थेच्या व्यापक ध्येयांमधील GPT-4.5 चे धोरणात्मक महत्त्व यावरून अधोरेखित होते.

विकासाच्या टप्प्यात, OpenAI टीमला ‘घातक समस्यांचा’ सामना करावा लागला. 100,000 GPU च्या क्लस्टरच्या तैनातीमुळे पायाभूत सुविधांमधील सुप्त असुरक्षितता उघडकीस आली, जी वारंवार परंतु गंभीर अपयशांच्या रूपात दिसून आली. वेग आणि इष्टतम कार्यक्षमतेमध्ये संतुलन साधण्यासाठी, सिस्टम अभियंत्यांनी एक पुनरावृत्ती दृष्टीकोन स्वीकारला, ज्यात एकाच वेळी ‘बांधणे आणि निराकरण करणे’ समाविष्ट होते. विशेषत: एक अनाकलनीय बग क्लस्टरला वारंवार त्रुटी देत होता, जो प्रशिक्षण प्रक्रिया सुमारे 40% पूर्ण होईपर्यंत शोधला गेला नाही.

विरोधाभास म्हणजे, या चाचण्यांमुळे OpenAI च्या तांत्रिक पायाला बळकटी मिळाली. आता मिळालेल्या कौशल्यामुळे GPT-4 च्या आकारमानाचे मॉडेल तयार करण्यासाठी केवळ 5-10 लोकांची टीम सक्षम आहे. GPT-4 ते GPT-4.5 पर्यंतची कार्यक्षमतेतील झेप, अंदाजे दहापट जास्त होती, ज्यामध्ये ‘अंदाजाबाहेर सुधारित बुद्धिमत्ता’ होती, ज्यामुळे OpenAI मधील लोक देखील आश्चर्यचकित झाले. या गुणात्मक झेपमुळे केवळ स्केलिंगच्या पलीकडे प्रगती झाली आहे, जी मॉडेलच्या तर्क आणि आकलन क्षमतेतील मूलभूत सुधारणा दर्शवते.

पुढे बोलताना, OpenAI ने ओळखले की कार्यक्षमतेत पुढील वाढ केवळ संगणकीय शक्तीवर अवलंबून नसेल, तर डेटा कार्यक्षमतेवर अवलंबून असेल. विद्यमान डेटासेटमधून अधिक ज्ञान काढू शकणाऱ्या अल्गोरिदम विकसित करण्यावर लक्ष केंद्रित केले जात आहे, ज्यामुळे उपलब्ध संगणकीय संसाधनांचा उपयोग वाढेल.

शिवाय, आर्किटेक्चर सिंगल-क्लस्टरवरून मल्टी-क्लस्टर डिझाइनमध्ये विकसित होत आहे, ज्यामुळे भविष्यातील प्रशिक्षण परिस्थितीमध्ये 10 दशलक्ष GPUs द्वारे सहयोगी शिक्षण समाविष्ट असेल. या बदलासाठी मोठ्या प्रमाणात वितरित प्रणालींची स्थिरता आणि विश्वसनीयता सुनिश्चित करण्यासाठी दोष सहनशीलतेमध्ये महत्त्वपूर्ण सुधारणा करणे आवश्यक आहे.

चर्चेत डेटाच्या ‘लाँग टेल’ आणि स्केलिंग नियम, मशीन लर्निंग आणि सिस्टम टीम (को-डिझाइन) यांच्यातील जवळच्या सहकार्याचे फायदे, अनसुपरवाईज्ड लर्निंगचे सार आणि सूक्ष्म समस्या- निराकरणाच्या संस्कृतीचाही समावेश होता.

GPT-4.5 च्या मागचे प्रमुख खेळाडू

अल्टमन यांच्या व्यतिरिक्त, OpenAI टीममधील इतर तीन सदस्य ज्यांनी या संभाषणात भाग घेतला ते होते:

ऍलेक्स पैनो: GPT-4.5 च्या प्री-ट्रेनिंग मशीन लर्निंग अल्गोरिदमसाठी जबाबदार.
अमीन टूटनचियन: OpenAI चे मुख्य सिस्टम आर्किटेक्ट.
डॅनियल सेल्सम: डेटा कार्यक्षमता आणि अल्गोरिदमवर संशोधन करतात.

GPT-4.5 ची उत्पत्ती आणि उत्क्रांती

सॅम अल्टमन: GPT-4.5 सारखे मोठे मॉडेल तयार करण्यासाठी खरोखर काय लागते?

ऍलेक्स पैनो: आम्ही हा प्रकल्प सुमारे दोन वर्षांपूर्वी सुरू केला. त्यावेळी, OpenAI एक नवीन मोठे कंप्यूटिंग क्लस्टर लॉन्च करणार होते, आणि आमच्या टीमने ही संधी पाहिली आणि मॉडेलमध्ये कोणत्या फंक्शन्सचा समावेश करणे आवश्यक आहे हे निर्धारित करण्यासाठी अनेक कार्ये केली, आणि मोठ्या संख्येने जोखीम कमी करण्याच्या ऑपरेशन चाचण्या आयोजित केल्या.

आम्ही यासाठी एक दीर्घ योजना विकसित केली, ज्यात सिस्टमपासून मशीन लर्निंगपर्यंत संपूर्ण तंत्रज्ञान स्टॅकचा समावेश आहे. जोखीम कमी करणे आणि प्रशिक्षणाची तयारी करणे ही एक दीर्घ अंमलबजावणी प्रक्रिया आहे, आणि प्रशिक्षण स्वतःच एक अतिशय मोठा प्रकल्प आहे.

अमीन टूटनचियन: मला वाटते की या प्रक्रियेसाठी मशीन लर्निंग टीम आणि सिस्टम टीम यांच्यात सुरुवातीपासूनच जवळचे सहकार्य आवश्यक आहे, जोपर्यंत आम्हाला कोणते मॉडेल प्रशिक्षित करायचे आहे हे स्पष्टपणे समजत नाही, आणि त्यानंतर प्रशिक्षण सुरू करा.

आम्ही मशीन लर्निंग आणि सिस्टममध्ये अंदाज लावले आहेत, अपेक्षा आणि वास्तवातील अंतर कमी करण्याचा प्रयत्न करत आहोत. तथापि, आमचा कामाचा वेग खूप वेगवान असल्याने आणि आम्हाला नवीनतम संगणकीय संसाधनांचा वापर करावा लागत असल्याने, मॉडेल प्रशिक्षण ही अशी गोष्ट बनली आहे जी आगाऊ योजना करणे कठीण आहे.

आम्ही जवळजवळ नेहमीच अनेक न सुटलेल्या समस्यांसह प्रशिक्षण सुरू करतो आणि प्रक्रियेदरम्यान आव्हानांवर मात करण्याचा आणि प्रगती करण्याचा प्रयत्न करतो. मुख्य उपाय म्हणजे अधिक संगणकीय संसाधने वाढवणे.

अंतिम टप्पा म्हणजे अंमलबजावणी, ज्यासाठी अनेक लोकांना बराच वेळ आणि प्रेरणा देऊन प्रशिक्षण प्रक्रिया पूर्ण करण्यासाठी गुंतवणूक करावी लागते.

सॅम अल्टमन: तुमच्या मते, आमच्या अपेक्षा आणि वास्तवात किती अंतर आहे?

अमीन टूटनचियन: सिस्टमच्या दृष्टीने, सुरुवातीला, आम्ही सहसा अपेक्षित स्थितीपेक्षा खूप दूर असतो. आमच्यासमोर नेहमी एक पर्याय असतो: लॉन्च पुढे ढकलायचा आणि समस्येचे निराकरण होण्याची प्रतीक्षा करायची, की लवकर सुरुवात करायची आणि प्रक्रियेत समस्या सोडवायची. प्रक्रियेत अनावश्यक विलंब टाळण्यासाठी नेहमीच तोडगा काढावा लागतो.

पण जवळजवळ नेहमीच अनपेक्षित समस्या येतात आणि आम्हाला शक्य तितक्या लवकर या अडचणींवर मात करावी लागते, अज्ञात घटकांशी सामना करावा लागतो आणि मॉडेल प्रशिक्षणासाठी योजना तयार करावी लागते.

ऍलेक्स पैनो: या प्रकल्पात, आमचे ध्येय GPT-4.5 बनवणे आहे, याचा अर्थ असा आहे की त्याची क्षमता GPT-4 पेक्षा 10 पट अधिक हुशार असावी. हे आम्ही सुमारे 2 वर्षांपूर्वी निश्चित केलेले प्रारंभिक ध्येय आहे.

या प्रक्रियेत अनेक गोष्टी घडल्या. आम्ही विचार करत होतो की आम्ही अपेक्षेपेक्षा चांगले करू शकतो की वाईट? ही एक अतिशय गुंतागुंतीची प्रक्रिया आहे, परंतु शेवटी, आम्ही केलेल्या प्रभावी गणनेच्या दृष्टीने, आम्हाला असे मॉडेल मिळाले जे GPT-4 पेक्षा 10 पट अधिक हुशार आहे असे आम्हाला वाटते.

अमीन टूटनचियन: अंमलबजावणीच्या दृष्टीने, GPT-4.5 प्रकल्पावर लागलेला वेळ आम्ही सुरुवातीला अपेक्षिल्यापेक्षा खूप जास्त आहे.

लीन टीम क्रांती: किमान संसाधनांमध्ये GPT-4 ला प्रशिक्षण देणे

सॅम अल्टमन: जेव्हा क्लस्टर 10,000 कार्ड्सवरून 100,000 कार्ड्सपर्यंत वाढले, तेव्हा तुम्हाला इतक्या समस्या का आल्या?

अमीन टूटनचियन: मला वाटते की जर सिस्टम डेव्हलपर पुरेसे संवेदनशील असतील, तर बहुतेक समस्या लहान-मोठ्या टप्प्यात पाहिल्या जाऊ शकतात.

अशा काही समस्या आहेत ज्या केवळ मोठ्या प्रमाणावर प्रशिक्षण टप्प्यातच उद्भवतात असे नाही, तर सुरुवातीला वारंवार उद्भवतात, परंतु प्रमाण वाढल्यानंतर त्या विनाशकारी समस्या बनतात, विशेषत: जेव्हा टीमला या समस्यांची तीव्रता वाढून इतकी गंभीर होईल याचा अंदाज नव्हता.

सॅम अल्टमन: कोणत्या गोष्टींमुळे विनाशकारी परिणाम झाले?

अमीन टूटनचियन: मला वाटते की पायाभूत सुविधांच्या समस्या चांगल्या प्रकारे ज्ञात आहेत. अपयशाचे प्रमाण, अपयशाचा प्रकार आणि अपयशांची एकूण संख्या खूप जास्त आहे. 100,000 कार्ड क्लस्टर हे मोठ्या प्रमाणावरील नमुना संकलन आहे, त्यामुळे संगणकीय ऊर्जा पुरवठादारांनी न पाहिलेल्या समस्याही आम्हाला आढळल्या.

नेटवर्क हा त्याचा एक भाग आहे आणि वैयक्तिक एक्सीलरेटरमध्ये देखील समस्या असू शकतात. परंतु हे या प्रणालीचे सौंदर्य आहे - अपेक्षित परिणाम मिळवण्यासाठी जवळजवळ सर्व घटकांनी अपेक्षेप्रमाणे कार्य करणे आवश्यक आहे. आमचे काम ही समस्या शक्य तितकी कमी करणे आहे.

सॅम अल्टमन: क्लस्टर स्केलच्या मर्यादेत काम करणे खरोखरच कठीण आहे, परंतु मला हे देखील लक्षात आले आहे की तंत्रज्ञानाच्या आघाडीवर नसलेल्या गोष्टी करणे खूप सोपे झाले आहे. GPT-4.5 ला प्रशिक्षण देण्यासाठी शेकडो लोकांची आवश्यकता आहे आणि OpenAI मधील जवळजवळ प्रत्येकजण त्यात सामील आहे.

पण आज, जर तुम्ही OpenAI मधून सर्वात लहान टीम निवडली आणि आम्हाला असलेले सर्व ज्ञान आणि सिस्टम वर्क वापरून GPT-4 ला सुरवातीपासून पुन्हा प्रशिक्षण दिले, तर किती लोक लागतील?

ऍलेक्स पैनो: मला वाटते की आता GPT-4 स्तराचे मॉडेल बनवण्यासाठी सुमारे 5 ते 10 लोक लागू शकतात. GPT-4.5 पूर्ण करण्याच्या प्रक्रियेत तंत्रज्ञान स्टॅकमध्ये मोठ्या प्रमाणात सुधारणा झाली आहे.

खरं तर, GPT-4.5 ला प्रशिक्षण देण्याच्या प्रक्रियेत आम्ही असेच काहीतरी केले आहे - आम्ही GPT-4o ला प्रशिक्षण दिले, जे GPT-4 स्तराचे मॉडेल आहे आणि GPT-4.5 संशोधन प्रकल्पातील बऱ्याच समान सामग्रीचा वापर करून त्याला पुन्हा प्रशिक्षित केले. त्या प्रशिक्षणासाठी कमी लोकांचा वापर करण्यात आला.

डेटा कार्यक्षमता: मॉडेलची पुढील पिढी अनलॉक करण्याची गुरुकिल्ली

सॅम अल्टमन: तुमच्या दृष्टिकोनातून, डॅन? मोठी मॉडेल प्रशिक्षित करणे कठीण का आहे?

डॅनियल सेल्सम: मला वाटते की कोणतीही नवीन गोष्ट करणे कठीण आहे. मला वाटते की दुसर्‍या कोणीतरी काहीतरी केले आहे हे शोधणे देखील खूप सोपे करते, कारण सर्वात कठीण भाग म्हणजे तुम्ही काहीतरी करू शकता यावर विश्वास असणे. मला वाटते की एखादी गोष्ट शक्य आहे हे माहित असणे हा एक सुपर चीट कोड आहे, ज्यामुळे गोष्टी खूप सोप्या होतात.

ऍलेक्स पैनो: आम्ही GPT प्री-ट्रेनिंग ऑपरेशन पूर्वीपेक्षा 10 पटीने वाढवत आहोत आणि आम्हाला नेहमी काहीतरी नवीन आणि मनोरंजक गोष्टी मिळतील ज्याचा तुम्ही अंदाज लावू शकत नाही.

सॅम अल्टमन: प्री-ट्रेनिंग स्केलमध्ये पुढील 10x किंवा 100x वाढ साध्य करण्यासाठी काय आवश्यक आहे?

डॅनियल सेल्सम: डेटा कार्यक्षमता. ट्रान्सफॉर्मर आर्किटेक्चर (जे GPT आहे) डेटा वापरण्यात खूप कार्यक्षम आहे. हे माहिती चांगल्या प्रकारे शोषून घेऊ शकते आणि सामान्यीकरण साध्य करू शकते. त्याचे सर्वात मोठे वैशिष्ट्य म्हणजे ते संगणकीय संसाधनांसह माहिती कार्यक्षमतेने शोषू शकते.

तथापि, डेटापासून मिळणाऱ्या अंतर्दृष्टीची खोली मर्यादित आहे. जेव्हा संगणकीय शक्ती वेगाने वाढते, तर डेटा तुलनेने हळू वाढतो, तेव्हा डेटा या मानक मॉडेलमध्ये अडथळा बनतो. यासाठी अल्गोरिथमिक नवकल्पना आवश्यक आहे, अशा पद्धती विकसित करणे आवश्यक आहे ज्या अधिक संगणकीय शक्ती वापरून समान प्रमाणात डेटापासून अधिक ज्ञान शिकू शकतील.

सॅम अल्टमन: याव्यतिरिक्त, विस्ताराला टिकवून ठेवण्यासाठी आणखी काय आवश्यक आहे असे तुम्हाला वाटते?

अमीन टूटनचियन: माझे उत्तर सिस्टमबद्दल आहे. मला वाटते की GPT-4.5 साठी आवश्यक असलेली प्रचंड प्रमाणात काम हे मॉडेल तपशीलांचा अपरिहार्य परिणाम आहे. आम्ही GPT-4 प्रमाणेच तांत्रिक आर्किटेक्चर वापरून GPT-4.5 ला प्रशिक्षण देऊ शकत नाही.

स्टेट मॅनेजमेंटच्या दृष्टीने, आवश्यक असलेल्या संगणकीय संसाधनांनी एका क्लस्टरची क्षमता ओलांडली आहे, त्यामुळे आम्हाला मल्टी-क्लस्टर प्रशिक्षण आर्किटेक्चरवर स्विच करावे लागेल. हे ध्येय साध्य करण्यासाठी, आम्ही कमी वेळात अनेक भिन्न वर्कफ्लो एकत्रित केले पाहिजेत.

जरी यामुळे आम्हाला टप्प्याटप्प्याने यश मिळविण्यात मदत झाली असली तरी, कार्यक्षमतेत पुढील वाढ साध्य करण्यासाठी, आम्हाला अजूनही काही ज्ञात परंतु तात्पुरत्या बाजूला ठेवलेल्या तांत्रिक समस्यांचे निराकरण करणे आवश्यक आहे - या समस्या टाळता येणार नाहीत. या प्रकारच्या तांत्रिक तडजोडीमुळे परिपूर्ण प्रणालीचा विकास चक्र सतत वाढत असतो. आम्ही नेहमी इष्टतम अंमलबजावणी योजनेचा पाठपुरावा करण्याच्या प्रक्रियेत धोरणात्मक तडजोड करत असतो.

हे स्पष्ट असणे आवश्यक आहे की सिस्टम स्वतःच अंतिम ध्येय नाही. त्याचे वास्तविक आउटपुट मूल्य हे मुख्य विचार आहे. पुढील 10x कार्यप्रदर्शन सुधारण्यासाठी, मला वाटते की दोष सहनशीलतेतील प्रगती महत्त्वपूर्ण आहे. ऑपरेशन आणि मेंटेनन्सची चिंता मोठ्या प्रमाणात कमी करण्यासाठी आम्हाला दोष-सहनशील यंत्रणा तयार करण्याची आवश्यकता आहे जी वर्कलोडसह खोलवर सहयोग करते. सध्याच्या सुपर-लार्ज सिस्टमची ऑपरेशन आणि मेंटेनन्सची गुंतागुंत मागील सिस्टमपेक्षा मूलत: भिन्न आहे.

सॅम अल्टमन: GPT-4.5 प्रशिक्षणादरम्यान विशिष्ट घटकांमुळे किती टक्के अपयश आले हे तुम्हाला माहीत आहे का?

अमीन टूटनचियन: माझ्याकडे सामायिक करण्यासाठी विशिष्ट आकडेवारी नाही, परंतु सामान्यतः, नवीन पिढीच्या हार्डवेअरच्या प्रारंभिक तैनातीला अनेक तांत्रिक आव्हानांचा सामना करावा लागतो ज्या पूर्णपणे समजून घेतलेल्या नाहीत. समस्या पूर्णपणे स्पष्ट होण्यापूर्वी आम्ही प्रकल्प पुढे नेण्याचे निवडले, ज्यामुळे सुरुवातीच्या अपयशाचे प्रमाण जास्त होते.

परंतु अनुभवाने हे दिसून येते की मूळ कारण ओळखले आणि त्याचे निराकरण केले जाईल, अपयशाचे प्रमाण लक्षणीयरीत्या कमी होईल. ही घटना आवश्यकपणे पायाभूत सुविधांबद्दलची आमची सखोल माहिती दर्शवते - काही लोक याला पायाभूत सुविधा स्वच्छ करणे किंवा पायाभूत सुविधांच्या मूलभूत समस्या समजून घेणे म्हणतात.

अंमलबजावणीचे सुरुवातीचे टप्पे जवळजवळ नेहमीच खूप वेदनादायक असतात. आम्ही प्रकल्प पुढे नेत असताना, आम्ही सतत नवीन अपयश मोड शोधत आहोत आणि त्यांचे निराकरण करत आहोत, परंतु अखेरीस अपयशाचे प्रमाण हळूहळू कमी होईल आणि सामान्य धावण्याचा वेळ वाढेल.

हा आवश्यकपणे प्राधान्य तडजोडीचा विषय आहे: पायाभूत सुविधा जीवनचक्राच्या सुरुवातीच्या टप्प्यात, त्याच्या अपयशाचा धोका अचूकपणे अंदाज लावणे अनेकदा कठीण असते; आणि जर आम्ही अंतिम आदर्श स्थितीचा जास्त पाठपुरावा केला, तर त्यामुळे सिस्टमची प्रारंभिक उपलब्धता कार्यक्षमता अत्यंत खराब होऊ शकते.

संगणनाच्या पलीकडे: अल्गोरिथमिक नवोपक्रम आणि डेटाची न वापरलेली क्षमता

सॅम अल्टमन: जरी अनुमान मॉडेल आमच्या भविष्यातील तंत्रज्ञान स्टॅकचा एक महत्त्वाचा घटक असला तरी, तात्पुरते पारंपारिक प्री-ट्रेनिंग मॉडेलच्या विकास सीमेवर लक्ष केंद्रित करूया. गृहीत धरा की आमच्याकडे अमर्यादित GPU संगणकीय शक्ती, अमर्यादित नेटवर्क बँडविड्थ आणि अमर्यादित वीजपुरवठा आहे, परंतु तरीही आम्ही विद्यमान तांत्रिक अडचणींनी मर्यादित आहोत - ज्यात सिस्टमच्या विश्वासार्हतेच्या समस्या, दोष-सहनशील प्रशिक्षण पद्धतींचा अभाव आणि विद्यमान डेटासेटची मर्यादा यांचा समावेश आहे.

प्रत्येक प्रमुखGPT आवृत्ती क्रमांकासाठी 100-पट स्केल वाढ साध्य करण्याच्या आमच्या उत्क्रांती नियमानुसार, सध्याच्या तांत्रिक सीमांवर आधारित, प्री-ट्रेनिंग मॉडेलचा विकास कोणत्या स्तरावर पोहोचू शकतो? विशेषत:, GPT मालिकेतील मॉडेलसाठी, आमच्या विद्यमान ज्ञान प्रणालीवर आधारित, सैद्धांतिकदृष्ट्या कोणत्या प्रकारचे मॉडेल प्रशिक्षित केले जाऊ शकते? आम्ही GPT-5.5 बनवू शकतो का?

ऍलेक्स पैनो: मशीन लर्निंग आणि अल्गोरिदम विकासाच्या दृष्टिकोनातून, आम्ही अद्याप कोणतीही स्पष्ट सैद्धांतिक मर्यादा गाठलेली नाही. खरं तर, आम्ही नुकतेच उच्च डेटा कार्यक्षमतेसह अल्गोरिदम एक्सप्लोर करण्यास सुरुवात केली आहे आणि विद्यमान डेटा संसाधनांचा पुरेपूर वापर कसा करायचा हे शिकतो आहोत. ही परिस्थिती खूप मनोरंजक आहे - GPT-4 सारखी मॉडेल्स देखील मोठ्या प्रमाणात मर्यादित संगणकीय संसाधनांच्या परिस्थितीत विकसित केली गेली आहेत, ज्यामुळे मागील बहुतेक संशोधनाची दिशा निश्चित झाली आहे.

पण आता परिस्थिती पूर्णपणे वेगळी आहे. GPT-4.5 पासून, काही महत्त्वाच्या आयामांमध्ये, संगणनाऐवजी डेटा हा मुख्य अडथळा बनत आहे. या बदलामुळे संबंधित संशोधन कमी रोमांचक झाले आहे.

सॅम अल्टमन: पण ही खरोखरच आश्चर्यकारक प्रगती आहे आणि जगाला हे पूर्णपणे समजले नसेल की आम्ही तयार करू शकणाऱ्या सर्वोत्तम मॉडेलवर संगणकीय संसाधने आता मुख्य अडथळा नाहीत. हा बदल खूप अर्थपूर्ण आहे, कारण आम्ही खूप दिवसांपासून संगणकीयदृष्ट्या मर्यादित वातावरणात जगत आहोत.

आश्चर्यांचे अनावरण: अंदाज लावण्याची क्षमता विरुद्ध अनपेक्षित बुद्धिमत्ता

सॅम अल्टमन: GPT-4.5 च्या प्रशिक्षणादरम्यान आम्हाला कोणता सर्वात मनोरंजक मशीन लर्निंग अनुभव मिळाला? तुम्हाला जे काही सांगायचे आहे ते सांगा.

अमीन टूटनचियन: सामान्यतः, सर्वात विचार करायला लावणार्‍या गोष्टी त्या आहेत ज्या आमच्या अंदाजांपासून विचलित होतात - विशेषत: जेव्हा आम्ही हे समजून घेण्याचा प्रयत्न करतो की वास्तविक कार्यप्रदर्शन अपेक्षित वक्रापेक्षा का वेगळे आहे.

ऍलेक्स पैनो: आमच्यासाठी सर्वात आश्चर्यकारक शोधांपैकी एक म्हणजे वेगवेगळ्या मशीन लर्निंग घटकांचे स्केलेबिलिटी कार्यप्रदर्शन खूप वेगळे आहे. काही भाग खूप चांगले विस्तारित केले जाऊ शकतात, तर काही करता येत नाहीत. हे आम्हाला प्रत्यक्ष प्रशिक्षण प्रक्रियेदरम्यान समजले. या अनुभवाने आम्हाला खूप प्रेरणा दिली.

डॅनियल सेल्सम: मला वाटते की GPT प्रतिमानाची दोन मुख्य वैशिष्ट्ये आहेत: पहिले, चाचणी तोटा (मॉडेल न पाहिलेल्या चाचणी डेटावर किती चांगले कार्य करते हे मोजणारे मेट्रिक) अचूकपणे अंदाज लावता येते; दुसरे, मॉडेलचे कार्यप्रदर्शन प्रमाणात वाढ झाल्याने अंदाजित सुधारणा दर्शवते. आणखी आश्चर्यकारक गोष्ट म्हणजे चाचणी तोट्यातील घट विविध कठीण-परिमाणित परंतु आश्चर्यकारक आणि रहस्यमय मार्गांनी सर्व-गोल वर्धित बुद्धिमत्तेमध्ये रूपांतरित होईल.

सॅम अल्टमन: तुम्ही याबद्दल पूर्णपणे आशावादी आहात का? तुम्ही या दृष्टिकोनाशी पूर्णपणे सहमत आहात का?

डॅनियल सेल्सम: खरं तर, मला असे म्हणायचे आहे की आम्हाला GPT-4.5 चाचणीमध्ये एक विशेषतः मनोरंजक घटना आढळली - पुन्हा चाचणी केल्यानंतर, मॉडेलने दर्शविलेल्या अनेक अत्याधुनिक क्षमतांनी प्रत्येकाच्या अपेक्षा पूर्णपणे ओलांडल्या.

आम्ही खात्री बाळगतो की ते विविध मार्गांनी अधिक हुशार होईल ज्याची आगाऊ व्याख्या करणे कठीण आहे आणि हे सूक्ष्म सुधारणा वास्तविक तैनातीनंतर वापरकर्त्यांच्या समाधानातून दिसून येतात: मजबूत सामान्य ज्ञान साठा, अधिक अचूक प्रासंगिक आकलन क्षमता आणि अधिक सूक्ष्म अर्थविषयक पकड - हे त्या अतिरिक्त चाचणी तोट्यांमुळे आलेले जादू आहे. माझ्या मते, स्केलिंग लॉ या आयामामध्ये पूर्णपणे सत्यापित केले गेले आहे.

सहकार्याची शक्ती: मशीन लर्निंग आणि सिस्टम टीम एकोप्याने काम करत आहेत

सॅम अल्टमन: संपूर्ण प्रशिक्षण प्रक्रियेदरम्यान सर्वात सकारात्मक क्षण कोणता होता? तुमची आवडती आठवण कोणती आहे? यात खूप वेदना आहेत, पण मला आशा आहे की त्या वेदना कमी झाल्या असतील.

ऍलेक्स पैनो: माझ्याकडे असा एक क्षण आहे. आम्ही प्रशिक्षणादरम्यान खूप मशीन लर्निंगचे काम केले आणि मला वाटते की आम्ही प्रक्रियेदरम्यान केलेल्या काही बदलांचा खूप चांगला प्रभाव पडला, कदाचित अपेक्षेपेक्षाही जास्त, जो आमच्यासाठी खूप रोमांचक क्षण होता.

अमीन टूटनचियन: माझ्यासाठी, प्रशिक्षणासोबतच, आम्ही पायाभूत सुविधा देखील तयार करत आहोत. आम्हाला दृढपणे विश्वास आहे की आम्ही ही कामगिरी ओलांडू शकतो आणि आमच्याकडे योजना आहे आणि प्रत्येकजण ती अंमलात आणत आहे, परंतु त्याला बराच वेळ लागतो. हे कठोर परिश्रम आहे आणि मी विचार केला त्यापेक्षा निश्चितपणे अधिक कठीण आहे. माझा अंदाज चुकला आणि या समस्या सोडवण्यासाठी लागणारा वेळ मी कमी लेखला.

ज्या क्षणी टीमने त्या प्रमुख समस्यांवर मात केली आणि कार्यक्षमतेत लक्षणीय सुधारणा झाली, तो क्षण अजूनही माझ्या मनात ताज़ा आहे. संपूर्ण टीममधील ऊर्जेतील बदल तुम्ही स्पष्टपणे अनुभवू शकता - प्रत्येकजण अचानक उत्साहाने भरलेला आहे आणि नवीन प्रेरणेने अंतिम ध्येयाच्या दिशेने धावत आहे.

सर्वात आश्चर्यकारक गोष्ट म्हणजे आमच्या स्टेटस ट्रॅकरवर दर्शविलेला अंदाजित पूर्ण होण्याचा वेळ सुरुवातीच्या दोन वर्षांपेक्षा कमी होत गेला आणि शेवटी एका स्पष्ट वेळेत निश्चित झाला. या दृश्यमान प्रगतीमुळे टीमच्या मनोबलाला अमर्याद प्रोत्साहन मिळाले. मला वाटते की यातच सौंदर्य आहे.

मी यावर जोर देऊ इच्छितो की मशीन लर्निंगचे काम कधीही थांबलेले नाही. प्रशिक्षण सुरू झाल्यानंतरही, हे मशीन लर्निंग सह-डिझाइन प्रक्रिया अजूनही सुरू आहे. मशीन लर्निंग टीमने केवळ ‘पुढील प्रक्रिया’ म्हणून चिन्हांकित केलेल्या समस्यांवर सक्रियपणे लक्ष ठेवले नाही, तर असे सुधारणा देखील देत राहिले ज्यामुळे प्रशिक्षणाचा वेळ खऱ्या अर्थाने अनुकूल झाला.

हे आमच्या टीम भावनेचे उत्तम उदाहरण आहे - येथे ‘आपल्या दारासमोरची बर्फ साफ करण्याची’ कामाची सीमा नाही, तर खऱ्या अर्थाने अखंड सहकार्य आहे. ही एकजूट हा आमचा सर्वात मोठा फायदा आहे.

GPT-4.5 प्री-ट्रेनिंगमध्ये काटेकोर नियोजन आणि विसंगतींचा अथक पाठपुरावा

डॅनियल सेल्सम: बाहेरील जगात या प्रशिक्षणाच्या आव्हानांवर आणि अंदाजित अचूकतेवर बरीच चर्चा झाली आहे. पण खरं तर, हे सर्व अत्यंत काटेकोर नियोजनावर आधारित आहे - तुम्ही याबद्दल अधिक तपशीलवार सांगू शकता का?

ऍलेक्स पैनो: आम्ही आतापर्यंत बनवलेली ही निश्चितपणे सर्वात काटेकोर योजना आहे. मी म्हटल्याप्रमाणे, आम्ही प्रशिक्षणाच्या अधिकृत लॉन्चिंगच्या एक वर्ष आधी या प्रकल्पाची तयारी सुरू केली. या काळात, आम्ही अनेक मोठ्या प्रमाणावर जोखीम नियंत्रण चाचणी रन आयोजित केल्या.

आम्ही हळूहळू सर्व सुधारणा सादर करण्यावर विशेष लक्ष देतो: उच्च-आत्मविश्वास असलेल्या मूलभूत कॉन्फिगरेशनपासून सुरुवात करणे - ज्याला GPT-4 प्रमाणेच परिपक्व आर्किटेक्चर म्हणून समजले जाऊ शकते, आम्ही मशीन लर्निंग स्तरावर हे कॉन्फिगरेशन पूर्णपणे आत्मसात केले आहे - आणि नंतर इमारती ब्लॉक्ससारखे नवीन वैशिष्ट्ये स्तरित करणे.

प्रत्येक सुधारणेची स्केलेबिलिटी वेगवेगळ्या स्केलवर काटेकोरपणे सत्यापित करणे महत्त्वाचे आहे: केवळ कार्यप्रदर्शन सुधारणा पाहण्यासाठीच नाही, तर मॉडेलचा आकार वाढल्यावर हे सुधारणा प्रभावी राहू शकतात याची खात्री करणे देखील महत्त्वाचे आहे. अनेक सुधारणा लहान-स्केल चाचण्यांमध्ये चांगले कार्य करतात, परंतु मोठ्या प्रमाणावर ऍप्लिकेशन्समध्ये अयशस्वी ठरतील.

म्हणून, आम्ही संपूर्ण प्रक्रियेदरम्यान उच्च पातळीची दक्षता राखली आहे आणि आमची स्केलिंग लॉ पद्धती सतत सुधारत आणि सुधारत आहोत. या जोखीम नियंत्रण सरावाद्वारे, आम्ही खूप मौल्यवान अनुभव जमा केला आहे, जो भविष्यातील GPT मालिकेतील मॉडेलच्या विकासाला मार्गदर्शन करत राहील.

अमीन टूटनचियन: मला एक विशेषतः मनोरंजक क्षण आठवतो जो मला खूप आठवतो. तुम्हाला माहीत आहे, आम्ही प्रत्येक वेळी प्रशिक्षण कार्य सुरू करतो तेव्हा जवळजवळ अपरिहार्यपणे विविध बग्सचा सामना करतो, जे सामान्य आहे. पण प्रगतीमध्ये अडथळा येऊ नये याची खात्री करणे महत्त्वाचे आहे आणि सध्याची प्रगती खरोखरच योग्य मार्गावर आहे की नाही आणि या बगचा प्रशिक्षणाच्या आरोग्यावर प्राणघातक परिणाम होईल की नाही याची आम्ही नेहमी खात्री केली पाहिजे.

जरी आम्हाला सुरुवातीला खात्री होती की काही प्रमुख त्रुटी आहेत, तरीही आम्ही तयार केलेल्या संपूर्ण देखरेख प्रणालीद्वारे आम्ही समस्येचे मूळ कारण अचूकपणे ओळखण्यास सक्षम होतो: ते हार्डवेअर अपयश आहे का? कोणत्या प्रकारचे हार्डवेअर अपयश? डेटा दूषित झाला आहे का? किंवा मशीन लर्निंग मॉडेलमध्येच बग आहे? किंवा कोडमध्ये रेस कंडिशन आहे?

त्यावेळी, आमच्याकडे एकाच वेळी अनेक समस्या चर्चा क्षेत्रे उघडी होती, ज्यात विविध प्रकारची लक्षणे होती. बग निराकरणाच्या मालिकेनंतर, आम्ही एका कोंडीत अडकलो: अनेक न सुटलेल्या समस्या आमच्यासमोर जमा झाल्या होत्या आणि प्रत्येकजण आपले डोके खाजवत होता - हे वेगवेगळ्या बगमुळे झाले आहेत का? किंवा एकाच बगमुळे त्रास होत आहे?

नंतर, आम्ही मतदान आयोजित केले आणि टीम सदस्यांना सर्वात संभाव्य मूळ कारणासाठी मतदान करण्यास सांगितले. परिणामी, सर्वात निराशावादी पर्यायाने सत्य सांगितले: असे दिसून आले की PyTorch च्या अपस्ट्रीममध्ये torch.sum फंक्शनमध्ये समस्या आहे, एक साधी बेरीज क्रिया.

हा बग खूप मनोरंजक आहे. तुम्हाला माहीत आहे की आम्ही प्रामुख्याने ट्रिटॉन कर्नल वापरतो आणि काही किरकोळ परिस्थितीतच आम्ही टॉर्च ऑपरेशन्सवर परत येऊ. आमच्या विशिष्ट कोड मार्गाने ट्रिगर केलेला torch.sum फंक्शन बग डेटा वितरण वैशिष्ट्यांमुळे अधूनमधून बेकायदेशीर मेमरी ऍक्सेस करेल - मेमरी ऑफसेटची गणना करताना त्याने चूक केली.

सर्वात नाट्यमय गोष्ट म्हणजे जेव्हा एका अभियंत्याने शेवटी समस्येचे अचूक स्थान शोधले आणि फिक्स सबमिट केले, तेव्हा वेगवेगळ्या लक्षणांसह सर्व त्रुटी गायब झाल्या. प्रत्येकजण उत्साहाने स्लॅक चॅनेल ‘मल्टी-बग थिअरी’ मधून ‘सिंगल-बग थिअरी’ मध्ये बदलला आणि दृश्य खूप आनंदी होते.

हा बग किती दिवसांपासून लपून होता? तो प्रशिक्षणाच्या सुरुवातीच्या टप्प्यांपासून अस्तित्वात होता आणि प्रगती बार सुमारे 40% पार करेपर्यंत तो सापडला नाही. शोध प्रक्रिया देखील नाटकीयतेने परिपूर्ण होती: त्यावेळी, एक जटिल कर्नल सतत एका क्रमाने कॉल करत होता आणि दुसर्‍या कॉलने बेकायदेशीर मेमरी ऍक्सेस ट्रिगर केला.

जरी ही क्रॅश वारंवारता अत्यंत कमी असली तरी (ती काही शंभर किंवा हजारो प्रशिक्षण चरणांमध्ये एकदाच घडते), तरी ती अधूनमधून येणारे अपयश म्हणून दुर्लक्षित करणे सोपे आहे, परंतु आमच्या टीमचा नियम आहे: कोणतीही असामान्यता सोडू नका. या कथेतील सर्वोत्तम भाग म्हणजे हार न मानण्याचा हा दृढनिश्चय.

आदर्श प्रणालीसाठी शोध: एक दूरचा क्षितिज

सॅम अल्टमन: GPT-4.5 प्री-ट्रेनिंग सुरू झाल्यानंतर, तुम्हाला आणखी काय करावे लागेल?

ऍलेक्स पैनो: आम्हा सर्वांना वारंवार तोटा वक्र (लॉस कर्व) पाहण्याची आवश्यकता आहे. याव्यतिरिक्त, आम्हाला सिस्टमला सतत अनुकूल करण्याची आणि प्रशिक्षण सुरू होण्यापूर्वी पूर्ण न झालेले सह-डिझाइन सुधारण्याची आवश्यकता आहे. प्रशिक्षणादरम्यान कोणतीही अनपेक्षित असामान्य ट्रेंड नाहीत याची खात्री करण्यासाठी आम्ही विविध सांख्यिकीय निर्देशकांवर बारकाईने लक्ष ठेवतो. त्याच वेळी, आम्ही मशीन लर्निंगच्या दृष्टिकोनातून संभाव्य सुधारणा योजना शोधतो. प्री-ट्रेनिंगसुरू झाल्यानंतर डेटा-स्तरीय काम तात्पुरते कमी केले जाईल, तरीही प्रक्रिया करण्यासाठी मोठ्या संख्येने कार्ये आहेत.

अमीन टूटनचियन: मला वाटते की मशीन लर्निंग मोठ्या प्रमाणात निर्णयाच्या अचूकतेवर अवलंबून असते. प्री-ट्रेनिंग सुरू झाल्यानंतर, मोठ्या प्रमाणात गोंगाटाच्या सिग्नलचा सामना करत असताना, आम्ही चहाच्या पानांचा अर्थ लावणाऱ्या भविष्यवेत्त्यांसारखे आहोत आणि सिस्टम निरोगी आहे की नाही हे ठरवण्याची गरज आहे. ही आमची जबाबदारी आहे.

सॅम अल्टमन: सिस्टम स्तरावर, मॉडेल प्रशिक्षणापासून आम्हाला काय मर्यादा आहेत? ते चिप्स, प्रोसेसर, मेमरी, नेटवर्क किंवा पॉवर आहे का?

अमीन टूटनचियन: सिस्टमचे सौंदर्य हे आहे की सह-डिझाइन करताना, वर्कलोड तुम्ही तयार केलेल्या पायाभूत सुविधांशी जुळवून घेऊ शकतो. येथे असे कोणतेही सामान्य विधान नाही की नेटवर्क हा अडथळा आहे, किंवा मेमरी बँडविड्थ हा अडथळा आहे, आणि असेच. समान तपशीलांच्या मॉडेलसाठी देखील, आम्ही संसाधन आवश्यकता हस्तांतरित करणे निवडू शकतो आणि आम्ही अधिक संतुलित सिस्टम तयार करणे निवडू शकतो, परंतु अधिक मेमरी बँडविड्थ असणे नेहमीच फायदेशीर असते. मर्यादा घालणाऱ्या अटींशिवाय या प्रश्नाचे उत्तर देणे कठीण आहे.

GPT-4.5 डिझाइन करताना, आम्हाला सिस्टममध्ये काही प्रकारचे गुणधर्म असणे आवश्यक आहे, जे मानवी मार्गदर्शनाखाली तयार करणे आवश्यक आहे. म्हणूनच, मॉडेल आर्किटेक्चर आणि आर्किटेक्चरल घटक तयार करण्यासाठी सह-डिझाइन खूप महत्वाचे आहे आणि काही प्रमाणात सिस्टम आणि मशीन लर्निंग पैलू जोडते. जर सिस्टममध्ये असे गुणधर्म असतील जे आम्हाला खूप नको आहेत, तर माझी आदर्श परिस्थिती अशी आहे की प्रत्येक गोष्टीला जास्तीत जास्त जागा देण्यासाठी वेगळे केले जावे.

कधीकधी गोष्टी एकत्र जोडल्या जातात आणि आम्हाला पायाभूत सुविधांच्या आवश्यकता पूर्ण करण्याची आवश्यकता असते किंवा गोष्टी अशाच असाव्यात. बहुतेक वेळा, आम्हाला संतुलित प्रणाली आणि संतुलित संवादाची आवश्यकता असते. आणि आमच्याकडे असलेल्या समायोजनाचा सर्वोत्तम अर्थ म्हणजे हे सर्व सह-डिझाइन.

सॅम अल्टमन: आम्ही या आदर्श सिस्टम ध्येयापासून किती दूर आहोत?

अमीन टूटनचियन: आम्ही त्या ध्येयापासून अजून खूप दूर आहोत. सिस्टम तयार करण्याची प्रक्रिया नेहमीच अशी असते: प्रथम गोष्टी कशा कार्य केल्या पाहिजेत याबद्दल एक आदर्श दृष्टिकोन असतो आणि नंतर विद्यमान संसाधनांसह ते मतभेद दूर केले जातात.

मला वाटते की आम्ही केवळ सिद्धांतासाठी सिद्धांत करत नाही आहोत, तर आम्हाला ते काय बनवायचे आहे, ते साकार करायचे आहे आणि त्या आदर्शाच्या शक्य तितके जवळ जायचे आहे यावर चर्चा करत आहोत. सिस्टम क्षेत्रातील हा सर्वात रोमांचक भाग असू शकतो. लोक पूर्वी म्हणायचे की हा एक सुंदर सिस्टम डिझाइन आहे आणि कालांतराने इतिहास आपल्याला सांगेल की ही निवड बरोबर आहे की चूक.

सॅम अल्टमन: जर तुम्ही पुढील मोठ्या प्रशिक्षणापूर्वी मशीन लर्निंग समस्येचे उत्तर मिळवू शकलात, तर तुम्हाला काय जाणून घ्यायला आवडेल?

ऍलेक्स पैनो: मर्यादित डेटा आणि विशिष्ट क्षेत्रात आपण कोणते अल्गोरिदम वापरावे हे मला जाणून घ्यायला आवडेल. जरी हा एक व्यापक प्रश्न असला तरी, तो खरोखरच सर्वात महत्वाचा आहे.

सॅम अल्टमन: भविष्यात तुम्ही 10 दशलक्ष किंवा अधिक GPUs सह समकालिक प्री-ट्रेनिंग कराल का?

ऍलेक्स पैनो: मला वाटते की तेथे असेल, परंतु ते पारंपारिक प्री-ट्रेनिंग मॉडेल नसू शकते. त्याचे स्वरूप विद्यमान तंत्रज्ञानापेक्षा खूप वेगळे असू शकते, परंतु ते अनसुपरवाईज्ड लर्निंगचा गाभा टिकवून ठेवेल.

अमीन टूटनचियन: मला अर्ध-समकालिक मोड आवडतो. भौतिक नियमांमुळे, पूर्ण समक्रमण वास्तववादी नाही.

डॅनियल सेल्सम: मला वाटते की ते अधिक विकेंद्रित असण्याची शक्यता आहे. शिकण्यासाठी आणि कार्ये करण्यासाठी AI प्रणालीमध्ये निश्चितपणे 10 दशलक्ष GPUs एकत्र काम करतील, परंतु मेंदूच्या विविध भागांप्रमाणे, ते एकमेकांशी संवाद साधण्याची गरज नाही.

अल्गोरिथमिक सुधारणा आणि डेटा कार्यक्षमतेची समन्वयित शक्ती

सॅम अल्टमन: सर्वात प्रगत अल्गोरिदम आणि मानवी डेटा कार्यक्षमतेमध्ये किती अंतर आहे? भविष्यात आपण ते अंतर भरून काढण्याची अपेक्षा करू शकतो का?

डॅनियल सेल्सम: दोघांची थेट तुलना करणे कठीण आहे. भाषा शिक्षणामध्ये निश्चितपणे खूप मोठे अंतर आहे. मानवी व्हिज्युअल नर्व्हद्वारे प्राप्त झालेल्या माहितीची मात्रा कशी परिभाषित करायची हे महत्त्वाचे आहे. मला वाटते की अल्गोरिदम मानवांपेक्षा सामान्यतः खूप कमी डेटा कार्यक्षम आहेत.

दशकांपासून, डीप लर्निंगने संगणकीय शक्ती कार्यक्षमतेवर लक्ष केंद्रित केले आहे. डेटा आणि संगणकीय शक्तीच्या वाढीव्यतिरिक्त, अल्गोरिथमिक सुधारणांद्वारे तयार होणारा समन्वयित प्रभाव खरोखरच आश्चर्यकारक आहे. प्रत्येक वेळी अल्गोरिदम कार्यक्षमतेत 10% किंवा 20% सुधारणा होते, तेव्हा डेटा कार्यक्षमतेवर त्याचे महत्त्वपूर्ण परिणाम होतात. आतापर्यंत, डेटा कार्यक्षमतेभोवती कोणतीही जमवाजमव झालेली नाही, कारण डेटा प्रसारित होत नसल्यास आणि संगणकीय शक्ती मर्यादित असल्यास हा दृष्टिकोन फायदेशीर नाही.

आता, आपण AI संशोधनाच्या एका नवीन टप्प्यात प्रवेश करत आहोत आणि आपण डेटा कार्यक्षमतेमध्ये विजय मिळवण्यास सुरुवात करू. आता आपण न अडथळा येणाऱ्या अडथळ्यांचा सामना करू हे भाकीत करणे काहीसे मूर्खपणाचे आहे असे मला वाटते. मानवी मेंदू ज्या प्रकारे कार्य करतो तो आपल्या अल्गोरिदम सुधारणांपेक्षा निश्चितपणे वेगळा आहे आणि या संदर्भात आपण सावधगिरी बाळगली पाहिजे. पण मला अल्गोरिदमच्या भविष्यातील विकासाबाबत आशावादी राहायला आवडेल.

सॅम अल्टमन: मोठ्या प्रमाणावर प्री-ट्रेनिंग आणि मॉडेलच्या मजबूत शिक्षण आणि तर्क क्षमतांमध्ये काय संबंध आहे?

ऍलेक्स पैनो: आम्ही असे पाहिले आहे की चांगले प्री-ट्रेनिंग आणि अनसुपरवाईज्ड लर्निंग मॉडेलची एकूण बुद्धिमत्ता सुधारतात आणि सामान्यीकरणात खूप मदत करतात. हे तर्क क्षमतेस पूरक आहे, तर तर्क बुद्धिमत्ता सुधारण्यात अधिक सुस्त असू शकते. मला वाटते की ते एकमेकांना पूरक आहेत.

सॅम अल्टमन: प्री-ट्रेनिंग अनेक गोष्टींमध्ये सामान्य असल्याचे दिसते, तर मॉडेलला प्रशिक्षण देणे ते एकाच प्रकारची गोष्ट चांगल्या प्रकारे करू शकते, बरोबर?

ऍलेक्स पैनो: हे खूप मनोरंजक आहे, परंतु जेव्हा तुम्ही त्यांना प्रशिक्षित करणारा डेटा पाहता तेव्हा तुम्हाला या परिस्थितीचे आश्चर्य वाटणार नाही. प्री-ट्रेनिंग डेटासेटची श्रेणी खूप मोठी आहे आणि आम्ही ज्या गोष्टींचा पाठपुरावा करतो त्या म्हणजे रुंदी आणि विविधता. जेव्हा मॉडेल रीइन्फोर्समेंट लर्निंग आणि ते स्पष्टपणे चांगले बक्षीस सिग्नल आणि चांगले प्रशिक्षण वातावरण प्राप्त करते तेव्हा, मला वाटते की डेटासेटची रुंदी संतुलित करणे कठीण आहे.

डॅनियल सेल्सम: मी सहमत आहे, पण मला वाटते की आणखी एक घटक आहे. प्री-ट्रेनिंग म्हणजे डेटा कॉम्प्रेस करणे, ज्यामुळे वेगवेगळ्या गोष्टींमधील संबंध शोधले जातात. हे उपमा आणि अधिक अमूर्ततेबद्दल आहे. तर्क हे एक कौशल्य आहे ज्यासाठी विशिष्ट समस्येवर काळजीपूर्वक विचार करणे आवश्यक आहे आणि अनेक प्रकारच्या समस्यांवर उपाय देखील मिळू शकतात. तथापि, प्री-ट्रेनिंग प्रक्रियेत, वेगवेगळ्या क्षेत्रांमध्ये डेटा कॉम्प्रेस करताना अधिक अमूर्त ज्ञान शिकले जाऊ शकते.

बुद्धिमत्तेचे सार: कॉम्प्रेशन आणि लाँग-टेल इफेक्ट

सॅम अल्टमन: अनसुपरवाईज्ड लर्निंग प्रभावी का आहे?

डॅनियल सेल्सम: कॉम्प्रेशन हे महत्त्वाचे आहे. बुद्धिमत्तेचे आदर्श स्वरूप म्हणजे सोलोमनॉफ इंडक्शन. सामान्यतः, मशीन लर्निंग सर्व शक्यतांचा विचार करेल, परंतु सोप्या प्रोग्राम्ससह चाचणी सुरू करण्याची प्रवृत्ती असते.

सध्याच्या प्री-ट्रेनिंगचा सार एक कॉम्प्रेशन प्रक्रिया आहे, जी मानवाद्वारे उत्पादित केलेल्या सर्व डेटाचे स्पष्टीकरण देण्यासाठी सर्वात सोपा प्रोग्राम शोधून अंदाजे अभिव्यक्ती साध्य करते.

सॅम अल्टमन: पुढील टोकनचा अंदाज कॉम्प्रेशन साध्य करण्यात कशी मदत करतो?

डॅनियल सेल्सम: आकडेवारीमध्ये एक विरोधाभास आहे - डीप नेटवर्क्स कॉम्प्रेशन करण्यास अक्षम दिसत असूनही सामान्यीकरण कसे साध्य करू शकतात? सामान्यतः, जेव्हा तुमच्याकडे भरपूर डेटा आणि काही लहान मॉडेल्स असतात, तेव्हा या मॉडेल्सना काहीतरी शिकण्यासाठी कॉम्प्रेशनमधून जावे लागते.

प्री-ट्रेनिंगमध्ये, डेटा आणि मॉडेलचा स्केल खूप मोठा आहे. काही लोकांना वाटते की हे प्रशिक्षण केवळ मेमरी आणि इंटरपोलेशन लर्निंग आहे. खरं तर, ते कॉम्प्रेशनचा आणखी एक समजून घेण्याचा दृष्टिकोन दुर्लक्षित करतात - प्री-क्वेन्शियल कॉम्प्रेशन. हे एका कंप्रेसरसारखे आहे. डेटा वेट खूप मोठा असला तरी, बायनरीला ही माहिती साठवण्याची गरज नाही. पुढील टोकनचा अंदाज उपयुक्त माहिती त्वरीत मिळवू शकतो आणि कॉम्प्रेशन कार्यक्षमता सुधारू शकतो.

सॅम अल्टमन: GPT-4.5 च्या प्रशिक्षणाच्या प्रक्रियेला खूप मनुष्यबळ, वेळ आणि पैसा लागला, ज्याला खरं तर स्केलिंग लॉ सत्यापित करण्याचा प्रयोग मानला जाऊ शकतो आणि त्याचे परिणाम सिद्ध करतात की ते प्रभावी आहे आणि ते बर्‍याच काळापासून सुरू राहील. स्केलिंग लॉला विश्वाचा नियम का म्हटले जाते?

डॅनियल सेल्सम: कॉम्प्रेशनची डिग्री जितकी जास्त, बुद्धिमत्ता तितकीच

रोजी अद्यतनित २०२५-०४-१५

# GPT # OpenAI # AGI