गूगलच्या एका झटपट कामातून AI इतिहासाला कलाटणी: नोआम शाझेर आणि जेफ डीन यांच्याशी संवाद | mr

AI उत्क्रांतीची पहाट: PageRank पासून AGI पर्यंत २५ वर्षांचा प्रवास

गूगलच्या तंत्रज्ञानाच्या प्रवासातील दोन दिग्गज, जेफ डीन, सध्याचे चीफ सायंटिस्ट आणि नोआम शाझेर, ट्रान्सफॉर्मर मॉडेलचे महत्त्वपूर्ण व्यक्तिमत्व, ज्यांनी पुन्हा एकदा गुगलमध्ये प्रवेश केला आहे, यांच्यात नुकताच एक माहितीपूर्ण संवाद झाला. प्रसिद्ध पॉडकास्टर द्वारकेश पटेल यांनी आयोजित केलेल्या या संभाषणात, MapReduce च्या मूलभूत दिवसांपासून ते Transformer आणि MoE आर्किटेक्चरच्या परिवर्तनकारी युगापर्यंत AI च्या उत्क्रांतीवर प्रकाश टाकण्यात आला.

या अनुभवी व्यक्तींनी, गुगलमधील अनेक वर्षांच्या एकत्रित अनुभवासह, केवळ इंटरनेट आणि आर्टिफिशियल इंटेलिजन्सच्या निर्णायक तंत्रज्ञानाचा अनुभव घेतला नाही, तर त्याला सक्रियपणे आकारही दिला आहे. विडंबना म्हणजे, शाझेरने कबूल केले की गुगलमध्ये सामील होण्याची त्यांची सुरुवातीची प्रेरणा अल्पकालीन आर्थिक ध्येय होती, परंतु या क्षेत्रात केलेल्या योगदानाने त्यांची योजना पूर्णपणे बदलली.

AI संगणनाची वर्तमान स्थिती आणि भविष्यातील दिशा

दोन तास चाललेल्या या विस्तृत संभाषणात, डीन आणि शाझेर यांनी AI संगणकाच्या वर्तमान स्थितीबद्दल अनेक खुलासे केले:

ऑपरेशन्सचा आकार डेटा केंद्रांच्या पलीकडे गेला आहे; जेमिनीचे प्रशिक्षण आता वेगवेगळ्या महानगरांतील अनेक डेटा केंद्रांमध्ये पसरलेले आहे, जे एसिंक्रोनस पद्धतीने कार्य करते.
अनुमान संगणनाची क्षमता वाढवण्यास भरपूर वाव आहे, कारण AI सोबत संवाद साधणे अजूनही पारंपरिक वाचनापेक्षा खूपच स्वस्त आहे.
भविष्यातील मॉडेल आर्किटेक्चर MoE पेक्षा जास्त लवचिक असतील, ज्यामुळे विविध टीम्सना मॉडेलचे वेगवेगळे घटक स्वतंत्रपणे विकसित करता येतील.

अनुभवांचे बोल: बग बाउंटीज आणि भविष्यातील आर्किटेक्चर

या संभाषणाने सोशल मीडियावरही बरीच चर्चा घडवून आणली, कारण उपस्थितांनी अनेक मनोरंजक कल्पनांवर प्रकाश टाकला, जसे की:

मोठ्या MoE मॉडेल मेमरीमध्ये साठवण्याची क्षमता.
कोडमधील बग्सचे अनपेक्षित फायदे, जे स्केल वाढल्यामुळे नकळतपणे महत्त्वपूर्ण शोधांना जन्म देऊ शकतात.

डीन यांनी AI संगणक खूपच महागडा आहे या कल्पनेला आव्हान दिले. एका पुस्तकाशी संवाद साधण्याचा खर्च आणि AI शी संवाद साधण्याचा खर्च यांची तुलना करून, त्यांनी एक महत्त्वाचा मुद्दा स्पष्ट केला:

सर्वात प्रगत भाषिक मॉडेल प्रति ऑपरेशन अंदाजे $10^{-18}$ इतक्या कमी खर्चात कार्य करतात, म्हणजेच एका डॉलरमध्ये दशलक्ष टोकन्स प्रोसेस केले जातात. याउलट, एक पेपरबॅक पुस्तक खरेदी केल्यास प्रति डॉलर फक्त १०,००० टोकन्स मिळतात.

हा मोठा फरक – AI संवादासाठी शंभरपट खर्चाचा फायदा – वाढीव अनुमान संगणकाने AI बुद्धिमत्तेला चालना देण्याची प्रचंड क्षमता अधोरेखित करतो.

पायाभूत सुविधांच्या दृष्टिकोनातून, अनुमान-वेळेच्या संगणनाचे वाढते महत्त्व डेटा सेंटरच्या नियोजनाला नव्याने आकार देऊ शकते. यासाठी विशेषतः अनुमान कार्यांसाठी तयार केलेल्या हार्डवेअरची आवश्यकता भासू शकते, जसे की गुगलचे पहिले-जनरेशन TPUs, जे सुरुवातीला अनुमानासाठी डिझाइन केले होते आणि नंतर प्रशिक्षणासाठी वापरले गेले.

वितरित आणि एसिंक्रोनस संगणन: एक नवीन प्रतिमान

अनुमानावर वाढता भर दर्शवितो की डेटा केंद्रांमधील सतत संवाद अनावश्यक ठरू शकतो, ज्यामुळे अधिक वितरीत आणि एसिंक्रोनस संगणकीय मॉडेल तयार होऊ शकते.

जेमिनी 1.5 ने आधीच या मार्गावर वाटचाल सुरू केली आहे, अनेक प्रमुख शहरांमधील संगणकीय संसाधनांचा उपयोग करत आहे. वेगवान नेटवर्क वेगवेगळ्या डेटा केंद्रांमधील संगणनाचे सिंक्रोनाइझेशन करतात, ज्यामुळे प्रशिक्षणाचे अभूतपूर्व प्रमाण साध्य होते. मोठ्या मॉडेलसाठी, जेथे प्रत्येक प्रशिक्षण चरणाला अनेक सेकंद लागू शकतात, तेथे ५० मिलीसेकंदांचे नेटवर्क लेटन्सी देखील नगण्य ठरते.

अनुमानाच्या क्षेत्रात, लेटन्सी संवेदनशीलता हा एक महत्त्वाचा विचार आहे. त्वरित प्रतिसादांसाठी ऑप्टिमाइज्ड कमी-लेटन्सी कार्यक्षमतेची मागणी असते, तर गुंतागुंतीचे प्रासंगिक विश्लेषण यांसारख्या गैर-तात्काळ कार्यांसाठी जास्त प्रोसेसिंग वेळेची सहनशीलता असते.

अधिक जुळवून घेणारी आणि कार्यक्षम प्रणाली एकाच वेळी अनेक कार्ये एसिंक्रोनस पद्धतीने व्यवस्थापित करू शकते, ज्यामुळे वापरकर्त्याच्या प्रतीक्षा वेळेला कमी करून एकूण कार्यक्षमता वाढवता येते. याव्यतिरिक्त, लहान ड्राफ्ट मॉडेल्स वापरण्यासारख्या अल्गोरिदमिक प्रगतीमुळे अनुमान प्रक्रियेतील अडचणी कमी करता येतात. या दृष्टीकोनात लहान मॉडेल्स संभाव्य टोकन्स तयार करतात, जे नंतर मोठ्या मॉडेल्सद्वारे सत्यापित केले जातात, ज्यामुळे समांतर प्रक्रियेद्वारे अनुमान प्रक्रिया मोठ्या प्रमाणात वेगवान होते.

शाझेर यांनी पुढे सांगितले की एसिंक्रोनस प्रशिक्षणादरम्यान, प्रत्येक मॉडेल रेप्लिका स्वतंत्रपणे कार्य करते आणि एसिंक्रोनस ऍप्लिकेशनसाठी सेंट्रल सिस्टमला ग्रेडियंट अपडेट पाठवते. किरकोळ पॅरामीटर बदलांच्या सैद्धांतिक परिणामा असूनही, ही पद्धत लक्षणीयरीत्या यशस्वी ठरली आहे.

याउलट, सिंक्रोनस प्रशिक्षण स्थिरता आणि पुनरुत्पादकता प्रदान करते, जे अनेक संशोधकांचे प्राधान्य आहे. प्रशिक्षणात पुनरुत्पादकता सुनिश्चित करण्यासाठी, डीन यांनी ऑपरेशन्स, विशेषत: ग्रेडियंट अपडेट्स आणि डेटा बॅच सिंक्रोनाइझेशन लॉग करण्याची पद्धत अधोरेखित केली. हे लॉग पुन्हा प्ले करून, एसिंक्रोनस प्रशिक्षण देखील पुनरुत्पादक परिणाम देऊ शकते, ज्यामुळे डीबगिंग अधिक सोपे होते आणि पर्यावरणीय घटकांमुळे होणारी विसंगती कमी होते.

बग्सची अनपेक्षित भूमिका

यावर अधिक माहिती देताना, शाझेर यांनी एक मनोरंजक दृष्टीकोन मांडला:

मॉडेलला प्रशिक्षण देताना अनेक बग्स येतात, परंतु या मॉडेल्सची मूळ सहनशीलता त्यांना स्वतःमध्ये बदल करण्याची संधी देते, ज्यामुळे अनपेक्षित परिणाम मिळतात. काही बग्स सकारात्मक परिणाम देतात आणि स्केल वाढल्यावर प्रयोगात्मक विसंगती सुधारण्याची संधी देतात.

डीबगिंग पद्धतींबद्दल विचारले असता, शाझेर यांनी जलद पडताळणीसाठी अनेक लहान-मोठे प्रयोग करण्याच्या दृष्टिकोणाचे वर्णन केले. ही पद्धत कोडबेस सोपी करते आणि प्रयोगांचे चक्र आठवड्यांऐवजी तासांमध्ये कमी करते, ज्यामुळे जलद अभिप्राय आणि सुधारणा करणे सोपे होते.

डीन यांनी सहमती दर्शवली आणि नमूद केले की सुरुवातीला प्रतिकूल वाटणारे अनेक प्रयोग नंतर महत्त्वपूर्ण अंतर्दृष्टी देऊ शकतात. तथापि, संशोधकांना कोडच्या गुंतागुंतीचे आव्हान आहे; हळूहळू सुधारणा आवश्यक असल्या तरी, त्या कार्यप्रदर्शन आणि देखभालीच्या समस्या देखील निर्माण करतात, ज्यामुळे सिस्टमची स्वच्छता आणि नवोपक्रम यांमध्ये संतुलन राखणे आवश्यक होते.

भविष्यातील मॉडेल्सची नैसर्गिक रचना

डीन आणि शाझेर AI मॉडेल्समध्ये एका महत्त्वपूर्ण बदलाची कल्पना करतात, ज्यात एकसंध संरचनेऐवजी मॉड्यूलर आर्किटेक्चर असेल.

जेमिनी 1.5 प्रो सारखी मॉडेल्स आधीपासूनच मिक्सचर ऑफ एक्सपर्ट्स (MoE) आर्किटेक्चर वापरतात, जी कार्यावर आधारित विविध घटक सक्रिय करते. उदाहरणार्थ, गणिताचे प्रश्न गणित-प्रवीण विभाग सक्रिय करतात, तर इमेज प्रोसेसिंग संबंधित विशेष मॉड्यूल सक्रिय करते.

तथापि, सध्याची मॉडेल रचना काहीशी कठोर आहे, ज्यात तज्ञ मॉड्यूल्स आकारात एकसमान आहेत आणि लवचिकतेचा अभाव आहे. डीन यांनी अधिक दूरदृष्टीचा प्रस्ताव मांडला: भविष्यातील मॉडेल्सने नैसर्गिक रचना स्वीकारायला हवी, ज्यामुळे वेगवेगळ्या टीम्सना मॉडेलचे विशिष्ट भाग स्वतंत्रपणे विकसित किंवा सुधारता येतील.

उदाहरणार्थ, आग्नेय आशियाई भाषांमधील तज्ञ टीम संबंधित मॉड्यूलला अधिक सुधारू शकते, तर दुसरी टीम कोड आकलन सुधारण्यावर लक्ष केंद्रित करू शकते. हा मॉड्यूलर दृष्टिकोन केवळ विकासाची कार्यक्षमता वाढवत नाही, तर जागतिक टीम्सना मॉडेलच्या प्रगतीमध्ये योगदान देण्यास सक्षम करतो.

तांत्रिकदृष्ट्या, मॉडेल्स डिस्टिलेशनद्वारे वैयक्तिक मॉड्यूल्स सतत ऑप्टिमाइझ करू शकतात. यात मोठ्या, उच्च-कार्यक्षमतेच्या मॉड्यूल्सला लहान, कार्यक्षम आवृत्त्यांमध्ये रूपांतरित करणे समाविष्ट आहे, जे नंतर नवीन ज्ञान शिकणे सुरू ठेवतात.

एक राउटर कार्यक्षमतेवर आणि कार्यक्षमतेवर आधारित योग्य मॉड्यूल आवृत्ती निवडू शकतो – ही संकल्पना गुगलच्या पाथवे आर्किटेक्चरच्या केंद्रस्थानी आहे.

या नवीन आर्किटेक्चरला शक्तिशाली TPU क्लस्टर्स आणि उच्च-बँडविड्थ मेमरी (HBM) सह मजबूत पायाभूत सुविधांची आवश्यकता आहे. जरी प्रत्येक कॉल मॉडेलच्या पॅरामीटर्सचा फक्त काही भाग वापरत असेल, तरी संपूर्ण सिस्टमला एकाच वेळी अनेक विनंत्या देण्यासाठी संपूर्ण मॉडेल मेमरीमध्ये ठेवण्याची आवश्यकता आहे.

सध्याची मॉडेल्स एका कार्याला 10 उपकार्यांमध्ये 80%Success rate यशस्वीरित्या विभाजित करू शकतात. भविष्यातील मॉडेल्स संभाव्यतः एका कार्याला 100 किंवा 1,000 उपकार्यांमध्ये विभाजित करू शकतात, ज्यामुळे 90% किंवा त्याहून अधिक यश मिळू शकते.

“Holy Shit” क्षण: अचूक मांजर ओळख

मागे वळून पाहता, 2007 हे मोठ्या भाषिक मॉडेल्स (LLMs) साठी एक महत्त्वाचा टप्पा ठरला.

त्या वेळी, गुगलने मशीन भाषांतरासाठी 2 ट्रिलियन टोकन्स वापरून एन-ग्राम मॉडेलला प्रशिक्षण दिले. तथापि, एन-ग्राम डेटासाठी डिस्क स्टोरेजवर अवलंबून राहिल्यामुळे मोठ्या प्रमाणात डिस्क I/O (उदा. 100,000 शोध/शब्द) मुळे उच्च लेटन्सी निर्माण झाली, ज्यामुळे एका वाक्याचे भाषांतर करण्यासाठी 12 तास लागले.

या समस्येचे निराकरण करण्यासाठी, त्यांनी अनेक रणनीती तयार केल्या, ज्यात मेमरी कॉम्प्रेशन, डिस्ट्रिब्युटेड आर्किटेक्चर आणि बॅच प्रोसेसिंग API ऑप्टिमायझेशन यांचा समावेश होता:

मेमरी कॉम्प्रेशन: डिस्क I/O टाळण्यासाठी एन-ग्राम डेटा पूर्णपणे मेमरीमध्ये लोड करणे.
डिस्ट्रिब्युटेड आर्किटेक्चर: समांतर क्वेरीसाठी डेटा अनेक मशीनमध्ये (उदा. 200) वितरित करणे.
बॅच प्रोसेसिंग API ऑप्टिमायझेशन: थ्रूपुट सुधारण्यासाठी प्रति-विनंती ओव्हरहेड कमी करणे.

या काळात, संगणकीय शक्तीने Moore’s Law चे पालन करण्यास सुरुवात केली, ज्यामुळे मोठ्या प्रमाणात वाढ झाली.

“2008 च्या उत्तरार्धापासून, Moore’s Law मुळे, न्यूरल नेटवर्क्स खऱ्या अर्थाने काम करू लागले.”

जेव्हा “Holy shit” क्षणाबद्दल विचारले गेले – एक असा क्षण जेव्हा एखाद्या विशिष्ट संशोधन प्रयत्नाने खरोखरच काम केले यावर विश्वास बसत नव्हता – तेव्हा जेफने गुगल टीमच्या एका सुरुवातीच्या प्रोजेक्टची आठवण सांगितली, ज्यामध्ये त्यांनी YouTube व्हिडिओ फ्रेम्समधून उच्च-स्तरीय वैशिष्ट्ये (जसे की मांजरी आणि पादचाऱ्यांची ओळख) शिकण्यासाठी मॉडेलला प्रशिक्षण दिले. वितरित प्रशिक्षण (2,000 मशीन, 16,000 cores) द्वारे, त्यांनी मोठ्या प्रमाणात अनसुपरवाईज्ड लर्निंग साध्य केले.

अनसुपरवाईज्ड प्री-ट्रेनिंगनंतर, सुपरवाईज्ड कार्यांमध्ये (ImageNet) मॉडेलच्या कार्यक्षमतेत 60% सुधारणा झाली, ज्यामुळे मोठ्या प्रमाणावर प्रशिक्षण आणि अनसुपरवाईज्ड लर्निंग ची क्षमता दिसून आली.

गुगल अजूनही प्रामुख्याने माहिती पुनर्प्राप्ती कंपनी आहे का, या प्रश्नाचे उत्तर देताना जेफने जोर देऊन सांगितले:

“AI गुगलच्या मूळ ध्येयाची पूर्तता करते.”

थोडक्यात, AI केवळ माहिती पुनर्प्राप्त करत नाही, तर जटिल सामग्री समजून घेते आणि तयार करते, ज्यात भविष्यात प्रचंड क्षमता आहे. गुगलच्या भविष्यातील दिशेबद्दल, “मला माहीत नाही.”

तथापि, कोणीही गुगल आणि काही ओपन-सोर्स कोड प्रत्येक विकासकाच्या संदर्भात एकत्रित होण्याची अपेक्षा करू शकतो. दुस-या शब्दांत, मॉडेल्सना अधिक टोकन्स हाताळण्यास सक्षम करून, सर्चमध्ये सर्च मॉडेलची क्षमता आणि उपयुक्तता आणखी वाढवेल.

या संकल्पनेवर गुगलमध्ये अंतर्गत स्तरावर आधीच प्रयोग सुरू आहेत.

“खरं तर, आम्ही आमच्या अंतर्गत विकासकांसाठी जेमिनी मॉडेलवर आमच्या अंतर्गत कोडबेसवर अधिक प्रशिक्षण दिले आहे.”

अधिक स्पष्टपणे सांगायचे तर, गुगलने अंतर्गत स्तरावर त्यांच्या 25% कोड AI द्वारे लिहिण्याचे ध्येय साध्य केले आहे.

गुगलमधील आनंदी क्षण

विशेष म्हणजे, दोघांनी गुगलशी संबंधित अधिक मनोरंजक अनुभव देखील सांगितले.

नोआमसाठी 1999 मध्ये, गुगलसारख्या मोठ्या कंपनीत सामील होणे सुरुवातीला आकर्षक नव्हते, कारण त्यांना वाटले की त्यांच्या कौशल्यांचा पुरेसा उपयोग होणार नाही. तथापि, गुगलचा दैनिक शोध व्हॉल्यूम इंडेक्स चार्ट पाहिल्यानंतर, त्यांनी लगेचच आपला विचार बदलला:

“हे लोक यशस्वी होणारच आहेत, आणि असे दिसते की त्यांच्याकडे सोडवण्यासाठी अनेक मनोरंजक समस्या आहेत.”

ते एका विशिष्ट “लहान” हेतूने सामील झाले:

“काही पैसे कमवा आणि मग आनंदाने माझ्या स्वतःच्या AI संशोधन आवडी जोपासा.”

गुगलमध्ये सामील झाल्यावर, त्यांना त्यांचे मार्गदर्शक जेफ भेटले (नवीन कर्मचाऱ्या

रोजी अद्यतनित २०२५-०२-१८

# Google # Gemini # AGI