大型 भाषा मॉडेलच्या (LLMs) क्षेत्रात एक महत्त्वपूर्ण बदल झाला आहे. Google एक प्रमुख खेळाडू म्हणून उदयास आले आहे, तर Meta आणि OpenAI यांना लक्षणीय आव्हानांचा सामना करावा लागत आहे. सुरुवातीला, OpenAI ने आपल्या GPT मॉडेलसह या क्षेत्रावर वर्चस्व गाजवले, LLM कार्यक्षमतेसाठी नवीन मापदंड स्थापित केले. Meta ने देखील प्रभावी क्षमता असलेली आणि त्यांच्या सार्वजनिकपणे उपलब्ध असलेल्या कोडच्या अप्रतिबंधित वापरास, सुधारणेस आणि उपयोजनास अनुमती देणारी ओपन-वेट मॉडेल (open-weight models) ऑफर करून महत्त्वपूर्ण स्थान मिळवले.
तथापि, या सुरुवातीच्या वर्चस्वामुळे Google सह इतर तंत्रज्ञान क्षेत्रातील दिग्गजांना मागे राहावे लागले. LLM ला आधार देणाऱ्या ट्रान्सफॉर्मर आर्किटेक्चरवर (transformer architecture) Google च्या 2017 च्या महत्त्वपूर्ण शोधनिबंधानंतरही, 2023 मध्ये बार्डच्या (Bard) मोठ्या प्रमाणात टीका झालेल्या लाँचमुळे कंपनीचे सुरुवातीचे प्रयत्न निष्प्रभ ठरले.
अलिकडेच, Google च्या शक्तिशाली नवीन LLM च्या परिचयामुळे आणि Meta आणि OpenAI ला आलेल्या अपयशामुळे परिस्थिती बदलली आहे. या बदलामुळे LLM क्षेत्राची गतीशीलता मोठ्या प्रमाणात बदलली आहे.
Meta च्या Llama 4: एक चुकीचे पाऊल?
शनिवार, 5 एप्रिल रोजी Meta द्वारे Llama 4 चे अनपेक्षित प्रकाशन उद्योगात आश्चर्यचकित करणारे ठरले.
एखादे मोठे मॉडेल शनिवार व रविवारच्या सुट्टीमध्ये लाँच करण्याचा निर्णय अपारंपरिक मानला गेला, ज्यामुळे त्याला फारसा प्रतिसाद मिळाला नाही आणि त्यानंतरच्या आठवड्यातील बातम्यांच्या गदारोळात घोषणा अस्पष्ट झाली.
Llama 4 मध्ये काही विशिष्ट क्षमता आहेत, ज्यात मल्टीमॉडल क्षमता (images, audio आणि इतर modalities हाताळण्याची क्षमता) आणि तीन वेगवेगळ्या आकार आणि सामर्थ्यांमध्ये (Llama 4 Behemoth, Maverick आणि Scout) उपलब्धता यांचा समावेश आहे, तरीही त्याच्या रोलआउटवर (rollout) टीका झाली. विशेषतः Llama 4 Scout आवृत्तीमध्ये 10 दशलक्ष टोकन्सपर्यंत (tokens) संदर्भ विंडो (context window) आहे, ज्यामुळे मॉडेल एकाच सत्रात मोठ्या प्रमाणात मजकूर प्रक्रिया (process) आणि तयार (generate) करण्यास सक्षम आहे.
तथापि, जेव्हा LMArena वरील Meta च्या क्रमवारी (ranking) दृष्टिकोनसंदर्भात विसंगती समोर आली तेव्हा मॉडेलच्या प्रतिसादावर प्रश्नचिन्ह निर्माण झाले. LMArena हे एक प्लॅटफॉर्म आहे जे वापरकर्त्यांच्या मतांवर आधारित LLM ला क्रमवारी देते. असे आढळून आले की क्रमवारीसाठी वापरलेले विशिष्ट Llama 4 मॉडेल सामान्य जनतेसाठी उपलब्ध असलेल्या मॉडेलपेक्षा वेगळे होते. LMArena ने म्हटले आहे की Meta ने “ मानवी प्राधान्यांसाठी (human preference) अनुकूल करण्यासाठी एक सानुकूलित मॉडेल (customized model) प्रदान केले.”
शिवाय, Llama 4 Scout च्या 10-दशलक्ष-टोकन संदर्भातील विंडोबद्दल Meta चे दावे संशयाच्या भोवऱ्यात आले. तांत्रिकदृष्ट्या हे आकडे बरोबर असले तरी, बेंचमार्कने (benchmarks) दर्शविले की लांब-संदर्भातील कार्यक्षमतेमध्ये (long-context performance) Llama 4 प्रतिस्पर्धी मॉडेलपेक्षा मागे आहे.
या चिंतेत भर घालत Meta ने Llama 4 चे “तर्क” (reasoning) किंवा “विचार” (thinking) मॉडेल जारी करणे टाळले आणि लहान प्रकार (variants) रोखून ठेवले, जरी कंपनीने तर्क मॉडेल लवकरच जारी केले जाईल असे संकेत दिले आहेत.
AI सल्लागार फर्म ग्रेडियंट फ्लोचे (Gradient Flow) संस्थापक बेन लोरिका (Ben Lorica) यांनी नमूद केले की Meta ने अधिक पद्धतशीर प्रकाशनाची (systematic release) प्रमाणित पद्धत सोडली, जिथे सर्व घटक पूर्णपणे तयार असतात. यावरून असे सूचित होते की Meta नवीन मॉडेल प्रदर्शित करण्यास उत्सुक असू शकते, जरी त्यात तर्क मॉडेल आणि लहान आवृत्त्यांसारखे आवश्यक घटक नसले तरी.
OpenAI चे GPT-4.5: अकाली माघार
OpenAI ला देखील अलीकडच्या काही महिन्यांत आव्हानांचा सामना करावा लागला आहे.
27 फेब्रुवारी रोजी संशोधन पूर्वावलोकन (research preview) म्हणून अनावरण केलेले GPT-4.5, कंपनीचे “चॅटसाठी सर्वात मोठे आणि सर्वोत्तम मॉडेल” (largest and best model for chat) म्हणून घोषित केले गेले. OpenAI च्या बेंचमार्कने दर्शविले की GPT-4.5 ने सामान्यतः त्याच्या predecessor GPT-4o पेक्षा चांगली कामगिरी केली.
तथापि, मॉडेलच्या किंमत संरचनेवर (pricing structure) टीका झाली. OpenAI ने API ऍक्सेसची (API access) किंमत US$150 प्रति दशलक्ष आउटपुट टोकन्स (output tokens) ठेवली, जी GPT-4o च्या $10 प्रति दशलक्ष टोकन्सच्या तुलनेत 15 पटीने जास्त आहे. API डेव्हलपरना (developers) त्यांच्या ऍप्लिकेशन्स (applications) आणि सर्विसेसमध्ये (services) OpenAI मॉडेल समाकलित (integrate) करण्यास सक्षम करते.
लाइफ आर्किटेक्टमधील (Life Architect) AI सल्लागार आणि विश्लेषक ऍलन डी. थॉम्पसन (Alan D. Thompson) यांनी अंदाज व्यक्त केला की GPT-4.5 हे 2025 च्या पहिल्या तिमाहीत (first quarter) रिलीज झालेले सर्वात मोठे पारंपरिक LLM असण्याची शक्यता आहे, ज्यामध्ये अंदाजे 5.4 ट्रिलियन पॅरामीटर्स (parameters) आहेत. त्यांनी असा युक्तिवाद केला की सध्याच्या हार्डवेअर मर्यादा (hardware limitations) लक्षात घेता इतक्या मोठ्या प्रमाणाचे समर्थन करणे कठीण आहे आणि मोठ्या वापरकर्ता वर्गाला (user base) सेवा पुरवण्यात महत्त्वपूर्ण आव्हाने आहेत.
14 एप्रिल रोजी, OpenAI ने API द्वारे GPT-4.5 चा ऍक्सेस तीन महिन्यांपेक्षा कमी कालावधीत बंद करण्याचा निर्णय जाहीर केला. GPT-4.5 अजूनही ऍक्सेस करण्यायोग्य असले तरी, ते ChatGPT इंटरफेसद्वारे (ChatGPT interface) केवळ ChatGPT वापरकर्त्यांपुरतेच मर्यादित असेल.
ही घोषणा GPT-4.1 च्या परिचयाबरोबरच झाली, जे $8 प्रति दशलक्ष टोकन्स किमतीचे अधिक किफायती (economical) मॉडेल आहे. OpenAI च्या बेंचमार्कने दर्शविले आहे की GPT-4.1 हे GPT-4.5 इतके सक्षम नाही, जरी ते काही विशिष्ट कोडिंग बेंचमार्कमध्ये (coding benchmarks) उत्कृष्ट कार्यप्रदर्शन दर्शवते.
OpenAI ने अलीकडेच नवीन तर्क मॉडेल, o3 आणि o4-mini देखील जारी केले आहेत, ज्यात o3 मॉडेलने विशेषतः मजबूत बेंचमार्क कार्यप्रदर्शन दर्शविले आहे. तथापि, खर्च अजूनही चिंतेचा विषय आहे, कारण o3 च्या API ऍक्सेसची किंमत $40 प्रति दशलक्ष आउटपुट टोकन्स आहे.
Google ची चढाई: संधीचा फायदा घेणे
Llama 4 आणि ChatGPT-4.5 च्या संमिश्र (mixed) प्रतिसादाने प्रतिस्पर्धकांना फायदा घेण्यासाठी एक संधी निर्माण केली आणि त्यांनी ती संधी साधली आहे.
Meta च्या Llama 4 च्या अडचणींनी भरलेल्या लाँचमुळे DeepSeek-V3, Google चे Gemma आणि Alibaba चे Qwen2.5 सारख्या पर्यायांचा अवलंब करण्यापासून डेव्हलपर परावृत्त होण्याची शक्यता नाही. 2024 च्या उत्तरार्धात (late 2024) सादर केलेले हे LLM, LMArena आणि HuggingFace लीडरबोर्डवर (leaderboards) पसंतीचे ओपन-वेट मॉडेल बनले आहेत. ते लोकप्रिय बेंचमार्कमध्ये Llama 4 ची बरोबरी करतात किंवा त्याहून अधिक चांगले आहेत, परवडण्याजोगे API ऍक्सेस देतात आणि काही प्रकरणांमध्ये, ते डाउनलोड (download) करण्यासाठी आणि ग्राहक-दर्जाच्या (consumer-grade) हार्डवेअरवर वापरण्यासाठी उपलब्ध आहेत.
परंतु Google चे अत्याधुनिक (cutting-edge) LLM, Gemini 2.5 Pro ने खऱ्या अर्थाने लक्ष वेधून घेतले आहे.
25 मार्च रोजी लाँच केलेले Google Gemini 2.5 Pro हे GPT-o1 आणि DeepSeek-R1 प्रमाणेच “विचार मॉडेल” (thinking model) आहे, जे कार्यांमध्ये तर्क करण्यासाठी सेल्फ-प्रॉम्प्टिंगचा (self-prompting) वापर करते. Gemini 2.5 Pro मल्टीमॉडल (multimodal) आहे, त्यात एक दशलक्ष टोकन्सची संदर्भ विंडो आहे आणि ते सखोल संशोधनास समर्थन देते.
Gemini 2.5 ने अल्पावधीतच SimpleBench मध्ये (जरी 16 एप्रिल रोजी OpenAI च्या o3 ने ते स्थान हिसकावले) आणि Artificial Analysis च्या एकत्रित AI इंटेलिजन्स इंडेक्समध्ये (AI Intelligence Index) अव्वल स्थान मिळवले आहे. Gemini 2.5 Pro सध्या LMArena वर अव्वल स्थानावर आहे. 14 एप्रिल पर्यंत, Google च्या मॉडेलने LMArena वरील शीर्ष 10 स्थानांपैकी 5 स्थाने व्यापली होती, ज्यात Gemini 2.5 Pro, Gemini 2.0 चे तीन प्रकार आणि Gemma 3-27B यांचा समावेश आहे.
त्याच्या प्रभावी कामगिरीव्यतिरिक्त, Google किंमतीच्या बाबतीतही अग्रेसर आहे. Google Gemini 2.5 सध्या Google च्या Gemini ॲप (app) आणि Google च्या AI Studio वेबसाइटद्वारे (website) विनामूल्य (free) वापरासाठी उपलब्ध आहे. Google ची API किंमत देखील स्पर्धात्मक (competitive) आहे, Gemini 2.5 Pro ची किंमत $10 प्रति दशलक्ष आउटपुट टोकन्स आहे आणि Gemini 2.0 Flash ची किंमत फक्त 40 सेंट प्रति दशलक्ष टोकन्स आहे.
लोरिका नमूद करतात की मोठ्या प्रमाणात तर्क करण्याच्या कार्यांसाठी, ते बहुतेक वेळा DeepSeek-R1 किंवा Google Gemini निवडतात, तर OpenAI मॉडेल वापरण्यासाठी किंमतीचा अधिक काळजीपूर्वक विचार करणे आवश्यक आहे.
Meta आणि OpenAI पूर्णपणे कोलमडण्याच्या मार्गावर नसले तरी, OpenAI ला ChatGPT च्या लोकप्रियतेचा फायदा होतो, ज्याचे कथितपणे एक अब्ज (one billion) वापरकर्ते आहेत. तरीही, Gemini ची मजबूत क्रमवारी आणि बेंचमार्क कार्यप्रदर्शन LLM क्षेत्रात बदलाचे संकेत देतात, जे सध्या Google च्या बाजूने झुकलेले आहे.