LLM में Google का उदय: शक्ति परिवर्तन

बड़े भाषा मॉडल (LLMs) के क्षेत्र में एक महत्वपूर्ण बदलाव देखा गया है, जिसमें Google एक प्रमुख खिलाड़ी के रूप में उभरा है, जबकि मेटा और OpenAI को उल्लेखनीय चुनौतियों का सामना करना पड़ रहा है। शुरुआत में, OpenAI ने अपने अभूतपूर्व GPT मॉडलों के साथ क्षेत्र पर प्रभुत्व स्थापित किया, जिससे LLM प्रदर्शन के लिए नए बेंचमार्क स्थापित हुए। मेटा ने भी प्रभावशाली क्षमताओं वाले ओपन-वेट मॉडल पेश करके एक महत्वपूर्ण स्थान हासिल किया और सार्वजनिक रूप से सुलभ कोड के अप्रतिबंधित उपयोग, संशोधन और तैनाती की अनुमति दी।

हालाँकि, इस शुरुआती प्रभुत्व ने Google सहित अन्य तकनीकी दिग्गजों को पीछे छोड़ दिया। LLMs को रेखांकित करने वाले ट्रांसफॉर्मर आर्किटेक्चर पर Google के महत्वपूर्ण 2017 के शोध पत्र के बावजूद, कंपनी के शुरुआती प्रयासों को 2023 में बार्ड के व्यापक रूप से आलोचनात्मक लॉन्च से overshadowed किया गया था।

हाल ही में, Google से शक्तिशाली नए LLMs की शुरूआत के साथ ज्वार बदल गया है, साथ ही मेटा और OpenAI द्वारा अनुभव की गई बाधाओं के साथ। इस बदलाव ने LLM परिदृश्य के dynamics को काफी बदल दिया है।

Meta का Llama 4: एक चूक?

शनिवार, 5 अप्रैल को Meta द्वारा Llama 4 की अप्रत्याशित रिलीज़ ने पूरे उद्योग में भौंहें चढ़ा दीं।

सप्ताहांत में एक प्रमुख मॉडल लॉन्च करने के निर्णय को अपरंपरागत माना गया, जिससे स्वागत शांत हो गया और बाद के सप्ताह के समाचार प्रवाह के बीच घोषणा अस्पष्ट हो गई।

जबकि Llama 4 में कुछ ताकतें हैं, जिसमें इसकी मल्टीमॉडल क्षमताएं (छवियों, ऑडियो और अन्य तौर-तरीकों को संभालना) और इसके तीन संस्करणों (Llama 4 Behemoth, Maverick और Scout) में उपलब्धता शामिल है, जिनमें अलग-अलग आकार और ताकत हैं, इसके रोलआउट को आलोचना का सामना करना पड़ा। विशेष रूप से Llama 4 Scout संस्करण में 10 मिलियन टोकन तक की पर्याप्त संदर्भ विंडो है, जो मॉडल को एक ही सत्र में भारी मात्रा में पाठ को संसाधित करने और उत्पन्न करने में सक्षम बनाती है।

हालाँकि, मॉडल का स्वागत तब खट्टा हो गया जब LMArena पर Meta की रैंकिंग दृष्टिकोण के बारे में विसंगतियाँ सामने आईं, जो उपयोगकर्ता वोटों के आधार पर LLMs को रैंक करने वाला एक मंच है। यह पता चला कि रैंकिंग के लिए उपयोग किया जाने वाला विशिष्ट Llama 4 मॉडल आम जनता के लिए उपलब्ध कराए गए मॉडल से अलग था। LMArena ने कहा कि Meta ने ‘मानव प्राथमिकता के लिए अनुकूलित करने के लिए एक अनुकूलित मॉडल’ प्रदान किया।

इसके अलावा, Llama 4 Scout की 10 मिलियन-टोकन संदर्भ विंडो के बारे में Meta के दावों को संदेह के साथ मिला। इस आंकड़े की तकनीकी सटीकता के बावजूद, बेंचमार्क से पता चला कि Llama 4 लंबी-संदर्भ प्रदर्शन में प्रतिस्पर्धी मॉडलों से पीछे है।

चिंताओं को बढ़ाते हुए, Meta ने Llama 4 ‘तर्क’ या ‘सोच’ मॉडल जारी करने से परहेज किया और छोटे वेरिएंट को रोक दिया, हालांकि कंपनी ने संकेत दिया है कि एक तर्क मॉडल आने वाला है।

AI कंसल्टिंग फर्म Gradient Flow के संस्थापक Ben Lorica ने कहा कि Meta ने अधिक व्यवस्थित रिलीज़ की मानक प्रथा से विचलित किया, जहाँ सभी घटक पूरी तरह से तैयार हैं। इससे पता चलता है कि Meta एक नया मॉडल दिखाने के लिए उत्सुक हो सकता है, भले ही उसमें तर्क मॉडल और छोटे संस्करण जैसे आवश्यक तत्वों का अभाव हो।

OpenAI का GPT-4.5: एक समयपूर्व वापसी

हाल के महीनों में OpenAI को भी चुनौतियों का सामना करना पड़ा है।

GPT-4.5, जिसे 27 फरवरी को एक शोध पूर्वावलोकन के रूप में अनावरण किया गया था, को कंपनी का ‘अभी तक का सबसे बड़ा और सबसे अच्छा चैट मॉडल’ बताया गया था। OpenAI के बेंचमार्क ने संकेत दिया कि GPT-4.5 ने आम तौर पर अपने पूर्ववर्ती GPT-4o से बेहतर प्रदर्शन किया।

हालाँकि, मॉडल की मूल्य निर्धारण संरचना ने आलोचना की। OpenAI ने API एक्सेस मूल्य को 150 अमेरिकी डॉलर प्रति मिलियन आउटपुट टोकन पर सेट किया, जो GPT-4o की कीमत 10 डॉलर प्रति मिलियन टोकन की तुलना में 15 गुना अधिक है। API डेवलपर्स को अपने अनुप्रयोगों और सेवाओं में OpenAI मॉडल को एकीकृत करने में सक्षम बनाता है।

Life Architect में एक AI सलाहकार और विश्लेषक Alan D. Thompson ने अनुमान लगाया कि GPT-4.5 संभवतः 2025 की पहली तिमाही के दौरान जारी किया गया सबसे बड़ा पारंपरिक LLM था, जिसमें लगभग 5.4 ट्रिलियन पैरामीटर थे। उन्होंने तर्क दिया कि वर्तमान हार्डवेयर सीमाओं को देखते हुए इस तरह के विशाल पैमाने को उचित ठहराना मुश्किल है और एक बड़े उपयोगकर्ता आधार की सेवा करने में महत्वपूर्ण चुनौतियां हैं।

14 अप्रैल को, OpenAI ने API के माध्यम से GPT-4.5 एक्सेस को तीन महीने से भी कम समय के बाद बंद करने का निर्णय लिया। जबकि GPT-4.5 सुलभ रहेगा, यह ChatGPT इंटरफ़ेस के माध्यम से ChatGPT उपयोगकर्ताओं तक सीमित रहेगा।

यह घोषणा GPT-4.1 की शुरूआत के साथ हुई, जो 8 डॉलर प्रति मिलियन टोकन की कीमत वाला एक अधिक किफायती मॉडल है। OpenAI के बेंचमार्क संकेत देते हैं कि GPT-4.1 समग्र रूप से GPT-4.5 जितना सक्षम नहीं है, हालांकि यह कुछ कोडिंग बेंचमार्क में बेहतर प्रदर्शन करता है।

OpenAI ने हाल ही में नए तर्क मॉडल, o3 और o4-mini भी जारी किए, जिसमें o3 मॉडल विशेष रूप से मजबूत बेंचमार्क प्रदर्शन प्रदर्शित करता है। हालाँकि, लागत एक चिंता का विषय बनी हुई है, क्योंकि o3 तक API एक्सेस की कीमत 40 डॉलर प्रति मिलियन आउटपुट टोकन है।

Google का उदय: अवसर को जब्त करना

Llama 4 और ChatGPT-4.5 के मिश्रित स्वागत ने प्रतिस्पर्धियों के लिए लाभ उठाने का अवसर पैदा किया, और उन्होंने अवसर को जब्त कर लिया है।

Llama 4 का Meta का परेशान लॉन्च डेवलपर्स को DeepSeek-V3, Google के Gemma और Alibaba के Qwen2.5 जैसे विकल्पों को अपनाने से रोकने की संभावना नहीं है। 2024 के अंत में पेश किए गए ये LLMs, LMArena और HuggingFace लीडरबोर्ड पर पसंदीदा ओपन-वेट मॉडल बन गए हैं। वे लोकप्रिय बेंचमार्क में Llama 4 को टक्कर देते हैं या उससे आगे निकल जाते हैं, किफायती API एक्सेस प्रदान करते हैं, और कुछ मामलों में, उपभोक्ता-ग्रेड हार्डवेयर पर डाउनलोड और उपयोग के लिए उपलब्ध हैं।

हालाँकि, यह Google का अत्याधुनिक LLM, Gemini 2.5 Pro है, जिसने वास्तव में ध्यान आकर्षित किया है।

25 मार्च को लॉन्च किया गया, Google Gemini 2.5 Pro एक ‘सोच मॉडल’ है जो GPT-o1 और DeepSeek-R1 के समान है, जो कार्यों के माध्यम से तर्क करने के लिए स्व-प्रॉम्प्टिंग का उपयोग करता है। Gemini 2.5 Pro मल्टीमॉडल है, इसमें एक मिलियन टोकन की संदर्भ विंडो है, और यह गहन शोध का समर्थन करता है।

Gemini 2.5 ने तेजी से बेंचमार्क जीत हासिल की है, जिसमें SimpleBench में शीर्ष स्थान (हालांकि इसने 16 अप्रैल को OpenAI के o3 को वह स्थान दे दिया) और Artificial Analysis के संयुक्त AI इंटेलिजेंस इंडेक्स पर शामिल है। Gemini 2.5 Pro वर्तमान में LMArena पर शीर्ष स्थान रखता है। 14 अप्रैल तक, Google मॉडलों ने LMArena पर शीर्ष 10 स्लॉट में से 5 पर कब्जा कर लिया, जिसमें Gemini 2.5 Pro, Gemini 2.0 के तीन वेरिएंट और Gemma 3-27B शामिल हैं।

अपने प्रभावशाली प्रदर्शन से परे, Google एक मूल्य नेता भी है। Google Gemini 2.5 वर्तमान में Google के Gemini ऐप और Google की AI Studio वेबसाइट के माध्यम से मुफ्त उपयोग के लिए उपलब्ध है। Google की API मूल्य निर्धारण भी प्रतिस्पर्धी है, जिसमें Gemini 2.5 Pro की कीमत 10 डॉलर प्रति मिलियन आउटपुट टोकन है और Gemini 2.0 Flash की कीमत केवल 40 सेंट प्रति मिलियन टोकन है।

Lorica का कहना है कि उच्च-वॉल्यूम तर्क कार्यों के लिए, वह अक्सर DeepSeek-R1 या Google Gemini को चुनते हैं, जबकि OpenAI मॉडल का उपयोग करने के लिए मूल्य निर्धारण पर अधिक सावधानीपूर्वक विचार करने की आवश्यकता होती है।

जबकि Meta और OpenAI जरूरी नहीं कि पतन के कगार पर हों, OpenAI को ChatGPT की लोकप्रियता से लाभ होता है, जिसके बारे में बताया गया है कि उसके एक बिलियन उपयोगकर्ता हैं। फिर भी, Gemini की मजबूत रैंकिंग और बेंचमार्क प्रदर्शन LLM परिदृश्य में बदलाव का संकेत देते हैं, जो वर्तमान में Google का पक्षधर है।