Google ने I/O 2025 में अपने Gemini 2.5 मॉडल श्रृंखला में कई अभूतपूर्व अपडेट का अनावरण किया, साथ ही Deep Think नामक एक अभिनव प्रायोगिक सुविधा भी पेश की, जिसे 2.5 Pro मॉडल की तर्क क्षमताओं को बढ़ाने के लिए डिज़ाइन किया गया है। ये प्रगति आर्टिफिशियल इंटेलिजेंस के क्षेत्र में एक महत्वपूर्ण छलांग का प्रतीक है, जो डेवलपर्स और उपयोगकर्ताओं दोनों को अभूतपूर्व स्तर का प्रदर्शन, दक्षता और बहुमुखी प्रतिभा प्रदान करती है।
Gemini 2.5 Pro मॉडल ने कोडिंग कार्यों के लिए प्रमुख समाधान के रूप में डेवलपर्स से व्यापक प्रशंसा अर्जित की है, जबकि 2.5 Flash मॉडल को एक महत्वपूर्ण अपग्रेड मिलने वाला है। इसके अलावा, Google अपने मॉडलों में कई नई क्षमताओं को पेश कर रहा है, जिसमें Deep Think भी शामिल है, जो विशेष रूप से 2.5 Pro मॉडल के लिए तैयार किया गया एक प्रायोगिक उन्नत तर्क मोड है।
एक पूर्व घोषणा में, Google ने Gemini 2.5 Pro का अनावरण किया, जो आज तक का इसका सबसे बुद्धिमान मॉडल है, और डेवलपर्स को असाधारण वेब एप्लिकेशन बनाने में सशक्त बनाने के लिए अपने I/O अपडेट को त्वरित किया। आज, कंपनी Gemini 2.5 मॉडल श्रृंखला में और सुधार साझा कर रही है, जो उल्लेखनीय उपलब्धियों का दावा करती है:
Gemini 2.5 Pro ने सभी अपेक्षाओं को पार कर लिया है, अकादमिक बेंचमार्क पर असाधारण प्रदर्शन का प्रदर्शन किया है। यह अब WebDev Arena और LMArena लीडरबोर्ड पर शीर्ष स्थान रखता है, जो कोडिंग और सीखने की सहायता के लिए दुनिया के अग्रणी मॉडल के रूप में अपनी स्थिति को मजबूत करता है।
नई सुविधाओं को 2.5 Pro और 2.5 Flash दोनों में एकीकृत किया जा रहा है, जिसमें अधिक प्राकृतिक और आकर्षक संवादात्मक अनुभव के लिए मूल ऑडियो आउटपुट, उन्नत सुरक्षा उपाय और प्रोजेक्ट Mariner की कंप्यूटर उपयोग क्षमताओं का एकीकरण शामिल है। 2.5 Pro मॉडल को Deep Think के साथ और बढ़ाया जाएगा, जो जटिल गणितीय और कोडिंग समस्याओं के लिए तर्क को बेहतर बनाने के लिए डिज़ाइन किया गया एक प्रायोगिक मोड है।
Google Gemini API और Vertex AI में विचार सारांशों के समावेश के माध्यम से डेवलपर अनुभव को बेहतर बनाने के लिए प्रतिबद्ध है। ये सारांश 2.5 Pro के लिए अधिक नियंत्रण सुनिश्चित करने के लिए बढ़ी हुई पारदर्शिता, विस्तारित सोच बजट प्रदान करते हैं, और ओपन-सोर्स टूल की एक विस्तृत श्रृंखला तक पहुंच के लिए Gemini API और SDK में MCP टूल के लिए समर्थन प्रदान करते हैं।
- 5 Flash मॉडल अब Gemini ऐप के भीतर सार्वभौमिक रूप से सुलभ है। एक अद्यतन संस्करण जल्द ही डेवलपर्स के लिए Google AI Studio में और उद्यमों के लिए Vertex AI में उपलब्ध होगा, जो जून की शुरुआत के लिए निर्धारित है, जिसके बाद 2.5 Pro जल्द ही आएगा।
यह उल्लेखनीय प्रगति Google की टीमों के अथक समर्पण का परिणाम है, जो अपनी तकनीकों को लगातार बेहतर बनाने और उन्हें सुरक्षित और जिम्मेदारी से तैनात करने के लिए प्रतिबद्ध हैं।
2.5 Pro के बेहतर प्रदर्शन का अनावरण
- 5 Pro मॉडल को हाल ही में डेवलपर्स को अधिक इंटरैक्टिव और सुविधा-समृद्ध वेब एप्लिकेशन बनाने में सशक्त बनाने के लिए अपडेट किया गया है। उपयोगकर्ताओं और डेवलपर्स से प्राप्त सकारात्मक प्रतिक्रिया की बहुत सराहना की जाती है, और उपयोगकर्ता इनपुट के आधार पर चल रहे सुधारों को लागू करना जारी रखा जाएगा।
अकादमिक बेंचमार्क पर अपने उत्कृष्ट प्रदर्शन के अलावा, 2.5 Pro के नवीनतम पुनरावृत्ति ने लोकप्रिय कोडिंग लीडरबोर्ड, WebDev Arena पर एक प्रभावशाली ELO स्कोर 1415 के साथ शीर्ष स्थान हासिल किया है। यह LMArena के सभी लीडरबोर्ड में भी अग्रणी है, जो विभिन्न मानदंडों के आधार पर मानव वरीयता का मूल्यांकन करता है। इसके अलावा, 1 मिलियन-टोकन संदर्भ विंडो से लैस, 2.5 Pro लंबी-संदर्भ और वीडियो समझ में अत्याधुनिक प्रदर्शन प्रदान करता है।
शैक्षिक विशेषज्ञों के सहयोग से विकसित मॉडलों के एक परिवार, LearnLM को एकीकृत करके, 2.5 Pro सीखने के लिए अग्रणी मॉडल बन गया है। इसकी शिक्षाशास्त्र और प्रभावशीलता का मूल्यांकन करने वाली प्रत्यक्ष तुलनाओं में, शिक्षकों और विशेषज्ञों ਨੇ Gemini 2.5 Pro को विभिन्न परिदृश्यों में अन्य मॉडलों से बेहतर बताया। इसने सीखने के विज्ञान के सभी पांच सिद्धांतों में शीर्ष मॉडल को भी पीछे छोड़ दिया, जिनका उपयोग सीखने के लिए AI सिस्टम बनाने के लिए किया जाता है। यह शैक्षिक संदर्भों में इसकी प्रभावशीलता को उजागर करता है, जो अनुरूप और प्रभावी शिक्षण रणनीतियों की पेशकश करता है।
Deep Think: तर्क की सीमाओं को आगे बढ़ाना
Google Gemini की संज्ञानात्मक क्षमताओं की सीमाओं की सक्रिय रूप से खोज कर रहा है और Deep Think नामक एक उन्नत तर्क मोड के साथ प्रयोग करना शुरू कर रहा है। यह अभिनव मोड अत्याधुनिक अनुसंधान तकनीकों को नियोजित करता है, जो मॉडल को प्रतिक्रिया तैयार करने से पहले कई परिकल्पनाओं का मूल्यांकन करने में सक्षम बनाता है। यह दृष्टिकोण निर्णय लेने की प्रक्रियाओं को बढ़ाता है, जिससे जटिल स्थितियों में अधिक परिष्कृत और सूक्ष्म परिणाम मिलते हैं।
Gemini 2.5 Pro Deep Think ने 2025 USAMO पर एक प्रभावशाली स्कोर हासिल किया, जिसे व्यापक रूप से सबसे चुनौतीपूर्ण गणित बेंचमार्क में से एक माना जाता है। यह LiveCodeBench पर भी उत्कृष्ट प्रदर्शन करता है, जो प्रतियोगिता-स्तरीय कोडिंग के लिए एक मांग वाला बेंचमार्क है, और MMMU पर 84.0% का स्कोर प्राप्त करता है, जो मल्टीमॉडल तर्क का आकलन करता है। ये परिणाम जटिल कार्यों को संभालने में Deep Think के असाधारण प्रदर्शन को रेखांकित करते हैं, जो उन्नत AI समस्या-समाधान के लिए एक होनहार भविष्य का सुझाव देते हैं।
यह देखते हुए कि 2.5 Pro Deep Think संभव की सीमा को आगे बढ़ा रहा है, Google गहन सुरक्षा मूल्यांकन करने और सुरक्षा विशेषज्ञों से आगे इनपुट मांगने के लिए अतिरिक्त समय ले रहा है। कंपनी व्यापक रूप से उपलब्ध कराने से पहले प्रतिक्रिया एकत्र करने के लिए चयनित परीक्षकों को Gemini API तक पहुंच भी प्रदान करेगी। यह सावधान और जानबूझकर दृष्टिकोण उन्नत AI तकनीक की जिम्मेदार तैनाती सुनिश्चित करना चाहता है।
एक उन्नत 2.5 Flash का परिचय
- 5 Flash मॉडल, जो अपनी दक्षता और लागत-प्रभावशीलता के लिए जाना जाता है, को कई आयामों में परिष्कृत किया गया है। इसने तर्क, मल्टीमॉडलिटि, कोड हैंडलिंग और लंबी संदर्भ के लिए महत्वपूर्ण बेंचमार्क में सुधार दिखाया है, जबकि साथ ही अधिक कुशल भी हो रहा है, मूल्यांकन में 20-30% कम टोकन का उपयोग कर रहा है। यह इसके अनुकूलित प्रदर्शन और संसाधन प्रबंधन को उजागर करता है।
नया 2.5 Flash वर्तमान में डेवलपर्स के लिए Google AI Studio में, उद्यम अनुप्रयोगों के लिए Vertex AI में और सामान्य उपयोगकर्ताओं के लिए Gemini ऐप में पूर्वावलोकन के लिए उपलब्ध है। यह जून की शुरुआत में सामान्य उपलब्धता के लिए निर्धारित है, जिससे यह उत्पादन वातावरण के लिए सुलभ हो जाएगा।
Gemini 2.5 की नई क्षमताएं
मूल ऑडियो आउटपुट और लाइव API में सुधार
लाइव API श्रव्य-दृश्य इनपुट और मूल ऑडियो आउटपुट संवाद का एक पूर्वावलोकन संस्करण प्रस्तुत करता है, जो उपयोगकर्ताओं को अधिक प्राकृतिक और अभिव्यंजक Gemini के साथ संवादात्मक अनुभव बनाने में सक्षम बनाता है। यह सुविधा अधिक आकर्षक और इंटरैक्टिव अनुप्रयोगों को सक्षम बनाती है। AI के लिए सजीव ऑडियो प्रतिक्रियाओं का उत्पादन करने की क्षमता उपयोगकर्ता संपर्क को महत्वपूर्ण रूप से बढ़ाती है जिससे संचार का अधिक सहज तरीका बनता है।
लाइव API उपयोगकर्ताओं को मॉडल के स्वर, उच्चारण और बोलने की शैली को चलाने के लिए सशक्त बनाता है। उदाहरण के लिए, मॉडल को कहानी सुनाते समय एक नाटकीय आवाज अपनाने के लिए निर्देशित किया जा सकता है। यह उपकरण उपयोग का भी समर्थन करता है, जिससे यह उपयोगकर्ता की ओर से खोज कर सकता है। आवाज नियंत्रण में लचीलापन और बाहरी उपकरणों तक पहुंच मॉडल को विविध अनुप्रयोग परिदृश्यों में असाधारण रूप से बहुमुखी और मूल्यवान बनाती है।
उपयोगकर्ता विभिन्न प्रारंभिक सुविधाओं के साथ प्रयोग कर सकते हैं, जिनमें शामिल हैं:
भावनात्मक संवाद: मॉडल उपयोगकर्ता की आवाज में भावना का पता लगाता है और उसके अनुसार प्रतिक्रिया करता है। यह कार्यक्षमता AI में भावनात्मक बुद्धिमत्ता की परतें जोड़ती है, जिससे बातचीत अधिक व्यक्तिगत हो जाती है।
सक्रिय ऑडियो: मॉडल पृष्ठभूमि वार्तालापों को अनदेखा करता है और जानता है कि कब प्रतिक्रिया देनी है, जिससे व्यवधान कम होते हैं और स्पष्टता में सुधार होता है। यह सुविधा बातचीत की गुणवत्ता को बढ़ाती है, जिससे अधिक कुशल और केंद्रित संचार की अनुमति मिलती है।
लाइव API में सोचना: मॉडल अधिक जटिल कार्यों का समर्थन करने के लिए Gemini की सोच क्षमताओं का लाभ उठाता है। यह जटिल कार्यों से निपटने के दौरान गहन विश्लेषण और विचार की अनुमति देता है, जिससे यह उन क्षेत्रों में असाधारण रूप से मूल्यवान हो जाता है जिनके लिए सटीक और व्यावहारिक समाधानों की आवश्यकता होती है।
Google 2.5 Pro और 2.5 Flash दोनों में टेक्स्ट-टू-स्पीच कार्यक्षमता