Gemini Live के कैमरा मोड का आगमन कृत्रिम बुद्धिमत्ता के विकास में एक महत्वपूर्ण कदम है, जो भविष्य का एक ठोस टुकड़ा सीधे हमारी उंगलियों पर लाता है। जबकि Pixel 9 और Samsung Galaxy S25 उपकरणों वाले शुरुआती अपनाने वालों ने कुछ समय से इस अभिनव सुविधा का आनंद लिया है, Google की हालिया I/O सम्मेलन में घोषणा ने Android और iOS दोनों उपयोगकर्ताओं को शामिल करते हुए एक व्यापक दर्शकों के लिए पहुंच का विस्तार किया है। यह विकास iPhone मालिकों के लिए विशेष रूप से रोमांचक है, जो अब वर्तमान में उपलब्ध सबसे सम्मोहक AI कार्यात्मकताओं में से एक का अनुभव कर सकते हैं, खासकर यह देखते हुए कि कैमरा मोड शुरू में वापस अप्रैल में अन्य Android उपयोगकर्ताओं के लिए शुरू किया गया था।
दृष्टि की शक्ति का अनावरण: Gemini का कैमरा मोड कैसे काम करता है
अपने मूल में, Gemini Live का कैमरा मोड AI को “देखने” की क्षमता प्रदान करता है, जिससे यह कैमरे के दृश्य क्षेत्र में रखी वस्तुओं को पहचानने और पहचानने में सक्षम हो जाता है। यह केवल एक सतही नौटंकी नहीं है; यह एक शक्तिशाली उपकरण है जो उपयोगकर्ताओं को अपने परिवेश के साथ अधिक सहज और जानकारीपूर्ण तरीके से बातचीत करने की अनुमति देता है।
सरल वस्तु पहचान से परे, Gemini पहचाने गए वस्तुओं के बारे में सवालों के जवाब भी दे सकता है, मांग पर संदर्भ और अंतर्दृष्टि प्रदान करता है। इसके अलावा, उपयोगकर्ता अपनी स्क्रीन को Gemini के साथ साझा कर सकते हैं, जिससे AI को उनके फोन की स्क्रीन पर प्रदर्शित तत्वों का विश्लेषण और पहचान करने की अनुमति मिलती है। कैमरा मोड के साथ एक लाइव सत्र शुरू करने के लिए, उपयोगकर्ता बस लाइव कैमरा दृश्य को सक्षम करते हैं, जिससे वे चैटबॉट के साथ उस विषय के बारे में बातचीत कर सकते हैं जिसे कैमरा कैप्चर करता है।
पहली छाप: Gemini Live के साथ एक टेस्ट ड्राइव
Pixel 9 Pro XL पर Gemini Live के साथ मेरे प्रारंभिक परीक्षण चरण के दौरान, मैं इसकी क्षमताओं से पूरी तरह प्रभावित था। एक विशेष रूप से यादगार अनुभव में Gemini को मेरी खोई हुई कैंची का पता लगाने के लिए कहना शामिल था।
AI ने उल्लेखनीय सटीकता के साथ जवाब दिया: “मैंने अभी आपकी कैंची को मेज पर देखा है, पिस्ता के हरे पैकेज के ठीक बगल में। क्या आप उन्हें देखते हैं?”
मेरे आश्चर्य के लिए, Gemini बिल्कुल सही था। कैंची ठीक वहीं थी जहाँ उसने संकेत दिया था, इस तथ्य के बावजूद कि मैंने केवल एक 15-मिनट के लाइव सत्र के दौरान उनके सामने कैमरे को संक्षेप में पारित किया था, जहाँ मैं अनिवार्य रूप से AI चैटबॉट को अपने अपार्टमेंट का दौरा करा रहा था।
इस प्रारंभिक सफलता से उत्साहित होकर, मैंने उत्सुकता से कैमरा मोड का और पता लगाया। एक अन्य, लंबे परीक्षण में, मैंने सुविधा को सक्रिय किया और अपने अपार्टमेंट से गुजरना शुरू कर दिया, Gemini को उन वस्तुओं की पहचान करने के लिए प्रेरित किया जो उसने देखीं। इसने फल, ChapStick और अन्य रोजमर्रा की वस्तुओं सहित विभिन्न वस्तुओं को सटीक रूप से पहचाना। हालाँकि, मेरी कैंची की पुनर्खोज, इसकी क्षमताओं का सबसे विशिष्ट प्रदर्शन बनी रही।
यह तथ्य कि Gemini ने बिना किसी पूर्व संकेत के कैंची की पहचान की, विशेष रूप से प्रभावशाली था। AI ने सत्र के दौरान किसी बिंदु पर चुपचाप उन्हें पहचान लिया था और उल्लेखनीय सटीकता के साथ उनके स्थान को सटीक रूप से याद किया था। यह अनुभव वास्तव में भविष्य में एक झलक जैसा लगा, जिससे मुझे इसकी क्षमता में आगे की जांच करने के लिए प्रेरित किया गया।
प्रेरणा का आहरण: लाइव वीडियो AI के लिए Google का विजन
Gemini Live की कैमरा सुविधा के साथ मेरा प्रयोग पिछले गर्मियों में Google द्वारा प्रदर्शित डेमो को दर्शाता है, जिसने इन लाइव वीडियो AI क्षमताओं पर पहली नज़र डाली। डेमो में Gemini उपयोगकर्ता को यह याद दिलाता है कि उन्होंने अपने चश्मे कहाँ छोड़े थे, एक ऐसा करतब जो सच होने के लिए बहुत अच्छा लग रहा था। हालाँकि, जैसा कि मैंने खोजा, इस स्तर की सटीकता वास्तव में प्राप्त करने योग्य थी।
Gemini Live केवल घरेलू सामानों से कहीं अधिक पहचानने में सक्षम है। Google का दावा है कि यह उपयोगकर्ताओं को भीड़-भाड़ वाले ट्रेन स्टेशनों को नेविगेट करने या पेस्ट्री में भरने की पहचान करने में सहायता कर सकता है। यह कलाकृति में गहरी अंतर्दृष्टि भी प्रदान कर सकता है, जैसे कि इसकी उत्पत्ति और क्या यह एक सीमित संस्करण का नमूना है।
यह कार्यक्षमता एक नियमित Google Lens से आगे जाती है। आप AI के साथ बातचीत कर सकते हैं, जो Google Assistant की तुलना में कहीं अधिक संवादात्मक है।
Google ने सुविधा का प्रदर्शन करते हुए एक YouTube वीडियो भी जारी किया है, और अब Google Store पर इसका अपना पृष्ठ है।
शुरू करने के लिए, Gemini शुरू करें, कैमरा चालू करें और बात करना शुरू करें।
Gemini Live Google के Project Astra पर आधारित है, जिसे शुरू में पिछले साल प्रस्तुत किया गया था और यह शायद कंपनी की सबसे बड़ी “हम भविष्य में हैं” सुविधा है, जो जेनरेटिव AI क्षमताओं के लिए एक प्रायोगिक अगला कदम है, केवल ChatGPt, Claude, या Gemini जैसे चैटबॉट में टाइपिंग या बोलने के संकेतों से परे है।
AI कंपनियां वीडियो निर्माण से लेकर बुनियादी प्रसंस्करण शक्ति तक AI उपकरणों की क्षमताओं में लगातार सुधार कर रही हैं। Apple का Visual Intelligence, जिसे iPhone निर्माता ने पिछले साल बीटा में जारी किया था, Gemini Live के समान है।
Gemini Live में हमारे डिजिटल और भौतिक परिवेश को विलय करके पर्यावरण के साथ हमारे जुड़ने के तरीके में क्रांति लाने की क्षमता है क्योंकि हम केवल कैमरे को किसी भी चीज़ के सामने रखते हैं।
Gemini Live को परीक्षण में डालना: वास्तविक दुनिया के परिदृश्य
पहली बार जब मैंने इसका इस्तेमाल किया, तो Gemini ने मेरे कैमरे के दृश्य में एक भरवां खरगोश के एक बहुत ही विशिष्ट गेमिंग संग्रहणीय को सटीक रूप से पहचाना। दूसरी बार, मैंने इसे एक आर्ट गैलरी में एक दोस्त को दिखाया। इसने तुरंत एक क्रॉस पर कछुए को पहचान लिया (मुझसे मत पूछो) और उसके ठीक बगल में कांजी की पहचान और अनुवाद किया, जिससे हम दोनों को ठंड लग गई और हमें थोड़ा डर लग गया। एक सकारात्मक तरीके से, मेरा मानना है।
मैंने इस पर विचार करना शुरू कर दिया कि मैं फ़ंक्शन का तनाव परीक्षण कैसे कर सकता हूँ। जब मैंने इसे कार्रवाई में स्क्रीन-रिकॉर्ड करने का प्रयास किया, तो यह लगातार विफल रहा। क्या होगा अगर मैं सामान्य रास्ते से भटक गया? मैं Horror शैली का एक बड़ा प्रशंसक हूँ (फ़िल्में, टेलीविज़न श्रृंखला और वीडियो गेम) और मेरे पास संग्रहणीय वस्तुओं, ट्रिंकेट और अन्य वस्तुओं का ढेर है। मेरे Horror थीम वाले संग्रहणीय वस्तुओं जैसी अधिक अस्पष्ट वस्तुओं के साथ यह कैसा प्रदर्शन करेगा?
सबसे पहले, मुझे यह कहना होगा कि Gemini सवालों के एक ही दौर में अविश्वसनीय रूप से अद्भुत और अविश्वसनीय रूप से परेशान करने वाला दोनों हो सकता है। मेरे पास लगभग 11 वस्तुएं थीं जिनकी पहचान मैं Gemini से करवाना चाहता था, और लाइव सत्र जितना लंबा चला, उतना ही खराब होता गया, इसलिए मुझे सत्रों को एक या दो वस्तुओं तक सीमित करना पड़ा। मेरी राय में, Gemini ने नई वस्तुओं का अनुमान लगाने के लिए पहले से पहचानी गई वस्तुओं से प्रासंगिक जानकारी का उपयोग करने का प्रयास किया, जो कुछ हद तक समझ में आता है, लेकिन अंततः न तो मुझे और न ही इसे लाभ हुआ।
कभी-कभी, Gemini काफी सटीक था, आसानी से और बिना किसी भ्रम के सही उत्तर प्रदान करता था, हालांकि यह हाल की या लोकप्रिय वस्तुओं के साथ अधिक बार हुआ। मुझे उदाहरण के लिए, तब आश्चर्य हुआ जब इसने तुरंत अनुमान लगा लिया कि मेरी परीक्षण वस्तुओं में से एक न केवल Destiny 2 से है, बल्कि पिछले वर्ष के एक मौसमी कार्यक्रम का एक सीमित संस्करण भी है।
Gemini अक्सर निशान से पूरी तरह से चूक जाता, मुझे सही उत्तर के पास आने के लिए आगे के संकेत प्रदान करने की आवश्यकता होती। कभी-कभी, ऐसा प्रतीत होता था जैसे Gemini प्रतिक्रियाएं उत्पन्न करने के लिए मेरे पिछले लाइव सत्रों के संदर्भ का उपयोग कर रहा था, कई वस्तुओं को Silent Hill से आने के रूप में पहचान रहा था, जबकि वे नहीं थीं। मेरे पास गेम श्रृंखला के लिए समर्पित एक डिस्प्ले केस है, इसलिए मैं समझ सकता हूँ कि यह उस क्षेत्र में तेज़ी से क्यों गोता लगाना चाहेगा।
अपूर्णताओं का अनावरण: सिस्टम में त्रुटियां और विचित्रताएं
Gemini कभी-कभी पूरी तरह से Bugged हो सकता है। कभी-कभी, Gemini ने वस्तुओं में से एक को अप्रकाशित Silent Hill: f गेम के एक काल्पनिक चरित्र के रूप में गलत तरीके से पहचाना, स्पष्ट रूप से विभिन्न शीर्षकों के हिस्सों को मिलाकर कुछ ऐसा बना दिया जो कभी अस्तित्व में नहीं था। जब Gemini ने एक गलत उत्तर दिया, और मैंने इसे ठीक किया और उत्तर पर एक करीबी संकेत दिया-या बस उत्तर दिया-केवल इसे गलत उत्तर को दोहराने के लिए जैसे कि यह एक नया अनुमान था, तो एकमात्र लगातार Bug था जिसका मुझे सामना करना पड़ा। जब ऐसा होता था, तो मैं सत्र को बंद कर देता था और एक नया सत्र शुरू कर देता था, जो हमेशा मददगार नहीं होता था।
एक तकनीक जिसकी मैंने खोज की, वह यह थी कि कुछ चर्चाएं दूसरों की तुलना में अधिक प्रभावी थीं। यदि मैं अपनी Gemini वार्तालाप सूची से गुज़रता, एक पुरानी चैट को टैप करता जिसने एक विशेष वस्तु को सही ढंग से प्राप्त किया था, और फिर उस चैट से फिर से लाइव हो जाता, तो यह बिना किसी समस्या के वस्तुओं की पहचान करने में सक्षम होगा। जबकि यह हमेशा अप्रत्याशित नहीं होता है, यह नोट करना दिलचस्प था कि कुछ संवाद दूसरों की तुलना में बेहतर प्रदर्शन करते हैं, तब भी जब एक ही भाषा का उपयोग किया जाता है।
Gemini Live कैसे काम करता है, इस बारे में अतिरिक्त जानकारी के लिए Google ने मेरी पूछताछ का जवाब नहीं दिया।
मैं चाहता था कि Gemini मेरे चुनौतीपूर्ण, कभी-कभी अत्यधिक विशिष्ट प्रश्नों का सफलतापूर्वक उत्तर दे, इसलिए मैंने ऐसा करने में उसकी मदद करने के लिए बहुत सारे संकेत दिए। Nudges उपयोगी साबित हुए, लेकिन हमेशा नहीं।
एक परिवर्तनकारी तकनीक: Gemini Live का संभावित प्रभाव
Gemini Live इस बात में एक प्रतिमान बदलाव का प्रतिनिधित्व करता है कि हम अपने परिवेश के साथ कैसे बातचीत करते हैं, हमारे कैमरों के लेंस के माध्यम से डिजिटल और भौतिक क्षेत्रों को मूल रूप से मिलाते हैं। जबकि तकनीक अभी भी अपने शुरुआती चरण में है, इसके संभावित अनुप्रयोग विशाल और परिवर्तनकारी हैं।
Gemini Live का उपयोग करने की कल्पना करें:
- अपरिचित वातावरण नेविगेट करें: बस अपने कैमरे को सड़क संकेतों या स्थलों पर इंगित करें, और Gemini वास्तविक समय में दिशा-निर्देश और जानकारी प्रदान करेगा।
- ऐतिहासिक कलाकृतियों के बारे में जानें: संग्रहालय जाते समय, कलाकृति और ऐतिहासिक वस्तुओं की पहचान करने और संदर्भ प्रदान करने के लिए Gemini का उपयोग करें।
- जटिल व्यंजन पकाएं: Gemini को एक नुस्खा के प्रत्येक चरण के माध्यम से आपका मार्गदर्शन करने, सामग्री की पहचान करने और वैकल्पिक तकनीकों का सुझाव देने के लिए कहें।
- सरल घरेलू समस्याओं का निदान करें: एक खराब उपकरण पर अपना कैमरा इंगित करें, और Gemini समस्या निवारण युक्तियों और संभावित समाधान प्रदान करेगा।
ये उन असंख्य तरीकों के कुछ उदाहरण हैं जिनसे Gemini Live हमारे दैनिक जीवन को बढ़ा सकता है। जैसे-जैसे तकनीक विकसित और बेहतर होती जा रही है, हमारे आसपास की दुनिया के साथ हमारे बातचीत के तरीके में क्रांति लाने की इसकी क्षमता वास्तव में असीम है।
iOS उपकरणों में Gemini Live का एकीकरण इसकी पहुंच और पहुंच को और बढ़ाता है, जिससे AI-संचालित दृष्टि की शक्ति एक व्यापक दर्शकों तक पहुँचती है। जैसे-जैसे AI तकनीक तेजी से आगे बढ़ रही है, Gemini Live जैसी सुविधाएँ एक ऐसे भविष्य की झलक पेश करती हैं जहाँ हमारे उपकरण न केवल संचार और मनोरंजन के उपकरण हैं, बल्कि बुद्धिमान साथी भी हैं जो हमें दुनिया को नए और सार्थक तरीकों से नेविगेट करने, समझने और बातचीत करने में मदद कर सकते हैं।