Gemini Live च्या कॅमेरा मोडच्या आगमनाने कृत्रिम बुद्धिमत्तेच्या (Artificial Intelligence) उत्क्रांतीमध्ये एक महत्त्वपूर्ण पाऊल पुढे टाकले आहे. भविष्यातील तंत्रज्ञानाचा अनुभव आता आपल्या हातात आहे. Pixel 9 आणि Samsung Galaxy S25 डिव्हाइसेस असलेल्या सुरुवातीच्या वापरकर्त्यांनी या अभिनव वैशिष्ट्याचा काही काळ आनंद घेतला आहे. Google ने I/O कॉन्फरन्समध्ये घोषणा केल्यानुसार, आता Android आणि iOS दोन्ही वापरकर्त्यांसाठी हे फिचर उपलब्ध होणार आहे. iPhone मालकांसाठी ही एक विशेष आनंदाची बाब आहे, कारण त्यांना आता सर्वात आकर्षक AI कार्यक्षमतेचा अनुभव घेता येणार आहे. विशेषतः कॅमेरा मोड एप्रिलमध्ये इतर Android वापरकर्त्यांसाठी सुरू करण्यात आला होता.
दृष्टीची शक्ती: Gemini चा कॅमेरा मोड कसा काम करतो
Gemini Live चा कॅमेरा मोड AI ला “पाहण्याची” क्षमता देतो. कॅमेऱ्याच्या दृष्टिक्षेपात ठेवलेल्या वस्तू ओळखण्याची क्षमता या मोडमध्ये आहे. हे केवळ एक वरवरचे स्वरूप नाही, तर हे एक शक्तिशाली साधन आहे जे वापरकर्त्यांना त्यांच्या सभोवतालच्या परिस्थितीशी अधिक सहज संवाद साधण्यास मदत करते.
Gemini केवळ वस्तू ओळखण्यापुरतेच मर्यादित नाही, तर ओळखल्या गेलेल्या वस्तूंबद्दल प्रश्नांची उत्तरे देण्याची क्षमता देखील यामध्ये आहे. वापरकर्ते त्यांच्या मागणीनुसार वस्तूंचा संदर्भ आणि माहिती मिळवू शकतात. याव्यतिरिक्त, वापरकर्ते त्यांची स्क्रीन Gemini सोबत शेअर करू शकतात, ज्यामुळे AI त्यांच्या फोनच्या स्क्रीनवर प्रदर्शित होणारे घटक ओळखू शकेल. कॅमेरा मोडसह लाइव्ह सेशन सुरू करण्यासाठी, वापरकर्ते फक्त लाइव्ह कॅमेरा दृश्य सक्षम करतात. यामुळे कॅमेऱ्यात जे काही दिसते त्याबद्दल चॅटबॉटशी संवाद साधता येतो.
पहिले अनुभव: Gemini Live सोबत चाचणी ड्राइव्ह
Pixel 9 Pro XL वर Gemini Live सह माझ्या सुरुवातीच्या चाचणी दरम्यान, मी त्याच्या क्षमतेने खूप प्रभावित झालो. माझा हरवलेला कैची शोधण्यास Gemini ला विचारण्याचा अनुभव विशेष लक्षात राहण्यासारखा होता.
AI ने अचूकपणे उत्तर दिले: “मला तुमची कैची टेबलावर, पिस्त्याच्या हिरव्या पाकिटाजवळ दिसत आहे. तुम्हाला ती दिसतेय का?”
माझ्या आश्चर्याची गोष्ट म्हणजे, Gemini ने अगदी अचूक ठिकाण सांगितले. कैची नेमकी त्याच ठिकाणी होती, जिथे AI ने निर्देश केला होता. मी 15 मिनिटांच्या लाइव्ह सेशनमध्ये कॅमेरा फक्त काही वेळा फिरवला होता आणि AI चॅटबॉटला माझ्या अपार्टमेंटची माहिती देत होतो.
या सुरुवातीच्या यशानंतर, मी उत्सुकतेने कॅमेरा मोड आणखी तपासला. दुसर्या, अधिक विस्तृत चाचणीत, मी हे वैशिष्ट्य सक्रिय केले आणि माझ्या अपार्टमेंटमध्ये फिरण्यास सुरुवात केली. Gemini ला दिसणार्या वस्तू ओळखण्यास सांगितले. त्याने फळे, ChapStick आणि इतर रोजच्या वापरातील वस्तू अचूकपणे ओळखल्या. तथापि, माझ्या कैचीचा शोध हा त्याच्या क्षमतेचा सर्वात प्रभावी प्रात्यक्षिक ठरला.
Gemini ने कोणतीही सूचना न देता कैची ओळखली हे विशेष उल्लेखनीय होते. AI ने सेशन दरम्यान कधीतरी कैची ओळखली आणि तिचे स्थान अचूकपणे लक्षात ठेवले. हा अनुभव खऱ्या अर्थाने भविष्याची झलक दाखवणारा होता, ज्यामुळे मला त्याच्या संभाव्यतेची आणखी तपासणी करण्याची प्रेरणा मिळाली.
प्रेरणा: लाईव्ह व्हिडिओ AI साठी Google ची दृष्टी
Gemini Live च्या कॅमेरा वैशिष्ट्यावरील माझ्या प्रयोगांनी Google ने मागील उन्हाळ्यात सादर केलेल्या डेमोचे प्रतिबिंब पाडले, ज्यामध्ये या लाइव्ह व्हिडिओ AI क्षमतांची पहिली झलक दर्शविली गेली. डेमोमध्ये, Gemini वापरकर्त्याला त्यांचे चष्मा कोठे ठेवले आहेत याची आठवण करून देत आहे, जे खूपच अविश्वसनीय वाटत होते. पण, जसा मला अनुभव आला, त्याप्रमाणे अचूकता खरोखरच साध्य करण्यासारखी आहे.
Gemini Live केवळ घरातील वस्तू ओळखण्यास सक्षम नाही, तर Google च्या दाव्यानुसार, ते वापरकर्त्यांना गर्दीच्या ट्रेन स्टेशनमध्ये नेव्हिगेट करण्यात किंवा पेस्ट्रीमध्ये काय भरले आहे हे ओळखण्यात मदत करू शकते. हे कलाकृतीची उत्पत्ती आणि ती मर्यादित आवृत्ती आहे की नाही याबद्दल अधिक माहिती देखील प्रदान करू शकते.
हे नियमित Google Lens पेक्षा अधिक उपयुक्त आहे. तुम्ही AI सोबत संभाषण करू शकता, जे Google Assistant पेक्षा खूप जास्त संभाषणात्मक आहे.
Google ने या वैशिष्ट्याचे प्रात्यक्षिक दाखवणारा YouTube व्हिडिओ देखील रिलीज केला आहे आणि आता त्याचे Google Store वर स्वतःचे पेज आहे.
सुरुवात करण्यासाठी, Gemini सुरू करा, कॅमेरा चालू करा आणि बोलणे सुरू करा.
Gemini Live हे Google च्या Project Astra वर आधारित आहे, जे गेल्या वर्षी सादर करण्यात आले होते आणि कदाचित कंपनीचे सर्वात मोठे “आम्ही भविष्यात आहोत” हे वैशिष्ट्य आहे. हे जनरेटिव्ह AI क्षमतांसाठी एक प्रायोगिक पुढचे पाऊल आहे. हे ChatGPT, Claude किंवा Gemini सारख्या चॅटबॉटमध्ये फक्त टाइप करणे किंवा बोलण्यापेक्षा अधिक प्रगत आहे.
AI कंपन्या व्हिडिओ निर्मितीपासून ते मूलभूत प्रक्रिया क्षमतेपर्यंत AI साधनांच्या क्षमतांमध्ये सतत सुधारणा करत आहेत. Apple चे Visual Intelligence, जे iPhone निर्मात्याने गेल्या वर्षी बीटा मध्ये रिलीज केले, ते Gemini Live च्या तुलनेत आहे.
Gemini Live मध्ये आपल्या डिजिटल आणि भौतिक वातावरणांना एकत्र करून, आपण कॅमेरा कोणत्याही वस्तू समोर धरल्यास, आपल्या सभोवतालच्या वातावरणाशी कनेक्ट होण्याच्या पद्धतीत क्रांती घडवण्याची क्षमता आहे.
Gemini Live ची चाचणी: वास्तविक जगातील परिस्थिती
पहिल्यांदा मी Gemini वापरले तेव्हा, त्याने माझ्या कॅमेऱ्याच्या दृश्यात असलेल्या एका विशिष्ट गेमिंग वस्तूला अचूकपणे ओळखले - ती म्हणजे भरलेला ससा. दुसर्या वेळी, मी ते एका कला प्रदर्शनात माझ्या मित्राला दाखवले. त्याने क्रॉसवरील कासव (मला विचारू नका) त्वरित ओळखले आणि त्याच्या शेजारी लिहिलेल्या कांजी अक्षरांचे भाषांतर केले, ज्यामुळे आम्हा दोघांनाही रोमांच आला आणि थोडे भीतीदायक देखील वाटले. मला वाटते ते सकारात्मक अर्थाने होते.
मी या फंक्शनची ताकद तपासण्याचा विचार करू लागलो. जेव्हा मी ते ॲक्शनमध्ये स्क्रीन-रेकॉर्ड करण्याचा प्रयत्न केला, तेव्हा ते सतत अयशस्वी झाले. जर मी नेहमीच्या मार्गावरून भरकटलो तर काय होईल? मी भयपट (चित्रपट, दूरदर्शन मालिका आणि व्हिडिओ गेम्स) चा मोठा चाहता आहे आणि माझ्याकडे अनेक संग्रहणीय वस्तू, दागिने आणि इतर वस्तू आहेत. मग ते माझ्या भयपट-थीम असलेल्या वस्तूंना किती चांगल्या प्रकारे ओळखेल?
सर्वात आधी, मला हे नमूद करणे आवश्यक आहे की Gemini एकाच वेळी आश्चर्यकारक आणि अत्यंत त्रासदायक असू शकते. माझ्याकडे अंदाजे 11 वस्तू होत्या ज्या Gemini ने ओळखाव्यात अशी माझी इच्छा होती आणि लाइव्ह सेशन जसा वाढत गेला तसा तो अधिक वाईट होत गेला, त्यामुळे मला सेशन एक किंवा दोन वस्तूंसाठी मर्यादित ठेवावे लागले. माझ्या मते, Gemini पूर्वी ओळखलेल्या वस्तूंमधील संदर्भाचा उपयोग नवीन वस्तूंचा अंदाज लावण्यासाठी करत होता, जे काही प्रमाणात अर्थपूर्ण आहे, परंतु त्याचा फायदा मला किंवा त्याला झाला नाही.
कधीकधी, Gemini खूप अचूक होता, सहजपणे आणि गोंधळ न करता योग्य उत्तरे देत होता, जरी हे अधिक वेळा अलीकडील किंवा लोकप्रिय वस्तूंसाठी घडले. उदाहरणार्थ, मला आश्चर्य वाटले, जेव्हा त्याने त्वरित निष्कर्ष काढला की माझ्या चाचणी वस्तूंपैकी एक केवळ Destiny 2 मधूनच नाही, तर मागील वर्षातील एका हंगामी कार्यक्रमातील मर्यादित आवृत्ती देखील आहे.
Gemini बहुतेक वेळा पूर्णपणे चुकीचा ठरत होता, योग्य उत्तराच्या जवळ येण्यासाठी मला अधिक सूचना द्याव्या लागत होत्या. कधीकधी, असे दिसून आले की Gemini माझ्या मागील लाइव्ह सत्रांमधील संदर्भाचा उपयोग उत्तरे तयार करण्यासाठी करत आहे, अनेक वस्तूंना Silent Hill मधून आलेले असल्याचे सांगत होता, जरी त्या तशा नव्हत्या. माझ्याकडे गेम मालिकेसाठी समर्पित एक प्रदर्शन आहे, त्यामुळे तो त्या क्षेत्रात लवकर जाण्याचा प्रयत्न का करत आहे हे मी समजू शकतो.
त्रुटींचे अनावरण: सिस्टममधील बग आणि विचित्र गोष्टी
Gemini काहीवेळा पूर्णपणे गोंधळलेला असतो. काहीवेळा, Gemini ने एका वस्तूला Silent Hill: f गेममधील काल्पनिक पात्र म्हणून चुकीचे ओळखले, स्पष्टपणे वेगवेगळ्या शीर्षकांतील भाग एकत्र करून असे काहीतरी तयार केले जे कधीच अस्तित्वात नव्हते. जेव्हा Gemini ने चुकीचे उत्तर दिले आणि मी ते दुरुस्त केले आणि उत्तरासाठी अधिक स्पष्टपणे हिंट दिली—किंवा फक्त उत्तर दिले—तरीही ते चुकीचे उत्तर नवीन अंदाज म्हणून पुन्हा सांगत असे. ही एक सतत येणारी समस्या होती. जेव्हा असे घडायचे, तेव्हा मी सेशन बंद करायचो आणि नवीन सेशन सुरू करायचो, जे नेहमीच उपयुक्त नसायचे.
मला एक युक्ती सापडली ती म्हणजे काही संभाषणे इतरांपेक्षा अधिक प्रभावी होती. जर मी माझ्या Gemini संभाषण सूचीतून गेलो, एखाद्या जुन्या चॅटवर टॅप केले ज्यामध्ये विशिष्ट वस्तूअचूकपणे ओळखली गेली होती, आणि नंतर त्या चॅटमधून पुन्हा लाइव्ह झालो, तर ते कोणतीही समस्या न येता वस्तू ओळखण्यास सक्षम होते. हे नेहमीच अपेक्षित नव्हते, तरीही हे लक्षात घेणे मनोरंजक होते की काही संवाद इतरांपेक्षा चांगले कार्य करतात, जरी समान भाषा वापरली जात असली तरी.
Gemini Live कसे कार्य करते याबद्दल अधिक माहितीसाठी Google ने माझ्या प्रश्नांना प्रतिसाद दिला नाही.
Gemini ने माझ्या कठीण, कधीकधी अत्यंत विशिष्ट प्रश्नांची यशस्वीरित्या उत्तरे द्यावीत अशी माझी इच्छा होती, म्हणून मी त्याला मदत करण्यासाठी भरपूर सूचना दिल्या. हे nudges उपयुक्त ठरले, पण नेहमीच नाही.
परिवर्तनकारी तंत्रज्ञान: Gemini Live चा संभाव्य प्रभाव
Gemini Live आपल्या सभोवतालच्या वातावरणाशी संवाद साधण्याच्या पद्धतीमध्ये बदल घडवणारे तंत्रज्ञान आहे. हे डिजिटल आणि भौतिक क्षेत्रांना आपल्या कॅमेऱ्याच्या लेन्सद्वारे अखंडपणे एकत्र आणते. हे तंत्रज्ञान अजूनही प्राथमिक अवस्थेत असले तरी, त्याचे संभाव्य उपयोग विस्तृत आणि परिवर्तनकारी आहेत.
Gemini Live चा उपयोग करून कल्पना करा:
- अपरिचित वातावरणात नेव्हिगेट करणे: फक्त रस्त्याच्या चिन्हे किंवा स्थळांवर कॅमेरा रोखून धरा आणि Gemini रिअल-टाइम दिशानिर्देश आणि माहिती प्रदान करेल.
- ऐतिहासिक कलाकृतींबद्दल जाणून घेणे: जेव्हा तुम्ही एखाद्या संग्रहालयाला भेट देता, तेव्हा Gemini चा उपयोग कलाकृती आणि ऐतिहासिक वस्तू ओळखण्यासाठी आणि त्यांचा संदर्भ देण्यासाठी करा.
- गुंतागुंतीच्या पाककृती बनवणे: Gemini ला प्रत्येक पायरीवर मार्गदर्शन करण्यास सांगा, साहित्य ओळखा आणि पर्यायी तंत्र सुचवा.
- घरातील साध्या समस्यांचे निदान करणे: खराब झालेल्या उपकरणावर तुमचा कॅमेरा रोखून धरा आणि Gemini समस्यानिवारण टिपा आणि संभाव्य उपाय प्रदान करेल.
ही Gemini Live आपल्या दैनंदिन जीवनात सुधारणा करू शकेल अशा असंख्य मार्गांची काही उदाहरणे आहेत. जसजसे तंत्रज्ञान विकसित आणि सुधारत जाईल, तसतसे ते आपल्या सभोवतालच्या जगाशी संवाद साधण्याच्या पद्धतीत क्रांती घडवण्याची क्षमता रखते.
iOS डिव्हाइसेसमध्ये Gemini Live च्या एकत्रीकरणामुळे त्याची पोहोच आणि उपलब्धता आणखी वाढते, ज्यामुळे AI-शक्तीवर आधारित दृष्टी अधिक विस्तृत प्रेक्षकांपर्यंत पोहोचते. AI तंत्रज्ञान वेगाने वाढत आहे, Gemini Live सारखी वैशिष्ट्ये भविष्याची झलक देतात, जिथे आपली उपकरणे केवळ संवाद आणि मनोरंजनाची साधने नसून, बुद्धिमान साथीदार देखील आहेत, जे आपल्याला नेव्हिगेट करण्यास, समजून घेण्यास आणि नवीन आणि अर्थपूर्ण मार्गांनी जगाशी संवाद साधण्यास मदत करतात.