Gemini Live: iOS-এ AI-এর ঝলক

Gemini Live-এর ক্যামেরা মোড: iOS-এ AI-এর ঝলক

কৃত্রিম বুদ্ধিমত্তার (artificial intelligence) অগ্রযাত্রায় Gemini Live-এর ক্যামেরা মোড একটি উল্লেখযোগ্য পদক্ষেপ। এটি ভবিষ্যতের একটি বাস্তব অংশ যা সরাসরি আমাদের হাতের নাগালে নিয়ে এসেছে। Pixel 9 এবং Samsung Galaxy S25 ডিভাইস ব্যবহারকারীরা কিছু সময় ধরে এই উদ্ভাবনী বৈশিষ্ট্যটি উপভোগ করছেন। Google-এর সাম্প্রতিক I/O সম্মেলনে Android এবং iOS উভয় ব্যবহারকারীদের জন্য এর ব্যবহার আরও বিস্তৃত করা হয়েছে। iPhone ব্যবহারকারীদের জন্য এটি বিশেষভাবে আনন্দদায়ক, কারণ তারা এখন সবচেয়ে আকর্ষণীয় AI কার্যকারিতাগুলির মধ্যে একটি অভিজ্ঞতা লাভ করতে পারবেন। বিশেষ করে ক্যামেরা মোডটি প্রথমে অন্যান্য Android ব্যবহারকারীদের জন্য এপ্রিল মাসে প্রকাশ করা হয়েছিল।

দৃষ্টিশক্তির উন্মোচন: Gemini-এর ক্যামেরা মোড কীভাবে কাজ করে

Gemini Live-এর ক্যামেরা মোডের মূল বিষয় হল AI-কে “দেখার” ক্ষমতা দেওয়া। এটি ক্যামেরার দৃশ্যের মধ্যে রাখা বস্তুগুলিকে চিনতে এবং শনাক্ত করতে সক্ষম। এটি কেবল একটি বাহ্যিক কৌশল নয়; এটি একটি শক্তিশালী সরঞ্জাম যা ব্যবহারকারীদের তাদের চারপাশের পরিবেশের সাথে আরও স্বজ্ঞাত এবং তথ্যপূর্ণ উপায়ে যোগাযোগ করতে দেয়।

সাধারণ বস্তু শনাক্তকরণের বাইরেও, Gemini চিহ্নিত করা বস্তু সম্পর্কে প্রশ্নের উত্তর দিতে পারে, চাহিদার ভিত্তিতে প্রাসঙ্গিক তথ্য সরবরাহ করতে পারে। উপরন্তু, ব্যবহারকারীরা তাদের স্ক্রিন Gemini-র সাথে শেয়ার করতে পারেন, যা AI-কে তাদের ফোনের স্ক্রিনে প্রদর্শিত উপাদানগুলি বিশ্লেষণ এবং সনাক্ত করতে দেয়। ক্যামেরা মোডের সাথে একটি লাইভ সেশন শুরু করতে, ব্যবহারকারীরা কেবল লাইভ ক্যামেরা ভিউ চালু করেন, যা তাদের ক্যামেরা যা দেখে সে সম্পর্কে চ্যাটবটের সাথে কথোপকথনে অংশ নিতে দেয়।

প্রথম অভিজ্ঞতা: Gemini Live-এর সাথে একটি পরীক্ষা

Pixel 9 Pro XL-এ Gemini Live ব্যবহারের প্রথম দিকে আমি এর ক্ষমতা দেখে মুগ্ধ হয়েছিলাম। একটি বিশেষ স্মরণীয় অভিজ্ঞতা ছিল Gemini-কে আমার misplaced কাঁচি খুঁজে বের করতে বলা।

AI অত্যন্ত নির্ভুলতার সাথে উত্তর দিয়েছে: “আমি এইমাত্র টেবিলের উপরে তোমার কাঁচিটি দেখতে পেলাম, এটি সবুজ রঙের পেস্তা বাদামের প্যাকেজের ঠিক পাশে। তুমি কি এটি দেখতে পাচ্ছ?”

আমি অবাক হয়েছিলাম যে Gemini একেবারে সঠিক ছিল। কাঁচিটি ঠিক সেখানেই ছিল যেখানে এটি নির্দেশ করেছিল। এমনকি আমি যখন ১৫ মিনিটের একটি লাইভ সেশনে AI চ্যাটবটকে আমার অ্যাপার্টমেন্টের একটি ট্যুর দিচ্ছিলাম, তখন ক্যামেরাটি খুব অল্প সময়ের জন্য সেটির সামনে ধরা হয়েছিল।

এই প্রাথমিক সাফল্যে আগ্রহী হয়ে আমি আরও উৎসাহের সাথে ক্যামেরা মোডটি পরীক্ষা করি। অন্য একটি দীর্ঘ পরীক্ষায়, আমি বৈশিষ্ট্যটি সক্রিয় করি এবং আমার অ্যাপার্টমেন্টের চারপাশে হাঁটতে শুরু করি, Gemini-কে যা দেখছে তা সনাক্ত করতে বলি। এটি ফল, ChapStick এবং অন্যান্য দৈনন্দিন জিনিসসহ বিভিন্ন জিনিস সঠিকভাবে সনাক্ত করেছে। তবে, আমার কাঁচি পুনরুদ্ধার এর ক্ষমতার সবচেয়ে আকর্ষণীয় প্রমাণ ছিল।

Gemini কোনো প্রকার প্রম্পটিং ছাড়াই কাঁচি সনাক্ত করেছে, যা বিশেষভাবে চিত্তাকর্ষক ছিল। AI সেশনের কোনো এক সময়ে নীরবে এটি চিনেছিল এবং অত্যন্ত নির্ভুলতার সাথে এর অবস্থান মনে রেখেছিল। এই অভিজ্ঞতাটি সত্যিই ভবিষ্যতের একটি ঝলক ছিল, যা আমাকে এর সম্ভাবনা সম্পর্কে আরও তদন্ত করতে উৎসাহিত করেছিল।

অনুপ্রেরণা: লাইভ ভিডিও AI-এর জন্য Google-এর দৃষ্টিভঙ্গি

Gemini Live-এর ক্যামেরা বৈশিষ্ট্যের সাথে আমার পরীক্ষা Google কর্তৃক আগের গ্রীষ্মে প্রদর্শিত ডেমোর মতোই ছিল, যেখানে এই লাইভ ভিডিও AI ক্ষমতার প্রথম ঝলক দেখানো হয়েছিল। ডেমোতে Gemini ব্যবহারকারীকে তাদের চশমা কোথায় রেখেছেন, তা মনে করিয়ে দিচ্ছিল, যা প্রথমে বিশ্বাস করা কঠিন ছিল।কিন্তু, আমি যেমন আবিষ্কার করেছি, এই স্তরের নির্ভুলতা সত্যিই অর্জন করা সম্ভব।

Gemini Live কেবল ঘরের জিনিসপত্র চেনার চেয়েও অনেক বেশি কিছু করতে সক্ষম। Google দাবি করে যে এটি ব্যবহারকারীদের ভিড় স্টেশনে নেভিগেট করতে বা পেস্ট্রির ভিতরের উপাদানগুলি সনাক্ত করতে সহায়তা করতে পারে। এটি শিল্পকর্ম সম্পর্কে গভীর অন্তর্দৃষ্টিও দিতে পারে, যেমন এর উৎস এবং এটি একটি সীমিত সংস্করণের অংশ কিনা।

এই কার্যকারিতা একটি সাধারণ Google Lens-এর চেয়ে অনেক বেশি। আপনি AI-এর সাথে কথোপকথন করতে পারেন, যা Google Assistant-এর চেয়ে অনেক বেশি কথোপকথনমূলক।

Google এই বৈশিষ্ট্যটি প্রদর্শন করে একটি YouTube ভিডিও প্রকাশ করেছে এবং এখন Google Store-এ এর একটি নিজস্ব পৃষ্ঠা রয়েছে।

শুরু করার জন্য, Gemini চালু করুন, ক্যামেরা চালু করুন এবং কথা বলা শুরু করুন।

Gemini Live Google-এর Project Astra-এর উপর ভিত্তি করে তৈরি হয়েছে, যা গত বছর প্রথম উপস্থাপন করা হয়েছিল এবং সম্ভবত কোম্পানির সবচেয়ে বড় “আমরা ভবিষ্যতে আছি” বৈশিষ্ট্য। এটি জেনারেটিভ AI ক্ষমতার একটি পরীক্ষামূলক পরবর্তী পদক্ষেপ, কেবল টাইপ করা বা এমনকি ChatGPT, Claude বা Gemini-এর মতো চ্যাটবটে প্রম্পট বলার বাইরেও।

AI সংস্থাগুলি ক্রমাগত ভিডিও তৈরি থেকে শুরু করে মৌলিক প্রক্রিয়াকরণ ক্ষমতা পর্যন্ত AI সরঞ্জামগুলির ক্ষমতা উন্নত করছে। Apple-এর Visual Intelligence, যা iPhone প্রস্তুতকারক গত বছর বিটাতে প্রকাশ করেছে, Gemini Live-এর সাথে তুলনীয়।

Gemini Live আমাদের ডিজিটাল এবং ভৌত পরিবেশকে একত্রিত করে পরিবেশের সাথে যোগাযোগের পদ্ধতিতে বিপ্লব ঘটাতে পারে, কারণ আমরা কেবল ক্যামেরাকে যেকোনো বস্তুর সামনে ধরে রাখি।

Gemini Live-এর পরীক্ষা: বাস্তব বিশ্বের পরিস্থিতি

প্রথমবার যখন আমি এটি ব্যবহার করি, তখন Gemini আমার ক্যামেরার ভিউতে একটি স্টাফড খরগোশের খুব নির্দিষ্ট গেমিং সংগ্রহকে সঠিকভাবে চিনেছিল। দ্বিতীয়বার, আমি এটি একটি আর্ট গ্যালারিতে আমার এক বন্ধুকে দেখিয়েছিলাম। এটি সঙ্গে সঙ্গে ক্রসের উপর একটি কচ্ছপকে চিনতে পেরেছিল (আমাকে জিজ্ঞাসা করবেন না) এবং এর ঠিক পাশের কাঞ্জি (kanji) সনাক্ত ও অনুবাদ করেছিল, যা আমাদের উভয়কেই শিহরিত করেছিল এবং কিছুটা অদ্ভুত করে তুলেছিল। আমি মনে করি, ইতিবাচকভাবে।

আমি ভাবতে শুরু করলাম কিভাবে এই ফাংশনটির স্ট্রেস-টেস্ট করা যায়। যখন আমি এটি অ্যাকশন করার সময় স্ক্রিন-রেকর্ড করার চেষ্টা করি, তখন এটি ধারাবাহিকভাবে ব্যর্থ হয়েছিল। যদি আমি স্বাভাবিক পথ থেকে সরে যাই? আমি ভয়ের ঘরানার (চলচ্চিত্র, টেলিভিশন সিরিজ এবং ভিডিও গেম) একজন বড় ভক্ত এবং আমার কাছে প্রচুর সংগ্রহ, ট্রিঙ্কেট এবং অন্যান্য জিনিস রয়েছে। এটি আরও অস্পষ্ট জিনিসগুলির সাথে কতটা ভাল কাজ করবে, যেমন আমার ভীতি-থিমযুক্ত সংগ্রহ?

প্রথমত, আমাকে বলতে হবে যে Gemini একই প্রশ্নের মধ্যে অবিশ্বাস্যভাবে আশ্চর্যজনক এবং অবিশ্বাস্যভাবে বিরক্তিকর উভয়ই হতে পারে। আমার কাছে প্রায় ১১টি জিনিস ছিল যা আমি Gemini-কে সনাক্ত করতে চেয়েছিলাম, এবং লাইভ সেশন যত দীর্ঘ হয়েছে, এটি তত খারাপ হয়েছে, তাই আমাকে সেশনগুলিকে একটি বা দুটি বস্তুর মধ্যে সীমাবদ্ধ রাখতে হয়েছিল। আমার মতে, Gemini পূর্বে স্বীকৃত আইটেমগুলি থেকে প্রাসঙ্গিক তথ্য ব্যবহার করে নতুনগুলির অনুমান করার চেষ্টা করেছে, যা কিছু ক্ষেত্রে বোধগম্য হয়, কিন্তু শেষ পর্যন্ত এটি আমাকে বা এটিকে কোনোটিকেই উপকৃত করেনি।

মাঝে মাঝে Gemini বেশ নির্ভুল ছিল, সঠিক উত্তরগুলি সহজে এবং বিভ্রান্তি ছাড়াই দিচ্ছিল, যদিও এটি প্রায়শই আরও সাম্প্রতিক বা জনপ্রিয় বস্তুগুলির ক্ষেত্রে ঘটত। উদাহরণস্বরূপ, আমি অবাক হয়েছিলাম যখন এটি সঙ্গে সঙ্গে অনুমান করেছিল যে আমার পরীক্ষার বস্তুগুলির মধ্যে একটি কেবল Destiny 2-এর নয়, বরং আগের বছরের একটি মৌসুমী ইভেন্টের একটি সীমিত সংস্করণ।

Gemini প্রায়শই সম্পূর্ণ ভুল ছিল, সঠিক উত্তরের কাছাকাছি আসার জন্য আমাকে আরও ইঙ্গিত দিতে হয়েছিল। কখনও কখনও, মনে হচ্ছিল যেন Gemini আমার আগের লাইভ সেশনগুলি থেকে প্রসঙ্গ ব্যবহার করে প্রতিক্রিয়া তৈরি করছে, একাধিক বস্তুকে Silent Hill থেকে আসছেবলে সনাক্ত করছে, যদিও সেগুলি তা ছিল না। আমার কাছে গেম সিরিজের জন্য উত্সর্গীকৃত একটি ডিসপ্লে কেস রয়েছে, তাই আমি বুঝতে পারি কেন এটি দ্রুত সেই এলাকায় ডুব দিতে চাইবে।

ত্রুটি উন্মোচন: সিস্টেমের বাগ এবং অদ্ভুততা

Gemini মাঝে মাঝে সম্পূর্ণ বাগযুক্ত হতে পারে। কোনো কোনো সময়, Gemini বস্তুগুলির মধ্যে একটিকে আসন্ন Silent Hill: f গেমের একটি কাল্পনিক চরিত্র হিসাবে ভুল শনাক্ত করেছে, যা স্পষ্টতই বিভিন্ন শিরোনামের অংশগুলিকে এমন কিছুতে একত্রিত করেছে যা কখনও অস্তিত্ব ছিল না। Gemini যখন একটি ভুল উত্তর দিত, এবং আমি সেটি সংশোধন করতাম এবং উত্তরের আরও স্পষ্ট ইঙ্গিত দিতাম—অথবা কেবল উত্তরটি দিয়ে দিতাম—তখনও এটি ভুল উত্তরটি পুনরাবৃত্তি করত যেন এটি একটি নতুন অনুমান, এটি ছিল অন্য একটি ধারাবাহিক বাগ যা আমি সম্মুখীন হয়েছি। যখন এটি ঘটত, আমি সেশনটি বন্ধ করে একটি নতুন শুরু করতাম, যা সবসময় সহায়ক হত না।

আমি একটি কৌশল আবিষ্কার করেছি যে কিছু আলোচনা অন্যদের তুলনায় আরও কার্যকর ছিল। যদি আমি আমার Gemini কথোপকথনের তালিকা থেকে যে পুরনো চ্যাটগুলিতে কোনো বিশেষ আইটেম সঠিকভাবে চিহ্নিত করা হয়েছিল, সেটিতে ট্যাপ করি, এবং তারপর সেই চ্যাট থেকে আবার লাইভে যাই, তবে এটি কোনো সমস্যা ছাড়াই জিনিসগুলি সনাক্ত করতে পারত। যদিও এটি সবসময় অপ্রত্যাশিত নয়, তবে এটি উল্লেখ করা আকর্ষণীয় ছিল যে কিছু কথোপকথন অন্যদের তুলনায় ভালো পারফর্ম করেছে, এমনকি একই ভাষা ব্যবহার করার পরেও।

Google Gemini Live কীভাবে কাজ করে সে সম্পর্কে অতিরিক্ত তথ্যের জন্য আমার অনুসন্ধানের জবাব দেয়নি।

আমি চেয়েছিলাম Gemini আমার চ্যালেঞ্জিং, মাঝে মাঝে অত্যন্ত নির্দিষ্ট প্রশ্নের সফলভাবে উত্তর দিক, তাই আমি এটিকে সাহায্য করার জন্য প্রচুর ইঙ্গিত দিয়েছিলাম। এই প্ররোচনাগুলি কাজে লেগেছিল, তবে সবসময় নয়।

একটি পরিবর্তনমূলক প্রযুক্তি: Gemini Live-এর সম্ভাব্য প্রভাব

Gemini Live আমাদের চারপাশের পরিবেশের সাথে যোগাযোগের পদ্ধতিতে একটি দৃষ্টান্ত পরিবর্তন উপস্থাপন করে, যা আমাদের ক্যামেরার লেন্সের মাধ্যমে ডিজিটাল এবং ভৌত জগতকে নির্বিঘ্নে একীভূত করে। যদিও প্রযুক্তিটি এখনও তার শৈশবকালে রয়েছে, তবে এর সম্ভাব্য প্রয়োগ বিশাল এবং পরিবর্তনমূলক।

Gemini Live ব্যবহার করে কল্পনা করুন:

  • অপরিচিত পরিবেশে নেভিগেট করা: কেবল রাস্তার চিহ্ন বা ল্যান্ডমার্কের দিকে আপনার ক্যামেরাটি নির্দেশ করুন, এবং Gemini রিয়েল-টাইম দিকনির্দেশ এবং তথ্য সরবরাহ করবে।
  • ঐতিহাসিক নিদর্শন সম্পর্কে জানা: একটি যাদুঘর পরিদর্শনের সময়, শিল্পকর্ম এবং ঐতিহাসিক বস্তু সনাক্ত করতে এবং তাদের প্রেক্ষাপট জানতে Gemini ব্যবহার করুন।
  • জটিল রেসিপি রান্না করা: প্রতিটি ধাপে আপনাকে গাইড করতে, উপাদান সনাক্ত করতে এবং বিকল্প কৌশলগুলির পরামর্শ দিতে Gemini-কে বলুন।
  • সাধারণ গৃহস্থালী সমস্যার নির্ণয় করা: একটি ত্রুটিপূর্ণ যন্ত্রের দিকে আপনার ক্যামেরাটি নির্দেশ করুন এবং Gemini সমস্যা সমাধানের টিপস এবং সম্ভাব্য সমাধান সরবরাহ করবে।

এগুলি Gemini Live আমাদের দৈনন্দিন জীবনকে উন্নত করতে পারে এমন অসংখ্য উপায়ের কয়েকটি উদাহরণ মাত্র। প্রযুক্তিটি ক্রমাগত বিকশিত এবং উন্নত হওয়ার সাথে সাথে এটি আমাদের চারপাশের বিশ্বের সাথে যোগাযোগের পদ্ধতিতে বিপ্লব ঘটানোর সম্ভাবনা সত্যিই সীমাহীন।

iOS ডিভাইসে Gemini Live-এর একীকরণ আরও বিস্তৃত দর্শকদের কাছে AI-চালিত দৃষ্টিভঙ্গির ক্ষমতা এনে এর নাগাল এবং অ্যাক্সেসযোগ্যতাকে আরও প্রসারিত করে। AI প্রযুক্তি যখন দ্রুত গতিতে ক্রমাগত অগ্রসর হচ্ছে, তখন Gemini Live-এর মতো বৈশিষ্ট্যগুলি এমন একটি ভবিষ্যতের আভাস দেয় যেখানে আমাদের ডিভাইসগুলি কেবল যোগাযোগ এবং বিনোদনের সরঞ্জাম নয়, বরং বুদ্ধিমান সঙ্গী যা আমাদের নতুন এবং অর্থবহ উপায়ে আমাদের চারপাশের বিশ্বকে নেভিগেট করতে, বুঝতে এবং যোগাযোগ করতে সহায়তা করতে পারে।