জেমিনি: গুগলের জেনারেটিভ এআই

জেমিনি উন্মোচন: গুগলের নেক্সট-জেন এআই পরিবার

জেমিনি হল পরবর্তী প্রজন্মের AI মডেলগুলির মধ্যে গুগলের একটি উচ্চাভিলাষী পদক্ষেপ। DeepMind এবং Google Research-এর যৌথ প্রচেষ্টায় তৈরি, গুগলের শীর্ষস্থানীয় AI গবেষণা ল্যাবরেটরিগুলি, জেমিনি কোনও একক সত্তা নয় বরং মডেলগুলির একটি পরিবার, প্রতিটি নির্দিষ্ট কাজ এবং কর্মক্ষমতা স্তরের জন্য উপযুক্ত। এই পরিবারটিতে অন্তর্ভুক্ত রয়েছে:

  • Gemini Ultra: এই পরিবারের সবচেয়ে শক্তিশালী মডেল, যা অত্যন্ত জটিল কাজের জন্য ডিজাইন করা হয়েছে এবং যার জন্য যথেষ্ট পরিমান কম্পিউটেশনাল শক্তির প্রয়োজন। (বর্তমানে উপলব্ধ নয়)
  • Gemini Pro: একটি শক্তিশালী মডেল, Ultra-র থেকে ছোট, কিন্তু বিভিন্ন ধরনের কাজ পরিচালনা করতে সক্ষম। Gemini 2.0 Pro, সর্বশেষ সংস্করণ, বর্তমানে গুগলের ফ্ল্যাগশিপ হিসাবে রয়েছে।
  • Gemini Flash: Pro-এর একটি সুবিন্যস্ত, ‘ডিস্টাইলড’ সংস্করণ, যা গতি এবং দক্ষতার উপর বেশি গুরুত্ব দেয়।
  • Gemini Flash-Lite: Gemini Flash-এর একটি সামান্য হ্রাসকৃত এবং দ্রুততর সংস্করণ।
  • Gemini Flash Thinking: একটি মডেল যা ‘যুক্তি’ (reasoning) ক্ষমতা প্রদর্শন করে।
  • Gemini Nano: দুটি কম্প্যাক্ট মডেল নিয়ে গঠিত, Nano-1 এবং সামান্য বেশি শক্তিশালী Nano-2, ডিভাইসগুলিতে অফলাইনে পরিচালনার জন্য তৈরি।

সমস্ত Gemini মডেলের একটি সংজ্ঞায়িত বৈশিষ্ট্য হল তাদের অন্তর্নিহিত মাল্টিমোডালিটি (multimodality)। শুধুমাত্র টেক্সট ডেটার উপর প্রশিক্ষিত মডেলগুলির বিপরীতে, যেমন গুগলের LaMDA, জেমিনি মডেলগুলি বিভিন্ন ডেটা টাইপ প্রক্রিয়া এবং বিশ্লেষণ করতে পারদর্শী। এগুলি বিভিন্ন ভাষার পাবলিক, প্রোপ্রাইটারি এবং লাইসেন্সকৃত অডিও, ছবি, ভিডিও, কোডবেস এবং টেক্সট সম্বলিত একটি বিশাল ডেটাসেটের উপর প্রশিক্ষিত।

এই মাল্টিমোডাল প্রকৃতি জেমিনিকে শুধুমাত্র টেক্সট-ভিত্তিক মডেলগুলির সীমাবদ্ধতা অতিক্রম করতে সাহায্য করে। যেখানে LaMDA শুধুমাত্র টেক্সট-ভিত্তিক ইনপুট এবং আউটপুটের মধ্যে সীমাবদ্ধ, জেমিনি মডেলগুলি, বিশেষ করে Flash এবং Pro-এর নতুন সংস্করণগুলি, টেক্সটের পাশাপাশি ছবি এবং অডিও তৈরি করতে পারে।

যাইহোক, ডেটা মালিকদের সুস্পষ্ট সম্মতি ছাড়াই, প্রায়শই সর্বজনীনভাবে উপলব্ধ ডেটার উপর AI মডেলগুলিকে প্রশিক্ষণ দেওয়ার নৈতিক ও আইনি প্রভাবগুলি একটি জটিল বিষয়। যদিও Google কিছু Google Cloud গ্রাহকদের সম্ভাব্য মামলা থেকে রক্ষা করার জন্য একটি AI ক্ষতিপূরণ নীতি (indemnification policy) অফার করে, এই নীতির সীমাবদ্ধতা রয়েছে। ব্যবহারকারীদের, বিশেষ করে যারা বাণিজ্যিক উদ্দেশ্যে জেমিনি ব্যবহার করতে চান, তাদের সতর্কতা অবলম্বন করা উচিত।

জেমিনি অ্যাপ বনাম জেমিনি মডেল: পার্থক্য বোঝা

জেমিনি মডেল এবং ওয়েব ও মোবাইল প্ল্যাটফর্মে উপলব্ধ জেমিনি অ্যাপগুলির (পূর্বে Bard নামে পরিচিত) মধ্যে পার্থক্য করা অত্যন্ত গুরুত্বপূর্ণ।

জেমিনি অ্যাপগুলি ক্লায়েন্ট হিসাবে কাজ করে, বিভিন্ন জেমিনি মডেলের সাথে সংযোগ স্থাপন করে এবং একটি ব্যবহারকারী-বান্ধব, চ্যাটবট-এর মতো ইন্টারফেস উপস্থাপন করে। এগুলি গুগলের জেনারেটিভ AI ক্ষমতাগুলির সাথে ইন্টারঅ্যাক্ট করার জন্য ফ্রন্ট এন্ড হিসাবে কাজ করে।

অ্যান্ড্রয়েড ডিভাইসে, জেমিনি অ্যাপটি Google Assistant অ্যাপটিকে প্রতিস্থাপন করে। iOS-এ, Google এবং Google Search অ্যাপগুলি জেমিনি ক্লায়েন্ট হিসাবে কাজ করে।

অ্যান্ড্রয়েড ব্যবহারকারীরা তাদের স্ক্রিনে প্রদর্শিত বিষয়বস্তু, যেমন একটি YouTube ভিডিও সম্পর্কে প্রশ্ন জিজ্ঞাসা করতে একটি জেমিনি ওভারলে সক্রিয় করতে পারেন। এই ওভারলেটি একটি সমর্থিত স্মার্টফোনের পাওয়ার বোতাম টিপে এবং ধরে রেখে বা ‘Hey Google’ ভয়েস কমান্ড ব্যবহার করে ট্রিগার করা হয়।

জেমিনি অ্যাপগুলি বহুমুখী, ছবি, ভয়েস কমান্ড এবং টেক্সটকে ইনপুট হিসাবে গ্রহণ করে। তারা PDF-এর মতো ফাইলগুলি প্রক্রিয়া করতে পারে, যা সরাসরি আপলোড করা যেতে পারে বা Google Drive থেকে ইম্পোর্ট করা যেতে পারে এবং ছবি তৈরি করতে পারে। মোবাইলে জেমিনি অ্যাপগুলির সাথে শুরু হওয়া কথোপকথনগুলি ওয়েবে জেমিনির সাথে নির্বিঘ্নে সিঙ্ক্রোনাইজ হয়, যদি ব্যবহারকারী একই Google অ্যাকাউন্টে লগ ইন করা থাকে।

জেমিনি অ্যাডভান্সড: প্রিমিয়াম এআই বৈশিষ্ট্য আনলক করা

জেমিনি অ্যাপগুলি জেমিনি মডেলগুলির শক্তির সুবিধা নেওয়ার একমাত্র প্রবেশদ্বার নয়। Google ক্রমান্বয়ে জেমিনি-চালিত বৈশিষ্ট্যগুলিকে তার মূল অ্যাপ্লিকেশন এবং পরিষেবাগুলিতে সংহত করছে, যার মধ্যে Gmail এবং Google Docs অন্তর্ভুক্ত।

এই ক্ষমতাগুলি সম্পূর্ণরূপে ব্যবহার করার জন্য, ব্যবহারকারীদের সাধারণত Google One AI প্রিমিয়াম প্ল্যানের প্রয়োজন হয়। এই প্ল্যানটি, প্রযুক্তিগতভাবে Google One-এর একটি উপাদান, প্রতি মাসে $20 খরচ করে এবং Docs, Maps, Slides, Sheets, Drive এবং Meet-এর মতো Google Workspace অ্যাপ্লিকেশনগুলিতে জেমিনির অ্যাক্সেস দেয়। এটি ‘Gemini Advanced’ আনলক করে, জেমিনি অ্যাপগুলির মধ্যে গুগলের আরও উন্নত জেমিনি মডেলগুলিতে অ্যাক্সেস সরবরাহ করে।

Gemini Advanced ব্যবহারকারীরা অতিরিক্ত সুবিধা উপভোগ করেন, যেমন নতুন বৈশিষ্ট্য এবং মডেলগুলিতে অগ্রাধিকার অ্যাক্সেস, জেমিনির মধ্যে সরাসরি Python কোড চালানো এবং সংশোধন করার ক্ষমতা এবং NotebookLM-এর জন্য প্রসারিত সীমা, যা PDF গুলিকে AI-জেনারেটেড পডকাস্টে রূপান্তর করার জন্য গুগলের টুল। Gemini Advanced-এ একটি সাম্প্রতিক সংযোজন হল একটি মেমরি বৈশিষ্ট্য যা ব্যবহারকারীর পছন্দগুলি সঞ্চয় করে এবং জেমিনিকে অতীতের কথোপকথনগুলি উল্লেখ করতে সক্ষম করে, বর্তমান ইন্টারঅ্যাকশনগুলির জন্য প্রসঙ্গ সরবরাহ করে।

Gemini Advanced-এর জন্য এক্সক্লুসিভ সবচেয়ে আকর্ষণীয় বৈশিষ্ট্যগুলির মধ্যে একটি হল ‘Deep Research’। এই বৈশিষ্ট্যটি বিস্তারিত ব্রিফ তৈরি করতে উন্নত যুক্তি ক্ষমতা সহ জেমিনি মডেলগুলিকে ব্যবহার করে। ‘আমি কীভাবে আমার রান্নাঘরটি পুনরায় ডিজাইন করব?’ এর মতো একটি প্রম্পটের প্রতিক্রিয়ায়, Deep Research একটি বহু-পদক্ষেপ গবেষণা পরিকল্পনা তৈরি করে, ওয়েব অনুসন্ধান করে এবং একটি ব্যাপক উত্তর সংকলন করে।

Gmail-এর মধ্যে, জেমিনি একটি সাইড প্যানেলে থাকে, যা ইমেল রচনা করতে এবং বার্তার থ্রেডগুলির সংক্ষিপ্তসার করতে সক্ষম। একটি অনুরূপ প্যানেল Docs-এ উপস্থিত হয়, বিষয়বস্তু লেখা, পরিমার্জন এবং ব্রেইনস্টর্মিংয়ে সহায়তা করে। Slides-এ, জেমিনি স্লাইড এবং কাস্টম ছবি তৈরি করে। Google Sheets-এ, এটি ডেটা ট্র্যাকিং, সংগঠন এবং সূত্র তৈরিতে সহায়তা করে।

জেমিনির উপস্থিতি Google Maps-এ প্রসারিত, যেখানে এটি স্থানীয় ব্যবসা সম্পর্কে পর্যালোচনাগুলিকে একত্রিত করে এবং সুপারিশগুলি অফার করে, যেমন কোনও বিদেশী শহর ভ্রমণের জন্য ভ্রমণপথের পরামর্শ। চ্যাটবটের ক্ষমতাগুলি Drive-এও অন্তর্ভুক্ত, যেখানে এটি ফাইল এবং ফোল্ডারগুলির সংক্ষিপ্তসার করতে পারে এবং প্রকল্পগুলি সম্পর্কে সংক্ষিপ্ত তথ্য সরবরাহ করতে পারে।

জেমিনিকে সম্প্রতি একটি AI রাইটিং টুল হিসাবে গুগলের Chrome ব্রাউজারে সংহত করা হয়েছে। এই টুলটি সম্পূর্ণরূপে নতুন বিষয়বস্তু তৈরি করতে বা বিদ্যমান টেক্সট পুনরায় লিখতে ব্যবহার করা যেতে পারে, বর্তমান ওয়েব পৃষ্ঠার প্রসঙ্গ বিবেচনা করে উপযুক্ত সুপারিশ প্রদান করতে।

এই মূল অ্যাপ্লিকেশনগুলি ছাড়াও, জেমিনির চিহ্নগুলি গুগলের ডেটাবেস পণ্য, ক্লাউড সুরক্ষা সরঞ্জাম এবং অ্যাপ ডেভেলপমেন্ট প্ল্যাটফর্মগুলিতে (Firebase এবং Project IDX সহ) পাওয়া যায়। এটি Google Photos (প্রাকৃতিক ভাষা অনুসন্ধান ক্যোয়ারী), YouTube (ভিডিও আইডিয়া ব্রেইনস্টর্মিং) এবং Meet (ক্যাপশন অনুবাদ) এর মতো অ্যাপগুলিতে বৈশিষ্ট্যগুলিকে শক্তিশালী করে।

Code Assist (পূর্বে Duet AI for Developers), কোড সম্পূর্ণকরণ এবং প্রজন্মের জন্য গুগলের AI-চালিত সরঞ্জামগুলির স্যুট, গণনামূলকভাবে নিবিড় কাজগুলির জন্য জেমিনির উপর নির্ভর করে। একইভাবে, গুগলের নিরাপত্তা পণ্যগুলি, যেমন Gemini in Threat Intelligence, সম্ভাব্য দূষিত কোড বিশ্লেষণ করতে এবং হুমকি এবং আপস-এর সূচকগুলির জন্য প্রাকৃতিক ভাষা অনুসন্ধান সহজতর করতে জেমিনি ব্যবহার করে।

জেমিনি এক্সটেনশন এবং জেমস: এআই অভিজ্ঞতাকে উপযোগী করা

Gemini Advanced ব্যবহারকারীদের ‘Gems’ তৈরি করার ক্ষমতা রয়েছে, জেমিনি মডেল দ্বারা চালিত কাস্টম চ্যাটবট, যা ডেস্কটপ এবং মোবাইল উভয় প্ল্যাটফর্মেই অ্যাক্সেসযোগ্য। Gems প্রাকৃতিক ভাষার বিবরণ থেকে তৈরি করা যেতে পারে, যেমন ‘আপনি আমার দৌড়ানোর প্রশিক্ষক। আমাকে একটি দৈনিক দৌড়ানোর পরিকল্পনা দিন,’ এবং অন্যান্য ব্যবহারকারীদের সাথে শেয়ার করা যেতে পারে বা ব্যক্তিগত রাখা যেতে পারে।

জেমিনি অ্যাপগুলি ‘Gemini extensions’-এর মাধ্যমে বিভিন্ন Google পরিষেবার সাথে সংহত করতে পারে। এই এক্সটেনশনগুলি জেমিনিকে Drive, Gmail, YouTube এবং অন্যান্য পরিষেবাগুলির সাথে ইন্টারঅ্যাক্ট করতে সক্ষম করে, এটি ‘আপনি কি আমার শেষ তিনটি ইমেলের সংক্ষিপ্তসার করতে পারেন?’ এর মতো প্রশ্নের উত্তর দিতে অনুমতি দেয়।

জেমিনি লাইভ: গভীর ভয়েস কথোপকথনে জড়িত হওয়া

‘Gemini Live’ একটি নিমগ্ন অভিজ্ঞতা প্রদান করে, ব্যবহারকারীদের জেমিনির সাথে বিস্তারিত ভয়েস কথোপকথনে জড়িত হতে দেয়। এই বৈশিষ্ট্যটি মোবাইল ডিভাইসে জেমিনি অ্যাপগুলির মধ্যে এবং Pixel Buds Pro 2-এ উপলব্ধ, যেখানে ফোন লক থাকা অবস্থাতেও এটি অ্যাক্সেস করা যেতে পারে।

Gemini Live-এর সাহায্যে, ব্যবহারকারীরা জেমিনি কথা বলার সময় এটিকে বাধা দিতে পারে স্পষ্টীকরণের প্রশ্ন জিজ্ঞাসা করতে এবং চ্যাটবটটি রিয়েল-টাইমে বক্তৃতার ধরণগুলির সাথে খাপ খায়। Live একটি ভার্চুয়াল কোচ হিসাবে কাজ করার জন্যও ডিজাইন করা হয়েছে, ইভেন্টের প্রস্তুতি, ব্রেইনস্টর্মিং এবং অন্যান্য কাজে সহায়তা করে। উদাহরণস্বরূপ, Live একটি চাকরির ইন্টারভিউয়ের সময় হাইলাইট করার জন্য দক্ষতাগুলির পরামর্শ দিতে পারে এবং জনসাধারণের সামনে কথা বলার টিপস সরবরাহ করতে পারে।

কিশোরদের জন্য জেমিনি: শিক্ষার্থীদের জন্য একটি উপযুক্ত এআই অভিজ্ঞতা

Google কিশোর শিক্ষার্থীদের জন্য তৈরি একটি বিশেষ জেমিনি অভিজ্ঞতা প্রদান করে।

কিশোর-কেন্দ্রিক জেমিনির এই সংস্করণে ‘অতিরিক্ত নীতি এবং সুরক্ষা’ অন্তর্ভুক্ত রয়েছে, যার মধ্যে একটি কাস্টমাইজড অনবোর্ডিং প্রক্রিয়া এবং একটি AI সাক্ষরতা গাইড রয়েছে। এই পরিবর্তনগুলি ছাড়াও, এটি স্ট্যান্ডার্ড জেমিনি অভিজ্ঞতার সাথে ঘনিষ্ঠভাবে সাদৃশ্যপূর্ণ, যার মধ্যে ‘ডাবল-চেক’ বৈশিষ্ট্য রয়েছে যা ওয়েবে তথ্যের ক্রস-রেফারেন্স করে জেমিনির প্রতিক্রিয়াগুলির নির্ভুলতা যাচাই করে।

জেমিনি মডেলগুলির ক্ষমতা অন্বেষণ

জেমিনি মডেলগুলির মাল্টিমোডাল প্রকৃতি তাদের বক্তৃতা প্রতিলিপি (speech transcription) থেকে রিয়েল-টাইম ছবি এবং ভিডিও ক্যাপশনিং পর্যন্ত বিস্তৃত কাজ সম্পাদন করতে সক্ষম করে। এই ক্ষমতাগুলির অনেকগুলি ইতিমধ্যেই গুগলের পণ্যগুলিতে অন্তর্ভুক্ত করা হয়েছে, ভবিষ্যতে আরও উন্নতির প্রতিশ্রুতি দেওয়া হয়েছে।

যাইহোক, এটি স্বীকার করা গুরুত্বপূর্ণ যে Google, তার প্রতিযোগীদের মতো, জেনারেটিভ AI প্রযুক্তির সাথে সম্পর্কিত কিছু অন্তর্নিহিত চ্যালেঞ্জগুলি সম্পূর্ণরূপে সমাধান করেনি, যেমন এনকোডেড পক্ষপাত এবং তথ্য তৈরি করার প্রবণতা (হ্যালুসিনেশন)। এই সীমাবদ্ধতাগুলি জেমিনির ব্যবহার মূল্যায়ন করার সময় বিবেচনা করা উচিত, বিশেষ করে গুরুত্বপূর্ণ অ্যাপ্লিকেশনগুলির জন্য।

জেমিনি প্রো-এর দক্ষতা

Google দাবি করে যে তার সর্বশেষ Pro মডেল, Gemini 2.0 Pro, কোডিং এবং জটিল প্রম্পটগুলি পরিচালনা করার জন্য তার সবচেয়ে উন্নত অফার। 2.0 Pro প্রোগ্রামিং, যুক্তি, গণিত এবং বাস্তব নির্ভুলতা মূল্যায়ন করে এমন বেঞ্চমার্কে তার পূর্বসূরি, Gemini 1.5 Pro-কে ছাড়িয়ে গেছে।

Google-এর Vertex AI প্ল্যাটফর্মের মধ্যে, ডেভেলপাররা ফাইন-টিউনিং বা ‘গ্রাউন্ডিং’-এর মাধ্যমে নির্দিষ্ট প্রেক্ষাপট এবং ব্যবহারের ক্ষেত্রে জেমিনি প্রো কাস্টমাইজ করতে পারেন। উদাহরণস্বরূপ, Pro (অন্যান্য জেমিনি মডেলগুলির সাথে) তৃতীয় পক্ষের সরবরাহকারী যেমন Moody’s, Thomson Reuters, ZoomInfo এবং MSCI-এর ডেটা ব্যবহার করার জন্য বা তার বিস্তৃত জ্ঞানের ভিত্তির পরিবর্তে কর্পোরেট ডেটাসেট বা Google Search থেকে তথ্য উৎস করার জন্য নির্দেশ দেওয়া যেতে পারে। জেমিনি প্রো-কে বাহ্যিক, তৃতীয় পক্ষের API-গুলির সাথে সংযুক্ত করা যেতে পারে নির্দিষ্ট ক্রিয়া সম্পাদন করার জন্য, যেমন ব্যাক-অফিস ওয়ার্কফ্লো স্বয়ংক্রিয় করা।

Google-এর AI Studio প্ল্যাটফর্ম Pro-এর সাথে স্ট্রাকচার্ড চ্যাট প্রম্পট তৈরি করার জন্য টেমপ্লেট সরবরাহ করে। ডেভেলপাররা মডেলের সৃজনশীল পরিসর নিয়ন্ত্রণ করতে পারেন, টোন এবং শৈলী গাইড করার জন্য উদাহরণ সরবরাহ করতে পারেন এবং Pro-এর নিরাপত্তা সেটিংস ফাইন-টিউন করতে পারেন।

জেমিনি ফ্ল্যাশ: লাইটওয়েট দক্ষতা এবং জেমিনি ফ্ল্যাশ থিঙ্কিং-এর যুক্তির ক্ষমতা

Gemini 2.0 Flash, Google অনুসন্ধান এবং অন্যান্য বাহ্যিক API গুলি ব্যবহার করতে সক্ষম। যদিও এটি ছোট, এটি কোডিং এবং চিত্র বিশ্লেষণের পরিমাপ করে এমন বেঞ্চমার্কে কিছু বৃহত্তর 1.5 মডেলকে ছাড়িয়ে যায়। জেমিনি প্রো-এর একটি ডেরিভেটিভ হিসাবে, Flash দক্ষতার জন্য ডিজাইন করা হয়েছে, সংকীর্ণ, উচ্চ-ফ্রিকোয়েন্সি জেনারেটিভ AI কাজগুলিকে লক্ষ্য করে।

Google Flash-এর উপযুক্ততা তুলে ধরেছে যেমন সংক্ষিপ্তকরণ, চ্যাট অ্যাপ্লিকেশন, ছবি এবং ভিডিও ক্যাপশনিং এবং দীর্ঘ নথি এবং টেবিল থেকে ডেটা নিষ্কাশন। এদিকে, Gemini 2.0 Flash-Lite, Flash-এর একটি আরও কম্প্যাক্ট পুনরাবৃত্তি, Google-এর মতে, একই মূল্য এবং গতি বজায় রেখে Gemini 1.5 Flash-কে কর্মক্ষমতায় ছাড়িয়ে গেছে।

গত বছরের ডিসেম্বরে, Google Gemini 2.0 Flash-এর একটি ‘থিঙ্কিং’ ভেরিয়েন্ট চালু করেছে, যা ‘যুক্তি’ ক্ষমতা সম্পন্ন। এই AI মডেলটি উত্তর দেওয়ার আগে কয়েক সেকেন্ড সময় নেয় একটি সমস্যার মধ্য দিয়ে পিছনের দিকে কাজ করার জন্য, সম্ভাব্যভাবে এর নির্ভরযোগ্যতা বাড়ায়।

জেমিনি ন্যানো: অন-ডিভাইস এআই পাওয়ার

জেমিনি ন্যানো হল জেমিনির একটি উল্লেখযোগ্যভাবে কম্প্যাক্ট সংস্করণ, যা সরাসরি উপযুক্ত ডিভাইসগুলিতে কাজ করার জন্য ডিজাইন করা হয়েছে, একটি দূরবর্তী সার্ভারে কাজ পাঠানোর প্রয়োজনীয়তা দূর করে। বর্তমানে, ন্যানো Pixel 8 Pro, Pixel 8, Pixel 9 Pro, Pixel 9 এবং Samsung Galaxy S24-এ বেশ কয়েকটি বৈশিষ্ট্যকে শক্তিশালী করে, যার মধ্যে রয়েছে Recorder-এ Summarize এবং Gboard-এ Smart Reply।

Recorder অ্যাপ, যা ব্যবহারকারীদের অডিও রেকর্ড এবং প্রতিলিপি করতে সক্ষম করে, রেকর্ড করা কথোপকথন, সাক্ষাৎকার, উপস্থাপনা এবং অন্যান্য অডিও স্নিপেটগুলির জন্য একটি জেমিনি-চালিত সংক্ষিপ্তকরণ বৈশিষ্ট্য অন্তর্ভুক্ত করে। এই সংক্ষিপ্তসারগুলি নেটওয়ার্ক সংযোগ ছাড়াই তৈরি করা হয় এবং গোপনীয়তার স্বার্থে, প্রক্রিয়াকরণের সময় কোনও ডেটা ব্যবহারকারীর ডিভাইস ছেড়ে যায় না।

ন্যানো Gboard-এও তার স্থান খুঁজে পায়, Google-এর কীবোর্ড প্রতিস্থাপন, যেখানে এটি Smart Reply-কে শক্তিশালী করে। এই বৈশিষ্ট্যটি WhatsApp-এর মতো মেসেজিং অ্যাপগুলিতে প্রতিক্রিয়াগুলির পরামর্শ দেয়, কথোপকথনগুলিকে স্ট্রিমলাইন করে।

অ্যান্ড্রয়েডের একটি ভবিষ্যত পুনরাবৃত্তি ফোন কলের সময় ব্যবহারকারীদের সম্ভাব্য স্ক্যাম সম্পর্কে সতর্ক করতে ন্যানোকে ব্যবহার করার জন্য নির্ধারিত হয়েছে। Pixel ফোনগুলিতে নতুন আবহাওয়া অ্যাপটি ব্যক্তিগতকৃত আবহাওয়ার রিপোর্ট তৈরি করতে জেমিনি ন্যানো ব্যবহার করে। উপরন্তু, TalkBack, Google-এর অ্যাক্সেসিবিলিটি পরিষেবা, দৃষ্টি প্রতিবন্ধী ব্যবহারকারীদের জন্য বস্তুর শ্রুতিমধুর বর্ণনা তৈরি করতে ন্যানো ব্যবহার করে।

জেমিনি আল্ট্রা: এর প্রত্যাবর্তনের অপেক্ষায়

সাম্প্রতিক মাসগুলিতে জেমিনি আল্ট্রা তুলনামূলকভাবে স্পটলাইটের বাইরে রয়েছে। মডেলটি বর্তমানে জেমিনি অ্যাপগুলির মধ্যে উপলব্ধ নয়, বা এটি Google-এর জেমিনি API মূল্য পৃষ্ঠায় তালিকাভুক্ত নয়। যাইহোক, এটি ভবিষ্যতে Google-এর আল্ট্রা পুনরায় চালু করার সম্ভাবনাকে বাতিল করে না।

জেমিনি মডেলগুলির জন্য মূল্য কাঠামো

Gemini 1.5 Pro, 1.5 Flash, 2.0 Flash এবং 2.0 Flash-Lite অ্যাপ্লিকেশন এবং পরিষেবাগুলি বিকাশের জন্য Google-এর Gemini API-এর মাধ্যমে অ্যাক্সেসযোগ্য। এগুলি পে-অ্যাজ-ইউ-গো ভিত্তিতে কাজ করে। 225 ফেব্রুয়ারী পর্যন্ত বেস প্রাইসিং, অ্যাড-অনগুলি বাদে, নিম্নরূপ:

  • Gemini 1.5 Pro: প্রতি 1 মিলিয়ন ইনপুট টোকেন $1.25 (128K টোকেন পর্যন্ত প্রম্পটের জন্য) বা প্রতি 1 মিলিয়ন ইনপুট টোকেন $2.50 (128K টোকেনের বেশি প্রম্পটের জন্য); প্রতি 1 মিলিয়ন আউটপুট টোকেন $5 (128K টোকেন পর্যন্ত প্রম্পটের জন্য) বা প্রতি 1 মিলিয়ন আউটপুট টোকেন $10 (128K টোকেনের বেশি প্রম্পটের জন্য)
  • Gemini 1.5 Flash: প্রতি 1 মিলিয়ন ইনপুট টোকেন 7.5 সেন্ট (128K টোকেন পর্যন্ত প্রম্পটের জন্য), প্রতি 1 মিলিয়ন ইনপুট টোকেন 15 সেন্ট (128K টোকেনের বেশি প্রম্পটের জন্য), প্রতি 1 মিলিয়ন আউটপুট টোকেন 30 সেন্ট (128K টোকেন পর্যন্ত প্রম্পটের জন্য), প্রতি 1 মিলিয়ন আউটপুট টোকেন 60 সেন্ট (128K টোকেনের বেশি প্রম্পটের জন্য)
  • Gemini 2.0 Flash: প্রতি 1 মিলিয়ন ইনপুট টোকেন 10 সেন্ট, প্রতি 1 মিলিয়ন আউটপুট টোকেন 40 সেন্ট। অডিওর জন্য, প্রতি 1 মিলিয়ন ইনপুট টোকেন 70 সেন্ট।
  • Gemini 2.0 Flash-Lite: প্রতি 1 মিলিয়ন ইনপুট টোকেন 7.5 সেন্ট, প্রতি 1 মিলিয়ন আউটপুট টোকেন 30 সেন্ট।

টোকেনগুলি কাঁচা ডেটার উপবিভক্ত ইউনিটগুলিকে উপস্থাপন করে, যেমন ‘ফ্যান’, ‘টাস’ এবং ‘টিক’ শব্দাংশগুলি ‘ফ্যান্টাস্টিক’ শব্দে। এক মিলিয়ন টোকেন প্রায় 750,000 শব্দের সমতুল্য। ‘ইনপুট’ বলতে মডেলে দেওয়া টোকেনগুলিকে বোঝায়, যেখানে ‘আউটপুট’ মডেল দ্বারা উত্পন্ন টোকেনগুলিকে বোঝায়।

2.0 Pro-এর জন্য মূল্য এখনও ঘোষণা করা হয়নি এবং ন্যানো প্রাথমিক অ্যাক্সেসে রয়েছে।

আইফোনে জেমিনির সম্ভাব্য আগমন

আইফোনগুলির সাথে জেমিনির ইন্টিগ্রেশনের সম্ভাবনা একটি স্বতন্ত্র সম্ভাবনা।

অ্যাপল ইঙ্গিত দিয়েছে যে এটি তার অ্যাপল ইন্টেলিজেন্স স্যুটের মধ্যে বিভিন্ন বৈশিষ্ট্যের জন্য জেমিনি এবং অন্যান্য তৃতীয় পক্ষের মডেলগুলি ব্যবহার করার বিষয়ে আলোচনা করছে। WWDC 2024-এ একটি মূল উপস্থাপনার পর, অ্যাপলের SVP Craig Federighi জেমিনি সহ মডেলগুলির সাথে সহযোগিতা করার পরিকল্পনা নিশ্চিত করেছেন, তবে আরও বিশদ বিবরণ দেওয়া থেকে বিরত ছিলেন।