কৃত্রিম বুদ্ধিমত্তার ক্ষেত্রে উদ্ভাবনের নিরলস গতি কমার কোনো লক্ষণ দেখা যাচ্ছে না, এবং Google এই উচ্চ প্রযুক্তির দৌড়ে তাদের সর্বশেষ আঘাত হেনেছে। কোম্পানিটি সম্প্রতি Gemini 2.5 উন্মোচন করেছে, যা তাদের AI মডেলের একটি নতুন প্রজন্ম। এটি জটিল জ্ঞানীয় কাজ, যেমন গভীর যুক্তি এবং জটিল কোডিং চ্যালেঞ্জ মোকাবেলা করার জন্য তৈরি করা হয়েছে। এই উন্মোচন কেবল একটি ক্রমবর্ধমান আপডেট নয়; এটি একটি উল্লেখযোগ্য অগ্রগতি, যা Google-কে AI বিকাশের অগ্রভাগে দৃঢ়ভাবে স্থাপন করেছে এবং প্রতিষ্ঠিত প্রতিদ্বন্দ্বীদের সরাসরি চ্যালেঞ্জ জানাচ্ছে। এই লঞ্চের কেন্দ্রবিন্দুতে রয়েছে Gemini 2.5 Pro Experimental ভ্যারিয়েন্ট, যা ইতিমধ্যেই প্রভাবশালী LMArena লিডারবোর্ডে কাঙ্ক্ষিত শীর্ষস্থান দখল করে আলোড়ন সৃষ্টি করেছে। এই লিডারবোর্ডটি বৃহৎ ভাষা মডেলগুলির কর্মক্ষমতা মূল্যায়নের জন্য একটি বহুল সম্মানিত মানদণ্ড।
নতুন মানদণ্ড স্থাপন: কর্মক্ষমতা এবং যুক্তির ক্ষমতা
Gemini 2.5 Pro Experimental-এর তাৎক্ষণিক প্রভাব এর বেঞ্চমার্ক পারফরম্যান্সে স্পষ্ট। LMArena লিডারবোর্ডে শীর্ষস্থান অর্জন একটি উল্লেখযোগ্য কৃতিত্ব, যা অন্যান্য শীর্ষস্থানীয় মডেলগুলির সাথে সরাসরি তুলনায় এর উন্নত ক্ষমতার ইঙ্গিত দেয়। কিন্তু এর আধিপত্য এই একক র্যাঙ্কিংয়ের বাইরেও বিস্তৃত। Google রিপোর্ট করেছে যে এই উন্নত মডেলটি সাধারণ কোডিং, গণিত এবং বিজ্ঞান বেঞ্চমার্ক সহ বেশ কয়েকটি গুরুত্বপূর্ণ ক্ষেত্রেও নেতৃত্ব দিচ্ছে। এই ক্ষেত্রগুলি একটি AI-এর জটিল সিস্টেম বোঝার, বিমূর্ত ধারণাগুলি পরিচালনা করার এবং সঠিক, কার্যকরী আউটপুট তৈরি করার ক্ষমতা পরীক্ষার জন্য গুরুত্বপূর্ণ ক্ষেত্র। এখানে শ্রেষ্ঠত্ব অর্জন বর্তমান AI সক্ষমতার সীমানা ছাড়িয়ে যাওয়া বিশ্লেষণাত্মক গভীরতা এবং সমস্যা সমাধানের দক্ষতার ইঙ্গিত দেয়।
Google-এর নিজস্ব প্রযুক্তিবিদদের মতে, যা Gemini 2.5-কে সত্যিই আলাদা করে তোলে তা হল এর মৌলিক আর্কিটেকচার একটি ‘চিন্তাশীল মডেল’ হিসেবে। Google DeepMind-এর চিফ টেকনোলজি অফিসার Koray Kavukcuoglu এই ধারণাটি ব্যাখ্যা করেছেন: ‘Gemini 2.5 মডেলগুলি চিন্তাশীল মডেল, যা প্রতিক্রিয়া জানানোর আগে তাদের চিন্তাভাবনার মাধ্যমে যুক্তি তৈরি করতে সক্ষম, যার ফলে উন্নত কর্মক্ষমতা এবং নির্ভুলতা বৃদ্ধি পায়।’ এই বিবরণটি এমন মডেলগুলি থেকে একটি প্রস্থানের ইঙ্গিত দেয় যা প্রাথমিকভাবে প্যাটার্ন শনাক্তকরণ বা সরাসরি পুনরুদ্ধারের উপর নির্ভর করতে পারে। পরিবর্তে, Gemini 2.5 তার প্রতিক্রিয়া প্রণয়নের আগে একটি আরও ইচ্ছাকৃত অভ্যন্তরীণ প্রক্রিয়ায় জড়িত বলে প্রস্তাব করা হয়েছে, যা কাঠামোগত চিন্তার অনুরূপ। এই অভ্যন্তরীণ যুক্তির ধাপটি এটিকে সাধারণ শ্রেণিবদ্ধকরণ বা ভবিষ্যদ্বাণীমূলক কাজের বাইরে যেতে দেয়। Google জোর দিয়ে বলেছে যে মডেলটি তথ্য গভীরভাবে বিশ্লেষণ করতে পারে, যৌক্তিক সিদ্ধান্তে পৌঁছাতে পারে, এবং গুরুত্বপূর্ণভাবে, এর আউটপুটগুলিতে প্রসঙ্গ এবং সূক্ষ্মতা অন্তর্ভুক্ত করতে পারে। একটি সমস্যার বিভিন্ন দিক বিবেচনা করার এবং সূক্ষ্ম প্রভাব বোঝার এই ক্ষমতা বাস্তব-বিশ্বের জটিলতাগুলি মোকাবেলা করার জন্য অত্যাবশ্যক যা সহজ উত্তরকে অস্বীকার করে।
এই ‘চিন্তাশীল’ পদ্ধতির ব্যবহারিক প্রভাব তুলনামূলক কর্মক্ষমতা মেট্রিক্সে প্রমাণিত হয়। Google দাবি করে যে Gemini 2.5 বিভিন্ন wymagający বেঞ্চমার্ক জুড়ে OpenAI-এর o3 mini এবং GPT-4.5, DeepSeek-R1, Grok 3, এবং Anthropic-এর Claude 3.7 Sonnet-এর মতো বিশিষ্ট প্রতিযোগীদের বিরুদ্ধে উন্নত কর্মক্ষমতা প্রদর্শন করে। একাধিক পরীক্ষা স্যুট জুড়ে এই ব্যাপক শ্রেষ্ঠত্ব এই সর্বশেষ পুনরাবৃত্তিতে বাস্তবায়িত স্থাপত্য এবং প্রশিক্ষণগত উন্নতির তাৎপর্য তুলে ধরে।
সম্ভবত এর উন্নত যুক্তির সবচেয়ে আকর্ষণীয় প্রদর্শনগুলির মধ্যে একটি হল Humanity’s Last Exam নামে পরিচিত একটি অনন্য বেঞ্চমার্কে এর কর্মক্ষমতা। শত শত বিষয় বিশেষজ্ঞ দ্বারা যত্ন সহকারে তৈরি করা এই ডেটাসেটটি বিশেষভাবে মানব এবং কৃত্রিম জ্ঞান ও যুক্তির সীমা অনুসন্ধান করার জন্য ডিজাইন করা হয়েছে। এটি এমন চ্যালেঞ্জ উপস্থাপন করে যার জন্য গভীর উপলব্ধি, সমালোচনামূলক চিন্তাভাবনা এবং বিভিন্ন ক্ষেত্র জুড়ে তথ্য সংশ্লেষণ করার ক্ষমতা প্রয়োজন। এই চ্যালেঞ্জিং পরীক্ষায়, Gemini 2.5 বাহ্যিক সরঞ্জাম ব্যবহার ছাড়াই পরিচালিত মডেলগুলির মধ্যে ১৮.৮% স্কোর অর্জন করেছে, একটি ফলাফল যা Google অত্যাধুনিক হিসাবে বর্ণনা করেছে। যদিও শতাংশটি পরম অর্থে পরিমিত মনে হতে পারে, এর তাৎপর্য বেঞ্চমার্কটির কঠিনতার মধ্যেই নিহিত, যা তার সমকক্ষদের তুলনায় জটিল, সহায়তাবিহীন যুক্তির জন্য মডেলটির উন্নত ক্ষমতা তুলে ধরে।
নেপথ্যে: উন্নত আর্কিটেকচার এবং প্রশিক্ষণ
Gemini 2.5 দ্বারা মূর্ত পারফরম্যান্সের উল্লম্ফন দুর্ঘটনাজনিত নয়; এটি Google DeepMind-এর মধ্যে টেকসই গবেষণা এবং উন্নয়ন প্রচেষ্টার চূড়ান্ত পরিণতি। কোম্পানি স্পষ্টভাবে এই অগ্রগতিকে দীর্ঘমেয়াদী অনুসন্ধানের সাথে যুক্ত করেছে যার লক্ষ্য AI সিস্টেমগুলিকে আরও বুদ্ধিমান এবং পরিশীলিত যুক্তিতে সক্ষম করে তোলা। ‘দীর্ঘদিন ধরে, আমরা রিইনফোর্সমেন্ট লার্নিং এবং চেইন-অফ-থট প্রম্পটিংয়ের মতো কৌশলগুলির মাধ্যমে AI-কে আরও স্মার্ট এবং যুক্তিতে আরও সক্ষম করার উপায়গুলি অন্বেষণ করেছি,’ Google তার ঘোষণায় বলেছে। এই কৌশলগুলি, মূল্যবান হলেও, সর্বশেষ মডেলে বাস্তবায়িত আরও সমন্বিত পদ্ধতির দিকে সোপান হিসাবে প্রতীয়মান হয়েছে।
Google Gemini 2.5-এর যুগান্তকারী পারফরম্যান্সের কৃতিত্ব একটি শক্তিশালী সংমিশ্রণকে দেয়: একটি ‘উল্লেখযোগ্যভাবে উন্নত বেস মডেল’ যা ‘উন্নত পোস্ট-ট্রেনিং’ কৌশলগুলির সাথে যুক্ত। যদিও এই উন্নতিগুলির নির্দিষ্ট বিবরণ মালিকানাধীন রয়ে গেছে, অন্তর্নিহিত অর্থ স্পষ্ট। মডেলটির ভিত্তিগত আর্কিটেকচার নিজেই যথেষ্ট উন্নতির মধ্য দিয়ে গেছে, সম্ভবত স্কেল, দক্ষতা বা অভিনব কাঠামোগত নকশা জড়িত। প্রাথমিক বৃহৎ-স্কেল প্রশিক্ষণের পরে ঘটে যাওয়া পরিমার্জন প্রক্রিয়াটিও সমান গুরুত্বপূর্ণ। এই পোস্ট-ট্রেনিং পর্যায়ে প্রায়শই নির্দিষ্ট কাজগুলিতে মডেলটিকে ফাইন-টিউন করা, এটিকে পছন্দসই আচরণের সাথে সারিবদ্ধ করা (যেমন সহায়কতা এবং নিরাপত্তা), এবং সম্ভাব্যভাবে মানুষের প্রতিক্রিয়া থেকে রিইনফোর্সমেন্ট লার্নিং (RLHF) বা সম্ভবত, Kavukcuoglu দ্বারা উল্লিখিত উন্নত যুক্তি প্রক্রিয়াগুলির মতো কৌশলগুলি অন্তর্ভুক্ত করা জড়িত। এই দ্বৈত ফোকাস—মূল ইঞ্জিন এবং পরবর্তী ক্যালিব্রেশন উভয়ই উন্নত করা—Gemini 2.5-কে যা অর্জন করতে দেয় তা Google ‘পারফরম্যান্সের একটি নতুন স্তর’ হিসাবে বর্ণনা করে। এই ‘চিন্তার ক্ষমতা’র একীকরণ এককালীন বৈশিষ্ট্য হিসাবে নয় বরং Google-এর AI পোর্টফোলিও জুড়ে ভবিষ্যতের বিকাশের জন্য একটি মূল দিক হিসাবে উদ্দিষ্ট। কোম্পানি স্পষ্টভাবে তার উদ্দেশ্য জানিয়েছে: ‘ভবিষ্যতে, আমরা এই চিন্তার ক্ষমতাগুলি সরাসরি আমাদের সমস্ত মডেলের মধ্যে তৈরি করছি, যাতে তারা আরও জটিল সমস্যাগুলি পরিচালনা করতে পারে এবং আরও সক্ষম, প্রসঙ্গ-সচেতন এজেন্টদের সমর্থন করতে পারে।’
প্রসারিত প্রসঙ্গ এবং মাল্টিমোডাল উপলব্ধি
বিশুদ্ধ যুক্তির বাইরে, আধুনিক AI-এর আরেকটি গুরুত্বপূর্ণ মাত্রা হল বিশাল পরিমাণ তথ্য প্রক্রিয়া এবং বোঝার ক্ষমতা, যা প্রায়শই বিভিন্ন ফরম্যাটে উপস্থাপিত হয়। Gemini 2.5 এই ক্ষেত্রে উল্লেখযোগ্য অগ্রগতি করেছে, বিশেষ করে এর কনটেক্সট উইন্ডো সম্পর্কিত—তথ্যের পরিমাণ যা মডেল একটি প্রতিক্রিয়া তৈরি করার সময় একযোগে বিবেচনা করতে পারে। সদ্য প্রকাশিত Gemini 2.5 Pro একটি চিত্তাকর্ষক ১ মিলিয়ন টোকেন কনটেক্সট উইন্ডো সহ আসে। এটিকে পরিপ্রেক্ষিতে রাখতে, এক মিলিয়ন টোকেন লক্ষ লক্ষ শব্দের প্রতিনিধিত্ব করতে পারে, যা বেশ কয়েকটি দীর্ঘ উপন্যাস বা বিস্তৃত প্রযুক্তিগত ডকুমেন্টেশনের সমতুল্য। এই প্রশস্ত উইন্ডো মডেলটিকে খুব দীর্ঘ মিথস্ক্রিয়া জুড়ে সুসংগততা বজায় রাখতে, সম্পূর্ণ কোডবেস বিশ্লেষণ করতে বা পূর্ববর্তী বিবরণগুলি হারিয়ে না ফেলে বড় ডকুমেন্টগুলি বুঝতে দেয়।
Google এখানেই থামছে না; একটি আরও বড় ২ মিলিয়ন টোকেন কনটেক্সট উইন্ডো ভবিষ্যতের প্রকাশের জন্য নির্ধারিত, যা মডেলের গভীর প্রাসঙ্গিক বোঝার ক্ষমতা আরও প্রসারিত করবে। গুরুত্বপূর্ণভাবে, Google জোর দিয়ে বলেছে যে এই প্রসারিত কনটেক্সট উইন্ডো পারফরম্যান্স হ্রাসের মূল্যে আসে না। পরিবর্তে, তারা ‘শক্তিশালী পারফরম্যান্স যা পূর্ববর্তী প্রজন্মের তুলনায় উন্নত’ বলে দাবি করে, যা প্রস্তাব করে যে মডেলটি অভিভূত না হয়ে বা ফোকাস না হারিয়ে কার্যকরভাবে বর্ধিত প্রসঙ্গ ব্যবহার করে।
বিস্তৃত প্রসঙ্গ পরিচালনা করার এই ক্ষমতা মাল্টিমোডাল ক্ষমতার সাথে শক্তিশালীভাবে মিলিত হয়েছে। Gemini 2.5 কেবল পাঠ্যের মধ্যে সীমাবদ্ধ নয়; এটি টেক্সট, অডিও, ছবি, ভিডিও এবং এমনকি সম্পূর্ণ কোড রিপোজিটরি হিসাবে উপস্থাপিত তথ্য বোঝার জন্য ডিজাইন করা হয়েছে। এই বহুমুখিতা আরও সমৃদ্ধ মিথস্ক্রিয়া এবং আরও জটিল কাজের জন্য অনুমতি দেয়। কল্পনা করুন মডেলটিকে একটি ভিডিও টিউটোরিয়াল, একটি প্রযুক্তিগত ডায়াগ্রাম এবং একটি কোড স্নিপেট ফিড করা, এবং তিনটি ইনপুটের উপর ভিত্তি করে ডকুমেন্টেশন তৈরি করতে বা সম্ভাব্য সমস্যাগুলি সনাক্ত করতে বলা। বিভিন্ন ডেটা প্রকার জুড়ে এই সমন্বিত বোঝাপড়া সত্যিই বুদ্ধিমান অ্যাপ্লিকেশন তৈরির জন্য অত্যন্ত গুরুত্বপূর্ণ যা আরও মানব-সদৃশ উপায়ে বিশ্বের সাথে যোগাযোগ করতে পারে। ‘সম্পূর্ণ কোড রিপোজিটরি’ প্রক্রিয়া করার ক্ষমতা সফ্টওয়্যার ডেভেলপমেন্ট অ্যাপ্লিকেশনগুলির জন্য বিশেষভাবে উল্লেখযোগ্য, যা বৃহৎ-স্কেল রিফ্যাক্টরিং, জটিল প্রকল্প জুড়ে বাগ সনাক্তকরণ বা একটি সফ্টওয়্যার সিস্টেমের মধ্যে জটিল নির্ভরতা বোঝার মতো কাজগুলিকে সক্ষম করে।
ডেভেলপার ফোকাস এবং অ্যাপ্লিকেশন সম্ভাবনা
Google সক্রিয়ভাবে ডেভেলপার এবং এন্টারপ্রাইজদের Gemini 2.5 Pro-এর ক্ষমতা অন্বেষণ করতে উৎসাহিত করছে, এটিকে Google AI Studio-এর মাধ্যমে অবিলম্বে অ্যাক্সেসযোগ্য করে তুলেছে। Vertex AI, Google-এর পরিচালিত AI প্ল্যাটফর্মের মাধ্যমে এন্টারপ্রাইজ ক্লায়েন্টদের জন্য উপলব্ধতা শীঘ্রই প্রত্যাশিত। এই রোলআউট কৌশলটি মডেলটিকে নির্মাতাদের হাতে তুলে দেওয়ার উপর অগ্রাধিকার দেয় যারা অভিনব অ্যাপ্লিকেশন এবং ওয়ার্কফ্লো তৈরি করা শুরু করতে পারে।
কোম্পানি নির্দিষ্ট ধরণের ডেভেলপমেন্ট কাজের জন্য মডেলের দক্ষতার উপর বিশেষভাবে আলোকপাত করেছে। ‘2.5 Pro দৃশ্যত আকর্ষণীয় ওয়েব অ্যাপ এবং এজেন্টিক কোড অ্যাপ্লিকেশন তৈরি করার পাশাপাশি কোড রূপান্তর এবং সম্পাদনায় পারদর্শী,’ Google উল্লেখ করেছে। ‘এজেন্টিক কোড অ্যাপ্লিকেশন’-এর উল্লেখ বিশেষভাবে আকর্ষণীয়। এটি এমন AI সিস্টেমগুলিকে বোঝায় যা আরও স্বায়ত্তশাসিতভাবে কাজ করতে পারে, সম্ভবত জটিল কোডিং কাজগুলিকে ছোট ছোট ধাপে বিভক্ত করে, কোড লিখে, পরীক্ষা করে এবং এমনকি কম মানব হস্তক্ষেপে ডিবাগ করে। SWE-Bench Verified বেঞ্চমার্কে পারফরম্যান্স, যেখানে Gemini 2.5 Pro একটি কাস্টম এজেন্ট সেটআপ ব্যবহার করে ৬৩.৮% স্কোর করে, এই দাবিগুলিকে বিশ্বাসযোগ্যতা দেয়। SWE-Bench (Software Engineering Benchmark) বিশেষভাবে বাস্তব-বিশ্বের GitHub সমস্যাগুলি সমাধান করার জন্য মডেলগুলির ক্ষমতা পরীক্ষা করে, যা একটি উচ্চ স্কোরকে ব্যবহারিক কোডিং সহায়তা ক্ষমতার সূচক করে তোলে।
ডেভেলপারদের জন্য যারা এই উন্নত বৈশিষ্ট্যগুলি ব্যবহার করতে আগ্রহী, মডেলটি Google AI Studio-তে পরীক্ষার জন্য প্রস্তুত। ভবিষ্যতের দিকে তাকিয়ে, Google প্রোডাকশন পরিবেশের জন্য উপযুক্ত উচ্চতর রেট লিমিটের প্রয়োজন এমন ব্যবহারকারীদের জন্য আগামী সপ্তাহগুলিতে একটি মূল্যের কাঠামো চালু করার পরিকল্পনা করেছে। এই স্তরযুক্ত অ্যাক্সেস প্রাথমিকভাবে ব্যাপক পরীক্ষার অনুমতি দেয়, তারপরে বাণিজ্যিক অ্যাপ্লিকেশনগুলির জন্য স্কেলেবল ডিপ্লয়মেন্ট বিকল্পগুলি আসে। ডেভেলপারদের সক্ষম করার উপর জোর দেওয়া ইঙ্গিত দেয় যে Google Gemini 2.5-কে কেবল একটি গবেষণা মাইলফলক হিসাবে নয়, বরং AI-চালিত সরঞ্জাম এবং পরিষেবাগুলির পরবর্তী প্রজন্মের জন্য একটি শক্তিশালী ইঞ্জিন হিসাবে দেখে।
Google-এর AI ইকোসিস্টেমে Gemini 2.5-এর অবস্থান
Gemini 2.5-এর লঞ্চ বিচ্ছিন্নভাবে ঘটছে না; এটি Google-এ উন্মোচিত একটি বৃহত্তর, বহুমুখী AI কৌশলের অংশ। এটি Google Gemma 3 প্রকাশের পরপরই আসে, যা কোম্পানির ওপেন-ওয়েট মডেল পরিবারের সর্বশেষ পুনরাবৃত্তি। যদিও Gemini মডেলগুলি Google-এর অত্যাধুনিক, ক্লোজড-সোর্স অফারগুলির প্রতিনিধিত্ব করে, Gemma পরিবার ওপেন-সোর্স সম্প্রদায় এবং গবেষকদের জন্য শক্তিশালী, আরও অ্যাক্সেসযোগ্য মডেল সরবরাহ করে, যা ব্যাপক উদ্ভাবনকে উৎসাহিত করে। হাই-এন্ড প্রোপ্রাইটারি মডেল এবং ওপেন-ওয়েট বিকল্প উভয়ের সমান্তরাল বিকাশ AI ল্যান্ডস্কেপে Google-এর ব্যাপক পদ্ধতির প্রদর্শন করে।
অধিকন্তু, Google সম্প্রতি নেটিভ ইমেজ জেনারেশন ক্ষমতা চালু করে তার Gemini 2.0 Flash মডেলকে উন্নত করেছে। এই বৈশিষ্ট্যটি মাল্টিমোডাল ইনপুট বোঝাকে (যেমন টেক্সট প্রম্পট) উন্নত যুক্তি এবং প্রাকৃতিক ভাষা প্রক্রিয়াকরণের সাথে একীভূত করে সরাসরি AI ইন্টারঅ্যাকশনের মধ্যে উচ্চ-মানের ভিজ্যুয়াল তৈরি করে। এই পদক্ষেপটি প্রতিযোগীদের কাছ থেকে আসা ডেভেলপমেন্টগুলির প্রতিফলন করে এবং সমন্বিত মাল্টিমোডালিটির ক্রমবর্ধমান গুরুত্বকে তুলে ধরে, যেখানে AI একটি একক কথোপকথনমূলক প্রসঙ্গে টেক্সট, ছবি, কোড এবং অন্যান্য ডেটা প্রকার বোঝা এবং তৈরি করার মধ্যে নির্বিঘ্নে স্থানান্তর করতে পারে। Gemini 2.5, তার অন্তর্নিহিত মাল্টিমোডাল বোঝার সাথে, এই ভিত্তির উপর তৈরি করে, বিভিন্ন ধরণের তথ্য মিশ্রিত করে এমন অ্যাপ্লিকেশনগুলির জন্য আরও শক্তিশালী প্ল্যাটফর্ম সরবরাহ করে।
প্রতিযোগিতামূলক দাবা বোর্ড: প্রতিদ্বন্দ্বীদের প্রতিক্রিয়া
Gemini 2.5 নিয়ে Google-এর অগ্রগতি একটি তীব্র প্রতিযোগিতামূলক পরিবেশের মধ্যে ঘটছে যেখানে প্রধান খেলোয়াড়রা ক্রমাগত নেতৃত্বের জন্য প্রতিদ্বন্দ্বিতা করছে। Google দ্বারা উদ্ধৃত বেঞ্চমার্কগুলি স্পষ্টভাবে Gemini 2.5-কে OpenAI, Anthropic, এবং অন্যান্যদের মডেলগুলির বিরুদ্ধে অবস্থান করিয়েছে, যা এই প্রতিযোগিতার প্রত্যক্ষ প্রকৃতি তুলে ধরে।
OpenAI, একটি প্রাথমিক প্রতিদ্বন্দ্বী, তারাও সক্রিয় রয়েছে, উল্লেখযোগ্যভাবে তাদের GPT-4o মডেল চালু করেছে, যা নিজেই চিত্তাকর্ষক মাল্টিমোডাল ক্ষমতা বৈশিষ্ট্যযুক্ত, যার মধ্যে অত্যাধুনিক রিয়েল-টাইম ভয়েস এবং ভিশন ইন্টারঅ্যাকশন রয়েছে, পাশাপাশি Gemini Flash-এ যোগ করা ধারণাগুলির অনুরূপ সমন্বিত ইমেজ জেনারেশন বৈশিষ্ট্য রয়েছে। দৌড়টি স্পষ্টভাবে এমন AI তৈরি করার জন্য চলছে যা কেবল টেক্সট-ভিত্তিক যুক্তিতে বুদ্ধিমান নয়, একাধিক মোডালিটি জুড়ে উপলব্ধিযোগ্য এবং ইন্টারেক্টিভও।
এদিকে, আরেকজন উল্লেখযোগ্য খেলোয়াড়, DeepSeek, Google-এর ঘোষণার সাথে সাথেই শিরোনামে এসেছে। Google-এর উন্মোচনের আগের সোমবার, DeepSeek তার সাধারণ-উদ্দেশ্য AI মডেলের একটি আপডেট ঘোষণা করেছে, যা DeepSeek-V3 হিসাবে মনোনীত। আপডেট হওয়া সংস্করণ, ‘DeepSeek V3-0324’, একটি অসাধারণ পার্থক্য অর্জন করেছে: এটি নির্দিষ্ট বেঞ্চমার্কগুলিতে সমস্ত ‘নন-রিজনিং’ মডেলগুলির মধ্যে সর্বোচ্চ স্থান পেয়েছে। Artificial Analysis, AI মডেল বেঞ্চমার্কিংয়ে বিশেষজ্ঞ একটি প্ল্যাটফর্ম, এই অর্জনের তাৎপর্য সম্পর্কে মন্তব্য করেছে: ‘এই প্রথমবার একটি ওপেন ওয়েটস মডেল শীর্ষস্থানীয় নন-রিজনিং মডেল, যা ওপেন সোর্সের জন্য একটি মাইলফলক চিহ্নিত করে।’ DeepSeek V3 প্ল্যাটফর্মের ‘ইন্টেলিজেন্স ইনডেক্স’-এ এই বিভাগে শীর্ষ পয়েন্ট অর্জন করেছে, যা ওপেন-ওয়েট মডেলগুলির ক্রমবর্ধমান শক্তি এবং প্রতিযোগিতামূলকতা প্রদর্শন করে, এমনকি যদি তারা Gemini 2.5-এর মতো মডেলগুলির দ্বারা লক্ষ্যযুক্ত জটিল, বহু-ধাপ যুক্তির জন্য স্পষ্টভাবে অপ্টিমাইজ করা নাও হয়।
উত্তেজনা বাড়িয়ে, Reuters সহ বিভিন্ন সূত্রে রিপোর্ট প্রকাশিত হয়েছে যে DeepSeek তার পরিকল্পনা ত্বরান্বিত করছে। কোম্পানিটি তার পরবর্তী প্রধান মডেল, সম্ভাব্য নাম R2, ‘যত তাড়াতাড়ি সম্ভব’ প্রকাশ করতে চায়। প্রাথমিকভাবে মে মাসের শুরুতে পরিকল্পনা করা হয়েছিল, টাইমলাইনটি এখন আরও আগে হতে পারে, যা ইঙ্গিত দেয় যে DeepSeek Google এবং OpenAI-এর পদক্ষেপগুলির মোকাবিলা করতে এবং সম্ভাব্যভাবে নিজস্ব উন্নত যুক্তি ক্ষমতা চালু করতে আগ্রহী।
Google, OpenAI, এবং DeepSeek-এর এই কার্যকলাপের ঝড় AI ক্ষেত্রের গতিশীল এবং দ্রুত বিকশিত প্রকৃতিকে তুলে ধরে। প্রতিটি প্রধান রিলিজ সীমানা আরও ঠেলে দেয়, প্রতিযোগীদের তাদের নিজস্ব উদ্ভাবনের সাথে দ্রুত প্রতিক্রিয়া জানাতে প্ররোচিত করে। যুক্তি, মাল্টিমোডালিটি, কনটেক্সট উইন্ডোর আকার এবং বেঞ্চমার্ক পারফরম্যান্সের উপর ফোকাস সেই মূল যুদ্ধক্ষেত্রগুলিকে নির্দেশ করে যেখানে AI-এর ভবিষ্যত তৈরি হচ্ছে। Google-এর Gemini 2.5, তার ‘চিন্তা’, বিস্তৃত প্রসঙ্গ এবং শক্তিশালী বেঞ্চমার্ক ফলাফলের উপর জোর দিয়ে, এই চলমান প্রযুক্তিগত দাবা খেলায় একটি শক্তিশালী পদক্ষেপের প্রতিনিধিত্ব করে, যা ব্যবহারকারী এবং ডেভেলপারদের জন্য উন্নত ক্ষমতার প্রতিশ্রুতি দেয় এবং একই সাথে প্রতিযোগীদের জন্য বার বাড়িয়ে দেয়। আগামী মাসগুলিতে সম্ভবত এই প্রযুক্তি জায়ান্টরা কৃত্রিম বুদ্ধিমত্তার সীমানা আরও বাইরের দিকে ঠেলে দেওয়ায় দ্রুত অগ্রগতি অব্যাহত থাকবে।