কোডিং কাজের জন্য বিশেষভাবে তৈরি কৃত্রিম বুদ্ধিমত্তার বিশেষ ক্ষেত্রে একটি সম্ভাব্য আলোড়ন ঘটছে। বেশ কিছু সময় ধরে, Anthropic দ্বারা বিকশিত মডেলগুলি, বিশেষ করে এর Claude সিরিজ, প্রায়শই ডেভেলপারদের কোড লেখা, ডিবাগিং এবং বুঝতে সহায়তা করার ক্ষেত্রে অগ্রণী হিসাবে উল্লেখ করা হয়েছে। যাইহোক, সাম্প্রতিক ঘটনাবলী ইঙ্গিত দেয় যে একটি শক্তিশালী নতুন প্রতিযোগী ময়দানে প্রবেশ করেছে: Google-এর Gemini 2.5। প্রাথমিক সূচক, যার মধ্যে বেঞ্চমার্ক পারফরম্যান্স এবং প্রাথমিক ডেভেলপার প্রতিক্রিয়া অন্তর্ভুক্ত, এই সর্বশেষ পুনরাবৃত্তিটি সম্ভাব্যভাবে AI-চালিত কোডিং সহায়তার মানগুলিকে পুনরায় সংজ্ঞায়িত করার দিকে নির্দেশ করে, প্রতিষ্ঠিত শ্রেণিবিন্যাসটি কি পুনর্বিন্যাস হতে চলেছে সে সম্পর্কে প্রশ্ন উত্থাপন করে। বিশেষ করে Gemini 2.5 Pro Experimental-এর উত্থান, ডেভেলপার সম্প্রদায়ের মধ্যে তীব্র আলোচনা এবং তুলনার জন্ম দিচ্ছে।
বেঞ্চমার্কিং দক্ষতা: একটি পরিমাণগত প্রান্ত?
উদ্দেশ্যমূলক মেট্রিক্স প্রায়শই একটি নতুন মডেলের সক্ষমতার প্রথম আভাস দেয় এবং এই ক্ষেত্রে, Gemini 2.5 একটি উল্লেখযোগ্য প্রবেশ করেছে। একটি বিশেষভাবে প্রাসঙ্গিক মূল্যায়ন হল Aider Polyglot লিডারবোর্ড, একটি বেঞ্চমার্ক যা একাধিক প্রোগ্রামিং ভাষায় নতুন কোড তৈরি এবং বিদ্যমান কোডবেস পরিবর্তন করার ব্যবহারিক কাজগুলিতে বৃহৎ ভাষা মডেলগুলির (LLMs) দক্ষতা মূল্যায়নের জন্য যত্ন সহকারে ডিজাইন করা হয়েছে। এই চাহিদাপূর্ণ মূল্যায়নের মধ্যে, Gemini 2.5 Pro-এর পরীক্ষামূলক সংস্করণটি একটি অসাধারণ 72.9% স্কোর অর্জন করেছে। এই পরিসংখ্যানটি এটিকে শক্তিশালী প্রতিযোগীদের থেকে উল্লেখযোগ্যভাবে এগিয়ে রাখে, যার মধ্যে Anthropic-এর Claude 3.7 Sonnet রয়েছে, যা 64.9% নিবন্ধন করেছে। এটি OpenAI-এর অফারগুলিকেও ছাড়িয়ে গেছে, যেমন o1 মডেল (61.7%) এবং o3-mini হাই ভেরিয়েন্ট (60.4%)। কোডিং-নির্দিষ্ট বেঞ্চমার্কে এই ধরনের লিড এই ক্ষেত্রে Gemini 2.5-এর যোগ্যতার জন্য একটি শক্তিশালী পরিমাণগত যুক্তি।
কোডিং-কেন্দ্রিক মূল্যায়নের বাইরে, Gemini 2.5 যুক্তি এবং জ্ঞান প্রয়োগের বিস্তৃত পরীক্ষায় ব্যতিক্রমী কর্মক্ষমতা প্রদর্শন করেছে। এটি GPQA (Graduate-Level Google-Proof Q&A) বেঞ্চমার্কে শীর্ষস্থান অর্জন করেছে, একটি কঠোর পরীক্ষা যা AI মডেলগুলিকে স্নাতক অধ্যয়নের স্তরে সাধারণত সম্মুখীন হওয়া বিভিন্ন বৈজ্ঞানিক শাখা বিস্তৃত জটিল প্রশ্নগুলির সাথে চ্যালেঞ্জ করে। Gemini 2.5 এই বেঞ্চমার্কে 83% স্কোর অর্জন করেছে। এই পারফরম্যান্স OpenAI-এর o1-Pro মডেলকে ছাড়িয়ে গেছে, যা 79% স্কোর করেছে, এবং Anthropic-এর Claude 3.7 Sonnet, যা বর্ধিত চিন্তার সময় কৌশল ব্যবহার করেও 77% অর্জন করেছে। কোডিংয়ের মতো বিশেষ দক্ষতার পাশাপাশি সাধারণ যুক্তি পরীক্ষা সহ বিভিন্ন বেঞ্চমার্ক জুড়ে সামঞ্জস্যপূর্ণ উচ্চ র্যাঙ্কিং, একটি শক্তিশালী এবং বহুমুখী অন্তর্নিহিত স্থাপত্যের পরামর্শ দেয়। বিশেষায়িত কোডিং ক্ষমতা এবং বিস্তৃত বুদ্ধিবৃত্তিক ক্ষমতার এই সংমিশ্রণ একটি ব্যাপক AI সহকারী খুঁজছেন এমন ডেভেলপারদের জন্য একটি মূল পার্থক্যকারী হতে পারে।
ডেভেলপারদের প্রশংসা এবং বাস্তব-বিশ্বের বৈধতা
যদিও বেঞ্চমার্কগুলি মূল্যবান পরিমাণগত অন্তর্দৃষ্টি প্রদান করে, একটি AI কোডিং সহকারীর আসল পরীক্ষা বাস্তব-বিশ্বের প্রকল্পগুলিতে ডেভেলপারদের দ্বারা এর ব্যবহারিক প্রয়োগের মধ্যে নিহিত। প্রাথমিক প্রতিবেদন এবং প্রশংসাপত্রগুলি পরামর্শ দেয় যে Gemini 2.5 শুধুমাত্র নিয়ন্ত্রিত পরীক্ষায় ভাল পারফর্ম করছে না বরং ব্যবহারকারীদের তাদের দৈনন্দিন কর্মপ্রবাহেও প্রভাবিত করছে। Mckay Wrigley, একজন ডেভেলপার যিনি সক্রিয়ভাবে নতুন মডেল নিয়ে পরীক্ষা-নিরীক্ষা করছেন, একটি শক্তিশালী সমর্থন প্রস্তাব করেছেন, দ্ব্যর্থহীনভাবে বলেছেন, ‘Gemini 2.5 Pro এখন সহজেই কোডের জন্য সেরা মডেল।’ তার পর্যবেক্ষণগুলি নিছক কোড জেনারেশনের বাইরে চলে গেছে; তিনি এমন উদাহরণ তুলে ধরেছেন যেখানে মডেলটি প্রদর্শন করেছে যা তিনি ‘প্রকৃত প্রতিভার ঝলক‘ হিসাবে অভিহিত করেছেন। উপরন্তু, Wrigley একটি সম্ভাব্য গুরুত্বপূর্ণ বৈশিষ্ট্যের দিকে ইঙ্গিত করেছেন: মডেলটি কেবল ব্যবহারকারীর প্রম্পটগুলির সাথে একমত হওয়ার জন্য ডিফল্ট হয় না তবে আরও সমালোচনামূলকভাবে জড়িত হয়, যা একটি গভীর স্তরের বোঝাপড়া বা সিমুলেটেড যুক্তির পরামর্শ দেয়। তার উপসংহার ছিল জোরালো: ‘Google এখানে একটি আসল বিজয়ী প্রদান করেছে।’
এই ইতিবাচক অনুভূতি অন্যদের দ্বারা ভাগ করা হয়েছে বলে মনে হচ্ছে, বিশেষ করে যখন Anthropic-এর অত্যন্ত সম্মানিত Claude 3.7 Sonnet-এর সাথে সরাসরি তুলনা করা হয়। অসংখ্য ডেভেলপার খুঁজে পাচ্ছেন যে তাদের ব্যবহারিক অভিজ্ঞতাগুলি Gemini 2.5-এর পক্ষে বেঞ্চমার্ক ফলাফলের সাথে সামঞ্জস্যপূর্ণ। Reddit-এ একজন ব্যবহারকারীর কাছ থেকে একটি দৃষ্টান্তমূলক বিবরণ উঠে এসেছে যিনি Claude 3.7 Sonnet ব্যবহার করে বেশ কয়েক ঘন্টা ধরে একটি অ্যাপ্লিকেশন তৈরি করার জন্য তার সংগ্রামের বিস্তারিত বিবরণ দিয়েছেন। ব্যবহারকারীর মতে, ফলাফলটি মূলত অ-কার্যকর কোড ছিল যা দুর্বল নিরাপত্তা অনুশীলনে জর্জরিত ছিল, যেমন কোডের মধ্যে সরাসরি API কী এম্বেড করা (হার্ডকোডিং)। হতাশ হয়ে, ডেভেলপার Gemini 2.5-এ স্যুইচ করেন। তারা Claude দ্বারা উত্পন্ন সম্পূর্ণ ত্রুটিপূর্ণ কোডবেস ইনপুট হিসাবে সরবরাহ করেছিল। Gemini 2.5 कथितভাবে শুধুমাত্র গুরুতর ত্রুটিগুলি চিহ্নিত করেনি এবং সেগুলিকে স্পষ্টভাবে ব্যাখ্যা করেনি বরং সম্পূর্ণ অ্যাপ্লিকেশনটি পুনরায় লেখার জন্য এগিয়ে গিয়েছিল, যার ফলে একটি কার্যকরী এবং আরও সুরক্ষিত সংস্করণ তৈরি হয়েছিল। এই উপাখ্যানটি জটিল ডিবাগিং এবং রিফ্যাক্টরিং কাজগুলি কার্যকরভাবে পরিচালনা করার জন্য Gemini 2.5-এর সম্ভাব্যতাকে তুলে ধরে।
আরও তুলনামূলক পরীক্ষাগুলি বিকাশের বিভিন্ন দিকগুলিতে ফোকাস করেছে। সামাজিক প্ল্যাটফর্ম X-এ নথিভুক্ত একটি উদাহরণে, একজন ব্যবহারকারী Gemini 2.5-কে Claude 3.7 Sonnet-এর বিরুদ্ধে একটি ভিজ্যুয়াল টাস্কে দাঁড় করিয়েছেন: ChatGPT-এর ইউজার ইন্টারফেস (UI) পুনরায় তৈরি করা। ব্যবহারকারীর মূল্যায়ন অনুসারে, Gemini 2.5 তার Anthropic প্রতিপক্ষের তুলনায় টার্গেট UI-এর একটি আরও নির্ভুল ভিজ্যুয়াল উপস্থাপনা তৈরি করেছে। যদিও UI প্রতিলিপি বিকাশের একটি দিক মাত্র, এই ধরনের কাজগুলিতে নির্ভুলতা একটি মডেলের বিস্তারিত মনোযোগ এবং জটিল বিবরণ বা উদাহরণগুলিকে বাস্তব আউটপুটে অনুবাদ করার ক্ষমতা নির্দেশ করতে পারে।
উন্নতিগুলি কেবল প্রতিযোগীদের তুলনায় আপেক্ষিক নয় বরং Google-এর নিজস্ব পূর্ববর্তী মডেলগুলির উপর একটি উল্লেখযোগ্য অগ্রগতির প্রতিনিধিত্ব করে। ডেভেলপার Alex Mizrahi এই অভ্যন্তরীণ অগ্রগতি তুলে ধরে একটি অভিজ্ঞতা শেয়ার করেছেন। তিনি Gemini 2.5 ব্যবহার করেছেন এবং দেখেছেন যে এটি সম্পূর্ণরূপে তার অভ্যন্তরীণ জ্ঞান বেস থেকে Rell (একটি নির্দিষ্ট প্রোগ্রামিং ভাষা)-এর সিনট্যাক্সের প্রায় 80-90% স্মরণ করতে পারে। এটি পূর্ববর্তী Gemini সংস্করণগুলির তুলনায় একটি উল্লেখযোগ্য অগ্রগতি চিহ্নিত করেছে, যা Mizrahi-এর মতে, প্রম্পটের মধ্যে স্পষ্টভাবে উদাহরণ প্রদান করা হলেও Rell সিনট্যাক্সের সাথে উল্লেখযোগ্যভাবে লড়াই করেছিল। এটি মডেলের অন্তর্নিহিত প্রশিক্ষণ ডেটা এবং কম সাধারণ ভাষা বা সিনট্যাক্সগুলির জন্য স্মরণ করার ক্ষমতাগুলিতে উন্নতির পরামর্শ দেয়।
সহযোগী কোডিং এবং প্রাসঙ্গিক সুবিধা
কাঁচা কোড জেনারেশন এবং নির্ভুলতার বাইরে, একটি AI মডেলের মিথস্ক্রিয়া শৈলী এবং প্রাসঙ্গিক ক্ষমতা একটি কোডিং অংশীদার হিসাবে এর উপযোগিতাকে উল্লেখযোগ্যভাবে প্রভাবিত করে। ব্যবহারকারীরা Gemini 2.5 এর সাথে কাজ করার সময় আরও সহযোগিতামূলক অনুভূতির কথা জানাচ্ছেন। ডেভেলপার Matthew Berman X-এ একটি স্বতন্ত্র আচরণের কথা উল্লেখ করেছেন: ‘এটি (Gemini 2.5 Pro) আমাকে পথ ধরে স্পষ্টীকরণের প্রশ্ন জিজ্ঞাসা করে, যা অন্য কোনও মডেল করেনি।‘ তিনি এটিকে মিথস্ক্রিয়াটিকে ‘অনেক বেশি‘ সহযোগিতামূলক করে তোলার ব্যাখ্যা দিয়েছেন। এই সক্রিয় সম্পৃক্ততা—অনুমান করার পরিবর্তে স্পষ্টীকরণ চাওয়া—আরও সুনির্দিষ্ট ফলাফলের দিকে নিয়ে যেতে পারে, পুনরাবৃত্তি কমাতে পারে এবং সম্ভাব্য ভুল বোঝাবুঝি প্রতিরোধ করতে পারে, বিশেষ করে জটিল বা অস্পষ্টভাবে সংজ্ঞায়িত কাজগুলিতে যা প্রায়শই ‘vibe coding’-এ সম্মুখীন হয় যেখানে ডেভেলপারের একটি সাধারণ ধারণা থাকে কিন্তু একটি সুনির্দিষ্ট স্পেসিফিকেশন থাকে না।
জটিল কোডিং পরিস্থিতিতে Gemini 2.5-এর সম্ভাব্য শ্রেষ্ঠত্বে অবদান রাখা একটি প্রধান প্রযুক্তিগত কারণ হল এর বিশাল কনটেক্সট উইন্ডো। মডেলটি 1 মিলিয়ন ইনপুট টোকেন পর্যন্ত সমর্থন করে। এটি বর্তমান প্রতিযোগীদের তুলনায় একটি উল্লেখযোগ্য সুবিধা উপস্থাপন করে। OpenAI-এর নেতৃস্থানীয় মডেল, o1 এবং o3-mini, বর্তমানে 250,000 টোকেনের একটি কনটেক্সট উইন্ডো সমর্থন করে। যদিও Anthropic कथितভাবে তার কনটেক্সট উইন্ডো প্রসারিত করার দিকে কাজ করছে, সম্ভাব্যভাবে 500,000 টোকেন পর্যন্ত, Gemini 2.5-এর বর্তমান ক্ষমতা এই পরিসংখ্যানগুলিকে উল্লেখযোগ্যভাবে ছাড়িয়ে গেছে।
কোডিংয়ের জন্য একটি বড় কনটেক্সট উইন্ডো এত গুরুত্বপূর্ণ কেন? আধুনিক সফ্টওয়্যার ডেভেলপমেন্টে প্রায়শই বিস্তৃত কোডবেস, একাধিক ফাইল, জটিল নির্ভরতা এবং পরিবর্তনের দীর্ঘ ইতিহাস নিয়ে কাজ করা জড়িত। একটি বৃহত্তর কনটেক্সট উইন্ডো সহ একটি মডেল একই সাথে এই আশেপাশের তথ্যের আরও বেশি গ্রহণ এবং প্রক্রিয়া করতে পারে। এটি এটিকে বড় প্রকল্পগুলিতে আরও ভাল সামঞ্জস্য বজায় রাখতে, বিভিন্ন কোড মডিউলগুলির মধ্যে জটিল আন্তঃসম্পর্ক বুঝতে, ফাইল জুড়ে ভেরিয়েবল ব্যবহার এবং ফাংশন সংজ্ঞা ট্র্যাক করতে এবং সম্ভাব্যভাবে এমন কোড তৈরি করতে দেয় যা বিদ্যমান কাঠামোতে আরও নির্বিঘ্নে সংহত হয় যার জন্য ডেভেলপারকে ম্যানুয়ালি প্রাসঙ্গিক কনটেক্সটের স্নিপেটগুলি ক্রমাগত ফিড করার প্রয়োজন হয় না। বড় আকারের রিফ্যাক্টরিং, লিগ্যাসি সিস্টেম বোঝা বা অ্যাপ্লিকেশনটির অনেক অংশ স্পর্শ করে এমন বৈশিষ্ট্যগুলি বিকাশের মতো কাজগুলির জন্য, একটি মিলিয়ন-টোকেন কনটেক্সট উইন্ডো একটি গেম-চেঞ্জার হতে পারে, ত্রুটি হ্রাস করতে পারে এবং AI-এর অবদানের গুণমান এবং প্রাসঙ্গিকতা উন্নত করতে পারে।
দীর্ঘস্থায়ী অপূর্ণতা এবং তত্ত্বাবধানের প্রয়োজন
চিত্তাকর্ষক অগ্রগতি এবং ইতিবাচক প্রতিক্রিয়া সত্ত্বেও, দৃষ্টিকোণ বজায় রাখা অত্যন্ত গুরুত্বপূর্ণ: Gemini 2.5, বিশেষ করে এর বর্তমান ‘Pro Experimental’ উপাধিতে, একটি ত্রুটিহীন কোডিং ওরাকল নয়। এটি এখনও সফ্টওয়্যার ডেভেলপমেন্টের জন্য বৃহৎ ভাষা মডেল ব্যবহার করার সাথে সম্পর্কিত ক্লাসিক চ্যালেঞ্জ এবং সম্ভাব্য সমস্যাগুলির কিছু প্রদর্শন করে। মানুষের বিচার এবং সযত্ন তত্ত্বাবধানের মৌলিক প্রয়োজনীয়তা পরম রয়ে গেছে।
উদ্বেগের একটি উল্লেখযোগ্য ক্ষেত্র হল নিরাপত্তা। ডেভেলপার Kaden Bilyeu X-এ একটি উদাহরণ শেয়ার করেছেন যেখানে Gemini 2.5 এমন কোড তৈরি করার চেষ্টা করেছিল যা চ্যাট প্রতিক্রিয়াগুলি পরিচালনা করার জন্য একটি ক্লায়েন্ট-সাইড API তৈরি করবে। এই পদ্ধতিটি অন্তর্নিহিতভাবে অনিরাপদ কারণ এটি অনিবার্যভাবে ক্লায়েন্ট-সাইড কোডের মধ্যে API কী-এর প্রকাশ বা ফাঁস হতে পারে, যা এটিকে শেষ-ব্যবহারকারীদের কাছে অ্যাক্সেসযোগ্য করে তোলে। এটি তুলে ধরে যে এমনকি উন্নত মডেলগুলিরও নিরাপত্তা সর্বোত্তম অনুশীলনের মৌলিক বোঝার অভাব থাকতে পারে, সম্ভাব্যভাবে গুরুতর দুর্বলতাগুলি প্রবর্তন করতে পারে যদি তাদের আউটপুট অন্ধভাবে বিশ্বাস করা হয়। ডেভেলপারদের অবশ্যই কঠোরভাবে AI-উত্পন্ন কোড পর্যালোচনা করতে হবে, বিশেষ করে প্রমাণীকরণ, অনুমোদন এবং ডেটা হ্যান্ডলিং সম্পর্কিত।
অধিকন্তু, খুব বড় কোডবেসগুলি কার্যকরভাবে পরিচালনা করার জন্য মডেলের ক্ষমতা মিশ্র পর্যালোচনা পেয়েছে, যা পরামর্শ দেয় যে এর চিত্তাকর্ষক কনটেক্সট উইন্ডো সর্বদা ভারী লোডের অধীনে ব্যবহারিক কর্মক্ষমতায় পুরোপুরি অনুবাদ নাও হতে পারে। ডেভেলপার Louie Bacaj প্রায় 3,500 লাইনের কোড সমন্বিত একটি কোডবেসে অপারেশন করার জন্য Gemini 2.5 কে দায়িত্ব দেওয়ার সময় উল্লেখযোগ্য সংগ্রামের কথা জানিয়েছেন। Bacaj উল্লেখ করেছেন যে কনটেক্সট হ্যান্ডলিংয়ে মডেলের কথিত উন্নতি এবং কনটেক্সট প্রাপ্ত হয়েছে তা নির্দেশ করে সফল API কল সত্ত্বেও, এটি প্রায়শই এই বৃহত্তর প্রকল্পের সুযোগের মধ্যে অনুরোধ করা কাজগুলি নির্ভুলভাবে বা ব্যাপকভাবে সম্পাদন করতে ব্যর্থ হয়। এটি যথেষ্ট বিদ্যমান কোডের মধ্যে জটিল যুক্তি বা ম্যানিপুলেশন কাজের জন্য সম্পূর্ণ কনটেক্সট উইন্ডো কার্যকরভাবে ব্যবহার করার ক্ষেত্রে সম্ভাব্য সীমাবদ্ধতা বা কোডের নির্দিষ্ট প্রকৃতি এবং কাজের উপর নির্ভর করে কর্মক্ষমতার অসঙ্গতির পরামর্শ দেয়।
বর্তমানে উপলব্ধ Gemini 2.5 Pro সংস্করণের সাথে সংযুক্ত ‘Experimental’ লেবেলটিও তাৎপর্যপূর্ণ। এটি ইঙ্গিত দেয় যে Google এখনও সক্রিয়ভাবে মডেলটিকে পরিমার্জন করছে। ব্যবহারকারীদের সম্ভাব্য অস্থিরতা, কর্মক্ষমতার ভিন্নতা এবং চলমান পরিবর্তনগুলি আশা করা উচিত কারণ Google প্রতিক্রিয়া সংগ্রহ করে এবং প্রযুক্তির উপর পুনরাবৃত্তি করে। যদিও এই পর্যায়টি অত্যাধুনিক ক্ষমতাগুলিতে প্রাথমিক অ্যাক্সেসের অনুমতি দেয়, এর অর্থ এইও যে মডেলটি এখনও একটি চূড়ান্ত উত্পাদন প্রকাশের প্রত্যাশিত সম্পূর্ণ নির্ভরযোগ্যতা বা পোলিশ ধারণ নাও করতে পারে। ক্রমাগত উন্নতি সম্ভবত, কিন্তু বর্তমান ব্যবহারকারীরা কার্যকরভাবে একটি বড় আকারের বিটা পরীক্ষায় অংশগ্রহণ করছে। এই অপূর্ণতাগুলি লুপে মানব ডেভেলপারের অপরিহার্য ভূমিকাকে তুলে ধরে – কেবল ত্রুটি ধরার জন্য নয়, বরং স্থাপত্য সংক্রান্ত সিদ্ধান্ত, কৌশলগত পরিকল্পনা এবং চূড়ান্ত পণ্যটি প্রয়োজনীয়তা এবং মানের মানগুলির সাথে সামঞ্জস্যপূর্ণ তা নিশ্চিত করার জন্য।
বৃহত্তর চ্যালেঞ্জ: অভিজ্ঞতাকে শক্তিতে প্যাকেজিং
যদিও Google DeepMind Gemini 2.5-এর মতো মডেলগুলির সাথে অসাধারণ প্রযুক্তিগত মাইলফলক অর্জন করছে বলে মনে হচ্ছে, একটি পুনরাবৃত্ত থিম উঠে আসে: কাঁচা প্রযুক্তিগত শক্তিকে বাধ্যতামূলক, অ্যাক্সেসযোগ্য এবং আকর্ষক ব্যবহারকারীর অভিজ্ঞতায় অনুবাদ করার চ্যালেঞ্জ যা বাজারের মনোযোগ আকর্ষণ করে। একটি ধারণা রয়েছে যে এমনকি যখন Google সম্ভাব্য বিশ্ব-নেতৃস্থানীয় AI ক্ষমতাগুলি বিকাশ করে, তখন এটি কখনও কখনও এই ক্ষমতাগুলিকে এমনভাবে প্যাকেজিং এবং উপস্থাপন করতে ব্যর্থ হয় যা ব্যবহারকারীদের সাথে ব্যাপকভাবে অনুরণিত হয়, বিশেষ করে OpenAI-এর মতো প্রতিযোগীদের তুলনায়।
এই সমস্যাটি অ্যাঞ্জেল ইনভেস্টর Nikunj Kothari দ্বারা হাইলাইট করা হয়েছিল, যিনি Google DeepMind টিমের প্রতি কিছুটা সহানুভূতি প্রকাশ করেছিলেন। ‘আমি Google DeepMind টিমের জন্য কিছুটা অনুভব করি,’ তিনি মন্তব্য করেছিলেন, শক্তিশালী মডেলগুলির লঞ্চ এবং প্রতিযোগীদের দ্বারা প্রায়শই উত্পন্ন ভাইরাল ঘটনাগুলির মধ্যে বৈসাদৃশ্য পর্যবেক্ষণ করে। ‘আপনি একটি বিশ্ব-পরিবর্তনকারী মডেল তৈরি করেন এবং সবাই পরিবর্তে Ghibli-ফাইড ছবি পোস্ট করছে,’ তিনি যোগ করেছেন, OpenAI-এর GPT-4o ইমেজ জেনারেশন ক্ষমতাগুলির চারপাশে গুঞ্জনের কথা উল্লেখ করে, যা দ্রুত জনসাধারণের কল্পনাকে আকর্ষণ করেছিল। Kothari এটিকে Google-এর জন্য একটি অবিরাম চ্যালেঞ্জ হিসাবে চিহ্নিত করেছেন: সেরা-শ্রেণীর AI তৈরিতে সক্ষম বিশাল প্রযুক্তিগত প্রতিভা থাকা, কিন্তু সম্ভাব্যভাবে ভোক্তা-মুখী পণ্য ডিজাইন এবং অভিজ্ঞতার গুরুত্বপূর্ণ স্তরে কম বিনিয়োগ করা। ‘আমি তাদের কাছে অনুরোধ করছি তাদের সেরা প্রতিভাবান লোকদের 20% নিতে এবং তাদের বিশ্বমানের ভোক্তা অভিজ্ঞতা তৈরিতে অবাধ লাগাম দিতে,’ তিনি অনুরোধ করেছিলেন।
এই অনুভূতি মডেলগুলির অনুভূত ‘ব্যক্তিত্ব’ পর্যন্ত প্রসারিত। Kothari উল্লেখ করেছেন যে Gemini 2.5-এর ইন্টারেক্টিভ স্টাইল অন্যান্য নেতৃস্থানীয় মডেলগুলির তুলনায় ‘বেশ মৌলিক‘ অনুভূত হয়েছে। এই বিষয়গত উপাদান, যদিও পরিমাপ করা কঠিন, ব্যবহারকারীর সম্পৃক্ততা এবং AI-এর সাথে সহযোগিতার অনুভূতিকে প্রভাবিত করে। বেশ কয়েকজন অন্যান্য ব্যবহারকারী এই পর্যবেক্ষণটি প্রতিধ্বনিত করেছেন, পরামর্শ দিয়েছেন যে প্রযুক্তিগতভাবে দক্ষ হলেও, মডেলটিতে প্রতিযোগীদের দ্বারা চাষ করা আরও আকর্ষক বা সংক্ষিপ্ত মিথস্ক্রিয়া শৈলীর অভাব থাকতে পারে।
ব্যবহারিক ব্যবহারযোগ্যতার সমস্যাগুলিও সামনে এসেছে। উদাহরণস্বরূপ, Gemini 2.0 Flash মডেলের মধ্যে নেটিভ ইমেজ জেনারেশনের প্রকাশ, প্রযুক্তিগতভাবে এর ক্ষমতার জন্য প্রশংসিত হয়েছিল। যাইহোক, অনেক ব্যবহারকারী কেবল বৈশিষ্ট্যটি খুঁজে পেতে এবং ব্যবহার করতে অসুবিধার কথা জানিয়েছেন। ইউজার ইন্টারফেসটিকে স্বজ্ঞাত নয় বলে বর্ণনা করা হয়েছিল, বিকল্পগুলি অপ্রয়োজনীয়ভাবে মেনুর মধ্যে নেস্টেড ছিল। একটি শক্তিশালী বৈশিষ্ট্য অ্যাক্সেস করার ক্ষেত্রে এই ঘর্ষণ অন্তর্নিহিত প্রযুক্তির গুণমান নির্বিশেষে ব্যবহারকারীর উত্সাহ এবং গ্রহণকে উল্লেখযোগ্যভাবে হ্রাস করতে পারে। যদি একজন ব্যবহারকারী এমনকি একটি কাজ শুরু করতে লড়াই করে, তবে মডেলের শক্তি তাদের কাছে অপ্রাসঙ্গিক হয়ে যায়।
GPT-4o-এর ইমেজ জেনারেশনকে ঘিরে ‘Ghibli mania’-এর প্রতিফলন করে, পরিস্থিতিটি Google-এর বিপণনে সরাসরি ব্যর্থ হওয়ার চেয়ে OpenAI-এর ব্যবহারকারীর মনোবিজ্ঞান বোঝা এবং ব্যবহার করার দক্ষতার বিষয়ে কম হতে পারে। যেমন X-এ একজন ব্যবহারকারী OpenAI-এর শোকেস সম্পর্কে উল্লেখ করেছেন, ‘আপনি দুটি ছবি পোস্ট করেন এবং সবাই এটি পায়।‘ প্রদর্শনের ভিজ্যুয়াল, সহজে শেয়ারযোগ্য এবং অন্তর্নিহিতভাবে সৃজনশীল প্রকৃতি অবিলম্বে ব্যবহারকারীর আগ্রহে ট্যাপ করেছে। বিপরীতে, Gemini 2.5-এর মতো একটি ভাষা মডেলের সংক্ষিপ্ত উন্নতিগুলি মূল্যায়ন করার জন্য আরও প্রচেষ্টার প্রয়োজন। ‘আপনি একই লোকদের 2.0 দ্বারা উত্পন্ন একটি প্রতিবেদন পড়তে এবং এটিকে 2.5 এর সাথে তুলনা করতে বলেন, এবং এর জন্য স্ক্রোলিং এবং লাইক করার চেয়ে বেশি সময় প্রয়োজন,’ ব্যবহারকারী বিস্তারিতভাবে বলেছেন।
এই পরিস্থিতিগুলি বর্তমান AI ল্যান্ডস্কেপে একটি গুরুত্বপূর্ণ পাঠ তুলে ধরে: প্রযুক্তিগত শ্রেষ্ঠত্ব একাই বাজারের নেতৃত্ব বা ব্যবহারকারীর পছন্দের গ্যারান্টি দেয় না। ব্যবহারের সহজতা, স্বজ্ঞাত নকশা, ক্ষমতার কার্যকর যোগাযোগ এবং এমনকি AI-এর অনুভূত ব্যক্তিত্ব বা সম্পৃক্ততা ফ্যাক্টরের মতো কারণগুলি গুরুত্বপূর্ণ ভূমিকা পালন করে। গড় ব্যবহারকারী, যার মধ্যে উত্পাদনশীলতার উপর দৃষ্টি নিবদ্ধ করা অনেক ডেভেলপার রয়েছে, প্রায়শই এমন সরঞ্জামগুলির দিকে আকৃষ্ট হয় যা কেবল শক্তিশালীই নয়, উপভোগ্য, সম্পর্কিত এবং তাদের কর্মপ্রবাহে নির্বিঘ্নে সংহত। Google-এর জন্য Gemini 2.5-এর মতো মডেলগুলির সম্ভাব্যতাকে সম্পূর্ণরূপে পুঁজি করার জন্য, বিশেষ করে কোডিং সহায়তার মতো প্রতিযোগিতামূলক ক্ষেত্রগুলিতে, অত্যাধুনিক গবেষণা এবং ব্যতিক্রমী ব্যবহারকারীর অভিজ্ঞতার মধ্যে ব্যবধান পূরণ করা একটি অত্যাবশ্যক উদ্যোগ হিসাবে রয়ে গেছে।