মিস্ট্রাল মিডিয়াম ৩: এআই চ্যালেঞ্জ

ফ্রান্সের স্টার্টআপ কোম্পানি মিস্ট্রাল এআই (Mistral AI) সম্প্রতি তাদের নতুন মাল্টিমোডাল মডেল মিস্ট্রাল মিডিয়াম ৩ (Mistral Medium 3) প্রকাশ করেছে। কোম্পানি দাবি করেছে এই মডেলটি ক্লড সনেট ৩.৭ (Claude Sonnet 3.7)-এর মতো শক্তিশালী এবং ডিপসিক ভি ৩ (DeepSeek V3) থেকে কম খরচে ভালো পারফর্ম করতে সক্ষম। এই ঘোষণার পরেই প্রযুক্তি বিশ্বে আলোড়ন সৃষ্টি হয়। কিন্তু ব্যবহারকারীরা পরীক্ষা করে দেখেছেন যে, মডেলটি কোম্পানির প্রচারের মতো ফল দেয় না। এমনকি কেউ কেউ এই মডেল ডাউনলোড করে সময় নষ্ট না করার পরামর্শ দিয়েছেন।

মিস্ট্রাল মিডিয়াম ৩-এর আনুষ্ঠানিক ঘোষণা

মিস্ট্রাল এআই তাদের ব্লগপোস্টে মিস্ট্রাল মিডিয়াম ৩-এর কয়েকটি মূল বৈশিষ্ট্যের কথা উল্লেখ করেছে:

  • কার্যকারিতা ও খরচের ভারসাম্য: মিস্ট্রাল মিডিয়াম ৩-এর লক্ষ্য হল সবচেয়ে ভালো পারফরম্যান্স দেওয়ার পাশাপাশি খরচ আট ভাগের এক ভাগে কমিয়ে আনা, যাতে ব্যবসায়িক ক্ষেত্রে এর ব্যবহার বাড়ে।
  • বিশেষ ব্যবহারের সুবিধা: এই মডেলটি কোড লেখা এবং মাল্টিমোডাল বিষয়গুলো বুঝতে পারার ক্ষেত্রে খুবই উপযোগী।
  • এন্টারপ্রাইজ-লেভেলের সুবিধা: মিস্ট্রাল মিডিয়াম ৩ এন্টারপ্রাইজ-লেভেলের বিভিন্ন সুবিধা দিয়ে থাকে। যেমন - হাইব্রিড ক্লাউড (Hybrid Cloud) স্থাপন, লোকাল স্থাপন এবং ভিপিসি (VPC)-র মধ্যে স্থাপন করার সুবিধা, সেইসাথে কাস্টমাইজড ট্রেনিং এবং এন্টারপ্রাইজ সরঞ্জাম ও সিস্টেমে যুক্ত করার সুবিধা রয়েছে।

মিস্ট্রাল মিডিয়াম ৩ এপিআই (Mistral Medium 3 API) মিস্ট্রাল লা প্ল্যাটফর্ম (Mistral La Plateforme) এবং অ্যামাজন সেজমেকারে (Amazon Sagemaker) পাওয়া যাচ্ছে। খুব শীঘ্রই এটি IBM WatsonX, NVIDIA NIM, Azure AI Foundry এবং Google Cloud Vertex-এও পাওয়া যাবে।

পারফরম্যান্সের তুলনা

মিস্ট্রাল এআই-এর দাবি অনুযায়ী, বিভিন্ন বেঞ্চমার্ক পরীক্ষায় মিস্ট্রাল মিডিয়াম ৩-এর পারফরম্যান্স ক্লড সনেট ৩.৭-এর ৯০% বা তার বেশি। তবে এর খরচ অনেক কম। মিস্ট্রাল মিডিয়াম ৩-এর ইনপুট খরচ প্রতি মিলিয়ন টোকেনে ০.৪ মার্কিন ডলার এবং আউটপুট খরচ ২ মার্কিন ডলার।

এছাড়াও, মিস্ট্রাল মিডিয়াম ৩-এর পারফরম্যান্স লামা ৪ ম্যাভেরিক (Llama 4 Maverick) এবং কোহেরে কম্যান্ড এ (Cohere Command A)-এর চেয়েও ভালো। এপিআই অথবা নিজস্বভাবে স্থাপন করার ক্ষেত্রেও মিস্ট্রাল মিডিয়াম ৩-এর খরচ ডিপসিক ভি ৩ থেকে কম। এই মডেলটি চারটি জিপিইউ (GPU) বা তার বেশি সংখ্যক স্ব-হোস্টেড পরিবেশসহ যেকোনো ক্লাউডে স্থাপন করা যায়।

এন্টারপ্রাইজ ব্যবহারের উপর ফোকাস

কোম্পানি জোর দিয়ে বলেছে যে, মিস্ট্রাল মিডিয়াম ৩-এর প্রধান লক্ষ্য হল এমন একটি মডেল তৈরি করা, যা কোডিং এবং বিজ্ঞান-প্রযুক্তি-গণিত (STEM) বিষয়ক কাজগুলোতে বিশেষভাবে দক্ষ হবে এবং বড় আকারের প্রতিদ্বন্দ্বী মডেলগুলোর চেয়ে দ্রুত কাজ করতে পারবে।

প্রকাশিত তথ্য অনুযায়ী, মিস্ট্রাল মিডিয়াম ৩-এর পারফরম্যান্স লামা ৪ ম্যাভেরিক এবং জিপিটি-৪ও (GPT-4o) থেকে বেশি এবং ক্লড সনেট ৩.৭ ও ডিপসিক ৩.১-এর কাছাকাছি।

মডেলটির কার্যকারিতা যাচাই করার জন্য মিস্ট্রাল এআই তৃতীয় পক্ষের মাধ্যমে মূল্যায়ন করিয়ে কিছু ফলাফল প্রকাশ করেছে। এই মূল্যায়নগুলো বাস্তব পরিস্থিতিতে মডেলটির ব্যবহার কেমন হতে পারে, তার একটি ধারণা দেয়। ফলাফলে দেখা গেছে, মিস্ট্রাল মিডিয়াম ৩ কোডিংয়ের ক্ষেত্রে খুব ভালো পারফর্ম করে এবং অন্যান্য প্রতিযোগীদের চেয়ে ভালো ফলাফল দেয়।

এন্টারপ্রাইজ পরিবেশে কাজ করার ক্ষেত্রেও মিস্ট্রাল মিডিয়াম ৩ অন্যান্য অত্যাধুনিক মডেলের চেয়ে ভালো। এটি এন্টারপ্রাইজগুলোকে তাদের সিস্টেমে এআই যুক্ত করার একটি সহজ উপায় দেখায় এবং এপিআই ফাইন-টিউনিং (API fine-tuning) ও মডেল কাস্টমাইজেশনের সমস্যাগুলো সমাধান করে।

লে চ্যাট এন্টারপ্রাইজ (Le Chat Enterprise)

মিস্ট্রাল এআই, মিস্ট্রাল মিডিয়াম ৩ মডেল দ্বারা চালিত লে চ্যাট এন্টারপ্রাইজও চালু করেছে। এটি মূলত এন্টারপ্রাইজগুলোর জন্য একটি চ্যাটবট পরিষেবা। এটি একটি এআই এজেন্ট তৈরির সরঞ্জাম সরবরাহ করে এবং মিস্ট্রালের মডেলগুলোকে জিমেইল, গুগল ড্রাইভ এবং শেয়ারপয়েন্টের মতো তৃতীয় পক্ষের পরিষেবাগুলোর সাথে একত্রিত করে।

লে চ্যাট এন্টারপ্রাইজের লক্ষ্য হল এন্টারপ্রাইজগুলোর এআই সংক্রান্ত সমস্যাগুলো সমাধান করা। যেমন - বিভিন্ন সরঞ্জামের ব্যবহার, জ্ঞানের অভাব, দুর্বল মডেল এবং বিনিয়োগের ধীর গতি ইত্যাদি। এটি একটি সমন্বিত এআই প্ল্যাটফর্ম সরবরাহ করার মাধ্যমে সব ধরনের সাংগঠনিক কাজকে সহায়তা করে।

খুব শীঘ্রই লে চ্যাট এন্টারপ্রাইজ, এমসিপি (MCP) প্রোটোকল সমর্থন করবে। এই প্রোটোকলটি অ্যানথ্রোপিক (Anthropic) দ্বারা প্রস্তাবিত, যা এআইকে ডেটা সিস্টেম ও সফটওয়্যারের সাথে যুক্ত করার একটি মানদণ্ড।

মিস্ট্রাল লার্জের (Mistral Large) ভবিষ্যৎ

মিস্ট্রাল এআই তাদের ব্লগপোস্টে আরও জানিয়েছে যে, মিস্ট্রাল স্মল (Mistral Small) ও মিস্ট্রাল মিডিয়াম প্রকাশ করা হলেও, কয়েক সপ্তাহের মধ্যে তাদের একটি বড় পরিকল্পনা রয়েছে - মিস্ট্রাল লার্জ। তারা জানায়, মিস্ট্রাল মিডিয়াম লামা ৪ ম্যাভেরিকের মতো প্রথম সারির ওপেন সোর্স মডেলগুলোকে ছাড়িয়ে গেছে এবং মিস্ট্রাল লার্জের পারফরম্যান্স আরও ভালো হবে, এমনটাই আশা করা যায়।

ব্যবহারকারীদের বাস্তব অভিজ্ঞতা

মিস্ট্রাল এআই, মিস্ট্রাল মিডিয়াম ৩-এর শক্তিশালী পারফরম্যান্সের কথা জানানোর পরেই, বিভিন্ন মাধ্যম ও ব্যবহারকারীরা দ্রুত এটি পরীক্ষা করা শুরু করেন। কিন্তু এর ফল ছিল হতাশাজনক।

পারফরম্যান্স পরীক্ষায় দুর্বলতা

দ্য নিউ ইয়র্ক টাইমস (The New York Times) পত্রিকার ‘কানেকশনস’ (Connections) কলামের শব্দশ্রেণি পরীক্ষার ওপর ভিত্তি করে করা একটি মূল্যায়নে, মিস্ট্রাল মিডিয়াম ৩-এর পারফরম্যান্স হতাশাজনক ছিল। নতুন ১০০টি প্রশ্নের মূল্যায়নেও এটিকে প্রথম সারির মডেলগুলোর মধ্যে খুঁজে পাওয়া যায়নি।

কিছু ব্যবহারকারী পরীক্ষা করে জানিয়েছেন যে, মিস্ট্রাল মিডিয়াম ৩-এর লেখার ক্ষমতা তেমন উন্নত নয়। তবে এলএলএম (LLM) মূল্যায়নে এটিকে পारेটো ফ্রন্টে (Pareto front) দেখা গেছে।

জু লিয়াংয়ের (Zhu Liang) পরীক্ষায় দেখা গেছে, কোড লেখা ও টেক্সট তৈরি করার ক্ষেত্রে মিস্ট্রাল মিডিয়াম ৩ ভালো পারফর্ম করেছে এবং উভয় পরীক্ষাতেই প্রথম পাঁচে ছিল।

কোডিংয়ের ক্ষেত্রে পারফরম্যান্স

একটি সাধারণ কোডিংয়ের কাজ (Next.js TODO app)-এ, মিস্ট্রাল মিডিয়াম ৩ খুব স্পষ্ট ও সংক্ষিপ্ত উত্তর তৈরি করেছে। এই ক্ষেত্রে এর স্কোর জেমিনি ২.৫ প্রো (Gemini 2.5 Pro) ও ক্লড ৩.৫ সনেটের (Claude 3.5 Sonnet) কাছাকাছি ছিল, তবে ডিপসিক ভি ৩ (নতুন) ও জিপিটি-৪.১ থেকে কম।

জটিল কোডিংয়ের কাজ (বেঞ্চমার্ক ভিজ্যুয়ালাইজেশন) করার সময়, মিস্ট্রাল মিডিয়াম ৩ জেমিনি ২.৫ প্রো ও ডিপসিক ভি ৩ (নতুন)-এর মতোই গড় ফলাফল দিয়েছে। তবে জিপিটি-৪.১, ও৩ (o3) এবং ক্লড ৩.৭ সনেটের চেয়ে কম ভালো পারফর্ম করেছে।

লেখার ক্ষমতা মূল্যায়ন

লেখার ক্ষেত্রে, মিস্ট্রাল মিডিয়াম ৩ বেশিরভাগ গুরুত্বপূর্ণ বিষয়গুলো তুলে ধরেছে, তবে এর বিন্যাস সঠিক ছিল না। এই ক্ষেত্রে এর স্কোর ডিপসিক ভি ৩ (নতুন) ও ক্লড ৩.৭ সনেটের কাছাকাছি ছিল, তবে জিপিটি-৪.১ ও জেমিনি ২.৫ প্রো থেকে কম।

পরিচিত ব্যক্তিত্ব কারমিন্সকি-দন্তচিকিৎসক (karminski-dentist) বাস্তব অভিজ্ঞতা থেকে জানিয়েছেন যে, মিস্ট্রাল মিডিয়াম ৩-এর পারফরম্যান্স কোম্পানি যতটা দাবি করেছে ততটা শক্তিশালী নয়। তাই তিনি ব্যবহারকারীদের এটি ডাউনলোড করে ডেটা ও হার্ডডিস্কের জায়গা নষ্ট না করার পরামর্শ দিয়েছেন।

তুলনা ও পর্যালোচনা

মিস্ট্রাল মিডিয়াম ৩-এর ঘটনা আবারও প্রমাণ করে যে, এআই মডেলের পারফরম্যান্স মূল্যায়ন করার সময় শুধুমাত্র কোম্পানির ঘোষণা ও বেঞ্চমার্ক পরীক্ষার ফলাফলের ওপর নির্ভর করা উচিত নয়। ব্যবহারকারীদের বাস্তব অভিজ্ঞতা ও তৃতীয় পক্ষের মূল্যায়নকেও গুরুত্ব দেওয়া উচিত।

কোম্পানিগুলো সাধারণত তাদের মডেলের ভালো দিকগুলোই তুলে ধরে এবং দুর্বলতাগুলো এড়িয়ে যায়। বেঞ্চমার্ক পরীক্ষাগুলো কিছু ধারণা দিলেও, বাস্তব পরিস্থিতিতে মডেলটি কেমন পারফর্ম করবে তা পুরোপুরি বোঝানো যায় না। ব্যবহারকারীদের বাস্তব অভিজ্ঞতা ও তৃতীয় পক্ষের মূল্যায়ন আরও বেশি নির্ভরযোগ্য ও নিরপেক্ষ হতে পারে এবং মডেলটির ভালো-মন্দ দিকগুলো সম্পর্কে স্পষ্ট ধারণা দিতে পারে।

এছাড়াও, এআই মডেলের পারফরম্যান্স বিভিন্ন বিষয়ের ওপর নির্ভর করে, যেমন - ট্রেনিং ডেটা, মডেলের গঠন, অপটিমাইজেশন অ্যালগরিদম ইত্যাদি। ভিন্ন মডেলগুলো ভিন্ন ভিন্ন কাজে আলাদা দক্ষতা দেখাতে পারে। তাই এআই মডেল নির্বাচন করার সময়, নির্দিষ্ট ব্যবহারের পরিস্থিতি ও চাহিদা অনুযায়ী সবকিছু বিবেচনা করা উচিত।

মিস্ট্রাল মিডিয়াম ৩-এর ঘোষণা ও ব্যবহারকারীদের বাস্তব অভিজ্ঞতার মধ্যে বিশাল পার্থক্য, এআই মডেল মূল্যায়ন করার মানদণ্ড নিয়ে প্রশ্ন তুলেছে। কীভাবে আরও বিজ্ঞানসম্মত, নির্ভরযোগ্য ও বিস্তৃত এআই মডেল মূল্যায়ন ব্যবস্থা তৈরি করা যায়, তা নিয়ে আলোচনা করা উচিত।

শিল্পের উপর প্রভাব

মিস্ট্রাল মিডিয়াম ৩-এর ঘটনা এআই শিল্পের ওপর কিছু প্রভাব ফেলেছে। প্রথমত, এটি এআই কোম্পানিগুলোকে ব্যবহারকারীর অভিজ্ঞতার ওপর বেশি মনোযোগ দিতে এবং অতিরিক্ত বা মিথ্যা প্রচার এড়াতে সতর্ক করেছে। দ্বিতীয়ত, এটি এআই মডেল মূল্যায়ন মানদণ্ড তৈরি ও উন্নত করার জন্য এআই ক্ষেত্রের কর্মীদের উৎসাহিত করেছে।

ভবিষ্যতে, এআই প্রযুক্তির উন্নতির সাথে সাথে এআই মডেলের পারফরম্যান্স আরও উন্নত হবে এবং এর ব্যবহার আরও বাড়বে। আমাদের এআই প্রযুক্তিকে আরও যুক্তিযুক্ত ও নিরপেক্ষভাবে দেখতে হবে। এর বিশাল সম্ভাবনা এবং সীমাবদ্ধতা দুটোই সম্পর্কে জানতে হবে। তাহলেই আমরা এআই প্রযুক্তিকে মানব সমাজের উন্নতির জন্য ব্যবহার করতে পারব।

মোটকথা, মিস্ট্রাল মিডিয়াম ৩-এর ঘটনা একটি সতর্কবার্তা। এটি আমাদের এআই মডেল মূল্যায়ন করার সময় সমালোচনামূলক হতে এবং কোম্পানির প্রচারকে অন্ধভাবে বিশ্বাস না করে বাস্তব অভিজ্ঞতা ও তৃতীয় পক্ষের মূল্যায়নের ওপর নির্ভর করে সঠিক সিদ্ধান্ত নিতে উৎসাহিত করে।