ফ্রান্সের স্টার্টআপ কোম্পানি Mistral AI সম্প্রতি তাদের নতুন মাল্টিমোডাল মডেল Mistral Medium 3 প্রকাশ করেছে, যা শিল্পে ব্যাপক মনোযোগ আকর্ষণ করেছে। Mistral দাবি করেছে যে এই মডেলের কর্মক্ষমতা Claude Sonnet 3.7-এর 90%-এর সমান বা তার বেশি, একই সাথে DeepSeek V3-এর চেয়ে কম খরচে এটি একটি লাভজনক পছন্দ। তবে, বাস্তব পরীক্ষার ফলাফল অফিসিয়াল প্রচারণার সাথে কিছু পার্থক্য দেখিয়েছে, যা মডেলের কর্মক্ষমতার সত্যতা নিয়ে আলোচনার জন্ম দিয়েছে।
Mistral Medium 3-এর মূল বৈশিষ্ট্য
Mistral তাদের অফিসিয়াল ব্লগে Mistral Medium 3-এর কয়েকটি মূল বৈশিষ্ট্য উল্লেখ করেছে:
- কর্মক্ষমতা এবং ব্যয়ের মধ্যে ভারসাম্য: Mistral Medium 3-এর লক্ষ্য হল শীর্ষস্থানীয় কর্মক্ষমতা অর্জনের পাশাপাশি খরচ আটগুণ কমিয়ে আনা এবং স্থাপনার প্রক্রিয়া সরল করা, যাতে কর্পোরেট অ্যাপ্লিকেশনগুলির গতি বাড়ানো যায়।
- পেশাদার অ্যাপ্লিকেশন পরিস্থিতিতে চমৎকার পারফরম্যান্স: এই মডেলটি কোড লেখা এবং মাল্টিমোডাল বোঝার মতো পেশাদার অ্যাপ্লিকেশন পরিস্থিতিতে বিশেষভাবে ভাল পারফর্ম করে।
- এন্টারপ্রাইজ-স্তরের বৈশিষ্ট্য: Mistral Medium 3 একাধিক এন্টারপ্রাইজ-স্তরের বৈশিষ্ট্য সরবরাহ করে, যার মধ্যে রয়েছে হাইব্রিড ক্লাউড স্থাপন, স্থানীয় স্থাপন এবং VPC-এর অভ্যন্তরে স্থাপন, কাস্টমাইজড পোস্ট-ট্রেনিং এবং এন্টারপ্রাইজ সরঞ্জাম এবং সিস্টেমে সংহত করার সুবিধা।
Mistral Medium 3 API বর্তমানে Mistral La Plateforme এবং Amazon Sagemaker-এ উপলব্ধ এবং খুব শীঘ্রই IBM WatsonX, NVIDIA NIM, Azure AI Foundry এবং Google Cloud Vertex-এও পাওয়া যাবে।
কর্মক্ষমতা এবং ব্যয়ের মধ্যে আপোস
Mistral Medium 3-এর একটি প্রধান আকর্ষণ হল এটি আধুনিক কর্মক্ষমতা প্রদানের পাশাপাশি খরচ উল্লেখযোগ্যভাবে হ্রাস করে। অফিসিয়াল তথ্য অনুযায়ী, বিভিন্ন বেঞ্চমার্ক পরীক্ষায় Mistral Medium 3-এর কর্মক্ষমতা Claude Sonnet 3.7-এর 90% বা তার বেশি, কিন্তু খরচ উল্লেখযোগ্যভাবে কম (প্রতি মিলিয়ন টোকেনের ইনপুট খরচ $0.4 এবং আউটপুট খরচ $2)।
এছাড়াও, Mistral Medium 3-এর কর্মক্ষমতা Llama 4 Maverick এবং Cohere Command A-এর মতো শীর্ষস্থানীয় ওপেন সোর্স মডেলকেও ছাড়িয়ে গেছে। API বা স্ব-নিয়োজিত স্থাপন যাই হোক না কেন, Mistral Medium 3-এর খরচ DeepSeek V3-এর চেয়ে কম।
Mistral Medium 3 যেকোনো ক্লাউডে স্থাপন করা যেতে পারে, যার মধ্যে চারটি বা তার বেশি GPU সহ স্ব-হোস্টেড পরিবেশ অন্তর্ভুক্ত, যা সংস্থাগুলিকে বৃহত্তর নমনীয়তা প্রদান করে।
শীর্ষ কর্মক্ষমতা অনুসরণ
Mistral ঘোষণা করেছে যে Mistral Medium 3-এর লক্ষ্য হল একটি শীর্ষস্থানীয় কর্মক্ষমতা সম্পন্ন মডেল হওয়া, বিশেষ করে কোডিং এবং STEM বিষয়ক কাজে এর দক্ষতা বিশেষভাবে উল্লেখযোগ্য, যা বৃহত্তর এবং ধীরগতির প্রতিযোগীদের প্রায় কাছাকাছি।
Mistral প্রদত্ত সারণী অনুসারে, Mistral Medium 3-এর কর্মক্ষমতা Llama 4 Maverick এবং GPT-4o-কে প্রায় সম্পূর্ণরূপে ছাড়িয়ে গেছে এবং Claude Sonnet 3.7 এবং DeepSeek 3.1-এর কাছাকাছি পৌঁছেছে। তবে, এই ডেটা মূলত একাডেমিক বেঞ্চমার্ক পরীক্ষা থেকে নেওয়া হয়েছে, যা বাস্তব ব্যবহারের ক্ষেত্রে মডেলের কর্মক্ষমতা সম্পূর্ণরূপে প্রতিফলিত করতে পারে না।
মানুষের মূল্যায়ন
Mistral Medium 3-এর কর্মক্ষমতা আরও ভালোভাবে মূল্যায়ন করার জন্য, Mistral তৃতীয় পক্ষের মানুষের মূল্যায়ন ফলাফলও প্রকাশ করেছে। মানুষের মূল্যায়ন বাস্তব বিশ্বের ব্যবহারের প্রতিনিধিত্ব করতে পারে এবং একাডেমিক বেঞ্চমার্ক পরীক্ষার দুর্বলতা পূরণ করতে পারে।
মানুষের মূল্যায়ন ফলাফল থেকে দেখা যায় যে Mistral Medium 3 কোডিংয়ের ক্ষেত্রে খুব ভাল পারফর্ম করে এবং অন্যান্য প্রতিযোগীদের তুলনায় ভালো কর্মক্ষমতা প্রদান করে। এটি ইঙ্গিত করে যে Mistral Medium 3 বাস্তব প্রয়োগে কিছু সুবিধা দিতে পারে।
এন্টারপ্রাইজ-স্তরের অ্যাপ্লিকেশনগুলির জন্য ডিজাইন
Mistral Medium 3 এন্টারপ্রাইজ পরিবেশের সাথে খাপ খাইয়ে নেওয়ার ক্ষমতার দিক থেকে অন্যান্য SOTA মডেলগুলির চেয়ে ভালো। যখন সংস্থাগুলি API-এর মাধ্যমে ফাইন-টিউনিং বা স্ক্র্যাচ থেকে স্ব-নিয়োজিত এবং মডেল আচরণ কাস্টমাইজ করার কঠিন পছন্দের মুখোমুখি হয়, তখন Mistral Medium 3 এন্টারপ্রাইজ সিস্টেমে বুদ্ধিমত্তা সম্পূর্ণরূপে সংহত করার একটি উপায় সরবরাহ করে।
সংস্থাগুলির চাহিদা আরও ভালোভাবে মেটাতে, Mistral Mistral Medium 3 মডেল দ্বারা চালিত Le Chat Enterprise চালু করেছে, যা এন্টারপ্রাইজগুলির জন্য একটি চ্যাটবট পরিষেবা। Le Chat Enterprise একটি AI ইন্টেলিজেন্ট এজেন্ট তৈরির সরঞ্জাম সরবরাহ করে এবং Gmail, Google Drive এবং SharePoint-এর মতো তৃতীয় পক্ষের পরিষেবাগুলির সাথে Mistral-এর মডেলকে সংহত করে, যার লক্ষ্য সংস্থাগুলি যে AI চ্যালেঞ্জগুলির মুখোমুখি হয়, যেমন সরঞ্জাম বিভাজন, অনিরাপদ জ্ঞান সংহতকরণ, অনমনীয় মডেল এবং ধীর বিনিয়োগের রিটার্ন ইত্যাদি সমাধান করা এবং সমস্ত সাংগঠনিক কাজের জন্য একটি সমন্বিত AI প্ল্যাটফর্ম সরবরাহ করা।
Le Chat Enterprise শীঘ্রই MCP প্রোটোকল সমর্থন করবে, যা Anthropic দ্বারা প্রস্তাবিত AI এবং ডেটা সিস্টেম এবং সফ্টওয়্যার সংযোগের একটি মান।
Mistral-এর ভবিষ্যৎ পরিকল্পনা
Mistral তাদের ব্লগে জানিয়েছে যে যদিও Mistral Small এবং Mistral Medium ইতিমধ্যেই প্রকাশিত হয়েছে, তবে আগামী কয়েক সপ্তাহের মধ্যে তাদের একটি “বড়” পরিকল্পনা রয়েছে, আর তা হল Mistral Large। তারা জানিয়েছে যে সদ্য প্রকাশিত Mistral Medium-এর কর্মক্ষমতা Llama 4 Maverick-এর মতো শীর্ষস্থানীয় ওপেন সোর্স মডেলগুলির চেয়ে অনেক বেশি, তাই Mistral Large-এর কর্মক্ষমতা আরও বেশি প্রত্যাশিত।
Mistral Large-এর প্রকাশ নিঃসন্দেহে AI ক্ষেত্রে Mistral-এর প্রতিযোগিতা আরও বাড়িয়ে তুলবে এবং ব্যবহারকারীদের জন্য আরও বেশি পছন্দ সরবরাহ করবে।
বাস্তব পরীক্ষার ফলাফল
Mistral Medium 3-এর কর্মক্ষমতা সম্পর্কে Mistral আত্মবিশ্বাসী হলেও এবং দাবি করেছে যে এটি Claude Sonnet 3.7-এর 90%-এর বেশি, তবে বাস্তব পরীক্ষার ফলাফল কিছু সমস্যা প্রকাশ করেছে।
গণমাধ্যম এবং নেটিজেনরা দ্রুত Mistral Medium 3-এর বাস্তব পরীক্ষা শুরু করে, যার ফল হতাশাজনক ছিল। নিউ ইয়র্ক টাইমস-এর Connections কলামের শব্দশ্রেণী বিষয়ক প্রশ্নের ওপর ভিত্তি করে করা মূল্যায়নে Medium 3 তালিকার একেবারে নীচে ছিল, কার্যত এর কোনো চিহ্ন খুঁজে পাওয়া যায়নি। নতুন 100-প্রশ্নের মূল্যায়নেও এটি প্রথম সারির মডেলগুলির মধ্যে স্থান করে নিতে পারেনি।
কিছু ব্যবহারকারী Medium 3 পরীক্ষা করার পরে বলেছেন যে এর লেখার ক্ষমতা আগের মতোই আছে, কোনো উল্লেখযোগ্য উন্নতি নেই। তবে, LLM মূল্যায়নে এটি পছন্দের তালিকায় ছিল।
Zhu Liang-এর পরীক্ষার ফলাফল দেখায় যে Mistral Medium 3 কোড লেখা এবং টেক্সট তৈরির ক্ষেত্রে খুব নির্ভরযোগ্য, এই উভয় পরীক্ষাতেই এটি প্রথম পাঁচে স্থান করে নিয়েছে।
সহজ কোডিং টাস্কে (Next.js TODO অ্যাপ্লিকেশন):
- এটি সংক্ষিপ্ত এবং স্পষ্ট উত্তর তৈরি করেছে
- Gemini 2.5 Pro এবং Claude 3.5 Sonnet-এর প্রায় সমান স্কোর
- DeepSeek V3 (নতুন) এবং GPT-4.1-এর চেয়ে কম
জটিল কোডিং টাস্কে (বেঞ্চমার্ক ভিজ্যুয়ালাইজেশন):
- Gemini 2.5 Pro এবং DeepSeek V3 (নতুন)-এর সাথে তুলনীয় গড় ফলাফল তৈরি করেছে
- GPT-4.1, o3 এবং Claude 3.7 Sonnet-এর চেয়ে খারাপ
লেখার ক্ষেত্রে:
- এর বিষয়বস্তু বেশিরভাগ গুরুত্বপূর্ণ বিষয় কভার করেছে, তবে বিন্যাস সঠিক ছিল না
- DeepSeek V3 (নতুন) এবং Claude 3.7 Sonnet-এর কাছাকাছি স্কোর
- GPT-4.1 এবং Gemini 2.5 Pro-এর চেয়ে খারাপ
বিখ্যাত ব্যক্তিত্ব "karminski-দন্তচিকিৎসক" বাস্তব পরীক্ষা করার পরে জানতে পেরেছেন যে Mistral Medium 3-এর কর্মক্ষমতা অফিসিয়াল প্রচারণার মতো শক্তিশালী নয়, এমনকি তিনি ব্যবহারকারীদের এটি ডাউনলোড না করার পরামর্শ দিয়েছেন, যাতে ডেটা এবং ডিস্কের স্থান নষ্ট না হয়।
উপসংহার
Mistral Medium 3 ইউরোপীয় AI সেক্টরে একটি উদ্ভাবনী প্রচেষ্টা, যা কর্মক্ষমতা এবং ব্যয়ের মধ্যে ভারসাম্য খুঁজে বের করার চেষ্টা করে এবং এন্টারপ্রাইজ-স্তরের অ্যাপ্লিকেশনগুলির জন্য অপ্টিমাইজ করা হয়েছে। তবে, বাস্তব পরীক্ষার ফলাফল অফিসিয়াল প্রচারণার সাথে কিছু পার্থক্য দেখিয়েছে, যা ইঙ্গিত করে যে Mistral মডেলের কর্মক্ষমতা সম্পর্কে অতিরঞ্জিত প্রচার করেছে।
তা সত্ত্বেও, Mistral Medium 3-এর এখনও কিছু সম্ভাবনা রয়েছে, বিশেষ করে কোডিং এবং টেক্সট তৈরির মতো ক্ষেত্রে। ভবিষ্যতে, Mistral-কে মডেলের কর্মক্ষমতা আরও উন্নত করতে হবে এবং ব্যবহারকারীদের আস্থা অর্জনের জন্য বাস্তব অ্যাপ্লিকেশন পরীক্ষা জোরদার করতে হবে। একই সাথে, Mistral Large-এর প্রকাশও প্রত্যাশিত, যা Mistral Medium 3-এর দুর্বলতা পূরণ করতে পারে এবং ব্যবহারকারীদের জন্য আরও ভালো অভিজ্ঞতা আনতে পারে।
মোটকথা, Mistral Medium 3-এর প্রকাশ AI ক্ষেত্রে ইউরোপের সক্রিয় অনুসন্ধান এবং উদ্ভাবনী চেতনাকে প্রতিফলিত করে। যদিও বাস্তব কর্মক্ষমতা প্রত্যাশার চেয়ে কম, তবুও Mistral মনোযোগের দাবি রাখে এবং এর ভবিষ্যৎ উন্নয়ন প্রত্যাশার যোগ্য।