আলিবাবার Qwen3: হাইব্রিড এআই মডেল | bn

আলিবাবা, চীনের টেক জায়ান্ট, সম্প্রতি কৃত্রিম বুদ্ধিমত্তার (artificial intelligence) ক্ষেত্রে তাদের নতুন উদ্ভাবন উন্মোচন করেছে: Qwen3 এআই মডেল পরিবার। কোম্পানির মতে, এই মডেলগুলো শুধু গুগল (Google) এবং ওপেনএআই (OpenAI)-এর মতো বিখ্যাত কোম্পানির শীর্ষস্থানীয় এআই মডেলগুলোর সাথে প্রতিদ্বন্দ্বিতা করে না, বরং কিছু ক্ষেত্রে তাদের ক্ষমতাকেও ছাড়িয়ে যায়।

এই মডেলগুলো, ০.৬ বিলিয়ন থেকে শুরু করে ২৩৫ বিলিয়ন প্যারামিটার পর্যন্ত বিভিন্ন আকারের, হাগিং ফেস (Hugging Face) এবং গিটহাবের (GitHub) মতো জনপ্রিয় এআই ডেভেলপমেন্ট প্ল্যাটফর্ম থেকে ওপেন-সোর্স লাইসেন্সের অধীনে ডাউনলোডের জন্য ব্যাপকভাবে সহজলভ্য। একটি মডেলের প্যারামিটারের সংখ্যা মোটামুটিভাবে জটিল সমস্যা মোকাবিলার ক্ষমতার সাথে সম্পর্কযুক্ত; সাধারণত, যে মডেলগুলোর প্যারামিটার বেশি, সেগুলো কম প্যারামিটারযুক্ত মডেলগুলোর তুলনায় ভালো পারফর্ম করে।

চীন থেকে উদ্ভূত Qwen-এর মতো মডেল সিরিজের উত্থান, ওপেনএআই-এর মতো আমেরিকান এআই গবেষণা ল্যাবগুলোর উপর আরও অত্যাধুনিক এআই প্রযুক্তি উদ্ভাবন এবং সরবরাহের জন্য চাপ বাড়িয়েছে। এই উন্নয়নের কারণে নীতিনির্ধারকরা চীনা এআই কোম্পানিগুলোর উন্নত চিপগুলোতে প্রবেশাধিকার সীমিত করার লক্ষ্যে বিধিনিষেধ আরোপ করতে উৎসাহিত হয়েছেন, যে চিপগুলো এই জটিল মডেলগুলোকে প্রশিক্ষণ দেওয়ার জন্য প্রয়োজন।

Qwen3 বোঝা: এআই যুক্তির একটি হাইব্রিড পদ্ধতি

আলিবাবা Qwen3 মডেলগুলোকে ‘হাইব্রিড’ হিসাবে বর্ণনা করে কারণ তাদের দ্রুত সাধারণ অনুরোধগুলোতে সাড়া দেওয়ার এবং আরও জটিল সমস্যাগুলোর মাধ্যমে পদ্ধতিগতভাবে ‘যুক্তি’ দেওয়ার ক্ষমতা রয়েছে। এই যুক্তিবোধের ক্ষমতা মডেলগুলোকে কার্যকরভাবে স্ব-চেক করতে দেয়, অনেকটা ওপেনএআই-এর o3 মডেলের মতো, যদিও উচ্চতর বিলম্বের ক্ষেত্রে একটি আপস রয়েছে।

একটি ব্লগ পোস্টে, Qwen দল তাদের পদ্ধতির ব্যাখ্যা করেছে: ‘আমরা চিন্তাভাবনা এবং অ-চিন্তাভাবনার মোডগুলোকে নির্বিঘ্নে একত্রিত করেছি, যা ব্যবহারকারীদের চিন্তাভাবনার বাজেট নিয়ন্ত্রণ করার নমনীয়তা প্রদান করে। এই নকশা ব্যবহারকারীদের আরও সহজে টাস্ক-নির্দিষ্ট বাজেট কনফিগার করতে সক্ষম করে।’ এর মানে হল ব্যবহারকারীরা তাদের হাতের কাজের উপর ভিত্তি করে এআই কতটা ‘চিন্তা’ করবে তা সামঞ্জস্য করতে পারে, যা গতি বা নির্ভুলতার জন্য অপ্টিমাইজ করা যায়।

কিছু Qwen3 মডেল মিশ্রণ বিশেষজ্ঞ (Mixture of Experts - MoE) আর্কিটেকচারও ব্যবহার করে। এই আর্কিটেকচার জটিল কাজগুলোকে ছোট ছোট উপ-কাজে বিভক্ত করে এবং সেগুলোকে বিশেষ ‘বিশেষজ্ঞ’ মডেলগুলোর কাছে অর্পণ করে কম্পিউটেশনাল দক্ষতা বাড়ায়। এটি কম্পিউটেশনাল রিসোর্সগুলোর আরও কার্যকর বিতরণের জন্য অনুমতি দেয়, যা দ্রুত এবং আরও নির্ভুল ফলাফলের দিকে পরিচালিত করে।

বহুভাষিক ক্ষমতা এবং প্রশিক্ষণ ডেটা

Qwen3 মডেলগুলো ১১৯টি ভাষার জন্য সমর্থন নিয়ে গর্ব করে, যা আলিবাবার বিশ্বব্যাপী সহজলভ্যতার প্রতিশ্রুতির প্রতিফলন ঘটায়। এই মডেলগুলোকে প্রায় ৩৬ ট্রিলিয়ন টোকেনের একটি বিশাল ডেটাসেটের উপর প্রশিক্ষণ দেওয়া হয়েছে। টোকেন হলো ডেটার মৌলিক একক যা একটি এআই মডেল প্রক্রিয়া করে; প্রায় ১ মিলিয়ন টোকেন প্রায় ৭৫০,০০০ শব্দের সমতুল্য। আলিবাবা প্রকাশ করেছে যে Qwen3-এর জন্য প্রশিক্ষণ ডেটাসেটে পাঠ্যপুস্তক, প্রশ্ন-উত্তর জোড়া, কোড স্নিপেট এবং এমনকি এআই-উত্পাদিত ডেটার মতো বিভিন্ন উৎস অন্তর্ভুক্ত ছিল।

আলিবাবার মতে, এই উন্নতিগুলো, অন্যান্য উন্নতির সাথে মিলিত হয়ে Qwen3-এর ক্ষমতাকে পূর্বসূরি Qwen2-এর তুলনায় উল্লেখযোগ্যভাবে বাড়িয়েছে। যদিও Qwen3 মডেলগুলোর কোনটিই ওপেনএআই-এর o3 এবং o4-min-এর মতো শীর্ষ-স্তরের মডেলগুলোকে চূড়ান্তভাবে ছাড়িয়ে যায় না, তবুও তারা এআই ল্যান্ডস্কেপে শক্তিশালী প্রতিযোগী।

কর্মক্ষমতা বেঞ্চমার্ক এবং তুলনা

কোডফোর্সসে (Codeforces), প্রোগ্রামিং প্রতিযোগিতার জন্য একটি জনপ্রিয় প্ল্যাটফর্ম, বৃহত্তম Qwen3 মডেল, Qwen-3-235B-A22B, সামান্যভাবে ওপেনএআই-এর o3-min-কে এবং গুগলের জেমিনি ২.৫ প্রোকে (Gemini 2.5 Pro) ছাড়িয়ে যায়। উপরন্তু, Qwen-3-235B-A22B এআইএমই-এর (AIME) সর্বশেষ সংস্করণেও o3-min-কে ছাড়িয়ে গেছে, যা একটি চ্যালেঞ্জিং গণিত বেঞ্চমার্ক, সেইসাথে BFCL-কেও, যা সমস্যাগুলোর মাধ্যমে একটি মডেলের যুক্তি দেওয়ার ক্ষমতা মূল্যায়ন করার জন্য ডিজাইন করা হয়েছে।

তবে, এটা মনে রাখা গুরুত্বপূর্ণ যে Qwen-3-235B-A22B এখনও সর্বজনীনভাবে উপলব্ধ নয়।

সবচেয়ে বড় সর্বজনীনভাবে উপলব্ধ Qwen3 মডেল, Qwen3-32B, চীনা এআই ল্যাব ডিপসিকের (DeepSeek) R1 সহ বিভিন্ন মালিকানাধীন এবং ওপেন-সোর্স এআই মডেলের সাথে প্রতিযোগিতামূলক থাকে। উল্লেখযোগ্যভাবে, Qwen3-32B ওপেনএআই-এর o1 মডেলকে বেশ কয়েকটি বেঞ্চমার্কে ছাড়িয়ে যায়, যার মধ্যে কোডিং বেঞ্চমার্ক লাইভকোডবেঞ্চও (LiveCodeBench) রয়েছে।

টুল-কলিং ক্ষমতা এবং উপলব্ধতা

আলিবাবা জোর দিয়ে বলেছে যে Qwen3 টুল-কলিং ক্ষমতা, সেইসাথে নির্দেশাবলী অনুসরণ এবং নির্দিষ্ট ডেটা ফর্ম্যাটগুলোর প্রতিলিপি তৈরিতে ‘উৎকৃষ্ট’। এই বহুমুখিতা এটিকে বিভিন্ন অ্যাপ্লিকেশনে একটি মূল্যবান সম্পদ করে তোলে। ডাউনলোডের জন্য উপলব্ধ হওয়ার পাশাপাশি, Qwen3 ক্লাউড সরবরাহকারী যেমন ফায়ারওয়ার্কস এআই (Fireworks AI) এবং হাইপারবোলিকের (Hyperbolic) মাধ্যমেও অ্যাক্সেসযোগ্য।

শিল্পের দৃষ্টিকোণ

এআই ক্লাউড হোস্ট বেসটেনের (Baseten) সহ-প্রতিষ্ঠাতা এবং সিইও তুহিন শ্রীবাস্তব Qwen3-কে ওপেন-সোর্স মডেলগুলোর ওপেনএআই থেকে আসা মডেলগুলোর মতো ক্লোজড-সোর্স সিস্টেমগুলোর সাথে তাল মিলিয়ে চলার প্রবণতার আরেকটি সূচক হিসেবে দেখেন।

তিনি টেকক্রাঞ্চকে (TechCrunch) বলেন, ‘মার্কিন যুক্তরাষ্ট্র চীনে চিপ বিক্রি এবং চীন থেকে কেনাকাটা সীমিত করার ক্ষেত্রে দ্বিগুণ চেষ্টা করছে, কিন্তু Qwen 3-এর মতো মডেলগুলো, যা অত্যাধুনিক এবং ওপেন সোর্স… তা নিঃসন্দেহে অভ্যন্তরীণভাবে ব্যবহৃত হবে। এটি বাস্তবতাকে প্রতিফলিত করে যে ব্যবসাগুলো তাদের নিজস্ব সরঞ্জাম তৈরি করছে [পাশাপাশি] অ্যানথ্রপিক (Anthropic) এবং ওপেনএআই-এর মতো ক্লোজড-মডেল কোম্পানির মাধ্যমে কেনাকাটা করছে।’ এটি কোম্পানিগুলোর অভ্যন্তরীণভাবে তৈরি এআই সরঞ্জাম এবং তাদের নির্দিষ্ট চাহিদা মেটাতে বাণিজ্যিকভাবে উপলব্ধ সমাধান উভয়ই ব্যবহারের একটি ক্রমবর্ধমান প্রবণতা নির্দেশ করে।

Qwen3-এর আর্কিটেকচার এবং কার্যকারিতার গভীরে ডুব

Qwen3-এর আর্কিটেকচার এআই মডেল ডিজাইনে একটি উল্লেখযোগ্য অগ্রগতি উপস্থাপন করে, বিশেষ করে যুক্তির প্রতি তার ‘হাইব্রিড’ পদ্ধতির ক্ষেত্রে। দ্রুত, অ-চিন্তাভাবনার মোডগুলোকে আরও ইচ্ছাকৃত যুক্তিবোধ প্রক্রিয়ার সাথে একীভূত করে Qwen3 টাস্কের জটিলতার উপর ভিত্তি করে তার কম্পিউটেশনাল তীব্রতা অভিযোজিত করতে পারে। এটি সাধারণ প্রশ্ন থেকে শুরু করে জটিল সমস্যা সমাধানের পরিস্থিতি পর্যন্ত বিস্তৃত অনুরোধগুলো দক্ষতার সাথে পরিচালনা করতে দেয়।

Qwen দল কর্তৃক বর্ণিত ‘চিন্তাভাবনার বাজেট’ নিয়ন্ত্রণ করার ক্ষমতা ব্যবহারকারীদের নির্দিষ্ট কাজের জন্য মডেল কনফিগার করার ক্ষেত্রে নজিরবিহীন নমনীয়তা প্রদান করে। এই দানাদার নিয়ন্ত্রণ অ্যাপ্লিকেশনটির প্রয়োজনীয়তার উপর নির্ভর করে গতি বা নির্ভুলতার জন্য অপ্টিমাইজেশন সক্ষম করে।

উপরন্তু, কিছু Qwen3 মডেলে মিশ্রণ বিশেষজ্ঞ (MoE) আর্কিটেকচারের বাস্তবায়ন বিশেষায়িত উপ-মডেলগুলোতে কাজ বিতরণ করে কম্পিউটেশনাল দক্ষতা বাড়ায়। এই মডুলার পদ্ধতি শুধুমাত্র প্রক্রিয়াকরণকে ত্বরান্বিত করে না, বরং আরও লক্ষ্যযুক্ত রিসোর্স বরাদ্দের জন্য অনুমতি দেয়, যা সামগ্রিক কর্মক্ষমতা উন্নত করে।

Qwen3-এর উন্নয়নে প্রশিক্ষণ ডেটার তাৎপর্য

Qwen3-কে প্রশিক্ষণ দেওয়ার জন্য ব্যবহৃত বিশাল ডেটাসেট এর ক্ষমতা গঠনে একটি গুরুত্বপূর্ণ ভূমিকা পালন করেছে। প্রায় ৩৬ ট্রিলিয়ন টোকেন সহ, ডেটাসেটে পাঠ্যপুস্তক, প্রশ্ন-উত্তর জোড়া, কোড স্নিপেট এবং এআই-উত্পাদিত ডেটা সহ বিভিন্ন উৎস অন্তর্ভুক্ত ছিল। এই ব্যাপক প্রশিক্ষণ পদ্ধতি মডেলটিকে বিস্তৃত জ্ঞান এবং দক্ষতার সাথে পরিচিত করেছে, যা এটিকে বিভিন্ন ডোমেনে দক্ষতা অর্জনে সক্ষম করে।

প্রশিক্ষণ ডেটাতে পাঠ্যপুস্তক অন্তর্ভুক্ত করা Qwen3-কে বাস্তবিক জ্ঞান এবং একাডেমিক ধারণার একটি শক্ত ভিত্তি প্রদান করেছে। প্রশ্ন-উত্তর জোড়াগুলো কার্যকরভাবে প্রশ্ন বুঝতে এবং উত্তর দেওয়ার মডেলের ক্ষমতা বাড়িয়েছে। কোড স্নিপেটগুলো এটিকে প্রোগ্রামিং দক্ষতা দিয়ে সজ্জিত করেছে, যা এটিকে কোড তৈরি এবং বুঝতে সাহায্য করেছে। এবং এআই-উত্পাদিত ডেটার অন্তর্ভুক্তি এটিকে নতুন এবং সিন্থেটিক তথ্যের সাথে পরিচিত করেছে, যা এর জ্ঞানের ভিত্তি আরও প্রসারিত করেছে।

প্রশিক্ষণ ডেটাসেটের বিশাল স্কেল, এর বিভিন্ন বিষয়বস্তুর সাথে মিলিত হয়ে Qwen3-এর বিস্তৃত কাজ এবং ভাষা জুড়ে ভাল পারফর্ম করার ক্ষমতাতে উল্লেখযোগ্যভাবে অবদান রেখেছে।

বেঞ্চমার্কে Qwen3-এর কর্মক্ষমতার একটি বিশদ চিত্র

বিভিন্ন বেঞ্চমার্কে Qwen3-এর কর্মক্ষমতা এর শক্তি এবং দুর্বলতা সম্পর্কে মূল্যবান অন্তর্দৃষ্টি প্রদান করে। কোডফোর্সসে, বৃহত্তম Qwen3 মডেল, Qwen-3-235B-A22B প্রোগ্রামিং প্রতিযোগিতায় ওপেনএআই-এর o3-min এবং গুগলের জেমিনি ২.৫ প্রো-এর মতো শীর্ষস্থানীয় মডেলগুলোর বিরুদ্ধে প্রতিযোগিতামূলক কর্মক্ষমতা প্রদর্শন করেছে। এটি ইঙ্গিত করে যে Qwen3-এর শক্তিশালী কোডিং দক্ষতা এবং সমস্যা সমাধানের ক্ষমতা রয়েছে।

উপরন্তু, Qwen-3-235B-A22B-এর এআইএমই (AIME)-তে কর্মক্ষমতা, একটি চ্যালেঞ্জিং গণিত বেঞ্চমার্ক, এবং BFCL, যুক্তি ক্ষমতা মূল্যায়নের জন্য একটি পরীক্ষা, জটিল গাণিতিক সমস্যা এবং যৌক্তিক যুক্তির জন্য এর প্রবণতাকে তুলে ধরে। এই ফলাফলগুলো নির্দেশ করে যে Qwen3 শুধুমাত্র তথ্য প্রক্রিয়াকরণে সক্ষম নয়, বরং জটিল সমস্যা সমাধানে এটি প্রয়োগ করতেও সক্ষম।

তবে, এটা মনে রাখা গুরুত্বপূর্ণ যে বৃহত্তম Qwen3 মডেলটি এখনও সর্বজনীনভাবে উপলব্ধ নয়, যা এর সম্পূর্ণ ক্ষমতার অ্যাক্সেসযোগ্যতা সীমিত করে।

সর্বজনীনভাবে উপলব্ধ Qwen3-32B মডেল অন্যান্য মালিকানাধীন এবং ওপেন-সোর্স এআই মডেলগুলোর সাথে প্রতিযোগিতামূলক থাকে, যা বিদ্যমান সমাধানগুলোর একটি কার্যকর বিকল্প হিসাবে এর সম্ভাবনা প্রদর্শন করে। লাইভকোডবেঞ্চ (LiveCodeBench) কোডিং বেঞ্চমার্কে ওপেনএআই-এর o1 মডেলের চেয়ে এর ভালো পারফর্ম করা আরও এর কোডিং দক্ষতাকে জোর দেয়।

Qwen3-এর টুল-কলিং ক্ষমতা: একটি মূল পার্থক্যকারী

Qwen3-এর টুল-কলিং ক্ষমতার উপর আলিবাবার জোর একটি মূল পার্থক্যকারী ক্ষেত্রকে তুলে ধরে। টুল-কলিং বলতে কোনও এআই মডেলের নির্দিষ্ট কাজ সম্পাদনের জন্য বাহ্যিক সরঞ্জাম এবং এপিআইগুলোর (APIs) সাথে ইন্টারঅ্যাক্ট করার ক্ষমতা বোঝায়, যেমন তথ্য অ্যাক্সেস করা, কমান্ড কার্যকর করা বা ডিভাইস নিয়ন্ত্রণ করা। এই ক্ষমতা Qwen3-কে তার অভ্যন্তরীণ জ্ঞান এবং প্রক্রিয়াকরণের ক্ষমতার বাইরেও তার কার্যকারিতা প্রসারিত করতে সক্ষম করে।

বাহ্যিক সরঞ্জামগুলোর সাথে নির্বিঘ্নে একত্রিত হওয়ার মাধ্যমে, Qwen3 জটিল ওয়ার্কফ্লো স্বয়ংক্রিয় করতে, রিয়েল-টাইম ডেটা অ্যাক্সেস করতে এবং ভৌত জগতের সাথে ইন্টারঅ্যাক্ট করতে পারে। এটি এটিকে গ্রাহক পরিষেবা, ডেটা বিশ্লেষণ এবং রোবোটিক্সের মতো বিভিন্ন অ্যাপ্লিকেশনে একটি মূল্যবান সম্পদ করে তোলে।

নির্দেশাবলী অনুসরণ এবং নির্দিষ্ট ডেটা ফর্ম্যাটগুলোর প্রতিলিপি তৈরিতে Qwen3-এর দক্ষতা আরও এর ব্যবহারযোগ্যতা এবং অভিযোজনযোগ্যতা বাড়ায়। এটি ব্যবহারকারীদের তাদের নির্দিষ্ট চাহিদা মেটাতে এবং এটিকে বিদ্যমান সিস্টেমগুলোতে সংহত করতে মডেলটিকে সহজেই কাস্টমাইজ করতে দেয়।

এআই ল্যান্ডস্কেপের উপর Qwen3-এর প্রভাব

Qwen3-এর উত্থান বৃহত্তর এআই ল্যান্ডস্কেপের জন্য গুরুত্বপূর্ণ প্রভাব ফেলে। একটি ওপেন-সোর্স মডেল হিসাবে, এটি উন্নত এআই প্রযুক্তিতে অ্যাক্সেসকে গণতান্ত্রিক করে, গবেষক, বিকাশকারী এবং ব্যবসায়গুলোকে নতুন অ্যাপ্লিকেশন উদ্ভাবন এবং তৈরি করতে সক্ষম করে। শীর্ষস্থানীয় মালিকানাধীন মডেলগুলোর বিরুদ্ধে এর প্রতিযোগিতামূলক কর্মক্ষমতা প্রতিষ্ঠিত খেলোয়াড়দের আধিপত্যকে চ্যালেঞ্জ করে এবং আরও প্রতিযোগিতামূলক বাজারের জন্ম দেয়।

উপরন্তু, Qwen3-এর বিকাশ চীনা এআই সংস্থাগুলোর ক্রমবর্ধমান ক্ষমতা এবং বিশ্বব্যাপী এআই ইকোসিস্টেমে তাদের ক্রমবর্ধমান অবদানকে প্রতিফলিত করে। এই প্রবণতা আগামী বছরগুলোতে অব্যাহত থাকার সম্ভাবনা রয়েছে, কারণ চীন এআই গবেষণা ও উন্নয়নে প্রচুর বিনিয়োগ করছে।

ফায়ারওয়ার্কস এআই (Fireworks AI) এবং হাইপারবোলিকের (Hyperbolic) মতো ক্লাউড সরবরাহকারীর মাধ্যমে Qwen3-এর উপলব্ধতা আরও এর নাগাল এবং অ্যাক্সেসযোগ্যতা প্রসারিত করে, যা ব্যবহারকারীদের এআই অ্যাপ্লিকেশনগুলো স্থাপন এবং স্কেল করা সহজ করে তোলে।

Qwen3-এর বিকাশের ভূ-রাজনৈতিক প্রেক্ষাপট

Qwen3-এর বিকাশ একটি জটিল ভূ-রাজনৈতিক প্রেক্ষাপটেও ঘটে। মার্কিন যুক্তরাষ্ট্র চীনে উন্নত চিপ বিক্রির উপর বিধিনিষেধ আরোপ করেছে, যার লক্ষ্য দেশটির উন্নত এআই মডেল তৈরি এবং প্রশিক্ষণের ক্ষমতা সীমিত করা। তবে, তুহিন শ্রীবাস্তব যেমন উল্লেখ করেছেন, Qwen3-এর মতো মডেলগুলো, যা অত্যাধুনিক এবং ওপেন সোর্স, তা নিঃসন্দেহে চীনে অভ্যন্তরীণভাবে ব্যবহৃত হবে।

এটি বিশ্বায়িত বিশ্বে এআই প্রযুক্তির বিস্তার নিয়ন্ত্রণের চ্যালেঞ্জগুলোকে তুলে ধরে। বিধিনিষেধ কিছু ক্ষেত্রে অগ্রগতি কমিয়ে দিতে পারে, তবে সেগুলো চীনে উন্নত এআই ক্ষমতা বিকাশের সম্ভাবনা সম্পূর্ণরূপে বন্ধ করতে পারবে না।

এআই ক্ষেত্রে মার্কিন যুক্তরাষ্ট্র এবং চীনের মধ্যে প্রতিযোগিতা আগামী বছরগুলোতে তীব্র হওয়ার সম্ভাবনা রয়েছে, কারণ উভয় দেশই এই প্রযুক্তির কৌশলগত গুরুত্ব উপলব্ধি করে। এই প্রতিযোগিতা উদ্ভাবন এবং বিনিয়োগকে উৎসাহিত করবে, তবে এটি নিরাপত্তা, গোপনীয়তা এবং নৈতিক বিবেচনা সম্পর্কেও উদ্বেগ বাড়াবে।

হালনাগাদ করা হয়েছে ২০২৫-০৪-২৯

# AIGC # Qwen # Alibaba