এআই দক্ষতার পুনর্বিবেচনা: সর্বদা ১০০% নয়

এআই উন্নয়নের ক্রমাগত অগ্রগতিতে দেখা যায় যে বড় মডেলগুলি সাধারণত আরও স্মার্ট হয়, তবে তাদের কর্মক্ষম চাহিদাও বৃদ্ধি পায়। এটি একটি গুরুত্বপূর্ণ চ্যালেঞ্জ তৈরি করে, বিশেষ করে সেই অঞ্চলগুলিতে যেখানে উন্নত এআই চিপগুলির সীমিত অ্যাক্সেস রয়েছে। তবে, ভৌগোলিক সীমাবদ্ধতা নির্বিশেষে, মডেল ডেভেলপারদের মধ্যে Mixture of Experts (MoE) আর্কিটেকচার এবং উদ্ভাবনী কম্প্রেশন কৌশল গ্রহণের একটি ক্রমবর্ধমান প্রবণতা রয়েছে। এর লক্ষ্য হল এই বিশাল Large Language Models (LLMs) স্থাপন এবং চালানোর জন্য প্রয়োজনীয় কম্পিউটেশনাল রিসোর্সগুলিকে মারাত্মকভাবে হ্রাস করা। ChatGPT দ্বারা প্রজ্বলিত জেনারেটিভ এআই বুমের তৃতীয় বার্ষিকী যখন আমরা কাছে আসছি, তখন শিল্প অবশেষে এই পাওয়ার-হাংরি মডেলগুলি চালানোর অর্থনৈতিক প্রভাবগুলি গুরুত্ব সহকারে বিবেচনা করতে শুরু করেছে।

Mistral AI এর মতো MoE মডেলগুলি কিছু সময় ধরে বিদ্যমান থাকলেও, গত বছরে তাদের আসল অগ্রগতি ঘটেছে। আমরা মাইক্রোসফট, গুগল, আইবিএম, মেটা, ডিপসিক এবং আলিবাবার মতো টেক জায়ান্টদের কাছ থেকে নতুন ওপেন-সোর্স এলএলএমের উত্থান দেখেছি, যা MoE আর্কিটেকচারের কিছু ফর্ম ব্যবহার করে। এর আকর্ষণ সোজা: MoE আর্কিটেকচারগুলি ঐতিহ্যবাহী “ঘন” মডেল আর্কিটেকচারের চেয়ে অনেক বেশি কার্যকর বিকল্প সরবরাহ করে।

মেমরি সীমাবদ্ধতা অতিক্রম করা

MoE আর্কিটেকচারের ভিত্তি ১৯৯০-এর দশকের গোড়ার দিকে “অ্যাডাপ্টিভ মিক্সচারস অফ লোকাল এক্সপার্টস” প্রকাশের মাধ্যমে শুরু হয়েছিল। মূল ধারণাটি একটি বিস্তৃত ডেটার ওপর প্রশিক্ষিত একটি একক, বিশাল মডেলের ওপর নির্ভর করার পরিবর্তে এক বা একাধিক বিশেষ সাব-মডেল বা “বিশেষজ্ঞদের” কাছে কাজ বিতরণ করার চারপাশে ঘোরে।

তত্ত্বগতভাবে, প্রতিটি বিশেষজ্ঞকে কোডিং এবং গণিত থেকে শুরু করে ক্রিয়েটিভ রাইটিং পর্যন্ত একটি নির্দিষ্ট ডোমেনের জন্য সতর্কতার সাথে অপ্টিমাইজ করা যেতে পারে। তবে, এটি লক্ষণীয় যে বেশিরভাগ মডেল ডেভেলপার তাদের MoE মডেলগুলির মধ্যে নির্দিষ্ট বিশেষজ্ঞদের সম্পর্কে সীমিত বিবরণ সরবরাহ করে এবং মডেল থেকে মডেলে বিশেষজ্ঞদের সংখ্যা ভিন্ন হয়। গুরুত্বপূর্ণভাবে, সামগ্রিক মডেলের একটি ভগ্নাংশই যেকোনো নির্দিষ্ট সময়ে সক্রিয় থাকে।

ডিপসিকের ভি৩ মডেলের কথা বিবেচনা করুন, যাতে একটি শেয়ার্ড বিশেষজ্ঞের পাশাপাশি ২৫৬টি রুটেড বিশেষজ্ঞ রয়েছে। টোকেন প্রক্রিয়াকরণের সময়, শুধুমাত্র আটটি রুটেড বিশেষজ্ঞ, সাথে শেয়ার্ড বিশেষজ্ঞ সক্রিয় করা হয়। এই নির্বাচনী অ্যাক্টিভেশন মানে হল যে MoE মডেলগুলি সবসময় একই আকারের ঘন মডেলগুলির মতো একই স্তরের গুণমান অর্জন করতে পারে না। উদাহরণস্বরূপ, আলিবাবার Qwen3-30B-A3B MoE মডেলটি আলিবাবার বেঞ্চমার্ক পরীক্ষায় ধারাবাহিকভাবে ঘন Qwen3-32B মডেলের চেয়ে খারাপ পারফর্ম করেছে।

তবে, MoE আর্কিটেকচার দ্বারা প্রদত্ত যথেষ্ট দক্ষতা লাভের বিপরীতে গুণমানের এই সামান্য হ্রাসকে প্রাসঙ্গিকভাবে স্থাপন করা অপরিহার্য। সক্রিয় প্যারামিটারের হ্রাস মেমরি ব্যান্ডউইথের প্রয়োজনীয়তার ফলে মডেলের ওয়েট সংরক্ষণের জন্য প্রয়োজনীয় ক্ষমতার সাথে সরাসরি সমানুপাতিক থাকে না। মূলত, MoE মডেলগুলির এখনও যথেষ্ট মেমরির প্রয়োজন হতে পারে, তবে এটির দ্রুততম এবং সবচেয়ে ব্যয়বহুল High Bandwidth Memory (HBM) হওয়ার প্রয়োজন নেই।

আসুন একটি তুলনার মাধ্যমে এটি চিত্রিত করি। মেটার বৃহত্তম “ঘন” মডেল, Llama 3.1 405B, এবং Llama 4 Maverick বিবেচনা করুন, যা একটি তুলনামূলক মডেল যা ১৭ বিলিয়ন সক্রিয় প্যারামিটার সহ একটি MoE আর্কিটেকচার ব্যবহার করে। যদিও অনেকগুলি কারণ, যেমন ব্যাচ সাইজ, ফ্লোটিং-পয়েন্ট পারফরম্যান্স এবং কী-ভ্যালু ক্যাশিং, বাস্তব-বিশ্বের পারফরম্যান্সে অবদান রাখে, আমরা একটি নির্দিষ্ট নির্ভুলতায় গিগাবাইটে মডেলের আকার (৮-বিট মডেলের জন্য প্রতি প্যারামিটারে ১ বাইট) প্রতি সেকেন্ডে লক্ষ্যের টোকেনের সাথে গুণ করে ন্যূনতম ব্যান্ডউইথের প্রয়োজনীয়তা অনুমান করতে পারি।

Llama 3.1 405B এর একটি ৮-বিট কোয়ান্টাইজড সংস্করণ চালানোর জন্য ৪০০ গিগাবাইটের বেশি vRAM এবং প্রতি সেকেন্ডে ৫০টি টোকেন তৈরি করতে কমপক্ষে ২০ TB/s মেমরি ব্যান্ডউইথের প্রয়োজন হবে। Nvidia-এর HGX H100-ভিত্তিক সিস্টেম, যা সম্প্রতি ৩০০,০০০ ডলার বা তার বেশি দামে বিক্রি হয়েছে, সেগুলি শুধুমাত্র ৬৪০ জিবি HBM3 এবং প্রায় ২৬.৮ TB/s সম্মিলিত ব্যান্ডউইথ সরবরাহ করেছে। সম্পূর্ণ ১৬-বিট মডেল চালানোর জন্য এই সিস্টেমগুলির মধ্যে কমপক্ষে দুটি প্রয়োজন হত।

অন্যদিকে, Llama 4 Maverick একই পরিমাণ মেমরি ব্যবহার করার সময় তুলনামূলক পারফরম্যান্স অর্জনের জন্য ১ TB/s এর চেয়ে কম ব্যান্ডউইথের প্রয়োজন হয়। কারণ মডেল বিশেষজ্ঞদের মধ্যে শুধুমাত্র ১৭ বিলিয়ন প্যারামিটার সক্রিয়ভাবে আউটপুট তৈরিতে জড়িত থাকে। এটি একই হার্ডওয়্যারে টেক্সট জেনারেশন স্পীডকে কয়েকগুণ বাড়িয়ে দেয়।

বিপরীতভাবে, যদি শুধুমাত্র পারফরম্যান্স প্রধান উদ্বেগের বিষয় না হয়, তবে এই মডেলগুলির মধ্যে অনেকগুলি এখন সস্তা, তবে ধীরগতির GDDR6, GDDR7, বা এমনকি DDR মেমরিতেও চালানো যেতে পারে, যেমনটি Intel-এর সর্বশেষ Xeon-এ দেখা যায়।

Nvidia-এর নতুন RTX Pro সার্ভার, যা Computex-এ ঘোষণা করা হয়েছে, এই পরিস্থিতির জন্য তৈরি করা হয়েছে। ব্যয়বহুল এবং পাওয়ার-হাংরি HBM-এর ওপর নির্ভর করার পরিবর্তে, যার জন্য উন্নত প্যাকেজিং প্রয়োজন, এই সিস্টেমগুলির প্রতিটি আটটি RTX Pro 6000 GPU-তে ৯৬ জিবি GDDR7 মেমরি রয়েছে, যা আধুনিক গেমিং কার্ডগুলিতে পাওয়া যায়।

এই সিস্টেমগুলি ৭৬৮ জিবি পর্যন্ত vRAM এবং ১২.৮ TB/s সম্মিলিত ব্যান্ডউইথ সরবরাহ করে, যা Llama 4 Maverick-কে প্রতি সেকেন্ডে কয়েকশ টোকেনে চালানোর জন্য যথেষ্ট। Nvidia দাম প্রকাশ না করলেও, এই কার্ডগুলির ওয়ার্কস্টেশন সংস্করণ প্রায় ৮,৫০০ ডলারে বিক্রি হয়, যা থেকে বোঝা যায় যে এই সার্ভারগুলির দাম ব্যবহৃত HGX H100-এর অর্ধেক হতে পারে।

তবে, MoE মানে HBM-স্ট্যাকড জিপিইউগুলির শেষ নয়। ধরে নিন Llama 4 Behemoth, যদি এটি কখনও শিপিং করে, তার বিশাল আকারের কারণে GPU-এর একটি র‍্যাক প্রয়োজন হবে।

Llama 3.1 405B-এর প্রায় অর্ধেক সক্রিয় প্যারামিটার থাকলেও, এটির মোট ২ ট্রিলিয়ন প্যারামিটার রয়েছে। বর্তমানে, বাজারে এমন একটিও প্রচলিত GPU সার্ভার নেই যা সম্পূর্ণ ১৬-বিট মডেল এবং এক মিলিয়ন বা তার বেশি টোকেনের একটি কনটেক্সট উইন্ডো সামলাতে পারে।

এআই-এ সিপিইউ রেনেসাঁ?

নির্দিষ্ট অ্যাপ্লিকেশনের ওপর নির্ভর করে, একটি GPU সবসময় প্রয়োজন নাও হতে পারে, বিশেষ করে সেই অঞ্চলগুলিতে যেখানে উচ্চ-সম্পন্ন অ্যাক্সিলারেটরগুলির অ্যাক্সেস সীমিত।

ইনটেল এপ্রিলে ৮৮০০ MT/s MCRDIMM দিয়ে সজ্জিত একটি ডুয়াল-সকেট Xeon 6 প্ল্যাটফর্ম প্রদর্শন করেছে। এই সেটআপটি Llama 4 Maverick-এ প্রতি সেকেন্ডে ২৪০ টোকেন থ্রুপুট অর্জন করেছে, যেখানে প্রতি টোকেনে গড় আউটপুট লেটেন্সি ১০০ ms এর নিচে ছিল।

সহজ কথায়, Xeon প্ল্যাটফর্মটি প্রায় ২৪ জন কনকারেন্ট ব্যবহারকারীর জন্য প্রতি ব্যবহারকারী প্রতি সেকেন্ডে ১০টি টোকেন বা তার বেশি ধরে রাখতে পারত।

ইনটেল একক-ব্যবহারকারীর পারফরম্যান্সের পরিসংখ্যান প্রকাশ করেনি, কারণ সেগুলি বাস্তব-বিশ্বের পরিস্থিতিতে কম প্রাসঙ্গিক। তবে, অনুমান থেকে বোঝা যায় যে এর সর্বোচ্চ পারফরম্যান্স প্রতি সেকেন্ডে প্রায় ১০০ টোকেন।

তবুও, যদি কোনও ভাল বিকল্প বা নির্দিষ্ট প্রয়োজনীয়তা না থাকে তবে সিপিইউ-ভিত্তিক অনুমানের অর্থনীতি ব্যবহারের ক্ষেত্রে অত্যন্ত নির্ভরশীল।

ওজন হ্রাস: ছাঁটাই এবং কোয়ান্টাইজেশন

MoE আর্কিটেকচারগুলি বৃহৎ মডেল পরিবেশন করার জন্য প্রয়োজনীয় মেমরি ব্যান্ডউইথ হ্রাস করতে পারে, তবে এটি তাদের ওয়েট সংরক্ষণের জন্য প্রয়োজনীয় মেমরির পরিমাণ হ্রাস করে না। এমনকি ৮-বিট নির্ভুলতায়, Llama 4 Maverick চালানোর জন্য ৪০০ জিবি-এর বেশি মেমরির প্রয়োজন, সক্রিয় প্যারামিটারের সংখ্যা নির্বিশেষে।

নতুন ছাঁটাই কৌশল এবং কোয়ান্টাইজেশন পদ্ধতিগুলি গুণমান ত্যাগ না করে সেই প্রয়োজনীয়তা অর্ধেক করতে পারে।

Nvidia ছাঁটাইয়ের একজন প্রবক্তা, মেটার Llama 3 মডেলগুলির ছাঁটাইকৃত সংস্করণ প্রকাশ করেছে যেগুলি থেকে অতিরিক্ত ওজন সরানো হয়েছে।

Nvidia ছিল প্রথম সংস্থাগুলির মধ্যে একটি যারা ২০২২ সালে ৮-বিট ফ্লোটিং-পয়েন্ট ডেটা টাইপ এবং ২০২৪ সালে এর ব্ল্যাকওয়েল আর্কিটেকচারের লঞ্চের সাথে ৪-বিট ফ্লোটিং পয়েন্ট সমর্থন করে। AMD-এর নেটিভ FP4 সমর্থন অফার করে এমন প্রথম চিপগুলি শীঘ্রই প্রকাশিত হবে বলে আশা করা হচ্ছে।

যদিও কঠোরভাবে প্রয়োজনীয় নয়, এই ডেটা টাইপগুলির জন্য নেটিভ হার্ডওয়্যার সমর্থন সাধারণত গণনা সংক্রান্ত বাধাগুলির সম্মুখীন হওয়ার সম্ভাবনা হ্রাস করে, বিশেষ করে স্কেলে পরিবেশন করার সময়।

আমরা দেখেছি যে মডেল ডেভেলপারদের মধ্যে নিম্ন-নির্ভুলতার ডেটা টাইপ গ্রহণের সংখ্যা বাড়ছে, যেখানে Meta, Microsoft এবং Alibaba তাদের মডেলগুলির আট-বিট এবং এমনকি চার-বিট কোয়ান্টাইজড সংস্করণ সরবরাহ করছে।

কোয়ান্টারাইজেশনে মডেলের ওজনগুলিকে তাদের নেটিভ নির্ভুলতা থেকে সংকুচিত করা জড়িত, সাধারণত BF16, থেকে FP8 বা INT4-এ। এটি কার্যকরভাবে মডেলগুলির মেমরি ব্যান্ডউইথ এবং ক্ষমতার প্রয়োজনীয়তা অর্ধেক বা এমনকি তিন-চতুর্থাংশ হ্রাস করে, কিছু গুণমানের বিনিময়ে।

১৬ বিট থেকে আট বিটে স্থানান্তরের সাথে সম্পর্কিত ক্ষতি প্রায়শই নগণ্য থাকে এবং ডিপসিক সহ বেশ কয়েকটি মডেল নির্মাতা FP8 নির্ভুলতায় শুরু থেকেই প্রশিক্ষণ শুরু করেছেন। তবে, আরও চারটি বিট দ্বারা নির্ভুলতা হ্রাস করলে গুণমানের যথেষ্ট অবনতি হতে পারে। ফলস্বরূপ, অনেকগুলি পোস্ট-ট্রেনিং কোয়ান্টাইজেশন পদ্ধতি, যেমন GGUF, মডেলের সমস্ত ওজন সমানভাবে সংকুচিত করে না, কিছুকে উচ্চ নির্ভুলতার স্তরে রেখে গুণমানের ক্ষতি হ্রাস করে।

গুগল সম্প্রতি কোয়ান্টাইজেশন-অ্যাওয়্যার ট্রেনিং (QAT) ব্যবহার করে তার Gemma 3 মডেলগুলিকে ৪ গুণ কমিয়েছে, যেখানে নেটিভ BF16-এর কাছাকাছি গুণমানের মাত্রা বজায় রেখেছে।

QAT প্রশিক্ষণের সময় নিম্ন-নির্ভুলতার অপারেশনগুলি অনুকরণ করে। একটি অ-যোগ্য মডেলের ওপর প্রায় ৫,০০০ ধাপের জন্য এই কৌশল প্রয়োগ করে, গুগল ইন্ট৪-এ রূপান্তরিত হওয়ার সময় বিভ্রান্তিকরতা হ্রাসে ৫৪ শতাংশ হ্রাস করতে সক্ষম হয়েছিল, যা কোয়ান্টাইজেশন সম্পর্কিত ক্ষতির পরিমাপের একটি মেট্রিক।

কোয়ান্টাইজেশনের অপর একটি QAT-ভিত্তিক পদ্ধতি, যা বিটনেট নামে পরিচিত, আরও কম নির্ভুলতার স্তরের লক্ষ্য রাখে, মডেলগুলিকে মাত্র ১.৫৮ বিটে সংকুচিত করে, বা তাদের মূল আকারের প্রায় এক দশমাংশ।

প্রযুক্তির সমন্বয়

MoE এবং ৪-বিট কোয়ান্টাইজেশনের সংমিশ্রণ উল্লেখযোগ্য সুবিধা সরবরাহ করে, বিশেষ করে যখন ব্যান্ডউইথ সীমিত থাকে।

অন্যদের জন্য যাদের ব্যান্ডউইথের সীমাবদ্ধতা নেই, তাদের ক্ষেত্রে MoE অথবা কোয়ান্টাইজেশন, এই দুটি প্রযুক্তির যে কোনও একটি বৃহত্তর এবং আরও শক্তিশালী মডেল চালানোর জন্য সরঞ্জাম এবং অপারেশনের খরচ যথেষ্ট পরিমাণে কমাতে পারে; এটি ধরে নিয়ে যে তাদের পারফর্ম করার জন্য একটি মূল্যবান পরিষেবা খুঁজে পাওয়া যেতে পারে।

আর যদি না পাওয়া যায়, তবে আপনি অন্তত এই ভেবে সান্ত্বনা পেতে পারেন যে আপনি একা নন - আইবিএমের সাম্প্রতিক একটি সমীক্ষায় দেখা গেছে যে চারটি এআই স্থাপনার মধ্যে মাত্র একটি প্রত্যাশিত বিনিয়োগের ওপর রিটার্ন দিয়েছে।