কৃত্রিম বুদ্ধিমত্তার (Artificial Intelligence) দ্রুত পরিবর্তনশীল বিশ্বে, মাইক্রোসফট রিসার্চের একটি যুগান্তকারী উদ্ভাবন জেনারেটিভ এআই-এর (Generative AI) সহজলভ্যতা এবং কার্যকারিতা নতুন করে সংজ্ঞায়িত করার প্রতিশ্রুতি দিয়েছে। তাদের সাম্প্রতিক গবেষণাপত্রটি বিটনেট বি১.৫৮ ২বি৪টি (BitNet b1.58 2B4T) নামে একটি অগ্রণী বৃহৎ ভাষা মডেল (Large Language Model, LLM) উপস্থাপন করে, যা স্থানীয়ভাবে ‘১-বিট’ ওজন বা আরও সঠিকভাবে বললে ১-ট্রিট ওজন (1-trit weights) দিয়ে প্রশিক্ষিত। এই উদ্ভাবনী পদ্ধতিটি ঐতিহ্যবাহী পদ্ধতি থেকে একটি বড় ধরনের প্রস্থান, যা প্রাথমিকভাবে সম্পূর্ণ নির্ভুলতায় প্রশিক্ষিত মডেলের কোয়ান্টাইজেশনের (Quantization) উপর নির্ভর করে।
ঐতিহ্যবাহী এলএলএম-এর সীমাবদ্ধতা অতিক্রম করা
ঐতিহ্যবাহী এলএলএমগুলি তাদের অসাধারণ কর্মক্ষমতা সত্ত্বেও কিছু বড় বাধার সম্মুখীন হয়, যা তাদের ব্যাপক ব্যবহারকে বাধা দেয়। এই সীমাবদ্ধতাগুলোর মধ্যে প্রধান হলো তাদের বিশাল মেমোরি ফুটপ্রিন্ট (Memory Footprints), উল্লেখযোগ্য পরিমাণে শক্তি খরচ এবং বেশি ইনফারেন্স লেটেন্সি (Inference Latency)। ফলস্বরূপ, এই মডেলগুলোকে প্রান্তিক ডিভাইসগুলোতে (Edge Devices), সীমিত সম্পদের পরিবেশে এবং রিয়েল-টাইম অ্যাপ্লিকেশনগুলোর (Real-time Applications) জন্য ব্যবহার করা কার্যত অসম্ভব।
এই সমস্যাগুলো কমানোর জন্য, এআই (AI) সম্প্রদায় ক্রমবর্ধমানভাবে কোয়ান্টাইজড মডেলগুলো (Quantized Models) অনুসন্ধানের উপর মনোযোগ দিয়েছে। এই মডেলগুলো তাদের ওজনগুলোকে নিম্ন-বিট ফরম্যাটে (Lower-bit format) রূপান্তর করে পূর্ণ-নির্ভুল প্রতিরূপ থেকে তৈরি করা হয়। কোয়ান্টাইজেশন মডেলের আকার এবং কম্পিউটেশনাল চাহিদা (Computational Demands) কমানোর একটি উপায় হলেও, এটি প্রায়শই নির্ভুলতা হ্রাসের (Precision Loss) মূল্যে আসে, যা মডেলের নির্ভুলতা এবং সামগ্রিক কর্মক্ষমতাকে ক্ষতিগ্রস্ত করতে পারে।
বিটনেট বি১.৫৮ ২বি৪টি আর্কিটেকচার (BitNet b1.58 2B4T Architecture)
বিটনেট বি১.৫৮ ২বি৪টি এলএলএম ডিজাইনে একটি দৃষ্টান্ত পরিবর্তন (Paradigm Shift) উপস্থাপন করে। এটি ১-বিট ওজন ব্যবহার করে গ্রাউন্ড আপ (Ground Up) থেকে মডেলটিকে প্রশিক্ষণ দিয়ে কোয়ান্টাইজেশনের সাথে সম্পর্কিত নির্ভুলতা হ্রাসকে এড়িয়ে যায়। এই পদ্ধতিটি ছোট ওজনের সুবিধাগুলো ধরে রাখতে দেয়, যার মধ্যে রয়েছে কম মেমোরি ফুটপ্রিন্ট এবং কম কম্পিউটেশনাল খরচ।
মাইক্রোসফটের গবেষকরা ৪ ট্রিলিয়ন টোকেনের (Trillion Tokens) একটি বিশাল ডেটাসেটের (Dataset) উপর বিটনেট বি১.৫৮ ২বি৪টি প্রশিক্ষণ দিয়ে এই উচ্চাভিলাষী প্রচেষ্টা শুরু করেছিলেন। এই বিস্তৃত প্রশিক্ষণ ডেটাসেট নিশ্চিত করেছে যে মডেলটি জটিল ভাষার প্যাটার্নগুলো (Language Patterns) কার্যকরভাবে শিখতে এবং মানুষের যোগাযোগের সূক্ষ্মতা সম্পর্কে একটি ব্যাপক ধারণা তৈরি করতে পারবে।
কর্মক্ষমতা মূল্যায়ন এবং বেঞ্চমার্কিং (Performance Evaluation and Benchmarking)
বিটনেট বি১.৫৮ ২বি৪টি-এর কার্যকারিতা মূল্যায়ন করার জন্য, মাইক্রোসফট কঠোর বেঞ্চমার্ক পরিচালনা করে এবং একই আকারের শীর্ষস্থানীয় ওপেন-ওয়েট (Open-Weight), ফুল-নির্ভুল মডেলগুলোর (Full-Precision Models) সাথে এর কর্মক্ষমতা তুলনা করে। ফলাফলে দেখা গেছে যে নতুন মডেলটি ভাষা বোঝা এবং যুক্তি, বিশ্ব জ্ঞান, পঠন বোধগম্যতা, গণিত ও কোড এবং নির্দেশ অনুসরণ ও কথোপকথনসহ বিস্তৃত কাজগুলোতে তুলনামূলকভাবে ভালো পারফর্ম করেছে।
এই ফলাফলগুলো ১-বিট এলএলএমগুলোর তাদের ফুল-নির্ভুল প্রতিরূপগুলোর সাথে কর্মক্ষমতার সমতা অর্জনের সম্ভাবনাকে তুলে ধরে, একই সাথে কার্যকারিতা এবং সম্পদ ব্যবহারের ক্ষেত্রে উল্লেখযোগ্য সুবিধা প্রদান করে।
মূল স্থাপত্য উদ্ভাবন (Key Architectural Innovations)
বিটনেট বি১.৫৮ ২বি৪টি-এর মূল অংশে রয়েছে এর উদ্ভাবনী আর্কিটেকচার, যা স্ট্যান্ডার্ড ফুল-নির্ভুল লিনিয়ার লেয়ারগুলোকে (Full-Precision Linear Layers) কাস্টম বিটলিনিয়ার লেয়ার (BitLinear Layer) দিয়ে প্রতিস্থাপন করে। এই লেয়ারগুলো ফরোয়ার্ড পাসের (Forward Pass) সময় ওজনগুলোকে টারনারি ভ্যালু (Ternary Values) (trits) হিসাবে এনকোড (Encode) করতে ১.৫৮-বিট উপস্থাপনা ব্যবহার করে।
টারনারি ভ্যালুগুলোর ব্যবহার, যা {-১, ০, +১} হিসাবে উপস্থাপিত হয়, মডেলের আকারকে মারাত্মকভাবে হ্রাস করে এবং দক্ষ গাণিতিক ক্রিয়াকলাপকে সহজতর করে। এটি অ্যাবসোলিউট মিন (Absolute Mean) (absmean
) কোয়ান্টাইজেশন স্কিমের (Quantization Scheme) মাধ্যমে অর্জিত হয়, যা ওজনগুলোকে এই টারনারি ভ্যালুগুলোতে ম্যাপ (Map) করে।
বিটলিনিয়ার লেয়ারগুলো ছাড়াও, বিটনেট বি১.৫৮ ২বি৪টি বেশ কয়েকটি প্রতিষ্ঠিত এলএলএম কৌশল অন্তর্ভুক্ত করে, যেমন স্কয়ার্ড রিলু অ্যাক্টিভেশন ফাংশন (Squared ReLU Activation Functions), রোটারি পজিশনাল এম্বেডিং (Rotary Positional Embeddings) এবং বায়াস টার্ম অপসারণ (Bias Term Removal)। এই কৌশলগুলো মডেলের আকার কমাতে এবং প্রশিক্ষণ স্থিতিশীলতা (Training Stability) উন্নত করতে আরও অবদান রাখে।
প্রশিক্ষণ স্থিতিশীলতা এবং কার্যকারিতা বৃদ্ধি করা
বিটলিনিয়ার লেয়ারগুলোতে ব্যবহৃত আরও দুটি কৌশল—অ্যাক্টিভেশন কোয়ান্টাইজেশন (Activation Quantization) এবং নরমালাইজেশন (Normalization)—মডেলের আকার কমাতে এবং প্রশিক্ষণ স্থিতিশীলতা বাড়াতে গুরুত্বপূর্ণ ভূমিকা পালন করে। অ্যাক্টিভেশন কোয়ান্টাইজেশন অ্যাক্টিভেশনগুলোর নির্ভুলতা হ্রাস করে, যেখানে নরমালাইজেশন কৌশলগুলো অ্যাক্টিভেশনগুলোকে খুব বড় বা খুব ছোট হওয়া থেকে রক্ষা করতে সহায়তা করে।
এই কৌশলগুলো, ১-বিট ওজনের ব্যবহারের সাথে মিলিত হয়ে বিটনেট বি১.৫৮ ২বি৪টি-কে আরও দক্ষতার সাথে এবং কার্যকরভাবে প্রশিক্ষণ দিতে সক্ষম করে, এমনকি বড় ডেটাসেটের উপরেও।
প্রশিক্ষণ পদ্ধতি (Training Methodologies)
প্রশিক্ষণের জন্য, বিটনেট বি১.৫৮ ২বি৪টি তিনটি মূল কৌশল ব্যবহার করে: বৃহৎ আকারের প্রি-ট্রেনিং (Pre-Training), তত্ত্বাবধানে ফাইন-টিউনিং (Supervised Fine-Tuning) এবং ডিরেক্ট প্রেফারেন্স অপটিমাইজেশন (Direct Preference Optimization)।
বৃহৎ আকারের প্রি-ট্রেনিং
এই প্রাথমিক পর্যায়ে মডেলটিকে টেক্সট এবং কোডের একটি বিশাল ডেটাসেটের উপর প্রশিক্ষণ দেওয়া হয়, যা এটিকে সাধারণ ভাষার প্যাটার্নগুলো শিখতে এবং বিশ্ব সম্পর্কে একটি ব্যাপক ধারণা তৈরি করতে সহায়তা করে।
তত্ত্বাবধানে ফাইন-টিউনিং
এই পর্যায়ে, মডেলটিকে একটি ছোট, আরও নির্দিষ্ট ডেটাসেটের উপর ফাইন-টিউন (Fine-Tune) করা হয়, যা একটি বিশেষ কাজ বা ডোমেনের জন্য তৈরি করা হয়। এটি মডেলটিকে তার জ্ঞান এবং দক্ষতাগুলোকে কাজের নির্দিষ্ট প্রয়োজনীয়তার সাথে খাপ খাইয়ে নিতে সহায়তা করে।
ডিরেক্ট প্রেফারেন্স অপটিমাইজেশন
এই কৌশলটিতে মডেলটিকে সরাসরি মানুষের পছন্দগুলোর জন্য অপটিমাইজ (Optimize) করতে প্রশিক্ষণ দেওয়া হয়, যা প্রতিক্রিয়া বা রেটিংয়ের মাধ্যমে প্রকাশ করা হয়। এটি নিশ্চিত করতে সহায়তা করে যে মডেলের আউটপুটগুলো মানুষের মূল্যবোধ এবং প্রত্যাশার সাথে সামঞ্জস্যপূর্ণ।
গবেষকরা উল্লেখ করেছেন যে আরও উন্নত কৌশল, যেমন প্রক্সিমাল পলিসি অপটিমাইজেশন (Proximal Policy Optimization) বা গ্রুপ রিলেটিভ পলিসি অপটিমাইজেশন (Group Relative Policy Optimization), ভবিষ্যতে গাণিতিক ক্ষমতা এবং চেইন-অফ-থট রিজনিং (Chain-of-Thought Reasoning) বাড়ানোর জন্য অন্বেষণ করা হবে।
বিটনেট.সিপিপি ইনফারেন্স লাইব্রেরি (Bitnet.cpp Inference Library)
বিটনেট বি১.৫৮ ২বি৪টি-এর অনন্য কোয়ান্টাইজেশন স্কিমের কারণে, মডেলটি লামা.সিপিপি-এর (llama.cpp) মতো স্ট্যান্ডার্ড ডিপ লার্নিং লাইব্রেরিগুলোর (Deep Learning Libraries) সাথে ব্যবহার করা যায় না এবং এর জন্য একটি বিশেষ কার্নেলের (Kernel) প্রয়োজন। এই সমস্যা সমাধানের জন্য, মাইক্রোসফট বিটনেট.সিপিপি (bitnet.cpp) নামে একটি ওপেন সোর্স ডেডিকেটেড ইনফারেন্স লাইব্রেরি (Inference Library) তৈরি করেছে।
বিটনেট.সিপিপি ১-বিট এলএলএমগুলোর জন্য অফিসিয়াল ইনফারেন্স ফ্রেমওয়ার্ক (Inference Framework) হিসাবে কাজ করে, যেমন বিটনেট বি১.৫৮। এটি অপটিমাইজড কার্নেলের একটি স্যুট (Suite) সরবরাহ করে, যা সিপিইউগুলোতে (CPUs) ১.৫৮-বিট মডেলগুলোর দ্রুত এবং লসলেস ইনফারেন্সকে (Lossless Inference) সমর্থন করে, ভবিষ্যতে এনপিইউ (NPU) এবং জিপিইউতে (GPU) সমর্থন প্রসারিত করার পরিকল্পনা রয়েছে।
এই ইনফারেন্স লাইব্রেরিটি বিটনেট বি১.৫৮ ২বি৪টি-কে আরও বিস্তৃত ডিভাইস এবং প্ল্যাটফর্মে (Platform) স্থাপন করতে সক্ষম করার জন্য অত্যন্ত গুরুত্বপূর্ণ, যা এটিকে ডেভেলপার (Developer) এবং গবেষকদের কাছে আরও সহজলভ্য করে তুলবে।
ভবিষ্যতের গবেষণা দিকনির্দেশনা (Future Research Directions)
গবেষকরা স্বীকার করেছেন যে বর্তমান জিপিইউ হার্ডওয়্যার (GPU Hardware) ১-বিট মডেলগুলোর জন্য অপটিমাইজ করা হয়নি এবং লো-বিট অপারেশনের (Low-bit Operation) জন্য ডেডিকেটেড লজিক (Dedicated Logic) অন্তর্ভুক্ত করে আরও বেশি কর্মক্ষমতা অর্জন করা যেতে পারে। এটি সুপারিশ করে যে ভবিষ্যতের হার্ডওয়্যার আর্কিটেকচারগুলো (Hardware Architectures) বিশেষভাবে ১-বিট এলএলএমগুলোকে সমর্থন করার জন্য ডিজাইন করা হতে পারে, যা আরও বেশি কার্যকারিতা এবং কর্মক্ষমতার দিকে পরিচালিত করবে।
হার্ডওয়্যার অপটিমাইজেশন (Hardware Optimizations) ছাড়াও, ভবিষ্যতের গবেষণা দিকনির্দেশনার মধ্যে রয়েছে বৃহত্তর মডেল প্রশিক্ষণ, বহুভাষিক ক্ষমতা এবং মাল্টি-মোডাল ইন্টিগ্রেশন (Multi-Modal Integration) যোগ করা এবং কনটেক্সট উইন্ডোর (Context Window) দৈর্ঘ্য প্রসারিত করা। এই অগ্রগতিগুলো বিটনেট বি১.৫৮ ২বি৪টি এবং অন্যান্য ১-বিট এলএলএমগুলোর ক্ষমতা এবং বহুমুখিতাকে আরও বাড়িয়ে তুলবে।
প্রভাব এবং সম্ভাব্য প্রভাব (Implications and Potential Impact)
বিটনেট বি১.৫৮ ২বি৪টি-এর বিকাশের এআই-এর ভবিষ্যতের জন্য, বিশেষ করে জেনারেটিভ এআই-এর ক্ষেত্রে উল্লেখযোগ্য প্রভাব রয়েছে। শুধুমাত্র ১-বিট ওজন ব্যবহার করে উচ্চ-কার্যক্ষমতাসম্পন্ন এলএলএমগুলোকে প্রশিক্ষণ দেওয়া সম্ভব, তা প্রমাণ করে মাইক্রোসফট আরও দক্ষ এবং সহজলভ্য এআই সিস্টেম (AI System) তৈরি করার জন্য নতুন সম্ভাবনা উন্মোচন করেছে।
এই যুগান্তকারী আবিষ্কারের ফলে স্মার্টফোন, আইওটি (IoT) ডিভাইস এবং অন্যান্য সীমিত সম্পদযুক্ত প্ল্যাটফর্মসহ বিস্তৃত ডিভাইসে এআই মডেল স্থাপন করা যেতে পারে। এটি আরও শক্তি-সাশ্রয়ী এআই সিস্টেমের বিকাশের পথ খুলে দিতে পারে, যা তাদের পরিবেশগত প্রভাব হ্রাস করবে।
তাছাড়া, ১-বিট ওজন দিয়ে এলএলএমগুলোকে প্রশিক্ষণ দেওয়ার ক্ষমতা নির্দিষ্ট অ্যাপ্লিকেশনগুলোর জন্য এআই মডেলগুলোকে কাস্টমাইজ (Customize) এবং ব্যক্তিগতকরণ করা সহজ করে তুলতে পারে। এর ফলে আরও কার্যকর এবং ব্যবহারকারী-বান্ধব এআই সিস্টেমের বিকাশ হতে পারে, যা পৃথক ব্যবহারকারী এবং সংস্থার অনন্য চাহিদা অনুযায়ী তৈরি করা হয়।
উপসংহার (Conclusion)
মাইক্রোসফটের বিটনেট বি১.৫৮ ২বি৪টি আরও দক্ষ এবং সহজলভ্য এআই তৈরির অনুসন্ধানে একটি উল্লেখযোগ্য পদক্ষেপ। শুধুমাত্র ১-বিট ওজন ব্যবহার করে উচ্চ-কার্যক্ষমতাসম্পন্ন এলএলএমগুলোকে প্রশিক্ষণ দেওয়া সম্ভব, তা প্রমাণ করে মাইক্রোসফট প্রচলিত প্রজ্ঞাকে চ্যালেঞ্জ করেছে এবং এআই-এর ভবিষ্যতের জন্য নতুন সম্ভাবনা উন্মোচন করেছে।
এই ক্ষেত্রে গবেষণা অব্যাহত থাকার সাথে সাথে আমরা ১-বিট এলএলএমগুলোর আরও উদ্ভাবনী অ্যাপ্লিকেশন দেখতে পাব বলে আশা করতে পারি, যা এমন এক ভবিষ্যতের দিকে পরিচালিত করবে যেখানে এআই আরও ব্যাপক, দক্ষ এবং সমাজের জন্য উপকারী হবে।