কৃত্রিম বুদ্ধিমত্তা (Artificial Intelligence) দ্রুত বিকশিত হচ্ছে এবং বিভিন্ন শিল্পে এর ব্যবহার বাড়ছে। এই প্রেক্ষাপটে, ব্যবসাগুলির সামনে একটি গুরুত্বপূর্ণ চ্যালেঞ্জ হল এই শক্তিশালী প্রযুক্তি থেকে সর্বাধিক সুবিধা অর্জন করা। এই চ্যালেঞ্জের একটি প্রধান দিক হল অনুমানের অর্থনীতি (Economics of Inference) বোঝা। অনুমান হল একটি প্রশিক্ষিত এআই মডেল ব্যবহার করে নতুন ডেটা থেকে পূর্বাভাস বা আউটপুট তৈরি করার প্রক্রিয়া।
মডেল প্রশিক্ষণের (Model Training) তুলনায় অনুমান একটি বিশেষ computational চাহিদা তৈরি করে। প্রশিক্ষণ প্রক্রিয়ায় বিশাল ডেটা প্রক্রিয়াকরণের জন্য প্রচুর upfront খরচ হয় এবং ডেটার মধ্যেকার pattern গুলো খুঁজে বের করতে হয়। অন্যদিকে, অনুমানের ক্ষেত্রে প্রতিটি interaction এর জন্য ongoing খরচ হয়। মডেলটিতে পাঠানো প্রতিটি prompt বা input ডেটার মৌলিক একক টোকেন (Token) তৈরি করে এবং প্রতিটি টোকেনের একটি computational খরচ আছে।
তাই, এআই মডেলগুলি যত বেশি অত্যাধুনিক এবং বহুল ব্যবহৃত হবে, টোকেন তৈরির পরিমাণ তত বাড়বে, যার ফলে computational খরচও বাড়বে। যে সংস্থাগুলি এআই ব্যবহার করে কার্যকর ফল পেতে চায়, তাদের লক্ষ্য হল computational খরচ নিয়ন্ত্রণে রেখে দ্রুত গতি, নির্ভুলতা এবং পরিষেবার গুণমান বজায় রেখে প্রচুর পরিমাণে টোকেন তৈরি করা।
এআই ইকোসিস্টেম (AI Ecosystem) সক্রিয়ভাবে অনুমানের খরচ কমানো এবং দক্ষতা বাড়ানোর জন্য বিভিন্ন কৌশল অনুসরণ করছে। মডেল অপটিমাইজেশন (Model Optimization), শক্তি-সাশ্রয়ী accelerated computing infrastructure (যেমন GPU) এর উন্নয়ন এবং ব্যাপক full-stack solutions এর কারণে গত বছর ধরে অনুমানের খরচ উল্লেখযোগ্যভাবে কমেছে।
স্ট্যানফোর্ড ইউনিভার্সিটি ইনস্টিটিউট ফর হিউম্যান-সেন্টার্ড এআই (Stanford University Institute for Human-Centered AI) এর ২০২৫ সালের এআই ইনডেক্স রিপোর্ট (AI Index Report) অনুসারে, জিপিটি-3.5 (GPT-3.5) স্তরের কর্মক্ষমতা সম্পন্ন একটি সিস্টেমের অনুমানের খরচ নভেম্বর ২০২২ থেকে অক্টোবর ২০২৪ এর মধ্যে নাটকীয়ভাবে হ্রাস পেয়েছে। হার্ডওয়্যারের দামও কমেছে, এবং প্রতি বছর শক্তি দক্ষতা বাড়ছে। এছাড়াও, ওপেন-ওয়েট মডেলগুলি (Open-Weight Models) ক্লোজড মডেলগুলির (Closed Models) সাথে কর্মক্ষমতার পার্থক্য কমিয়ে আনছে, যা উন্নত এআই গ্রহণের পথে আরও বাধা হ্রাস করছে।
মডেলগুলি আরও উন্নত হওয়ার সাথে সাথে তাদের চাহিদা বাড়ছে এবং তারা আরও বেশি টোকেন তৈরি করছে। তাই সংস্থাগুলিকে তাদের accelerated computing resources বাড়াতে হবে, যাতে তারা পরবর্তী প্রজন্মের এআই reasoning tool সরবরাহ করতে পারে। তা না হলে খরচ এবং শক্তি খরচ দুটোই বাড়তে পারে।
এই নিবন্ধটি অনুমানের অর্থনীতির একটি মৌলিক ধারণা প্রদান করে, যা সংস্থাগুলিকে দক্ষ, সাশ্রয়ী এবং মাপযোগ্য এআই সমাধান তৈরি করতে সাহায্য করবে।
এআই অনুমান অর্থনীতির মূল ধারণা (Key Concepts in AI Inference Economics)
এআই অনুমান অর্থনীতির গুরুত্ব বুঝতে হলে এর প্রয়োজনীয় শব্দগুলোর সাথে পরিচিত হওয়া জরুরি।
টোকেন (Tokens): এআই মডেলের মূল ডেটা একক, যা প্রশিক্ষণকালে টেক্সট, ছবি, অডিও এবং ভিডিও থেকে তৈরি করা হয়। টোকেনাইজেশন (Tokenization) হল ডেটাকে ছোট, সহজে ব্যবহারযোগ্য ইউনিটে বিভক্ত করার প্রক্রিয়া। প্রশিক্ষণের সময়, মডেল টোকেনগুলোর মধ্যে সম্পর্ক শিখে, যা এটিকে অনুমান করতে এবং সঠিক আউটপুট তৈরি করতে সক্ষম করে।
থ্রুপুট (Throughput): একটি নির্দিষ্ট সময়ের মধ্যে একটি মডেল যে পরিমাণ ডেটা প্রক্রিয়া করতে এবং আউটপুট দিতে পারে। এটি সাধারণত প্রতি সেকেন্ডে টোকেন সংখ্যায় পরিমাপ করা হয়। উচ্চ থ্রুপুট infrastructure resources এর আরও দক্ষ ব্যবহার নির্দেশ করে।
লেটেন্সি (Latency): একটি prompt দেওয়ার পরে মডেলের প্রতিক্রিয়া পেতে যে সময় লাগে। কম লেটেন্সি মানে দ্রুত প্রতিক্রিয়া এবং ব্যবহারকারীর অভিজ্ঞতা ভালো হওয়া। প্রধান লেটেন্সি মেট্রিকগুলো হল:
- টাইম টু ফার্স্ট টোকেন (Time to First Token - TTFT): ব্যবহারকারীর prompt পাওয়ার পরে মডেলটিকে প্রথম আউটপুট টোকেন তৈরি করতে যে সময় লাগে।
- টাইম পার আউটপুট টোকেন (Time per Output Token - TPOT): পরবর্তী টোকেন তৈরি করতে যে গড় সময় লাগে, একে “inter-token latency” বা “token-to-token latency”-ও বলা হয়।
TTFT এবং TPOT দরকারী benchmark হলেও, শুধুমাত্র এগুলোর ওপর মনোযোগ দিলে কর্মক্ষমতা কমে যেতে পারে বা খরচ বেড়ে যেতে পারে।
গুডপুট (Goodput): একটি সামগ্রিক মেট্রিক যা target TTFT এবং TPOT মাত্রা বজায় রেখে অর্জিত থ্রুপুট পরিমাপ করে। গুডপুট সিস্টেমের কর্মক্ষমতার একটি আরও ব্যাপক চিত্র সরবরাহ করে, যা operational দক্ষতা এবং একটি ইতিবাচক ব্যবহারকারীর অভিজ্ঞতা নিশ্চিত করতে থ্রুপুট, লেটেন্সি এবং খরচের মধ্যে সমন্বয় করে।
শক্তি দক্ষতা (Energy Efficiency): এআই সিস্টেম কতটা কার্যকরভাবে শক্তিকে computational আউটপুটে রূপান্তরিত করে তার পরিমাপ, যা প্রতি ওয়াটে কর্মক্ষমতা হিসাবে প্রকাশ করা হয়। Accelerated computing প্ল্যাটফর্মগুলি সংস্থাগুলোকে প্রতি ওয়াটে টোকেন সংখ্যা সর্বাধিক করতে এবং শক্তি খরচ কমাতে সাহায্য করতে পারে।
স্কেলিং আইন এবং অনুমানের খরচ (Scaling Laws and Inference Cost)
এআই স্কেলিং-এর তিনটি আইন অনুমানের অর্থনীতি সম্পর্কে আরও ধারণা দেয়:
প্রিটেইনিং স্কেলিং (Pretraining Scaling): এটি মূল স্কেলিং আইন, যা দেখায় যে প্রশিক্ষণের ডেটাসেটের আকার, মডেল প্যারামিটারের সংখ্যা এবং computational resources বৃদ্ধি করলে মডেলের বুদ্ধিমত্তা এবং নির্ভুলতার উন্নতি হয়।
পোস্ট-ট্রেনিং (Post-training): এমন একটি প্রক্রিয়া যেখানে মডেলগুলোকে নির্দিষ্ট কাজ এবং অ্যাপ্লিকেশনের জন্য ফাইন-টিউন (Fine-tune) করা হয়। retrieval-augmented generation (RAG) এর মতো কৌশলগুলি এন্টারপ্রাইজ ডেটাবেস (Enterprise Database) থেকে প্রাসঙ্গিক তথ্য পুনরুদ্ধার করে নির্ভুলতা বাড়াতে পারে।
টেস্ট-টাইম স্কেলিং (Test-time Scaling): এটিকে “long thinking” বা “reasoning”-ও বলা হয়। এই কৌশলটিতে সেরা উত্তর নির্বাচন করার আগে একাধিক সম্ভাব্য ফলাফল মূল্যায়ন করার জন্য অনুমানের সময় অতিরিক্ত computational resources বরাদ্দ করা হয়।
পোস্ট-ট্রেনিং এবং টেস্ট-টাইম স্কেলিং কৌশলগুলি ক্রমশ অত্যাধুনিক হয়ে উঠলেও, মডেল স্কেলিং এবং এই উন্নত কৌশলগুলিকে সমর্থন করার জন্য প্রিটেইনিং একটি গুরুত্বপূর্ণ দিক।
একটি ফুল-স্ট্যাক পদ্ধতির মাধ্যমে লাভজনক এআই অর্জন (Achieving Profitable AI with a Full-Stack Approach)
যে মডেলগুলি জটিল সমস্যা সমাধানের জন্য টেস্ট-টাইম স্কেলিং ব্যবহার করে, সেগুলি আরও নির্ভুল এবং প্রাসঙ্গিক আউটপুট তৈরি করার জন্য একাধিক টোকেন তৈরি করে। এর ফলে যে মডেলগুলি শুধুমাত্র প্রিটেইনিং এবং পোস্ট-ট্রেনিং করে তাদের তুলনায় computational খরচ বেশি হয়।
স্মার্ট এআই সমাধানগুলির জন্য জটিল কাজগুলি সমাধান করার জন্য আরও বেশি টোকেন তৈরি করতে হয়, যেখানে একটি উচ্চ-মানের ব্যবহারকারীর অভিজ্ঞতার জন্য এই টোকেনগুলি যত দ্রুত সম্ভব তৈরি করতে হয়। একটি এআই মডেল যত বেশি বুদ্ধিমান এবং দ্রুত হবে, এটি ব্যবসা এবং গ্রাহকদের তত বেশি সুবিধা দেবে।
সংস্থাগুলোকে তাদের accelerated computing resources বাড়াতে হবে, যাতে তারা জটিল সমস্যা সমাধান, কোডিং এবং মাল্টিস্টেপ প্ল্যানিং (Multistep Planning) করতে পারে এবং অতিরিক্ত খরচও কমাতে পারে।
এর জন্য উন্নত হার্ডওয়্যার (Hardware) এবং একটি সম্পূর্ণরূপে অপটিমাইজড (Optimized) সফটওয়্যার স্ট্যাক (Software Stack) দুটোই প্রয়োজন। এনভিডিয়ার (NVIDIA) এআই ফ্যাক্টরি প্রোডাক্ট রোডম্যাপ (AI factory product roadmap) এই computational চাহিদা মেটাতে এবং দক্ষতা বাড়ানোর সাথে সাথে অনুমানের জটিলতাগুলি সমাধান করার জন্য ডিজাইন করা হয়েছে।
এআই ফ্যাক্টরিগুলি বৃহৎ পরিসরে বুদ্ধিমত্তা সক্ষম করতে উচ্চ-ক্ষমতাসম্পন্ন এআই infrastructure, উচ্চ-গতির নেটওয়ার্কিং (Networking) এবং অপটিমাইজড সফটওয়্যারকে একত্রিত করে। এই উপাদানগুলি নমনীয় এবং প্রোগ্রামযোগ্য (Programmable) করে ডিজাইন করা হয়েছে, যা ব্যবসাগুলোকে তাদের মডেল বা অনুমানের প্রয়োজনের জন্য গুরুত্বপূর্ণ ক্ষেত্রগুলিকে অগ্রাধিকার দিতে সহায়তা করে।
বিশাল এআই reasoning মডেল স্থাপনের সময় কার্যক্রমকে সুগম করার জন্য, এআই ফ্যাক্টরি একটি উচ্চ-কার্যক্ষমতা সম্পন্ন, কম-লেটেন্সির অনুমান management system-এ চলে। এই সিস্টেমটি নিশ্চিত করে যে এআই reasoning এর জন্য প্রয়োজনীয় গতি এবং থ্রুপুট সর্বনিম্ন সম্ভাব্য খরচে পূরণ করা হয়েছে, যা টোকেন রাজস্ব উৎপাদনকে সর্বাধিক করে।
অনুমানের অর্থনীতি বোঝা এবং সমাধান করার মাধ্যমে, সংস্থাগুলি এআই-এর সম্পূর্ণ সম্ভাবনা উন্মোচন করতে এবং তাদের বিনিয়োগের উপর উল্লেখযোগ্য রিটার্ন অর্জন করতে পারে। একটি কৌশলগত পদ্ধতি যা মূল মেট্রিকস (Metrics), স্কেলিং আইন এবং একটি ফুল-স্ট্যাক সমাধানের গুরুত্ব বিবেচনা করে, তা দক্ষ, সাশ্রয়ী এবং লাভজনক এআই অ্যাপ্লিকেশন তৈরির জন্য অপরিহার্য।