কৃত্রিম বুদ্ধিমত্তা (এআই) বিশ্বে বৃহৎ ভাষা মডেল (এলএলএম) তৈরির প্রতিযোগিতা ক্রমশ বাড়ছে। মিলিয়ন-টোকেন অতিক্রম করে আরও বড় মডেল তৈরির দিকে মনোযোগ দেওয়া হচ্ছে। MiniMax-Text-01-এর মতো ৪ মিলিয়ন টোকেন এবং Gemini 1.5 Pro-এর ২ মিলিয়ন টোকেন ধারণক্ষমতার মডেলগুলো বেশ সাড়া ফেলেছে। এই মডেলগুলো বিস্তৃত কোডবেস, জটিল আইনি নথি এবং গভীর গবেষণাপত্র একবারে বিশ্লেষণ করতে পারার সম্ভাবনা তৈরি করেছে।
এই আলোচনার মূল বিষয় হল কনটেক্সট দৈর্ঘ্য – একটি এআই মডেল কতটুকু টেক্সট প্রক্রিয়া করতে এবং মনে রাখতে পারে। একটি দীর্ঘ কনটেক্সট উইন্ডো একটি মেশিন লার্নিং (এমএল) মডেলকে একটি একক অনুরোধে অনেক বেশি তথ্য পরিচালনা করতে সাহায্য করে। এর ফলে, ডকুমেন্টগুলোকে ভেঙে ফেলার বা কথোপকথনগুলোকে টুকরো করার প্রয়োজন হয় না। উদাহরণস্বরূপ, ৪ মিলিয়ন টোকেন ক্ষমতা সম্পন্ন একটি মডেল প্রায় ১০,০০০ পৃষ্ঠার বই একবারে হজম করতে পারে।
theoretically, এই বর্ধিত কনটেক্সট আরও উন্নত ধারণা এবং যুক্তিবোধ তৈরি করতে পারে। তবে, আসল প্রশ্ন হলো এই বিশাল কনটেক্সট উইন্ডোগুলো কি বাস্তব ব্যবসায়িক মূল্য তৈরি করতে পারবে?
ব্যবসাগুলো যখন তাদের অবকাঠামো বাড়ানোর খরচ এবং উৎপাদনশীলতা ও নির্ভুলতার সম্ভাব্য লাভের মধ্যে তুলনা করে, তখন একটি প্রশ্ন সামনে আসে: আমরা কি সত্যিই এআই যুক্তিবোধের নতুন স্তরের উন্মোচন করছি, নাকি শুধুমাত্র অর্থহীন অগ্রগতি অর্জনের জন্য টোকেন মেমরির সীমা বাড়াচ্ছি? এই নিবন্ধে বৃহৎ-কনটেক্সট এলএলএম-এর ভবিষ্যৎ গঠনে প্রযুক্তিগত এবং অর্থনৈতিক বিষয়গুলো, বেঞ্চমার্কিংয়ের অসুবিধা এবং ব্যবসার কর্মপ্রবাহের বিবর্তন নিয়ে আলোচনা করা হবে।
কনটেক্সট দৈর্ঘ্যের প্রতিযোগিতা: কেন এআই কোম্পানিগুলো প্রতিদ্বন্দ্বিতা করছে?
OpenAI, Google DeepMind এবং MiniMax-এর মতো শীর্ষস্থানীয় এআই সংস্থাগুলো কনটেক্সট দৈর্ঘ্য বাড়ানোর জন্য তীব্র প্রতিযোগিতায় লিপ্ত হয়েছে। কনটেক্সট দৈর্ঘ্য সরাসরি একটি এআই মডেলের একক ইনস্ট্যান্সে প্রক্রিয়াকরণ ক্ষমতার সাথে সম্পর্কিত। ধারণা করা হচ্ছে, বৃহত্তর কনটেক্সট দৈর্ঘ্য আরও গভীর ধারণা তৈরি করবে, ভুল তথ্য হ্রাস করবে এবং আরও সাবলীল মিথস্ক্রিয়া তৈরি করবে।
enterprise-গুলোর জন্য, এর মানে হল এআই পুরো চুক্তি বিশ্লেষণ করতে, বৃহৎ কোডবেস ডিবাগ করতে বা দীর্ঘ প্রতিবেদনগুলিকে প্রসঙ্গ না হারিয়ে সংক্ষিপ্ত করতে পারবে। chunking বা retrieval-augmented generation (RAG)-এর মতো সমাধানগুলো এড়িয়ে এআই কর্মপ্রবাহকে আরও মসৃণ এবং দক্ষ করে তোলার প্রত্যাশা করা হচ্ছে।
‘খড়ের গাদায় সুই’ সমস্যা: গুরুত্বপূর্ণ তথ্য খুঁজে বের করা
‘খড়ের গাদায় সুই’ সমস্যাটি বিশাল ডেটাসেটের মধ্যে লুকানো গুরুত্বপূর্ণ তথ্য (সুই) সনাক্ত করতে এআই-এর অসুবিধা তুলে ধরে। এলএলএমগুলো প্রায়শই মূল বিবরণ সনাক্ত করতে সমস্যায় পড়ে, যার ফলে বিভিন্ন ক্ষেত্রে অদক্ষতা দেখা যায়:
অনুসন্ধান এবং জ্ঞান পুনরুদ্ধার: এআই সহকারীরা প্রায়শই বিস্তৃত ডকুমেন্ট রিপোজিটরি থেকে সবচেয়ে প্রাসঙ্গিক তথ্য বের করতে অসুবিধা বোধ করে।
আইন ও সম্মতি: আইনজীবীদের দীর্ঘ চুক্তির মধ্যে ধারাগুলোর পারস্পরিক সম্পর্ক ট্র্যাক করতে হয়।
এন্টারপ্রাইজ অ্যানালিটিক্স: আর্থিক বিশ্লেষকরা জটিল প্রতিবেদনে লুকানো গুরুত্বপূর্ণ অন্তর্দৃষ্টিগুলি উপেক্ষা করার ঝুঁকিতে থাকেন।
বৃহত্তর কনটেক্সট উইন্ডো মডেলগুলোকে আরও তথ্য ধরে রাখতে সাহায্য করে, যা ভুল তথ্য হ্রাস করে, নির্ভুলতা উন্নত করে এবং নিম্নলিখিত বিষয়গুলো সক্ষম করে:
ক্রস-ডকুমেন্ট সম্মতি পরীক্ষা: একটি একক ২৫৬K-টোকেন প্রম্পট একটি নতুন আইনের সাথে পুরো নীতি ম্যানুয়াল তুলনা করতে পারে।
মেডিকেল লিটারেচার সিন্থেসিস: গবেষকরা কয়েক দশকের গবেষণা থেকে ওষুধের পরীক্ষার ফলাফল তুলনা করতে ১২৮K+ টোকেন উইন্ডো ব্যবহার করতে পারেন।
সফটওয়্যার ডেভেলপমেন্ট: এআই নির্ভরতা না হারিয়ে লক্ষ লক্ষ লাইন কোড স্ক্যান করতে পারলে ডিবাগিং উন্নত হয়।
আর্থিক গবেষণা: বিশ্লেষকরা একটি একক queries-এ সম্পূর্ণ আয় প্রতিবেদন এবং বাজারের ডেটা বিশ্লেষণ করতে পারেন।
গ্রাহক সহায়তা: দীর্ঘ মেমরিযুক্ত চ্যাটবটগুলি আরও প্রসঙ্গ-সচেতন মিথস্ক্রিয়া প্রদান করতে পারে।
কনটেক্সট উইন্ডো বৃদ্ধি করা মডেলকে প্রাসঙ্গিক বিবরণ আরও ভালোভাবে উল্লেখ করতে সাহায্য করে, ভুল বা জাল তথ্য তৈরির সম্ভাবনা হ্রাস করে। ২০২৪ সালের স্ট্যানফোর্ড বিশ্ববিদ্যালয়ের একটি গবেষণায় দেখা গেছে, মার্জার চুক্তি বিশ্লেষণ করার সময় RAG সিস্টেমের তুলনায় ১২৮K-টোকেন মডেলগুলো ১৮% পর্যন্ত ভুল তথ্য তৈরির হার কমিয়েছে।
এই সম্ভাব্য সুবিধাগুলো সত্ত্বেও, প্রথম দিকের ব্যবহারকারীরা কিছু চ্যালেঞ্জের কথা জানিয়েছেন। জেপি মর্গান চেজের গবেষণা অনুসারে, মডেলগুলো তাদের কনটেক্সটের প্রায় ৭৫% এ খারাপ পারফর্ম করে। জটিল আর্থিক কাজগুলিতে ৩২K টোকেনের বাইরে পারফরম্যান্স প্রায় শূন্যের কাছাকাছি নেমে আসে। মডেলগুলি এখনও দীর্ঘ-দূরত্বের স্মৃতির সাথে লড়াই করে, প্রায়শই গভীর অন্তর্দৃষ্টির চেয়ে সাম্প্রতিক ডেটাকে অগ্রাধিকার দেয়।
এতে কিছু গুরুত্বপূর্ণ প্রশ্ন ওঠে: একটি ৪ মিলিয়ন টোকেনের উইন্ডো কি সত্যিই যুক্তিবোধকে বাড়িয়ে তোলে, নাকি এটি কেবল স্মৃতির একটি ব্যয়বহুল সম্প্রসারণ? মডেলটি আসলে এই বিশাল ইনপুটের কতটুকু ব্যবহার করে? এবং সুবিধাগুলো কি ক্রমবর্ধমান computational খরচের চেয়ে বেশি?
RAG বনাম বৃহৎ প্রম্পট: অর্থনৈতিক সুবিধা-অসুবিধা
Retrieval-augmented generation (RAG) এলএলএমের ক্ষমতাকে পুনরুদ্ধারকারী সিস্টেমের সাথে একত্রিত করে। এই সিস্টেম ডাটাবেস বা ডকুমেন্ট স্টোরের মতো বাহ্যিক উৎস থেকে প্রাসঙ্গিক তথ্য নিয়ে আসে। এর মাধ্যমে মডেলটি তার পূর্ব-বিদ্যমান জ্ঞান এবং গতিশীলভাবে পুনরুদ্ধার করা ডেটার উপর ভিত্তি করে প্রতিক্রিয়া তৈরি করতে পারে।
জটিল কাজের জন্য কোম্পানিগুলো এআইকে একত্রিত করার সময়, তারা একটি মৌলিক সিদ্ধান্তের সম্মুখীন হয়: তাদের কি বৃহৎ কনটেক্সট উইন্ডোগুলো সহ বিশাল প্রম্পট ব্যবহার করা উচিত, নাকি রিয়েল-টাইমে প্রাসঙ্গিক তথ্য পুনরুদ্ধার করতে RAG-এর উপর নির্ভর করা উচিত?
বৃহৎ প্রম্পট: বৃহৎ টোকেন উইন্ডোগুলো সহ মডেল একটি একক পাসে সবকিছু প্রক্রিয়া করে, যার ফলে বাহ্যিক পুনরুদ্ধার সিস্টেম বজায় রাখার প্রয়োজন হ্রাস পায় এবং ক্রস-ডকুমেন্ট অন্তর্দৃষ্টি ক্যাপচার করা যায়। তবে, এই পদ্ধতিটি computational ভাবে ব্যয়বহুল, যার ফলে উচ্চ inference খরচ হয় এবং মেমরির প্রয়োজনীয়তা বৃদ্ধি পায়।
RAG: পুরো ডকুমেন্টটি একবারে প্রক্রিয়া করার পরিবর্তে, RAG প্রতিক্রিয়া তৈরি করার আগে শুধুমাত্র সবচেয়ে প্রাসঙ্গিক অংশগুলো পুনরুদ্ধার করে। এটি উল্লেখযোগ্যভাবে টোকেন ব্যবহার এবং খরচ কমিয়ে দেয়, যা বাস্তব-বিশ্বের অ্যাপ্লিকেশনগুলোর জন্য এটিকে আরও বেশি ব্যবহারযোগ্য করে তোলে।
Inference খরচ: বহু-ধাপ পুনরুদ্ধার বনাম বৃহৎ একক প্রম্পট
বৃহৎ প্রম্পট কর্মপ্রবাহকে সুগম করলেও, এর জন্য আরও বেশি জিপিইউ পাওয়ার এবং মেমরির প্রয়োজন হয়, যা এটিকে বাস্তবায়ন করা ব্যয়বহুল করে তোলে। RAG-ভিত্তিক পদ্ধতিগুলোর জন্য একাধিক পুনরুদ্ধারের ধাপের প্রয়োজন হলেও, প্রায়শই সামগ্রিক টোকেন ব্যবহার হ্রাস করে, যা নির্ভুলতার সাথে আপস না করে inference খরচ কমিয়ে আনে।
বেশিরভাগ enterprise-এর জন্য, সঠিক পদ্ধতি নির্দিষ্ট ব্যবহারের ওপর নির্ভর করে:
- ডকুমেন্টের গভীরভাবে বিশ্লেষণের প্রয়োজন? বৃহৎ কনটেক্সট মডেলগুলো আরও ভাল পছন্দ হতে পারে।
- গতিশীল প্রশ্নের জন্য ব্যবহারযোগ্য, সাশ্রয়ী এআই প্রয়োজন? RAG সম্ভবত একটি ভাল পছন্দ।
বৃহৎ কনটেক্সট উইন্ডো বিশেষভাবে মূল্যবান যখন:
- পুরো টেক্সটটিকে একবারে বিশ্লেষণ করতে হয়, যেমন চুক্তি পর্যালোচনা বা কোড নিরীক্ষণে।
- পুনরুদ্ধার ত্রুটি কমানো জরুরি, উদাহরণস্বরূপ, নিয়ন্ত্রক সম্মতিতে।
- কৌশলগত গবেষণার মতো ক্ষেত্রে নির্ভুলতার চেয়ে বিলম্ব কম গুরুত্বপূর্ণ।
Google-এর গবেষণা অনুসারে, স্টক ভবিষ্যদ্বাণী মডেলগুলো ১২৮K-টোকেন উইন্ডো ব্যবহার করে ১০ বছরের আয় ট্রান্সক্রিপ্ট বিশ্লেষণ করে RAG-এর চেয়ে ২৯% বেশি ভালো পারফর্ম করেছে। বিপরীতভাবে, GitHub Copilot-এ অভ্যন্তরীণ পরীক্ষায় দেখা গেছে যে মনোরেপো স্থানান্তরের জন্য RAG-এর তুলনায় বৃহৎ প্রম্পট ব্যবহার করে টাস্ক সম্পন্ন করতে ২.৩ গুণ কম সময় লেগেছে।
বৃহৎ কনটেক্সট মডেলের সীমাবদ্ধতা: বিলম্ব, খরচ এবং ব্যবহারযোগ্যতা
বৃহৎ কনটেক্সট মডেলগুলো চিত্তাকর্ষক ক্ষমতা প্রদান করলেও, অতিরিক্ত কনটেক্সট কতটা উপকারী তার সীমা রয়েছে। কনটেক্সট উইন্ডোগুলো প্রসারিত হওয়ার সাথে সাথে তিনটি মূল বিষয় সামনে আসে:
বিলম্ব: একটি মডেল যত বেশি টোকেন প্রক্রিয়া করে, inference তত ধীর হয়। বৃহৎ কনটেক্সট উইন্ডোগুলো উল্লেখযোগ্য বিলম্ব ঘটাতে পারে, বিশেষ করে যখন রিয়েল-টাইম প্রতিক্রিয়ার প্রয়োজন হয়।
খরচ: প্রতিটি অতিরিক্ত টোকেন প্রক্রিয়াকরণের সাথে computational খরচ বৃদ্ধি পায়। এই বৃহৎ মডেলগুলো পরিচালনা করার জন্য অবকাঠামো বাড়ানো ব্যয়বহুল হতে পারে, বিশেষ করে উচ্চ-ভলিউম ওয়ার্কলোডের enterprise-গুলোর জন্য।
ব্যবহারযোগ্যতা: কনটেক্সট বাড়ার সাথে সাথে মডেলের সবচেয়ে প্রাসঙ্গিক তথ্যের উপর কার্যকরভাবে ‘ফোকাস’ করার ক্ষমতা হ্রাস পায়। এর ফলে অদক্ষ প্রক্রিয়াকরণ হতে পারে, যেখানে কম প্রাসঙ্গিক ডেটা মডেলের কর্মক্ষমতাকে প্রভাবিত করে, যার ফলে নির্ভুলতা এবং দক্ষতা উভয় ক্ষেত্রেই কম লাভ হয়।
Google-এর Infini-attention কৌশলটি সীমাহীন মেমরি সহ নির্বিচারে দৈর্ঘ্যের কনটেক্সটের সংকুচিত উপস্থাপনা সংরক্ষণ করে এই সুবিধা-অসুবিধাগুলো কমানোর চেষ্টা করে।যাইহোক, compression অনিবার্যভাবে তথ্যের ক্ষতি ঘটায় এবং মডেলগুলো তাৎক্ষণিক এবং ঐতিহাসিক তথ্যের মধ্যে ভারসাম্য বজায় রাখতে সমস্যায় পড়ে, যার ফলে ঐতিহ্যবাহী RAG-এর তুলনায় কর্মক্ষমতা হ্রাস পায় এবং খরচ বৃদ্ধি পায়।
যদিও 4M-টোকেন মডেলগুলো চিত্তাকর্ষক, enterprise-গুলোর উচিত এগুলোকে সর্বজনীন সমাধান হিসেবে না দেখে বিশেষ সরঞ্জাম হিসেবে বিবেচনা করা। ভবিষ্যতের জন্য এমন hybrid সিস্টেম তৈরি করা উচিত, যা নির্দিষ্ট কাজের প্রয়োজনীয়তার উপর ভিত্তি করে RAG এবং বৃহৎ প্রম্পটের মধ্যে অভিযোজিতভাবে পছন্দ করতে পারে।
Enterprise-গুলোর যুক্তিবোধের জটিলতা, খরচের বিবেচনা এবং বিলম্বের প্রয়োজনীয়তার উপর ভিত্তি করে বৃহৎ কনটেক্সট মডেল এবং RAG-এর মধ্যে নির্বাচন করা উচিত। বৃহৎ কনটেক্সট উইন্ডোগুলো গভীর বোঝার প্রয়োজনীয় কাজের জন্য আদর্শ, যেখানে RAG সহজ, বাস্তবভিত্তিক কাজের জন্য আরও সাশ্রয়ী এবং দক্ষ। খরচ কার্যকরভাবে পরিচালনা করার জন্য, enterprise-গুলোর স্পষ্ট খরচের সীমা নির্ধারণ করা উচিত, যেমন প্রতি টাস্কে $0.50, কারণ বৃহৎ মডেলগুলো দ্রুত ব্যয়বহুল হয়ে উঠতে পারে। এছাড়াও, বৃহৎ প্রম্পটগুলো অফলাইন কাজের জন্য বেশি উপযুক্ত, যেখানে RAG সিস্টেমগুলো রিয়েল-টাইম অ্যাপ্লিকেশনগুলোতে ভালো পারফর্ম করে।
GraphRAG-এর মতো উদ্ভাবনগুলো ঐতিহ্যবাহী ভেক্টর পুনরুদ্ধার পদ্ধতির সাথে জ্ঞান গ্রাফকে একত্রিত করে এই অভিযোজিত সিস্টেমগুলোকে আরও উন্নত করতে পারে। এই একীকরণ জটিল সম্পর্কগুলোর ধারণক্ষমতা উন্নত করে, যার ফলে ভেক্টর-শুধুমাত্র পদ্ধতির তুলনায় সূক্ষ্ম যুক্তিবোধ এবং উত্তরের নির্ভুলতা ৩৫% পর্যন্ত বৃদ্ধি পায়। Lettria-এর মতো কোম্পানিগুলোর সাম্প্রতিক বাস্তবায়নগুলোতে দেখা গেছে, ঐতিহ্যবাহী RAG-এর মাধ্যমে নির্ভুলতা ৫০% থেকে বেড়ে GraphRAG ব্যবহার করে হাইব্রিড পুনরুদ্ধার সিস্টেমে ৮০% এর বেশি হয়েছে।
ইউরি কুরাতোভ যথার্থই সতর্ক করেছেন, ‘যুক্তিবোধ উন্নত না করে কনটেক্সট প্রসারিত করা হল এমন গাড়ির জন্য প্রশস্ত রাস্তা তৈরি করার মতো, যেগুলো স্টিয়ার করতে পারে না।’ এআই-এর আসল ভবিষ্যৎ এমন মডেলগুলোতে নিহিত, যেগুলো কেবল বিশাল পরিমাণে ডেটা প্রক্রিয়া করতে পারে না, বরং যেকোনো কনটেক্সট আকারের মধ্যে সম্পর্কগুলো সত্যিকার অর্থে বুঝতে পারে। এটি বুদ্ধিমত্তা, কেবল স্মৃতি নয়।