কৃত্রিম বুদ্ধিমত্তার (artificial intelligence) আকর্ষণীয় আহ্বান ক্রমশ জোরালো হচ্ছে, যা বিভিন্ন শিল্পে দক্ষতা এবং রূপান্তরের প্রতিশ্রুতি দিচ্ছে। একটি বিশেষ আকর্ষণীয় সম্ভাবনা হল ব্যক্তিগত কম্পিউটারে সরাসরি শক্তিশালী AI মডেল চালানো, যা ক্লাউড নির্ভরতা, সাবস্ক্রিপশন ফি এবং ডেটা গোপনীয়তার উদ্বেগগুলিকে এড়িয়ে যায়। Google, Meta, এবং Mistral AI-এর মতো বড় সংস্থাগুলি অত্যাধুনিক Large Language Models (LLMs) বিনামূল্যে ডাউনলোডের জন্য উপলব্ধ করেছে। কিন্তু এই সহজলভ্যতা কি বাস্তব উপযোগিতায় রূপান্তরিত হয়? ডেস্কটপ বা ল্যাপটপের সিলিকনে সীমাবদ্ধ এই ডিজিটাল মনগুলি কি সত্যিই সাংবাদিকতার লেখার মতো জটিল কর্মপ্রবাহকে উন্নত করতে পারে? এই বিবরণটি একটি বিস্তৃত পরীক্ষার বিশদ বিবরণ দেয় যা ঠিক এই প্রশ্নের উত্তর দেওয়ার জন্য ডিজাইন করা হয়েছে।
মঞ্চ প্রস্তুত করা: স্থানীয় AI পরীক্ষা
কয়েক মাস ধরে, স্থানীয় হার্ডওয়্যারে সম্পূর্ণরূপে পরিচালিত বিভিন্ন বিনামূল্যে ডাউনলোডযোগ্য LLM-এর বাস্তব-বিশ্বের কর্মক্ষমতা মূল্যায়ন করার জন্য একটি নিবেদিত প্রচেষ্টা চালানো হয়েছিল। পরীক্ষার অধীনে থাকা মডেলগুলির তালিকাটি বৈচিত্র্যময় ছিল, যা ওপেন-সোর্স AI-এর দ্রুত বিকশিত ল্যান্ডস্কেপকে প্রতিফলিত করে:
- Google Gemma (বিশেষত সংস্করণ 3)
- Meta Llama (সংস্করণ 3.3)
- Anthropic Claude (সংস্করণ 3.7 Sonnet – যদিও সাধারণত ক্লাউড-ভিত্তিক, এর অন্তর্ভুক্তি ব্যাপক পরীক্ষার ইঙ্গিত দেয়)
- Mistral AI থেকে একাধিক পুনরাবৃত্তি (Mistral, Mistral Small 3.1, Mistral Nemo, এবং Mixtral সহ)
- IBM Granite (সংস্করণ 3.2)
- Alibaba Qwen (সংস্করণ 2.5)
- DeepSeek R1 (একটি রিজনিং লেয়ার যা প্রায়শই Qwen বা Llama-এর ডিস্টিলড সংস্করণের উপর প্রয়োগ করা হয়)
মূল উদ্দেশ্যটি ছিল উচ্চাভিলাষী কিন্তু বাস্তবসম্মত: এই স্থানীয়ভাবে চালিত AI গুলি কাঁচা ইন্টারভিউ ট্রান্সক্রিপ্টগুলিকে পরিমার্জিত, প্রকাশযোগ্য নিবন্ধে রূপান্তরিত করতে পারে কিনা তা নির্ধারণ করা। এর মধ্যে কেবল প্রযুক্তিগত সম্ভাব্যতা মূল্যায়ন করাই অন্তর্ভুক্ত ছিল না – হার্ডওয়্যার কি লোড সামলাতে পারে? – বরং গুণগত আউটপুটও – ফলস্বরূপ টেক্সট কি ব্যবহারযোগ্য ছিল? এটি শুরুতেই উল্লেখ করা গুরুত্বপূর্ণ যে একটি সম্পূর্ণ স্বয়ংক্রিয়, প্রকাশনার জন্য প্রস্তুত নিবন্ধ অর্জন করা অধরা প্রমাণিত হয়েছে। প্রাথমিক লক্ষ্যটি এই নির্দিষ্ট, চাহিদাপূর্ণ ব্যবহারের ক্ষেত্রে বর্তমান অন-ডিভাইস AI-এর প্রকৃত ক্ষমতা এবং সীমাবদ্ধতাগুলি বোঝার দিকে সরে গিয়েছিল।
নির্বাচিত পদ্ধতিটি একটি উল্লেখযোগ্য প্রম্পটের উপর কেন্দ্রীভূত ছিল। এর মধ্যে প্রায় 1,500 টোকেন (প্রায় 6,000 অক্ষর বা দুটি পূর্ণ পৃষ্ঠার টেক্সট) অন্তর্ভুক্ত ছিল যা কাঙ্ক্ষিত নিবন্ধের কাঠামো, শৈলী এবং টোনকে যত্ন সহকারে রূপরেখা দেয়। এই নির্দেশ সেটের সাথে ইন্টারভিউ ট্রান্সক্রিপ্ট নিজেই যোগ করা হয়েছিল, যা একটি সাধারণ 45-মিনিটের কথোপকথনের জন্য গড়ে প্রায় 11,000 টোকেন। এই সম্মিলিত ইনপুটের বিশাল আকার (প্রায়শই 12,500 টোকেন অতিক্রম করে) সাধারণত অনেক অনলাইন AI প্ল্যাটফর্মের বিনামূল্যে ব্যবহারের সীমা অতিক্রম করে। এই সীমাবদ্ধতা স্থানীয় স্থাপনা অন্বেষণের যৌক্তিকতাকে তুলে ধরেছিল, যেখানে ইনপুট আকার নির্বিশেষে প্রক্রিয়াকরণ বিনামূল্যে থাকে, শুধুমাত্র মেশিনের ক্ষমতা দ্বারা সীমাবদ্ধ।
এই পরীক্ষাগুলি চালানোর জন্য LM Studio ব্যবহার করা হয়েছিল, এটি একটি জনপ্রিয় কমিউনিটি সফটওয়্যার যা স্থানীয়ভাবে চলমান LLM-গুলির সাথে ইন্টারঅ্যাক্ট করার জন্য একটি ব্যবহারকারী-বান্ধব চ্যাটবট-সদৃশ ইন্টারফেস প্রদান করে। LM Studio সুবিধাজনকভাবে বিভিন্ন মডেল সংস্করণ ডাউনলোড করার ফাংশনগুলিকে একীভূত করে, যদিও এই বিনামূল্যে উপলব্ধ মডেলগুলির প্রাথমিক উৎস হল Hugging Face রিপোজিটরি, যা AI সম্প্রদায়ের জন্য একটি কেন্দ্রীয় হাব।
প্রযুক্তিগত গোলকধাঁধায় নেভিগেট করা: হার্ডওয়্যার, মেমরি এবং মডেলের আকার
স্থানীয় AI প্রক্রিয়াকরণের যাত্রা দ্রুত সফ্টওয়্যার এবং হার্ডওয়্যারের মধ্যে একটি জটিল মিথস্ক্রিয়া প্রকাশ করেছে। AI-এর আউটপুটের গুণমান এবং গতি পরীক্ষার মেশিনে উপলব্ধ সংস্থানগুলির সাথে ঘনিষ্ঠভাবে আবদ্ধ ছিল – একটি Mac যা একটি Apple Silicon M1 Max সিস্টেম-অন-চিপ (SoC) এবং একটি উদার 64 GB RAM দিয়ে সজ্জিত। সমালোচনামূলকভাবে, এই আর্কিটেকচারে Unified Memory Architecture (UMA) বৈশিষ্ট্য রয়েছে, যা 48 GB RAM প্রসেসর কোর (CPU), গ্রাফিক্স কোর (GPU – ভেক্টর ত্বরণের জন্য ব্যবহৃত), এবং নিউরাল প্রসেসিং ইউনিট কোর (NPU – ম্যাট্রিক্স ত্বরণের জন্য ব্যবহৃত) এর মধ্যে গতিশীলভাবে ভাগ করে নেওয়ার অনুমতি দেয়।
বেশ কয়েকটি মূল প্রযুক্তিগত কারণ নির্ধারক হিসাবে আবির্ভূত হয়েছিল:
- মডেল প্যারামিটার: LLM গুলি প্রায়শই তাদের প্যারামিটারের সংখ্যা (সাধারণত বিলিয়ন) দ্বারা পরিমাপ করা হয়। বৃহত্তর মডেলগুলিতে সাধারণত বৃহত্তর জ্ঞান এবং সূক্ষ্মতা থাকে। যাইহোক, তাদের উল্লেখযোগ্যভাবে বেশি মেমরির প্রয়োজন হয়।
- Quantization: এটি মডেলের প্যারামিটারগুলি সংরক্ষণ করতে ব্যবহৃত নির্ভুলতাকে বোঝায় (যেমন, 8-বিট, 4-বিট, 3-বিট)। নিম্ন বিট নির্ভুলতা মেমরি ফুটপ্রিন্টকে মারাত্মকভাবে হ্রাস করে এবং প্রক্রিয়াকরণের গতি বাড়ায়, তবে প্রায়শই নির্ভুলতা এবং আউটপুট গুণমানের মূল্যে (ত্রুটি, পুনরাবৃত্তি, বা অর্থহীন ভাষা প্রবর্তন করে)।
- Context Window: এটি তথ্যের সর্বাধিক পরিমাণ (প্রম্পট + ইনপুট ডেটা) নির্ধারণ করে যা AI একবারে বিবেচনা করতে পারে, টোকেনে পরিমাপ করা হয়। প্রয়োজনীয় উইন্ডো আকার টাস্ক দ্বারা নির্ধারিত হয়; এই ক্ষেত্রে, বড় প্রম্পট এবং ট্রান্সক্রিপ্ট একটি যথেষ্ট উইন্ডোর প্রয়োজন।
- উপলব্ধ RAM: মেমরির পরিমাণ সরাসরি সীমাবদ্ধ করে যে কোন মডেলগুলি (এবং কোন কোয়ান্টাইজেশন স্তরে) লোড করা এবং কার্যকরভাবে চালানো যেতে পারে।
মূল্যায়নের সময় পরীক্ষার মেশিনে গুণমান এবং সম্ভাবনার সর্বোত্তম ভারসাম্য প্রদানকারী মিষ্টি স্পটটি Google-এর Gemma মডেল ব্যবহার করে 27 বিলিয়ন প্যারামিটার সহ, 8 বিটে কোয়ান্টাইজড (সংস্করণ ‘27B Q8_0’) ব্যবহার করে অর্জন করা হয়েছিল। এই কনফিগারেশনটি একটি 32,000-টোকেন কনটেক্সট উইন্ডোর মধ্যে পরিচালিত হয়েছিল, যা প্রায় 15,000-টোকেন ইনপুট (নির্দেশাবলী + ট্রান্সক্রিপ্ট) আরামে পরিচালনা করে। এটি নির্দিষ্ট Mac হার্ডওয়্যারে চলেছিল, 48 GB শেয়ার্ড মেমরি ব্যবহার করে।
এই সর্বোত্তম অবস্থার অধীনে, প্রক্রিয়াকরণের গতি প্রতি সেকেন্ডে 6.82 টোকেন পরিমাপ করা হয়েছিল। কার্যকরী হলেও, এটি তাৎক্ষণিক থেকে অনেক দূরে। আউটপুট গুণমান ত্যাগ না করে গতির উন্নতি প্রাথমিকভাবে দ্রুত হার্ডওয়্যারের উপর নির্ভর করে – বিশেষত, উচ্চতর ক্লক স্পিড (GHz) বা বৃহত্তর সংখ্যক প্রসেসিং কোর (CPU, GPU, NPU) সহ SoC।
উল্লেখযোগ্যভাবে বেশি প্যারামিটার (যেমন, 32 বিলিয়ন, 70 বিলিয়ন) সহ মডেল লোড করার চেষ্টা দ্রুত মেমরির সীমাতে পৌঁছেছিল। এই বৃহত্তর মডেলগুলি হয় সম্পূর্ণরূপে লোড হতে ব্যর্থ হয়েছিল বা মারাত্মকভাবে সংক্ষিপ্ত, অব্যবহারযোগ্য আউটপুট তৈরি করেছিল (যেমন একটি সম্পূর্ণ নিবন্ধের পরিবর্তে একটি একক অনুচ্ছেদ)। বিপরীতভাবে, কম প্যারামিটার সহ মডেল ব্যবহার করা, মেমরি খালি করার সময়, লেখার গুণমানে একটি লক্ষণীয় হ্রাস ঘটায়, যা পুনরাবৃত্তি এবং দুর্বলভাবে প্রকাশ করা ধারণা দ্বারা চিহ্নিত করা হয়। একইভাবে, আরও আক্রমণাত্মক কোয়ান্টাইজেশন ব্যবহার করা (প্যারামিটারগুলিকে 3, 4, 5, বা 6 বিটে হ্রাস করা) গতি বাড়িয়েছিল কিন্তু আউটপুটকে মারাত্মকভাবে অবনমিত করেছিল, ব্যাকরণগত ভুল এবং এমনকি বানোয়াট শব্দ প্রবর্তন করেছিল।
ইনপুট ডেটা দ্বারা নির্ধারিত প্রয়োজনীয় কনটেক্সট উইন্ডোর আকার, টাস্কের জন্য মূলত অ-আলোচনাযোগ্য। যদি ইনপুট ডেটার জন্য এমন একটি উইন্ডো প্রয়োজন হয় যা, নির্বাচিত মডেলের আকার এবং কোয়ান্টাইজেশনের সাথে মিলিত হয়ে, উপলব্ধ RAM অতিক্রম করে, তবে একমাত্র উপায় হল একটি ছোট মডেল নির্বাচন করা, যা অনিবার্যভাবে মেমরির সীমার মধ্যে থাকার জন্য চূড়ান্ত ফলাফলের সম্ভাব্য গুণমানের সাথে আপস করে।
গুণমানের সন্ধান: যখন কাঠামো পদার্থের সাথে মিলিত হয় (বা এর অভাব)
স্থানীয়ভাবে চালিত AI কি ব্যবহারযোগ্য নিবন্ধ তৈরি করতে সফল হয়েছিল? হ্যাঁ এবং না। উৎপন্ন টেক্সটগুলি প্রায়শই আশ্চর্যজনকভাবে ভাল কাঠামো প্রদর্শন করে। তারা সাধারণত অনুরোধ করা বিন্যাস মেনে চলে, বৈশিষ্ট্যযুক্ত:
- একটি বোধগম্য কোণ বা ফোকাস।
- থিম্যাটিক বিভাগগুলির মাধ্যমে একটি সুসংগত প্রবাহ।
- ট্রান্সক্রিপ্ট থেকে যথাযথভাবে স্থাপন করা উদ্ধৃতি।
- আকর্ষণীয় শিরোনাম এবং সমাপ্তি বাক্য।
যাইহোক, DeepSeek R1-এর মতো উন্নত রিজনিংয়ের জন্য বিশেষভাবে ডিজাইন করা সহ সমস্ত পরীক্ষিত LLM জুড়ে একটি সমালোচনামূলক ত্রুটি ধারাবাহিকভাবে আবির্ভূত হয়েছিল: সাক্ষাৎকারের মধ্যে তথ্যের প্রাসঙ্গিকতা সঠিকভাবে উপলব্ধি এবং অগ্রাধিকার দেওয়ার একটি মৌলিক অক্ষমতা। AI মডেলগুলি ধারাবাহিকভাবে কথোপকথনের মূল অংশটি মিস করেছে, গৌণ পয়েন্ট বা প্রান্তিক বিবরণগুলিতে ফোকাস করেছে।
ফলাফলটি প্রায়শই এমন নিবন্ধ ছিল যা ব্যাকরণগতভাবে সঠিক এবং সুসংগঠিত ছিল কিন্তু শেষ পর্যন্ত অগভীর এবং অরুচিকর ছিল। কিছু ক্ষেত্রে, AI সুস্পষ্ট বিষয়গুলি বলার জন্য উল্লেখযোগ্য, ভালভাবে যুক্তিযুক্ত অনুচ্ছেদ উৎসর্গ করবে – উদাহরণস্বরূপ, দীর্ঘ সময় ধরে বিশদভাবে বর্ণনা করা যে সাক্ষাত্কার নেওয়া সংস্থাটি প্রতিযোগীদের সাথে একটি বাজারে কাজ করে। এটি ভাষাগত দক্ষতা (সুসংগত বাক্য গঠন) এবং প্রকৃত উপলব্ধি (গুরুত্ব এবং প্রসঙ্গ বোঝা) এর মধ্যে একটি ব্যবধান তুলে ধরেছে।
অধিকন্তু, শৈলীগত আউটপুট মডেলগুলির মধ্যে যথেষ্ট পরিবর্তিত হয়েছে:
- Meta-এর Llama 3.x: পরীক্ষার সময়, প্রায়শই জটিল এবং পার্স করা কঠিন বাক্য তৈরি করেছিল।
- Mistral Models & Gemma: একটি ‘মার্কেটিং স্পিক’ শৈলীর দিকে ঝোঁক দেখিয়েছিল, উচ্ছ্বসিত বিশেষণ এবং ইতিবাচক ফ্রেমিং ব্যবহার করে কিন্তু નક્કર পদার্থ এবং নির্দিষ্ট বিবরণের অভাব ছিল।
- Alibaba-এর Qwen: আশ্চর্যজনকভাবে, পরীক্ষার সেটআপের সীমাবদ্ধতার মধ্যে, এই চীনা মডেলটি ফরাসি ভাষায় (মূল মূল্যায়ন দলের ভাষা) সবচেয়ে নান্দনিকভাবে আনন্দদায়ক গদ্য তৈরি করেছিল।
- Mixtral 8x7B: প্রাথমিকভাবে, এই ‘বিশেষজ্ঞদের মিশ্রণ’ মডেল (আটটি ছোট, বিশেষায়িত 7-বিলিয়ন প্যারামিটার মডেলের সমন্বয়ে) প্রতিশ্রুতি দেখিয়েছিল। যাইহোক, এটিকে 48 GB মেমরি সীমাবদ্ধতার মধ্যে ফিট করার জন্য আক্রমণাত্মক 3-বিট কোয়ান্টাইজেশন প্রয়োজন, যা উল্লেখযোগ্য সিনট্যাক্স ত্রুটির দিকে পরিচালিত করে। একটি 4-বিট কোয়ান্টাইজড সংস্করণ (‘Q4_K_M’) প্রাথমিকভাবে একটি ভাল আপস প্রস্তাব করেছিল, কিন্তু LM Studio সফ্টওয়্যারের পরবর্তী আপডেটগুলি এর মেমরি ফুটপ্রিন্ট বাড়িয়ে দেয়, যার ফলে এই কনফিগারেশনটিও সংক্ষিপ্ত ফলাফল তৈরি করে।
- Mistral Small 3.1: 8-বিট কোয়ান্টাইজেশনে 24 বিলিয়ন প্যারামিটার সহ একটি আরও সাম্প্রতিক মডেল একটি শক্তিশালী প্রতিযোগী হিসাবে আবির্ভূত হয়েছিল। এর আউটপুট গুণমান 27B Gemma মডেলের কাছাকাছি পৌঁছেছিল, এবং এটি একটি সামান্য গতির সুবিধা প্রদান করেছিল, প্রতি সেকেন্ডে 8.65 টোকেন প্রক্রিয়াকরণ করে।
এই বৈচিত্র্য তুলে ধরে যে একটি LLM নির্বাচন করা কেবল আকার বা গতি সম্পর্কে নয়; অন্তর্নিহিত প্রশিক্ষণ ডেটা এবং আর্কিটেকচার এর লেখার শৈলী এবং সম্ভাব্য পক্ষপাতকে উল্লেখযোগ্যভাবে প্রভাবিত করে।
হার্ডওয়্যার আর্কিটেকচার: স্থানীয় AI-এর অখ্যাত নায়ক
পরীক্ষাগুলি একটি গুরুত্বপূর্ণ, প্রায়শই উপেক্ষিত কারণের উপর আলোকপাত করেছে: অন্তর্নিহিত হার্ডওয়্যার আর্কিটেকচার, বিশেষত মেমরি কীভাবে অ্যাক্সেস করা হয়। Apple Silicon Mac-এ পরিলক্ষিত উচ্চতর কর্মক্ষমতা শুধুমাত্র RAM-এর পরিমাণের কারণে ছিল না বরং সমালোচনামূলকভাবে এর Unified Memory Architecture (UMA)-এর উপর নির্ভর করেছিল।
একটি UMA সিস্টেমে, CPU, GPU, এবং NPU কোরগুলি সকলেই একই ফিজিক্যাল RAM পুল ভাগ করে নেয় এবং একই সাথে একই মেমরি ঠিকানায় ডেটা অ্যাক্সেস করতে পারে। এটি বিভিন্ন প্রসেসরের জন্য নিবেদিত পৃথক মেমরি পুলগুলির মধ্যে ডেটা অনুলিপি করার প্রয়োজনীয়তা দূর করে (যেমন, CPU-এর জন্য সিস্টেম RAM এবং একটি পৃথক গ্রাফিক্স কার্ডের জন্য ডেডিকেটেড VRAM)।
LLM-গুলির জন্য এটি এত গুরুত্বপূর্ণ কেন?
- দক্ষতা: LLM প্রক্রিয়াকরণে বিভিন্ন ধরণের কোরের মধ্যে তীব্র গণনা জড়িত। UMA বিরামহীন ডেটা ভাগ করে নেওয়ার অনুমতি দেয়, ডেটা অনুলিপি এবং স্থানান্তরের সাথে যুক্ত লেটেন্সি এবং ওভারহেড হ্রাস করে।
- মেমরি ব্যবহার: UMA বিহীন সিস্টেমে (যেমন একটি পৃথক GPU সহ একটি সাধারণ PC), একই ডেটা মূল সিস্টেম RAM (CPU-এর জন্য) এবং GPU-এর VRAM উভয় ক্ষেত্রেই লোড করার প্রয়োজন হতে পারে। এটি কার্যকরভাবে LLM-এর জন্য ব্যবহারযোগ্য মেমরি হ্রাস করে।
ব্যবহারিক প্রভাব তাৎপর্যপূর্ণ। যদিও পরীক্ষার Mac 48 GB শেয়ার্ড UMA RAM ব্যবহার করে একটি 27-বিলিয়ন প্যারামিটার, 8-বিট কোয়ান্টাইজড মডেল আরামে চালাতে পারে, UMA ছাড়া একটি PC-তে অনুরূপ কর্মক্ষমতা অর্জনের জন্য যথেষ্ট পরিমাণে মোট RAM প্রয়োজন হতে পারে। উদাহরণস্বরূপ, 48 GB মোট RAM সহ একটি PC যা CPU-এর জন্য 24 GB এবং GPU-এর জন্য 24 GB-তে বিভক্ত, মেমরি পার্টিশনিং এবং ডেটা অনুলিপি ওভারহেডের কারণে কার্যকরভাবে একটি অনেক ছোট 13-বিলিয়ন প্যারামিটার মডেল চালাতে সক্ষম হতে পারে।
এই আর্কিটেকচারাল সুবিধাটি Apple Silicon চিপ সহ Mac-গুলির স্থানীয় AI স্পেসে প্রাথমিক লিড অর্জনের ব্যাখ্যা দেয়। এটি স্বীকার করে, AMD-এর মতো প্রতিযোগীরা তাদের Ryzen AI Max SoC রেঞ্জ (2025 সালের প্রথম দিকে প্রত্যাশিত) ঘোষণা করেছে যা একটি অনুরূপ ইউনিফাইড মেমরি পদ্ধতি অন্তর্ভুক্ত করার জন্য ডিজাইন করা হয়েছে। এই পরীক্ষাগুলির সময় পর্যন্ত, Intel-এর Core Ultra SoC গুলি, CPU, GPU, এবং NPU একীভূত করার সময়, সমস্ত কোরের প্রকার জুড়ে একই স্তরের সম্পূর্ণরূপে ইউনিফাইড মেমরি অ্যাক্সেস বৈশিষ্ট্যযুক্ত ছিল না। এই হার্ডওয়্যার পার্থক্যটি বৃহত্তর, আরও সক্ষম LLM গুলি স্থানীয়ভাবে চালানোর বিষয়ে গুরুতর যে কারও জন্য একটি গুরুত্বপূর্ণ বিবেচনা।
প্রম্পট ইঞ্জিনিয়ারিংয়ের জটিল নাচ
একটি ইন্টারভিউকে একটি নিবন্ধে রূপান্তরিত করার মতো একটি জটিল কাজ সম্পাদন করার জন্য একটি AI-কে কেবল শক্তিশালী হার্ডওয়্যার এবং একটি সক্ষম মডেলের চেয়ে বেশি প্রয়োজন; এর জন্য অত্যাধুনিক নির্দেশনার প্রয়োজন – prompt engineering-এর শিল্প এবং বিজ্ঞান। AI-কে গাইড করা প্রাথমিক 1,500-টোকেন প্রম্পট তৈরি করা একটি উল্লেখযোগ্য উদ্যোগ ছিল।
একটি দরকারী সূচনা বিন্দুতে reverse engineering জড়িত ছিল: AI-কে একটি সম্পূর্ণ, মানব-লিখিত নিবন্ধ তার সংশ্লিষ্ট ট্রান্সক্রিপ্টের পাশাপাশি ফিড করা এবং জিজ্ঞাসা করা যে সেই ফলাফল অর্জনের জন্য কোন প্রম্পট দেওয়া উচিত ছিল। বেশ কয়েকটি বৈচিত্র্যময় উদাহরণ জুড়ে AI-এর পরামর্শগুলি বিশ্লেষণ করা নির্দেশ সেটের জন্য প্রয়োজনীয় উপাদানগুলি সনাক্ত করতে সহায়তা করেছিল।
যাইহোক, AI-উত্পন্ন প্রম্পট পরামর্শগুলি ধারাবাহিকভাবে খুব সংক্ষিপ্ত ছিল এবং একটি ব্যাপক নিবন্ধ তৈরির গাইড করার জন্য প্রয়োজনীয় বিবরণের অভাব ছিল। আসল কাজটি এই প্রাথমিক AI-প্রদত্ত লিডগুলি গ্রহণ করা এবং সেগুলিকে বিশদভাবে ব্যাখ্যা করা, সাংবাদিকতার কাঠামো, টোন, শৈলী এবং নৈতিক বিবেচনা সম্পর্কে গভীর ডোমেন জ্ঞান এম্বেড করার মধ্যে নিহিত ছিল।
বেশ কয়েকটি অ-স্বজ্ঞাত পাঠ আবির্ভূত হয়েছিল:
- মার্জিততার চেয়ে স্পষ্টতা: আশ্চর্যজনকভাবে, প্রম্পটটিকে আরও স্বাভাবিক, সাবলীল শৈলীতে লেখা প্রায়শই AI-এর বোধগম্যতা হ্রাস করে। মডেলগুলি অস্পষ্টতার সাথে লড়াই করেছিল, বিশেষত সর্বনাম (‘সে,’ ‘এটি,’ ‘এই’)। সবচেয়ে কার্যকর পদ্ধতিতে মেশিনের নির্ভুলতার জন্য মানুষের পাঠযোগ্যতা ত্যাগ করা জড়িত ছিল, যে কোনও সম্ভাব্য ভুল ব্যাখ্যা এড়াতে বিষয়গুলিকে স্পষ্টভাবে পুনরাবৃত্তি করা (‘নিবন্ধটি উচিত…’, ‘নিবন্ধটির টোন অবশ্যই…’, ‘নিবন্ধটির ভূমিকা প্রয়োজন…’)।
- সৃজনশীলতার অধরা প্রকৃতি: নমনীয়তার অনুমতি দেওয়ার লক্ষ্যে সতর্ক প্রম্পট ডিজাইন সত্ত্বেও, AI-উত্পন্ন নিবন্ধগুলি ধারাবাহিকভাবে একটি ‘পারিবারিক সাদৃশ্য’ ভাগ করে নিয়েছে। একটি একক প্রম্পটের মধ্যে, বা এমনকি একাধিক প্রতিযোগী প্রম্পটের মধ্যে মানুষের সৃজনশীলতা এবং শৈলীগত বৈচিত্র্যের প্রশস্ততা ক্যাপচার করা ব্যতিক্রমীভাবে কঠিন প্রমাণিত হয়েছে। সত্যিকারের বৈচিত্র্যের জন্য একা প্রম্পট টুইকিংয়ের চেয়ে আরও মৌলিক পরিবর্তনের প্রয়োজন বলে মনে হয়েছিল।
Prompt engineering একটি এককালীন কাজ নয় বরং পরিমার্জন, পরীক্ষা এবং নির্দিষ্ট ব্যবসায়িক যুক্তি এবং শৈলীগত সূক্ষ্মতা অন্তর্ভুক্ত করার একটি পুনরাবৃত্তিমূলক প্রক্রিয়া। এর জন্য প্রযুক্তিগত বোঝাপড়া এবং গভীর বিষয়বস্তুর দক্ষতার মিশ্রণ প্রয়োজন।
কাজের চাপের স্থানান্তর: AI প্যারাডক্স উন্মোচন
পরীক্ষাগুলি শেষ পর্যন্ত একটি সমালোচনামূলক উপলব্ধির দিকে পরিচালিত করেছিল, যাকে AI paradox বলা হয়: এর বর্তমান অবস্থায়, AI ব্যবহারকারীর কিছু কাজের চাপ (নিবন্ধের খসড়া লেখা) সম্ভাব্যভাবে লাঘব করার জন্য, ব্যবহারকারীকে প্রায়শই বেশি প্রাথমিক কাজ বিনিয়োগ করতে হয়।
মূল সমস্যাটি ছিল কাঁচা ইন্টারভিউ ট্রান্সক্রিপ্টের মধ্যে প্রাসঙ্গিকতা নির্ভরযোগ্যভাবে পরিমাপ করতে AI-এর অক্ষমতা। একটি প্রাসঙ্গিক নিবন্ধ তৈরি করতে, কেবল পুরো ট্রান্সক্রিপ্টটি ফিড করাই যথেষ্ট ছিল না। একটি প্রয়োজনীয় মধ্যবর্তী পদক্ষেপ আবির্ভূত হয়েছিল: ট্রান্সক্রিপ্টটি ম্যানুয়ালি প্রি-প্রসেস করা। এর মধ্যে অন্তর্ভুক্ত ছিল:
- অপ্রাসঙ্গিক কথাবার্তা, विषयांतर, এবং পুনরাবৃত্তি বাদ দেওয়া।
- AI-এর বোঝাকে গাইড করার জন্য সম্ভাব্যভাবে প্রাসঙ্গিক নোট যোগ করা (এমনকি যদি চূড়ান্ত নিবন্ধের জন্য না হয়)।
- সাবধানে মূল অংশগুলি নির্বাচন করা এবং সম্ভবত পুনরায় সাজানো।
এই ট্রান্সক্রিপ্ট ‘কিউরেশন’-এর জন্য উল্লেখযোগ্য মানবিক সময় এবং বিচার-বিবেচনার প্রয়োজন। AI দ্বারা একটি প্রথম খসড়া তৈরি করার মাধ্যমে যে সময় সাশ্রয় হয়েছিল তা কার্যকরভাবে অফসেট হয়েছিল, বা এমনকি এর ইনপুট ডেটা যত্ন সহকারে প্রস্তুত করার নতুন কাজটি দ্বারা ছাপিয়ে গিয়েছিল। কাজের চাপ অদৃশ্য হয়নি; এটি কেবল সরাসরি লেখা থেকে ডেটা প্রস্তুতি এবং প্রম্পট পরিমার্জনে স্থানান্তরিত হয়েছিল।
অধিকন্তু, বিস্তারিত 1,500-টোকেন প্রম্পটটি এক ধরণের নিবন্ধের জন্য অত্যন্ত নির্দিষ্ট ছিল (যেমন, একটি পণ্য লঞ্চ সম্পর্কে একটি ইন্টারভিউ)। একজন সাংবাদিক প্রতিদিন যে বিভিন্ন ধরণের নিবন্ধ বিন্যাস তৈরি করেন – স্টার্টআপ প্রোফাইল, কৌশলগত বিশ্লেষণ, ইভেন্ট কভারেজ, বহু-উৎস তদন্ত – তা কভার করার জন্য প্রতিটি ব্যবহারের ক্ষেত্রের জন্য একটি পৃথক, সমানভাবে বিস্তারিত প্রম্পট তৈরি, পরীক্ষা এবং বজায় রাখার প্রয়োজন হবে। এটি একটি উল্লেখযোগ্য অগ্রিম এবং চলমান প্রকৌশল বিনিয়োগের প্রতিনিধিত্ব করে।
আরও খারাপ, এই বিস্তৃত পরীক্ষাগুলি, ছয় মাসেরও বেশি সময় ধরে বিস্তৃত, কেবল পৃষ্ঠটি আঁচড় দিয়েছে। তারা সবচেয়ে সহজ দৃশ্যের উপর দৃষ্টি নিবদ্ধ করেছিল: একটি একক ইন্টারভিউ থেকে একটি নিবন্ধ তৈরি করা, প্রায়শই প্রেস কনফারেন্সের মতো নিয়ন্ত্রিত সেটিংসে পরিচালিত হয় যেখানে ইন্টারভিউ নেওয়া ব্যক্তির পয়েন্টগুলি ইতিমধ্যে কিছুটা কাঠামোগত। একাধিক ইন্টারভিউ থেকে তথ্য সংশ্লেষণ, পটভূমি গবেষণা অন্তর্ভুক্ত করা, বা কম কাঠামোগত কথোপকথন পরিচালনা করার মতো অনেক বেশি জটিল, তবুও সাধারণ কাজগুলি মৌলিক ক্ষেত্রেও প্রয়োজনীয় সময় বিনিয়োগের কারণে অনাবিষ্কৃত ছিল।
অতএব, যদিও স্থানীয়ভাবে LLM চালানো প্রযুক্তিগতভাবে সম্ভব এবং খরচ এবং ডেটা গোপনীয়তার ক্ষেত্রে সুবিধা প্রদান করে, এই ধারণার উপর ভিত্তি করে যে এটি সাংবাদিকতার মতো জটিল জ্ঞান কাজের জন্য সহজেই সময় বা প্রচেষ্টা সাশ্রয় করে, এই তদন্তের ভিত্তিতে, বর্তমানে এটি অলীক। প্রয়োজনীয় প্রচেষ্টা কেবল রূপান্তরিত হয়, ডেটা প্রস্তুতি এবং অত্যন্ত নির্দিষ্ট প্রম্পট ইঞ্জিনিয়ারিংয়ে উজানে চলে যায়। এই নির্দিষ্ট চ্যালেঞ্জগুলির উপর – প্রাসঙ্গিকতা নির্ণয় করা, ব্যাপক প্রি-প্রসেসিংয়ের প্রয়োজন – স্থানীয়ভাবে চালিত AI অর্থপ্রদানের অনলাইন পরিষেবাগুলির সাথে তুলনামূলকভাবে পারফর্ম করেছে, যা পরামর্শ দেয় যে এগুলি LLM-এর বর্তমান প্রজন্মের মৌলিক সীমাবদ্ধতা, স্থাপনার পদ্ধতি নির্বিশেষে। এই ধরনের ডোমেনে সত্যিকারের বিরামহীন AI সহায়তার পথটি জটিল রয়ে গেছে এবং AI ক্ষমতা এবং তাদের সাথে আমাদের মিথস্ক্রিয়া করার পদ্ধতি উভয় ক্ষেত্রেই আরও বিবর্তনের দাবি রাখে।