দৈত্যদের চ্যালেঞ্জ: একটি কম্প্যাক্ট প্রতিযোগী
QwQ, DeepSeek R1-এর দাবিকৃত ৬৭১ বিলিয়নের তুলনায় মাত্র ৩২ বিলিয়ন প্যারামিটার নিয়ে গর্ব করা সত্ত্বেও, একটি “যুক্তিযুক্ত” মডেল হিসাবে অবস্থান করছে। আলিবাবা জোর দিয়ে বলছেন যে এই তুলনামূলকভাবে ছোট মডেলটি নির্দিষ্ট মানদণ্ডে, বিশেষ করে গণিত, কোডিং এবং ফাংশন-কলিংয়ের মতো ক্ষেত্রগুলিতে R1-কে ছাড়িয়ে যেতে পারে। এই উচ্চাভিলাষী দাবির জন্য QwQ-এর অভ্যন্তরীণ কাজকর্ম এবং বাস্তব-বিশ্বের কর্মক্ষমতা ঘনিষ্ঠভাবে পর্যবেক্ষণ করা প্রয়োজন।
রিইনফোর্সমেন্ট লার্নিং: QwQ-এর দক্ষতার চাবিকাঠি
DeepSeek R1-এর মতোই, Qwen টিম QwQ-এর চেইন-অফ-থট রিজনিং ক্ষমতা পরিমার্জিত করতে রিইনফোর্সমেন্ট লার্নিং (RL) ব্যবহার করেছে। এই পদ্ধতি মডেলটির ধাপে ধাপে জটিল সমস্যা বিশ্লেষণ ও ভেঙে ফেলার ক্ষমতা বাড়ায়। RL-এ প্রথাগত পদ্ধতি হল সঠিক উত্তরের জন্য মডেলকে পুরস্কৃত করা, এইভাবে সঠিক প্রতিক্রিয়াগুলিকে শক্তিশালী করা।
যাইহোক, Qwen টিম QwQ-এর সাথে আরও সূক্ষ্ম পদ্ধতি গ্রহণ করেছে। তারা একটি নির্ভুলতা যাচাইকারী এবং একটি কোড এক্সিকিউশন সার্ভারকে একত্রিত করেছে। এই গুরুত্বপূর্ণ সংযোজন নিশ্চিত করে যে পুরষ্কারগুলি শুধুমাত্র গাণিতিকভাবে সঠিক সমাধান এবং কার্যকরী কোডের জন্য দেওয়া হয়। এই কঠোর যাচাইকরণ প্রক্রিয়া বাস্তবায়নের মাধ্যমে, টিমের লক্ষ্য একটি মডেল তৈরি করা যা উচ্চতর নির্ভুলতা এবং নির্ভরযোগ্যতা প্রদর্শন করে।
পারফরম্যান্স দাবি: একটি বাস্তবতা পরীক্ষা
Qwen টিমের প্রচেষ্টা, তারা দাবি করে, এমন একটি মডেল তৈরি করেছে যা তার ওজন শ্রেণীর চেয়ে উল্লেখযোগ্যভাবে বেশি শক্তিশালী। তারা জোর দিয়ে বলছেন যে QwQ অনেক বড় মডেলের সমতুল্য এবং কিছু ক্ষেত্রে, কর্মক্ষমতার স্তর অর্জন করে।
যাইহোক, AI বেঞ্চমার্কের জগৎ জটিল হতে পারে। রিপোর্ট করা পরিসংখ্যানের বাইরে গিয়ে এই দাবিগুলি ব্যবহারিক, বাস্তব-বিশ্বের পরিস্থিতিতে কীভাবে অনুবাদ করে তা পরীক্ষা করা অত্যন্ত গুরুত্বপূর্ণ।
হ্যান্ডস-অন টেস্টিং: QwQ-কে তার গতির মধ্য দিয়ে রাখা
QwQ-এর ক্ষমতা মূল্যায়ন করার জন্য, বিভিন্ন ডোমেন বিস্তৃত করে পরীক্ষার প্রম্পটগুলির একটি সিরিজ ডিজাইন করা হয়েছিল। এর মধ্যে সাধারণ জ্ঞান, স্থানিক যুক্তি, সমস্যা-সমাধান, গণিত এবং অন্যান্য চ্যালেঞ্জগুলি অন্তর্ভুক্ত ছিল যা এমনকি সবচেয়ে উন্নত বৃহৎ ভাষা মডেলগুলির (LLMs) জন্যও অসুবিধা সৃষ্টি করে।
সম্পূর্ণ মডেলের যথেষ্ট মেমরির প্রয়োজনীয়তার কারণে, পরীক্ষা দুটি কনফিগারেশনে চালানো হয়েছিল। প্রথমত, Hugging Face-এ QwQ ডেমো ব্যবহার করে সম্পূর্ণ মডেলটি মূল্যায়ন করা হয়েছিল। এটি তার পূর্ণ সম্ভাবনার একটি মূল্যায়নের অনুমতি দেয়। দ্বিতীয়ত, একটি 24GB GPU (বিশেষত, একটি Nvidia 3090 বা একটি AMD Radeon RX 7900XTX) এ একটি 4-বিট কোয়ান্টাইজড সংস্করণ পরীক্ষা করা হয়েছিল। এই কনফিগারেশনটির লক্ষ্য ছিল মডেলের নির্ভুলতার উপর কোয়ান্টাইজেশনের প্রভাব পরিমাপ করা, এটিকে কম শক্তিশালী হার্ডওয়্যার সহ ব্যবহারকারীদের কাছে আরও অ্যাক্সেসযোগ্য করে তোলা।
সাধারণ জ্ঞান: নিজের জায়গা ধরে রাখা
বেশিরভাগ সাধারণ জ্ঞানের প্রশ্নের প্রতিক্রিয়ায়, QwQ DeepSeek-এর ৬৭১-বিলিয়ন-প্যারামিটার R1 এবং OpenAI-এর o3-mini-এর মতো অন্যান্য রিজনিং মডেলগুলির সাথে তুলনীয় কর্মক্ষমতা প্রদর্শন করেছে। প্রশ্নের উত্তর দেওয়ার আগে মডেলটি সাধারণত তার চিন্তাগুলিকে গঠন করতে কয়েক সেকেন্ড সময় নেয়। এই আচরণটি রিজনিং মডেলগুলির বৈশিষ্ট্য, যা তাৎক্ষণিক প্রতিক্রিয়ার চেয়ে সতর্ক আলোচনাকে অগ্রাধিকার দেয়।
জটিলতায় শ্রেষ্ঠত্ব: যুক্তি, কোডিং এবং গণিত
যেখানে QwQ সত্যিই নিজেকে আলাদা করতে শুরু করে তা হল যুক্তি, কোডিং বা গণিত জড়িত আরও জটিল চ্যালেঞ্জ মোকাবেলা করা। আসুন এই ক্ষেত্রগুলিতে গভীরভাবে অনুসন্ধান করি, এর শক্তিগুলি তুলে ধরি এবং কিছু ক্ষেত্র যেখানে এটি কম পড়ে তা সমাধান করি।
স্থানিক যুক্তি: গোলকধাঁধা নেভিগেট করা
হোমব্রু রিসার্চ তাদের আলফামেজ প্রকল্পের অংশ হিসাবে তৈরি করা একটি তুলনামূলকভাবে নতুন স্থানিক-যুক্তি পরীক্ষা, QwQ মূল্যায়নের জন্য ব্যবহার করা হয়েছিল।
স্থানীয়ভাবে হোস্ট করা QwQ ইনস্ট্যান্স এবং পূর্ণ-আকারের মডেল উভয়ই ধারাবাহিকভাবে এই ধাঁধাগুলি সফলভাবে সমাধান করেছে। যাইহোক, প্রতিটি রান সম্পূর্ণ হতে কয়েক মিনিট সময় নেয়। এটি ইঙ্গিত দেয় যে QwQ স্থানিক যুক্তি কার্যকরভাবে পরিচালনা করতে পারলেও, এটি অগত্যা দ্রুততম নয়।
বিপরীতে, DeepSeek-এর R1 এবং এর 32B ডিস্টীল বিভিন্ন আচরণ প্রদর্শন করেছে। উভয় মডেলই প্রথম গোলকধাঁধা সফলভাবে সমাধান করেছে। যাইহোক, R1 দ্বিতীয়টির সাথে লড়াই করেছিল, যেখানে 32B ডিস্টীল দ্বিতীয় গোলকধাঁধায় 90% সাফল্যের হার অর্জন করেছে। এই পরিবর্তনশীলতা সম্পূর্ণরূপে অপ্রত্যাশিত নয়, যেহেতু R1 এবং ডিস্টীল স্বতন্ত্র বেস মডেল ব্যবহার করে।
যদিও QwQ এই নির্দিষ্ট পরীক্ষায় DeepSeek-এর তুলনায় উচ্চতর কর্মক্ষমতা প্রদর্শন করেছে, 4-বিট মডেলের সাথে কিছু অস্বাভাবিক আচরণ পরিলক্ষিত হয়েছে। প্রাথমিকভাবে, পরীক্ষাটি সম্পূর্ণ করার জন্য এটির প্রায় দ্বিগুণ সংখ্যক “চিন্তা” টোকেন প্রয়োজন। এটি প্রাথমিকভাবে কোয়ান্টাইজেশনের কারণে সম্ভাব্য ক্ষতির পরামর্শ দেয়। যাইহোক, আরও তদন্তে দেখা গেছে যে কোয়ান্টাইজড মডেলটি, তার প্রাথমিক অবস্থায়, নিম্নমানের কর্মক্ষমতা প্রদর্শন করছে। হাইপারপ্যারামিটারগুলি সামঞ্জস্য করা এবং পরীক্ষাগুলি পুনরায় চালানো এই সমস্যার সমাধান করেছে, যা সঠিক কনফিগারেশনের গুরুত্ব প্রদর্শন করে।
ওয়ান-শট কোডিং: একটি সম্ভাব্য শক্তি
QwQ ‘ওয়ান-শট’ কোড জেনারেশনের জন্য যথেষ্ট মনোযোগ আকর্ষণ করেছে - প্রথম প্রচেষ্টায় ব্যবহারযোগ্য কোড তৈরি করার ক্ষমতা। এই বিশেষ ক্ষেত্রটি মডেলের জন্য একটি উল্লেখযোগ্য শক্তি বলে মনে হচ্ছে।
মডেলটিকে পাইথন-এ pygame লাইব্রেরি ব্যবহার করে কয়েকটি তুলনামূলকভাবে সহজ গেম পুনরায় তৈরি করার দায়িত্ব দেওয়া হয়েছিল। নির্বাচিত গেমগুলি হল পং, ব্রেকআউট, অ্যাস্টেরয়েডস এবং ফ্ল্যাপি বার্ড।
QwQ পং এবং ব্রেকআউট অপেক্ষাকৃত সহজে পরিচালনা করেছে। কয়েক মিনিটের প্রক্রিয়াকরণের পরে, মডেলটি উভয় গেমের কার্যকরী সংস্করণ তৈরি করেছে।
যাইহোক, যখন অ্যাস্টেরয়েডস পুনরায় তৈরি করার দায়িত্ব দেওয়া হয়েছিল, তখন QwQ সমস্যার সম্মুখীন হয়েছিল। যদিও জেনারেট করা কোডটি চলেছিল, গ্রাফিক্স এবং গেম মেকানিক্স প্রায়শই বিকৃত এবং ত্রুটিপূর্ণ ছিল। বিপরীতে, R1, তার প্রথম প্রচেষ্টায়, বিশ্বস্ততার সাথে ক্লাসিক আর্কেড শ্যুটারটি পুনরায় তৈরি করেছে।
এই মডেলগুলির জন্য প্রশিক্ষণের ডেটা বিবেচনা করা গুরুত্বপূর্ণ। এগুলি প্রচুর পরিমাণে প্রকাশ্যে উপলব্ধ সোর্স কোডের সংস্পর্শে এসেছে, সম্ভবত ক্লাসিক গেমগুলির পুনরুত্পাদন সহ। এটি প্রশ্ন উত্থাপন করে যে মডেলগুলি কি স্ক্র্যাচ থেকে গেম মেকানিক্স স্বাধীনভাবে বের করার পরিবর্তে কেবল শেখা তথ্য স্মরণ করছে। এটি এই বিশাল নিউরাল নেটওয়ার্কগুলির মৌলিক প্রকৃতিকে আন্ডারস্কোর করে, যেখানে আপাত বুদ্ধি প্রায়শই ব্যাপক প্যাটার্ন স্বীকৃতি থেকে উদ্ভূত হয়।
এমনকি এই সীমাবদ্ধতাগুলির সাথেও, ক্লাসিক আর্কেড গেমগুলি পুনরায় তৈরিতে QwQ-এর কর্মক্ষমতা চিত্তাকর্ষক, বিশেষ করে এর প্যারামিটার গণনা বিবেচনা করে। এটি প্রতিটি পরীক্ষায় R1-এর সাথে মেলে নাও ধরতে পারে, তবে এটি একটি অসাধারণ স্তরের ক্ষমতা প্রদর্শন করে। “ডিসপ্লেসমেন্টের কোনও প্রতিস্থাপন নেই,” স্বয়ংচালিত বিশ্বে প্রায়শই ব্যবহৃত এই বাক্যাংশটি এখানে প্রাসঙ্গিক হতে পারে। এটি ব্যাখ্যা করতে পারে কেন আলিবাবা QwQ-এর একটি “ম্যাক্স” সংস্করণ তৈরি করছে, যদিও এটি শীঘ্রই কোনও ভোক্তা হার্ডওয়্যারে চালানো সম্ভব হবে না।
DeepSeek-এর অনুরূপ আকারের R1 Qwen 2.5 32B ডিস্টীলের তুলনায়, আলিবাবার তার রিইনফোর্সমেন্ট লার্নিং পাইপলাইনে একটি কোড এক্সিকিউশন সার্ভারকে সংহত করার সিদ্ধান্ত প্রোগ্রামিং-সম্পর্কিত চ্যালেঞ্জগুলিতে একটি সুবিধা প্রদান করতে পারে।
গণিত: একটি সতর্কতার সাথে ক্ষমতা
ঐতিহাসিকভাবে, LLM গুলি গণিতের সাথে লড়াই করেছে, যা তাদের ভাষা-কেন্দ্রিক প্রশিক্ষণের একটি ফল। যদিও নতুন মডেলগুলি উন্নতি দেখিয়েছে, QwQ এখনও চ্যালেঞ্জের মুখোমুখি, যদিও অগত্যা সেই কারণে নয় যা কেউ আশা করতে পারে।
QwQ পূর্বে R1-এর কাছে উপস্থাপিত সমস্ত গণিত সমস্যা সফলভাবে সমাধান করেছে। এটি ইঙ্গিত দেয় যে QwQ মৌলিক পাটিগণিত এবং এমনকি কিছু বীজগণিত পরিচালনা করতে পারে। যাইহোক, সমস্যাটি এর দক্ষতার মধ্যে রয়েছে। ক্যালকুলেটর এবং সরাসরি গণনা যখন সহজেই উপলব্ধ এবং উল্লেখযোগ্যভাবে দ্রুত থাকে তখন গাণিতিক গণনার জন্য একটি LLM নিযুক্ত করা বিপরীতমুখী বলে মনে হয়।
উদাহরণস্বরূপ, 7*43
-এর মতো একটি সরল সমীকরণ সমাধান করার জন্য QwQ-কে 1,000-এর বেশি টোকেন তৈরি করতে হয়েছিল, একটি RTX 3090 Ti-তে প্রায় 23 সেকেন্ড সময় লেগেছিল। এটি এমন একটি কাজ যা একটি পকেট ক্যালকুলেটরে সময়ের একটি ভগ্নাংশে সম্পন্ন করা যেতে পারে।
অদক্ষতা আরও বড় গণনার সাথে আরও প্রকট হয়ে ওঠে। 3394*35979
সমাধান করা, একটি গুণন সমস্যা যা বেশিরভাগ নন-রিজনিং মডেলের ক্ষমতার বাইরে, QwQ-এর স্থানীয় ইনস্ট্যান্সের গণনা করতে তিন মিনিট এবং 5,000-এর বেশি টোকেন লেগেছিল।
হাইপারপ্যারামিটার ঠিক করার আগে, একই সমীকরণের জন্য বিস্ময়কর নয় মিনিট এবং প্রায় 12,000 টোকেন প্রয়োজন।
এখানে মূল বিষয় হল যে একটি মডেল সঠিক উত্তরে পৌঁছানোর জন্য তার পথ তৈরি করতে সক্ষম হতে পারে, এর অর্থ এই নয় যে এটি কাজের জন্য সর্বোত্তম সরঞ্জাম। একটি আরও ব্যবহারিক পদ্ধতি হবে QwQ-কে একটি পাইথন ক্যালকুলেটরের অ্যাক্সেস সরবরাহ করা। এটি মডেলের শক্তিগুলিকে কাজে লাগায় এবং আরও উপযুক্ত টুলে গণনামূলকভাবে নিবিড় কাজগুলি অফলোড করে৷
যখন টুলিং ব্যবহার করে একই 3394*35979
সমীকরণটি সমাধান করার দায়িত্ব দেওয়া হয়েছিল, তখন QwQ-এর প্রতিক্রিয়ার সময় আট সেকেন্ডে নেমে আসে, কারণ ক্যালকুলেটরটি ভারী উত্তোলন পরিচালনা করে।
‘অপেক্ষা’-এর প্রাদুর্ভাব: চিন্তার প্রক্রিয়ার একটি ঝলক
QwQ-এর ‘চিন্তা’ পরীক্ষা করলে ‘অপেক্ষা’ শব্দটির ঘন ঘন উপস্থিতি দেখা যায়, বিশেষ করে জটিল কাজ বা শব্দ সমস্যার সময়। এটি বিকল্প ফলাফলের বিরুদ্ধে তার কাজ পরীক্ষা করার মডেলের অভ্যন্তরীণ প্রক্রিয়াকে প্রতিফলিত করে।
যদিও এই আচরণটি রিজনিং মডেলগুলিতে সাধারণ, এটি বিশেষভাবে হতাশাজনক হতে পারে যখন QwQ একটি ভুল উত্তর তৈরি করে, এমনকি তার ‘চিন্তা’ প্রক্রিয়ার সময় সঠিক উত্তরের একটি বোধগম্যতা প্রদর্শন করার পরেও।
পরীক্ষার সময় এই সমস্যাটি প্রায়শই সম্মুখীন হয়েছিল। সবচেয়ে দৃষ্টান্তমূলক উদাহরণগুলির মধ্যে একটি হল ক্লাসিক নেকড়ে, ছাগল এবং বাঁধাকপি সমস্যার AutoGen AI-এর অভিযোজন। এই ধাঁধাটি একটি পরিবহন অপ্টিমাইজেশান চ্যালেঞ্জ উপস্থাপন করে:
সমাধানটি প্রম্পটের মধ্যে এম্বেড করা আছে: তিনটি সুরক্ষিত কম্পার্টমেন্ট সহ, কৃষক এক ট্রিপে সমস্ত জিনিস পরিবহন করতে পারে। যাইহোক, ধাঁধাটির ক্লাসিক সংস্করণের সাথে সাদৃশ্যের কারণে, মডেলগুলি প্রায়শই কম্পার্টমেন্টগুলিকে উপেক্ষা করে।
পরীক্ষায়, QwQ ধারাবাহিকভাবে এই ধাঁধাটি সঠিকভাবে সমাধান করতে ব্যর্থ হয়েছে। এর চিন্তার প্রক্রিয়া পরীক্ষা করে দেখা গেছে যে এটি তিনটি কম্পার্টমেন্টকে উপেক্ষা করেনি। প্রকৃতপক্ষে, এটি তাদের স্বীকার করেছে কিন্তু সেগুলিকে খুব সহজ বলে খারিজ করেছে:
“অপেক্ষা করুন, যদি কৃষক এক ট্রিপে তিনটি নিতে পারে, তবে সে কেবল এটি করতে পারে এবং সম্পন্ন করতে পারে। তবে এটি সমস্যাটিকে তুচ্ছ করে তুলবে, যা অসম্ভাব্য। তাই সম্ভবত কম্পার্টমেন্টগুলি আলাদা তবে নৌকাটি কেবল দুটি জিনিস এবং কৃষককে বহন করতে পারে?”
ক্লাউডে বা স্থানীয়ভাবে সম্পূর্ণ মডেলে পরীক্ষা চালানো হোক না কেন, QwQ ধারাবাহিকভাবে এটি সমাধান করতে লড়াই করেছে। এটি তার যুক্তির ক্ষমতার একটি সম্ভাব্য সীমাবদ্ধতা তুলে ধরে, যেখানে এটি সমস্যার সীমাবদ্ধতাগুলিকে অতিরিক্ত চিন্তা করতে বা ভুল ব্যাখ্যা করতে পারে।
হাইপারপ্যারামিটার সংবেদনশীলতা: একটি সূক্ষ্ম ভারসাম্য
অন্যান্য মডেলের তুলনায়, QwQ তার কনফিগারেশনের প্রতি একটি বর্ধিত সংবেদনশীলতা প্রদর্শন করেছে। প্রাথমিকভাবে, আলিবাবা নির্দিষ্ট স্যাম্পলিং প্যারামিটারের সুপারিশ করেছিল:
- Temperature: 0.6
- TopP: 0.95
- TopK: 20 থেকে 40 এর মধ্যে
পরবর্তীকালে, এই সুপারিশগুলি আপডেট করা হয়েছিল:
- MinP: 0
- Presence Penalty: 0 থেকে 2 এর মধ্যে
Llama.cpp-এর স্যাম্পলিং প্যারামিটারগুলির পরিচালনার ক্ষেত্রে একটি আপাত বাগের কারণে (মডেলগুলিতে অনুমান চালানোর জন্য Llama.cpp ব্যবহার করা হয়), পুনরাবৃত্তি পেনাল্টি 1-এ সেট করে অক্ষম করাও প্রয়োজন ছিল।
পূর্বে উল্লিখিত হিসাবে, এই কনফিগারেশন সমস্যাগুলি সমাধান করার ফলে একটি উল্লেখযোগ্য উন্নতি হয়েছে, একটি উত্তরে পৌঁছানোর জন্য প্রয়োজনীয় ‘চিন্তাভাবনা’ টোকেনগুলির সংখ্যা অর্ধেকেরও বেশি হ্রাস পেয়েছে। যাইহোক, এই বাগটি GGUF-কোয়ান্টাইজড মডেলগুলির জন্য নির্দিষ্ট বলে মনে হচ্ছে যখন Llama.cpp ইনফারেন্স ইঞ্জিনে চালানো হয়, যা Ollama এবং LM Studio-এর মতো জনপ্রিয় অ্যাপ্লিকেশনগুলির দ্বারা ব্যবহৃত হয়।
Llama.cpp ব্যবহার করার পরিকল্পনা করা ব্যবহারকারীদের জন্য, স্যাম্পলিং অর্ডার সংশোধন করার জন্য Unsloth-এর গাইড-এর সাথে পরামর্শ করার পরামর্শ দেওয়া হচ্ছে।
QwQ-এর সাথে শুরু করা: একটি ব্যবহারিক গাইড
যারা QwQ নিয়ে পরীক্ষা করতে আগ্রহী, তাদের জন্য Ollama-তে সেট আপ করা তুলনামূলকভাবে সহজ। যাইহোক, এটি লক্ষ করা গুরুত্বপূর্ণ যে এটির জন্য প্রচুর পরিমাণে vRAM সহ একটি GPU প্রয়োজন। মডেলটি ব্যবহারিক ব্যবহারের জন্য যথেষ্ট বড় একটি কনটেক্সট উইন্ডো সহ একটি 24GB 3090 Ti-তে সফলভাবে চালানো হয়েছিল।
টেকনিক্যালি CPU এবং সিস্টেম মেমরিতে মডেল চালানো সম্ভব হলেও, এটি অত্যন্ত ধীর প্রতিক্রিয়ার সময় হতে পারে যদি না একটি উচ্চ-সম্পন্ন ওয়ার্কস্টেশন বা সার্ভার ব্যবহার করা হয়।
পূর্বশর্ত:
- 4-বিট কোয়ান্টাইজেশনে মাঝারি আকারের LLM চালাতে সক্ষম একটি মেশিন। কমপক্ষে 24GB vRAM সহ একটি সামঞ্জস্যপূর্ণ GPU সুপারিশ করা হয়। সমর্থিত কার্ডগুলির একটি তালিকা এখানে পাওয়া যাবে।
- অ্যাপল সিলিকন ম্যাকের জন্য, সর্বনিম্ন 32GB মেমরির সুপারিশ করা হয়।
এই গাইডটি একটি লিনাক্স-ওয়ার্ল্ড কমান্ড-লাইন ইন্টারফেস এবং Ollama-এর সাথে প্রাথমিক পরিচিতি অনুমান করে।
Ollama ইনস্টল করা
Ollama একটি জনপ্রিয় মডেল রানার যা ভোক্তা হার্ডওয়্যারে LLM ডাউনলোড এবং পরিবেশন করার প্রক্রিয়াটিকে সহজ করে। উইন্ডোজ বা ম্যাকওএস ব্যবহারকারীদের জন্য, ollama.com থেকে অন্য যেকোনো অ্যাপ্লিকেশনের মতো এটি ডাউনলোড এবং ইনস্টল করুন।
লিনাক্স ব্যবহারকারীদের জন্য, Ollama ইনস্টলেশনের জন্য একটি সুবিধাজনক ওয়ান-লাইনার সরবরাহ করে: