বিশেষীকরণের চ্যালেঞ্জ: প্রযুক্তিগত অগ্রগতির জন্য AI-এর অভিযোজন
Large Language Models (LLMs) নিঃসন্দেহে আমাদের তথ্য আদান-প্রদান এবং স্বাভাবিক ভাষা জড়িত কাজগুলি স্বয়ংক্রিয় করার পদ্ধতিতে বিপ্লব এনেছে। Llama এবং Mistral-এর মতো বৃহৎ মডেলগুলি, এমনকি তাদের ওপেন-সোর্স সংস্করণেও, পাঠ্য বোঝা এবং তৈরি করার ক্ষেত্রে অসাধারণ সাবলীলতা প্রদর্শন করে যা প্রায়শই মানুষের সমকক্ষ। তাদের দক্ষতা সাধারণ কথোপকথন থেকে শুরু করে জটিল সারসংক্ষেপ পর্যন্ত বিস্তৃত। যাইহোক, বিজ্ঞান এবং প্রকৌশলের বিশেষায়িত, পরিভাষা-সমৃদ্ধ ক্ষেত্রগুলিতে—যেমন উপকরণ বিজ্ঞান (materials science) বা বায়োম্যাটেরিওমিক্স (biomateriomics)—প্রবেশ করা একটি অনন্য বাধা উপস্থাপন করে।
এই প্রযুক্তিগত ডোমেইনগুলির জন্য সাধারণ জ্ঞানের চেয়ে বেশি প্রয়োজন; তাদের গভীর, সূক্ষ্ম বোঝাপড়া, নির্দিষ্ট নীতির উপর যুক্তি করার ক্ষমতা এবং বিশেষ পরিভাষা ও ডেটা কাঠামোর সাথে পরিচিতি প্রয়োজন। স্ট্যান্ডার্ড LLMs, যা বিস্তৃত ওয়েব কর্পোরার উপর প্রশিক্ষিত, প্রায়শই এই চাহিদাগুলির মুখোমুখি হলে ব্যর্থ হয়। চ্যালেঞ্জটি তাই ডোমেইন অভিযোজন (domain adaptation)-এর মধ্যে নিহিত: আমরা কীভাবে এই শক্তিশালী সাধারণ মডেলগুলিকে অত্যন্ত নির্দিষ্ট ক্ষেত্রে বিশেষজ্ঞ সহকারী হিসাবে কার্যকরভাবে তৈরি করতে পারি?
কেবলমাত্র আরও বিশেষায়িত ডেটা খাওয়ানো সবসময় উত্তর নয়, বা এটি সবসময় সম্ভবও নয়। এই বিশাল মডেলগুলিকে স্ক্র্যাচ থেকে প্রশিক্ষণ দেওয়া নিষিদ্ধভাবে ব্যয়বহুল, এবং তাদের প্রাথমিক প্রি-ট্রেনিংয়ের জন্য ব্যবহৃত মূল, বিশাল ডেটাসেটগুলি সাধারণত অ্যাক্সেসযোগ্য নয়। এটি জনপ্রিয় ওপেন-সোর্স মডেলগুলির জন্য বিশেষভাবে সত্য যেখানে, কিছু স্বচ্ছতা থাকা সত্ত্বেও, সম্পূর্ণ রেসিপি—প্রি-ট্রেনিং, ফাইন-টিউনিং এবং অ্যালাইনমেন্টের সময় ব্যবহৃত সঠিক ডেটা মিশ্রণ এবং ক্রম—বেশিরভাগই মালিকানাধীন থাকে। গবেষক এবং প্রকৌশলীদের বিদ্যমান মডেলগুলিতে নতুন, বিশেষায়িত জ্ঞান যুক্ত করার জন্য শক্তিশালী, কার্যকর কৌশল প্রয়োজন, একই সাথে তাদের প্রাথমিক প্রশিক্ষণের সময় অর্জিত বিশাল সাধারণ ক্ষমতাগুলি সংরক্ষণ করা অত্যন্ত গুরুত্বপূর্ণ। এই সূক্ষ্ম ভারসাম্য রক্ষা করা বৈজ্ঞানিক আবিষ্কার এবং প্রকৌশল উদ্ভাবনের জন্য সত্যিই দরকারী AI সরঞ্জাম তৈরি করার জন্য অপরিহার্য, যেমন বিভিন্ন স্কেল এবং প্রসঙ্গে জৈবিক উপাদান নকশার অনুপ্রেরণা অন্বেষণ করার জন্য মাল্টিমোডাল যুক্তিতে সক্ষম ইঞ্জিন তৈরি করা।
প্রশিক্ষণের ল্যান্ডস্কেপ চার্টিং: প্রি-ট্রেনিং থেকে প্রেফারেন্স অপ্টিমাইজেশন পর্যন্ত
ডোমেইন-নির্দিষ্ট LLM দক্ষতার পথে নেভিগেট করার জন্য ফাইন-টিউনিং কৌশলগুলির একটি বৈচিত্র্যময় টুলকিট অন্বেষণ করা জড়িত। প্রতিটি পদ্ধতি মডেলের জ্ঞান এবং আচরণকে আকার দেওয়ার একটি ভিন্ন উপায় সরবরাহ করে।
Continued Pre-Training (CPT): এই কৌশলটি প্রাথমিক প্রি-ট্রেনিং পর্যায়কে প্রসারিত করে, কিন্তু এবার লক্ষ্য ডোমেইনের উপর সরাসরি দৃষ্টি নিবদ্ধ করে একটি কর্পাস ব্যবহার করে—যেমন উপকরণ বিজ্ঞান গবেষণা পত্রের সংগ্রহ। লক্ষ্য হল মডেলটিকে ক্ষেত্রের নির্দিষ্ট ভাষা, ধারণা এবং জ্ঞান কাঠামোতে নিমজ্জিত করা, যাতে এটি শুধুমাত্র টাস্ক-নির্দিষ্ট ফাইন-টিউনিংয়ের মাধ্যমে সম্ভবের চেয়ে গভীরভাবে ডোমেইন-নির্দিষ্ট তথ্য শোষণ করতে পারে। এটি প্রাসঙ্গিক জ্ঞানের ভিত্তি স্থাপন করে।
Supervised Fine-Tuning (SFT): CPT অনুসরণ করে বা একটি বেস মডেল থেকে শুরু করে, SFT সরাসরি মডেলকে নির্দিষ্ট কাজগুলি কীভাবে সম্পাদন করতে হয় তা শেখায়। এটি ইনপুট-আউটপুট জোড়ার কিউরেটেড ডেটাসেট ব্যবহার করে অর্জন করা হয়, প্রায়শই নির্দেশাবলী এবং পছন্দসই প্রতিক্রিয়া, বা ডোমেইনের সাথে প্রাসঙ্গিক প্রশ্ন এবং সঠিক উত্তর হিসাবে ফর্ম্যাট করা হয়। SFT মডেলের নির্দেশাবলী অনুসরণ করার ক্ষমতা, বিশেষায়িত প্রসঙ্গে সঠিকভাবে প্রশ্নের উত্তর দেওয়া এবং পছন্দসই আউটপুট ফর্ম্যাটগুলি মেনে চলার ক্ষমতাকে উন্নত করে।
Low-Rank Adaptation (LoRA): যদিও এখানে প্রাথমিক ফোকাস নয়, LoRA একটি কার্যকর বিকল্প বা পরিপূরক উপস্থাপন করে। পুরো মডেলটিকে পুনরায় প্রশিক্ষণ দেওয়ার পরিবর্তে, LoRA ছোট, প্রশিক্ষণযোগ্য ‘অ্যাডাপ্টার’ স্তর যুক্ত করে। এটি অনেক কম গণনামূলক খরচে উল্লেখযোগ্য অভিযোজন সক্ষম করে, যদিও CPT-এর তুলনায় এটি কতটা মৌলিকভাবে নতুন জ্ঞান একীভূত করতে পারে তার সীমাবদ্ধতা থাকতে পারে।
Preference-Based Optimization: সাধারণ টাস্ক সমাপ্তির বাইরে গিয়ে, প্রেফারেন্স অপ্টিমাইজেশন মডেলের আউটপুটগুলিকে মানুষের বিচার বা নির্দিষ্ট মানদণ্ড যেমন সহায়কতা, নিরীহতা এবং যুক্তির নির্ভুলতার সাথে আরও ঘনিষ্ঠভাবে সারিবদ্ধ করার লক্ষ্য রাখে। শুধুমাত্র পূর্বনির্ধারিত ‘সঠিক’ উত্তরের উপর নির্ভর করার পরিবর্তে (যেমন SFT-তে), এই পদ্ধতিগুলি তুলনা থেকে শেখে।
- Direct Preference Optimization (DPO): DPO সরাসরি প্রতিক্রিয়াগুলির জোড়া থেকে শেখে যেখানে একটি অন্যটির চেয়ে পছন্দনীয় (যেমন, একজন মানব মূল্যায়নকারী বা অন্য AI দ্বারা)। এটি একটি পৃথক রিওয়ার্ড মডেলের প্রয়োজন ছাড়াই পছন্দের প্রতিক্রিয়া তৈরি করার সম্ভাবনা বাড়ানোর জন্য মডেলটিকে অপ্টিমাইজ করে, যা ঐতিহ্যবাহী Reinforcement Learning from Human Feedback (RLHF) পাইপলাইনকে সহজ করে তোলে।
- Odds Ratio Preference Optimization (ORPO): একটি নতুন প্রবেশকারী, ORPO অপ্টিমাইজেশন উদ্দেশ্য পরিবর্তন করে, কখনও কখনও DPO-এর তুলনায় উন্নত কর্মক্ষমতা বা স্থিতিশীলতা প্রদান করে, বিশেষ করে একটি ডোমেইনের মধ্যে নির্দিষ্ট শৈলীগত বা যুক্তির মানদণ্ডের দিকে মডেলগুলিকে সারিবদ্ধ করার ক্ষেত্রে।
এই কৌশলগুলি পারস্পরিকভাবে বর্জনীয় নয়; এগুলি প্রায়শই ক্রমানুসারে বা সংমিশ্রণে নিযুক্ত করা হয়, জটিল প্রশিক্ষণ পাইপলাইন গঠন করে। একটি সাধারণ ক্রম CPT অন্তর্ভুক্ত করতে পারে ডোমেইন জ্ঞান তৈরি করার জন্য, তারপরে টাস্ক দক্ষতার জন্য SFT, এবং অবশেষে অ্যালাইনমেন্ট এবং পরিমার্জনের জন্য DPO বা ORPO। যাইহোক, সর্বোত্তম সংমিশ্রণ এবং ক্রম সক্রিয় গবেষণার ক্ষেত্র হিসাবে রয়ে গেছে, বিশেষ করে বিশেষায়িত বৈজ্ঞানিক ডোমেইনগুলিতে সর্বোচ্চ কর্মক্ষমতা অর্জনের জন্য।
সাধারণ টিউনিংয়ের বাইরে: মডেল মার্জিংয়ের প্রতিশ্রুতি
যদিও একটি একক মডেলকে ক্রমানুসারে প্রশিক্ষণের ধাপগুলির মাধ্যমে পরিমার্জন করা উল্লেখযোগ্য উন্নতি আনতে পারে, আরেকটি আকর্ষণীয় পথ আবির্ভূত হয়েছে: মডেল মার্জিং (model merging)। এই অনুশীলনটি দুই বা ততোধিক পৃথকভাবে প্রশিক্ষিত মডেল নেওয়া এবং তাদের প্যারামিটারগুলি—তাদের অভ্যন্তরীণ ‘ওয়েট’—একত্রিত করে একটি একক, নতুন হাইব্রিড মডেল তৈরি করা জড়িত।
কেন এমন একটি ফিউশন চেষ্টা করবেন? মূল ধারণা হল প্যারেন্ট মডেলগুলির শক্তিগুলিকে সমন্বিতভাবে একত্রিত করা। কল্পনা করুন একটি মডেল উপকরণ বিজ্ঞানের সাহিত্যের উপর দক্ষতার সাথে প্রশিক্ষিত (CPT এবং SFT এর মাধ্যমে) এবং অন্য একটি সাধারণ-উদ্দেশ্য ‘instruct’ মডেল যা জটিল নির্দেশাবলী অনুসরণ করতে এবং সুসংগত সংলাপে জড়িত হতে অত্যন্ত পারদর্শী। তাদের মার্জ করা সম্ভাব্যভাবে এমন একটি মডেল তৈরি করতে পারে যা গভীর ডোমেইন জ্ঞান এবং চমৎকার কথোপকথন এবং নির্দেশ-অনুসরণ ক্ষমতা উভয়ই ধারণ করে।
প্রাথমিক অন্বেষণগুলি ইঙ্গিত দেয় যে এই প্রক্রিয়াটি সাধারণ গড় করার চেয়ে বেশি হতে পারে। কেবল ক্ষমতা মিশ্রিত করার পরিবর্তে, মার্জিং সম্ভাব্যভাবে সম্পূর্ণ নতুন, উদ্ভূত কার্যকারিতা (emergent functionalities) আনলক করতে পারে—এমন ক্ষমতা যা কোনও প্যারেন্ট মডেলেই স্পষ্টভাবে উপস্থিত ছিল না। এটি মার্জ করার সময় প্যারামিটারগুলির মধ্যে একটি অত্যন্ত নন-লিনিয়ার মিথস্ক্রিয়া নির্দেশ করে, যা সম্ভাব্যভাবে অংশগুলির সমষ্টির চেয়ে বড় একটি সম্পূর্ণের দিকে নিয়ে যায়। যদি কার্যকর এবং নিয়ন্ত্রণযোগ্য প্রমাণিত হয়, মডেল মার্জিং LLM ক্ষমতাগুলির সীমানা ঠেলে দেওয়ার জন্য একটি শক্তিশালী, রূপান্তরকারী সরঞ্জাম উপস্থাপন করতে পারে, জটিল, বাস্তব-বিশ্বের বৈজ্ঞানিক এবং প্রকৌশল চ্যালেঞ্জগুলির জন্য অত্যন্ত অভিযোজিত এবং শক্তিশালী AI সিস্টেম তৈরি করতে পারে।
SLERP-এর শক্তি উন্মোচন: মার্জিংয়ের একটি জ্যামিতিক পদ্ধতি
মডেল মার্জিংয়ের কার্যকারিতা প্যারেন্ট মডেলগুলির প্যারামিটারগুলি কীভাবে একত্রিত করা হয় তার উপর সমালোচনামূলকভাবে নির্ভর করে। একটি সাধারণ লিনিয়ার গড় (প্রায়শই Linear Interpolation বা LERP বলা হয়) স্বজ্ঞাত মনে হতে পারে, তবে এটি প্রায়শই সাবঅপ্টিমাল ফলাফলের দিকে নিয়ে যায় বা এমনকি কর্মক্ষমতা হ্রাস করে। এটি সম্ভবত কারণ LLM-গুলির উচ্চ-মাত্রিক প্যারামিটার স্পেস সমতল নয়; এটির একটি জটিল, বাঁকা জ্যামিতি রয়েছে। লিনিয়ার ইন্টারপোলেশন এই স্পেসের মধ্যে ‘ডেড জোন’ বা উচ্চ-লস অঞ্চলে অতিক্রম করার ঝুঁকি নেয়, যা প্যারেন্ট মডেলগুলির সাবধানে শেখা উপস্থাপনাগুলিকে কার্যকরভাবে এলোমেলো করে দেয়।
এখানে আসে Spherical Linear Interpolation (SLERP)। মূলত কম্পিউটার গ্রাফিক্সে ঘূর্ণনের মসৃণ অ্যানিমেশনের জন্য বিকশিত, SLERP একটি হাইপারস্ফিয়ারের পৃষ্ঠ বরাবর সবচেয়ে ছোট পথ অনুসরণ করে দুটি বিন্দুর (এই ক্ষেত্রে, দুটি মডেলের প্যারামিটার ভেক্টর) মধ্যে ইন্টারপোলেট করার একটি জ্যামিতিকভাবে পরিশীলিত উপায় সরবরাহ করে।
দুটি প্যারেন্ট মডেলের প্যারামিটার সেটগুলিকে একটি বিশাল গোলকের পৃষ্ঠের দুটি বিন্দু হিসাবে কল্পনা করুন।
- LERP গোলকের মধ্য দিয়ে বিন্দুগুলিকে সংযোগকারী একটি সরল রেখা আঁকবে। এই পথটি পৃষ্ঠে নাও থাকতে পারে এবং খারাপ পারফরম্যান্সকারী মডেলগুলির প্রতিনিধিত্বকারী অঞ্চলগুলির মধ্য দিয়ে যেতে পারে।
- SLERP, বিপরীতভাবে, গোলকের বাঁকা পৃষ্ঠ বরাবর ভ্রমণ করে। এই পথটি অন্তর্নিহিতভাবে প্যারামিটার স্পেসের জ্যামিতিক কাঠামোকে সম্মান করে।
কেন এই গোলাকার পথটি LLM মার্জ করার জন্য সম্ভাব্যভাবে উন্নত?
- কাঠামো সংরক্ষণ: ‘গোলকের উপর’ থাকার মাধ্যমে, SLERP প্যারামিটারগুলির মধ্যে জ্যামিতিক সম্পর্ক বজায় রাখে, প্রতিটি প্যারেন্ট মডেলের মধ্যে শেখা কাঠামোকে একটি লিনিয়ার পথের চেয়ে আরও কার্যকরভাবে সংরক্ষণ করে।
- উচ্চ-লস অঞ্চল এড়ানো: বাঁকা পথটি উচ্চ ভবিষ্যদ্বাণী ত্রুটি (লস) এর সাথে যুক্ত প্যারামিটার স্পেসের অঞ্চলগুলিকে ছেদ করার সম্ভাবনা কম।
- নন-লিনিয়ার সংমিশ্রণ: SLERP-এর জন্য ইন্টারপোলেশন সূত্রটি অন্তর্নিহিতভাবে নন-লিনিয়ার। এটি প্যারেন্ট মডেলগুলি থেকে প্যারামিটারগুলির মধ্যে জটিল, সমন্বিত মিথস্ক্রিয়া সক্ষম করে, সম্ভাব্যভাবে এমন সংমিশ্রণগুলি আনলক করে যা অভিনব ক্ষমতাগুলির প্রতিনিধিত্ব করে। একটি মার্জ করা প্যারামিটার এমনভাবে বৈশিষ্ট্যগুলি সক্রিয় করতে পারে যা কোনও প্যারেন্ট একাই করতে পারত না।
- মসৃণ রূপান্তর: SLERP প্যারেন্ট মডেলগুলির অবস্থার মধ্যে একটি গাণিতিকভাবে মসৃণ রূপান্তর সরবরাহ করে, যা সম্ভাব্যভাবে মার্জ করা মডেলে আরও ভাল সাধারণীকরণের দিকে নিয়ে যায়।
কারণ SLERP মডেলের অন্তর্নিহিত জ্যামিতিকে সম্মান করে এবং নন-লিনিয়ার প্যারামিটার মিথস্ক্রিয়াকে সহজতর করে, এটি কেবল ক্ষমতা গড় করার সম্ভাবনাই রাখে না বরং সেগুলিকে এমনভাবে মিশ্রিত করার সম্ভাবনা রাখে যা উদ্ভূত বৈশিষ্ট্যগুলিকে উৎসাহিত করে। এটি এটিকে উপকরণ বিজ্ঞানের মতো জটিল ডোমেইনগুলির জন্য লক্ষ্যযুক্ত মডেলগুলিকে মার্জ করার জন্য একটি বিশেষভাবে প্রতিশ্রুতিশীল প্রার্থী করে তোলে, যেখানে সূক্ষ্ম মিথস্ক্রিয়া এবং সূক্ষ্ম বোঝাপড়া চাবিকাঠি।
তত্ত্ব পরীক্ষা করা: Llama এবং Mistral পরীক্ষা
এই ফাইন-টিউনিং এবং মার্জিং কৌশলগুলি কঠোরভাবে তদন্ত করার জন্য, জনপ্রিয় ওপেন-সোর্স মডেল পরিবারগুলি ব্যবহার করে একটি পদ্ধতিগত সিরিজের পরীক্ষা পরিচালিত হয়েছিল: Llama 3.1 (8 বিলিয়ন প্যারামিটার) এবং Mistral (7 বিলিয়ন প্যারামিটার)। লক্ষ্য ছিল বিভিন্ন প্রশিক্ষণ পাইপলাইন তুলনা করা এবং SLERP মার্জিংয়ের প্রভাব মূল্যায়ন করা।
পরীক্ষামূলক নকশায় বেশ কয়েকটি মূল পদক্ষেপ জড়িত ছিল:
- বেস মডেল: পরীক্ষাগুলি উভয় ভিত্তি ‘বেস’ মডেল (প্রি-ট্রেইনড কিন্তু নির্দেশ-টিউনড নয়) এবং ‘instruct’ সংস্করণ (ইতিমধ্যে চ্যাট এবং নির্দেশ অনুসরণের জন্য ফাইন-টিউনড) দিয়ে শুরু হয়েছিল Llama এবং Mistral উভয় পরিবারের জন্য।
- ডোমেইন কর্পাস: বৈজ্ঞানিক প্রকাশনা এবং প্রক্রিয়াজাত ডেটা থেকে উপকরণ বিজ্ঞানের উপর দৃষ্টি নিবদ্ধ করে একটি বিশেষায়িত কর্পাস সংকলিত হয়েছিল।
- প্রশিক্ষণ পাইপলাইন: প্রশিক্ষণ কৌশলগুলির বিভিন্ন সংমিশ্রণ প্রয়োগ করা হয়েছিল:
- শুধুমাত্র CPT
- CPT এর পরে SFT (CPT-SFT)
- CPT-SFT এর পরে ORPO (CPT-SFT-ORPO)
- CPT-SFT এর পরে DPO (CPT-SFT-DPO)
- কিছু বৈচিত্র সরাসরি Instruct মডেল থেকে শুরু করে (যেমন, Instruct-CPT-SFT-DPO)।
- মডেল মার্জিং: অনেক ফাইন-টিউনড মডেলের জন্য, SLERP মার্জিং সঞ্চালিত হয়েছিল, সাধারণত ডোমেইন-অভিযোজিত মডেলটিকে একই পরিবারের সংশ্লিষ্ট সাধারণ-উদ্দেশ্য ‘instruct’ মডেলের সাথে একত্রিত করে (যেমন, একটি CPT-SFT-DPO Llama মডেল স্ট্যান্ডার্ড Llama 3.1 Instruct মডেলের সাথে মার্জ করা হয়েছে)।
- মূল্যায়ন: সমস্ত ফলস্বরূপ মডেলের (মার্জড এবং নন-মার্জড উভয়) কর্মক্ষমতা ডোমেইন জ্ঞান, যুক্তি এবং নির্দেশ অনুসরণ পরীক্ষা করার জন্য ডিজাইন করা প্রাসঙ্গিক বেঞ্চমার্কগুলির একটি স্যুটে মূল্যায়ন করা হয়েছিল।
Llama এবং Mistral জুড়ে মূল ফলাফল:
- SLERP মার্জিং ধারাবাহিকভাবে কর্মক্ষমতা বৃদ্ধি করে: উভয় মডেল পরিবার এবং বিভিন্ন প্রশিক্ষণ পাইপলাইন জুড়ে, SLERP মার্জিংয়ের মাধ্যমে উন্নত মডেলগুলি সাধারণত মূল্যায়ন বেঞ্চমার্কগুলিতে সর্বোচ্চ নির্ভুলতা অর্জন করে। এটি দৃঢ়ভাবে এই হাইপোথিসিসকে সমর্থন করে যে SLERP মডেল শক্তিগুলিকে একত্রিত করার জন্য একটি কার্যকর কৌশল।
- সমন্বিত প্রভাব নিশ্চিত: SLERP-মার্জড মডেলগুলির কর্মক্ষমতা প্রায়শই দুটি প্যারেন্ট মডেলের কর্মক্ষমতার একটি সাধারণ গড়ের চেয়ে বেশি ছিল। এই প্রত্যাশিত গড়ের বিপরীতে প্রকৃত অর্জিত স্কোর প্লট করা একটি উল্লেখযোগ্য ইতিবাচক বিচ্যুতি প্রকাশ করেছে, যা নিশ্চিত করে যে মার্জিং প্রক্রিয়া প্রায়শই সমন্বিত লাভ এবং উদ্ভূত ক্ষমতা (synergistic gains and emergent capabilities) আনলক করে। মার্জ করা সত্তাটি তার অংশগুলির সমষ্টির চেয়ে স্পষ্টভাবে বেশি সক্ষম ছিল।
- প্রেফারেন্স অপ্টিমাইজেশন মান যোগ করে: প্রেফারেন্স অপ্টিমাইজেশন পর্যায়গুলি (DPO বা ORPO) অন্তর্ভুক্ত করা প্রায়শই একটি অতিরিক্ত কর্মক্ষমতা বৃদ্ধি প্রদান করে, বিশেষ করে যখন SLERP মার্জিংয়ের সাথে মিলিত হয়। CPT-SFT-DPO-SLERP বা CPT-SFT-ORPO-SLERP-এর মতো কৌশলগুলি প্রায়শই শীর্ষ পারফর্মারদের মধ্যে ছিল।
- সর্বোত্তম নন-মার্জড কৌশল পরিবর্তিত হয়: মার্জিং ছাড়া, সেরা-পারফর্মিং কৌশল মডেল পরিবারগুলির মধ্যে কিছুটা ভিন্ন ছিল। Llama 3.1-এর জন্য, Instruct-CPT-SFT-DPO শক্তিশালী ফলাফল দেখিয়েছে, যখন Mistral-এর জন্য, Base-CPT-SFT তার Instruct প্রতিপক্ষের সাথে তুলনামূলকভাবে ভাল পারফর্ম করেছে।
- CPT সময়কালের প্রভাব: Mistral মডেলগুলির উপর আরও বিশ্লেষণ দেখিয়েছে যে কর্মক্ষমতা সাধারণত Continued Pre-Training-এর আরও যুগের সাথে উন্নত হয়েছে (পরীক্ষিত পাঁচটি পর্যন্ত), বিশেষ করে যখন Instruct মডেল থেকে শুরু করা হয়, যা CPT-এর সময় পর্যাপ্ত ডোমেইন এক্সপোজারের মানকে শক্তিশালী করে।
এই ফলাফলগুলি একটি স্পষ্ট চিত্র আঁকে: যদিও ক্রমানুসারে ফাইন-টিউনিং মূল্যবান, SLERP ব্যবহার করে কৌশলগত মডেল মার্জিং LLM কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করার একটি শক্তিশালী পথ সরবরাহ করে, বিশেষ করে বিশেষায়িত ডোমেইনগুলির জন্য, প্রায়শই সাধারণ সমষ্টির বাইরে ক্ষমতা প্রদান করে।
গভীর অনুসন্ধান: মার্জিং কেন কাজ করে?
SLERP মার্জিংয়ের ধারাবাহিক সাফল্য অন্তর্নিহিত মেকানিক্স এবং প্রভাবক কারণগুলির দিকে আরও ঘনিষ্ঠভাবে নজর দিতে উৎসাহিত করে। কেন এই জ্যামিতিক পদ্ধতিটি এত শক্তিশালী ফলাফল দেয় এবং কোন শর্তগুলি এর কার্যকারিতা অপ্টিমাইজ করে?
নন-লিনিয়ার মিথস্ক্রিয়া: যেমন তত্ত্ব করা হয়েছে, প্যারামিটার স্পেসের মাধ্যমে SLERP-এর নন-লিনিয়ার পথটি গুরুত্বপূর্ণ বলে মনে হয়। এটি মার্জ করা মডেলকে প্যারামিটারগুলির সংমিশ্রণগুলি অন্বেষণ করতে দেয় যা লিনিয়ার গড় মিস করবে। এই সংমিশ্রণগুলি শেখা বৈশিষ্ট্যগুলির মধ্যে অভিনব মিথস্ক্রিয়াগুলির প্রতিনিধিত্ব করতে পারে, যা ডোমেইনের জন্য তৈরি উদ্ভূত যুক্তি বা সমস্যা-সমাধান ক্ষমতার দিকে নিয়ে যায়। এমন প্যারামিটারগুলিকে একত্রিত করার কল্পনা করুন যা পৃথকভাবে ‘উপাদানের শক্তি’ এবং ‘জৈবিক কাঠামো’ বোঝার প্রতিনিধিত্ব করে – SLERP এমন একটি সংমিশ্রণ খুঁজে পেতে পারে যা কার্যকরভাবে ‘জৈব-অনুপ্রাণিত উচ্চ-শক্তির উপকরণ’ প্রতিনিধিত্ব করে এমনভাবে যা কোনও প্যারেন্ট মডেল স্পষ্টভাবে করেনি।
বৈচিত্র্যের ভূমিকা: প্যারেন্ট মডেলগুলি কতটা ভিন্ন হওয়া উচিত? বিশ্লেষণ জটিল সম্পর্ক নির্দেশ করেছে। যদিও চরম বৈচিত্র্য উপকারী বলে মনে হতে পারে, কিছু পারস্পরিক সম্পর্ক ইঙ্গিত দেয় যে নির্দিষ্ট প্রসঙ্গে (যেমন Llama মডেল), পিতামাতার মধ্যে উচ্চতর কর্মক্ষমতা বৈচিত্র্য পরবর্তী SFT-এর উপর নির্ভরতা কিছুটা কমাতে পারে, সম্ভবত কারণ মার্জিং ইতিমধ্যে একটি বিস্তৃত সক্ষমতা সেট ক্যাপচার করে। মিথস্ক্রিয়া সূক্ষ্ম এবং সম্ভবত পিতামাতার জন্য ব্যবহৃত নির্দিষ্ট ফাইন-টিউনিং পদ্ধতির উপর নির্ভর করে।
বেস বনাম Instruct স্টার্টিং পয়েন্ট: স্টার্টিং মডেলের পছন্দ গুরুত্বপূর্ণ। Llama পরীক্ষার জন্য, শীর্ষ-পারফর্মিং মার্জড মডেলটি Instruct সংস্করণ থেকে উদ্ভূত হয়েছিল। বিপরীতভাবে, Mistral-এর জন্য, একটি শীর্ষ পারফর্মার CPT, SFT, এবং মার্জিংয়ের মধ্য দিয়ে যাওয়ার আগে বেস মডেল থেকে উদ্ভূত হয়েছিল। এটি পরামর্শ দেয় যে Llama এবং Mistral পরিবারের প্রাথমিক প্রি-ট্রেনিং মেকআপগুলির স্থাপত্যগত পার্থক্য বা বৈচিত্র্যগুলি নির্দিষ্ট ফাইন-টিউনিং এবং মার্জিং পাইপলাইনগুলিতে কীভাবে প্রতিক্রিয়া জানায় তা প্রভাবিত করে। একটি একক সার্বজনীন ‘সেরা’ স্টার্টিং পয়েন্ট নেই; এটির জন্য অভিজ্ঞতামূলক পরীক্ষা প্রয়োজন।
CPT-তে ডেটার গুণমান: Continued Pre-Training-এর সময় স্থাপিত ভিত্তিটি গুরুত্বপূর্ণ। একটি বৃহত্তর কিন্তু ‘নয়েজিয়ার’ CPT ডেটাসেট (যাতে অপটিক্যাল ক্যারেক্টার রিকগনিশন থেকে আরও ফর্ম্যাটিং ত্রুটি বা আর্টিফ্যাক্ট রয়েছে) ব্যবহার করে পরীক্ষাগুলি একটি ছোট, ক্লিনার ডেটাসেট ব্যবহারের তুলনায় কর্মক্ষমতা হ্রাস পেয়েছে। এটি CPT পর্যায়টি কার্যকর হওয়ার জন্য উচ্চ-মানের, ভালভাবে প্রক্রিয়াজাত ডোমেইন-নির্দিষ্ট ডেটার গুরুত্বকে তুলে ধরে। গার্বেজ ইন, গার্বেজ আউট এখনও প্রযোজ্য।
SLERP প্যারামিটার ফাইন-টিউনিং: SLERP-এর নিজস্ব প্যারামিটার রয়েছে, উল্লেখযোগ্যভাবে ইন্টারপোলেশন সহগ (প্রায়শই ‘t’ হিসাবে চিহ্নিত করা হয়, 0 থেকে 1 পর্যন্ত) যা নির্ধারণ করে প্রতিটি প্যারেন্ট মডেলকে কতটা ওজন দেওয়া হয়। তদুপরি, মার্জিং সমস্ত মডেল স্তর জুড়ে অভিন্ন হতে হবে না। পরীক্ষাগুলি স্ব-মনোযোগ স্তর বনাম মাল্টিলেয়ার পারসেপট্রন (MLP) স্তরগুলির জন্য ভিন্নভাবে ইন্টারপোলেশন ফ্যাক্টর পরিবর্তন করা, বা এমনকি মডেলের গভীরতার মাধ্যমে ক্রমান্বয়ে এটি পরিবর্তন করা অন্বেষণ করেছে। ফলাফলগুলি দেখিয়েছে যে নির্দিষ্ট নন-ইউনিফর্ম ওয়েটিং স্কিমগুলি স্ট্যান্ডার্ড ইউনিফর্ম পদ্ধতির চেয়ে ভাল পারফর্ম করতে পারে, যা নেটওয়ার্কের আর্কিটেকচার জুড়ে মার্জ প্রক্রিয়াটিকে সাবধানে তৈরি করে আরও অপ্টিমাইজেশন সম্ভাবনার পরামর্শ দেয়। স্তর জুড়ে ওয়েটের একটি সাধারণ লিনিয়ার অগ্রগতি একটি Llama ক্ষেত্রে কার্যকর প্রমাণিত হয়েছে।
নিয়মিতকরণ প্রভাব: SLERP নিয়মিতকরণের একটি ফর্ম হিসাবেও কাজ করতে পারে। দুটি সম্ভাব্য বিশেষায়িত মডেলের মধ্যে একটি মসৃণ পথ খুঁজে বের করার মাধ্যমে, এটি কোনও প্যারেন্টের প্রশিক্ষণ ডেটার আইডিওসিনক্রাসিগুলিতে ওভারফিটিংকে নিরুৎসাহিত করতে পারে, যা অদেখা ডোমেইন-নির্দিষ্ট সমস্যাগুলিতে আরও ভাল সাধারণীকরণের দিকে নিয়ে যায়। এটি ‘বিপর্যয়কর বিস্মৃতি’ (catastrophic forgetting) প্রশমিত করতেও সাহায্য করতে পারে, যেখানে একটি টাস্কে ফাইন-টিউনিং পূর্ববর্তী টাস্ক থেকে জ্ঞান মুছে ফেলে।
সংক্ষেপে, SLERP-এর কার্যকারিতা LLM প্যারামিটার স্পেসের জটিল জ্যামিতিকে বুদ্ধিমত্তার সাথে নেভিগেট করার ক্ষমতা থেকে উদ্ভূত হয়, যা শেখা জ্ঞান কাঠামো সংরক্ষণ করার সময় উপকারী নন-লিনিয়ার মিথস্ক্রিয়াকে উৎসাহিত করে। যাইহোক, এর ব্যবহার অপ্টিমাইজ করার জন্য প্যারেন্ট মডেল পছন্দ, প্রশিক্ষণের ইতিহাস, ডেটার গুণমান এবং এমনকি মার্জের সূক্ষ্ম বিবরণগুলির যত্নশীল বিবেচনা প্রয়োজন।
আকার কি গুরুত্বপূর্ণ? ছোট মডেলগুলির সাথে স্কেলিং প্রভাব অন্বেষণ
7-বিলিয়ন এবং 8-বিলিয়ন প্যারামিটার মডেলগুলির সাথে পরিলক্ষিত চিত্তাকর্ষক সমন্বিত প্রভাবগুলি একটি স্বাভাবিক প্রশ্ন উত্থাপন করে: SLERP মার্জিং দ্বারা আনলক করা এই উদ্ভূত ক্ষমতাগুলি কি অনেক ছোট ভাষা মডেলগুলিতেও প্রকাশ পায়? নাকি এমন একটি স্কেল থ্রেশহোল্ড আছে যার নীচে জাদু ম্লান হয়ে যায়?
এটি তদন্ত করার জন্য, SmolLM মডেল সিরিজ ব্যবহার করে অনুরূপ পরীক্ষা পরিচালিত হয়েছিল, বিশেষত মাত্র 1.7 বিলিয়ন প্যারামিটার সহ একটি ভেরিয়েন্ট। এই মডেলটি উল্লেখযোগ্যভাবে ছোট, এটি মোবাইল ডিভাইস বা এজ কম্পিউটিংয়ের মতো সম্পদ-সীমাবদ্ধ পরিবেশের জন্য উপযুক্ত করে তোলে, তবে সম্ভাব্যভাবে এর বৃহত্তর কাজিনদের প্যারামিটার সমৃদ্ধির অভাব রয়েছে।
SmolLM মডেলগুলি একই পাইপলাইনের মধ্য দিয়ে গেছে: উপকরণ বিজ্ঞান কর্পাস সহ CPT, তারপরে SFT এবং DPO (যা এই ছোট আর্কিটেকচারের জন্য ORPO-এর চেয়ে বেশি কার্যকর প্রমাণিত হয়েছে)। তারপরে SLERP মার্জিং প্রয়োগ করা হয়েছিল, ফাইন-টিউনড SmolLM-কে তার বেস সংস্করণ বা অন্যান্য ভেরিয়েন্টের সাথে একত্রিত করে।
SmolLM এর সাথে ফলাফল:
- ফাইন-টিউনিং এখনও সাহায্য করে: CPT-SFT-DPO পাইপলাইন SmolLM মডেলের কর্মক্ষমতা তার মূল অবস্থার তুলনায় ডোমেইন টাস্কগুলিতে উন্নত করেছে। ফাইন-টিউনিং প্রক্রিয়াটি নিজেই উপকারী ছিল, এর বিশেষায়িত জ্ঞান বৃদ্ধি করে।
- উদ্ভব মূলত অনুপস্থিত: যাইহোক, Llama এবং Mistral পরীক্ষার বিপরীতে, SLERP-মার্জড SmolLM মডেলগুলি সাধারণত উল্লেখযোগ্য সমন্বিত প্রভাব প্রদর্শন করেনি। তাদের কর্মক্ষমতা সাধারণত প্যারেন্ট মডেলগুলির একটি সাধারণ গড়ের কাছাকাছি বা সামান্য উপরে অবতরণ করে। 7B/8B মডেলগুলিতে দেখা নাটকীয় কর্মক্ষমতা উল্লম্ফন এবং উদ্ভূত ক্ষমতাগুলির স্পষ্ট লক্ষণগুলি অনুপস্থিত ছিল।
নিহিতার্থ:
এই বৈসাদৃশ্যটি পরামর্শ দেয় যে মডেল স্কেল সম্ভবত একটি মূল কারণ উদ্ভূত বৈশিষ্ট্য তৈরি করার জন্য SLERP মার্জিংয়ের সম্পূর্ণ সম্ভাবনা উপলব্ধি করার ক্ষেত্রে। ছোট মডেলগুলি, তাদের কম জটিল এবং নিম্ন-মাত্রিক প্যারামিটার স্পেস সহ, মার্জিংয়ের সময় এই শক্তিশালী নন-লিনিয়ার মিথস্ক্রিয়াগুলি ঘটার জন্য প্রয়োজনীয় প্রতিনিধিত্বমূলক ক্ষমতা বা সমৃদ্ধির অভাব থাকতে পারে। অভিনব, উপকারী প্যারামিটার সংমিশ্রণ আবিষ্কার করার ‘স্থান’ বৃহত্তর মডেলগুলির তুলনায় উল্লেখযোগ্যভাবে সীমাবদ্ধ বলে মনে হয়।
এই ফলাফলগুলি ডিপ লার্নিংয়ে স্কেলিং আইন (scaling laws) সম্পর্কে বৃহত্তর পর্যবেক্ষণের সাথে সামঞ্জস্যপূর্ণ, যেখানে নির্দিষ্ট গুণগত ক্ষমতাগুলি প্রায়শই কেবল তখনই আবির্ভূত হয় যখন মডেলগুলি একটি নির্দিষ্ট আকারের থ্রেশহোল্ডে পৌঁছায়। মনে হচ্ছে SLERP মার্জিংয়ের সমন্বিত শক্তি এমন একটি ক্ষমতা হতে পারে যা পর্যাপ্ত মডেল স্কেল এবং জটিলতার উপর সমালোচনামূলকভাবে নির্ভর করে।
লাভ পরিমাপ করা: মার্জিং থেকে পারফরম্যান্স লিফটের দিকে একটি ঘনিষ্ঠ দৃষ্টি
যদিও বেঞ্চমার্কগুলি দেখায় যে মার্জড মডেলগুলি প্রায়শই সামগ্রিকভাবে সেরা পারফর্ম করে, তবে তারা তাদের পিতামাতার তুলনায় ঠিক কতটা ভাল তা পরিমাপ করা দরকারী। নির্দিষ্টভাবে, মার্জড মডেল কি ধারাবাহিকভাবে এটি তৈরি করতে ব্যবহৃত দুটি মডেলের শক্তিশালী মডেলটিকেও ছাড়িয়ে যায়?
এটি বিশ্লেষণ করার জন্য, প্রতিটি SLERP-মার্জড মডেলের জন্য কর্মক্ষমতা বিচ্যুতি গণনা করা হয়েছিল। এই বিচ্যুতিটি সংজ্ঞায়িত করা হয়েছিল:
পারফরম্যান্স বিচ্যুতি = পারফরম্যান্স(মার্জড মডেল) - সর্বোচ্চ(পারফরম্যান্স(প্যারেন্ট 1), পারফরম্যান্স(প্যারেন্ট 2))
- একটি ইতিবাচক বিচ্যুতি (নীল রঙের শেডে ভিজ্যুয়ালাইজ করা) মানে SLERP মডেলটি তার পিতামাতার সেরাটির চেয়ে ভাল পারফর্ম করেছে – সমন্বয়ের স্পষ্ট প্রমাণ।
- একটি নেতিবাচক বিচ্যুতি (লাল রঙে ভিজ্যুয়ালাইজ করা) মানে SLERP মডেলটি তার পিতামাতার অন্তত একটির চেয়ে খারাপ পারফর্ম করেছে, যা নির্দেশ করে যে মার্জটি ক্ষতিকর ছিল বা সর্বোত্তমভাবে, গড় ছিল।
বিশ্লেষণ প্রকাশ করেছে:
Llama 3.1 (8B) এবং Mistral (7B) মডেল জড়িত বেশিরভাগ পরীক্ষা জুড়ে, কর্মক্ষমতা বিচ্যুতিগুলি প্রধানত ইতিবাচক ছিল। অনেক ক্ষেত্রে, বিশেষ করে ভালভাবে অপ্টিমাইজ করা পাইপলাইনগুলির জন্য (যেমন, যেগুলি CPT, SFT, প্রেফারেন্স অপ্টিমাইজেশন এবং SLERP জড়িত), মার্জড মডেলগুলি যথেষ্ট ইতিবাচক বিচ্যুতি দেখিয়েছে, যা নির্দেশ করে যে তারা এমনকি তাদের শক্তিশালী পিতামাতার ক্ষমতাগুলিকেও উল্লেখযোগ্যভাবে ছাড়িয়ে গেছে।
এমন কিছু উদাহরণ ছিল, বিশেষ করে কম অপ্টিমাইজ করা প্যারেন্ট মডেল বা সম্ভবত সাবঅপ্টিমাল মার্জিং প্যারামিটারগুলির সাথে, যেখানে বিচ্যুতি সামান্য নেতিবাচক বা শূন্যের কাছাকাছি ছিল। যাইহোক, সামগ্রিক প্রবণতা স্পষ্ট ছিল: কৌশলগত SLERP মার্জিং প্রায়শই একটি প্রকৃত কর্মক্ষমতা লিফট সরবরাহ করে যা কোনও প্যারেন্ট মডেল একাই অর্জন করতে পারে তার বাইরে। এটি এই ধারণাকে শক্তিশালী করে যে মার্জিং কেবল গড় করা নয়, বরং উচ্চতর ক্ষমতা সংশ্লেষণ করতে সক্ষম একটি প্রক্রিয়া। SmolLM (1.7B) ফলাফলগুলি, বিপরীতে, অনেক ছোট বা নেতিবাচক বিচ্যুতি দেখাবে, যা সেই স্কেলে শক্তিশালী উদ্ভূত প্রভাবের অভাবের সাথে সামঞ্জস্যপূর্ণ।
বেঞ্চমার্ক থেকে ব্রেইনস্টর্মিং পর্যন্ত: উপাদান নকশায় ইন্টারেক্টিভ অ্যাপ্লিকেশন
পরিমাণগত বেঞ্চমার্কের বাইরে, এই ডোমেইন-অভিযোজিত মডেলগুলির আসল মান তাদের বাস্তব-বিশ্বের কাজগুলিতে সহায়তা করার ক্ষমতার মধ্যে নিহিত, যেমন বৈজ্ঞানিক যুক্তি এবং সৃজনশীল নকশা। এই গুণগত দিকটি মূল্যায়ন করার জন্য, শীর্ষ-পারফর্মিং মডেলগুলির বেশ কয়েকটির সাথে ইন্টারেক্টিভ চ্যাট সেশন পরিচালিত হয়েছিল (মার্জড এবং নন-মার্জড উভয় ভেরিয়েন্ট সহ)।
সেটআপটিতে একটি সামঞ্জস্যপূর্ণ সিস্টেম প্রম্পট সরবরাহ করা জড়িত ছিল যা মডেলটিকে উপকরণ বিজ্ঞানের বিশেষজ্ঞ হিসাবে কাজ করার নির্দেশ দেয়, তারপরে সৃজনশীল, ক্রস-ডোমেইন যুক্তি পরীক্ষা করার জন্য ডিজাইন করা একটি ব্যবহারকারী প্রম্পট। একটি সাধারণ কাজের মধ্যে মডেলকে জিজ্ঞাসা করা জড়িত ছিল:
- দুটি আপাতদৃষ্টিতে ভিন্ন জৈবিক ধারণা বিবেচনা করুন (যেমন, কোলাজেনের গঠন এবং পাতার শিরাবিন্যাস)।
- উভয় ধারণা থেকে নীতিগুলি একত্রিত করে অনুপ্রাণিত অভিনব উপাদান নকশা ব্রেইনস্টর্ম করুন।
- প্রস্তাবিত নকশার পিছনে যুক্তি ব্যাখ্যা করুন।
- সম্ভাব্য ডাউনস্ট্রিম প্রক্রিয়াকরণের জন্য একটি কাঠামোগত বিন্যাসে (যেমন JSON) পরামর্শগুলি আউটপুট করুন।
গুণগত পর্যবেক্ষণ:
- শক্তিশালী ডোমেইন বোঝাপড়া: সমস্ত ফাইন-টিউনড মডেল অন্তর্নিহিত জৈবিক এবং উপকরণ বিজ্ঞান ধারণাগুলির একটি দৃঢ় উপলব্ধি প্রদর্শন করেছে, উপযুক্ত পরিভাষা ব্যবহার করে এবং প্রাসঙ্গিক নীতিগুলি উল্লেখ করে। CPT এবং SFT পর্যায়গুলি স্পষ্টভাবে উল্লেখযোগ্য ডোমেইন জ্ঞান প্রদান করেছে।
- সৃজনশীল সংশ্লেষণ: মডেলগুলি সাধারণত ভিন্ন ভিন্ন ইনপুটগুলির (যেমন কোলাজেন এবং পাতা) মধ্যে ধারণাগত ব্যবধান পূরণ করতে সক্ষম হয়েছিল যাতে উদ্ভাবনী উপাদান আর্কিটেকচার বা কার্যকারিতা প্রস্তাব করা যায়। এটি বিশেষায়িত ডোমেইনের মধ্যে উপমাগত যুক্তি সম্পাদন করার তাদের ক্ষমতা প্রদর্শন করেছে।
- কাঠামোগত আউটপুট: মডেলগুলি সফলভাবে কাঠামোগত আউটপুট (JSON) অনুরোধকারী নির্দেশাবলী মেনে চলে, যা ভাল নির্দেশ-অনুসরণ ক্ষমতা নির্দেশ করে, বিশেষ করে তাদের জন্য যারা SFT এবং প্রেফারেন্স অপ্টিমাইজেশন দিয়ে পরিমার্জিত হয়েছে বা Instruct বেস থেকে উদ্ভূত হয়েছে।
- বিভিন্ন গভীরতা এবং স্পষ্টতা: যদিও সকলেই মূল কাজটি সম্পাদন করেছে, প্রদত্ত যুক্তির গভীরতা, প্রস্তাবিত নকশার নতুনত্ব এবং বাস্তবতা এবং ব্যাখ্যার সামগ্রিক স্পষ্টতা এবং সুসংগততায় পার্থক্য দেখা গেছে। যে মডেলগুলি আরও ব্যাপক প্রশিক্ষণ পাইপলাইনের মধ্য দিয়ে গেছে, বিশেষ করে যেগুলি প্রেফারেন্স অপ্টিমাইজেশন এবং SLERP মার্জিং অন্তর্ভুক্ত করেছে, তারা প্রায়শই সমৃদ্ধ, আরও অন্তর্দৃষ্টিপূর্ণ এবং আরও সৃজনশীল প্রতিক্রিয়া প্রদান করেছে।
- মার্জিংয়ের প্রভাব: মার্জড মডেলগুলি প্রায়শই ডোমেইন-নির্দিষ্ট নির্ভুলতা এবং কথোপকথন সাবলীলতা/সৃজনশীলতার মধ্যে একটি ভাল ভারসাম্য প্রদর্শন করে, যা দৃশ্যত ডোমেইন-টিউনড প্যারেন্টের জ্ঞানকে সাধারণ-উদ্দেশ্য instruct প্যারেন্টের মিথস্ক্রিয়া দক্ষতার সাথে একীভূত করে।
এই ইন্টারেক্টিভ সেশনগুলি মূল্যবান গুণগত প্রমাণ সরবরাহ করেছে যে ফাইন-টিউনিং এবং মার্জিং কৌশলগুলি ডোমেইন-নির্দিষ্ট যুক্তি এবং সৃজনশীলতার প্রয়োজন এমন ব্যবহারিক, ওপেন-এন্ডেড কাজগুলিতে বাস্তব উন্নতিতে অনুবাদ করে। তারা উপকরণ বিজ্ঞানের মতো ক্ষেত্রগুলিতে বৈজ্ঞানিক অন্বেষণ এবং নকশা ধারণায় মূল্যবান সহযোগী হিসাবে কাজ করার জন্য এই তৈরি LLM-গুলির সম্ভাবনা প্রদর্শন করেছে।