NVIDIA'র FFN Fusion: LLM কর্মদক্ষতা বৃদ্ধি | bn

আধুনিক AI-এর গণনামূলক চ্যালেঞ্জ

বৃহৎ ভাষা মডেল (LLMs) সমসাময়িক কৃত্রিম বুদ্ধিমত্তার স্তম্ভ হিসাবে দাঁড়িয়ে আছে, যা উল্লেখযোগ্য ক্ষমতা প্রদর্শন করে শিল্প এবং বৈজ্ঞানিক আবিষ্কারকে নতুন আকার দিচ্ছে। মানুষের মতো টেক্সট তৈরি করা, অত্যাধুনিক কথোপকথন এজেন্টকে শক্তি দেওয়া এবং এমনকি জটিল গবেষণা কাজে সহায়তা করার ক্ষেত্রে তাদের দক্ষতা তাদের অপরিহার্য সরঞ্জাম করে তুলেছে। এই শক্তিশালী মডেলগুলির কেন্দ্রে রয়েছে ট্রান্সফরমার আর্কিটেকচার, একটি ডিজাইন যা এর পর্যায়ক্রমিক স্তর দ্বারা চিহ্নিত করা হয়। ইনপুট ডেটা, টোকেনগুলিতে বিভক্ত, মনোযোগ প্রক্রিয়ার (attention mechanisms) একটি ক্রমধারার মধ্য দিয়ে প্রবাহিত হয়, যা বিভিন্ন টোকেনের গুরুত্ব পরিমাপ করে, তারপরে ফিড-ফরোয়ার্ড নেটওয়ার্ক (FFNs), যা প্রাপ্ত তথ্য প্রক্রিয়া করে। এই স্তরযুক্ত, অনুক্রমিক প্রক্রিয়াকরণ ট্রান্সফরমার কীভাবে শেখে এবং আউটপুট তৈরি করে তার জন্য মৌলিক।

তবে, এই আর্কিটেকচারটি কার্যকর হলেও, মডেলগুলির আকার এবং জটিলতা বৃদ্ধির সাথে সাথে একটি ক্রমবর্ধমান চ্যালেঞ্জ উপস্থাপন করে। অনুক্রমিক প্রকৃতির অর্থ হল প্রতিটি স্তরকে সাধারণত তার গণনা শুরু করার আগে পূর্ববর্তী স্তরের গণনা শেষ হওয়ার জন্য অপেক্ষা করতে হয়। এই ধাপে ধাপে প্রক্রিয়াকরণ একটি অন্তর্নিহিত বাধা তৈরি করে, বিশেষ করে ইনফারেন্স পর্বের সময় – যে পর্যায়ে একটি প্রশিক্ষিত মডেল আসলে ভবিষ্যদ্বাণী বা টেক্সট তৈরি করতে ব্যবহৃত হয়। যেমন উন্নত AI সহকারীদের শক্তি যোগানো মডেলগুলি শত শত বিলিয়ন, এমনকি ট্রিলিয়ন প্যারামিটার অন্তর্ভুক্ত করে, ইনফারেন্সের জন্য প্রয়োজনীয় গণনামূলক সংস্থান এবং সময় নাটকীয়ভাবে বৃদ্ধি পায়। এই ক্রমবর্ধমান চাহিদা উল্লেখযোগ্য ল্যাটেন্সি (প্রতিক্রিয়ায় বিলম্ব), হ্রাসকৃত থ্রুপুট (সময়ের সাথে সাথে পরিচালিত অনুরোধের সংখ্যা) এবং ক্রমবর্ধমান পরিচালন ব্যয়ে রূপান্তরিত হয়, যা সবচেয়ে শক্তিশালী LLM-গুলির ব্যাপক স্থাপনা এবং রিয়েল-টাইম অ্যাপ্লিকেশনকে বাধাগ্রস্ত করে। ফলস্বরূপ, ইনফারেন্স দক্ষতা বৃদ্ধি করা AI গবেষণা সম্প্রদায়ের মধ্যে একটি প্রধান উদ্বেগের বিষয় হয়ে উঠেছে, যা উদ্ভাবনী কৌশলগুলির অনুসন্ধানে উদ্বুদ্ধ করেছে যা এই মডেলগুলির দেওয়া অসাধারণ কর্মক্ষমতার সাথে আপস না করে গণনাকে সহজতর করতে পারে। মূল চ্যালেঞ্জটি হল অনুক্রমিক সম্পাদনের দ্বারা আরোপিত সীমাবদ্ধতাগুলি প্রশমিত করা, বিশেষ করে বিতরণ করা পরিবেশে যেখানে গণনা একাধিক GPU জুড়ে বিস্তৃত হয়, প্রক্রিয়াকরণের সময়ে যোগাযোগের ওভারহেড যোগ করে।

অপ্টিমাইজেশন কৌশল: বর্তমান টুল ও সীমাবদ্ধতা

LLM-কে আরও হালকা এবং দ্রুত করার চলমান প্রচেষ্টায়, গবেষকরা অপ্টিমাইজেশন কৌশলগুলির একটি টুলকিট তৈরি করেছেন। প্রতিটিই দক্ষতার দিকে একটি পথ দেখায়, কিন্তু প্রায়শই তার নিজস্ব সীমাবদ্ধতা নিয়ে আসে, যা কোনও একক পদ্ধতিকে সার্বজনীন সমাধান হতে বাধা দেয়। FFN Fusion-এর মতো নতুন পদ্ধতির প্রয়োজনীয়তা উপলব্ধি করার জন্য এই সীমাবদ্ধতাগুলি বোঝা অত্যন্ত গুরুত্বপূর্ণ।

একটি বিশিষ্ট কৌশল হল quantization। এতে মডেলের ওজন (weights) এবং অ্যাক্টিভেশন (activations) উপস্থাপনের জন্য ব্যবহৃত সংখ্যাসূচক নির্ভুলতা হ্রাস করা জড়িত। স্ট্যান্ডার্ড 32-বিট ফ্লোটিং-পয়েন্ট সংখ্যার পরিবর্তে, মডেলগুলি 16-বিট, 8-বিট বা এমনকি নিম্ন-বিট উপস্থাপনা ব্যবহার করতে পারে। এটি সরাসরি মডেলের মেমরি ফুটপ্রিন্ট হ্রাস করে এবং গণনাকে উল্লেখযোগ্যভাবে ত্বরান্বিত করতে পারে, কারণ নিম্ন-নির্ভুল সংখ্যার উপর অপারেশনগুলি সাধারণত দ্রুত হয় এবং কম শক্তির প্রয়োজন হয়। তবে, quantization ঝুঁকি ছাড়া হয় না। নির্ভুলতা হ্রাস তথ্যের ক্ষতি হতে পারে, যা সম্ভাব্যভাবে মডেলের নির্ভুলতা হ্রাস করতে পারে। খুব কম বিট-প্রস্থে এই ঝুঁকি আরও প্রকট হয়ে ওঠে, যার জন্য নির্ভুলতা হ্রাস প্রশমিত করার জন্য সতর্ক বাস্তবায়ন এবং কখনও কখনও পুনরায় প্রশিক্ষণের প্রয়োজন হয়। চ্যালেঞ্জটি হল এমন একটি সঠিক ভারসাম্য খুঁজে বের করা যা কর্মক্ষমতা হ্রাসকে গ্রহণযোগ্য সীমার মধ্যে রেখে দক্ষতার লাভকে সর্বাধিক করে।

আরেকটি সাধারণ কৌশল হল pruning। এই কৌশলটি এই নীতির উপর কাজ করে যে একটি বৃহৎ নিউরাল নেটওয়ার্কের মধ্যে অনেক প্যারামিটার অপ্রয়োজনীয় হতে পারে বা চূড়ান্ত আউটপুটে ন্যূনতম অবদান রাখতে পারে। Pruning অ্যালগরিদমগুলি এই কম গুরুত্বপূর্ণ সংযোগ বা নিউরনগুলি সনাক্ত করে এবং অপসারণ করে, যার ফলে একটি ছোট, স্পারস (sparser) মডেল তৈরি হয়। Quantization-এর মতো, pruning মেমরির প্রয়োজনীয়তা এবং গণনামূলক লোড হ্রাস করে। যাইহোক, ঠিক কোন প্যারামিটারগুলি অপসারণ করা ‘নিরাপদ’ তা সনাক্ত করা জটিল। আগ্রাসী pruning অসাবধানতাবশত গুরুত্বপূর্ণ উপাদানগুলি অপসারণ করতে পারে, যার ফলে যথেষ্ট নির্ভুলতা হ্রাস পায়। কর্মক্ষমতা পুনরুদ্ধারের জন্য pruning-এর পরে মডেলটিকে ফাইন-টিউনিং করা প্রায়শই প্রয়োজনীয়, যা ওয়ার্কফ্লোতে জটিলতা যোগ করে। ছাঁটাই করা মডেলটি কার্যকর থাকে তা নিশ্চিত করার জন্য সতর্ক ক্যালিব্রেশন অপরিহার্য।

একটি আরও স্থাপত্যগতভাবে স্বতন্ত্র পদ্ধতি হল Mixture-of-Experts (MoE) মডেল। প্রতিটি ইনপুটকে পুরো নেটওয়ার্কের মাধ্যমে প্রক্রিয়া করার পরিবর্তে, MoE মডেলগুলিতে একাধিক ‘বিশেষজ্ঞ’ সাব-নেটওয়ার্ক (সাধারণত FFNs) থাকে। প্রতিটি ইনপুট টোকেনের জন্য, একটি গেটিং মেকানিজম গতিশীলভাবে এই বিশেষজ্ঞদের একটি ছোট উপসেট নির্বাচন করে গণনা সম্পাদন করার জন্য। এই শর্তসাপেক্ষ গণনার অর্থ হল যে কোনও প্রদত্ত ইনপুটের জন্য মডেলের মোট প্যারামিটারের কেবল একটি ভগ্নাংশ সক্রিয় হয়, যা বিশেষ করে খুব বড় মডেলগুলিতে প্রশিক্ষণ এবং ইনফারেন্সের সময় উল্লেখযোগ্য গণনামূলক সাশ্রয় ঘটায়। MoE মডেলগুলি যুক্তিসঙ্গত গণনামূলক খরচ বজায় রেখে ট্রিলিয়ন প্যারামিটারে স্কেল করতে পারে। যাইহোক, তাদের দক্ষতা কাজের চাপের উপর অত্যন্ত নির্ভরশীল। তারা খুব বড় ব্যাচ আকারের ব্যবস্থাপনায় পারদর্শী যেখানে নির্বাচনী অ্যাক্টিভেশন প্যাটার্ন ভাল হার্ডওয়্যার ব্যবহারের দিকে পরিচালিত করে। ছোট বা মাঝারি ব্যাচ আকারে, MoE মডেলগুলি গণনামূলক সংস্থানগুলির কম ব্যবহারের শিকার হতে পারে, কারণ সমান্তরাল হার্ডওয়্যার স্পারসলি সক্রিয় বিশেষজ্ঞদের দ্বারা ধারাবাহিকভাবে ব্যস্ত নাও থাকতে পারে। উপরন্তু, MoE মডেলগুলি বাস্তবায়ন এবং লোড-ব্যালেন্সিং করা স্ট্যান্ডার্ড ‘ডেন্স’ (dense) আর্কিটেকচার স্থাপন করার চেয়ে বেশি জটিল হতে পারে।

যদিও quantization, pruning, এবং MoE মডেলগুলি LLM অপ্টিমাইজেশনে মূল্যবান অগ্রগতি উপস্থাপন করে, তাদের অন্তর্নিহিত সীমাবদ্ধতাগুলি বিকল্প বা পরিপূরক কৌশলগুলির প্রয়োজনীয়তা তুলে ধরে। বিভিন্ন পরিস্থিতিতে ব্যাপক দক্ষতার উন্নতি সরবরাহ করতে পারে এমন পদ্ধতিগুলির জন্য অনুসন্ধান অব্যাহত রয়েছে, আদর্শভাবে নির্ভুলতা বা বাস্তবায়ন জটিলতার সাথে কম আপস করে, বিশেষ করে ডেন্স মডেল আর্কিটেকচারগুলির জন্য যা প্রশিক্ষণ এবং স্থাপনার আপেক্ষিক সরলতার কারণে জনপ্রিয় রয়েছে।

FFN Fusion: সমান্তরাল প্রক্রিয়াকরণের নতুন ভাবনা

অপ্টিমাইজেশন কৌশলগুলির এই প্রেক্ষাপটে, NVIDIA-র গবেষকরা FFN Fusion নামে একটি আকর্ষণীয় নতুন পদ্ধতির প্রবর্তন করেছেন। এই কৌশলটি ট্রান্সফরমার আর্কিটেকচারের অন্তর্নিহিত অনুক্রমিক প্রতিবন্ধকতাকে সরাসরি মোকাবেলা করে, প্যারামিটার পরিবর্তন করে বা অংশগুলি বেছে বেছে সক্রিয় করে নয়, বরং গণনার ক্রমগুলি কীভাবে সমান্তরাল করা যায় তা মৌলিকভাবে পুনর্বিবেচনা করে। উদ্ভাবনটি গভীর ট্রান্সফরমার মডেলগুলির মধ্যে FFN স্তরগুলির আচরণ সম্পর্কে একটি গুরুত্বপূর্ণ পর্যবেক্ষণ থেকে উদ্ভূত হয়েছে।

Puzzle নামে একটি ডায়াগনস্টিক টুল ব্যবহার করে, গবেষকরা বড় মডেলগুলির অভ্যন্তরীণ কার্যকারিতা বিশ্লেষণ করেছেন। যখন তারা পরীক্ষামূলকভাবে মনোযোগ স্তরগুলি (attention layers) সরিয়ে ফেলেছিল, তখন তারা লক্ষ্য করেছিল যে মডেলগুলি প্রায়শই পরপর FFN স্তরগুলির আশ্চর্যজনকভাবে দীর্ঘ ক্রম ধরে রাখে। আরও গুরুত্বপূর্ণভাবে, বিশ্লেষণে দেখা গেছে যে এই সংলগ্ন FFN গুলি দ্বারা সম্পাদিত গণনাগুলি প্রায়শই ন্যূনতম আন্তঃনির্ভরতা প্রদর্শন করে। সংক্ষেপে, ক্রমের একটি FFN-এর আউটপুট প্রায়শই পরবর্তী FFN-এর প্রয়োজনীয় দিকনির্দেশক পথ বা মূল তথ্যকে মারাত্মকভাবে পরিবর্তন করে না। এটি পরামর্শ দিয়েছে যে এই FFN গুলি, যা ঐতিহ্যগতভাবে একের পর এক কার্যকর করা হয়, মডেলের সামগ্রিক কার্যকারিতাকে উল্লেখযোগ্যভাবে ব্যাহত না করে একযোগে, সমান্তরাল সম্পাদনের সম্ভাবনা থাকতে পারে।

এই অন্তর্দৃষ্টি FFN Fusion-এর ভিত্তি তৈরি করেছে। মূল ধারণাটি মার্জিতভাবে সহজ কিন্তু শক্তিশালী: কম গণনামূলক নির্ভরতা সহ পরপর FFN স্তরগুলির ক্রমগুলি সনাক্ত করুন এবং সেগুলিকে একটি একক, প্রশস্ত FFN স্তরে একীভূত করুন যা সমান্তরালভাবে সমতুল্য গণনা সম্পাদন করে। Input -> FFN1 -> FFN2 -> FFN3 -> Output-এর মতো একটি শৃঙ্খলের পরিবর্তে, একীভূত কাঠামোটি হয়ে যায় Input -> Fused_FFN (সমান্তরালভাবে FFN1+FFN2+FFN3 এর সমতুল্য) -> Output। এই স্থাপত্য রূপান্তর কার্যকরভাবে নেটওয়ার্কের অনুক্রমিক গভীরতা হ্রাস করে, একাধিক ধাপকে একটি একক, বিস্তৃত গণনামূলক ধাপ দিয়ে প্রতিস্থাপন করে। এই কম-নির্ভরতা FFN ক্রমগুলিকে লক্ষ্য করে, FFN Fusion মডেলের প্রতিনিধিত্বমূলক শক্তি এবং নির্ভুলতা সংরক্ষণ করার সময় ল্যাটেন্সি এবং গণনামূলক খরচ কমানোর লক্ষ্য রাখে। Llama-3.1-405B-Instruct থেকে Ultra-253B-Base-এর বিকাশ এই কৌশলের সম্ভাবনার একটি প্রধান প্রদর্শন হিসাবে কাজ করেছে।

স্থাপত্যের রসায়ন: FFN Fusion যেভাবে কাজ করে

FFN Fusion-এর পেছনের জাদুটি ফিড-ফরোয়ার্ড নেটওয়ার্কগুলির অন্তর্নিহিত গাণিতিক কাঠামোর চতুর কারসাজির মধ্যে নিহিত। এটি কেবল বিদ্যমান স্তরগুলিকে পাশাপাশি চালানো নয়; এটি একটি নতুন, একীভূত স্তর তৈরি করা জড়িত যা মূল ক্রমের সম্মিলিত আচরণকে প্রতিলিপি করে কিন্তু তা একযোগে করে।

k সংখ্যক পরপর FFN স্তরের একটি ক্রম বিবেচনা করুন। একটি স্ট্যান্ডার্ড ট্রান্সফরমারে, ইনপুট x FFN1-এর মধ্য দিয়ে যায়, এর আউটপুট FFN2-এর জন্য ইনপুট হয়ে যায়, এবং এভাবে চলতে থাকে FFNk পর্যন্ত। প্রতিটি ধাপ স্পষ্টভাবে পূর্ববর্তীটির সমাপ্তির উপর নির্ভর করে। FFN Fusion এই নির্ভরতা শৃঙ্খল ভেঙে দেয়। গাণিতিকভাবে, একটি FFN সাধারণত দুটি রৈখিক রূপান্তর (linear transformations) এবং এর মধ্যে একটি অ-রৈখিক অ্যাক্টিভেশন ফাংশন (যেমন GeLU বা SwiGLU) জড়িত: FFN(x) = W_out * Activation(W_in * x)। FFN Fusion এই সত্যকে কাজে লাগায় যে রৈখিক রূপান্তরগুলি প্রায়শই একত্রিত করা যায়।

ফিউশন প্রক্রিয়াটি পৃথক FFN স্তরগুলির ওজনগুলিকে সংযুক্ত করে (concatenating the weights) কাজ করে। নির্দিষ্টভাবে, পরপর FFN-গুলির ইনপুট ওয়েট ম্যাট্রিক্স (W_in) একত্রিত করা হয় (যেমন, ব্লক-ডায়াগোনালি) ফিউজড লেয়ারের জন্য একটি একক, বৃহত্তর ইনপুট ওয়েট ম্যাট্রিক্সে। একইভাবে, আউটপুট ওয়েট ম্যাট্রিক্স (W_out) সংযুক্ত করে একটি একক, প্রশস্ত আউটপুট ওয়েট ম্যাট্রিক্স গঠন করা হয়। অ্যাক্টিভেশন ফাংশন এই বৃহত্তর কাঠামোর মধ্যে উপাদান-ভিত্তিক (element-wise) প্রয়োগ করা হয়। এই নির্মাণ নিশ্চিত করে যে ফিউজড FFN মূল ইনপুট x-এর উপর একযোগে কাজ করে মূল FFN-গুলির সাথে সঙ্গতিপূর্ণ সমান্তরাল পথ জুড়ে। এই সমান্তরাল পথগুলি থেকে আউটপুটগুলি তখন সংযুক্ত আউটপুট ওজনগুলির কাঠামো দ্বারা অন্তর্নিহিতভাবে একত্রিত হয়।

তাত্ত্বিক ভিত্তি নিশ্চিত করে যে এই ফিউজড কাঠামোটি মূল FFN গুলির ক্রমের মতো একই প্রতিনিধিত্বমূলক ক্ষমতা বজায় রাখতে পারে, যদি মূল স্তরগুলির মধ্যে নির্ভরতা সত্যিই কম থাকে। মূল বিষয় হল কোন ক্রমগুলি ফিউশনের জন্য উপযুক্ত তা সনাক্ত করা। এটি পদ্ধতিগতভাবে করার জন্য, NVIDIA গবেষকরা একটি নির্ভরতা বিশ্লেষণ (dependency analysis) কৌশল ব্যবহার করেছেন। তারা একটি প্রতিনিধিত্বমূলক ইনপুট টোকেন সেটের জন্য পরপর FFN স্তরগুলির আউটপুট হিডেন স্টেটগুলির মধ্যে cosine distance পরিমাপ করেছে। একটি ছোট cosine distance নির্দেশ করে যে একটি FFN-এর আউটপুট ভেক্টর ক্রমের পরবর্তী FFN-এর আউটপুট ভেক্টরের সাথে খুব অনুরূপ দিকে নির্দেশ করে। এই সাদৃশ্য কম কার্যকরী নির্ভরতার পরামর্শ দেয় – দ্বিতীয় FFN প্রথমটির দ্বারা প্রতিষ্ঠিত তথ্য উপস্থাপনাকে মারাত্মকভাবে পরিবর্তন করছে না। স্তর জুড়ে ধারাবাহিকভাবে কম cosine distance প্রদর্শনকারী FFN-গুলির ক্রমগুলি ফিউশনের জন্য প্রধান প্রার্থী হিসাবে চিহ্নিত করা হয়েছিল, কারণ সেগুলিকে একীভূত করা মডেলের শেখা উপস্থাপনা এবং সামগ্রিক কর্মক্ষমতা ব্যাহত করার সম্ভাবনা কম ছিল। এই ডেটা-চালিত পদ্ধতিটি মডেলের সেই অংশগুলিতে FFN Fusion-এর লক্ষ্যযুক্ত প্রয়োগের অনুমতি দেয় যেখানে এটি সবচেয়ে কার্যকর এবং সর্বনিম্ন বিঘ্নকারী হবে।

বিশাল থেকে দ্রুতগামী: Ultra-253B-Base রূপান্তর

FFN Fusion-এর ব্যবহারিক শক্তি সেই সময়ে পরিচিত বৃহত্তম পাবলিক মডেলগুলির মধ্যে একটি, Llama-3.1-405B-Instruct-এ এর প্রয়োগের মাধ্যমে স্পষ্টভাবে প্রদর্শিত হয়েছিল। এই মডেলটি, 405 বিলিয়ন প্যারামিটার নিয়ে গর্ব করে, ইনফারেন্সের জন্য একটি উল্লেখযোগ্য গণনামূলক উদ্যোগের প্রতিনিধিত্ব করে। গবেষকরা স্থাপত্য পরিমার্জনের একটি প্রক্রিয়ায় যাত্রা শুরু করেন, কৌশলগত pruning-এর সাথে FFN Fusion-কে একত্রিত করে, Ultra-253B-Base নামে একটি নতুন, আরও দক্ষ মডেল তৈরি করেন।

রূপান্তর প্রক্রিয়ায় বেশ কয়েকটি ধাপ জড়িত ছিল:

বিশ্লেষণ: তাদের নির্ভরতা বিশ্লেষণ সরঞ্জামগুলি (cosine distance পরিমাপ করে) ব্যবহার করে, গবেষকরা Llama-405B আর্কিটেকচারের মধ্যে পরপর FFN স্তরগুলির ক্রমগুলি সনাক্ত করেছেন যা কম আন্তঃস্তর নির্ভরতা প্রদর্শন করেছে।
ফিউশন: এই চিহ্নিত FFN ক্রমগুলি তারপরে পূর্বে বর্ণিত হিসাবে একক, প্রশস্ত FFN স্তরগুলিতে একীভূত করা হয়েছিল (ওজন সংযুক্ত করে)। এটি সরাসরি নেটওয়ার্কে অনুক্রমিক পদক্ষেপের সংখ্যা হ্রাস করেছে।
Pruning: একই সাথে বা পরবর্তীতে, কম গুরুত্বপূর্ণ বলে মনে করা প্যারামিটারগুলি (সম্ভবত স্ট্যান্ডার্ড pruning কৌশলগুলির মাধ্যমে বা ফিউশন প্রক্রিয়া দ্বারা অবহিত হয়ে চিহ্নিত) মডেল থেকে সরানো হয়েছিল।

এই সম্মিলিত পদ্ধতির ফলে Ultra-253B-Base তৈরি হয়েছে, 253 বিলিয়ন প্যারামিটার সহ একটি মডেল। এটি একটি উল্লেখযোগ্য হ্রাস প্রতিনিধিত্ব করে – মূল 405B মডেলের চেয়ে 37% এরও বেশি কম প্যারামিটার। ফিউশনের মাধ্যমে অর্জিত স্থাপত্য পরিবর্তনগুলি কর্মক্ষমতা ধরে রাখার লক্ষ্যে এত উল্লেখযোগ্য আকার হ্রাস সক্ষম করার মূল চাবিকাঠি ছিল। লক্ষ্যটি কেবল একটি ছোট মডেল ছিল না, বরং FFN Fusion দ্বারা উন্মোচিত বর্ধিত সমান্তরালতার জন্য ধন্যবাদ, একটি মৌলিকভাবে দ্রুত এবং আরও গণনামূলকভাবে সাশ্রয়ী মডেল ছিল। এই কেস স্টাডিটি একটি গুরুত্বপূর্ণ প্রমাণ-ধারণা হিসাবে কাজ করেছে, যা দেখায় যে বড় আকারের মডেলগুলিকে দক্ষতার জন্য যথেষ্ট পরিমাণে পুনর্গঠন করা যেতে পারে।

লাভ পরিমাপ: পারফরম্যান্স, গতি এবং সম্পদ সাশ্রয়

যেকোনো অপ্টিমাইজেশন কৌশলের আসল পরীক্ষা তার পরিমাপযোগ্য প্রভাবের মধ্যে নিহিত। Ultra-253B-Base-এর জন্য, Llama-405B বেস মডেলে FFN Fusion এবং pruning প্রয়োগ করার ফলে প্রাপ্ত ফলাফলগুলি ছিল আকর্ষণীয়, যা সক্ষমতার ক্ষেত্রে উল্লেখযোগ্য আপস ছাড়াই একাধিক মাত্রায় উল্লেখযোগ্য উন্নতি প্রদর্শন করে।

ইনফারেন্স গতি এবং খরচ: সবচেয়ে আকর্ষণীয় লাভ দেখা গেছে ইনফারেন্স দক্ষতায়। মূল 405B প্যারামিটার মডেলের তুলনায়, Ultra-253B-Base অর্জন করেছে:

ইনফারেন্স ল্যাটেন্সিতে 1.71x উন্নতি। এর মানে হল মডেলটি উল্লেখযোগ্যভাবে দ্রুত প্রতিক্রিয়া তৈরি করতে পারে, যা রিয়েল-টাইম অ্যাপ্লিকেশনগুলির জন্য অত্যন্ত গুরুত্বপূর্ণ।
32 ব্যাচ আকারে পরিমাপ করার সময় প্রতি-টোকেন গণনামূলক খরচে 35x হ্রাস। প্রতি টোকেন গণনামূলক ক্রিয়াকলাপ (FLOPs) এই নাটকীয় হ্রাস সরাসরি কম শক্তি খরচ এবং মডেল পরিবেশন করার জন্য হ্রাসকৃত হার্ডওয়্যার প্রয়োজনীয়তায় অনুবাদ করে।

মডেল পারফরম্যান্স বেঞ্চমার্ক: গুরুত্বপূর্ণভাবে, এই দক্ষতার উন্নতিগুলি মডেলের বুদ্ধিমত্তা বা ক্ষমতার খরচে আসেনি। Ultra-253B-Base স্ট্যান্ডার্ড LLM বেঞ্চমার্কগুলির একটি স্যুটে কঠোরভাবে মূল্যায়ন করা হয়েছিল, যা স্কোর অর্জন করেছে যা মূল, অনেক বড় মডেলের সাথে অত্যন্ত প্রতিযোগিতামূলক ছিল এবং কিছু ক্ষেত্রে অতিক্রম করেছে:

MMLU (Massive Multitask Language Understanding): 85.17%
MMLU-Pro (একটি আরও চ্যালেঞ্জিং সংস্করণ): 72.25%
Arena Hard (কঠিন প্রম্পটে মানুষের পছন্দের মূল্যায়ন): 84.92%
HumanEval (কোড জেনারেশন ক্ষমতা): 86.58%
MT-Bench (মাল্টি-টার্ন কথোপকথনের গুণমান): 9.19

এই স্কোরগুলি নির্দেশ করে যে ফিউজড এবং প্রুনিং করা মডেলটি বোঝার, যুক্তি করার, কোডিং ক্ষমতা এবং কথোপকথনের মানের একটি খুব উচ্চ স্তর বজায় রেখেছে, যা তার 405B-প্যারামিটার পূর্বসূরীর সাথে তুলনীয়, যদিও এর মাত্র 253 বিলিয়ন প্যারামিটার রয়েছে।

মেমরি দক্ষতা: গণনামূলক গতি এবং খরচের বাইরে, FFN Fusion মেমরি সাশ্রয়েও অবদান রেখেছে। স্থাপত্য পরিবর্তনগুলি, সম্ভবত ফিউশন দ্বারা সক্ষম অন্যান্য অপ্টিমাইজেশনগুলির সাথে মিলিত হয়ে, ইনফারেন্সের সময় প্রয়োজনীয় কী-ভ্যালু (KV) ক্যাশের আকারে 2x হ্রাস ঘটিয়েছে। KV ক্যাশে মধ্যবর্তী অ্যাক্টিভেশনগুলি (অ্যাটেনশন কী এবং ভ্যালু) সংরক্ষণ করে এবং বিশেষ করে দীর্ঘ ইনপুট সিকোয়েন্সের জন্য যথেষ্ট GPU মেমরি ব্যবহার করতে পারে। এই প্রয়োজনীয়তা অর্ধেক করা কম মেমরি-ইনটেনসিভ হার্ডওয়্যারে মডেল চালানো বা একই মেমরি সীমাবদ্ধতার মধ্যে দীর্ঘ কনটেক্সট প্রক্রিয়া করা সম্ভব করে তোলে।

এই পরিমাণযোগ্য ফলাফলগুলি FFN Fusion-এর কার্যকারিতা তুলে ধরে। এটি এমন একটি মডেল তৈরি করার অনুমতি দিয়েছে যা কেবল ছোটই ছিল না বরং গতি, গণনামূলক ক্রিয়াকলাপ এবং মেমরি ব্যবহারের ক্ষেত্রে মৌলিকভাবে আরও দক্ষ ছিল, এবং একই সাথে চ্যালেঞ্জিং বেঞ্চমার্কগুলিতে শীর্ষ-স্তরের কর্মক্ষমতা বজায় রেখেছে।

জ্ঞান সংরক্ষণ: প্রশিক্ষণ ও ফাইন-টিউনিংয়ের ভূমিকা

FFN Fusion এবং pruning-এর মতো কৌশলগুলির মাধ্যমে Llama-405B-এর মতো একটি বিশাল, প্রাক-প্রশিক্ষিত ভাষা মডেলকে স্থাপত্যগতভাবে পরিবর্তন করা অনিবার্যভাবে তার শেখা প্যারামিটারগুলির সূক্ষ্ম ভারসাম্যকে ব্যাহত করে। যদিও গাণিতিক সমতা স্থানীয়ভাবে ফাংশন সংরক্ষণ করার লক্ষ্য রাখে, নেটওয়ার্কের বিশ্বব্যাপী আচরণ পরিবর্তিত হতে পারে। ফলস্বরূপ Ultra-253B-Base মডেলটি কেবল আরও দক্ষই হয়নি বরং তার উচ্চ স্তরের কর্মক্ষমতাও ধরে রেখেছে তা নিশ্চিত করার জন্য, একটি সাবধানে পরিকল্পিত পোস্ট-মডিফিকেশন প্রশিক্ষণ প্রক্রিয়া অপরিহার্য ছিল।

এই প্রক্রিয়ায় দুটি প্রধান পর্যায় জড়িত ছিল:

নলেজ ডিস্টিলেশন (Knowledge Distillation): প্রথম ধাপ ছিল মূল, বৃহত্তর মডেল (বা একটি উপযুক্ত শিক্ষক মডেল) থেকে জ্ঞানকে পরিবর্তিত আর্কিটেকচারে স্থানান্তর করা। এটি ডিস্টিলেশনের মাধ্যমে অর্জন করা হয়েছিল, যেখানে Ultra-253B-Base মডেলটিকে শিক্ষক মডেলের আউটপুট বা অভ্যন্তরীণ উপস্থাপনা অনুকরণ করার জন্য প্রশিক্ষণ দেওয়া হয়েছিল। এই পর্যায়ে একটি উল্লেখযোগ্য ডেটাসেট ব্যবহার করা হয়েছিল, বিশেষত 54 বিলিয়ন টোকেন, যা একটি 8k কনটেক্সট উইন্ডো দিয়ে প্রক্রিয়া করা হয়েছিল। ডিস্টিলেশন ফিউজড এবং প্রুনিং করা মডেলকে সেই সূক্ষ্মতা এবং ক্ষমতাগুলি পুনরুদ্ধার করতে সহায়তা করে যা স্থাপত্য পরিবর্তনের সময় সামান্য বিঘ্নিত হতে পারে।
পর্যায়ক্রমিক ফাইন-টিউনিং (Staged Fine-Tuning): ডিস্টিলেশনের পরে, মডেলটি ক্রমবর্ধমান দীর্ঘ কনটেক্সট দৈর্ঘ্য পরিচালনা করার জন্য বিশেষভাবে ডিজাইন করা ফাইন-টিউনিং পর্যায়গুলির একটি সিরিজের মধ্য দিয়ে গেছে। এটি আধুনিক LLM-গুলির জন্য অত্যন্ত গুরুত্বপূর্ণ, যা প্রায়শই বিস্তৃত ইনপুটের উপর ভিত্তি করে পাঠ্য প্রক্রিয়া এবং তৈরি করবে বলে আশা করা হয়। ফাইন-টিউনিং পর্যায়ক্রমে অগ্রসর হয়েছিল:
- একটি 16k কনটেক্সট উইন্ডোতে ফাইন-টিউনিং।
- একটি 32k কনটেক্সট উইন্ডোতে আরও ফাইন-টিউনিং।
- একটি 128k কনটেক্সট উইন্ডোতে চূড়ান্ত ফাইন-টিউনিং পর্যায়।

এই পর্যায়ক্রমিক পদ্ধতি মডেলটিকে তার প্যারামিটারগুলিকে ধীরে ধীরে মানিয়ে নিতে দেয়, যার মধ্যে নতুন গঠিত ফিউজড FFN স্তর এবং অপ্টিমাইজ করা KV ক্যাশে প্রক্রিয়াগুলি অন্তর্ভুক্ত রয়েছে, যাতে খুব দীর্ঘ ক্রমগুলির উপর নির্ভরতা এবং তথ্য প্রবাহ কার্যকরভাবে পরিচালনা করা যায়। প্রতিটি পর্যায় পূর্ববর্তীটির উপর ভিত্তি করে তৈরি হয়, বিভিন্ন কনটেক্সট আকার জুড়ে স্থিতিশীলতা এবং শক্তিশালী কর্মক্ষমতা নিশ্চিত করে।

এই সূক্ষ্ম প্রশিক্ষণ পদ্ধতি, যা বৃহৎ আকারের ডিস্টিলেশনকে পর্যায়ক্রমিক, দীর্ঘ-কনটেক্সট ফাইন-টিউনিংয়ের সাথে একত্রিত করে, স্থাপত্য দক্ষতা এবং উচ্চ-বিশ্বস্ততার কর্মক্ষমতার মধ্যে ব্যবধান পূরণে সহায়ক ছিল। এটি নিশ্চিত করেছে যে FFN Fusion দ্বারা সরবরাহ করা গতি, খরচ এবং মেমরির সুবিধাগুলি মডেলের নির্ভুলতা এবং চাহিদাপূর্ণ বেঞ্চমার্কগুলিতে সক্ষমতার সাথে আপস করেনি।

বিস্তৃত দিগন্ত: সাধারণীকরণ এবং ভবিষ্যতের দিকনির্দেশনা

Llama-405B-কে Ultra-253B-Base-এ সফল রূপান্তর FFN Fusion-এর সম্ভাবনার শক্তিশালী প্রমাণ দেয়, কিন্তু এর আসল মূল্য তার বৃহত্তর প্রযোজ্যতা এবং ভবিষ্যতের LLM ডিজাইনের জন্য এটি যে অন্তর্দৃষ্টি প্রদান করে তার মধ্যে নিহিত। গবেষণাটি দেখিয়েছে যে এটি কেবল বিশাল মডেলগুলির জন্য প্রযোজ্য একটি এককালীন কৌশল ছিল না।

বিভিন্ন স্কেলে বৈধতা: NVIDIA গবেষকরা স্পষ্টভাবে বিভিন্ন আকারের মডেলগুলিতে FFN Fusion পদ্ধতি পরীক্ষা করেছেন। তারা সফলভাবে 70B-প্যারামিটার মডেলগুলিতে কৌশলটি প্রয়োগ করেছে, তাদের মূল প্রতিরূপগুলির তুলনায় অনুরূপ দক্ষতার লাভ অর্জন করেছে। তারা একটি 49B স্কেলে বৈধতাও রিপোর্ট করেছে, যা এই ধারণাকে আরও শক্তিশালী করে যে FFN স্বাধীনতা এবং ফিউশনের সম্ভাবনা কেবল বৃহত্তম মডেলগুলির একচেটিয়া বৈশিষ্ট্য নয় বরং ট্রান্সফরমার আর্কিটেকচারের একটি আরও সাধারণ বৈশিষ্ট্য হতে পারে, যা সম্ভবত বৃহত্তর স্কেলে আরও স্পষ্ট হয়ে ওঠে যেখানে গভীর FFN ক্রমগুলি স্বাভাবিকভাবেই ঘটে। এটি পরামর্শ দেয় যে FFN Fusion LLM অপ্টিমাইজেশন অস্ত্রাগারে একটি স্ট্যান্ডার্ড টুল হয়ে উঠতে পারে, যা বিভিন্ন মডেল আকারে প্রযোজ্য।

FFN বনাম সম্পূর্ণ ব্লক ফিউশন: গবেষণাটি ট্রান্সফরমার ব্লকের মধ্যে মনোযোগ স্তরগুলির তুলনায় FFN স্তরগুলির নির্দিষ্ট ভূমিকার উপরও আলোকপাত করেছে। যদিও পরপর FFN স্তরগুলি প্রায়শই কম নির্ভরতা দেখায়, যা তাদের ফিউশনের জন্য আদর্শ করে তোলে, সম্পূর্ণ ট্রান্সফরমার ব্লকগুলিকে (মনোযোগ এবং FFN স্তর উভয় সহ) সমান্তরাল করার প্রচেষ্টা আরও চ্যালেঞ্জিং প্রমাণিত হয়েছে। বিশ্লেষণে মনোযোগ প্রক্রিয়া জড়িত শক্তিশালী আন্তঃনির্ভরতা নির্দেশিত হয়েছে। একযোগে সম্পূর্ণ ব্লক ফিউজ করার ফলে আরও উল্লেখযোগ্য কর্মক্ষমতা হ্রাস পেয়েছে, যা পরামর্শ দেয় যে মনোযোগ স্তরগুলি টোকেন জুড়ে তথ্য একীভূত করার ক্ষেত্রে আরও গুরুত্বপূর্ণ, ক্রমানুসারে নির্ভরশীল ভূমিকা পালন করে। এই অনুসন্ধান কার্যকর সমান্তরালকরণের সীমানা নির্ধারণ করতে সহায়তা করে – FFN ক্রমগুলি উর্বর ভূমি, যখন মনোযোগ প্রক্রিয়াগুলির জন্য বিভিন্ন অপ্টিমাইজেশন কৌশলের প্রয়োজন হতে পারে।

LLM আর্কিটেকচারের জন্য প্রভাব: FFN Fusion কেবল একটি পোস্ট-হক অপ্টিমাইজেশন কৌশলের চেয়ে বেশি কিছু সরবরাহ করে; এটি ভবিষ্যতের LLM ডিজাইনের জন্য মূল্যবান অন্তর্দৃষ্টি প্রদান করে। এই আবিষ্কার যে FFN-গুলির ক্রমগুলি প্রায়শই সমান্তরালযোগ্য ইউনিট হিসাবে বিবেচনা করা যেতে পারে তা ট্রান্সফরমার ডিজাইনকে প্রায়শই ভিত্তি করে থাকা কঠোর অনুক্রমিক অনুমানকে চ্যালেঞ্জ করে। এটি নতুন আর্কিটেকচারকে অনুপ্রাণিত করতে পারে যা শুরু থেকেই সহজাতভাবে আরও সমান্তরাল-বান্ধব। ভবিষ্যতের মডেলগুলি ফিউশন বা সমান্তরাল সম্পাদনের জন্য স্পষ্টভাবে উদ্দিষ্ট FFN কাঠামো দিয়ে ডিজাইন করা হতে পারে, যা সম্ভাব্যভাবে হার্ডওয়্যার-সফ্টওয়্যার কো-ডিজাইনের দিকে পরিচালিত করে যেখানে GPU আর্কিটেকচারগুলি এই ধরণের সমান্তরালতা কাজে লাগানোর জন্য আরও অপ্টিমাইজ করা হয়। আন্তঃস্তর নির্ভরতা পরিমাপ করার জন্য cosine distance ব্যবহার করে পদ্ধতিগত পদ্ধতিটি নিউরাল নেটওয়ার্ক কাঠামো বোঝা এবং পুনরায় ডিজাইন করার জন্য একটি মূল্যবান বিশ্লেষণাত্মক সরঞ্জামও সরবরাহ করে। বিদ্যমান উপাদানগুলির সমান্তরালকরণের উপর দৃষ্টি নিবদ্ধ করে চিন্তাশীল স্থাপত্য পুনর্গঠনের মাধ্যমে উল্লেখযোগ্য দক্ষতার লাভ সম্ভব তা প্রদর্শন করে, FFN Fusion এমন LLM বিকাশের পথ প্রশস্ত করে যা শক্তিশালী এবং আরও গণনামূলকভাবে টেকসই। এটি অত্যাধুনিক AI-এর ক্রমবর্ধমান সম্পদের চাহিদা প্রশমিত করার দিকে একটি পথ নির্দেশ করে।

হালনাগাদ করা হয়েছে ২০২৫-০৩-৩০

# AIGC # Llama # Nvidia