شکستن سد توالی: FFN Fusion انویدیا و کارایی LLM

بندبازی محاسباتی هوش مصنوعی مدرن

مدل‌های زبان بزرگ (LLMs) به عنوان ستون‌های هوش مصنوعی معاصر ایستاده‌اند و قابلیت‌های چشمگیری را به نمایش می‌گذارند که در حال تغییر شکل صنایع و اکتشافات علمی هستند. مهارت آن‌ها در تولید متن شبیه به انسان، قدرت بخشیدن به عامل‌های مکالمه‌ای پیچیده و حتی کمک به وظایف تحقیقاتی پیچیده، آن‌ها را به ابزارهای ضروری تبدیل کرده است. در قلب این مدل‌های قدرتمند، معماری transformer می‌تپد، طرحی که با لایه‌های متناوب خود مشخص می‌شود. داده‌های ورودی، که به توکن‌ها تقسیم شده‌اند، از طریق دنباله‌ای از مکانیزم‌های attention جریان می‌یابند که اهمیت توکن‌های مختلف را می‌سنجند، و سپس شبکه‌های پیشخور (FFNs) که اطلاعات به دست آمده را پردازش می‌کنند. این پردازش لایه‌ای و متوالی برای نحوه یادگیری و تولید خروجی توسط transformerها اساسی است.

با این حال، همین معماری، در حالی که مؤثر است، با بزرگ‌تر شدن و پیچیده‌تر شدن مدل‌ها، چالشی رو به رشد را ایجاد می‌کند. ماهیت متوالی به این معنی است که هر لایه به طور کلی باید منتظر بماند تا لایه قبلی محاسبات خود را تکمیل کند تا بتواند شروع کند. این پردازش گام به گام یک گلوگاه ذاتی ایجاد می‌کند، به ویژه در مرحله استنتاج (inference) - مرحله‌ای که در آن یک مدل آموزش‌دیده برای تولید پیش‌بینی‌ها یا متن استفاده می‌شود. همانطور که مدل‌هایی مانند آن‌هایی که دستیاران پیشرفته هوش مصنوعی را قدرت می‌بخشند، صدها میلیارد یا حتی تریلیون‌ها پارامتر را در خود جای می‌دهند، منابع محاسباتی و زمان مورد نیاز برای استنتاج به طور چشمگیری افزایش می‌یابد. این تقاضای فزاینده به تأخیر قابل توجه (تأخیر در پاسخ)، کاهش توان عملیاتی (تعداد درخواست‌های پردازش شده در طول زمان) و افزایش هزینه‌های عملیاتی تبدیل می‌شود و مانع استقرار گسترده و کاربرد بلادرنگ قدرتمندترین LLMها می‌شود. در نتیجه، افزایش کارایی استنتاج به یک نگرانی اصلی در جامعه تحقیقاتی هوش مصنوعی تبدیل شده است و جستجو برای استراتژی‌های نوآورانه‌ای را برانگیخته است که می‌توانند محاسبات را بدون به خطر انداختن عملکرد قابل توجه این مدل‌ها، ساده‌سازی کنند. چالش اصلی در کاهش محدودیت‌های ناشی از اجرای متوالی، به ویژه در محیط‌های توزیع‌شده که محاسبات در چندین GPU انجام می‌شود و سربار ارتباطی را به زمان پردازش اضافه می‌کند، نهفته است.

پیمایش در چشم‌انداز بهینه‌سازی: ابزارهای موجود و محدودیت‌های آن‌ها

در تلاش مداوم برای لاغرتر و سریع‌تر کردن LLMها، محققان مجموعه‌ای از تکنیک‌های بهینه‌سازی را توسعه داده‌اند. هر کدام مسیری به سوی کارایی ارائه می‌دهند، اما اغلب با مجموعه‌ای از مصالحه‌های خاص خود همراه هستند و مانع از این می‌شوند که هر روش واحدی یک راه‌حل جهانی باشد. درک این بده‌بستان‌ها برای درک نیاز به رویکردهای جدیدی مانند FFN Fusion حیاتی است.

یک تکنیک برجسته quantization (کوانتیزاسیون) است. این شامل کاهش دقت عددی مورد استفاده برای نمایش وزن‌ها و فعال‌سازی‌های مدل است. به جای استفاده از اعداد ممیز شناور 32 بیتی استاندارد، مدل‌ها ممکن است از نمایش‌های 16 بیتی، 8 بیتی یا حتی بیت پایین‌تر استفاده کنند. این به طور مستقیم ردپای حافظه مدل را کوچک می‌کند و می‌تواند محاسبات را به طور قابل توجهی سرعت بخشد، زیرا عملیات روی اعداد با دقت پایین‌تر معمولاً سریع‌تر هستند و به انرژی کمتری نیاز دارند. با این حال، کوانتیزاسیون بدون خطر نیست. کاهش دقت می‌تواند منجر به از دست دادن اطلاعات شود و به طور بالقوه دقت مدل را کاهش دهد. این خطر در پهنای بیت بسیار پایین بیشتر می‌شود و نیاز به پیاده‌سازی دقیق و گاهی اوقات آموزش مجدد برای کاهش افت دقت دارد. چالش در یافتن نقطه بهینه است که دستاوردهای کارایی را به حداکثر برساند در حالی که کاهش عملکرد را در محدوده‌های قابل قبول نگه دارد.

استراتژی رایج دیگر pruning (هرس) است. این تکنیک بر این اصل عمل می‌کند که بسیاری از پارامترها در یک شبکه عصبی بزرگ ممکن است اضافی باشند یا کمترین سهم را در خروجی نهایی داشته باشند. الگوریتم‌های هرس این اتصالات یا نورون‌های کم‌اهمیت‌تر را شناسایی و حذف می‌کنند و در نتیجه یک مدل کوچک‌تر و پراکنده‌تر (sparse) ایجاد می‌شود. مانند کوانتیزاسیون، هرس نیاز به حافظه و بار محاسباتی را کاهش می‌دهد. با این حال، شناسایی دقیق اینکه کدام پارامترها برای حذف ‘امن’ هستند، پیچیده است. هرس تهاجمی می‌تواند به طور ناخواسته اجزای حیاتی را حذف کند و منجر به از دست دادن قابل توجه دقت شود. تنظیم دقیق (fine-tuning) مدل پس از هرس اغلب برای بازیابی عملکرد ضروری است و پیچیدگی را به گردش کار اضافه می‌کند. کالیبراسیون دقیق برای اطمینان از مؤثر ماندن مدل هرس شده ضروری است.

یک رویکرد متمایزتر از نظر معماری، مدل Mixture-of-Experts (MoE) است. به جای پردازش هر ورودی از طریق کل شبکه، مدل‌های MoE از چندین زیرشبکه ‘متخصص’ (معمولاً FFNها) تشکیل شده‌اند. برای هر توکن ورودی، یک مکانیزم دروازه‌بندی (gating) به صورت پویا زیرمجموعه کوچکی از این متخصصان را برای انجام محاسبات انتخاب می‌کند. این محاسبات شرطی به این معنی است که تنها کسری از کل پارامترهای مدل برای هر ورودی معین فعال می‌شوند، که منجر به صرفه‌جویی قابل توجه محاسباتی می‌شود، به ویژه در طول آموزش و استنتاج در مدل‌های بسیار بزرگ. مدل‌های MoE می‌توانند تا تریلیون‌ها پارامتر مقیاس‌بندی شوند در حالی که هزینه‌های محاسباتی معقولی را حفظ می‌کنند. با این حال، کارایی آن‌ها به شدت به حجم کاری بستگی دارد. آن‌ها در مدیریت اندازه‌های دسته (batch sizes) بسیار بزرگ که الگوی فعال‌سازی انتخابی منجر به استفاده خوب از سخت‌افزار می‌شود، برتری دارند. در اندازه‌های دسته کوچک‌تر یا متوسط، مدل‌های MoE می‌توانند از عدم استفاده کافی از منابع محاسباتی رنج ببرند، زیرا سخت‌افزار موازی ممکن است توسط متخصصان پراکنده فعال به طور مداوم مشغول نگه داشته نشود. علاوه بر این، پیاده‌سازی و متعادل‌سازی بار (load-balancing) مدل‌های MoE می‌تواند پیچیده‌تر از استقرار معماری‌های استاندارد ‘متراکم’ (dense) باشد.

در حالی که کوانتیزاسیون، هرس و مدل‌های MoE پیشرفت‌های ارزشمندی در بهینه‌سازی LLM نشان می‌دهند، محدودیت‌های ذاتی آن‌ها نیاز به استراتژی‌های جایگزین یا مکمل را برجسته می‌کند. جستجو برای روش‌هایی ادامه دارد که بتوانند بهبودهای گسترده کارایی را در سناریوهای مختلف ارائه دهند، ایده‌آل با مصالحه‌های کمتر برای دقت یا پیچیدگی پیاده‌سازی، به ویژه برای معماری‌های مدل متراکم که به دلیل سادگی نسبی خود در آموزش و استقرار محبوب باقی مانده‌اند.

FFN Fusion: بازاندیشی موازی‌سازی در Transformerها

در میان این چشم‌انداز از تکنیک‌های بهینه‌سازی، محققان در NVIDIA رویکرد جدید قانع‌کننده‌ای را با عنوان FFN Fusion معرفی کرده‌اند. این تکنیک مستقیماً با گلوگاه متوالی ذاتی در معماری transformer مقابله می‌کند، نه با تغییر پارامترها یا فعال‌سازی انتخابی بخش‌ها، بلکه با بازاندیشی اساسی در مورد چگونگی موازی‌سازی توالی محاسبات. این نوآوری از یک مشاهده حیاتی در مورد رفتار لایه‌های FFN در مدل‌های عمیق transformer ناشی می‌شود.

با استفاده از یک ابزار تشخیصی به نام Puzzle، محققان عملکرد داخلی مدل‌های بزرگ را تجزیه و تحلیل کردند. هنگامی که آن‌ها به طور آزمایشی لایه‌های attention را حذف کردند، متوجه شدند که مدل‌ها اغلب توالی‌های شگفت‌آور طولانی از لایه‌های FFN متوالی را حفظ می‌کنند. مهم‌تر از آن، تجزیه و تحلیل نشان داد که محاسبات انجام شده توسط این FFNهای مجاور اغلب وابستگی متقابل حداقلی را نشان می‌دهند. در اصل، خروجی یک FFN در توالی اغلب مسیر جهت‌دار یا اطلاعات اصلی مورد نیاز FFN بلافاصله بعدی را به شدت تغییر نمی‌داد. این نشان می‌دهد که این FFNها، که به طور سنتی یکی پس از دیگری اجرا می‌شوند، ممکن است پتانسیل اجرای همزمان و موازی را بدون ایجاد اختلال قابل توجه در عملکرد کلی مدل داشته باشند.

این بینش سنگ بنای FFN Fusion را تشکیل داد. ایده اصلی به طرز شگفت‌آوری ساده و در عین حال قدرتمند است: شناسایی توالی‌هایی از لایه‌های FFN متوالی با وابستگی محاسباتی کم و ادغام آن‌ها در یک لایه FFN واحد و گسترده‌تر که محاسبات معادل را به صورت موازی انجام می‌دهد. به جای زنجیره‌ای مانند ورودی -> FFN1 -> FFN2 -> FFN3 -> خروجی، ساختار ادغام شده به ورودی -> Fused_FFN (معادل FFN1+FFN2+FFN3 به صورت موازی) -> خروجی تبدیل می‌شود. این تحول معماری به طور مؤثر عمق متوالی شبکه را کوتاه می‌کند و چندین مرحله را با یک مرحله محاسباتی واحد و گسترده‌تر جایگزین می‌کند. با هدف قرار دادن این توالی‌های FFN با وابستگی کم، FFN Fusion قصد دارد تأخیر و هزینه محاسباتی را کاهش دهد در حالی که قدرت نمایشی و دقت مدل را حفظ می‌کند. توسعه Ultra-253B-Base از Llama-3.1-405B-Instruct به عنوان نمایشی اصلی از پتانسیل این تکنیک عمل کرد.

کیمیاگری معماری: FFN Fusion چگونه کار می‌کند

جادوی پشت FFN Fusion در دستکاری هوشمندانه ساختار ریاضی زیربنایی شبکه‌های پیشخور نهفته است. این صرفاً اجرای لایه‌های موجود در کنار هم نیست؛ بلکه شامل ایجاد یک لایه جدید و یکپارچه است که رفتار جمعی توالی اصلی را تکرار می‌کند اما این کار را به صورت همزمان انجام می‌دهد.

توالی k لایه FFN متوالی را در نظر بگیرید. در یک transformer استاندارد، ورودی x از FFN1 عبور می‌کند، خروجی آن ورودی FFN2 می‌شود و به همین ترتیب تا FFNk. هر مرحله به صراحت به تکمیل مرحله قبلی بستگی دارد. FFN Fusion این زنجیره وابستگی را می‌شکند. از نظر ریاضی، یک FFN معمولاً شامل دو تبدیل خطی با یک تابع فعال‌سازی غیرخطی (مانند GeLU یا SwiGLU) در بین آن‌ها است: FFN(x) = W_out * Activation(W_in * x). FFN Fusion از این واقعیت استفاده می‌کند که تبدیلات خطی اغلب می‌توانند ترکیب شوند.

فرآیند ادغام با الحاق وزن‌های لایه‌های FFN منفرد کار می‌کند. به طور خاص، ماتریس‌های وزن ورودی (W_in) FFNهای متوالی با هم ترکیب می‌شوند (به عنوان مثال، به صورت بلوک-قطری) در یک ماتریس وزن ورودی واحد و بزرگتر برای لایه ادغام شده. به طور مشابه، ماتریس‌های وزن خروجی (W_out) برای تشکیل یک ماتریس وزن خروجی واحد و گسترده‌تر الحاق می‌شوند. تابع فعال‌سازی به صورت عنصر به عنصر در این ساختار بزرگتر اعمال می‌شود. این ساختار تضمین می‌کند که FFN ادغام شده بر روی ورودی اصلی x به طور همزمان در مسیرهای موازی مربوط به FFNهای اصلی عمل می‌کند. سپس خروجی‌های این مسیرهای موازی به طور ضمنی توسط ساختار وزن‌های خروجی الحاق شده جمع‌آوری می‌شوند.

پشتوانه نظری تأیید می‌کند که این ساختار ادغام شده می‌تواند همان ظرفیت نمایشی توالی اصلی FFNها را حفظ کند، مشروط بر اینکه وابستگی‌های بین لایه‌های اصلی واقعاً کم بوده باشد. نکته کلیدی شناسایی این است که کدام توالی‌ها برای ادغام مناسب هستند. برای انجام این کار به صورت سیستماتیک، محققان NVIDIA از یک تکنیک تحلیل وابستگی استفاده کردند. آن‌ها فاصله کسینوسی (cosine distance) بین حالت‌های پنهان خروجی لایه‌های FFN متوالی را برای مجموعه‌ای نماینده از توکن‌های ورودی اندازه‌گیری کردند. فاصله کسینوسی کوچک نشان می‌دهد که بردار خروجی یک FFN در جهتی بسیار شبیه به بردار خروجی FFN بعدی در توالی اشاره می‌کند. این شباهت نشان‌دهنده وابستگی عملکردی پایین است - FFN دوم به طور چشمگیری نمایش اطلاعات ایجاد شده توسط FFN اول را تغییر نمی‌دهد. توالی‌هایی از FFNها که به طور مداوم فواصل کسینوسی پایینی را در بین لایه‌ها نشان می‌دادند، به عنوان کاندیداهای اصلی برای ادغام شناسایی شدند، زیرا ادغام آن‌ها کمتر احتمال داشت که نمایش‌های آموخته شده مدل و عملکرد کلی را مختل کند. این رویکرد مبتنی بر داده امکان کاربرد هدفمند FFN Fusion را در بخش‌هایی از مدل فراهم می‌کند که در آن مؤثرترین و کم‌اخلال‌ترین خواهد بود.

از غول‌پیکر تا دونده سرعتی: تحول Ultra-253B-Base

قدرت عملی FFN Fusion به وضوح از طریق کاربرد آن بر روی یکی از بزرگترین مدل‌های شناخته شده عمومی در آن زمان، Llama-3.1-405B-Instruct، نشان داده شد. این مدل، با داشتن 405 میلیارد پارامتر، یک تعهد محاسباتی قابل توجه برای استنتاج را نشان می‌داد. محققان فرآیندی از پالایش معماری را آغاز کردند، که FFN Fusion را با هرس استراتژیک ترکیب می‌کرد، تا یک مدل جدید و کارآمدتر با نام Ultra-253B-Base ایجاد کنند.

فرآیند تحول شامل چندین مرحله بود:

  1. تحلیل: با استفاده از ابزارهای تحلیل وابستگی خود (اندازه‌گیری فواصل کسینوسی)، محققان توالی‌هایی از لایه‌های FFN متوالی را در معماری Llama-405B شناسایی کردند که وابستگی بین لایه‌ای پایینی را نشان می‌دادند.
  2. ادغام (Fusion): این توالی‌های FFN شناسایی شده سپس در لایه‌های FFN واحد و گسترده‌تر همانطور که قبلاً توضیح داده شد (الحاق وزن‌ها) ادغام شدند. این به طور مستقیم تعداد مراحل متوالی در شبکه را کاهش داد.
  3. هرس (Pruning): همزمان یا متعاقباً، پارامترهایی که کمتر حیاتی تلقی می‌شدند (بالقوه از طریق تکنیک‌های هرس استاندارد شناسایی شده یا با اطلاع از فرآیند ادغام) از مدل حذف شدند.

این رویکرد ترکیبی منجر به Ultra-253B-Base شد، مدلی با 253 میلیارد پارامتر. این نشان‌دهنده کاهش قابل توجهی است - بیش از 37٪ پارامتر کمتر از مدل اصلی 405B. تغییرات معماری که از طریق ادغام به دست آمد، کلید امکان چنین کاهش اندازه قابل توجهی در حالی بود که هدف حفظ عملکرد بود. هدف فقط یک مدل کوچکتر نبود، بلکه یک مدل اساساً سریعتر و از نظر محاسباتی مقرون به صرفه‌تر بود، به لطف افزایش موازی‌سازی که توسط FFN Fusion باز شد. این مطالعه موردی به عنوان یک اثبات مفهوم حیاتی عمل کرد و نشان داد که مدل‌های مقیاس بزرگ می‌توانند به طور قابل توجهی برای کارایی بازسازی شوند.

اندازه‌گیری دستاوردها: عملکرد، سرعت و صرفه‌جویی در منابع

آزمون واقعی هر تکنیک بهینه‌سازی در تأثیر قابل اندازه‌گیری آن نهفته است. برای Ultra-253B-Base، نتایج حاصل از اعمال FFN Fusion و هرس بر روی پایه Llama-405B قانع‌کننده بود و بهبودهای قابل توجهی را در ابعاد متعدد بدون مصالحه‌های اساسی در قابلیت نشان داد.

سرعت و هزینه استنتاج: چشمگیرترین دستاوردها در کارایی استنتاج مشاهده شد. در مقایسه با مدل اصلی 405B پارامتری، Ultra-253B-Base به موارد زیر دست یافت:

  • بهبود 1.71 برابری در تأخیر استنتاج. این بدان معناست که مدل می‌تواند پاسخ‌ها را به طور قابل توجهی سریع‌تر تولید کند، که برای برنامه‌های بلادرنگ حیاتی است.
  • کاهش 35 برابری در هزینه محاسباتی هر توکن هنگامی که در اندازه دسته 32 اندازه‌گیری شد. این کاهش چشمگیر در عملیات محاسباتی (FLOPs) به ازای هر توکن مستقیماً به مصرف انرژی کمتر و نیازهای سخت‌افزاری کاهش یافته برای ارائه خدمات مدل تبدیل می‌شود.

معیارهای عملکرد مدل: نکته حیاتی این است که این بهبودهای کارایی به قیمت هوش یا قابلیت‌های مدل تمام نشد. Ultra-253B-Base به طور دقیق بر روی مجموعه‌ای از معیارهای استاندارد LLM ارزیابی شد و امتیازاتی را کسب کرد که بسیار رقابتی با مدل اصلی و بسیار بزرگتر بود و در برخی موارد از آن فراتر رفت:

  • MMLU (درک زبان چند وظیفه‌ای عظیم): 85.17%
  • MMLU-Pro (نسخه چالش‌برانگیزتر): 72.25%
  • Arena Hard (ارزیابی ترجیح انسانی در مورد درخواست‌های دشوار): 84.92%
  • HumanEval (قابلیت تولید کد): 86.58%
  • MT-Bench (کیفیت مکالمه چند نوبتی): 9.19

این امتیازات نشان می‌دهد که مدل ادغام شده و هرس شده سطح بسیار بالایی از درک، استدلال، توانایی کدنویسی و کیفیت مکالمه را حفظ کرده است، که با جد 405B پارامتری خود قابل مقایسه است، علیرغم اینکه تنها 253 میلیارد پارامتر دارد.

کارایی حافظه: فراتر از سرعت و هزینه محاسباتی، FFN Fusion همچنین به صرفه‌جویی در حافظه کمک کرد. تغییرات معماری، که به طور بالقوه با سایر بهینه‌سازی‌های فعال شده توسط ادغام ترکیب شده‌اند، منجر به کاهش 2 برابری در اندازه حافظه پنهان کلید-مقدار (KV cache) مورد نیاز در طول استنتاج شد. KV cache فعال‌سازی‌های میانی (کلیدها و مقادیر attention) را ذخیره می‌کند و می‌تواند حافظه قابل توجهی از GPU را مصرف کند، به خصوص برای توالی‌های ورودی طولانی. نصف کردن این نیاز، اجرای مدل بر روی سخت‌افزار با حافظه کمتر یا پردازش زمینه‌های طولانی‌تر در همان محدودیت‌های حافظه را امکان‌پذیر می‌کند.

این نتایج قابل اندازه‌گیری بر اثربخشی FFN Fusion تأکید می‌کند. این امکان ایجاد مدلی را فراهم کرد که نه تنها کوچکتر بود، بلکه از نظر سرعت، عملیات محاسباتی و استفاده از حافظه اساساً کارآمدتر بود، همه اینها در حالی که عملکرد سطح بالا را در معیارهای چالش‌برانگیز حفظ می‌کرد.

حفظ دانش: نقش حیاتی آموزش و تنظیم دقیق

اصلاح معماری یک مدل زبان عظیم و از پیش آموزش‌دیده مانند Llama-405B از طریق تکنیک‌هایی مانند FFN Fusion و هرس به ناچار تعادل ظریف پارامترهای آموخته شده آن را مختل می‌کند. در حالی که هدف از هم‌ارزی ریاضی حفظ عملکرد به صورت محلی است، رفتار کلی شبکه می‌تواند تغییر کند. برای اطمینان از اینکه مدل Ultra-253B-Base حاصل نه تنها کارآمدتر شد، بلکه سطح بالای عملکرد خود را نیز حفظ کرد، یک فرآیند آموزش پس از اصلاح با دقت هماهنگ شده ضروری بود.

این فرآیند شامل دو مرحله اصلی بود:

  1. تقطیر دانش (Knowledge Distillation): اولین قدم انتقال دانش از مدل اصلی و بزرگتر (یا یک مدل معلم مناسب) به معماری اصلاح شده بود. این از طریق تقطیر به دست آمد، جایی که مدل Ultra-253B-Base برای تقلید از خروجی‌ها یا نمایش‌های داخلی مدل معلم آموزش داده شد. این مرحله از یک مجموعه داده قابل توجه، به طور خاص 54 میلیارد توکن، که با یک پنجره زمینه 8k پردازش شده بود، استفاده کرد. تقطیر به مدل ادغام شده و هرس شده کمک می‌کند تا ظرافت‌ها و قابلیت‌هایی را که ممکن است در طول تغییرات معماری کمی مختل شده باشند، دوباره به دست آورد.

  2. تنظیم دقیق مرحله‌ای (Staged Fine-Tuning): پس از تقطیر، مدل تحت یک سری مراحل تنظیم دقیق قرار گرفت که به طور خاص برای تطبیق آن با مدیریت طول‌های زمینه به تدریج طولانی‌تر طراحی شده بود. این برای LLMهای مدرن حیاتی است، که اغلب انتظار می‌رود متن را بر اساس ورودی گسترده پردازش و تولید کنند. تنظیم دقیق در مراحل زیر انجام شد:

    • تنظیم دقیق در پنجره زمینه 16k.
    • تنظیم دقیق بیشتر در پنجره زمینه 32k.
    • مرحله نهایی تنظیم دقیق در پنجره زمینه 128k.

این رویکرد مرحله‌ای به مدل اجازه می‌دهد تا به تدریج پارامترهای خود را، از جمله لایه‌های FFN تازه تشکیل شده و مکانیزم‌های بهینه شده KV cache، برای مدیریت مؤثر وابستگی‌ها و جریان اطلاعات در توالی‌های بسیار طولانی تطبیق دهد. هر مرحله بر پایه مرحله قبلی بنا می‌شود و از پایداری و عملکرد قوی در اندازه‌های مختلف زمینه اطمینان حاصل می‌کند.

این رژیم آموزشی دقیق، که تقطیر در مقیاس بزرگ را با تنظیم دقیق مرحله‌ای و زمینه طولانی ترکیب می‌کند، در پر کردن شکاف بین کارایی معماری و عملکرد با وفاداری بالا نقش اساسی داشت. این تضمین کرد که مزایای سرعت، هزینه و حافظه ارائه شده توسط FFN Fusion، دقت و قابلیت‌های مدل را در معیارهای سخت‌گیرانه به خطر نیندازد.

افق‌های گسترده‌تر: تعمیم‌پذیری و جهت‌گیری‌های آینده

تحول موفقیت‌آمیز Llama-405B به Ultra-253B-Base شواهد قوی برای پتانسیل FFN Fusion ارائه می‌دهد، اما ارزش واقعی آن در کاربرد گسترده‌تر و بینش‌هایی است که برای طراحی آینده LLM ارائه می‌دهد. این تحقیق نشان داد که این صرفاً یک ترفند یکباره قابل اجرا فقط برای مدل‌های عظیم نبود.

اعتبارسنجی در مقیاس‌های مختلف: محققان NVIDIA به صراحت روش FFN Fusion را بر روی مدل‌هایی با اندازه‌های مختلف آزمایش کردند. آن‌ها با موفقیت این تکنیک را بر روی مدل‌های 70B پارامتری اعمال کردند و به دستاوردهای کارایی مشابهی نسبت به همتایان اصلی خود دست یافتند. آن‌ها همچنین اعتبارسنجی را در مقیاس 49B گزارش کردند، که این ایده را بیشتر تقویت می‌کند که استقلال FFN و پتانسیل ادغام، ویژگی‌های انحصاری بزرگترین مدل‌ها نیستند، بلکه ممکن است یک ویژگی عمومی‌تر معماری transformer باشند، که به طور بالقوه در مقیاس‌های بزرگتر که توالی‌های عمیق‌تر FFN به طور طبیعی رخ می‌دهند، برجسته‌تر می‌شوند. این نشان می‌دهد که FFN Fusion می‌تواند به یک ابزار استاندارد در زرادخانه بهینه‌سازی LLM تبدیل شود، که در طیف وسیعی از اندازه‌های مدل قابل اجرا است.

FFN در مقابل ادغام بلوک کامل: این تحقیق همچنین نقش خاص لایه‌های FFN را در مقایسه با لایه‌های attention در بلوک transformer روشن کرد. در حالی که لایه‌های FFN متوالی اغلب وابستگی پایینی را نشان می‌دادند و آن‌ها را برای ادغام ایده‌آل می‌کردند، تلاش برای موازی‌سازی کل بلوک‌های transformer (شامل هر دو لایه attention و FFN) چالش‌برانگیزتر بود. تجزیه و تحلیل نشان داد وابستگی‌های متقابل قوی‌تری شامل مکانیزم‌های attention وجود دارد. ادغام همزمان کل بلوک‌ها منجر به کاهش عملکرد قابل توجه‌تری شد، که نشان می‌دهد لایه‌های attention نقش حیاتی‌تر و وابسته به توالی در یکپارچه‌سازی اطلاعات در بین توکن‌ها ایفا می‌کنند. این یافته به تعیین مرزهای موازی‌سازی مؤثر کمک می‌کند - توالی‌های FFN زمین حاصلخیزی هستند، در حالی که مکانیزم‌های attention ممکن است به استراتژی‌های بهینه‌سازی متفاوتی نیاز داشته باشند.

پیامدها برای معماری LLM: FFN Fusion چیزی بیش از یک تکنیک بهینه‌سازی پس از وقوع ارائه می‌دهد؛ بینش‌های ارزشمندی برای طراحی LLMهای آینده فراهم می‌کند. کشف اینکه توالی‌های FFN اغلب می‌توانند به عنوان واحدهای قابل موازی‌سازی در نظر گرفته شوند، فرض کاملاً متوالی را که اغلب زیربنای طراحی transformer است، به چالش می‌کشد. این می‌تواند الهام‌بخش معماری‌های جدیدی باشد که ذاتاً از ابتدا سازگارتر با موازی‌سازی هستند. مدل‌های آینده ممکن است با ساختارهای FFN طراحی شوند که به صراحت برای ادغام یا اجرای موازی در نظر گرفته شده‌اند، که به طور بالقوه منجر به طراحی مشترک سخت‌افزار-نرم‌افزار می‌شود که در آن معماری‌های GPU برای بهره‌برداری از این نوع موازی‌سازی بیشتر بهینه می‌شوند. روش سیستماتیک با استفاده از فاصله کسینوسی برای کمی‌سازی وابستگی بین لایه‌ای نیز یک ابزار تحلیلی ارزشمند برای درک و طراحی مجدد ساختارهای شبکه عصبی فراهم می‌کند. با نشان دادن اینکه دستاوردهای کارایی قابل توجهی از طریق بازطراحی معماری متفکرانه متمرکز بر موازی‌سازی اجزای موجود امکان‌پذیر است، FFN Fusion راه را برای توسعه LLMهایی هموار می‌کند که هم قدرتمند و هم از نظر محاسباتی پایدارتر هستند. این یک مسیر به سوی کاهش تقاضاهای فزاینده منابع هوش مصنوعی پیشرفته را برجسته می‌کند.