بندبازی محاسباتی هوش مصنوعی مدرن
مدلهای زبان بزرگ (LLMs) به عنوان ستونهای هوش مصنوعی معاصر ایستادهاند و قابلیتهای چشمگیری را به نمایش میگذارند که در حال تغییر شکل صنایع و اکتشافات علمی هستند. مهارت آنها در تولید متن شبیه به انسان، قدرت بخشیدن به عاملهای مکالمهای پیچیده و حتی کمک به وظایف تحقیقاتی پیچیده، آنها را به ابزارهای ضروری تبدیل کرده است. در قلب این مدلهای قدرتمند، معماری transformer میتپد، طرحی که با لایههای متناوب خود مشخص میشود. دادههای ورودی، که به توکنها تقسیم شدهاند، از طریق دنبالهای از مکانیزمهای attention جریان مییابند که اهمیت توکنهای مختلف را میسنجند، و سپس شبکههای پیشخور (FFNs) که اطلاعات به دست آمده را پردازش میکنند. این پردازش لایهای و متوالی برای نحوه یادگیری و تولید خروجی توسط transformerها اساسی است.
با این حال، همین معماری، در حالی که مؤثر است، با بزرگتر شدن و پیچیدهتر شدن مدلها، چالشی رو به رشد را ایجاد میکند. ماهیت متوالی به این معنی است که هر لایه به طور کلی باید منتظر بماند تا لایه قبلی محاسبات خود را تکمیل کند تا بتواند شروع کند. این پردازش گام به گام یک گلوگاه ذاتی ایجاد میکند، به ویژه در مرحله استنتاج (inference) - مرحلهای که در آن یک مدل آموزشدیده برای تولید پیشبینیها یا متن استفاده میشود. همانطور که مدلهایی مانند آنهایی که دستیاران پیشرفته هوش مصنوعی را قدرت میبخشند، صدها میلیارد یا حتی تریلیونها پارامتر را در خود جای میدهند، منابع محاسباتی و زمان مورد نیاز برای استنتاج به طور چشمگیری افزایش مییابد. این تقاضای فزاینده به تأخیر قابل توجه (تأخیر در پاسخ)، کاهش توان عملیاتی (تعداد درخواستهای پردازش شده در طول زمان) و افزایش هزینههای عملیاتی تبدیل میشود و مانع استقرار گسترده و کاربرد بلادرنگ قدرتمندترین LLMها میشود. در نتیجه، افزایش کارایی استنتاج به یک نگرانی اصلی در جامعه تحقیقاتی هوش مصنوعی تبدیل شده است و جستجو برای استراتژیهای نوآورانهای را برانگیخته است که میتوانند محاسبات را بدون به خطر انداختن عملکرد قابل توجه این مدلها، سادهسازی کنند. چالش اصلی در کاهش محدودیتهای ناشی از اجرای متوالی، به ویژه در محیطهای توزیعشده که محاسبات در چندین GPU انجام میشود و سربار ارتباطی را به زمان پردازش اضافه میکند، نهفته است.
پیمایش در چشمانداز بهینهسازی: ابزارهای موجود و محدودیتهای آنها
در تلاش مداوم برای لاغرتر و سریعتر کردن LLMها، محققان مجموعهای از تکنیکهای بهینهسازی را توسعه دادهاند. هر کدام مسیری به سوی کارایی ارائه میدهند، اما اغلب با مجموعهای از مصالحههای خاص خود همراه هستند و مانع از این میشوند که هر روش واحدی یک راهحل جهانی باشد. درک این بدهبستانها برای درک نیاز به رویکردهای جدیدی مانند FFN Fusion حیاتی است.
یک تکنیک برجسته quantization (کوانتیزاسیون) است. این شامل کاهش دقت عددی مورد استفاده برای نمایش وزنها و فعالسازیهای مدل است. به جای استفاده از اعداد ممیز شناور 32 بیتی استاندارد، مدلها ممکن است از نمایشهای 16 بیتی، 8 بیتی یا حتی بیت پایینتر استفاده کنند. این به طور مستقیم ردپای حافظه مدل را کوچک میکند و میتواند محاسبات را به طور قابل توجهی سرعت بخشد، زیرا عملیات روی اعداد با دقت پایینتر معمولاً سریعتر هستند و به انرژی کمتری نیاز دارند. با این حال، کوانتیزاسیون بدون خطر نیست. کاهش دقت میتواند منجر به از دست دادن اطلاعات شود و به طور بالقوه دقت مدل را کاهش دهد. این خطر در پهنای بیت بسیار پایین بیشتر میشود و نیاز به پیادهسازی دقیق و گاهی اوقات آموزش مجدد برای کاهش افت دقت دارد. چالش در یافتن نقطه بهینه است که دستاوردهای کارایی را به حداکثر برساند در حالی که کاهش عملکرد را در محدودههای قابل قبول نگه دارد.
استراتژی رایج دیگر pruning (هرس) است. این تکنیک بر این اصل عمل میکند که بسیاری از پارامترها در یک شبکه عصبی بزرگ ممکن است اضافی باشند یا کمترین سهم را در خروجی نهایی داشته باشند. الگوریتمهای هرس این اتصالات یا نورونهای کماهمیتتر را شناسایی و حذف میکنند و در نتیجه یک مدل کوچکتر و پراکندهتر (sparse) ایجاد میشود. مانند کوانتیزاسیون، هرس نیاز به حافظه و بار محاسباتی را کاهش میدهد. با این حال، شناسایی دقیق اینکه کدام پارامترها برای حذف ‘امن’ هستند، پیچیده است. هرس تهاجمی میتواند به طور ناخواسته اجزای حیاتی را حذف کند و منجر به از دست دادن قابل توجه دقت شود. تنظیم دقیق (fine-tuning) مدل پس از هرس اغلب برای بازیابی عملکرد ضروری است و پیچیدگی را به گردش کار اضافه میکند. کالیبراسیون دقیق برای اطمینان از مؤثر ماندن مدل هرس شده ضروری است.
یک رویکرد متمایزتر از نظر معماری، مدل Mixture-of-Experts (MoE) است. به جای پردازش هر ورودی از طریق کل شبکه، مدلهای MoE از چندین زیرشبکه ‘متخصص’ (معمولاً FFNها) تشکیل شدهاند. برای هر توکن ورودی، یک مکانیزم دروازهبندی (gating) به صورت پویا زیرمجموعه کوچکی از این متخصصان را برای انجام محاسبات انتخاب میکند. این محاسبات شرطی به این معنی است که تنها کسری از کل پارامترهای مدل برای هر ورودی معین فعال میشوند، که منجر به صرفهجویی قابل توجه محاسباتی میشود، به ویژه در طول آموزش و استنتاج در مدلهای بسیار بزرگ. مدلهای MoE میتوانند تا تریلیونها پارامتر مقیاسبندی شوند در حالی که هزینههای محاسباتی معقولی را حفظ میکنند. با این حال، کارایی آنها به شدت به حجم کاری بستگی دارد. آنها در مدیریت اندازههای دسته (batch sizes) بسیار بزرگ که الگوی فعالسازی انتخابی منجر به استفاده خوب از سختافزار میشود، برتری دارند. در اندازههای دسته کوچکتر یا متوسط، مدلهای MoE میتوانند از عدم استفاده کافی از منابع محاسباتی رنج ببرند، زیرا سختافزار موازی ممکن است توسط متخصصان پراکنده فعال به طور مداوم مشغول نگه داشته نشود. علاوه بر این، پیادهسازی و متعادلسازی بار (load-balancing) مدلهای MoE میتواند پیچیدهتر از استقرار معماریهای استاندارد ‘متراکم’ (dense) باشد.
در حالی که کوانتیزاسیون، هرس و مدلهای MoE پیشرفتهای ارزشمندی در بهینهسازی LLM نشان میدهند، محدودیتهای ذاتی آنها نیاز به استراتژیهای جایگزین یا مکمل را برجسته میکند. جستجو برای روشهایی ادامه دارد که بتوانند بهبودهای گسترده کارایی را در سناریوهای مختلف ارائه دهند، ایدهآل با مصالحههای کمتر برای دقت یا پیچیدگی پیادهسازی، به ویژه برای معماریهای مدل متراکم که به دلیل سادگی نسبی خود در آموزش و استقرار محبوب باقی ماندهاند.
FFN Fusion: بازاندیشی موازیسازی در Transformerها
در میان این چشمانداز از تکنیکهای بهینهسازی، محققان در NVIDIA رویکرد جدید قانعکنندهای را با عنوان FFN Fusion معرفی کردهاند. این تکنیک مستقیماً با گلوگاه متوالی ذاتی در معماری transformer مقابله میکند، نه با تغییر پارامترها یا فعالسازی انتخابی بخشها، بلکه با بازاندیشی اساسی در مورد چگونگی موازیسازی توالی محاسبات. این نوآوری از یک مشاهده حیاتی در مورد رفتار لایههای FFN در مدلهای عمیق transformer ناشی میشود.
با استفاده از یک ابزار تشخیصی به نام Puzzle، محققان عملکرد داخلی مدلهای بزرگ را تجزیه و تحلیل کردند. هنگامی که آنها به طور آزمایشی لایههای attention را حذف کردند، متوجه شدند که مدلها اغلب توالیهای شگفتآور طولانی از لایههای FFN متوالی را حفظ میکنند. مهمتر از آن، تجزیه و تحلیل نشان داد که محاسبات انجام شده توسط این FFNهای مجاور اغلب وابستگی متقابل حداقلی را نشان میدهند. در اصل، خروجی یک FFN در توالی اغلب مسیر جهتدار یا اطلاعات اصلی مورد نیاز FFN بلافاصله بعدی را به شدت تغییر نمیداد. این نشان میدهد که این FFNها، که به طور سنتی یکی پس از دیگری اجرا میشوند، ممکن است پتانسیل اجرای همزمان و موازی را بدون ایجاد اختلال قابل توجه در عملکرد کلی مدل داشته باشند.
این بینش سنگ بنای FFN Fusion را تشکیل داد. ایده اصلی به طرز شگفتآوری ساده و در عین حال قدرتمند است: شناسایی توالیهایی از لایههای FFN متوالی با وابستگی محاسباتی کم و ادغام آنها در یک لایه FFN واحد و گستردهتر که محاسبات معادل را به صورت موازی انجام میدهد. به جای زنجیرهای مانند ورودی -> FFN1 -> FFN2 -> FFN3 -> خروجی
، ساختار ادغام شده به ورودی -> Fused_FFN (معادل FFN1+FFN2+FFN3 به صورت موازی) -> خروجی
تبدیل میشود. این تحول معماری به طور مؤثر عمق متوالی شبکه را کوتاه میکند و چندین مرحله را با یک مرحله محاسباتی واحد و گستردهتر جایگزین میکند. با هدف قرار دادن این توالیهای FFN با وابستگی کم، FFN Fusion قصد دارد تأخیر و هزینه محاسباتی را کاهش دهد در حالی که قدرت نمایشی و دقت مدل را حفظ میکند. توسعه Ultra-253B-Base از Llama-3.1-405B-Instruct به عنوان نمایشی اصلی از پتانسیل این تکنیک عمل کرد.
کیمیاگری معماری: FFN Fusion چگونه کار میکند
جادوی پشت FFN Fusion در دستکاری هوشمندانه ساختار ریاضی زیربنایی شبکههای پیشخور نهفته است. این صرفاً اجرای لایههای موجود در کنار هم نیست؛ بلکه شامل ایجاد یک لایه جدید و یکپارچه است که رفتار جمعی توالی اصلی را تکرار میکند اما این کار را به صورت همزمان انجام میدهد.
توالی k لایه FFN متوالی را در نظر بگیرید. در یک transformer استاندارد، ورودی x
از FFN1
عبور میکند، خروجی آن ورودی FFN2
میشود و به همین ترتیب تا FFNk
. هر مرحله به صراحت به تکمیل مرحله قبلی بستگی دارد. FFN Fusion این زنجیره وابستگی را میشکند. از نظر ریاضی، یک FFN معمولاً شامل دو تبدیل خطی با یک تابع فعالسازی غیرخطی (مانند GeLU یا SwiGLU) در بین آنها است: FFN(x) = W_out * Activation(W_in * x)
. FFN Fusion از این واقعیت استفاده میکند که تبدیلات خطی اغلب میتوانند ترکیب شوند.
فرآیند ادغام با الحاق وزنهای لایههای FFN منفرد کار میکند. به طور خاص، ماتریسهای وزن ورودی (W_in
) FFNهای متوالی با هم ترکیب میشوند (به عنوان مثال، به صورت بلوک-قطری) در یک ماتریس وزن ورودی واحد و بزرگتر برای لایه ادغام شده. به طور مشابه، ماتریسهای وزن خروجی (W_out
) برای تشکیل یک ماتریس وزن خروجی واحد و گستردهتر الحاق میشوند. تابع فعالسازی به صورت عنصر به عنصر در این ساختار بزرگتر اعمال میشود. این ساختار تضمین میکند که FFN ادغام شده بر روی ورودی اصلی x
به طور همزمان در مسیرهای موازی مربوط به FFNهای اصلی عمل میکند. سپس خروجیهای این مسیرهای موازی به طور ضمنی توسط ساختار وزنهای خروجی الحاق شده جمعآوری میشوند.
پشتوانه نظری تأیید میکند که این ساختار ادغام شده میتواند همان ظرفیت نمایشی توالی اصلی FFNها را حفظ کند، مشروط بر اینکه وابستگیهای بین لایههای اصلی واقعاً کم بوده باشد. نکته کلیدی شناسایی این است که کدام توالیها برای ادغام مناسب هستند. برای انجام این کار به صورت سیستماتیک، محققان NVIDIA از یک تکنیک تحلیل وابستگی استفاده کردند. آنها فاصله کسینوسی (cosine distance) بین حالتهای پنهان خروجی لایههای FFN متوالی را برای مجموعهای نماینده از توکنهای ورودی اندازهگیری کردند. فاصله کسینوسی کوچک نشان میدهد که بردار خروجی یک FFN در جهتی بسیار شبیه به بردار خروجی FFN بعدی در توالی اشاره میکند. این شباهت نشاندهنده وابستگی عملکردی پایین است - FFN دوم به طور چشمگیری نمایش اطلاعات ایجاد شده توسط FFN اول را تغییر نمیدهد. توالیهایی از FFNها که به طور مداوم فواصل کسینوسی پایینی را در بین لایهها نشان میدادند، به عنوان کاندیداهای اصلی برای ادغام شناسایی شدند، زیرا ادغام آنها کمتر احتمال داشت که نمایشهای آموخته شده مدل و عملکرد کلی را مختل کند. این رویکرد مبتنی بر داده امکان کاربرد هدفمند FFN Fusion را در بخشهایی از مدل فراهم میکند که در آن مؤثرترین و کماخلالترین خواهد بود.
از غولپیکر تا دونده سرعتی: تحول Ultra-253B-Base
قدرت عملی FFN Fusion به وضوح از طریق کاربرد آن بر روی یکی از بزرگترین مدلهای شناخته شده عمومی در آن زمان، Llama-3.1-405B-Instruct، نشان داده شد. این مدل، با داشتن 405 میلیارد پارامتر، یک تعهد محاسباتی قابل توجه برای استنتاج را نشان میداد. محققان فرآیندی از پالایش معماری را آغاز کردند، که FFN Fusion را با هرس استراتژیک ترکیب میکرد، تا یک مدل جدید و کارآمدتر با نام Ultra-253B-Base ایجاد کنند.
فرآیند تحول شامل چندین مرحله بود:
- تحلیل: با استفاده از ابزارهای تحلیل وابستگی خود (اندازهگیری فواصل کسینوسی)، محققان توالیهایی از لایههای FFN متوالی را در معماری Llama-405B شناسایی کردند که وابستگی بین لایهای پایینی را نشان میدادند.
- ادغام (Fusion): این توالیهای FFN شناسایی شده سپس در لایههای FFN واحد و گستردهتر همانطور که قبلاً توضیح داده شد (الحاق وزنها) ادغام شدند. این به طور مستقیم تعداد مراحل متوالی در شبکه را کاهش داد.
- هرس (Pruning): همزمان یا متعاقباً، پارامترهایی که کمتر حیاتی تلقی میشدند (بالقوه از طریق تکنیکهای هرس استاندارد شناسایی شده یا با اطلاع از فرآیند ادغام) از مدل حذف شدند.
این رویکرد ترکیبی منجر به Ultra-253B-Base شد، مدلی با 253 میلیارد پارامتر. این نشاندهنده کاهش قابل توجهی است - بیش از 37٪ پارامتر کمتر از مدل اصلی 405B. تغییرات معماری که از طریق ادغام به دست آمد، کلید امکان چنین کاهش اندازه قابل توجهی در حالی بود که هدف حفظ عملکرد بود. هدف فقط یک مدل کوچکتر نبود، بلکه یک مدل اساساً سریعتر و از نظر محاسباتی مقرون به صرفهتر بود، به لطف افزایش موازیسازی که توسط FFN Fusion باز شد. این مطالعه موردی به عنوان یک اثبات مفهوم حیاتی عمل کرد و نشان داد که مدلهای مقیاس بزرگ میتوانند به طور قابل توجهی برای کارایی بازسازی شوند.
اندازهگیری دستاوردها: عملکرد، سرعت و صرفهجویی در منابع
آزمون واقعی هر تکنیک بهینهسازی در تأثیر قابل اندازهگیری آن نهفته است. برای Ultra-253B-Base، نتایج حاصل از اعمال FFN Fusion و هرس بر روی پایه Llama-405B قانعکننده بود و بهبودهای قابل توجهی را در ابعاد متعدد بدون مصالحههای اساسی در قابلیت نشان داد.
سرعت و هزینه استنتاج: چشمگیرترین دستاوردها در کارایی استنتاج مشاهده شد. در مقایسه با مدل اصلی 405B پارامتری، Ultra-253B-Base به موارد زیر دست یافت:
- بهبود 1.71 برابری در تأخیر استنتاج. این بدان معناست که مدل میتواند پاسخها را به طور قابل توجهی سریعتر تولید کند، که برای برنامههای بلادرنگ حیاتی است.
- کاهش 35 برابری در هزینه محاسباتی هر توکن هنگامی که در اندازه دسته 32 اندازهگیری شد. این کاهش چشمگیر در عملیات محاسباتی (FLOPs) به ازای هر توکن مستقیماً به مصرف انرژی کمتر و نیازهای سختافزاری کاهش یافته برای ارائه خدمات مدل تبدیل میشود.
معیارهای عملکرد مدل: نکته حیاتی این است که این بهبودهای کارایی به قیمت هوش یا قابلیتهای مدل تمام نشد. Ultra-253B-Base به طور دقیق بر روی مجموعهای از معیارهای استاندارد LLM ارزیابی شد و امتیازاتی را کسب کرد که بسیار رقابتی با مدل اصلی و بسیار بزرگتر بود و در برخی موارد از آن فراتر رفت:
- MMLU (درک زبان چند وظیفهای عظیم): 85.17%
- MMLU-Pro (نسخه چالشبرانگیزتر): 72.25%
- Arena Hard (ارزیابی ترجیح انسانی در مورد درخواستهای دشوار): 84.92%
- HumanEval (قابلیت تولید کد): 86.58%
- MT-Bench (کیفیت مکالمه چند نوبتی): 9.19
این امتیازات نشان میدهد که مدل ادغام شده و هرس شده سطح بسیار بالایی از درک، استدلال، توانایی کدنویسی و کیفیت مکالمه را حفظ کرده است، که با جد 405B پارامتری خود قابل مقایسه است، علیرغم اینکه تنها 253 میلیارد پارامتر دارد.
کارایی حافظه: فراتر از سرعت و هزینه محاسباتی، FFN Fusion همچنین به صرفهجویی در حافظه کمک کرد. تغییرات معماری، که به طور بالقوه با سایر بهینهسازیهای فعال شده توسط ادغام ترکیب شدهاند، منجر به کاهش 2 برابری در اندازه حافظه پنهان کلید-مقدار (KV cache) مورد نیاز در طول استنتاج شد. KV cache فعالسازیهای میانی (کلیدها و مقادیر attention) را ذخیره میکند و میتواند حافظه قابل توجهی از GPU را مصرف کند، به خصوص برای توالیهای ورودی طولانی. نصف کردن این نیاز، اجرای مدل بر روی سختافزار با حافظه کمتر یا پردازش زمینههای طولانیتر در همان محدودیتهای حافظه را امکانپذیر میکند.
این نتایج قابل اندازهگیری بر اثربخشی FFN Fusion تأکید میکند. این امکان ایجاد مدلی را فراهم کرد که نه تنها کوچکتر بود، بلکه از نظر سرعت، عملیات محاسباتی و استفاده از حافظه اساساً کارآمدتر بود، همه اینها در حالی که عملکرد سطح بالا را در معیارهای چالشبرانگیز حفظ میکرد.
حفظ دانش: نقش حیاتی آموزش و تنظیم دقیق
اصلاح معماری یک مدل زبان عظیم و از پیش آموزشدیده مانند Llama-405B از طریق تکنیکهایی مانند FFN Fusion و هرس به ناچار تعادل ظریف پارامترهای آموخته شده آن را مختل میکند. در حالی که هدف از همارزی ریاضی حفظ عملکرد به صورت محلی است، رفتار کلی شبکه میتواند تغییر کند. برای اطمینان از اینکه مدل Ultra-253B-Base حاصل نه تنها کارآمدتر شد، بلکه سطح بالای عملکرد خود را نیز حفظ کرد، یک فرآیند آموزش پس از اصلاح با دقت هماهنگ شده ضروری بود.
این فرآیند شامل دو مرحله اصلی بود:
تقطیر دانش (Knowledge Distillation): اولین قدم انتقال دانش از مدل اصلی و بزرگتر (یا یک مدل معلم مناسب) به معماری اصلاح شده بود. این از طریق تقطیر به دست آمد، جایی که مدل Ultra-253B-Base برای تقلید از خروجیها یا نمایشهای داخلی مدل معلم آموزش داده شد. این مرحله از یک مجموعه داده قابل توجه، به طور خاص 54 میلیارد توکن، که با یک پنجره زمینه 8k پردازش شده بود، استفاده کرد. تقطیر به مدل ادغام شده و هرس شده کمک میکند تا ظرافتها و قابلیتهایی را که ممکن است در طول تغییرات معماری کمی مختل شده باشند، دوباره به دست آورد.
تنظیم دقیق مرحلهای (Staged Fine-Tuning): پس از تقطیر، مدل تحت یک سری مراحل تنظیم دقیق قرار گرفت که به طور خاص برای تطبیق آن با مدیریت طولهای زمینه به تدریج طولانیتر طراحی شده بود. این برای LLMهای مدرن حیاتی است، که اغلب انتظار میرود متن را بر اساس ورودی گسترده پردازش و تولید کنند. تنظیم دقیق در مراحل زیر انجام شد:
- تنظیم دقیق در پنجره زمینه 16k.
- تنظیم دقیق بیشتر در پنجره زمینه 32k.
- مرحله نهایی تنظیم دقیق در پنجره زمینه 128k.
این رویکرد مرحلهای به مدل اجازه میدهد تا به تدریج پارامترهای خود را، از جمله لایههای FFN تازه تشکیل شده و مکانیزمهای بهینه شده KV cache، برای مدیریت مؤثر وابستگیها و جریان اطلاعات در توالیهای بسیار طولانی تطبیق دهد. هر مرحله بر پایه مرحله قبلی بنا میشود و از پایداری و عملکرد قوی در اندازههای مختلف زمینه اطمینان حاصل میکند.
این رژیم آموزشی دقیق، که تقطیر در مقیاس بزرگ را با تنظیم دقیق مرحلهای و زمینه طولانی ترکیب میکند، در پر کردن شکاف بین کارایی معماری و عملکرد با وفاداری بالا نقش اساسی داشت. این تضمین کرد که مزایای سرعت، هزینه و حافظه ارائه شده توسط FFN Fusion، دقت و قابلیتهای مدل را در معیارهای سختگیرانه به خطر نیندازد.
افقهای گستردهتر: تعمیمپذیری و جهتگیریهای آینده
تحول موفقیتآمیز Llama-405B به Ultra-253B-Base شواهد قوی برای پتانسیل FFN Fusion ارائه میدهد، اما ارزش واقعی آن در کاربرد گستردهتر و بینشهایی است که برای طراحی آینده LLM ارائه میدهد. این تحقیق نشان داد که این صرفاً یک ترفند یکباره قابل اجرا فقط برای مدلهای عظیم نبود.
اعتبارسنجی در مقیاسهای مختلف: محققان NVIDIA به صراحت روش FFN Fusion را بر روی مدلهایی با اندازههای مختلف آزمایش کردند. آنها با موفقیت این تکنیک را بر روی مدلهای 70B پارامتری اعمال کردند و به دستاوردهای کارایی مشابهی نسبت به همتایان اصلی خود دست یافتند. آنها همچنین اعتبارسنجی را در مقیاس 49B گزارش کردند، که این ایده را بیشتر تقویت میکند که استقلال FFN و پتانسیل ادغام، ویژگیهای انحصاری بزرگترین مدلها نیستند، بلکه ممکن است یک ویژگی عمومیتر معماری transformer باشند، که به طور بالقوه در مقیاسهای بزرگتر که توالیهای عمیقتر FFN به طور طبیعی رخ میدهند، برجستهتر میشوند. این نشان میدهد که FFN Fusion میتواند به یک ابزار استاندارد در زرادخانه بهینهسازی LLM تبدیل شود، که در طیف وسیعی از اندازههای مدل قابل اجرا است.
FFN در مقابل ادغام بلوک کامل: این تحقیق همچنین نقش خاص لایههای FFN را در مقایسه با لایههای attention در بلوک transformer روشن کرد. در حالی که لایههای FFN متوالی اغلب وابستگی پایینی را نشان میدادند و آنها را برای ادغام ایدهآل میکردند، تلاش برای موازیسازی کل بلوکهای transformer (شامل هر دو لایه attention و FFN) چالشبرانگیزتر بود. تجزیه و تحلیل نشان داد وابستگیهای متقابل قویتری شامل مکانیزمهای attention وجود دارد. ادغام همزمان کل بلوکها منجر به کاهش عملکرد قابل توجهتری شد، که نشان میدهد لایههای attention نقش حیاتیتر و وابسته به توالی در یکپارچهسازی اطلاعات در بین توکنها ایفا میکنند. این یافته به تعیین مرزهای موازیسازی مؤثر کمک میکند - توالیهای FFN زمین حاصلخیزی هستند، در حالی که مکانیزمهای attention ممکن است به استراتژیهای بهینهسازی متفاوتی نیاز داشته باشند.
پیامدها برای معماری LLM: FFN Fusion چیزی بیش از یک تکنیک بهینهسازی پس از وقوع ارائه میدهد؛ بینشهای ارزشمندی برای طراحی LLMهای آینده فراهم میکند. کشف اینکه توالیهای FFN اغلب میتوانند به عنوان واحدهای قابل موازیسازی در نظر گرفته شوند، فرض کاملاً متوالی را که اغلب زیربنای طراحی transformer است، به چالش میکشد. این میتواند الهامبخش معماریهای جدیدی باشد که ذاتاً از ابتدا سازگارتر با موازیسازی هستند. مدلهای آینده ممکن است با ساختارهای FFN طراحی شوند که به صراحت برای ادغام یا اجرای موازی در نظر گرفته شدهاند، که به طور بالقوه منجر به طراحی مشترک سختافزار-نرمافزار میشود که در آن معماریهای GPU برای بهرهبرداری از این نوع موازیسازی بیشتر بهینه میشوند. روش سیستماتیک با استفاده از فاصله کسینوسی برای کمیسازی وابستگی بین لایهای نیز یک ابزار تحلیلی ارزشمند برای درک و طراحی مجدد ساختارهای شبکه عصبی فراهم میکند. با نشان دادن اینکه دستاوردهای کارایی قابل توجهی از طریق بازطراحی معماری متفکرانه متمرکز بر موازیسازی اجزای موجود امکانپذیر است، FFN Fusion راه را برای توسعه LLMهایی هموار میکند که هم قدرتمند و هم از نظر محاسباتی پایدارتر هستند. این یک مسیر به سوی کاهش تقاضاهای فزاینده منابع هوش مصنوعی پیشرفته را برجسته میکند.