Залогът на MiniMax на линейно внимание

Пионер по нетрадиционен технически път

Бихте ли се представили накратко?

Аз съм Zhong Yiran, старши директор по научни изследвания в MiniMax, където основно наблюдавам дизайна на мрежови архитектури и големи модели за мултимодално разбиране. В MiniMax, основната ми отговорност е да ръководя дизайна на мрежовата структура MiniMax-01.

Преди това служих като главен изследовател за групата за изследване на нови архитектури в Шанхайската лаборатория за изкуствен интелект, фокусирайки се върху ефективни методи за моделиране на обучение за нетрансформаторни архитектури и изследвания върху визуално-аудио-езиково мултимодално сливане.

Кога започнахте да изследвате линейното внимание и защо избрахте този технически път?

Започнах да изследвам линейното внимание около юли 2021 г. Това произтича от статия, по която работих за докторантурата си през 2020 г., ‘Invertible Attention’. По това време както обратимите невронни мрежи, така и механизмите за внимание бяха доста популярни, така че ги комбинирахме в нашите изследвания.

По-късно някои членове на нашия екип се заинтересуваха много от математиката. Ефективните методи за моделиране на последователности като линейното внимание изискват силна математическа основа и включват многобройни извеждания на формули, което се подравняваше перфектно с интересите на екипа, така че избрахме тази посока.

Какъв беше статусът на линейното внимание в индустрията по това време?

Беше много нетрадиционен, с малко хора, работещи по него. Повечето изследователи бяха фокусирани върху трансформаторите, които по същество се бяха превърнали в доминираща сила в NLP.

Мислехме, че вместо да бъдем просто още едно лице в тълпата, занимаваща се с изследвания на трансформатори, трябва да направим нещо различно.

Как оценихте техническия потенциал на маршрута с линейно внимание?

Първоначалната ни мотивация беше ясна: да се справим с квадратичната изчислителна сложност на трансформаторите. Тествахме различни методи, включително разредени трансформатори и линейно внимание.

Установихме, че разредените трансформатори работят, предлагайки по-висока скорост и по-ниска употреба на памет в сравнение с трансформаторите. Въпреки това, линейното внимание се представи зле и също беше бавно. Въпреки това, ние избрахме да следваме линейното внимание.

Една от причините беше математическата му привлекателност – вярвахме, че представянето му трябва да е по-добро. Другата беше, че смятахме, че горната граница на разреденото внимание е пълното внимание, което го прави трудно за надминаване. Линейното внимание, от друга страна, имаше потенциала да го надмине.

Бихте ли обяснили какво е линейно внимание?

Линейното внимание е по същество kernel trick. В трансформаторите, умножаването на Q, K и V матриците включва различни изчислителни сложности в зависимост от това дали умножавате QK първо или KV първо, поради различните измерения.

Умножаването на KV първо може да намали изчислителната сложност до линейна. Проблемът обаче е, че умножението QK е последвано от операция softmax, която не удовлетворява комутативното свойство и не може лесно да бъде разделена на умножаване на KV първо. Следователно, първата стъпка в линейното внимание е да премахнете softmax.

Но премахването на softmax влияе на резултатите. Последващата задача е да се поддържа последователност в резултатите без softmax, което е целта на линейното внимание.

Какви са фундаменталните разлики между линейното внимание, разреденото внимание и линейните RNN архитектури?

Разреденото внимание е все още по същество softmax внимание. То просто изчислява по-малко точки от плътна матрица за внимание. Например, вниманието на плъзгащия се прозорец изчислява само резултата за внимание в рамките на прозорец, постигайки ускорение чрез намаляване на количеството изчисление.

Линейните RNN и линейното внимание са по същество едно и също нещо, просто наречени RNN от някои и внимание от други.

Всичко може да бъде написано във форма на RNN. Например, lightning attention съответства на RWKV-4, докато RWKV-7 е подобрена версия на gated delta net. Въпреки че са сходни по същество, детайлите на тяхното изпълнение се различават.

Какви са ключовите етапи в изследването на механизмите за линейно внимание?

Около 2018-19 г. изследванията показаха, че теоретичната изчислителна сложност на трансформаторното softmax внимание може да бъде намалена с помощта на kernel tricks, но резултатите бяха лоши и ефективността беше ниска.

През 2019-20 г. доминираше разреденото внимание, като компании като Google предложиха много разредени варианти на внимание. По-късно започна да се появява линейно внимание, но то се сблъска с предизвикателството на лошо представяне и ниска скорост.

Изследователите основно приеха два подхода за подобрение: единият беше да се апроксимира softmax функцията, правейки разпределението да съответства на softmax; другият, който избрахме, беше да моделираме, използвайки напълно различни методи, без да се занимаваме с апроксимиране на softmax.

Публикувахме първата си статия, ‘COSFORMER: RETHINKING SOFTMAX IN ATTENTION,’ през октомври 2021 г., която замени softmax операцията с косинусова функция, позволявайки изчислението да бъде разделено.

През първата половина на 2022 г. публикувахме втора статия, ‘The Devil in Linear Transformer,’ която анализира причините за влошаването на производителността на линейното внимание и предостави решения. Това беше предшественикът на lightning attention.

По-късно също изследвахме позиционни кодирания специално за линейно внимание и дълги конволюции, публикувайки TNN, ‘TOEPLITZ NEURAL NETWORK FOR SEQUENCE MODELING,’ метод, подобен на S4 (предшественикът на Mamba).

Накрая стартирахме lightning attention, който съответстваше на производителността на трансформаторите чрез подобрени методи за разпад и мрежови структури. Също така използвахме tiling техника, за да го направим по-бърз.

Какви са вашите мисли за текущите технически маршрути на нетрансформаторна архитектура?

Линейното внимание всъщност е нетрансформаторен метод. В момента, освен RNN-подобните подходи, другите нетрансформаторни архитектури намаляват.

Например, CNNs като дълги конволюции и големи kernel конволюции, се чувстват сякаш са били постепенно елиминирани поради лошо представяне, но те всъщност са доста силни в определени аспекти, все още имат някакъв ефект в моделирането на последователности, като например задачи за откриване на аномалии.

Всъщност има само три нетрансформаторни архитектури: линейно внимание, дълги конволюции и линейни RNNs.

Но в действителност, тези три могат да бъдат обединени в едно, което наричаме модел с линейна сложност. Написахме статия, обхващаща и трите.

Какви са основните разлики между lightning attention и Mamba и RWKV?

Най-основната разлика е, че lightning attention е най-простото линейно внимание. Mamba и RWKV и двата използват data-dependent decay, докато lightning attention използва handcrafted decay за скорост.

Въпреки че learnable decay може да постигне по-добри резултати, той жертва скорост. Например, RWKV-7 е 10-15% по-бавен от gating delta net, докато gated delta net е около половината от скоростта на lightning attention.

Ефектът на моделиране на RWKV е наистина по-добър от lightning attention, но е по-бавен и все още не е решил проблема с извличането.

Има ли сега индустриален консенсус, че линейното внимание има висока и възможна горна граница?

Не, ако имаше консенсус, всички щяха да увеличават линейните модели за внимание. И сега също няма консенсус. Ако имаше, всички щяха да правят linear, но както виждате, това не е така.

Но за нас, вече видяхме това през втората половина на 2023 г. По това време, аз попитах много хора и говорих с много хора и най-честата точка, която те повдигнаха, беше, че знаеха, че линейното внимание работи в малък мащаб, но смятаха, че ще се провали веднъж мащабирано.

По това време, аз си помислих, че ще го мащабирам, за да видят всички. Сега, когато MiniMax-01 е вън, никой не се съмнява в способността на линейното внимание в голям мащаб.

От малки експерименти до широкомащабно изпълнение

Смятате ли, че горната граница на линейното внимание може да надмине пълното внимание?

Вече виждаме, че хибридните архитектури са по-добри от чистите трансформатори. Но най-големият проблем с чистото линейно внимание е способността за извличане, което е труден проблем за решаване от академичните среди.

Съществуващите методи, въпреки че са сложни и бавни, все още не могат напълно да го решат, поради което е необходимо да се премине към хибридни архитектури.

Какъв възел наблюдавахте, който ви накара да решите да излезете от лабораторията?

През май-юни 2023 г., вече имахме lightning attention 2 вътрешно, което беше първото в света изпълнение на линейно внимание, което беше по-бързо от Flash attention.

Вярваме, че е преминал индустриалната червена линия и технологичната му зрялост е много висока и може да бъде мащабирана.

Как определяте тази индустриална червена линия?

Първо, ефектът е по-добър от трансформатора и второ, е по-бърз от трансформатора. Това му дава способността да замени трансформатора. По това време ние проверихме това на плътен модел в мащаб 15B.

При възела, когато излязохте от лабораторията, защо в крайна сметка се събрахте с MiniMax?

Всъщност, аз бях говорил с някои големи компании по това време. Но в крайна сметка, аз все пак направих това да се случи с MiniMax.

На първо място, cosformer е статия, по която си сътрудничих с Junjie. Имаме основа за сътрудничество. Junjie беше моят шеф, когато беше в SenseTime. В края на 23, Junjie ме покани на вечеря. Той е по-уверен във възможностите на тези авангардни технологии. Моето разбиране е, че той също търсеше технически пробив по това време.

По това време, MiniMax беше завършил изследванията на Moe и всъщност имаше много малко технически точки за пробив за следващата стъпка. По това време, lightning attention беше пуснат и mamba също беше популярен, така че в неговите очи, това беше възможно направление.

Това свързано ли е с интерактивния продукт на MiniMax?

Няма връзка. Yan Junjie е по-заинтересован от горната граница на модела и как да пробие допълнително този таван.

Линейното внимание може да бъде повече направление за пробив в ефективността в очите на обществеността, отколкото пробив в тавана.

Тук въпросът е, че на първо място, изчислителната мощност на всеки производител е постоянна. Колкото по-бързо може да бъде ускорен моделът, толкова повече данни може да изяде и толкова по-добър модел се произвежда. Когато изчислителната мощност е постоянна, колкото по-бърз е моделът, толкова по-добър е той.

Наблюдавали ли сте ситуация, в която данните са достигнали връх?

Все още не, нали? Данните все още са в етап на непрекъснато мащабиране, но може да не са толкова агресивни, колкото през 23.

Защото данните винаги се увеличават и нови данни излизат всеки ден. За модела, той има нови данни за обработка всеки ден. Данните, произведени от интернет всеки ден, са толкова много. Чрез почистване, все още можем да извлечем нови данни.

В сравнение с данните, които съществуват толкова много години от човешкото развитие, забавила ли се е скоростта на растеж на данните?

Всъщност, не е задължително. Вижте петте хиляди години от историята на Китай и са натрупани само тези няколко книги. Но с развитието на интернет, увеличението на обема на данните е много стръмна крива. Общите данни, генерирани преди интернет, може да не са толкова, колкото данните, генерирани за една година по-късно.

По време на процеса на мащабиране, с какви предизвикателства се сблъска lightning attention?

За да проверим неговата мащабируемост, първо направихме експерименти със scaling law, постепенно разширявайки се от малки модели до 7B, 9B и накрая мащабирайки се до модели с повече от 400B.

И ние теоретично доказахме, че капацитетът на linear е по-голям от този на transformer.

Определяме капацитета като размера на текущите състояния на RNN. За transformer, размерът на капацитета е O(d), където d е размерът; за линейно внимание, размерът на капацитета е d²/h. Тъй като d е много по-голям от h, капацитетът е по-голям.

В крайна сметка, ние също проверихме, че хибридният модел е по-добър от чистия трансформатор.

Как е постигнат 4M дълъг прозорец на последователност?

За lightning, дължината на обучение може да бъде произволна. Докато изчислителната мощност е напълно използвана, скоростта на обучение 8K, 32K или 128K е същата и TGS (token per GPU per second) е същата.

Тъй като transformer е n² изчислителна сложност, колкото по-дълга е последователността, толкова по-бързо нараства изчислителната сложност и латентността се увеличава в квадратична крива. При дължина 1M, латентността на softmax вниманието е 2700 пъти по-голяма от тази на lightning attention.

Какви технически предизвикателства все още трябва да бъдат решени, за да се постигне безкраен контекстен прозорец в бъдеще?

В нашата настояща хибридна архитектура, все още има 1/8 от softmax вниманието. Това е bottleneck при дължина 1M. Латентността, донесена от тази 1/8 е много по-висока от останалите 7/8 от линейното внимание.

Ако искаме да оптимизираме дълъг текст, трябва да обмислим оптимизиране на softmax attention частта. Можем да се поучим от разредените методи за внимание, за да го направим по-бърз и по-лек.

В допълнение, ние също обмисляме да направим mixing ratio на softmax и линейно внимание по-екстремен, вече не 1/8, а евентуално 1/16 или 1/32. Най-радикалното решение е да поставим само един слой softmax в целия модел, но за застраховка, не го приехме, главно предвид въздействието върху способността за извличане.

Защо способността за извличане е толкова важна за модела?

Извличането е основата на in-context learning и е необходимо условие.

Трябва да запомните информацията в контекста, за да правите in-context learning, а in-context learning е основата на всички усъвършенствани възможности на текущите големи модели, като например CoT (Chain of Thought), особено дълъг CoT, които всички разчитат на способността за извличане.

Решаваща нова архитектура

Обърнали ли сте внимание на последните архитектурни подобрения в FFN и вниманието в индустрията?

Подобрението на FFN е Moe. Също така обърнах внимание на Ultra Mem на Byte, но мисля, че е нещо, което е lossy компресия. Може да има проблеми, ако бъде мащабирано в бъдеще, но не сме го мащабирали, така че мога само да кажа, че може да има проблеми.

Защото FFN е основно това. Нашите подобрения в Moe областта не са нищо повече от промяна от предишния голям експерт към текущия малък експертен режим, което го прави по-разреден и след това правим известно ускорение, което изисква допълнителни изследвания.

Ако искате да го оптимизирате допълнително, защото FFN е умножение на матрици, оптимизацията може да бъде направена само на CUDA ниво от Nvidia, правейки някои от най-ниските оптимизации на умножението на матрици.

Обърнали ли сте внимание на подобренията в архитектурата на вниманието в индустрията?

Подобренията на вниманието са основно линейни. Също така обмисляме дали да направим по-силен Linear в бъдеще и допълнително да ускорим Linear вниманието на текущата основа.

Има много начини за подобрение, единият е да се промени decay и другият е да се променят някои малки трикове вътре. Можете да очаквате нашата нова статия.

Дали нашето текущо съотношение на дължина на контекста и разходи за извод е относително напреднало?

Веднъж щом включва удължаване на дължината на последователността, имаме много очевидно предимство на разходите за изчислителна мощност. Колкото по-дълго е, толкова по-очевидно ще бъде предимството на разходите, независимо дали е извод или обучение.

Например, на 1M, изчислителната мощност, консумирана от линейното внимание е 1/2700 от пълното внимание. В сравнение с това, тъй като все още имаме 1/8 от пълното внимание, то е основно 1/8 от архитектурата на трансформатора, защото линейното внимание основно не се брои като разход.

Ако разходите за изчисление са толкова ниски, може ли да постигне bottleneck за изчисление?

Сега това наистина е bottleneck за достъп до паметта. Декодирането е bottleneck за достъп до паметта, а не bottleneck за изчисление. Тъй като lightning е много бърз, той е твърде бърз, за да позволи на достъпа до паметта да заема толкова малко ресурси, колкото изчислението. Това е главно защото дължината на последователността в действителните приложения не е достатъчно дълга.

Как да го превърнем в bottleneck за изчисление в бъдеще зависи от това как да оптимизираме достъпа до паметта. Това ще бъдат неща, за които инженерният отдел трябва да бъде отговорен.

Ако линейната архитектура стане основната архитектура на следващото поколение, какви подобрения в адаптацията на хардуера биха били по-подходящи за нея?

Много труден въпрос тук е, че трябва да обмислим дължината на последователността. Ако вашата дължина на последователността е фокусирана върху 8K или 32K, тогава вниманието представлява само малко над десет процента, а останалите осемдесет процента са FFN частта.

Дори ако оптимизирате вниманието до екстремност, до 0, сте оптимизирали само малко над десет процента от латентността. Но ако удължите дължината на последователността, делът на вниманието ще става все по-голям и по-голям. Това е в сравнение с пълното внимание, но за линейното внимание, делът му е непроменен.

Тъй като FFN също е линеен и линейното внимание също е линейно, делът му е около 10%, което е почти непроменено, дори в случай на 1M.

Но ако е пълно внимание, изчислението на внимание може да представлява 99%, а следващият FFN представлява само 1%. Така че линейното внимание има предимства само в дълги текстове.

Ако линейната архитектура стане основната, тогава преследването може да бъде хардуер с ниска енергия, само намаляване на консумацията на енергия. Включително Spiking Neural Network (SNN) чипове може да са по-подходящи и някои хора всъщност го правят.

С нетърпение очакваме пътя към AGI

Какви са вашите очаквания за модела open-source ефект?

Първият е ефектът на публичност. Аз лично смятам, че в допълнение към показването на някои мускули, най-важното нещо за open source е да се види как всеки може да го използва в бъдеще. Мисля, че open source за малък модел може да е това, което повече обмисляме да правим в бъдеще.

И как да направим някаква инфраструктура за всеки да finetune също може да се наложи да се обмисли. Open source е дългосрочно нещо за нас в бъдеще и водещите модели трябва да продължат да бъдат open-sourced.

Възможно ли е чиста кръв архитектура, която не е хибридна, да изтече в бъдеще?

В момента няма метод, който да може да се справи по-добре от хибридния, особено по отношение на скоростта. Добавянето на малка част от softmax вниманието, предимството на скоростта е много очевидно, когато дължината на последователността не е особено дълга, особено след появата на flash attention.

Изследванията върху архитектурата с чиста кръв все още продължават, но е много трудно и няма повече ниски плодове. Имаме някои технически решения, но изпълнението не е просто и в крайна сметка зависи от това колко дълга последователност трябва да постигнем.

Друг въпрос е, има ли силно търсене на ултрадълги текстове? Въпреки че модели като Claude са достигнали 200K контекст, потребителите изглеждат много доволни от текущата дължина. Agent приложенията могат да донесат търсене на ултрадълги последователности в бъдеще, но все още няма зрял бенчмарк.

Но аз мисля, че този проблем е като Nvidia, която разработва усъвършенствани графични карти за бъдещи игри, въпреки че не са необходими сега, това е технология за бъдещето.

Например, дълбоките изследвания изискват моделът да прочете съдържанието на десетки уебсайтове и времето за обработка е от порядъка на десетки минути, което може да бъде направление на приложение за дълги текстове.

Какво според вас може да бъде следващото голямо нещо след CoT?

Мислили сме за това. На първо място, текущият модел за разсъждение е относително популярен и основният тази година все още ще бъде частта за разсъждение. След това ни е трудно да си представим каквито и да било особено големи промени в бъдещето на чистите езикови модели.

Също така съм говорил с други учители и тяхното усещане е, че всеки ще намали отново цената на модела, така че скоростта на разсъждение да става все по-бърза и по-бърза и цената му да става все по-ниска и по-ниска и цената е намалена, като същевременно се поддържа ефектът.

Тъй като таванът наближава бързо, по-голямата част от случаите са проверка и попълване на пропуски във възможностите на големите модели. Но ако има още по-големи технологични пробиви, те могат да бъдат сравнително редки в краткосрочен план и все още не сме ги видели.

След като MiniMax изследва линейното внимание, какво може да бъде следващата посока за изследване?

Следващото нещо може да бъде да се изследва архитектурата на мултимодалността, по-специално дали искаме да направим това native поколение и разбиране на унифицирана архитектура на голям модел.

С AGI като крайна точка, кой модел с изчислителна сложност O(n²) или O(n) би бил по-добър отговор?

Разбира се, това е O(n). От гледна точка на антропоморфизма, хората трябва да са O(n) сложност. Например, ако сложността на човек е O(n²), тогава скоростта, с която говоря с вас, ще става все по-бавна и по-бавна.

Защото за transformer, неговата сложност на извод е O(n²) изчислителна сложност, тоест латентността на изплюване на първия token и изплюване на 100-тния token е различна.

Ние, хората, не можем да си представим такова нещо, защото хората никога не са се рестартирали, откакто са родени и постоянно изплюват неща, така че изчислителната сложност на хората е постоянна.

Човекът непременно ли е оптималното решение за интелигентност?

Можем само да мислим така в момента. Има и някои хора, които правят маршрута на bionic интелигентност, но не сме обърнали твърде много внимание на тези посоки.

С AGI като крайна игра, кои области на подобрение на модела са най-важните неща?

В допълнение към езиковото моделиране, има и проблемът с методите на обучение. Как се учите и се учите от околната среда, ученето от взаимодействието с околната среда е много важно. В крайна сметка, текущото мултимодално разбиране все още е много недостатъчно откъм данни.

И дори few-shot learning на машини в момента е етикетирано, но човешкото обучение е не етикетирано. Така че как да обединим всичко под самоконструирана рамка също е проблем.