Ставка MiniMax на Linear Attention: Разговор с Чжун Ижанем, главой архитектуры MiniMax-01
Хотя архитектура Transformer в настоящее время доминирует в сфере генеративного ИИ, она не лишена ограничений, и появляются конкуренты. MiniMax-01, со смелым принятием механизмов linear attention и расширением до беспрецедентных 456 миллиардов параметров, является одним из таких разрушителей в сообществе открытого исходного кода. Это одновременно технологический риск и потенциальная веха в архитектурных инновациях.
В этом интервью мы беседуем с Чжун Ижанем, главой архитектуры MiniMax-01, чтобы изучить путь linear attention от лаборатории до больших моделей промышленного уровня, а также его мысли и идеи об архитектуре модели.
Пионер на не-мейнстримном техническом пути
Не могли бы вы кратко представиться?
Я Чжун Ижань, старший директор по исследованиям в MiniMax, где я в основном курирую разработку сетевых архитектур и больших моделей мультимодального понимания. В MiniMax моя главная задача - руководить разработкой сетевой структуры MiniMax-01.
Ранее я работал в качестве PI для группы исследования новых архитектур в Шанхайской лаборатории искусственного интеллекта, уделяя особое внимание эффективным методам моделирования обучения для не-трансформерных архитектур и исследованиям мультимодального слияния визуального, аудио и языкового контента.
Когда вы начали исследовать linear attention и почему выбрали этот технический путь?
Я начал исследовать linear attention примерно в июле 2021 года. Это произошло из статьи, над которой я работал для своей докторской диссертации в 2020 году, ‘Invertible Attention’. В то время и обратимые нейронные сети, и механизмы внимания были довольно популярны, поэтому мы объединили их в наших исследованиях.
Позже некоторые члены нашей команды очень заинтересовались математикой. Эффективные методы моделирования последовательностей, такие как linear attention, требуют прочной математической базы и включают в себя многочисленные выводы формул, что идеально соответствовало интересам команды, поэтому мы выбрали это направление.
Каков был статус linear attention в отрасли в то время?
Это было очень не-мейнстримно, и над этим работало мало людей. Большинство исследователей были сосредоточены на трансформерах, которые по сути стали доминирующей силой в NLP.
Мы подумали, что вместо того, чтобы быть просто еще одним лицом в толпе, занимающимся исследованиями трансформеров, мы должны сделать что-то другое.
Как вы оценивали технический потенциал маршрута linear attention?
Наша первоначальная мотивация была проста: устранить квадратичную вычислительную сложность трансформеров. Мы протестировали различные методы, включая sparse transformers и linear attention.
Мы обнаружили, что sparse transformers действительно работают, предлагая более высокую скорость и меньшее использование памяти по сравнению с трансформерами. Однако linear attention работал плохо и также был медленным. Несмотря на это, мы решили продолжить linear attention.
Одной из причин была его математическая привлекательность - мы считали, что его производительность должна быть лучше. Другой причиной было то, что мы чувствовали, что верхний предел sparse attention - это полное внимание, что затрудняет его превзойти. Linear attention, с другой стороны, потенциально мог превзойти его.
Не могли бы вы объяснить, что такое linear attention?
Linear attention - это, по сути, kernel trick. В трансформерах умножение матриц Q, K и V предполагает различную вычислительную сложность в зависимости от того, умножаете ли вы QK сначала или KV сначала, из-за различных размеров.
Умножение KV сначала может снизить вычислительную сложность до линейной. Однако проблема в том, что за умножением QK следует операция softmax, которая не удовлетворяет коммутативному свойству и ее нелегко разделить на умножение KV первым. Поэтому первый шаг в linear attention - это удаление softmax.
Но удаление softmax влияет на результаты. Последующая задача состоит в том, чтобы поддерживать согласованность результатов без softmax, и это то, чего linear attention стремится достичь.
Каковы фундаментальные различия между linear attention, sparse attention и линейными архитектурами RNN?
Sparse attention по-прежнему является по существу softmax attention. Он просто вычисляет меньше точек, чем плотная матрица внимания. Например, sliding window attention вычисляет только оценку внимания в пределах окна, достигая ускорения за счет уменьшения объема вычислений.
Linear RNNs и linear attention - это, по сути, одно и то же, просто одни называют это RNN, а другие - attention.
Все можно записать в форме RNN. Например, lightning attention соответствует RWKV-4, а RWKV-7 - улучшенная версия gated delta net. Хотя они похожи по существу, их детали реализации различаются.
Каковы ключевые вехи в исследовании механизмов linear attention?
Примерно в 2018-19 годах исследования показали, что теоретическая вычислительная сложность transformer softmax attention может быть снижена с использованием kernel tricks, но результаты были плохими, а эффективность низкой.
В 2019-20 годах доминировал sparse attention, и такие компании, как Google, предложили множество вариантов sparse attention. Позже начал появляться linear attention, но он столкнулся с проблемой плохой производительности и низкой скорости.
Исследователи в основном использовали два подхода к улучшению: один - аппроксимировать функцию softmax, приводя распределение в соответствие с softmax; другой, который выбрали мы, - моделировать, используя совершенно разные методы, не беспокоясь об аппроксимации softmax.
Мы опубликовали нашу первую статью, ‘COSFORMER: RETHINKING SOFTMAX IN ATTENTION’, в октябре 2021 года, в которой заменили операцию softmax косинусной функцией, позволяя разделить вычисление.
В первой половине 2022 года мы опубликовали вторую статью, ‘The Devil in Linear Transformer’, в которой проанализировали причины ухудшения производительности linear attention и предложили решения. Это было предвестником lightning attention.
Позже мы также исследовали позиционные кодировки специально для linear attention и длинных сверток, опубликовав TNN, ‘TOEPLITZ NEURAL NETWORK FOR SEQUENCE MODELING’, метод, аналогичный S4 (предшественник Mamba).
Наконец, мы запустили lightning attention, который соответствовал производительности трансформеров благодаря улучшенным методам затухания и сетевым структурам. Мы также использовали технику tiling, чтобы сделать его быстрее.
Что вы думаете о текущих не-трансформерных архитектурных технических маршрутах?
Linear attention на самом деле является не-трансформерным методом. В настоящее время, помимо подходов, подобных RNN, другие не-трансформерные архитектуры приходят в упадок.
Например, CNN, такие как длинные свертки и свертки с большими ядрами, кажутся постепенно исключенными из-за плохой производительности, но на самом деле они довольно сильны в определенных аспектах, все еще оказывая некоторое влияние в моделировании последовательностей, например, в задачах обнаружения аномалий.
На самом деле существует только три не-трансформерные архитектуры: linear attention, длинные свертки и линейные RNN.
Но в действительности эти три можно объединить в одну, которую мы называем моделью линейной сложности. Мы написали статью, охватывающую все три.
Каковы основные различия между lightning attention и Mamba и RWKV?
Самое основное различие заключается в том, что lightning attention - это простейший linear attention. Mamba и RWKV оба используют зависящее от данных затухание, в то время как lightning attention использует разработанное вручную затухание для скорости.
Хотя обучаемое затухание может давать лучшие результаты, оно жертвует скоростью. Например, RWKV-7 на 10-15% медленнее, чем gating delta net, в то время как gating delta net примерно вдвое медленнее, чем lightning attention.
Эффект моделирования RWKV действительно лучше, чем у lightning attention, но он медленнее и еще не решил проблему поиска.
Существует ли сейчас в отрасли консенсус в отношении того, что linear attention имеет высокий и осуществимый верхний предел?
Нет, если бы это был консенсус, все бы масштабировали модели linear attention. И сейчас это тоже не консенсус. Если бы это было так, все бы делали линейные, но, как видите, это не так.
Но для нас мы уже увидели это во второй половине 2023 года. В то время я спрашивал многих людей и разговаривал со многими, и самым распространенным моментом, который они поднимали, было то, что они знали, что linear attention работает в небольшом масштабе, но чувствовали, что он потерпит неудачу, как только его масштабируют.
В то время я думал, что масштабирую его, чтобы все увидели. Теперь, когда MiniMax-01 вышел, никто не сомневается в способности linear attention в большом масштабе.
От небольших экспериментов к крупномасштабной реализации
Как вы думаете, верхний предел linear attention может превзойти полное внимание?
Теперь мы видим, что гибридные архитектуры лучше, чем чистые трансформеры. Но самая большая проблема с чистым linear attention - это способность к поиску, что является трудной проблемой для решения в академических кругах.
Существующие методы, хотя и сложные и медленные, все еще не могут полностью решить ее, поэтому необходимо двигаться в направлении гибридных архитектур.
Какой узел вы наблюдали, который заставил вас решить выйти из лаборатории?
В мае-июне 2023 года у нас уже был lightning attention 2 внутри компании, который был первой в мире реализацией linear attention, которая была быстрее, чем Flash attention.
Мы считаем, что он пересек промышленную красную линию, и его технологическая зрелость очень высока, и его можно масштабировать.
Как вы определяете эту промышленную красную линию?
Во-первых, эффект лучше, чем у transformer, и, во-вторых, он быстрее, чем transformer. Это дает ему возможность заменить transformer. Мы проверили это на плотной модели масштаба 15B в то время.
В узле, когда вы вышли из лаборатории, почему вы в конечном итоге объединились с MiniMax?
На самом деле, я разговаривал с некоторыми крупными компаниями в то время. Но в конце концов я все же сделал это с MiniMax.
Прежде всего, cosformer - это статья, над которой я сотрудничал с Junjie. У нас есть основа для сотрудничества. Junjie был моим боссом, когда он был в SenseTime. В конце 23 года Junjie пригласил меня на ужин. Он более уверен в возможностях этих передовых технологий. Я понимаю, что он также искал технический прорыв в то время.
В то время MiniMax завершила исследование Moe, и на самом деле было очень мало технических точек прорыва для следующего шага. В то время был выпущен lightning attention, а mamba также был популярен, поэтому в его глазах это было осуществимым направлением.
Связано ли это с интерактивным компаньоном MiniMax?
Нет никакой связи. Янь Цзюньцзе больше обеспокоен верхним пределом модели и тем, как еще больше прорвать этот потолок.
Linear attention может быть скорее направлением для прорыва в эффективности в глазах общественности, а не для прорыва потолка.
Здесь важно то, что, во-первых, вычислительная мощность каждого производителя постоянна. Чем быстрее можно ускорить модель, тем больше данных она может съесть, и тем лучше модель будет произведена. Когда вычислительная мощность постоянна, тем быстрее модель, тем лучше.
Вы наблюдали ситуацию, когда данные достигли пика?
Еще нет, верно? Данные все еще находятся на стадии непрерывного масштабирования, но это может быть не так агрессивно, как в 23 году.
Потому что данные всегда увеличиваются, и каждый день появляются новые данные. Для модели каждый день есть новые данные для обработки. Данных, производимых Интернетом каждый день, так много. Благодаря очистке мы все еще можем получать новые данные.
По сравнению с данными, которые существовали на протяжении стольких лет развития человечества, замедлился ли темп роста данных?
На самом деле, не обязательно. Посмотрите на пять тысяч лет истории Китая, и было накоплено всего несколько книг. Но с развитием Интернета увеличение объема данных представляет собой очень крутую кривую. Общий объем данных, сгенерированных до Интернета, может быть не таким большим, как данные, сгенерированные за один год позже.
Во время процесса масштабирования, с какими проблемами столкнулся lightning attention?
Чтобы проверить его масштабируемость, мы сначала провели эксперименты с законом масштабирования, постепенно расширяясь от небольших моделей до 7B, 9B и, наконец, масштабируясь до моделей с более чем 400B.
И мы теоретически доказали, что емкость линейной больше, чем у transformer.
Мы определяем емкость как размер текущих состояний RNN. Для transformer размер емкости составляет O(d), где d - размер; для linear attention размер емкости составляет d²/h. Поскольку d намного больше, чем h, емкость больше.
В конце концов, мы также проверили, что гибридная модель лучше, чем чистый transformer.
Как достигается окно последовательности длиной 4M?
Для lightning длина обучения может быть произвольной. Пока вычислительная мощность используется полностью, скорость обучения 8K, 32K или 128K одинакова, и TGS (token per GPU per second) одинаков.
Поскольку transformer имеет вычислительную сложность n², чем длиннее последовательность, тем быстрее растет вычислительная сложность, и задержка увеличивается по квадратичной кривой. При длине 1M задержка softmax attention в 2700 раз больше, чем у lightning attention.
Какие технические проблемы все еще необходимо решить для достижения бесконечного контекстного окна в будущем?
В нашей текущей гибридной архитектуре все еще есть 1/8 softmax attention. Это узкое место при длине 1M. Задержка, вызванная этой 1/8, намного выше, чем оставшиеся 7/8 linear attention.
Если мы хотим оптимизировать длинный текст, мы должны рассмотреть возможность оптимизации части softmax attention. Мы можем учиться у методов sparse attention, чтобы сделать его быстрее и легче.
Кроме того, мы также рассматриваем возможность сделать коэффициент смешивания softmax и linear attention более экстремальным, больше не 1/8, а, возможно, 1/16 или 1/32. Самым радикальным решением было бы поместить только один слой softmax во всю модель, но для подстраховки мы не приняли его, в основном учитывая влияние на способность к поиску.
Почему способность к поиску так важна для модели?
Поиск является основой обучения в контексте и является необходимым условием.
Вы должны помнить информацию в контексте, чтобы заниматься обучением в контексте, а обучение в контексте является основой всех передовых возможностей текущих больших моделей, таких как CoT (Chain of Thought), особенно длинный CoT, который полностью зависит от способности к поиску.
Решительная новая архитектура
Вы обращали внимание на последние архитектурные улучшения в FFN и attention в отрасли?
Улучшение FFN - это Moe. Я также обратил внимание на Ultra Mem от Byte, но я думаю, что это потерянная вещь, потерянная компрессия. Могут возникнуть проблемы, если в будущем его масштабировать, но мы не масштабировали, поэтому я могу только сказать, что могут быть проблемы.
Поскольку FFN в основном это. Наши улучшения в области Moe - это не более чем переход от предыдущего крупного эксперта к текущему режиму малого эксперта, что делает его более редким, а затем некоторое ускорение, что требует дальнейших исследований.
Если вы хотите оптимизировать его дальше, поскольку FFN является матричным умножением, оптимизация может быть выполнена только на уровне CUDA Nvidia, выполнив некоторые оптимизации матричного умножения нижнего уровня.
Вы обращали внимание на улучшения в архитектуре attention в отрасли?
Улучшения в attention в основном линейные. Мы также рассматриваем, стоит ли в будущем сделать более сильный Linear и еще больше ускорить Linear attention на текущей основе.
Есть много способов улучшить, один из них - изменить затухание, а другой - изменить некоторые небольшие трюки внутри. Вы можете рассчитывать на нашу новую статью.
Является ли наше текущее соотношение длины контекста и стоимости вывода относительно продвинутым?
Как только это связано с удлинением длины последовательности, у нас есть очень очевидное преимущество в стоимости вычислительной мощности. Чем дольше, тем очевиднее будет преимущество в стоимости, будь то вывод или обучение.
Например, на 1M вычислительная мощность, потребляемая linear attention, составляет 1/2700 от полного внимания. В сравнении, поскольку у нас все еще есть 1/8 полного внимания, это в основном 1/8 архитектуры transformer, потому что linear attention в основном не считается расходом.
Если стоимость вычислений настолько низкая, может ли это достичь узкого места вычислений?
Сейчас это действительно узкое место доступа к памяти. Декодирование - это узкое место доступа к памяти, а не узкое место вычислений. Поскольку lightning очень быстрый, он слишком быстрый, чтобы позволить доступу к памяти занимать так же мало ресурсов, как и вычисления. Это в основном потому, что длина последовательности в реальных приложениях недостаточно длинная.
Как сделать это узким местом вычислений в будущем, зависит от того, как оптимизировать доступ к памяти. Это будут вещи, за которые должен отвечать инженерный отдел.
Если линейная архитектура станет основной архитектурой следующего поколения, какие аппаратные улучшения адаптации будут более подходящими для нее?
Здесь очень сложная вещь - это то, что нам нужно учитывать длину последовательности. Если ваша длина последовательности сосредоточена на 8K или 32K, то attention составляет всего чуть более десяти процентов, а оставшиеся восемьдесят процентов - это часть FFN.
Даже если вы оптимизируете attention до крайности, до 0, вы оптимизировали только чуть более десяти процентов задержки. Но если вы удлините длину последовательности, доля attention будет становиться все больше и больше. Это по сравнению с полным вниманием, но для linear attention его доля не меняется.
Поскольку FFN также является линейным, а linear attention также является линейным, его доля составляет около 10%, что почти не меняется даже в случае 1M.
Но если это полное внимание, вычисление attention может составлять 99%, а следующая FFN - только 1%. Поэтому linear attention имеет преимущества только в длинных текстах.
Если линейная архитектура станет основной, то стремление может быть к малоэнергоемкому оборудованию, только снижению энергопотребления. Включая чипы Spiking Neural Network (SNN) могут быть более подходящими, и некоторые люди на самом деле делают это.
В ожидании пути к AGI
Каковы ваши ожидания от эффекта открытого исходного кода модели?
Первый - это эффект публичности. Я лично думаю, что в дополнение к демонстрации некоторых мускулов, самое важное для открытого исходного кода - увидеть, как каждый сможет использовать его в будущем. Я думаю, что открытый исходный код небольшой модели может быть тем, что мы больше рассматриваем для выполнения в будущем.
И как сделать некоторую инфраструктуру для всех, чтобы ее точно настроить, возможно, также необходимо учитывать. Открытый исходный код - это долгосрочная вещь для нас в будущем, и флагманские модели должны продолжать быть открытыми.
Возможно ли, что в будущем выбежит чистокровная архитектура, которая не является гибридной?
В настоящее время нет метода, который может работать лучше, чем гибридный, особенно с точки зрения скорости. Добавление небольшой части softmax attention, преимущество в скорости очень очевидно, когда длина последовательности не особенно длинная, особенно после появления flash attention.
Исследования чистокровной архитектуры все еще продолжаются, но это очень сложно, и больше нет низко висящих фруктов. У нас есть некоторые технические решения, но реализация не проста, и в конечном итоге зависит от того, какой длины последовательности нам нужно достичь.
Другой вопрос заключается в том, есть ли сильный спрос на сверхдлинные тексты? Хотя такие модели, как Claude, достигли контекста 200K, пользователи, кажется, очень довольны текущей длиной. Приложения Agent могут принести спрос на сверхдлинные последовательности в будущем, но пока нет зрелого эталона.
Но я думаю, что эта проблема похожа на то, как Nvidia разрабатывает передовые производительные видеокарты для будущих игр, даже если они не нужны сейчас, это технология для будущего.
Например, глубокие исследования требуют, чтобы модель читала содержимое десятков веб-сайтов, а время обработки составляет порядка десятков минут, что может быть направлением применения для длинных текстов.
Что, по вашему мнению, может быть следующим большим шагом после CoT?
Мы об этом думали. Прежде всего, текущая модель рассуждений относительно популярна, и основным направлением в этом году по-прежнему будет часть рассуждений. После этого нам трудно придумать какие-либо особенно большие изменения в будущем чистых языковых моделей.
Я также разговаривал с другими учителями, и их ощущение заключается в том, что каждый повторно снизит стоимость модели, чтобы скорость рассуждений становилась все быстрее и быстрее, а ее цена становилась все ниже и ниже, и стоимость снижалась при сохранении эффекта.
Поскольку потолок быстро приближается, подавляющее большинство случаев - это проверка и заполнение пробелов в возможностях больших моделей. Но если и будут еще большие технологические прорывы, они могут быть относительно редкими в краткосрочной перспективе, и мы их еще не видели.
После того, как MiniMax исследовал linear attention, какое может быть следующее направление для исследования?
Следующее, что может быть, это исследование архитектуры мультимодального, в частности, хотим ли мы сделать эту архитектуру унифицированной большой модели для генерации и понимания.
С AGI в качестве конечной точки, какая модель с вычислительной сложностью O(n²) или O(n) была бы лучшим ответом?
Конечно, это O(n). С точки зрения антропоморфизма, люди должны иметь сложность O(n). Например, если сложность человека составляет O(n²), то скорость, с которой я говорю с вами, будет становиться все медленнее и медленнее.
Поскольку для transformer его сложность вывода составляет вычислительную сложность O(n²), то есть задержка выдачи первого токена и выдачи 100-го токена различна.
Мы, люди, не можем представить себе такую вещь, потому что люди никогда не перезапускались с тех пор, как родились, и все время выплевывали вещи, поэтому вычислительная сложность людей постоянна.
Является ли человек обязательно оптимальным решением для интеллекта?
Мы можем думать так только в данный момент. Есть также некоторые люди, которые занимаются маршрутом биомиметического интеллекта, но мы не уделяли слишком много внимания этим направлениям.
С AGI в качестве конечной игры, какие области улучшения модели являются самыми важными?
В дополнение к языковому моделированию, есть также проблема методов обучения. То, как вы учитесь, и учитесь у окружающей среды, обучение на взаимодействии с окружающей средой очень важно. В конце концов, текущее мультимодальное понимание все еще очень не хватает в данных.
И даже few-shot обучение машин в настоящее время помечено, но человеческое обучение не помечено. Поэтому, как унифицировать все в рамках самоконструируемой структуры, также является проблемой.