Разработка ИИ неуклонно демонстрирует, что более крупные модели, как правило, умнее, но их эксплуатационные требования также возрастают. Это создает серьезную проблему, особенно в регионах с ограниченным доступом к передовым ИИ-чипам. Однако, независимо от географических ограничений, среди разработчиков моделей растет тенденция к использованию архитектур Mixture of Experts (MoE) в сочетании с инновационными методами сжатия. Цель? Значительно сократить вычислительные ресурсы, необходимые для развертывания и запуска этих обширных больших языковых моделей (LLM). По мере приближения третьей годовщины бума генеративного ИИ, вызванного ChatGPT, отрасль, наконец, начинает серьезно рассматривать экономические последствия поддержания этих энергоемких моделей в рабочем состоянии.
Хотя модели MoE, такие как модели от Mistral AI, существуют уже некоторое время, их настоящий прорыв произошел в последний год. Мы стали свидетелями всплеска новых LLM с открытым исходным кодом от таких технологических гигантов, как Microsoft, Google, IBM, Meta, DeepSeek и Alibaba, и все они используют ту или иную форму архитектуры MoE. Привлекательность проста: архитектуры MoE предлагают гораздо более эффективную альтернативу традиционным архитектурам “плотных” моделей.
Преодоление ограничений памяти
Основа архитектуры MoE восходит к началу 1990-х годов, с публикацией “Адаптивных смесей локальных экспертов”. Основная идея заключается в распределении задач между одной или несколькими специализированными подмоделями или “экспертами”, а не в использовании единой, массивной модели, обученной на широком спектре данных.
Теоретически, каждый эксперт может быть тщательно оптимизирован для определенной области, от кодирования и математики до творческого письма. Однако стоит отметить, что большинство разработчиков моделей предоставляют ограниченные сведения о конкретных экспертах в своих моделях MoE, и количество экспертов варьируется от модели к модели. Крайне важно, что в любой момент времени активно задействована только часть общей модели.
Рассмотрим модель DeepSeek V3, которая состоит из 256 маршрутизируемых экспертов и одного общего эксперта. Во время обработки токенов активируются только восемь маршрутизируемых экспертов плюс общий. Эта избирательная активация означает, что модели MoE не всегда могут достигать того же уровня качества, что и плотные модели аналогичного размера. Например, модель Alibaba Qwen3-30B-A3B MoE постоянно демонстрировала результаты хуже, чем плотная модель Qwen3-32B, в эталонных тестах Alibaba.
Однако важно сопоставить это небольшое снижение качества со значительным выигрышем в эффективности, предлагаемым архитектурами MoE. Сокращение количества активных параметров приводит к тому, что требования к пропускной способности памяти больше не пропорциональны емкости, необходимой для хранения весов модели. По сути, хотя моделям MoE может по-прежнему требоваться большой объем памяти, им не обязательно нужна самая быстрая и дорогая память High Bandwidth Memory (HBM).
Проиллюстрируем это сравнением. Рассмотрим самую большую “плотную” модель Meta, Llama 3.1 405B, и Llama4 Maverick, сопоставимую модель, которая использует архитектуру MoE с 17 миллиардами активных параметров. Хотя многочисленные факторы, такие как размер пакета, производительность с плавающей запятой и кэширование ключ-значение, влияют на реальную производительность, мы можем приблизительно оценить минимальные требования к пропускной способности, умножив размер модели в гигабайтах с заданной точностью (1 байт на параметр для 8-битных моделей) на целевое количество токенов в секунду при размере пакета, равном единице.
Запуск 8-битной квантованной версии Llama 3.1 405B потребует более 405 ГБ vRAM и не менее 20 ТБ/с пропускной способности памяти для генерации текста со скоростью 50 токенов в секунду. Системы Nvidia на базе HGX H100, которые до недавнего времени стоили 300 000 долларов и более, обеспечивали только 640 ГБ HBM3 и примерно 26,8 TБ/с совокупной пропускной способности. Для запуска полной 16-битной модели потребовалось бы как минимум две такие системы.
Напротив, Llama 4 Maverick, потребляя тот же объем памяти, требует менее 1 TБ/с пропускной способности для достижения сопоставимой производительности. Это связано с тем, что в генерации выходных данных активно участвуют только 17 миллиардов параметров экспертов модели. Это означает десятикратное увеличение скорости генерации текста на одном и том же оборудовании.
И наоборот, если чистая производительность не является приоритетной задачей, многие из этих моделей теперь можно запускать на более дешевой, хотя и более медленной, памяти GDDR6, GDDR7 или даже DDR, как это видно в последних Xeon от Intel.
Новые серверы RTX Pro от Nvidia, анонсированные на Computex, адаптированы именно к этому сценарию. Вместо того, чтобы полагаться на дорогую и энергоемкую HBM, требующую передовой упаковки, каждая из восьми графических процессоров RTX Pro 6000 в этих системах оснащена 96 ГБ памяти GDDR7, той же, что и в современных игровых картах.
Эти системы обеспечивают до 768 ГБ vRAM и 12,8 ТБ/с совокупной пропускной способности, чего более чем достаточно для запуска Llama 4 Maverick со скоростью сотни токенов в секунду. Хотя Nvidia не раскрыла цены, рабочая станция этих карт продается по цене около 8 500 долларов, что позволяет предположить, что эти серверы могут стоить менее половины стоимости подержанного HGX H100.
Однако MoE не означает конец графических процессоров, объединенных в HBM. Ожидается, что Llama 4 Behemoth, если она когда-нибудь выйдет, потребует стойку, полную графических процессоров, из-за своего огромного размера.
Имея примерно половину активных параметров, как у Llama 3.1 405B, она может похвастаться в общей сложности 2 триллионами параметров. В настоящее время на рынке нет ни одного обычного GPU-сервера, который мог бы вместить полную 16-битную модель и окно контекста в миллион токенов или более.
Ренессанс процессоров в ИИ?
В зависимости от конкретного приложения графический процессор может быть не всегда необходим, особенно в регионах, где доступ к высокопроизводительным ускорителям ограничен.
В апреле Intel продемонстрировала двухпроцессорную платформу Xeon 6, оснащенную MCRDIMM с частотой 8800 МТ/с. Эта установка достигла пропускной способности 240 токенов в секунду в Llama 4 Maverick со средней задержкой вывода менее 100 мс на токен.
Проще говоря, платформа Xeon может поддерживать 10 или более токенов в секунду на пользователя примерно для 24 одновременных пользователей.
Intel не раскрыла показатели производительности для одного пользователя, поскольку они менее актуальны в реальных сценариях. Однако оценки показывают пиковую производительность около 100 токенов в секунду.
Тем не менее, если нет лучших альтернатив или особых требований, экономика умозаключений на основе ЦП по-прежнему сильно зависит от варианта использования.
Сокращение веса: обрезка и квантование
Архитектуры MoE могут снизить пропускную способность памяти, необходимую для обслуживания больших моделей, но они не уменьшают объем памяти, необходимый для хранения их весов. Даже при 8-битной точности Llama 4 Maverick требует более 400 ГБ памяти для запуска, независимо от количества активных параметров.
Новые методы обрезки и методы квантования потенциально могут вдвое сократить это требование без ущерба для качества.
Nvidia является сторонником обрезки, выпустив обрезанные версии моделей Meta Llama 3, из которых были удалены избыточные веса.
Nvidia также была одной из первых компаний, поддержавших 8-битные типы данных с плавающей запятой в 2022 году, и снова с 4-битной плавающей запятой с запуском своей архитектуры Blackwell в 2024 году. Ожидается, что первые микросхемы AMD с собственной поддержкой FP4 будут выпущены в ближайшее время.
Хотя это и не является строго необходимым, встроенная аппаратная поддержка этих типов данных, как правило, снижает вероятность возникновения вычислительных узких мест, особенно при обслуживании в масштабе.
Мы стали свидетелями того, как все больше и больше разработчиков моделей принимают типы данных с более низкой точностью, при этом Meta, Microsoft и Alibaba предлагают восьмибитные и даже четырехбитные квантованные версии своих моделей.
Квантование включает в себя сжатие весов модели из их собственной точности, обычно BF16, до FP8 или INT4. Это эффективно снижает требования к пропускной способности памяти и емкости моделей вдвое или даже на три четверти за счет некоторого качества.
Потери, связанные с переходом с 16 бит на восемь бит, часто незначительны, и несколько создателей моделей, включая DeepSeek, начали обучение с точностью FP8 с самого начала. Однако уменьшение точности еще на четыре бита может привести к значительному ухудшению качества. Следовательно, многие подходы к квантованию после обучения, такие как GGUF, не сжимают все веса одинаково, оставляя некоторые на более высоких уровнях точности, чтобы минимизировать потерю качества.
Google недавно продемонстрировала использование обучения с учетом квантования (QAT) для уменьшения своих моделей Gemma 3 в 4 раза, сохраняя при этом уровни качества, близкие к исходному BF16.
QAT имитирует операции с низкой точностью во время обучения. Применяя этот метод примерно в течение 5000 шагов на неквалифицированной модели, Google смогла уменьшить падение перплексии, метрики для измерения потерь, связанных с квантованием, на 54 процента при преобразовании в INT4.
Другой подход к квантованию на основе QAT, известный как Bitnet, нацелен на еще более низкие уровни точности, сжимая модели всего до 1,58 бита, или примерно до одной десятой их первоначального размера.
Синергия технологий
Сочетание MoE и 4-битного квантования предлагает значительные преимущества, особенно когда пропускная способность ограничена.
Для других, у которых нет ограничений по пропускной способности, однако любая из двух технологий, будь то MoE или квантование, может существенно снизить стоимость оборудования и эксплуатации для запуска более крупных и мощных моделей; это при условии, что для них можно найти ценную услугу для выполнения.
А если нет, вы можете, по крайней мере, утешиться тем, что вы не одиноки - недавний опрос IBM показал, что только одно из четырех развертываний ИИ принесло обещанную рентабельность инвестиций.