Переосмысление AI чипов в эпоху DeepSeek

Быстрый темп инноваций в области искусственного интеллекта (AI), примером чего являются достижения DeepSeek, требует фундаментальной переоценки того, как мы строим центры обработки данных, чипы и системы, чтобы обеспечить необходимую вычислительную мощность. Инженерные инновации DeepSeek значительно снизили затраты на AI-вычисления, что вызвало широкую дискуссию о будущем AI-инфраструктуры.

Хотя DeepSeek, возможно, и не расширила радикально границы AI-технологий, её влияние на AI-рынок огромно. Такие технологии, как Mixture of Experts (MoE), Multi-Layer Attention (MLA) и Multi-Token Prediction (MTP), приобрели известность наряду с DeepSeek. Хотя не все эти технологии были впервые разработаны DeepSeek, их успешная реализация стимулировала широкое распространение. MLA, в частности, стала центральной темой обсуждения на различных платформах, от периферийных устройств до облачных вычислений.

MLA и вызов алгоритмической инновации

Элад Раз, генеральный директор NextSilicon, недавно отметил, что, хотя MLA улучшает эффективность использования памяти, она также может увеличить нагрузку на разработчиков и усложнить применение AI в производственных средах. Пользователям GPU, возможно, потребуется заниматься оптимизацией ‘вручную’ для MLA. Этот пример подчеркивает необходимость переосмысления реализации AI-чипов и архитектур инфраструктуры в эпоху после DeepSeek.

Чтобы понять значимость MLA, важно усвоить основные концепции больших языковых моделей (LLM). При генерации ответов на запросы пользователей LLM в значительной степени полагаются на KV-векторы – ключи и значения, – которые позволяют модели фокусироваться на релевантных данных. В механизмах внимания модель сравнивает новые запросы с ключами, чтобы определить наиболее релевантный контент.

Элад Раз использует аналогию с книгой, где ключ подобен ‘названиям глав книги, указывающим, о чем каждая часть, а значение – более подробным резюме под этими названиями. Таким образом, когда пользователь вводит запрос, он просит поисковый термин, чтобы помочь сгенерировать ответ. Он спрашивает: “В этой сюжетной линии какая глава наиболее релевантна?”‘.

MLA сжимает эти названия глав (ключи) и резюме (значения), ускоряя процесс поиска ответов и повышая эффективность. В конечном итоге MLA помогает DeepSeek снизить использование памяти на 5-13%. Более подробную информацию можно найти в официальной статье DeepSeek. На конференции разработчиков MediaTek даже обсуждалась поддержка MLA в их мобильных чипах Dimensity, что подчеркивает широкое влияние DeepSeek.

Такие технологии, как MLA, представляют собой типичные алгоритмические инновации в эпоху AI. Однако быстрый темп развития AI-технологий приводит к постоянному потоку инноваций, что, в свою очередь, создает новые проблемы, особенно когда эти инновации адаптированы к конкретным платформам. В случае с MLA пользователям GPU, отличных от NVIDIA, требуется дополнительное ручное кодирование для использования этой технологии.

Хотя технологии DeepSeek демонстрируют инновации и ценность эпохи AI, аппаратное и программное обеспечение должны адаптироваться к этим инновациям. По словам Элада Раза, такая адаптация должна минимизировать сложность для разработчиков и производственных сред. В противном случае стоимость каждой инновации становится непомерно высокой.

Тогда возникает вопрос: ‘Что произойдет, если следующая алгоритмическая инновация плохо и просто транслируется в существующие архитектуры?’

Конфликт между дизайном чипов и алгоритмической инновацией

В течение последних нескольких лет производители AI-чипов постоянно сообщали, что проектирование крупных AI-чипов занимает не менее 1-2 лет. Это означает, что проектирование чипа должно начинаться задолго до его выхода на рынок. Учитывая быстрые достижения в AI-технологиях, проектирование AI-чипов должно быть перспективным. Сосредоточение внимания исключительно на текущих потребностях приведет к устаревшим AI-чипам, которые не смогут адаптироваться к последним инновациям в приложениях.

Инновации в алгоритмах AI-приложений теперь происходят еженедельно. Как упоминалось в предыдущих статьях, вычислительная мощность, необходимая AI-моделям для достижения тех же возможностей, снижается в 4-10 раз в год. Стоимость логического вывода AI-моделей, достигающих качества, аналогичного GPT-3, снизилась в 1200 раз за последние три года. В настоящее время модели с 2 миллиардами параметров могут достичь того же уровня, что и GPT-3 с параметром 170B в прошлом. Эта быстрая инновация в верхних слоях стека AI-технологий создает значительные проблемы для традиционного планирования и проектирования архитектуры чипов.

Элад Раз считает, что отрасль должна признать такие инновации, как DeepSeek MLA, нормой для AI-технологий. ‘Вычислениям следующего поколения необходимо не только оптимизировать сегодняшние нагрузки, но и учитывать будущие прорывы’. Эта точка зрения относится не только к чиповой промышленности, но и ко всей инфраструктуре среднего и нижнего уровня стека AI-технологий.

‘DeepSeek и другие инновации продемонстрировали быстрое развитие алгоритмической инновации’, – сказал Элад Раз. ‘Исследователям и специалистам по обработке данных нужны более универсальные, отказоустойчивые инструменты для получения новых знаний и открытий. Рынку нужны интеллектуальные, программно-определяемые аппаратные вычислительные платформы, которые позволяют клиентам ‘заменять’ существующие решения ускорителей, позволяя разработчикам безболезненно переносить свою работу’.

Чтобы справиться с этой ситуацией, отрасль должна разрабатывать более интеллектуальную, адаптируемую и гибкую вычислительную инфраструктуру.

Гибкость и эффективность часто являются конфликтующими целями. ЦП очень гибки, но имеют значительно более низкую эффективность параллельных вычислений, чем графические процессоры. Графические процессоры, с их программируемостью, могут быть менее эффективными, чем специализированные AI ASIC-чипы.

Элад Раз отметил, что NVIDIA ожидает, что стойки центров обработки данных AI вскоре достигнут мощности 600 кВт. Для справки, 75% стандартных корпоративных центров обработки данных имеют пиковое энергопотребление всего 15-20 кВт на стойку. Независимо от потенциального повышения эффективности в AI, это создает серьезную проблему для центров обработки данных, строящих системы вычислительной инфраструктуры.

По мнению Элада Раза, текущих графических процессоров и AI-ускорителей может быть недостаточно для удовлетворения потенциальных потребностей AI и высокопроизводительных вычислений (HPC). ‘Если мы не переосмыслим фундаментально то, как мы повышаем вычислительную эффективность, отрасль рискует столкнуться с физическими и экономическими ограничениями. Эта стена также будет иметь побочные эффекты, ограничивая доступ к AI и HPC для большего числа организаций, препятствуя инновациям даже при достижениях в алгоритмах или традиционных архитектурах GPU’.

Рекомендации и требования к вычислительной инфраструктуре следующего поколения

На основе этих наблюдений Элад Раз предложил ‘четыре столпа’ для определения вычислительной инфраструктуры следующего поколения:

(1) Заменяемость по принципу Plug-and-Play: ‘История показала, что сложные архитектурные переходы, такие как миграция с ЦП на ГП, могут занять десятилетия для полной реализации. Поэтому вычислительные архитектуры следующего поколения должны поддерживать плавную миграцию’. Для заменяемости по принципу ‘plug-and-play’ Элад Раз предполагает, что новые вычислительные архитектуры должны учиться на экосистемах x86 и Arm, добиваясь более широкого распространения за счет обратной совместимости.

Современные проекты также должны избегать требования к разработчикам переписывать большие объемы кода или создавать зависимости от конкретных поставщиков. ‘Например, поддержка новых технологий, таких как MLA, должна быть стандартизирована, а не требовать дополнительных ручных настроек, как в случае с графическими процессорами, отличными от NVIDIA. Системы следующего поколения должны понимать и оптимизировать новые нагрузки ‘из коробки’, не требуя ручного изменения кода или значительной корректировки API’.

(2) Адаптируемая оптимизация производительности в реальном времени: Элад Раз считает, что отрасль должна отойти от ускорителей с фиксированной функцией. ‘Отрасли необходимо строить на основе интеллектуальных, программно-определяемых аппаратных оснований, которые могут динамически самооптимизироваться во время выполнения’.

‘Постоянно обучаясь на рабочих нагрузках, будущие системы могут настраиваться в режиме реального времени, максимизируя использование и устойчивую производительность, независимо от конкретной рабочей нагрузки приложения. Эта динамическая адаптивность означает, что инфраструктура может обеспечивать стабильную эффективность в реальных сценариях, будь то запуск моделирований HPC, сложных моделей AI или операций с векторными базами данных’.

(3) Масштабируемая эффективность: ‘За счет разделения аппаратного и программного обеспечения и сосредоточения внимания на интеллектуальной оптимизации в реальном времени будущие системы должны достигать более высокого уровня использования и снижать общее энергопотребление. Это сделает инфраструктуру более экономичной и масштабируемой для удовлетворения растущих потребностей новых рабочих нагрузок’.

(4) Проектирование на будущее: Этот пункт соответствует перспективному требованию к AI-инфраструктуре, особенно к проектированию чипов. ‘Современные передовые алгоритмы могут устареть завтра’. ‘Будь то AI-нейронные сети или модели LLM на основе Transformer, вычислительная инфраструктура следующего поколения должна быть адаптируемой, гарантируя, что технологические инвестиции предприятий останутся устойчивыми на долгие годы’.

Эти предложения предлагают относительно идеализированную, но наводящую на размышления перспективу. Эту руководящую методологию следует учитывать для будущего развития технологий AI и HPC, даже если некоторые присущие противоречия остаются давними проблемами в отрасли. ‘Чтобы раскрыть потенциал AI, HPC и других будущих вычислительных и ресурсоемких рабочих нагрузок, мы должны переосмыслить инфраструктуру и принять динамичные и интеллектуальные решения для поддержки инноваций и пионеров’.