1-битная LLM от Microsoft: Эффективный GenAI

В динамичном мире искусственного интеллекта прорыв, сделанный Microsoft Research, обещает переопределить доступность и эффективность генеративного ИИ. В своей недавней статье они представляют BitNet b1.58 2B4T, новаторскую большую языковую модель (LLM), отличающуюся собственным обучением с ‘1-битными’ весами, или, точнее, 1-тритовыми весами. Этот инновационный подход знаменует собой отход от традиционных методов, которые полагаются на квантование моделей, первоначально обученных с полной точностью.

Преодоление ограничений традиционных LLM

Обычные LLM, несмотря на свою замечательную производительность, сталкиваются с существенными барьерами, которые препятствуют их широкому распространению. Эти ограничения в первую очередь связаны с их большим объемом памяти, значительным потреблением энергии и заметной задержкой при выводе. Следовательно, развертывание этих моделей на периферийных устройствах, в средах с ограниченными ресурсами и для приложений реального времени становится непрактичным.

Чтобы смягчить эти проблемы, ИИ-сообщество все больше сосредоточивается на изучении квантованных моделей. Эти модели получены из полноточных аналогов путем преобразования их весов в формат с меньшим количеством бит. Хотя квантование предлагает способ уменьшить размер модели и вычислительные затраты, оно часто достигается ценой потери точности, что потенциально ставит под угрозу точность модели и общую производительность.

Архитектура BitNet b1.58 2B4T

BitNet b1.58 2B4T представляет собой сдвиг парадигмы в проектировании LLM, обходя потерю точности, связанную с квантованием, путем обучения модели с нуля с использованием 1-битовых весов. Этот подход позволяет модели сохранить преимущества меньших весов, включая уменьшенный объем памяти и более низкие вычислительные затраты.

Исследователи Microsoft приступили к этому амбициозному проекту, обучив BitNet b1.58 2B4T на массивном корпусе из 4 триллионов токенов. Этот обширный набор данных для обучения гарантировал, что модель сможет эффективно изучать сложные языковые закономерности и развивать всестороннее понимание нюансов человеческого общения.

Оценка производительности и сравнительный анализ

Чтобы оценить эффективность BitNet b1.58 2B4T, Microsoft провела строгие сравнительные тесты, сравнив ее производительность с ведущими моделями с открытым весом и полной точностью аналогичного размера. Результаты показали, что новая модель работает сопоставимо в широком диапазоне задач, охватывающих понимание языка и рассуждение, мировые знания, понимание прочитанного, математику и код, а также следование инструкциям и разговор.

Эти результаты подчеркивают потенциал 1-битных LLM для достижения паритета производительности со своими полноточными аналогами, одновременно предлагая значительные преимущества с точки зрения эффективности и использования ресурсов.

Ключевые архитектурные инновации

В основе BitNet b1.58 2B4T лежит ее инновационная архитектура, которая заменяет стандартные полноточные линейные слои пользовательскими слоями BitLinear. Эти слои используют 1,58-битные представления для кодирования весов в виде троичных значений (триты) во время прямого прохода.

Использование троичных значений, представленных как {-1, 0, +1}, обеспечивает резкое сокращение размера модели и облегчает эффективные математические операции. Это достигается с помощью схемы квантования абсолютного среднего (absmean), которая сопоставляет веса с этими троичными значениями.

В дополнение к слоям BitLinear, BitNet b1.58 2B4T включает в себя несколько установленных методов LLM, таких как квадратичные функции активации ReLU, роторные позиционные вложения и удаление члена смещения. Эти методы еще больше способствуют уменьшению размера модели и улучшению стабильности обучения.

Повышение стабильности и эффективности обучения

Два дополнительных метода, используемых в слоях BitLinear - квантование активации и нормализация - играют решающую роль в уменьшении размера модели и повышении стабильности обучения. Квантование активации снижает точность активаций, в то время как методы нормализации помогают предотвратить слишком большое или слишком маленькое значение активаций.

Эти методы в сочетании с использованием 1-битных весов позволяют обучать BitNet b1.58 2B4T более эффективно и результативно, даже на больших наборах данных.

Методологии обучения

Для обучения BitNet b1.58 2B4T использует три ключевых метода: крупномасштабное предварительное обучение, контролируемую тонкую настройку и прямую оптимизацию предпочтений.

Крупномасштабное предварительное обучение

Этот начальный этап включает в себя обучение модели на массивном наборе данных текста и кода, что позволяет ей изучать общие языковые закономерности и развивать широкое понимание мира.

Контролируемая тонкая настройка

На этом этапе модель точно настраивается на меньшем, более конкретном наборе данных, адаптированном к конкретной задаче или домену. Это позволяет модели адаптировать свои знания и навыки к конкретным требованиям задачи.

Прямая оптимизация предпочтений

Этот метод включает в себя обучение модели прямой оптимизации человеческих предпочтений, выраженных через обратную связь или рейтинги. Это помогает гарантировать, что результаты модели соответствуют человеческим ценностям и ожиданиям.

Исследователи отмечают, что более продвинутые методы, такие как Proximal Policy Optimization или Group Relative Policy Optimization, будут изучены в будущем для улучшения математических возможностей и цепочки рассуждений.

Библиотека вывода Bitnet.cpp

Учитывая уникальную схему квантования BitNet b1.58 2B4T, модель нельзя использовать со стандартными библиотеками глубокого обучения, такими как llama.cpp, и требуется специализированное ядро. Чтобы решить эту проблему, Microsoft разработала библиотеку вывода с открытым исходным кодом, bitnet.cpp.

bitnet.cpp служит официальной платформой вывода для 1-битных LLM, таких как BitNet b1.58. Она предлагает набор оптимизированных ядер, которые поддерживают быстрый и безотказный вывод 1,58-битных моделей на ЦП, с планами расширения поддержки на NPU и GPU в будущем.

Эта библиотека вывода имеет решающее значение для обеспечения развертывания BitNet b1.58 2B4T на более широком спектре устройств и платформ, что делает ее более доступной для разработчиков и исследователей.

Будущие направления исследований

Исследователи признают, что текущее оборудование GPU не оптимизировано для 1-битных моделей и что дальнейшее повышение производительности может быть достигнуто за счет включения выделенной логики для низкобитных операций. Это говорит о том, что будущие аппаратные архитектуры могут быть специально разработаны для поддержки 1-битных LLM, что приведет к еще большей эффективности и производительности.

В дополнение к аппаратной оптимизации будущие направления исследований включают обучение более крупных моделей, добавление многоязычных возможностей и мультимодальной интеграции, а также расширение длины окна контекста. Эти достижения еще больше расширят возможности и универсальность BitNet b1.58 2B4T и других 1-битных LLM.

Последствия и потенциальное влияние

Разработка BitNet b1.58 2B4T имеет значительные последствия для будущего ИИ, особенно в области генеративного ИИ. Демонстрируя, что можно обучать высокопроизводительные LLM, используя только 1-битные веса, Microsoft открыла новые возможности для создания более эффективных и доступных систем ИИ.

Этот прорыв может привести к развертыванию моделей ИИ на более широком спектре устройств, включая смартфоны, устройства IoT и другие платформы с ограниченными ресурсами. Это также может позволить разрабатывать более энергоэффективные системы ИИ, снижая их воздействие на окружающую среду.

Кроме того, возможность обучать LLM с 1-битными весами может упростить настройку и персонализацию моделей ИИ для конкретных приложений. Это может привести к разработке более эффективных и удобных систем ИИ, адаптированных к уникальным потребностям отдельных пользователей и организаций.

Заключение

BitNet b1.58 2B4T от Microsoft представляет собой значительный шаг вперед в стремлении к более эффективному и доступному ИИ. Демонстрируя, что можно обучать высокопроизводительные LLM, используя только 1-битные веса, Microsoft бросила вызов общепринятому мнению и открыла новые возможности для будущего ИИ.

Поскольку исследования в этой области продолжаются, мы можем ожидать увидеть еще более инновационные приложения 1-битных LLM, что приведет к будущему, где ИИ станет более распространенным, эффективным и полезным для общества в целом.