В динамичном мире искусственного интеллекта прорыв, сделанный Microsoft Research, обещает переопределить доступность и эффективность генеративного ИИ. В своей недавней статье они представляют BitNet b1.58 2B4T, новаторскую большую языковую модель (LLM), отличающуюся собственным обучением с ‘1-битными’ весами, или, точнее, 1-тритовыми весами. Этот инновационный подход знаменует собой отход от традиционных методов, которые полагаются на квантование моделей, первоначально обученных с полной точностью.
Преодоление ограничений традиционных LLM
Обычные LLM, несмотря на свою замечательную производительность, сталкиваются с существенными барьерами, которые препятствуют их широкому распространению. Эти ограничения в первую очередь связаны с их большим объемом памяти, значительным потреблением энергии и заметной задержкой при выводе. Следовательно, развертывание этих моделей на периферийных устройствах, в средах с ограниченными ресурсами и для приложений реального времени становится непрактичным.
Чтобы смягчить эти проблемы, ИИ-сообщество все больше сосредоточивается на изучении квантованных моделей. Эти модели получены из полноточных аналогов путем преобразования их весов в формат с меньшим количеством бит. Хотя квантование предлагает способ уменьшить размер модели и вычислительные затраты, оно часто достигается ценой потери точности, что потенциально ставит под угрозу точность модели и общую производительность.
Архитектура BitNet b1.58 2B4T
BitNet b1.58 2B4T представляет собой сдвиг парадигмы в проектировании LLM, обходя потерю точности, связанную с квантованием, путем обучения модели с нуля с использованием 1-битовых весов. Этот подход позволяет модели сохранить преимущества меньших весов, включая уменьшенный объем памяти и более низкие вычислительные затраты.
Исследователи Microsoft приступили к этому амбициозному проекту, обучив BitNet b1.58 2B4T на массивном корпусе из 4 триллионов токенов. Этот обширный набор данных для обучения гарантировал, что модель сможет эффективно изучать сложные языковые закономерности и развивать всестороннее понимание нюансов человеческого общения.
Оценка производительности и сравнительный анализ
Чтобы оценить эффективность BitNet b1.58 2B4T, Microsoft провела строгие сравнительные тесты, сравнив ее производительность с ведущими моделями с открытым весом и полной точностью аналогичного размера. Результаты показали, что новая модель работает сопоставимо в широком диапазоне задач, охватывающих понимание языка и рассуждение, мировые знания, понимание прочитанного, математику и код, а также следование инструкциям и разговор.
Эти результаты подчеркивают потенциал 1-битных LLM для достижения паритета производительности со своими полноточными аналогами, одновременно предлагая значительные преимущества с точки зрения эффективности и использования ресурсов.
Ключевые архитектурные инновации
В основе BitNet b1.58 2B4T лежит ее инновационная архитектура, которая заменяет стандартные полноточные линейные слои пользовательскими слоями BitLinear. Эти слои используют 1,58-битные представления для кодирования весов в виде троичных значений (триты) во время прямого прохода.
Использование троичных значений, представленных как {-1, 0, +1}, обеспечивает резкое сокращение размера модели и облегчает эффективные математические операции. Это достигается с помощью схемы квантования абсолютного среднего (absmean
), которая сопоставляет веса с этими троичными значениями.
В дополнение к слоям BitLinear, BitNet b1.58 2B4T включает в себя несколько установленных методов LLM, таких как квадратичные функции активации ReLU, роторные позиционные вложения и удаление члена смещения. Эти методы еще больше способствуют уменьшению размера модели и улучшению стабильности обучения.
Повышение стабильности и эффективности обучения
Два дополнительных метода, используемых в слоях BitLinear - квантование активации и нормализация - играют решающую роль в уменьшении размера модели и повышении стабильности обучения. Квантование активации снижает точность активаций, в то время как методы нормализации помогают предотвратить слишком большое или слишком маленькое значение активаций.
Эти методы в сочетании с использованием 1-битных весов позволяют обучать BitNet b1.58 2B4T более эффективно и результативно, даже на больших наборах данных.
Методологии обучения
Для обучения BitNet b1.58 2B4T использует три ключевых метода: крупномасштабное предварительное обучение, контролируемую тонкую настройку и прямую оптимизацию предпочтений.
Крупномасштабное предварительное обучение
Этот начальный этап включает в себя обучение модели на массивном наборе данных текста и кода, что позволяет ей изучать общие языковые закономерности и развивать широкое понимание мира.
Контролируемая тонкая настройка
На этом этапе модель точно настраивается на меньшем, более конкретном наборе данных, адаптированном к конкретной задаче или домену. Это позволяет модели адаптировать свои знания и навыки к конкретным требованиям задачи.
Прямая оптимизация предпочтений
Этот метод включает в себя обучение модели прямой оптимизации человеческих предпочтений, выраженных через обратную связь или рейтинги. Это помогает гарантировать, что результаты модели соответствуют человеческим ценностям и ожиданиям.
Исследователи отмечают, что более продвинутые методы, такие как Proximal Policy Optimization или Group Relative Policy Optimization, будут изучены в будущем для улучшения математических возможностей и цепочки рассуждений.
Библиотека вывода Bitnet.cpp
Учитывая уникальную схему квантования BitNet b1.58 2B4T, модель нельзя использовать со стандартными библиотеками глубокого обучения, такими как llama.cpp, и требуется специализированное ядро. Чтобы решить эту проблему, Microsoft разработала библиотеку вывода с открытым исходным кодом, bitnet.cpp.
bitnet.cpp служит официальной платформой вывода для 1-битных LLM, таких как BitNet b1.58. Она предлагает набор оптимизированных ядер, которые поддерживают быстрый и безотказный вывод 1,58-битных моделей на ЦП, с планами расширения поддержки на NPU и GPU в будущем.
Эта библиотека вывода имеет решающее значение для обеспечения развертывания BitNet b1.58 2B4T на более широком спектре устройств и платформ, что делает ее более доступной для разработчиков и исследователей.
Будущие направления исследований
Исследователи признают, что текущее оборудование GPU не оптимизировано для 1-битных моделей и что дальнейшее повышение производительности может быть достигнуто за счет включения выделенной логики для низкобитных операций. Это говорит о том, что будущие аппаратные архитектуры могут быть специально разработаны для поддержки 1-битных LLM, что приведет к еще большей эффективности и производительности.
В дополнение к аппаратной оптимизации будущие направления исследований включают обучение более крупных моделей, добавление многоязычных возможностей и мультимодальной интеграции, а также расширение длины окна контекста. Эти достижения еще больше расширят возможности и универсальность BitNet b1.58 2B4T и других 1-битных LLM.
Последствия и потенциальное влияние
Разработка BitNet b1.58 2B4T имеет значительные последствия для будущего ИИ, особенно в области генеративного ИИ. Демонстрируя, что можно обучать высокопроизводительные LLM, используя только 1-битные веса, Microsoft открыла новые возможности для создания более эффективных и доступных систем ИИ.
Этот прорыв может привести к развертыванию моделей ИИ на более широком спектре устройств, включая смартфоны, устройства IoT и другие платформы с ограниченными ресурсами. Это также может позволить разрабатывать более энергоэффективные системы ИИ, снижая их воздействие на окружающую среду.
Кроме того, возможность обучать LLM с 1-битными весами может упростить настройку и персонализацию моделей ИИ для конкретных приложений. Это может привести к разработке более эффективных и удобных систем ИИ, адаптированных к уникальным потребностям отдельных пользователей и организаций.
Заключение
BitNet b1.58 2B4T от Microsoft представляет собой значительный шаг вперед в стремлении к более эффективному и доступному ИИ. Демонстрируя, что можно обучать высокопроизводительные LLM, используя только 1-битные веса, Microsoft бросила вызов общепринятому мнению и открыла новые возможности для будущего ИИ.
Поскольку исследования в этой области продолжаются, мы можем ожидать увидеть еще более инновационные приложения 1-битных LLM, что приведет к будущему, где ИИ станет более распространенным, эффективным и полезным для общества в целом.