일상 CPU에서 효율적인 GenAI를 위한 MS의 1비트 LLM

AI 혁신의 선두: 마이크로소프트의 1비트 LLM, BitNet b1.58 2B4T

인공지능(AI) 분야의 역동적인 발전 속에서, 마이크로소프트 리서치(Microsoft Research)가 생성형 AI(GenAI)의 접근성과 효율성을 재정의할 획기적인 개발 결과를 발표했습니다. 최근 발표된 논문에서는 ‘1비트’ 가중치, 정확히는 1-트리트(1-trit) 가중치로 자체 학습된 선구적인 대규모 언어 모델(LLM), BitNet b1.58 2B4T를 소개합니다. 이 혁신적인 접근 방식은 완전한 정밀도로 초기 학습된 모델을 양자화하는 기존의 방법에서 벗어난 것입니다.

기존 LLM의 한계 극복

기존의 LLM은 놀라운 성능에도 불구하고, 그 광범위한 채택을 가로막는 상당한 장벽에 직면해 있습니다. 이러한 한계는 주로 큰 메모리 공간, 상당한 에너지 소비, 그리고 눈에 띄는 추론 지연에서 비롯됩니다. 결과적으로, 이러한 모델을 엣지 장치, 리소스 제약적인 환경, 그리고 실시간 애플리케이션에 배포하는 것은 비현실적입니다.

이러한 문제를 완화하기 위해 AI 커뮤니티는 양자화된 모델을 탐구하는 데 점점 더 집중하고 있습니다. 이러한 모델은 가중치를 더 낮은 비트 형식으로 변환하여 완전 정밀도 모델에서 파생됩니다. 양자화는 모델 크기와 계산 요구 사항을 줄이는 방법을 제공하지만, 종종 정밀도 손실이라는 대가를 치르며, 잠재적으로 모델의 정확도와 전반적인 성능을 저해할 수 있습니다.

BitNet b1.58 2B4T 아키텍처

BitNet b1.58 2B4T는 모델을 처음부터 1비트 가중치를 사용하여 학습함으로써 양자화와 관련된 정밀도 손실을 피하는 LLM 설계의 패러다임 전환을 나타냅니다. 이 접근 방식을 통해 모델은 감소된 메모리 공간과 낮은 계산 비용을 포함하여 더 작은 가중치의 이점을 유지할 수 있습니다.

마이크로소프트 연구원들은 4조 개의 토큰으로 구성된 대규모 코퍼스에서 BitNet b1.58 2B4T를 훈련함으로써 이 야심찬 노력에 착수했습니다. 이 광범위한 훈련 데이터 세트는 모델이 복잡한 언어 패턴을 효과적으로 학습하고 인간 커뮤니케이션의 뉘앙스에 대한 포괄적인 이해를 개발할 수 있도록 보장했습니다.

성능 평가 및 벤치마킹

BitNet b1.58 2B4T의 효능을 평가하기 위해 마이크로소프트는 엄격한 벤치마크를 수행하여 유사한 크기의 주요 오픈 웨이트, 완전 정밀도 모델과 성능을 비교했습니다. 결과는 새로운 모델이 언어 이해 및 추론, 세계 지식, 독해력, 수학 및 코드, 그리고 지시 따르기 및 대화를 포괄하는 광범위한 작업에서 비교 가능한 성능을 보임을 보여주었습니다.

이러한 결과는 1비트 LLM이 효율성 및 리소스 활용 측면에서 상당한 이점을 제공하면서도 완전 정밀도 모델과 성능 패리티를 달성할 수 있는 잠재력을 강조합니다.

주요 아키텍처 혁신

BitNet b1.58 2B4T의 핵심에는 표준 완전 정밀도 선형 레이어를 사용자 정의 BitLinear 레이어로 대체하는 혁신적인 아키텍처가 있습니다. 이러한 레이어는 정방향 패스 중에 가중치를 삼항 값(trits)으로 인코딩하기 위해 1.58비트 표현을 사용합니다.

{-1, 0, +1}로 표현되는 삼항 값의 사용은 모델 크기를 대폭 줄이고 효율적인 수학적 연산을 용이하게 합니다. 이는 가중치를 이러한 삼항 값에 매핑하는 절대 평균(absmean) 양자화 체계를 통해 달성됩니다.

BitLinear 레이어 외에도 BitNet b1.58 2B4T는 제곱 ReLU 활성화 함수, 회전 위치 임베딩, 바이어스 항 제거와 같은 여러 가지 확립된 LLM 기술을 통합합니다. 이러한 기술은 모델의 크기를 줄이고 훈련 안정성을 개선하는 데 더욱 기여합니다.

훈련 안정성 및 효율성 향상

BitLinear 레이어에서 사용되는 두 가지 추가 기술인 활성화 양자화 및 정규화는 모델 크기를 줄이고 훈련 안정성을 향상시키는 데 중요한 역할을 합니다. 활성화 양자화는 활성화의 정밀도를 줄이고, 정규화 기술은 활성화가 너무 커지거나 너무 작아지는 것을 방지하는 데 도움이 됩니다.

이러한 기술은 1비트 가중치 사용과 결합되어 BitNet b1.58 2B4T를 대규모 데이터 세트에서도 보다 효율적이고 효과적으로 훈련할 수 있도록 합니다.

훈련 방법론

훈련을 위해 BitNet b1.58 2B4T는 대규모 사전 훈련, 지도 학습 미세 조정, 직접 선호도 최적화의 세 가지 주요 기술을 활용합니다.

대규모 사전 훈련

이 초기 단계에서는 모델이 텍스트와 코드로 구성된 대규모 데이터 세트에서 훈련을 받아 일반적인 언어 패턴을 학습하고 세계에 대한 광범위한 이해를 개발할 수 있도록 합니다.

지도 학습 미세 조정

이 단계에서는 모델이 특정 작업 또는 도메인에 맞게 조정된 더 작고 더 구체적인 데이터 세트에서 미세 조정됩니다. 이를 통해 모델은 지식과 기술을 작업의 특정 요구 사항에 맞게 조정할 수 있습니다.

직접 선호도 최적화

이 기술은 피드백 또는 평가를 통해 표현된 인간의 선호도를 직접 최적화하기 위해 모델을 훈련하는 것을 포함합니다. 이는 모델의 출력이 인간의 가치와 기대에 부합하도록 보장하는 데 도움이 됩니다.

연구원들은 근사 정책 최적화 또는 그룹 상대 정책 최적화와 같은 보다 발전된 기술이 수학적 능력과 사고 사슬 추론을 향상시키기 위해 앞으로 탐구될 것이라고 언급합니다.

Bitnet.cpp 추론 라이브러리

BitNet b1.58 2B4T의 고유한 양자화 체계를 감안할 때, 모델은 llama.cpp와 같은 표준 딥 러닝 라이브러리와 함께 사용할 수 없으며 특수 커널이 필요합니다. 이 문제를 해결하기 위해 마이크로소프트는 오픈 소스 전용 추론 라이브러리인 bitnet.cpp를 개발했습니다.

bitnet.cpp는 BitNet b1.58과 같은 1비트 LLM의 공식 추론 프레임워크 역할을 합니다. CPU에서 1.58비트 모델의 빠르고 손실 없는 추론을 지원하는 최적화된 커널 스위트를 제공하며, 향후 NPU 및 GPU에 대한 지원을 확장할 계획입니다.

이 추론 라이브러리는 BitNet b1.58 2B4T를 더 광범위한 장치 및 플랫폼에 배포할 수 있도록 하는 데 중요하며, 개발자와 연구원이 더 쉽게 액세스할 수 있도록 합니다.

미래 연구 방향

연구원들은 현재 GPU 하드웨어가 1비트 모델에 최적화되어 있지 않으며 낮은 비트 연산을 위한 전용 로직을 통합함으로써 더 많은 성능 향상을 달성할 수 있음을 인정합니다. 이는 미래의 하드웨어 아키텍처가 1비트 LLM을 지원하도록 특별히 설계되어 훨씬 더 큰 효율성과 성능으로 이어질 수 있음을 시사합니다.

하드웨어 최적화 외에도 미래 연구 방향에는 더 큰 모델 훈련, 다국어 기능 및 다중 모드 통합 추가, 컨텍스트 창 길이 확장 등이 있습니다. 이러한 발전은 BitNet b1.58 2B4T 및 기타 1비트 LLM의 기능과 다재다능성을 더욱 향상시킬 것입니다.

의미 및 잠재적 영향

BitNet b1.58 2B4T의 개발은 특히 생성형 AI 영역에서 AI의 미래에 중요한 의미를 갖습니다. 마이크로소프트는 1비트 가중치만 사용하여 고성능 LLM을 훈련할 수 있음을 입증함으로써 보다 효율적이고 접근 가능한 AI 시스템을 만들 수 있는 새로운 가능성을 열었습니다.

이 획기적인 기술은 스마트폰, IoT 장치 및 기타 리소스 제약적인 플랫폼을 포함한 더 광범위한 장치에 AI 모델을 배포할 수 있습니다. 또한 에너지 효율적인 AI 시스템 개발을 가능하게 하여 환경에 미치는 영향을 줄일 수 있습니다.

또한 1비트 가중치로 LLM을 훈련할 수 있는 능력은 특정 애플리케이션을 위해 AI 모델을 더 쉽게 사용자 정의하고 개인화할 수 있도록 합니다. 이는 개별 사용자 및 조직의 고유한 요구 사항에 맞게 조정된 보다 효과적이고 사용자 친화적인 AI 시스템 개발로 이어질 수 있습니다.

결론

마이크로소프트의 BitNet b1.58 2B4T는 보다 효율적이고 접근 가능한 AI를 위한 탐구에서 중요한 진전을 나타냅니다. 마이크로소프트는 1비트 가중치만 사용하여 고성능 LLM을 훈련할 수 있음을 입증함으로써 기존의 지혜에 도전하고 AI의 미래를 위한 새로운 가능성을 열었습니다.

이 분야의 연구가 계속됨에 따라 1비트 LLM의 더욱 혁신적인 응용을 기대할 수 있으며, AI가 사회 전체에 더욱 널리 퍼지고 효율적이며 유익한 미래로 이어질 것입니다.