32B 패키지로 DeepSeek-R1 성능 능가? 알리바바 QwQ 심층 분석

추가 검증으로 보강된 강화 학습이 대규모 언어 모델(LLM)의 능력을 얼마나 향상시킬 수 있을까요? Alibaba의 Qwen 팀은 최신 모델인 QwQ를 통해 이 질문에 대한 답을 찾고 있습니다.

QwQ는 320억 개의 매개변수를 가진 비교적 작은 ‘추론’ 모델입니다. 그러나 Alibaba는 수학, 코딩 및 함수 호출과 관련된 특정 벤치마크에서 6,710억 개의 방대한 매개변수를 가진 DeepSeek R1을 능가한다고 주장합니다.

Qwen 팀은 R1에서 사용된 접근 방식과 유사하게 강화 학습을 사용하여 QwQ의 연쇄 추론(chain-of-thought reasoning)을 개선했습니다. 이 방법은 문제 분석 및 분해 능력을 향상시킵니다. 강화 학습은 일반적으로 정답에 대해 모델에 보상을 제공하여 단계별 추론을 강화함으로써 보다 정확한 응답을 유도합니다. 그러나 QwQ는 정확도 검증기와 코드 실행 서버를 통합하여 한 단계 더 나아갑니다. 이를 통해 정확한 수학적 솔루션과 기능적 코드에 대해서만 보상이 제공됩니다.

Qwen 팀은 이러한 접근 방식을 통해 모델이 크기를 뛰어넘는 성능을 발휘하여 훨씬 더 큰 모델과 비슷하거나 때로는 능가하는 성능을 달성한다고 주장합니다.

그러나 AI 벤치마크는 오해의 소지가 있을 수 있습니다. 따라서 이러한 주장이 실제 시나리오에서 어떻게 나타나는지 살펴보고 QwQ를 독립적으로 실행하는 방법을 안내합니다.

성능 평가

일반 지식, 공간 추론, 문제 해결, 수학 및 가장 진보된 LLM조차도 어려움을 겪는 것으로 알려진 기타 쿼리를 포함하는 일련의 테스트 프롬프트를 QwQ에 적용했습니다.

전체 모델의 상당한 메모리 요구 사항으로 인해 다양한 RAM 용량을 가진 사용자를 수용하기 위해 두 가지 구성으로 테스트를 수행했습니다. 처음에는 Hugging Face의 QwQ 데모를 사용하여 전체 모델을 평가했습니다. 그 후, 양자화가 정확도에 미치는 영향을 측정하기 위해 24GB GPU(Nvidia 3090 또는 AMD Radeon RX 7900XTX)에서 4비트 양자화 버전을 테스트했습니다.

대부분의 일반 지식 질문에 대해 QwQ는 DeepSeek의 6,710억 매개변수 R1 및 OpenAI의 o3-mini와 같은 다른 추론 모델과 유사한 성능을 보였으며, 답변을 제공하기 전에 생각을 정리하기 위해 잠시 멈췄습니다.

모델의 강점은 아마도 놀랍지 않게도 더 복잡한 논리, 코딩 또는 수학적 문제를 해결할 때 분명해집니다. 몇 가지 제한 사항을 다루기 전에 이러한 영역을 자세히 살펴보겠습니다.

공간 추론 능력

Homebrew Research가 AlphaMaze 프로젝트의 일환으로 고안한 비교적 새로운 공간 추론 테스트부터 시작했습니다.

테스트는 아래와 같이 텍스트 형식으로 모델에 미로를 제시합니다. 모델의 임무는 원점 ‘O’에서 목표 ‘T’로 이동하는 것입니다.

코드 생성 및 실행

QwQ의 핵심 강점 중 하나는 코드 생성 및 실행 능력입니다. 단순히 코드를 생성하는 데 그치지 않고, 생성된 코드를 실행하여 그 결과를 바탕으로 추론을 이어갑니다. 이는 기존의 LLM들이 단순히 텍스트 기반의 추론에 머무르는 것과 차별화되는 지점입니다.

예를 들어, 복잡한 수학 문제를 제시했을 때, QwQ는 Python 코드를 생성하여 문제를 해결하고, 그 결과를 다시 텍스트로 변환하여 사용자에게 제공합니다. 이 과정에서 코드 실행 서버는 생성된 코드가 문법적으로 올바른지, 그리고 실제로 실행 가능한지를 검증합니다.