32B 패키지에서 DeepSeek-R1 성능 능가? 알리바바 QwQ 분석

거대 기업에 도전: 컴팩트한 경쟁자

QwQ는 DeepSeek R1의 6710억 개에 비해 320억 개의 매개변수만 자랑하지만, ‘추론’ 모델로 자리매김했습니다. 알리바바는 이 비교적 작은 모델이 특정 벤치마크, 특히 수학, 코딩 및 함수 호출과 같은 영역에서 R1을 능가할 수 있다고 주장합니다. 이 야심 찬 주장은 QwQ의 내부 작동 방식과 실제 성능에 대한 면밀한 검토를 필요로 합니다.

강화 학습: QwQ 능력의 핵심

DeepSeek R1과 마찬가지로 Qwen 팀은 QwQ의 연쇄 추론(chain-of-thought reasoning) 능력을 개선하기 위해 강화 학습(RL)을 사용했습니다. 이 방법은 모델이 복잡한 문제를 단계별로 분석하고 분해하는 능력을 향상시킵니다. RL의 전통적인 접근 방식은 정답에 대해 모델에 보상을 제공하여 정확한 응답을 강화하는 것입니다.

그러나 Qwen 팀은 QwQ에 대해 보다 미묘한 접근 방식을 취했습니다. 그들은 정확성 검증기와 코드 실행 서버를 통합했습니다. 이 중요한 추가 기능은 수학적으로 건전한 솔루션과 기능적 코드에 대해서만 보상이 제공되도록 보장합니다. 이 엄격한 검증 프로세스를 구현함으로써 팀은 더 높은 수준의 정밀도와 신뢰성을 나타내는 모델을 개발하는 것을 목표로 합니다.

성능 주장: 현실 점검

Qwen 팀의 노력은 그들의 주장에 따르면, 훨씬 더 큰 모델과 동등하거나 어떤 경우에는 능가하는 성능 수준을 달성하는 모델을 만들었습니다.

그러나 AI 벤치마크의 세계는 복잡할 수 있습니다. 보고된 수치를 넘어 이러한 주장이 실제 시나리오에서 어떻게 적용되는지 살펴보는 것이 중요합니다.

직접 테스트: QwQ 성능 시험

QwQ의 기능을 평가하기 위해 다양한 영역에 걸쳐 일련의 테스트 프롬프트가 설계되었습니다. 여기에는 일반 지식, 공간 추론, 문제 해결, 수학 및 가장 진보된 대규모 언어 모델(LLM)에도 어려움을 주는 것으로 알려진 기타 과제가 포함되었습니다.

전체 모델의 상당한 메모리 요구 사항으로 인해 테스트는 두 가지 구성으로 실행되었습니다. 첫째, Hugging Face의 QwQ 데모를 사용하여 전체 모델을 평가했습니다. 이를 통해 잠재력을 최대한 평가할 수 있었습니다. 둘째, 4비트 양자화 버전을 24GB GPU(특히 Nvidia 3090 또는 AMD Radeon RX 7900XTX)에서 테스트했습니다. 이 구성은 양자화가 모델의 정확도에 미치는 영향을 측정하여 성능이 낮은 하드웨어를 사용하는 사용자가 더 쉽게 접근할 수 있도록 하는 것을 목표로 했습니다.

일반 지식: 자체 성능 유지

대부분의 일반 지식 질문에 대해 QwQ는 DeepSeek의 6710억 매개변수 R1 및 OpenAI의 o3-mini와 같은 다른 추론 모델과 비슷한 성능을 보였습니다. 모델은 일반적으로 쿼리에 대한 답변을 제공하기 전에 생각을 정리하는 데 몇 초가 걸렸습니다. 이러한 동작은 즉각적인 응답보다 신중한 숙고를 우선시하는 추론 모델의 특징입니다.

복잡성에서 탁월함: 논리, 코딩 및 수학

QwQ가 진정으로 차별화되기 시작하는 곳은 논리, 코딩 또는 수학과 관련된 더 복잡한 문제를 해결하는 것입니다. 이러한 영역을 자세히 살펴보고 강점과 부족한 부분을 강조해 보겠습니다.

공간 추론: 미로 탐색

Homebrew Research가 AlphaMaze 프로젝트의 일환으로 개발한 비교적 새로운 공간 추론 테스트를 사용하여 QwQ를 평가했습니다.

로컬에서 호스팅된 QwQ 인스턴스와 전체 크기 모델 모두 이러한 퍼즐을 지속적으로 성공적으로 해결했습니다. 그러나 각 실행에는 완료하는 데 몇 분이 걸렸습니다. 이는 QwQ가 공간 추론을 효과적으로 처리할 수 있지만 반드시 가장 빠른 것은 아니라는 것을 나타냅니다.

반대로 DeepSeek의 R1과 32B distill은 다른 동작을 보였습니다. 두 모델 모두 첫 번째 미로를 성공적으로 해결했습니다. 그러나 R1은 두 번째 미로에서 어려움을 겪었고, 32B distill은 두 번째 미로에서 90%의 성공률을 달성했습니다. 이러한 가변성은 R1과 distill이 별개의 기본 모델을 활용한다는 점을 감안할 때 완전히 예상치 못한 것은 아닙니다.

QwQ는 이 특정 테스트에서 DeepSeek보다 우수한 성능을 보였지만 4비트 모델에서 몇 가지 특이한 동작이 관찰되었습니다. 처음에는 테스트를 완료하는 데 거의 두 배나 많은 ‘사고’ 토큰이 필요했습니다. 이는 처음에 양자화로 인한 잠재적 손실을 시사했습니다. 그러나 추가 조사 결과 양자화된 모델이 초기 상태에서 최적이 아닌 성능을 보이고 있음이 밝혀졌습니다. 하이퍼파라미터를 조정하고 테스트를 다시 실행하여 이 문제를 해결하여 적절한 구성의 중요성을 보여주었습니다.

원샷 코딩: 잠재적 강점

QwQ는 ‘원샷’ 코드 생성(첫 번째 시도에서 사용 가능한 코드를 생성하는 기능)에 대한 잠재력으로 상당한 주목을 받았습니다. 이 특정 영역은 모델의 중요한 강점인 것으로 보입니다.

모델은 pygame 라이브러리를 사용하여 Python으로 몇 가지 비교적 간단한 게임을 다시 만드는 임무를 받았습니다. 선택된 게임은 Pong, Breakout, Asteroids 및 Flappy Bird였습니다.

QwQ는 Pong과 Breakout을 비교적 쉽게 처리했습니다. 몇 분간의 처리 후 모델은 두 게임의 작동 버전을 생성했습니다.

그러나 Asteroids를 다시 만드는 임무를 받았을 때 QwQ는 어려움에 직면했습니다. 생성된 코드가 실행되었지만 그래픽과 게임 메커니즘이 자주 왜곡되고 버그가 있었습니다. 반대로 R1은 첫 번째 시도에서 클래식 아케이드 슈팅 게임을 충실하게 재현했습니다.

이러한 모델의 훈련 데이터를 고려하는 것이 중요합니다. 그들은 방대한 양의 공개적으로 사용 가능한 소스 코드에 노출되었으며, 여기에는 클래식 게임의 복제품이 포함되었을 가능성이 큽니다. 이것은 모델이 단순히 학습된 정보를 회상하는 것인지 아니면 처음부터 게임 메커니즘을 독립적으로 도출하는 것인지에 대한 의문을 제기합니다. 이것은 이러한 거대한 신경망의 근본적인 본질을 강조하며, 여기서 명백한 지능은 종종 광범위한 패턴 인식에서 비롯됩니다.

이러한 제한 사항에도 불구하고 클래식 아케이드 게임을 재현하는 QwQ의 성능은 특히 매개변수 수를 고려할 때 인상적입니다. 모든 테스트에서 R1과 일치하지 않을 수 있지만 놀라운 수준의 기능을 보여줍니다. 자동차 세계에서 자주 사용되는 ‘배기량을 대체할 수 있는 것은 없다’는 문구가 여기서 관련이 있을 수 있습니다. 이것은 알리바바가 QwQ의 ‘Max’ 버전을 개발하는 이유를 설명할 수 있지만, 가까운 시일 내에 소비자 하드웨어에서 실행될 가능성은 낮습니다.

DeepSeek의 유사한 크기의 R1 Qwen 2.5 32B distill과 비교할 때, 알리바바가 코드 실행 서버를 강화 학습 파이프라인에 통합하기로 결정한 것은 프로그래밍 관련 문제에서 이점을 제공했을 수 있습니다.

수학: 주의 사항이 있는 기능

역사적으로 LLM은 언어 중심 훈련의 결과로 수학에 어려움을 겪었습니다. 최신 모델이 개선되었지만 QwQ는 여전히 어려움에 직면하고 있지만 예상되는 이유 때문은 아닐 수 있습니다.

QwQ는 이전에 R1에 제기된 모든 수학 문제를 성공적으로 해결했습니다. 이는 QwQ가 기본적인 산술 연산과 심지어 일부 대수학도 처리할 수 있음을 나타냅니다. 그러나 문제는 효율성에 있습니다. 계산기와 직접 계산이 여전히 쉽게 사용 가능하고 훨씬 빠르기 때문에 수학 계산에 LLM을 사용하는 것은 직관에 어긋나는 것처럼 보입니다.
예를 들어, 7*43과 같은 간단한 방정식을 푸는 데 QwQ는 1,000개 이상의 토큰을 생성해야 했으며 RTX 3090 Ti에서 약 23초가 걸렸습니다. 이것은 휴대용 계산기에서 몇 분의 1초 만에 완료할 수 있는 작업입니다.

더 큰 계산에서는 비효율성이 더욱 두드러집니다. 대부분의 비추론 모델의 기능을 넘어서는 곱셈 문제인 3394*35979를 푸는 데 QwQ의 로컬 인스턴스는 3분과 5,000개 이상의 토큰이 걸렸습니다.

하이퍼파라미터 수정 전에는 동일한 방정식에 무려 9분과 거의 12,000개의 토큰이 필요했습니다.

여기서 핵심은 모델이 정답을 강제로 계산할 수 있다고 해서 반드시 최적의 도구라는 의미는 아니라는 것입니다. 더 실용적인 접근 방식은 QwQ에 Python 계산기에 대한 액세스 권한을 제공하는 것입니다. 이것은 모델의 강점을 활용하면서 계산 집약적인 작업을 더 적합한 도구로 오프로드합니다.

도구를 사용하여 동일한 3394*35979 방정식을 풀도록 했을 때, 계산기가 어려운 작업을 처리했기 때문에 QwQ의 응답 시간은 8초로 급감했습니다.

‘Wait’의 만연: 사고 과정 엿보기

QwQ의 ‘생각’을 살펴보면 특히 복잡한 작업이나 단어 문제 중에 ‘wait’라는 단어가 자주 나타나는 것을 알 수 있습니다. 이것은 모델이 대체 결과에 대해 작업을 확인하는 내부 프로세스를 반영합니다.

이러한 동작은 추론 모델에서 일반적이지만, QwQ가 ‘사고’ 과정에서 정답을 이해했음을 보여준 후에도 오답을 생성할 때 특히 실망스러울 수 있습니다.

이 문제는 테스트 중에 자주 발생했습니다. 가장 설명적인 예 중 하나는 AutoGen AI가 고전적인 늑대, 염소, 양배추 문제를 각색한 것입니다. 이 퍼즐은 운송 최적화 문제를 제시하며, 다음과 같은 반전이 있습니다.

해결책은 프롬프트에 포함되어 있습니다. 세 개의 안전한 칸이 있으므로 농부는 한 번의 여행으로 모든 품목을 운반할 수 있습니다. 그러나 퍼즐이 고전적인 버전과 유사하기 때문에 모델은 종종 칸을 간과합니다.

테스트에서 QwQ는 이 퍼즐을 지속적으로 올바르게 해결하지 못했습니다. 사고 과정을 살펴보면 세 개의 칸을 간과하지 않았다는 것을 알 수 있습니다. 실제로 그것들을 인정했지만 너무 단순하다고 일축했습니다.

“잠깐, 농부가 세 개를 모두 한 번에 가져갈 수 있다면 그냥 그렇게 하면 끝날 텐데. 하지만 그러면 문제가 너무 단순해져서 그럴 것 같지 않아. 칸이 분리되어 있지만 배는 농부와 함께 두 개의 품목만 실을 수 있을까?”

테스트가 클라우드의 전체 모델에서 실행되었는지 로컬에서 실행되었는지에 관계없이 QwQ는 이를 일관되게 해결하는 데 어려움을 겪었습니다. 이것은 문제의 제약 조건을 지나치게 생각하거나 잘못 해석할 수 있는 추론 능력의 잠재적 한계를 강조합니다.

하이퍼파라미터 민감도: 미묘한 균형

다른 모델에 비해 QwQ는 구성에 대한 민감도가 높았습니다. 처음에 알리바바는 특정 샘플링 매개변수를 권장했습니다.

  • Temperature: 0.6
  • TopP: 0.95
  • TopK: 20에서 40 사이

이후 이러한 권장 사항은 다음을 포함하도록 업데이트되었습니다.

  • MinP: 0
  • Presence Penalty: 0에서 2 사이

Llama.cpp(모델에서 추론을 실행하는 데 사용됨)의 샘플링 매개변수 처리 버그로 인해 반복 페널티를 1로 설정하여 비활성화해야 했습니다.

앞서 언급했듯이 이러한 구성 문제를 해결하면 답변에 도달하는 데 필요한 ‘생각’ 토큰 수가 절반 이상 줄어드는 상당한 개선이 이루어졌습니다. 그러나 이 버그는 Ollama 및 LM Studio와 같은 인기 있는 애플리케이션에서 사용되는 Llama.cpp 추론 엔진에서 실행할 때 GGUF 양자화된 모델 버전에만 해당되는 것으로 보입니다.

Llama.cpp를 사용할 계획인 사용자는 Unsloth의 샘플링 순서 수정 가이드를 참조하는 것이 좋습니다.

QwQ 시작하기: 실용 가이드

QwQ를 실험하려는 사람들을 위해 Ollama에서 설정하는 것은 비교적 간단합니다. 그러나 상당한 양의 vRAM이 있는 GPU가 필요하다는 점에 유의해야 합니다. 모델은 실용적인 사용에 충분한 컨텍스트 창을 가진 24GB 3090 Ti에서 성공적으로 실행되었습니다.

기술적으로 CPU와 시스템 메모리에서 모델을 실행하는 것이 가능하지만, 고급 워크스테이션이나 서버를 사용하지 않는 한 응답 시간이 매우 느려질 가능성이 큽니다.

전제 조건:

  1. 4비트 양자화로 중간 크기의 LLM을 실행할 수 있는 머신. 최소 24GB의 vRAM이 있는 호환되는 GPU를 권장합니다. 지원되는 카드 목록은 여기에서 찾을 수 있습니다.
  2. Apple Silicon Mac의 경우 최소 32GB의 메모리를 권장합니다.

이 가이드는 Linux 세계 명령줄 인터페이스와 Ollama에 대한 기본적인 지식이 있다고 가정합니다.

Ollama 설치

Ollama는 소비자 하드웨어에서 LLM을 다운로드하고 제공하는 프로세스를 단순화하는 인기 있는 모델 러너입니다. Windows 또는 macOS 사용자의 경우 ollama.com에서 다른 애플리케이션과 마찬가지로 다운로드하여 설치하십시오.

Linux 사용자의 경우 Ollama는 설치를 위한 편리한 한 줄 명령어를 제공합니다.