Alibaba, Qwen-32B 공개: 더 큰 모델에 도전하는 컴팩트한 파워하우스
알리바바는 깜짝 심야 발표를 통해 최신 추론 모델인 Qwen-32B (QwQ-32B)를 오픈소스로 공개했습니다. 320억 개의 파라미터를 자랑하는 이 모델은 훨씬 더 큰 671억 파라미터의 완전한 DeepSeek-R1과 동등한 성능을 보여줍니다.
Qwen 팀의 발표는 강화 학습(RL) 기술 확장에 대한 연구를 강조했습니다. 그들은 “우리는 RL을 확장하는 방법을 탐구해 왔으며, Qwen2.5-32B를 기반으로 몇 가지 인상적인 결과를 얻었습니다. 우리는 RL 훈련이 특히 수학 및 코딩 작업에서 성능을 지속적으로 향상시킬 수 있음을 발견했습니다. 우리는 RL의 지속적인 확장이 중간 규모 모델이 거대한 MoE 모델과 비슷한 성능을 달성하는 데 도움이 될 수 있음을 관찰했습니다. 새로운 모델과 대화하고 피드백을 제공해 주시기 바랍니다!”라고 말했습니다.
QwQ-32B는 현재 Hugging Face 및 ModelScope에서 Apache 2.0 오픈 소스 라이선스에 따라 사용할 수 있습니다. 사용자는 Qwen Chat을 통해 모델과 직접 상호 작용할 수도 있습니다. 인기 있는 로컬 배포 도구인 Ollama는 이미 통합 지원을 제공하며, ollama run qwq
명령을 통해 액세스할 수 있습니다.
출시와 함께 Qwen 팀은 획기적인 발전을 자세히 설명하는 ‘QwQ-32B: 강화 학습의 힘 활용’이라는 제목의 블로그 게시물을 게시했습니다.
블로그 게시물은 모델 성능 향상에 있어 대규모 강화 학습(RL)이 기존의 사전 훈련 및 사후 훈련 방법을 능가하는 엄청난 잠재력을 강조합니다. DeepSeek-R1의 콜드 스타트 데이터 및 다단계 훈련 통합과 같은 최근 연구는 RL이 추론 능력을 크게 향상시켜 더 깊은 사고와 복잡한 문제 해결을 가능하게 하는 능력을 보여줍니다.
Qwen 팀의 탐구는 대규모 RL을 활용하여 대규모 언어 모델의 지능을 높이는 데 중점을 두었으며, 그 결과 QwQ-32B가 탄생했습니다. 이 320억 파라미터 모델은 671억 파라미터(370억 활성화)의 DeepSeek-R1 성능에 필적합니다. 팀은 “이 성과는 강력한 사전 훈련된 기반 모델에 강화 학습을 적용하는 것의 효과를 강조합니다.”라고 강조했습니다.
QwQ-32B는 또한 에이전트 관련 기능을 통합하여 도구를 사용하는 동안 자신의 행동을 비판적으로 평가하고 환경 피드백을 기반으로 추론 프로세스를 조정할 수 있습니다. 팀은 “우리의 노력이 강력한 기반 모델과 대규모 강화 학습을 결합하는 것이 범용 인공 지능(AGI)을 향한 실행 가능한 경로가 될 수 있음을 보여주기를 바랍니다.”라고 말했습니다.
모델 성능: QwQ-32B 벤치마킹
QwQ-32B는 수학적 추론, 프로그래밍 및 일반 기능을 포괄하는 다양한 벤치마크에서 엄격한 평가를 받았습니다. 결과는 DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini 및 원래 DeepSeek-R1을 포함한 다른 주요 모델과 비교하여 QwQ-32B의 성능을 보여줍니다.
결과는 놀랍습니다. QwQ-32B는 LiveBench, IFEval 및 BFCL 벤치마크에서 DeepSeek-R1-67B를 약간 능가하는 뛰어난 성능을 보여줍니다. 이는 Qwen 팀이 채택한 강화 학습 접근 방식의 효율성과 성능을 강조합니다.
강화 학습에 대한 심층 분석
QwQ-32B의 개발은 콜드 스타트 기반을 기반으로 구축된 대규모 강화 학습을 활용했습니다. 초기 단계는 특히 수학 및 프로그래밍 작업에 대한 RL 훈련에 집중했습니다. 보상 모델에 의존하는 기존 접근 방식과 달리 Qwen 팀은 생성된 답변의 정확성을 확인하여 수학 문제에 대한 피드백을 제공했습니다. 코딩 작업의 경우 피드백은 코드 실행 서버에서 파생되어 생성된 코드가 테스트 케이스를 성공적으로 통과했는지 여부를 평가했습니다.
훈련이 여러 반복을 통해 진행됨에 따라 QwQ-32B는 두 영역 모두에서 일관된 성능 향상을 보였습니다. 솔루션 정확성에 대한 직접적인 피드백을 통해 안내되는 이 반복적인 개선 프로세스는 매우 효과적인 것으로 입증되었습니다.
수학 및 프로그래밍에 중점을 둔 초기 RL 단계에 이어 일반 기능을 향상시키기 위해 후속 RL 단계가 도입되었습니다. 이 단계에서는 훈련을 위해 일반 보상 모델과 규칙 기반 검증기를 활용했습니다. 결과는 일반 RL의 적은 단계라도 이전에 훈련된 수학 및 프로그래밍 작업의 성능에 큰 영향을 미치지 않으면서 전반적인 기능을 향상시킬 수 있음을 나타냅니다. 이는 모델의 적응성과 견고성을 보여줍니다.
미래 방향: AI의 지평 확장
Qwen 팀은 또한 “이것은 추론 능력을 향상시키기 위해 대규모 강화 학습(RL)을 활용하는 Qwen의 첫 번째 단계입니다. 이 여정을 통해 우리는 RL 확장의 엄청난 잠재력을 목격했을 뿐만 아니라 사전 훈련된 언어 모델 내에서 미개척 가능성을 인식했습니다. 차세대 Qwen 개발을 위해 노력하면서 더욱 강력한 기반 모델과 확장된 계산 리소스로 구동되는 RL을 결합하면 범용 인공 지능(AGI) 달성에 더 가까워질 것이라고 믿습니다. 또한 장기적인 추론을 가능하게 하기 위해 에이전트와 RL의 통합을 적극적으로 모색하고 있으며, 확장된 추론 시간을 통해 더 큰 지능을 발휘하는 것을 목표로 합니다.”라고 말하며 미래 계획을 공유했습니다. 지속적인 개선과 탐구에 대한 이러한 노력은 AI의 경계를 넓히려는 팀의 헌신을 강조합니다.
커뮤니티 반응: QwQ-32B, 광범위한 호평
QwQ-32B의 출시는 광범위한 열광과 긍정적인 피드백을 받았습니다. Qwen의 많은 사용자를 포함한 AI 커뮤니티는 이 새로운 모델의 공개를 간절히 기대했습니다.
최근 DeepSeek에 대한 흥분은 증류된 버전의 한계로 인해 완전한 모델에 대한 커뮤니티의 선호도를 강조했습니다. 그러나 671억 파라미터의 완전한 모델은 특히 리소스가 제한된 에지 장치에 대한 배포 문제를 야기했습니다. Qwen-32B는 크기가 크게 줄어들어 이러한 문제를 해결하여 더 광범위한 배포 가능성을 열었습니다.
한 사용자는 “아마도 휴대폰에서는 여전히 불가능하지만 RAM이 충분한 Mac에서는 처리할 수 있을 것입니다.”라고 মন্তব্য했습니다. 이러한 정서는 리소스가 제한된 장치에서 QwQ-32B를 실행할 수 있는 가능성에 대한 낙관론을 반영합니다.
다른 사용자는 알리바바 통이 연구소의 과학자인 Binyuan Hui에게 직접 더 작은 모델 개발을 촉구했습니다. 이는 점점 더 작고 효율적인 AI 모델에 대한 수요를 강조합니다.
사용자들은 또한 모델의 속도와 응답성을 칭찬하며 경험을 공유했습니다. 한 사용자는 QwQ-32B의 빠른 처리 기능을 강조하는 데모를 선보였습니다.
Apple의 머신 러닝 연구원인 Awni Hannun은 M4 Max에서 QwQ-32B의 성공적인 실행을 확인했으며 인상적인 속도를 언급했습니다. 저명한 연구원의 이러한 검증은 모델의 성능 주장을 더욱 확고히 합니다.
Qwen 팀은 또한 공식 채팅 인터페이스인 Qwen Chat에서 QwQ-32B의 미리 보기 버전을 제공하여 사용자가 테스트하고 피드백을 제공하도록 장려했습니다. 이 대화형 접근 방식은 커뮤니티 참여를 촉진하고 모델 기능에 대한 실제 평가를 허용합니다.
커뮤니티의 QwQ-32B의 빠른 채택과 Ollama와 같은 인기 있는 도구와의 통합은 모델의 중요성과 영향을 보여줍니다. 강력한 성능, 더 작은 모델 크기 및 강화 학습의 혁신적인 사용의 조합은 QwQ-32B를 대규모 언어 모델 분야의 주요 발전으로 자리매김했습니다. 모델의 오픈 소스 특성은 AI 커뮤니티 내에서 협업과 혁신을 더욱 장려하여 미래의 혁신을 위한 길을 열어줍니다. 실제 배포 및 실제 응용 프로그램에 대한 초점은 QwQ-32B가 연구 환경을 넘어 더 광범위한 사용자와 장치에 고급 AI 기능을 제공하여 상당한 영향을 미칠 수 있는 잠재력을 강조합니다. Qwen 팀의 지속적인 연구 개발 노력은 AGI 추구에 있어 더욱 흥미로운 발전을 약속합니다.