Moc Reinforcement Learning
Tradycyjne podejścia do tworzenia modeli AI opierają się w dużej mierze na metodach pretreningu i posttreningu. Jednak zespół Qwen wykroczył poza te konwencjonalne techniki, integrując możliwości agenta bezpośrednio z modelem rozumowania. Ta integracja umożliwia QwQ-32B angażowanie się w krytyczne myślenie, korzystanie z zewnętrznych narzędzi i dynamiczne dostosowywanie procesu rozumowania w oparciu o informacje zwrotne z otoczenia. Stanowi to znaczący krok naprzód w tworzeniu bardziej adaptacyjnych i inteligentnych systemów AI.
Zespół Qwen podkreśla, że skalowanie RL ma potencjał do odblokowania ulepszeń wydajności, które przewyższają możliwości tradycyjnych metod. Ostatnie badania wykazały już, że RL może znacznie zwiększyć możliwości rozumowania modeli AI, a QwQ-32B jest przekonującym przykładem tego potencjału w praktyce.
Zmniejszanie różnicy między rozmiarem a wydajnością
Jednym z najbardziej uderzających aspektów QwQ-32B jest jego wydajność w stosunku do jego rozmiaru. DeepSeek-R1, model, z którym konkuruje QwQ-32B, ma aż 671 miliardów parametrów (z 37 miliardami aktywowanych). QwQ-32B, ze stosunkowo skromnymi 32 miliardami parametrów, osiąga porównywalną wydajność, co podkreśla niezwykłe zyski wydajności osiągnięte dzięki strategicznemu wdrożeniu RL. To osiągnięcie podważa długo utrzymywane założenie, że rozmiar modelu jest głównym wyznacznikiem wydajności, sugerując, że wyrafinowane techniki uczenia mogą zniwelować różnicę między rozmiarem a możliwościami.
Doskonałość w testach porównawczych
Aby rygorystycznie ocenić możliwości QwQ-32B, zespół Qwen poddał model kompleksowemu zestawowi testów porównawczych. Te testy, w tym AIME24, LiveCodeBench, LiveBench, IFEval i BFCL, zostały specjalnie zaprojektowane do oceny różnych aspektów wydajności AI, w tym rozumowania matematycznego, biegłości w kodowaniu i ogólnych umiejętności rozwiązywania problemów. Wyniki tych ocen dają przekonujący obraz mocnych stron QwQ-32B.
Przyjrzyjmy się bliżej wydajności QwQ-32B w każdym teście porównawczym:
AIME24: Ten test koncentruje się na rozumowaniu matematycznym. QwQ-32B uzyskał wynik 79,5, tylko nieznacznie ustępując wynikowi DeepSeek-R1-671B (79,8). Warto zauważyć, że oba modele znacznie przewyższyły OpenAl-o1-mini, który uzyskał wynik 63,6, a także modele destylowane.
LiveCodeBench: Ten test ocenia biegłość w kodowaniu. QwQ-32B uzyskał wynik 63,4, ściśle odzwierciedlając wynik DeepSeek-R1-671B (65,9). Ponownie, oba modele przewyższyły wydajność modeli destylowanych i OpenAl-o1-mini (53,8).
LiveBench: Zaprojektowany do oceny ogólnych umiejętności rozwiązywania problemów, LiveBench przyniósł QwQ-32B wynik 73,1, przewyższając wynik DeepSeek-R1-671B (71,6). Ten wynik dodatkowo umacnia pozycję QwQ-32B jako silnego konkurenta w ogólnych zadaniach AI.
IFEval: Ten test koncentruje się na wykonywaniu instrukcji i dostosowaniu do preferencji człowieka. QwQ-32B uzyskał imponujący wynik 83,9, prawie identyczny z wynikiem DeepSeek-R1-671B (83,3). Oba modele znacznie przewyższyły OpenAl-o1-mini (59,1) i modele destylowane.
BFCL: Ten test sprawdza zdolność modelu do radzenia sobie ze złożonymi, rzeczywistymi scenariuszami. QwQ-32B uzyskał wynik 66,4, przewyższając wynik DeepSeek-R1-671B (62,8). Ten wynik pokazuje potencjał QwQ-32B do praktycznych zastosowań wykraczających poza czysto akademickie testy porównawcze.
Wyniki te konsekwentnie pokazują zdolność QwQ-32B do konkurowania, a w niektórych przypadkach przewyższania, znacznie większych modeli. Podkreśla to skuteczność podejścia zespołu Qwen i transformacyjny potencjał RL w rozwoju AI.
Innowacyjne podejście zespołu Qwen
Sukces QwQ-32B można przypisać innowacyjnemu, wieloetapowemu procesowi RL zespołu Qwen. Proces ten rozpoczyna się od punktu kontrolnego ‘cold-start’, co oznacza, że model zaczyna od wstępnie wytrenowanej podstawy, ale jest następnie znacznie udoskonalany poprzez RL. Proces uczenia jest napędzany nagrodami opartymi na wynikach, co zachęca model do poprawy wydajności w określonych zadaniach.
Początkowy etap uczenia koncentruje się na skalowaniu RL dla zadań matematycznych i kodowania. Obejmuje to wykorzystanie weryfikatorów dokładności i serwerów wykonywania kodu w celu zapewnienia informacji zwrotnej i kierowania uczeniem się modelu. Model uczy się generować poprawne rozwiązania matematyczne i pisać funkcjonalny kod, otrzymując nagrody za pomyślne wyniki.
Drugi etap rozszerza zakres uczenia RL, aby objąć ogólne możliwości. Ten etap obejmuje nagrody z ogólnych modeli nagród i weryfikatorów opartych na regułach, poszerzając zrozumienie modelu różnych zadań i instrukcji. Ten etap jest kluczowy dla opracowania wszechstronnego modelu AI, który może poradzić sobie z szerokim zakresem wyzwań.
Zespół Qwen odkrył, że ten drugi etap uczenia RL, nawet przy stosunkowo niewielkiej liczbie kroków, może znacznie poprawić wydajność modelu w zakresie różnych ogólnych możliwości. Obejmują one wykonywanie instrukcji, dostosowanie do preferencji człowieka i ogólną wydajność agenta. Co ważne, ta poprawa ogólnych możliwości nie odbywa się kosztem wydajności w matematyce i kodowaniu, co pokazuje skuteczność wieloetapowego podejścia.
Otwarty i dostępny
W posunięciu, które promuje współpracę i dalsze badania, zespół Qwen udostępnił QwQ-32B jako model open-weight. Oznacza to, że parametry modelu są publicznie dostępne, co pozwala badaczom i programistom na dostęp, badanie i budowanie na pracy zespołu Qwen. Model jest dostępny na Hugging Face i ModelScope na licencji Apache 2.0, permisywnej licencji, która zachęca do szerokiego wykorzystania i modyfikacji. Dodatkowo, QwQ-32B jest dostępny za pośrednictwem Qwen Chat, zapewniając przyjazny dla użytkownika interfejs do interakcji z modelem.
Krok w kierunku AGI
Rozwój QwQ-32B stanowi znaczący krok naprzód w dążeniu do Artificial General Intelligence (AGI). Zespół Qwen postrzega ten model jako wstępną eksplorację skalowania RL w celu zwiększenia możliwości rozumowania i planuje kontynuować badania nad integracją agentów z RL dla rozumowania długoterminowego. Obejmuje to opracowywanie systemów AI, które mogą planować i wykonywać złożone zadania przez dłuższy czas, co jest kluczową zdolnością do osiągnięcia AGI.
Zespół jest przekonany, że połączenie silniejszych modeli podstawowych z RL, wspierane przez skalowane zasoby obliczeniowe, będzie kluczowym czynnikiem napędzającym rozwój AGI. QwQ-32B jest potężną demonstracją tego potencjału, pokazując niezwykłe zyski wydajności, które można osiągnąć dzięki strategicznemu wdrożeniu RL. Trwające prace badawczo-rozwojowe zespołu Qwen, wraz z otwartym charakterem QwQ-32B, obiecują przyspieszyć postęp w dziedzinie AI i przybliżyć nas do realizacji prawdziwie inteligentnych maszyn. Uwaga nie skupia się już wyłącznie na budowaniu większych modeli, ale na tworzeniu bardziej inteligentnych i adaptacyjnych systemów poprzez innowacyjne techniki uczenia.