Alibaba Prezentuje Qwen-32B: Kompaktowy Gigant Rzucający Wyzwanie Większym Modelom
W zaskakującym, późnowieczornym ogłoszeniu, Alibaba udostępniła na zasadach open source swój najnowszy model rozumowania, Qwen-32B (QwQ-32B). Model ten, szczycący się 32 miliardami parametrów, demonstruje wydajność porównywalną ze znacznie większym, pełnoprawnym modelem DeepSeek-R1 o 67,1 miliardach parametrów.
Zespół Qwen w swoim ogłoszeniu podkreślił swoje badania nad skalowaniem technik uczenia ze wzmocnieniem (RL). Stwierdzili: ‘Badaliśmy metody rozszerzania RL, osiągając imponujące wyniki w oparciu o nasz Qwen2.5-32B. Odkryliśmy, że trening RL może stale poprawiać wydajność, szczególnie w zadaniach matematycznych i programistycznych. Zaobserwowaliśmy, że ciągłe skalowanie RL może pomóc średniej wielkości modelom osiągnąć wydajność porównywalną z gigantycznymi modelami MoE. Zapraszamy wszystkich do rozmowy z naszym nowym modelem i przekazywania nam opinii!’.
QwQ-32B jest teraz dostępny na Hugging Face i ModelScope na licencji open source Apache 2.0. Użytkownicy mogą również wchodzić w interakcje z modelem bezpośrednio za pośrednictwem Qwen Chat. Popularne narzędzie do lokalnego wdrażania, Ollama, już zintegrowało obsługę, dostępną za pomocą polecenia: ollama run qwq
.
Wraz z wydaniem, zespół Qwen opublikował wpis na blogu zatytułowany ‘QwQ-32B: Harnessing the Power of Reinforcement Learning’, szczegółowo opisujący przełomowe postępy.
Wpis na blogu podkreśla ogromny potencjał uczenia ze wzmocnieniem (RL) na dużą skalę, pozwalający przewyższyć tradycyjne metody pre-treningu i post-treningu w zakresie poprawy wydajności modelu. Ostatnie badania, takie jak integracja danych cold-start i wieloetapowego treningu w DeepSeek-R1, pokazują zdolność RL do znacznego zwiększania możliwości rozumowania, umożliwiając głębsze myślenie i rozwiązywanie złożonych problemów.
Badania zespołu Qwen koncentrowały się na wykorzystaniu uczenia ze wzmocnieniem na dużą skalę w celu podniesienia inteligencji dużych modeli językowych, czego kulminacją było stworzenie QwQ-32B. Ten model o 32 miliardach parametrów w niezwykły sposób dorównuje wydajnością modelowi DeepSeek-R1 o 67,1 miliardach parametrów (z 37 miliardami aktywowanych). Zespół podkreślił: ‘To osiągnięcie podkreśla skuteczność stosowania uczenia ze wzmocnieniem do solidnych, wstępnie wytrenowanych modeli podstawowych’.
QwQ-32B zawiera również możliwości związane z agentami, umożliwiając mu krytyczną ocenę swoich działań podczas korzystania z narzędzi i dostosowywanie procesu rozumowania w oparciu o informacje zwrotne ze środowiska. ‘Mamy nadzieję, że nasze wysiłki pokazują, że połączenie potężnych modeli podstawowych z uczeniem ze wzmocnieniem na dużą skalę może być realną drogą do Artificial General Intelligence (AGI)’, stwierdził zespół.
Wydajność Modelu: Benchmarking QwQ-32B
QwQ-32B został poddany rygorystycznej ocenie w szeregu benchmarków, obejmujących rozumowanie matematyczne, programowanie i ogólne możliwości. Wyniki pokazują wydajność QwQ-32B w porównaniu z innymi wiodącymi modelami, w tym DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini i oryginalnym DeepSeek-R1.
Odkrycia są uderzające. QwQ-32B demonstruje wyjątkową wydajność, nawet nieznacznie przewyższając DeepSeek-R1-67B w benchmarkach LiveBench, IFEval i BFCL. To podkreśla wydajność i moc podejścia uczenia ze wzmocnieniem przyjętego przez zespół Qwen.
Dogłębna Analiza Uczenia ze Wzmocnieniem
Rozwój QwQ-32B wykorzystywał uczenie ze wzmocnieniem na dużą skalę zbudowane na fundamencie cold-start. Początkowa faza koncentrowała się szczególnie na treningu RL dla zadań matematycznych i programistycznych. W przeciwieństwie do tradycyjnych podejść opierających się na modelach nagród, zespół Qwen zapewniał informacje zwrotne dla problemów matematycznych, weryfikując poprawność wygenerowanych odpowiedzi. W przypadku zadań programistycznych informacje zwrotne pochodziły z serwera wykonującego kod, oceniającego, czy wygenerowany kod pomyślnie przeszedł przypadki testowe.
W miarę postępu treningu przez wiele iteracji, QwQ-32B wykazywał stałą poprawę wydajności w obu domenach. Ten iteracyjny proces udoskonalania, kierowany bezpośrednimi informacjami zwrotnymi na temat dokładności rozwiązania, okazał się bardzo skuteczny.
Po początkowej fazie RL skoncentrowanej na matematyce i programowaniu, wprowadzono kolejną fazę RL w celu zwiększenia ogólnych możliwości. Ten etap wykorzystywał ogólne modele nagród i walidatory oparte na regułach do treningu. Wyniki wskazały, że nawet niewielka liczba kroków w ogólnym RL może zwiększyć ogólne możliwości bez znaczącego wpływu na wydajność w wcześniej wytrenowanych zadaniach matematycznych i programistycznych. To pokazuje zdolność adaptacji i solidność modelu.
Przyszłe Kierunki: Poszerzanie Horyzontów AI
Zespół Qwen podzielił się również swoimi planami na przyszłość, stwierdzając: ‘To pierwszy krok Qwen w wykorzystaniu uczenia ze wzmocnieniem (RL) na dużą skalę w celu zwiększenia możliwości rozumowania. Dzięki tej podróży nie tylko byliśmy świadkami ogromnego potencjału skalowania RL, ale także rozpoznaliśmy niewykorzystane możliwości w ramach wstępnie wytrenowanych modeli językowych. Pracując nad opracowaniem następnej generacji Qwen, wierzymy, że połączenie jeszcze potężniejszych modeli podstawowych z RL, zasilane przez skalowane zasoby obliczeniowe, przybliży nas do osiągnięcia Artificial General Intelligence (AGI). Ponadto aktywnie badamy integrację agentów z RL, aby umożliwić długoterminowe rozumowanie, mając na celu odblokowanie jeszcze większej inteligencji poprzez wydłużony czas rozumowania’. To zaangażowanie w ciągłe doskonalenie i eksplorację podkreśla dążenie zespołu do przesuwania granic AI.
Odbiór Społeczności: QwQ-32B Zdobywa Szerokie Uznanie
Wydanie QwQ-32B spotkało się z szerokim entuzjazmem i pozytywnymi opiniami. Społeczność AI, w tym wielu użytkowników Qwen, z niecierpliwością oczekiwała na odsłonięcie tego nowego modelu.
Niedawne podekscytowanie związane z DeepSeek uwydatniło preferencje społeczności dla pełnoprawnego modelu ze względu na ograniczenia wersji destylowanej. Jednak pełnoprawny model o 67,1 miliardach parametrów stanowił wyzwanie wdrożeniowe, szczególnie dla urządzeń brzegowych o ograniczonych zasobach. Qwen-32B, ze swoim znacznie zmniejszonym rozmiarem, rozwiązuje ten problem, otwierając możliwości szerszego wdrożenia.
Jeden z użytkowników skomentował: ‘Prawdopodobnie nadal nie jest to możliwe na telefonach komórkowych, ale Maki z dużą ilością pamięci RAM mogą być w stanie sobie z tym poradzić’. Ten sentyment odzwierciedla optymizm związany z potencjałem uruchamiania QwQ-32B na urządzeniach o ograniczonych zasobach.
Inny użytkownik zwrócił się bezpośrednio do Binyuana Hui, naukowca z Tongyi Laboratory Alibaba, wzywając do opracowania jeszcze mniejszych modeli. To podkreśla zapotrzebowanie na coraz bardziej kompaktowe i wydajne modele AI.
Użytkownicy podzielili się również swoimi doświadczeniami, chwaląc szybkość i responsywność modelu. Jeden z użytkowników zaprezentował demonstrację, podkreślając szybkie możliwości przetwarzania QwQ-32B.
Awni Hannun, badacz uczenia maszynowego w Apple, potwierdził pomyślne wykonanie QwQ-32B na M4 Max, zauważając jego imponującą szybkość. Ta walidacja od prominentnego badacza dodatkowo potwierdza twierdzenia dotyczące wydajności modelu.
Zespół Qwen udostępnił również wersję podglądową QwQ-32B na swoim oficjalnym interfejsie czatu, Qwen Chat, zachęcając użytkowników do testowania i przekazywania opinii. To interaktywne podejście sprzyja zaangażowaniu społeczności i pozwala na ocenę możliwości modelu w świecie rzeczywistym.
Szybkie przyjęcie QwQ-32B przez społeczność i jego integracja z popularnymi narzędziami, takimi jak Ollama, pokazują znaczenie i wpływ modelu. Połączenie wysokiej wydajności, mniejszego rozmiaru modelu i innowacyjnego wykorzystania uczenia ze wzmocnieniem sprawiło, że QwQ-32B stał się ważnym postępem w dziedzinie dużych modeli językowych. Otwartoźródłowy charakter modelu dodatkowo zachęca do współpracy i innowacji w społeczności AI, torując drogę do przyszłych przełomów. Koncentracja na praktycznym wdrożeniu i zastosowaniach w świecie rzeczywistym podkreśla potencjał QwQ-32B do wywarcia znaczącego wpływu poza środowiskami badawczymi, przenosząc zaawansowane możliwości AI do szerszego grona użytkowników i urządzeń. Trwające prace badawczo-rozwojowe zespołu Qwen obiecują jeszcze bardziej ekscytujące postępy w dążeniu do AGI.