DeepSeek-R1 w pakiecie 32B? Analiza QwQ Alibaby

Jak bardzo uczenie się przez wzmacnianie (reinforcement learning), wzmocnione dodatkową weryfikacją, może podnieść możliwości dużych modeli językowych (LLMs)? Zespół Qwen Alibaby poszukuje odpowiedzi na to pytanie, tworząc swoje najnowsze dzieło, QwQ.

QwQ, model “rozumowania”, może pochwalić się stosunkowo kompaktową liczbą 32 miliardów parametrów. Mimo to Alibaba twierdzi, że przewyższa on DeepSeek R1, z jego ogromnymi 671 miliardami parametrów, w określonych benchmarkach związanych z matematyką, kodowaniem i wywoływaniem funkcji.

Zespół Qwen, podobnie jak w przypadku R1, zastosował uczenie się przez wzmacnianie, aby udoskonalić rozumowanie QwQ oparte na łańcuchu myśli (chain-of-thought). Ta metoda poprawia analizę problemu i możliwości jego dekompozycji. Uczenie się przez wzmacnianie tradycyjnie wzmacnia rozumowanie krok po kroku, nagradzając modele za poprawne odpowiedzi, co sprzyja dokładniejszym reakcjom. Jednak QwQ idzie o krok dalej, włączając weryfikator dokładności i serwer wykonywania kodu. Gwarantuje to, że nagrody są przyznawane wyłącznie za dokładne rozwiązania matematyczne i funkcjonalny kod.

Zespół Qwen twierdzi, że takie podejście skutkuje modelem, który przewyższa swoją wielkość, osiągając wydajność porównywalną, a czasem nawet przewyższającą znacznie większe modele.

Jednak benchmarki AI mogą być mylące. Zbadajmy więc, jak te twierdzenia przekładają się na rzeczywiste scenariusze, a następnie pokażemy, jak samodzielnie uruchomić QwQ.

Ocena Wydajności

Poddałem QwQ serii testowych promptów, obejmujących wiedzę ogólną, rozumowanie przestrzenne, rozwiązywanie problemów, matematykę i inne zapytania, które stanowią wyzwanie nawet dla najbardziej zaawansowanych LLMs.

Ze względu na znaczne wymagania pamięciowe pełnego modelu, przeprowadziliśmy nasze testy w dwóch konfiguracjach, aby zaspokoić potrzeby użytkowników o różnych pojemnościach RAM. Początkowo oceniliśmy pełny model, korzystając z demonstracji QwQ na Hugging Face. Następnie przetestowaliśmy 4-bitową wersję skwantowaną na 24 GB GPU (Nvidia 3090 lub AMD Radeon RX 7900XTX), aby ocenić wpływ kwantyzacji na dokładność.

W przypadku większości pytań z zakresu wiedzy ogólnej QwQ wykazywał wydajność podobną do 671-miliardowego parametru R1 DeepSeek i innych modeli rozumowania, takich jak o3-mini OpenAI, zatrzymując się na chwilę, aby sformułować swoje myśli przed udzieleniem odpowiedzi.

Mocne strony modelu, co być może nie jest zaskakujące, stają się widoczne, gdy mierzy się on z bardziej skomplikowanymi wyzwaniami logicznymi, kodowaniem lub matematyką. Zagłębmy się w te obszary, zanim zajmiemy się niektórymi z jego ograniczeń.

Zdolności Rozumowania Przestrzennego

Zaczęliśmy od stosunkowo nowego testu rozumowania przestrzennego opracowanego przez Homebrew Research w ramach projektu AlphaMaze.

Test przedstawia modelowi labirynt w formacie tekstowym, jak pokazano poniżej. Zadaniem modelu jest nawigacja od początku “O” do celu “T”.

Uczenie się przez wzmacnianie z weryfikacją: Klucz do sukcesu QwQ?

Podstawą imponującej wydajności QwQ, pomimo stosunkowo niewielkiego rozmiaru, jest innowacyjne podejście do uczenia się przez wzmacnianie. Tradycyjne uczenie się przez wzmacnianie polega na nagradzaniu modelu za poprawne odpowiedzi, co zachęca go do generowania dokładniejszych i bardziej spójnych wyników. Jednakże, samo nagradzanie za poprawność odpowiedzi może nie być wystarczające w przypadku złożonych problemów wymagających wieloetapowego rozumowania.

Zespół Qwen poszedł o krok dalej, wprowadzając dwa kluczowe komponenty: weryfikator dokładności i serwer wykonywania kodu. Weryfikator dokładności sprawdza, czy rozwiązanie matematyczne przedstawione przez model jest rzeczywiście poprawne. Nie wystarczy, że model wygląda na poprawny; musi on być faktycznie poprawny. Serwer wykonywania kodu, z drugiej strony, sprawdza, czy wygenerowany kod jest funkcjonalny i wykonuje zamierzone zadanie.

Połączenie tych trzech elementów – uczenia się przez wzmacnianie, weryfikacji dokładności i weryfikacji kodu – tworzy potężny mechanizm, który pozwala QwQ na osiąganie wyników porównywalnych z modelami o znacznie większej liczbie parametrów. Model jest nagradzany tylko wtedy, gdy jego odpowiedź jest poprawna i gdy kod, który generuje, działa zgodnie z oczekiwaniami. To wymusza na modelu nie tylko generowanie prawdopodobnych odpowiedzi, ale także rzeczywiście rozumienie problemu i generowanie działających rozwiązań.

QwQ kontra DeepSeek R1: Pojedynek Gigantów (i Karzełków)

Alibaba otwarcie porównuje QwQ do DeepSeek R1, modelu o znacznie większej liczbie parametrów (671 miliardów w porównaniu do 32 miliardów). Twierdzenie, że mniejszy model może przewyższyć większy w określonych zadaniach, jest odważne, ale nie bezprecedensowe. W świecie LLMs rozmiar nie zawsze jest jedynym wyznacznikiem sukcesu. Architektura modelu, dane treningowe i techniki optymalizacji odgrywają równie ważną rolę.

W przypadku QwQ, kluczem do sukcesu wydaje się być właśnie innowacyjne podejście do uczenia się przez wzmacnianie, połączone z weryfikacją dokładności i kodu. To pozwala modelowi na efektywniejsze wykorzystanie swoich zasobów i skupienie się na generowaniu rzeczywiście poprawnych odpowiedzi, a nie tylko prawdopodobnie poprawnych.

Jednakże, należy pamiętać, że benchmarki, na których opiera się Alibaba, są specyficzne i skupiają się na matematyce, kodowaniu i wywoływaniu funkcji. Nie oznacza to, że QwQ jest lepszy od DeepSeek R1 we wszystkich aspektach. W zadaniach wymagających szerszej wiedzy ogólnej lub bardziej kreatywnego generowania tekstu, DeepSeek R1, ze względu na swój rozmiar, może nadal mieć przewagę.

Testy w Świecie Rzeczywistym: Jak QwQ Radzi Sobie z Wyzwaniami?

Przeprowadzone testy, zarówno na pełnym modelu, jak i na wersji skwantowanej, pokazują, że QwQ rzeczywiście radzi sobie dobrze z zadaniami wymagającymi logicznego myślenia, rozumowania przestrzennego i rozwiązywania problemów matematycznych. Model potrafi analizować złożone problemy, dekomponować je na mniejsze kroki i generować poprawne rozwiązania.

Warto zauważyć, że kwantyzacja, czyli zmniejszenie precyzji modelu w celu zmniejszenia jego rozmiaru i wymagań sprzętowych, nie wpłynęła znacząco na jego wydajność w testowanych zadaniach. Oznacza to, że QwQ można uruchomić na sprzęcie o mniejszej mocy obliczeniowej, co czyni go bardziej dostępnym dla szerszego grona użytkowników.

Ograniczenia i Przyszłość QwQ

Mimo imponujących wyników, QwQ nie jest pozbawiony ograniczeń. Jak każdy model LLM, może on generować błędne lub bezsensowne odpowiedzi, szczególnie w przypadku pytań wykraczających poza jego specjalizację. Model może również mieć trudności z zadaniami wymagającymi kreatywności, abstrakcyjnego myślenia lub rozumienia kontekstu kulturowego.

Przyszłość QwQ i podobnych modeli opartych na uczeniu się przez wzmacnianie z weryfikacją wydaje się obiecująca. Dalsze badania i rozwój w tej dziedzinie mogą doprowadzić do powstania jeszcze bardziej wydajnych i wszechstronnych modeli LLM, które będą w stanie rozwiązywać coraz bardziej złożone problemy i wspierać ludzi w różnorodnych zadaniach. Możliwe jest, że w przyszłości zobaczymy modele, które będą w stanie nie tylko generować tekst, ale także rozumieć go na głębszym poziomie, a nawet uczyć się nowych rzeczy w sposób zbliżony do ludzkiego.

Podsumowanie: QwQ – Mały Model, Wielkie Możliwości

QwQ Alibaby to fascynujący przykład tego, jak innowacyjne podejście do uczenia się przez wzmacnianie, połączone z weryfikacją dokładności i kodu, może znacząco podnieść możliwości LLM. Model ten, pomimo stosunkowo niewielkiego rozmiaru, osiąga imponujące wyniki w zadaniach wymagających logicznego myślenia, rozumowania przestrzennego i rozwiązywania problemów matematycznych. QwQ pokazuje, że rozmiar nie zawsze jest najważniejszy, a odpowiednio zaprojektowany i wytrenowany model może konkurować z gigantami branży. Jest to obiecujący krok w kierunku tworzenia bardziej wydajnych i wszechstronnych modeli LLM, które będą mogły wspierać ludzi w coraz bardziej złożonych zadaniach.