Wyzwanie dla Gigantów: Kompaktowy Zawodnik
Zespół Qwen Alibaby rzucił rękawicę, prezentując swoje najnowsze dzieło, QwQ. Model ten, mimo że posiada zaledwie 32 miliardy parametrów w porównaniu do deklarowanych 671 miliardów DeepSeek R1, jest pozycjonowany jako model “rozumowania”. Alibaba twierdzi, że ten stosunkowo mały model może przewyższyć R1 w określonych testach porównawczych, szczególnie w obszarach takich jak matematyka, kodowanie i wywoływanie funkcji. To ambitne twierdzenie uzasadnia bliższe przyjrzenie się wewnętrznemu działaniu i rzeczywistej wydajności QwQ.
Uczenie ze Wzmocnieniem: Klucz do Sprawności QwQ
Podobnie jak w przypadku DeepSeek R1, zespół Qwen zastosował uczenie ze wzmocnieniem (RL), aby udoskonalić zdolności rozumowania QwQ w łańcuchu myśli. Ta metoda zwiększa zdolność modelu do analizowania i rozkładania złożonych problemów krok po kroku. Tradycyjne podejście w RL polega na nagradzaniu modelu za poprawne odpowiedzi, wzmacniając w ten sposób dokładne reakcje.
Jednak zespół Qwen przyjął bardziej zniuansowane podejście w przypadku QwQ. Zintegrowali weryfikator dokładności i serwer wykonywania kodu. Ten kluczowy dodatek zapewnia, że nagrody są przyznawane tylko za matematycznie poprawne rozwiązania i funkcjonalny kod. Wdrażając ten rygorystyczny proces weryfikacji, zespół dąży do stworzenia modelu, który wykazuje wyższy stopień precyzji i niezawodności.
Deklaracje Wydajności: Sprawdzenie Rzeczywistości
Wysiłki zespołu Qwen, jak twierdzą, zaowocowały modelem, który znacznie przewyższa swoją klasę wagową. Twierdzą, że QwQ osiąga poziomy wydajności porównywalne, a w niektórych przypadkach nawet przewyższające, znacznie większe modele.
Jednak świat benchmarków AI może być złożony. Ważne jest, aby wyjść poza podane liczby i zbadać, jak te twierdzenia przekładają się na praktyczne, rzeczywiste scenariusze.
Testy Praktyczne: Sprawdzanie Możliwości QwQ
Aby ocenić możliwości QwQ, zaprojektowano serię testów obejmujących różne dziedziny. Obejmowały one wiedzę ogólną, rozumowanie przestrzenne, rozwiązywanie problemów, matematykę i inne wyzwania, które sprawiają trudności nawet najbardziej zaawansowanym dużym modelom językowym (LLM).
Ze względu na znaczne wymagania pamięciowe pełnego modelu, testowanie zostało przeprowadzone w dwóch konfiguracjach. Po pierwsze, kompletny model został oceniony przy użyciu demonstracji QwQ na Hugging Face. Pozwoliło to na ocenę jego pełnego potencjału. Po drugie, 4-bitowa wersja kwantyzowana została przetestowana na 24 GB GPU (konkretnie Nvidia 3090 lub AMD Radeon RX 7900XTX). Ta konfiguracja miała na celu ocenę wpływu kwantyzacji na dokładność modelu, czyniąc go bardziej dostępnym dla użytkowników z mniej wydajnym sprzętem.
Wiedza Ogólna: Utrzymywanie Pozycji
W odpowiedzi na większość pytań z zakresu wiedzy ogólnej, QwQ wykazał wydajność porównywalną z 671-miliardowym parametrem R1 DeepSeek i innymi modelami rozumowania, takimi jak o3-mini OpenAI. Model zazwyczaj potrzebował kilku sekund na sformułowanie swoich myśli, zanim udzielił odpowiedzi na zapytanie. To zachowanie jest charakterystyczne dla modeli rozumowania, które priorytetowo traktują staranne rozważanie nad natychmiastowymi odpowiedziami.
Doskonałość w Złożoności: Logika, Kodowanie i Matematyka
QwQ naprawdę zaczyna się wyróżniać w rozwiązywaniu bardziej skomplikowanych wyzwań związanych z logiką, kodowaniem lub matematyką. Zagłębmy się w te obszary, podkreślając jego mocne strony i wskazując obszary, w których nie do końca spełnia oczekiwania.
Rozumowanie Przestrzenne: Nawigacja po Labiryncie
Do oceny QwQ wykorzystano stosunkowo nowy test rozumowania przestrzennego, opracowany przez Homebrew Research w ramach projektu AlphaMaze.
Zarówno lokalnie hostowana instancja QwQ, jak i pełnowymiarowy model konsekwentnie rozwiązywały te zagadki z powodzeniem. Jednak każdy przebieg wymagał kilku minut. Wskazuje to, że chociaż QwQ może skutecznie radzić sobie z rozumowaniem przestrzennym, niekoniecznie jest w tym najszybszy.
W przeciwieństwie do tego, R1 DeepSeek i jego 32B destylat wykazywały różne zachowania. Oba modele z powodzeniem rozwiązały pierwszy labirynt. Jednak R1 miał problemy z drugim, podczas gdy 32B destylat osiągnął 90% skuteczności w drugim labiryncie. Ta zmienność nie jest całkowicie nieoczekiwana, biorąc pod uwagę, że R1 i destylat wykorzystują odrębne modele bazowe.
Podczas gdy QwQ wykazał lepszą wydajność w porównaniu do DeepSeek w tym konkretnym teście, zaobserwowano pewne nietypowe zachowanie w przypadku modelu 4-bitowego. Początkowo wymagał on prawie dwa razy więcej tokenów “myśli”, aby ukończyć test. Początkowo sugerowało to potencjalne straty spowodowane kwantyzacją. Jednak dalsze badania wykazały, że model kwantyzowany, w swoim początkowym stanie, wykazywał nieoptymalną wydajność. Dostosowanie hiperparametrów i ponowne uruchomienie testów rozwiązało ten problem, demonstrując znaczenie prawidłowej konfiguracji.
Kodowanie Jednostrzałowe: Potencjalna Siła
QwQ przyciągnął znaczną uwagę ze względu na swój potencjał w “jednostrzałowym” generowaniu kodu – zdolności do tworzenia użytecznego kodu za pierwszym podejściem. Ten konkretny obszar wydaje się być znaczącą siłą modelu.
Modelowi zlecono odtworzenie kilku stosunkowo prostych gier w Pythonie przy użyciu biblioteki pygame. Wybrane gry to Pong, Breakout, Asteroids i Flappy Bird.
QwQ poradził sobie z Pongiem i Breakoutem stosunkowo łatwo. Po kilku minutach przetwarzania model wygenerował działające wersje obu gier.
Jednak, gdy zlecono mu odtworzenie Asteroids, QwQ napotkał trudności. Chociaż wygenerowany kod działał, grafika i mechanika gry były często zniekształcone i zawierały błędy. W przeciwieństwie do tego, R1, za pierwszym podejściem, wiernie odtworzył klasyczną strzelankę zręcznościową.
Ważne jest, aby wziąć pod uwagę dane treningowe dla tych modeli. Zostały one wystawione na ogromną ilość otwarcie dostępnego kodu źródłowego, prawdopodobnie zawierającego reprodukcje klasycznych gier. Rodzi to pytanie, czy modele po prostu przywołują wyuczone informacje, a nie niezależnie wyprowadzają mechanikę gry od podstaw. Podkreśla to fundamentalną naturę tych masywnych sieci neuronowych, w których pozorna inteligencja często wynika z rozległego rozpoznawania wzorców.
Nawet przy tych ograniczeniach, wydajność QwQ w odtwarzaniu klasycznych gier zręcznościowych jest imponująca, szczególnie biorąc pod uwagę liczbę parametrów. Może nie dorównywać R1 w każdym teście, ale wykazuje niezwykły poziom możliwości. Zwrot “nie ma zamiennika dla pojemności skokowej”, często używany w świecie motoryzacji, może być tutaj istotny. Może to wyjaśniać, dlaczego Alibaba opracowuje wersję “Max” QwQ, chociaż jest mało prawdopodobne, aby była ona uruchamiana na sprzęcie konsumenckim w najbliższym czasie.
W porównaniu z podobnie wielkościowo destylatem R1 Qwen 2.5 32B DeepSeek, decyzja Alibaby o zintegrowaniu serwera wykonywania kodu z potokiem uczenia ze wzmocnieniem mogła dać przewagę w wyzwaniach związanych z programowaniem.
Matematyka: Możliwości z Zastrzeżeniem
Historycznie rzecz biorąc, LLM miały problemy z matematyką, co jest konsekwencją ich szkolenia skoncentrowanego na języku. Chociaż nowsze modele wykazały poprawę, QwQ nadal stoi przed wyzwaniami, choć niekoniecznie z powodów, których można by się spodziewać.
QwQ z powodzeniem rozwiązał wszystkie problemy matematyczne, które wcześniej postawiono R1. Wskazuje to, że QwQ może obsługiwać podstawową arytmetykę, a nawet trochę algebry. Jednak problem leży w jego wydajności. Angażowanie LLM do obliczeń matematycznych wydaje się sprzeczne z intuicją, gdy kalkulatory i bezpośrednie obliczenia pozostają łatwo dostępne i znacznie szybsze.
Na przykład, rozwiązanie prostego równania, takiego jak 7*43
, wymagało od QwQ wygenerowania ponad 1000 tokenów, co zajęło około 23 sekundy na RTX 3090 Ti. Jest to zadanie, które można wykonać na kalkulatorze kieszonkowym w ułamku tego czasu.
Niewydajność staje się jeszcze bardziej widoczna przy większych obliczeniach. Rozwiązanie 3394*35979
, problemu mnożenia wykraczającego poza możliwości większości modeli nierozumujących, zajęło lokalnej instancji QwQ trzy minuty i ponad 5000 tokenów.
Przed poprawką hiperparametrów, to samo równanie wymagało aż dziewięciu minut i prawie 12 000 tokenów.
Kluczowym wnioskiem jest to, że chociaż model może być w stanie wymusić drogę do poprawnej odpowiedzi, niekoniecznie oznacza to, że jest to optymalne narzędzie do tego zadania. Bardziej praktycznym podejściem byłoby zapewnienie QwQ dostępu do kalkulatora Pythona. Wykorzystuje to mocne strony modelu, jednocześnie odciążając zadania wymagające dużej mocy obliczeniowej do bardziej odpowiedniego narzędzia.
Gdy zlecono mu rozwiązanie tego samego równania 3394*35979
przy użyciu narzędzi, czas odpowiedzi QwQ spadł do ośmiu sekund, ponieważ kalkulator przejął ciężar obliczeń.
Dominacja “Czekaj”: Spojrzenie w Proces Myślowy
Badanie “myśli” QwQ ujawnia częste występowanie słowa “czekaj”, szczególnie podczas złożonych zadań lub problemów słownych. Odzwierciedla to wewnętrzny proces modelu sprawdzania swojej pracy pod kątem alternatywnych wyników.
Chociaż to zachowanie jest powszechne w modelach rozumowania, może być szczególnie frustrujące, gdy QwQ generuje nieprawidłową odpowiedź, nawet po wykazaniu zrozumienia poprawnej odpowiedzi podczas procesu “myśli”.
Ten problem był często spotykany podczas testowania. Jednym z najbardziej ilustracyjnych przykładów była adaptacja klasycznego problemu wilka, kozy i kapusty przez AutoGen AI. Ta zagadka przedstawia wyzwanie optymalizacji transportu z pewnym zwrotem akcji:
Rozwiązanie jest osadzone w podpowiedzi: z trzema bezpiecznymi przedziałami, rolnik może przetransportować wszystkie przedmioty w jednym kursie. Jednak ze względu na podobieństwo zagadki do klasycznej wersji, modele często pomijają przedziały.
W testach QwQ konsekwentnie nie rozwiązywał tej zagadki poprawnie. Badanie jego procesu myślowego ujawniło, że nie przeoczył on trzech przedziałów. W rzeczywistości przyznał się do nich, ale odrzucił je jako zbyt proste:
“Czekaj, jeśli rolnik może zabrać wszystkie trzy w jednym kursie, to może po prostu to zrobić i po sprawie. Ale to uczyniłoby problem trywialnym, co jest mało prawdopodobne. Więc może przedziały są oddzielne, ale łódź może przewozić tylko dwa przedmioty plus rolnika?”
Niezależnie od tego, czy test był uruchamiany na pełnym modelu w chmurze, czy lokalnie, QwQ miał trudności z konsekwentnym rozwiązaniem tego problemu. Podkreśla to potencjalne ograniczenie w jego zdolnościach rozumowania, gdzie może nadmiernie myśleć lub błędnie interpretować ograniczenia problemu.
Wrażliwość na Hiperparametry: Delikatna Równowaga
W porównaniu z innymi modelami, QwQ wykazywał zwiększoną wrażliwość na swoją konfigurację. Początkowo Alibaba zalecała określone parametry próbkowania:
- Temperatura: 0.6
- TopP: 0.95
- TopK: między 20 a 40
Następnie te zalecenia zostały zaktualizowane, aby uwzględnić:
- MinP: 0
- Kara za obecność: między 0 a 2
Ze względu na widoczny błąd w obsłudze parametrów próbkowania przez Llama.cpp (Llama.cpp jest używany do uruchamiania wnioskowania na modelach), konieczne było również wyłączenie kary za powtórzenia, ustawiając ją na 1.
Jak wspomniano wcześniej, rozwiązanie tych problemów z konfiguracją spowodowało znaczną poprawę, ponad dwukrotnie zmniejszając liczbę tokenów “myślenia” wymaganych do uzyskania odpowiedzi. Jednak ten błąd wydaje się być specyficzny dla kwantyzowanych wersji GGUF modelu podczas uruchamiania na silniku wnioskowania Llama.cpp, który jest używany przez popularne aplikacje, takie jak Ollama i LM Studio.
Dla użytkowników planujących korzystanie z Llama.cpp, zdecydowanie zaleca się zapoznanie się z przewodnikiem Unsloth dotyczącym korygowania kolejności próbkowania.
Pierwsze Kroki z QwQ: Praktyczny Przewodnik
Dla osób zainteresowanych eksperymentowaniem z QwQ, skonfigurowanie go w Ollama jest stosunkowo proste. Należy jednak pamiętać, że wymaga to GPU ze znaczną ilością vRAM. Model został z powodzeniem uruchomiony na 24 GB 3090 Ti z oknem kontekstowym wystarczająco dużym do praktycznego użytku.
Chociaż technicznie możliwe jest uruchomienie modelu na CPU i pamięci systemowej, prawdopodobnie spowoduje to bardzo wolne czasy reakcji, chyba że używana jest wysokiej klasy stacja robocza lub serwer.
Wymagania Wstępne:
- Maszyna zdolna do uruchamiania średniej wielkości LLM przy 4-bitowej kwantyzacji. Zalecany jest kompatybilny GPU z co najmniej 24 GB vRAM. Listę obsługiwanych kart można znaleźć tutaj.
- W przypadku komputerów Mac z układem Apple Silicon zalecane jest minimum 32 GB pamięci.
Ten przewodnik zakłada podstawową znajomość interfejsu wiersza poleceń w systemie Linux i Ollama.
Instalowanie Ollama
Ollama to popularny program do uruchamiania modeli, który upraszcza proces pobierania i obsługi LLM na sprzęcie konsumenckim. Dla użytkowników systemów Windows lub macOS, pobierz i zainstaluj go jak każdą inną aplikację ze strony ollama.com.
Dla użytkowników systemu Linux, Ollama zapewnia wygodną jednowierszową instalację: