Czy xAI kłamało o testach Groka 3

Bliższe spojrzenie na kontrowersje

Laboratoria sztucznej inteligencji (AI) coraz częściej angażują się w publiczne spory dotyczące benchmarków AI, a dokładniej, sposobu, w jaki te benchmarki są prezentowane szerszemu światu.

Niedawno pracownik OpenAI wystosował oskarżenie przeciwko xAI, przedsięwzięciu AI Elona Muska. O co chodzi? O to, że xAI przedstawiło wprowadzające w błąd wyniki testów porównawczych dla swojego najnowszego modelu AI, Grok 3. Wywołało to debatę, a jeden ze współzałożycieli xAI, Igor Babushkin, stanowczo bronił stanowiska firmy.

Rzeczywistość sytuacji, jak to często bywa, leży pośrodku, w bardziej zniuansowanym obszarze.

W poście na blogu xAI zaprezentowało wykres przedstawiający wydajność Groka 3 w AIME 2025. Jest to zestaw wymagających problemów matematycznych zaczerpniętych z niedawnego egzaminu matematycznego. Chociaż niektórzy eksperci podważają zasadność AIME jako ostatecznego benchmarku AI, to, wraz ze starszymi wersjami testu, pozostaje powszechnie używanym narzędziem do oceny sprawności matematycznej modelu.

Dekodowanie wykresu xAI

Wykres przedstawiony przez xAI pokazywał dwie odmiany Groka 3 – Grok 3 Reasoning Beta i Grok 3 mini Reasoning – pozornie przewyższające najlepiej działający dostępny model OpenAI, o3-mini-high, w AIME 2025. Jednak pracownicy OpenAI szybko zareagowali w mediach społecznościowych, zauważając rażące pominięcie: wykres xAI nie zawierał wyniku o3-mini-high w AIME 2025 przy „cons@64”.

Czym dokładnie jest „cons@64”? To skrót od „consensus@64”, metody, która zasadniczo daje modelowi 64 próby rozwiązania każdego problemu w ramach testu porównawczego. Odpowiedzi generowane najczęściej są następnie wybierane jako ostateczne odpowiedzi. Jak można się spodziewać, cons@64 często znacznie podnosi wyniki modelu w testach porównawczych. Pominięcie go na wykresie porównawczym może stworzyć iluzję, że jeden model przewyższa inny, podczas gdy w rzeczywistości może tak nie być.

Twierdzenie o „najinteligentniejszej sztucznej inteligencji na świecie”

Biorąc pod uwagę wyniki AIME 2025 przy „@1” – wskazujące pierwszy wynik, jaki modele osiągnęły w teście porównawczym – zarówno Grok 3 Reasoning Beta, jak i Grok 3 mini Reasoning nie osiągają wyniku o3-mini-high. Co więcej, Grok 3 Reasoning Beta tylko nieznacznie ustępuje modelowi o1 OpenAI ustawionemu na „średnie” obliczenia. Pomimo tych wyników xAI aktywnie promuje Groka 3 jako „najinteligentniejszą sztuczną inteligencję na świecie”.

Babushkin, wypowiadając się w mediach społecznościowych, odpowiedział, że OpenAI w przeszłości publikowało podobnie wprowadzające w błąd wykresy porównawcze. Jednak te wykresy były używane do porównywania wydajności własnych modeli OpenAI. Bardziej bezstronny obserwator w debacie stworzył bardziej „dokładny” wykres, prezentujący wydajność prawie każdego modelu przy cons@64.

Brakujący wskaźnik: koszt obliczeniowy

Badacz AI, Nathan Lambert, podkreślił kluczową kwestię: najważniejszy wskaźnik pozostaje owiany tajemnicą. Jest to koszt obliczeniowy (i finansowy) poniesiony przez każdy model w celu osiągnięcia najlepszego wyniku. Podkreśla to fundamentalny problem z większością benchmarków AI – ujawniają one bardzo niewiele na temat ograniczeń modelu, a nawet jego mocnych stron.

Debata na temat benchmarków Groka 3 uwypukla szerszy problem w społeczności AI: potrzebę większej przejrzystości i standaryzacji w sposobie oceny i porównywania modeli AI.

Zagłębiając się w benchmarki AI

Kontrowersje wokół prezentacji przez xAI wydajności Groka 3 rodzą kilka ważnych pytań dotyczących samej natury benchmarkingu AI. Co stanowi dobry benchmark? Jak należy prezentować wyniki, aby uniknąć błędnych interpretacji? I jakie są ograniczenia polegania wyłącznie na wynikach benchmarków w celu oceny możliwości modeli AI?

Cel benchmarków:

Benchmarki, teoretycznie, służą jako standardowy sposób pomiaru i porównywania wydajności różnych modeli AI w określonych zadaniach. Stanowią one wspólny miernik, pozwalający badaczom i programistom śledzić postępy, identyfikować mocne i słabe strony, a ostatecznie napędzać innowacje. Jednak skuteczność benchmarku zależy od kilku czynników:

  • Trafność: Czy benchmark dokładnie odzwierciedla rzeczywiste zadania i wyzwania?
  • Wszechstronność: Czy benchmark obejmuje szeroki zakres możliwości istotnych dla zamierzonego zastosowania modelu AI?
  • Obiektywizm: Czy benchmark jest zaprojektowany i administrowany w sposób minimalizujący stronniczość i zapewniający uczciwe porównanie?
  • Powtarzalność: Czy wyniki benchmarku mogą być konsekwentnie replikowane przez niezależnych badaczy?

Wyzwania związane z benchmarkingiem AI:

Pomimo zamierzonego celu, benchmarki AI są często obarczone wyzwaniami:

  • Nadmierne dopasowanie: Modele można specjalnie wytrenować, aby osiągały doskonałe wyniki w poszczególnych benchmarkach, bez konieczności zdobywania prawdziwej inteligencji lub uogólnionych możliwości. Zjawisko to, znane jako „nadmierne dopasowanie”, może prowadzić do zawyżonych wyników, które nie odzwierciedlają wydajności w świecie rzeczywistym.
  • Brak standaryzacji: Rozprzestrzenianie się różnych benchmarków, z których każdy ma własną metodologię i system punktacji, utrudnia porównywanie wyników między modelami i laboratoriami badawczymi.
  • Granie w system: Jak ilustruje kontrowersja xAI, istnieje pokusa dla firm, aby selektywnie prezentować wyniki benchmarków w sposób faworyzujący ich własne modele, potencjalnie wprowadzając w błąd opinię publiczną i utrudniając obiektywną ocenę.
  • Ograniczony zakres: Benchmarki często koncentrują się na wąskich, dobrze zdefiniowanych zadaniach, nie oddając pełnej złożoności i niuansów ludzkiej inteligencji. Mogą one nieadekwatnie oceniać aspekty takie jak kreatywność, zdrowy rozsądek czy zdolność adaptacji do nowych sytuacji.

Potrzeba przejrzystości i holistycznej oceny

Incydent z Grokiem 3 podkreśla krytyczną potrzebę większej przejrzystości i bardziej holistycznego podejścia do oceny modeli AI. Poleganie wyłącznie na jednym wyniku benchmarku, zwłaszcza przedstawionym bez pełnego kontekstu, może być wysoce mylące.

Wyjście poza benchmarki:

Chociaż benchmarki mogą być użytecznym narzędziem, nie powinny być jedynym wyznacznikiem możliwości modelu AI. Bardziej kompleksowa ocena powinna uwzględniać:

  • Wydajność w świecie rzeczywistym: Jak model działa w praktycznych zastosowaniach i scenariuszach?
  • Analiza jakościowa: Ekspercka ocena wyników modelu, oceniająca czynniki takie jak spójność, kreatywność i zdolność rozumowania.
  • Względy etyczne: Czy model wykazuje uprzedzenia lub generuje szkodliwe treści?
  • Wyjaśnialność: Czy proces decyzyjny modelu można zrozumieć i zinterpretować?
  • Odporność: Jak dobrze model radzi sobie z zaszumionymi lub nieoczekiwanymi danymi wejściowymi?

Promowanie przejrzystości:

Laboratoria AI powinny dążyć do większej przejrzystości w swoich praktykach benchmarkingowych. Obejmuje to:

  • Jasne zdefiniowanie metodologii: Dostarczenie szczegółowych informacji na temat konfiguracji benchmarku, w tym konkretnego użytego zestawu danych, metryk oceny i wszelkich kroków wstępnego przetwarzania.
  • Raportowanie pełnych wyników: Prezentowanie wszystkich istotnych wyników, w tym uzyskanych przy użyciu różnych konfiguracji lub metod (takich jak cons@64).
  • Ujawnianie kosztów obliczeniowych: Ujawnianie zasobów obliczeniowych wymaganych do osiągnięcia zgłoszonych wyników.
  • Otwieranie benchmarków: Udostępnianie publicznie zestawów danych benchmarkowych i narzędzi oceny w celu ułatwienia niezależnej weryfikacji i porównania.

Pogoń za sztuczną inteligencją to złożona i szybko rozwijająca się dziedzina. Benchmarki, choć niedoskonałe, odgrywają rolę w mierzeniu postępów. Jednak kluczowe jest, aby uznać ich ograniczenia i dążyć do bardziej zniuansowanego i przejrzystego podejścia do oceny modeli AI. Ostatecznym celem powinno być opracowanie systemów AI, które są nie tylko potężne, ale także niezawodne, etyczne i korzystne dla społeczeństwa. Należy odejść od pogoni za wyższymi wynikami w testach i skupić się na budowaniu AI zdolnej do rozumienia otaczającego nas świata i wchodzenia z nim w interakcję.