Wzrost Google w świecie LLM: Zmiana sił

Krajobraz dużych modeli językowych (LLM) był świadkiem znaczącej transformacji, a Google stał się prominentnym graczem, podczas gdy Meta i OpenAI napotykają zauważalne wyzwania. Początkowo OpenAI zdominował tę dziedzinę dzięki swoim przełomowym modelom GPT, ustanawiając nowe standardy wydajności LLM. Meta również zapewniła sobie znaczącą pozycję, oferując modele open-weight, które szczyciły się imponującymi możliwościami i pozwalały na nieograniczone użycie, modyfikację i wdrażanie ich publicznie dostępnego kodu.

Jednak ta wczesna dominacja sprawiła, że inni giganci technologiczni, w tym Google, musieli nadrabiać zaległości. Pomimo przełomowej publikacji Google’a z 2017 roku na temat architektury transformatorowej, która stanowi podstawę LLM, początkowe wysiłki firmy zostały przyćmione przez powszechnie krytykowaną premierę Barda w 2023 roku.

Ostatnio sytuacja się odwróciła wraz z wprowadzeniem potężnych nowych LLM od Google, w połączeniu z niepowodzeniami, jakich doświadczyły Meta i OpenAI. Ta zmiana znacząco zmieniła dynamikę krajobrazu LLM.

Meta Llama 4: Pomyłka?

Niespodziewana premiera Llama 4 przez Meta w sobotę, 5 kwietnia, wywołała zdziwienie w całej branży.

Decyzja o uruchomieniu ważnego modelu w weekend została odebrana jako niekonwencjonalna, co doprowadziło do stonowanego przyjęcia i przesłonięcia ogłoszenia w natłoku wiadomości z kolejnego tygodnia.

Chociaż Llama 4 posiada pewne mocne strony, w tym jej możliwości multimodalne (obsługa obrazów, dźwięku i innych modalności) oraz dostępność w trzech wersjach (Llama 4 Behemoth, Maverick i Scout) o różnej wielkości i mocnych stronach, jej wprowadzenie spotkało się z krytyką. Wersja Llama 4 Scout w szczególności charakteryzowała się znacznym oknem kontekstowym do 10 milionów tokenów, co umożliwiło modelowi przetwarzanie i generowanie ogromnych ilości tekstu w jednej sesji.

Jednak odbiór modelu pogorszył się, gdy pojawiły się rozbieżności dotyczące podejścia Meta do rankingu na LMArena, platformie, która szereguje LLM na podstawie głosów użytkowników. Odkryto, że konkretny model Llama 4 użyty do rankingów różnił się od tego, który został udostępniony ogółowi społeczeństwa. LMArena stwierdziła, że Meta dostarczyła ‘niestandardowy model w celu optymalizacji pod kątem preferencji ludzkich’.

Ponadto twierdzenia Meta dotyczące okna kontekstowego 10 milionów tokenów Llama 4 Scout spotkały się ze sceptycyzmem. Pomimo technicznej dokładności tej liczby, testy porównawcze ujawniły, że Llama 4 pozostaje w tyleza konkurencyjnymi modelami pod względem wydajności w długim kontekście.

Dodatkowo, Meta powstrzymała się od wydania modelu Llama 4 ‘rozumowania’ lub ‘myślenia’ i wstrzymała mniejsze warianty, chociaż firma zasygnalizowała, że model rozumowania jest w przygotowaniu.

Ben Lorica, założyciel firmy konsultingowej AI Gradient Flow, zauważył, że Meta odbiegła od standardowej praktyki bardziej systematycznego wydawania, gdzie wszystkie komponenty są w pełni przygotowane. Sugeruje to, że Meta mogła być chętna do zaprezentowania nowego modelu, nawet jeśli brakowało mu istotnych elementów, takich jak model rozumowania i mniejsze wersje.

OpenAI GPT-4.5: Przedwczesne wycofanie

OpenAI również napotkało wyzwania w ostatnich miesiącach.

GPT-4.5, zaprezentowany jako wersja zapoznawcza 27 lutego, był reklamowany jako ‘największy i najlepszy model firmy do czatowania’. Testy porównawcze OpenAI wykazały, że GPT-4.5 generalnie przewyższa swojego poprzednika, GPT-4o.

Jednak struktura cenowa modelu spotkała się z krytyką. OpenAI ustalił cenę dostępu do API na 150 USD za milion tokenów wyjściowych, co stanowi oszałamiający 15-krotny wzrost w porównaniu z ceną GPT-4o wynoszącą 10 USD za milion tokenów. API umożliwia programistom integrację modeli OpenAI z ich aplikacjami i usługami.

Alan D. Thompson, konsultant i analityk AI w Life Architect, oszacował, że GPT-4.5 był prawdopodobnie największym tradycyjnym LLM wydanym w pierwszym kwartale 2025 roku, z około 5,4 bilionami parametrów. Argumentował, że tak ogromna skala jest trudna do uzasadnienia, biorąc pod uwagę obecne ograniczenia sprzętowe, i stanowi znaczące wyzwania w obsłudze dużej bazy użytkowników.

14 kwietnia OpenAI ogłosiło decyzję o zaprzestaniu dostępu do GPT-4.5 za pośrednictwem API po mniej niż trzech miesiącach. Chociaż GPT-4.5 pozostanie dostępny, będzie ograniczony do użytkowników ChatGPT za pośrednictwem interfejsu ChatGPT.

To ogłoszenie zbiegło się w czasie z wprowadzeniem GPT-4.1, bardziej ekonomicznego modelu wycenionego na 8 USD za milion tokenów. Testy porównawcze OpenAI wskazują, że GPT-4.1 nie jest tak dobry jak GPT-4.5, chociaż wykazuje lepszą wydajność w niektórych testach porównawczych kodowania.

OpenAI wydało również niedawno nowe modele rozumowania, o3 i o4-mini, przy czym model o3 wykazuje szczególnie silną wydajność w testach porównawczych. Jednak koszty pozostają problemem, ponieważ dostęp do API o3 jest wyceniony na 40 USD za milion tokenów wyjściowych.

Ascendencja Google: Wykorzystanie okazji

Mieszane przyjęcie Llama 4 i ChatGPT-4.5 stworzyło konkurentom możliwość wykorzystania i wykorzystali oni tę szansę.

Problemowe uruchomienie Llama 4 przez Meta prawdopodobnie nie zniechęci programistów do przyjęcia alternatyw, takich jak DeepSeek-V3, Gemma Google’a i Qwen2.5 Alibaby. Te LLM, wprowadzone pod koniec 2024 roku, stały się preferowanymi modelami open-weight na listach liderów LMArena i HuggingFace. Rywalizują lub przewyższają Llama 4 w popularnych testach porównawczych, oferują przystępny cenowo dostęp do API, a w niektórych przypadkach są dostępne do pobrania i użytku na sprzęcie klasy konsumenckiej.

Jednak to najnowocześniejszy LLM Google’a, Gemini 2.5 Pro, naprawdę przyciągnął uwagę.

Uruchomiony 25 marca Google Gemini 2.5 Pro to ‘model myślenia’ podobny do GPT-o1 i DeepSeek-R1, wykorzystujący samodzielne podpowiedzi do rozumowania podczas wykonywania zadań. Gemini 2.5 Pro jest multimodalny, posiada okno kontekstowe o pojemności miliona tokenów i obsługuje dogłębne badania.

Gemini 2.5 szybko osiągnął zwycięstwa w testach porównawczych, w tym pierwsze miejsce w SimpleBench (chociaż 16 kwietnia ustąpił to miejsce o3 OpenAI) oraz w połączonym indeksie AI Intelligence firmy Artificial Analysis. Gemini 2.5 Pro zajmuje obecnie pierwsze miejsce na LMArena. 14 kwietnia modele Google zajmowały 5 z 10 najlepszych miejsc na LMArena, w tym Gemini 2.5 Pro, trzy warianty Gemini 2.0 i Gemma 3-27B.

Oprócz imponującej wydajności, Google jest również liderem cenowym. Google Gemini 2.5 jest obecnie dostępny do bezpłatnego użytku za pośrednictwem aplikacji Gemini Google’a i strony internetowej AI Studio Google’a. Ceny API Google są również konkurencyjne, przy czym Gemini 2.5 Pro jest wyceniony na 10 USD za milion tokenów wyjściowych, a Gemini 2.0 Flash na zaledwie 40 centów za milion tokenów.

Lorica zauważa, że w przypadku zadań rozumowania o dużej objętości często wybiera DeepSeek-R1 lub Google Gemini, podczas gdy korzystanie z modeli OpenAI wymaga staranniejszego rozważenia cen.

Chociaż Meta i OpenAI niekoniecznie są na skraju upadku, OpenAI korzysta z popularności ChatGPT, który podobno ma miliard użytkowników. Niemniej jednak silne rankingi i wydajność w testach porównawczych Gemini wskazują na zmianę w krajobrazie LLM, który obecnie faworyzuje Google.