GPT-4.5: Drogi, ale czy lepszy?

Ulepszenia wydajności: Bliższe spojrzenie

Wewnętrzne testy OpenAI ujawniają, że GPT-4.5 rzeczywiście przewyższa GPT-4o w kilku kluczowych obszarach. Jednym z zauważalnych ulepszeń jest jego wydajność w wielojęzycznym teście MMMLU (wiedza ogólna). GPT-4.5 osiągnął wynik 85,1%, przewyższając 81,5% GPT-4o. Sugeruje to szersze i głębsze zrozumienie wiedzy ogólnej w różnych językach.

Poza standardowymi testami, OpenAI twierdzi, że GPT-4.5 wykazuje redukcję ‘konfabulacji’, powszechnie znanych jako halucynacje. Oznacza to, że model jest mniej podatny na generowanie fałszywych lub wprowadzających w błąd informacji, co jest kluczowym postępem w zastosowaniach wymagających dokładności faktograficznej. Mniejsza liczba sfabrykowanych odpowiedzi oznacza krok w kierunku większej niezawodności.

Doświadczenie użytkownika również ulega poprawie, choć w niewielkim stopniu. Oceny OpenAI wskazują, że użytkownicy preferowali odpowiedzi GPT-4.5 nad odpowiedziami GPT-4o w około 57% interakcji. Chociaż nie jest to przytłaczające zwycięstwo, ta preferencja sugeruje zauważalną poprawę ogólnej jakości i trafności wyników modelu. Interakcje są bardziej naturalne i zgodne z oczekiwaniami użytkowników.

Kolejny znaczący skok obserwuje się w Simple QA Accuracy. Tutaj GPT-4.5 uzyskuje 62,5%, co stanowi znaczny wzrost w porównaniu z 38,2% GPT-4o. Wskazuje to na znaczną poprawę zdolności modelu do udzielania dokładnych odpowiedzi na proste pytania, pokazując ulepszone możliwości rozumienia i wyszukiwania.

Iloraz emocjonalny: Bardziej ludzka interakcja

GPT-4.5 wyróżnia się nie tylko surowymi wskaźnikami wydajności, ale także ulepszonym ilorazem emocjonalnym (EQ). Model został zaprojektowany tak, aby przyjmować bardziej naturalny i empatyczny ton, dzięki czemu interakcje są mniej robotyczne i bardziej angażujące. Jest to znaczący krok w kierunku tworzenia sztucznej inteligencji, która w swojej komunikacji jest bardziej podobna do człowieka.

  • Naturalny ton: Rozmowy przebiegają płynniej, a odpowiedzi lepiej naśladują ludzkie wzorce konwersacyjne.
  • Empatyczne odpowiedzi: Model wykazuje większą zdolność do rozumienia i reagowania na emocjonalne podteksty rozmowy.
  • Angażujące interakcje: Ogólne doświadczenie ma być bardziej wciągające, przyciągające uwagę użytkownika i sprzyjające bardziej pozytywnej interakcji.

Ten ulepszony EQ sprawia, że GPT-4.5 jest szczególnie dobrze przystosowany do zastosowań, w których interakcja podobna do ludzkiej jest najważniejsza. Obsługa klienta, wirtualni asystenci, a nawet aplikacje terapeutyczne mogłyby skorzystać z tego bardziej zniuansowanego i emocjonalnie inteligentnego podejścia.

Ponadto GPT-4.5 wyróżnia się ‘sterowalnością’. Odnosi się to do zdolności modelu do interpretowania i reagowania na zniuansowane podpowiedzi z większą precyzją. Użytkownicy zauważyli, że GPT-4.5 wykazuje lepsze zrozumienie subtelności, co pozwala mu skuteczniej obsługiwać złożone lub niejednoznaczne zapytania. Potrafi lepiej rozpoznać ukryty cel pytania, co prowadzi do bardziej trafnych i pomocnych odpowiedzi.

Słoń w pokoju: Obawy dotyczące cen

Pomimo postępów, ceny GPT-4.5 stały się głównym punktem spornym. Chociaż oferuje ulepszenia w stosunku do GPT-4o, różnica w kosztach jest znaczna. W przypadku przetwarzania danych wejściowych GPT-4.5 jest około 30 razy droższy, a w przypadku generowania danych wyjściowych jest 15 razy droższy. Ten model cenowy rodzi poważne pytania o propozycję wartości nowego modelu.

Podstawowym problemem jest malejący zwrot. Chociaż GPT-4.5 jest niewątpliwie większy i bardziej złożony niż jego poprzednik, poprawa wydajności nie wydaje się skalować proporcjonalnie do wzrostu kosztów. Ta rozbieżność skłoniła wielu członków społeczności AI do zakwestionowania, czy marginalne zyski uzasadniają wykładniczy wzrost cen.

Zaporowe ceny mają znaczący wpływ na dostępność. Wielu programistów, szczególnie tych pracujących samodzielnie lub dla mniejszych firm, może uznać GPT-4.5 za po prostu nieosiągalny. Stwarza to barierę wejścia, potencjalnie tłumiąc innowacje i ograniczając szerokie przyjęcie tej technologii.

Rozważmy praktyczny przykład: streszczenie 300 000-słownej powieści (około 450 000 tokenów) i wygenerowanie 50 000-tokenowego raportu analitycznego. W przypadku GPT-4.5 to zadanie kosztowałoby około 41,25 USD. To samo zadanie przy użyciu GPT-4 kosztowałoby zaledwie 1,6 USD. Ten wyraźny kontrast uwydatnia obciążenie finansowe, jakie GPT-4.5 nakłada na użytkowników, szczególnie w przypadku projektów na dużą skalę.

Ta strategia cenowa budzi obawy o przystępność cenową i integrację w krajobrazie rozwoju AI. Mniejsze podmioty i indywidualni badacze mogą być zmuszeni do wyboru tańszych, choć mniej wydajnych, alternatyw, potencjalnie utrudniając im konkurowanie z większymi organizacjami, które mogą sobie pozwolić na wyższe koszty.

Zdolności rozumowania: Praca w toku

Chociaż GPT-4.5 wykazuje postępy w kilku obszarach, należy pamiętać o jego ograniczeniach. Model został opracowany przy użyciu wstępnego uczenia, nadzorowanego dostrajania i uczenia się ze wzmocnieniem na podstawie ludzkich opinii (RLHF). Nie został on jednak jeszcze zoptymalizowany pod kątem zaawansowanych zadań rozumowania.

Oznacza to, że obecna wersja nie przynosi znaczących ulepszeń w dziedzinach, które w dużym stopniu opierają się na silnych umiejętnościach rozumowania, takich jak matematyka i kodowanie. Obszary te wymagają głębszego poziomu logicznej dedukcji i rozwiązywania problemów, których GPT-4.5, w swoim obecnym stanie, w pełni nie posiada.

W przypadku zadań wymagających solidnych zdolności rozumowania, GPT-4o pozostaje wiodącym modelem. Wydaje się, że strategia OpenAI obejmuje podejście etapowe, przy czym początkowa wersja GPT-4.5 koncentruje się na obszarach takich jak wiedza ogólna, doświadczenie użytkownika i inteligencja emocjonalna. Firma prawdopodobnie przeniesie swoją uwagę na zastosowanie dodatkowego szkolenia RL w GPT-4.5, szczególnie w celu zwiększenia jego zdolności rozumowania w kolejnych iteracjach. Sugeruje to zaangażowanie w ciągłe doskonalenie, a przyszłe aktualizacje potencjalnie rozwiążą obecne ograniczenia w zadaniach wymagających intensywnego rozumowania.
Oczekuje się, że przyszłe ulepszenia zmniejszą tę lukę, ostatecznie pozycjonując GPT-4.5 jako lidera w aplikacjach opartych na rozumowaniu.

Podsumowanie

Premiera GPT-4.5 przedstawia złożony obraz. Pokazuje postępy w niektórych obszarach, szczególnie pod względem doświadczenia użytkownika i inteligencji emocjonalnej. Jednak model cenowy budzi poważne obawy dotyczące dostępności i ogólnej propozycji wartości. Chociaż model stanowi krok naprzód, jego opłacalność pozostaje przedmiotem debaty w społeczności AI. Ograniczenia w zakresie zdolności rozumowania podkreślają również trwający proces rozwoju, a przyszłe aktualizacje mają rozwiązać te niedociągnięcia. Trajektoria GPT-4.5 będzie zależeć od tego, jak OpenAI poradzi sobie z równowagą między wydajnością, kosztami i dostępnością, ostatecznie określając jego wpływ na szerszy krajobraz AI.