Skala i zakres GPT-4.5
GPT-4.5 reprezentuje jak dotąd najbardziej ambitne przedsięwzięcie OpenAI pod względem samej wielkości. Chociaż dokładne szczegóły dotyczące jego architektury i danych treningowych pozostają skąpe, wiadomo, że proces uczenia był tak intensywny obliczeniowo, że wymagał dystrybucji w wielu centrach danych. Już samo to wskazuje na monumentalne zasoby włożone w jego rozwój.
Struktura cenowa modelu dodatkowo podkreśla jego pozycjonowanie jako oferty premium. Koszty są znacznie wyższe niż w przypadku jego poprzedników, przekraczając GPT-4o 15-30 razy, o1 3-5 razy, a Claude 3.7 Sonnet 10-25 razy. Dostęp jest obecnie ograniczony do subskrybentów ChatGPT Pro (za wysoką opłatą 200 USD miesięcznie) i klientów API, którzy chcą płacić za token.
Jednak wzrost wydajności, przynajmniej w niektórych obszarach, nie do końca odpowiada cenie. Wstępne testy porównawcze wykazały jedynie niewielką poprawę w stosunku do GPT-4o, a nawet pokazały, że GPT-4.5 pozostaje w tyle za modelami takimi jak o1 i o3-mini w zadaniach rozumowania.
Zrozumienie zamierzonego celu GPT-4.5
Należy koniecznie zauważyć, że OpenAI nigdy wyraźnie nie reklamowało GPT-4.5 jako swojego flagowego, uniwersalnego modelu. W rzeczywistości wczesne wersje ich wpisu na blogu wyjaśniały, że nie miał on być „modelem granicznym” przesuwającym absolutne granice możliwości. Co więcej, nie jest on przeznaczony przede wszystkim jako model rozumowania, co sprawia, że bezpośrednie porównania z modelami zoptymalizowanymi pod kątem tego celu (takimi jak o3 i DeepSeek-R1) są nieco mylące.
OpenAI wskazało, że GPT-4.5 będzie jego ostatnim modelem bez łańcucha myśli (non-chain-of-thought). Oznacza to, że jego szkolenie koncentrowało się w dużej mierze na osadzaniu ogromnych ilości wiedzy o świecie i dostosowywaniu się do preferencji użytkowników, a nie na rozwijaniu złożonych zdolności rozumowania.
Gdzie GPT-4.5 może zabłysnąć: Wiedza i niuanse
Podstawowa zaleta większych modeli często polega na ich zwiększonej zdolności do przyswajania wiedzy. GPT-4.5, zgodnie z tą zasadą, wykazuje mniejszą tendencję do halucynacji w porównaniu do swoich mniejszych odpowiedników. To sprawia, że jest potencjalnie cenny w scenariuszach, w których ścisłe przestrzeganie faktów i informacji kontekstowych ma kluczowe znaczenie.
Co więcej, GPT-4.5 wykazuje zwiększoną zdolność do podążania za instrukcjami i preferencjami użytkownika. Zostało to zaprezentowane w różnych demonstracjach przez OpenAI i potwierdzone przez doświadczenia użytkowników udostępniane online. Model wydaje się skuteczniej rozumieć niuanse intencji użytkownika, co prowadzi do bardziej dopasowanych i trafnych wyników.
Debata na temat jakości prozy: Subiektywność i potencjał
Pojawiła się ożywiona dyskusja na temat zdolności GPT-4.5 do generowania lepszej prozy. Niektórzy dyrektorzy OpenAI chwalili jakość wyników modelu, a dyrektor generalny Sam Altman zasugerował nawet, że interakcja z nim zapewniła niektórym wymagającym testerom przebłysk „AGI” (Artificial General Intelligence).
Jednak szersza reakcja była zdecydowanie mieszana. Współzałożyciel OpenAI, Andrej Karpathy, przewidywał poprawę w zadaniach mniej zależnych od czystego rozumowania, kładąc nacisk na obszary takie jak „EQ” (inteligencja emocjonalna), kreatywność, tworzenie analogii i humor – aspekty często ograniczane przez wiedzę o świecie i ogólne zrozumienie.
Co ciekawe, późniejsze badanie przeprowadzone przez Karpathy’ego ujawniło ogólną preferencję użytkowników dla odpowiedzi GPT-4o w porównaniu z odpowiedziami GPT-4.5 pod względem jakości pisania. Podkreśla to nieodłączną subiektywność w ocenie prozy i sugeruje, że umiejętne tworzenie promptów może wydobyć porównywalną jakość z mniejszych, bardziej wydajnych modeli.
Sam Karpathy przyznał, że wyniki są niejednoznaczne, sugerując różne możliwe wyjaśnienia: testerzy o „wysokim guście” mogą dostrzegać subtelne ulepszenia strukturalne, których inni nie zauważyli, testowane przykłady mogły nie być idealne lub różnice mogą być po prostu zbyt subtelne, aby je dostrzec w małej próbie.
Ograniczenia skalowania i przyszłość LLM
Wydanie GPT-4.5, pod pewnymi względami, podkreśla potencjalne ograniczenia samego skalowania modeli wytrenowanych na ogromnych zbiorach danych. Ilya Sutskever, inny współzałożyciel OpenAI i były główny naukowiec, stwierdził na NeurIPS 2024, że „wstępne szkolenie, jakie znamy, bezsprzecznie się skończy… Osiągnęliśmy szczyt danych i nie będzie ich więcej. Musimy radzić sobie z danymi, które mamy. Jest tylko jeden internet”.
Zmniejszające się korzyści obserwowane w przypadku GPT-4.5 świadczą o wyzwaniach związanych ze skalowaniem modeli ogólnego przeznaczenia, szkolonych głównie na danych internetowych i dostrajanych pod kątem dopasowania poprzez uczenie się ze wzmocnieniem na podstawie ludzkich opinii (RLHF).
Następną granicą dla dużych modeli językowych wydaje się być skalowanie w czasie testu (lub skalowanie w czasie wnioskowania). Obejmuje to szkolenie modeli, aby „myślały” przez dłuższy czas, generując tokeny łańcucha myśli (CoT). Skalowanie w czasie testu zwiększa zdolność modelu do radzenia sobie ze złożonymi problemami rozumowania i było kluczowym czynnikiem sukcesu modeli takich jak o1 i R1.
Nie porażka, ale fundament
Chociaż GPT-4.5 może nie być optymalnym wyborem dla każdego zadania, należy docenić jego potencjalną rolę jako fundamentalnego elementu przyszłych postępów. Solidna baza wiedzy jest niezbędna do rozwoju bardziej wyrafinowanych modeli rozumowania.
Nawet jeśli sam GPT-4.5 nie stanie się modelem wybieranym do większości zastosowań, może służyć jako kluczowy element składowy dla kolejnych modeli rozumowania. Jest nawet prawdopodobne, że jest już wykorzystywany w modelach takich jak o3.
Jak wyjaśnił Mark Chen, dyrektor ds. badań w OpenAI: „Potrzebujesz wiedzy, aby budować na niej rozumowanie. Model nie może iść na ślepo i po prostu uczyć się rozumowania od zera. Uważamy więc, że te dwa paradygmaty są dość komplementarne i myślimy, że mają na siebie pętle sprzężenia zwrotnego”.
Rozwój GPT-4.5 nie jest zatem ślepą uliczką, ale strategicznym krokiem w ciągłej ewolucji dużych modeli językowych. Jest to świadectwo iteracyjnego charakteru badań nad sztuczną inteligencją, w których każdy krok, nawet jeśli wydaje się z osobna mało imponujący, przyczynia się do szerszego postępu w kierunku bardziej wydajnych i wszechstronnych systemów AI. Uwaga skupia się teraz na wykorzystaniu tego silnego fundamentu wiedzy do budowania modeli, które mogą nie tylko przywoływać informacje, ale także rozumować i rozwiązywać problemy z niespotykaną dotąd skutecznością. Podróż w kierunku prawdziwie inteligentnej sztucznej inteligencji trwa, a GPT-4.5, pomimo mieszanego odbioru, odgrywa w niej znaczącą rolę.
Teraz uwaga skupia się nie tylko na tym, ile model wie, ale jak dobrze potrafi wykorzystać tę wiedzę. Jest to główne wyzwanie, z którym boryka się społeczność AI, a GPT-4.5, choć nie jest idealnym rozwiązaniem, dostarcza cennych spostrzeżeń i solidnych podstaw dla przyszłych przełomów. Droga naprzód obejmuje połączenie podejść: udoskonalanie istniejących technik, badanie nowych architektur i opracowywanie bardziej wyrafinowanych metod szkolenia i oceny. Ostateczny cel pozostaje ten sam: stworzenie systemów AI, które mogą nie tylko rozumieć i generować ludzki język, ale także rozumować, uczyć się i dostosowywać w sposób, który kiedyś był uważany za wyłączną domenę ludzkiej inteligencji.