Modele rozumowania, uznawane za kolejny znaczący krok w ewolucji dużych modeli językowych (LLM), zademonstrowały niezwykły postęp, szczególnie w dziedzinach wymagających złożonego rozwiązywania problemów, takich jak matematyka i programowanie komputerowe. Te zaawansowane systemy, wyróżniające się dodatkową fazą "treningu rozumowania", wykorzystują uczenie ze wzmocnieniem, aby dostroić swoje zdolności do radzenia sobie ze złożonymi wyzwaniami. O3 od OpenAI wyróżnia się jako pionierski przykład, wykazując znaczną poprawę wydajności w porównaniu do swojego poprzednika, o1, zgodnie z ocenami porównawczymi. Centralne pytanie, które teraz zawisło nad tą dziedziną, dotyczy trwałości tego postępu. Czy te modele mogą w dalszym ciągu rozwijać się w tym samym tempie, po prostu zwiększając moc obliczeniową?
Epoch AI, organizacja badawcza koncentrująca się na społecznych skutkach sztucznej inteligencji, podjęła się zadania rozwikłania tego pytania. Josh You, analityk danych w Epoch AI, podjął się kompleksowej analizy w celu określenia obecnego poziomu inwestycji obliczeniowych w trening rozumowania i oceny pozostałego potencjału ekspansji.
Gwałtowny wzrost mocy obliczeniowej w modelach rozumowania
OpenAI publicznie oświadczyło, że o3 był trenowany z dziesięciokrotnie większymi zasobami obliczeniowymi przeznaczonymi na rozumowanie w porównaniu z o1 – znaczący wzrost osiągnięty w zaledwie cztery miesiące. Wykres wyprodukowany przez OpenAI żywo ilustruje ścisłą korelację między mocą obliczeniową a wydajnością w teście matematycznym AIME. Epoch AI stawia hipotezę, że te liczby odnoszą się konkretnie do drugiej fazy treningu, treningu rozumowania, a nie do całego procesu treningu modelu.
Aby umieścić te liczby we właściwej perspektywie, Epoch AI zbadał porównywalne modele. DeepSeek-R1, na przykład, według doniesień trenowany z około 6e23 FLOP (operacji zmiennoprzecinkowych na sekundę) przy szacunkowym koszcie 1 miliona dolarów, osiągnął wyniki testów porównywalne z o1.
Giganci technologiczni Nvidia i Microsoft również przyczynili się do rozwoju modeli rozumowania, udostępniając publicznie dostępne dane treningowe. Llama-Nemotron Ultra 253B Nvidii wykorzystał około 140 000 godzin GPU H100, co odpowiada z grubsza 1e23 FLOP, dla fazy treningu rozumowania. Phi-4-reasoning Microsoftu wykorzystywał jeszcze mniej mocy obliczeniowej, poniżej 1e20 FLOP. Krytycznym czynnikiem odróżniającym te modele jest ich duże poleganie na syntetycznych danych treningowych generowanych przez inne systemy AI. Epoch AI podkreśla, że to poleganie utrudnia bezpośrednie porównania z modelami takimi jak o3 ze względu na nieodłączne różnice między danymi rzeczywistymi i syntetycznymi oraz ich wpływ na uczenie się i generalizację modelu.
Definicja "treningu rozumowania": Mętny obszar
Kolejna warstwa złożoności wynika z braku powszechnie akceptowanej definicji "treningu rozumowania". Oprócz uczenia ze wzmocnieniem, niektóre modele zawierają techniki takie jak nadzorowane dostrajanie. Niejednoznaczność otaczająca komponenty uwzględnione w szacunkach obliczeń wprowadza niespójności, co utrudnia dokładne porównywanie zasobów w różnych modelach.
Obecnie modele rozumowania wciąż zużywają znacznie mniej mocy obliczeniowej niż najbardziej rozległe uruchomienia treningowe AI, takie jak Grok 3, który przekracza 1e26 FLOP. Współczesne fazy treningu rozumowania zazwyczaj działają między 1e23 a 1e24 FLOP, pozostawiając znaczną przestrzeń do potencjalnej ekspansji – a przynajmniej tak się wydaje na pierwszy rzut oka.
Dario Amodei, dyrektor generalny Anthropic, podziela podobną perspektywę. Stwierdza, że inwestycja w wysokości 1 miliona dolarów w trening rozumowania może przynieść znaczący postęp. Jednak firmy aktywnie badają sposoby na zwiększenie budżetu na tę drugorzędną fazę treningową do setek milionów dolarów i więcej, co sugeruje przyszłość, w której ekonomia treningu dramatycznie się zmieni.
Jeśli obecny trend mniej więcej dziesięciokrotnego wzrostu mocy obliczeniowej co trzy do pięciu miesięcy będzie się utrzymywał, moc obliczeniowa treningu rozumowania może potencjalnie dogonić całkowitą moc obliczeniową treningu wiodących modeli już w przyszłym roku. Jednak Josh You przewiduje, że wzrost ostatecznie spowolni do około 4-krotnego wzrostu rocznie, co jest zgodne z szerszymi trendami w branży. To spowolnienie prawdopodobnie będzie napędzane kombinacją czynników, w tym malejącymi zwrotami z inwestycji w trening, rosnącymi kosztami zasobów obliczeniowych i ograniczeniami dostępnych danych treningowych.
Poza mocą obliczeniową: Wąskie gardła na horyzoncie
Epoch AI podkreśla, że moc obliczeniowa nie jest jedynym czynnikiem ograniczającym. Trening rozumowania wymaga znacznych ilości wysokiej jakości, trudnych zadań. Zdobycie takich danych jest trudne; generowanie ich syntetycznie jest jeszcze trudniejsze. Problem z syntetycznymi danymi to nie tylko autentyczność; wielu twierdzi, że ich jakość jest słaba. Ponadto skuteczność tego podejścia poza wysoce ustrukturyzowanymi dziedzinami, takimi jak matematyka i programowanie komputerowe, pozostaje niepewna. Niemniej jednak projekty takie jak "Deep Research" w ChatGPT, który wykorzystuje niestandardową wersję o3, sugerują potencjał szerszego zastosowania.
Pracochłonne zadania zakulisowe, takie jak wybór odpowiednich zadań, projektowanie funkcji nagród i opracowywanie strategii treningowych, również stanowią wyzwanie. Te koszty opracowania, często wykluczane z szacunków obliczeń, znacznie przyczyniają się do całkowitego kosztu treningu rozumowania.
Pomimo tych wyzwań OpenAI i inni programiści pozostają optymistami. Jak zauważa Epoch AI, krzywe skalowania dla treningu rozumowania obecnie przypominają klasyczny log-liniowy postęp obserwowany w pre-treningu. Ponadto o3 demonstruje znaczne korzyści nie tylko w matematyce, ale także w zadaniach programistycznych opartych na agentach, co wskazuje na wszechstronny potencjał tego nowego podejścia.
Przyszłość tego postępu zależy od skalowalności treningu rozumowania – technicznie, ekonomicznie i pod względem treści. Poniższe punkty analizują kilka kluczowych czynników, które zadecydują o przyszłości tych modeli:
- Skalowalność techniczna: Odnosi się do zdolności do zwiększenia zasobów obliczeniowych wykorzystywanych w treningu bez napotykania przeszkód technicznych nie do pokonania. Obejmuje to postępy w sprzęcie, oprogramowaniu i algorytmach w celu efektywnego wykorzystania większych zbiorów danych i potężniejszej infrastruktury obliczeniowej. W miarę jak modele rosną pod względem wielkości i złożoności, skalowalność techniczna staje się coraz bardziej krytyczna dla dalszego postępu. Bazowa architektura będzie musiała ewoluować, aby nadążyć za ogromną skalą modeli.
- Skalowalność ekonomiczna: Obejmuje możliwość zwiększenia zasobów obliczeniowych w ramach rozsądnych ograniczeń budżetowych. Jeśli koszt treningu skaluje się liniowo lub wykładniczo wraz z rozmiarem modelu, realizacja dalszych korzyści może stać się zaporowo droga. W związku z tym może być konieczne tańsze i bardziej wydajne treningi. Innowacje w sprzęcie i technikach optymalizacji, które zmniejszają koszt za FLOP, mają kluczowe znaczenie dla skalowalności ekonomicznej. Trend polega na skupianiu się na coraz większych modelach, ale przy ograniczonym budżecie zachęty przesuną się w kierunku trenowania najbardziej wydajnych modeli.
- Skalowalność treści: Podkreśla dostępność wysokiej jakości danych treningowych, które mogą skutecznie napędzać korzyści w zdolności rozumowania. W miarę jak modele stają się bardziej wyrafinowane, potrzebne są trudniejsze i bardziej zróżnicowane zbiory danych, aby rzucać im wyzwanie i zapobiegać przeuczaniu. Dostępność takich zbiorów danych jest ograniczona, szczególnie w dziedzinach, które wymagają złożonego rozumowania. Techniki generowania danych syntetycznych mogą pomóc złagodzić to wąskie gardło, ale muszą być starannie zaprojektowane, aby uniknąć uprzedzeń lub niedokładności, które mogłyby obniżyć wydajność modelu.
Przyszłość obliczeń
Łatwo jest laikom myśleć, że jesteśmy na ścieżce nieskończonych obliczeń. Jednak w rzeczywistości jest ona ograniczona, a w przyszłości to ograniczenie może stać się bardziej widoczne. W tej sekcji zbadamy kilka sposobów, w jakie obliczenia mogą ewoluować w przyszłości i jak te zmiany wpłyną na branżę LLM.
Komputery kwantowe
Komputery kwantowe reprezentują zmianę paradygmatu w obliczeniach, wykorzystując zasady mechaniki kwantowej do rozwiązywania problemów, które są nie do rozwiązania dla klasycznych komputerów. Choć wciąż w powijakach, komputery kwantowe mają ogromny potencjał w przyspieszaniu obciążeń AI, w tym treningu modeli rozumowania. Algorytmy kwantowe, takie jak kwantowe wyżarzanie i wariacyjne kwantowe rozwiązywanie problemów wartości własnych (VQE), mogą potencjalnie optymalizować parametry modelu wydajniej niż klasyczne metody optymalizacji, zmniejszając zasoby obliczeniowe wymagane do treningu. Na przykład kwantowe algorytmy uczenia maszynowego mogłyby poprawić optymalizację złożonych sieci neuronowych, prowadząc do krótszych czasów treningu i potencjalnie lepszej wydajności modelu.
Jednak w skalowaniu komputerów kwantowych i opracowywaniu niezawodnych algorytmów kwantowych pozostają istotne wyzwania. Technologia jest wciąż w dużej mierze eksperymentalna, a praktyczne komputery kwantowe z wystarczającą liczbą kubitów (bitów kwantowych) i czasami koherencji nie są jeszcze łatwo dostępne. Ponadto opracowywanie algorytmów kwantowych dostosowanych do konkretnych zadań AI wymaga specjalistycznej wiedzy i jest ciągłym obszarem badań. Powszechne przyjęcie komputerów kwantowych w AI pozostaje oddalone o kilka lat i jest prawdopodobne tylko wtedy, gdy komputery będą dostępne.
Obliczenia neuromorficzne
Obliczenia neuromorficzne naśladują strukturę i funkcję ludzkiego mózgu w celu wykonywania obliczeń. W przeciwieństwie do tradycyjnych komputerów, które opierają się na logice binarnej i przetwarzaniu sekwencyjnym, układy neuromorficzne wykorzystują sztuczne neurony i synapsy do przetwarzania informacji w sposób równoległy i energooszczędny. Ta architektura doskonale nadaje się do zadań AI, które obejmują rozpoznawanie wzorców, uczenie się i adaptację, takich jak trening modeli rozumowania. Układy neuromorficzne mogą potencjalnie zmniejszyć zużycie energii i opóźnienia związane z trenowaniem dużych modeli AI, czyniąc je bardziej opłacalnymi ekonomicznie i zrównoważonymi środowiskowo.
Loihi firmy Intel i TrueNorth firmy IBM to przykłady układów neuromorficznych, które zademonstrowały obiecujące wyniki w zastosowaniach AI. Układy te są w stanie wykonywać złożone zadania AI przy znacznie niższym zużyciu energii w porównaniu z tradycyjnymi procesorami CPU i GPU. Jednak obliczenia neuromorficzne są wciąż stosunkowo nową dziedziną i pozostają wyzwania w opracowywaniu niezawodnych narzędzi programistycznych i optymalizacji algorytmów dla architektur neuromorficznych. Ponadto ograniczona dostępność sprzętu neuromorficznego i brak powszechnej wiedzy specjalistycznej w zakresie obliczeń neuromorficznych utrudniły przyjęcie tej technologii w głównych zastosowaniach AI.
Obliczenia analogowe
Obliczenia analogowe wykorzystują ciągłe wielkości fizyczne, takie jak napięcie lub prąd, do reprezentowania i przetwarzania informacji, a nie dyskretnych sygnałów cyfrowych. Komputery analogowe mogą wykonywać pewne operacje matematyczne, takie jak równania różniczkowe i algebra liniowa, znacznie szybciej i wydajniej niż komputery cyfrowe, szczególnie w zadaniach, które mogą być przydatne do rozumowania. Obliczenia analogowe mogą być przydatne do trenowania modeli lub do uruchamiania wnioskowania w razie potrzeby.
Jednak obliczenia analogowe stwarzają wyzwania w zakresie precyzji, skalowalności i programowalności. Obwody analogowe są podatne na szumy i dryf, które mogą pogorszyć dokładność obliczeń. Skalowanie komputerów analogowych w celu obsługi dużych i złożonych modeli AI jest również wyzwaniem technicznym. Ponadto programowanie komputerów analogowych zazwyczaj wymaga specjalistycznej wiedzy i jest trudniejsze niż programowanie komputerów cyfrowych. Pomimo tych wyzwań rośnie zainteresowanie obliczeniami analogowymi jako potencjalną alternatywą dla obliczeń cyfrowych w określonych zastosowaniach AI, szczególnie tych, które wymagają dużej szybkości i efektywności energetycznej.
Obliczenia rozproszone
Obliczenia rozproszone obejmują dystrybucję obciążeń AI na wiele maszyn lub urządzeń połączonych siecią. Takie podejście pozwala organizacjom wykorzystać zbiorową moc obliczeniową dużej liczby zasobów w celu przyspieszenia treningu i wnioskowania AI. Obliczenia rozproszone są niezbędne do trenowania dużych modeli językowych (LLM) i innych złożonych modeli AI, które wymagają ogromnych zbiorów danych i zasobów obliczeniowych.
Frameworki takie jak TensorFlow, PyTorch i Apache Spark udostępniają narzędzia i interfejsy API do dystrybucji obciążeń AI na klastry maszyn. Frameworki te pozwalają organizacjom zwiększać swoje możliwości AI, dodając więcej zasobów obliczeniowych w razie potrzeby. Jednak obliczenia rozproszone wprowadzają wyzwania w zakresie zarządzania danymi, narzutu komunikacyjnego i synchronizacji. Wydajna dystrybucja danych na wiele maszyn i minimalizacja opóźnień w komunikacji mają kluczowe znaczenie dla zmaksymalizowania wydajności rozproszonych systemów AI. Ponadto zapewnienie właściwej synchronizacji i koordynacji różnych maszyn lub urządzeń jest niezbędne do uzyskania dokładnych i niezawodnych wyników.
Wniosek
Trajektoria modeli rozumowania jest niezaprzeczalnie spleciona z dostępnością i skalowalnością zasobów obliczeniowych. Chociaż obecne tempo postępu napędzane zwiększonymi obliczeniami jest imponujące, kilka czynników, w tym niedobór wysokiej jakości danych treningowych, rosnący koszt obliczeń i pojawianie się alternatywnych paradygmatów obliczeniowych, sugeruje, że era niepohamowanego skalowania obliczeń może zbliżać się do swoich granic. Przyszłość modeli rozumowania prawdopodobnie zależy od naszej zdolności do pokonywania tych ograniczeń i eksplorowania nowych podejść do zwiększania możliwości AI. Mając wszystkie te informacje, możemy założyć, że wzrost możliwości modeli rozumowania może wkrótce zacząć spowalniać z powodu jednego z wielu omówionych ograniczeń.