MiniMax stawia na linear attention | pl

MiniMax-01, z odważnym wykorzystaniem mechanizmów linear attention i rozszerzeniem do bezprecedensowych 456 miliardów parametrów, jest jednym z disruptorów w społeczności open-source. To zarówno technologiczny hazard, jak i potencjalny kamień milowy w innowacji architektonicznej.

W tym wywiadzie rozmawiamy z Zhong Yiranem, szefem architektury MiniMax-01, aby zbadać drogę linear attention z laboratorium do wielkoskalowych modeli klasy przemysłowej, a także jego przemyślenia i spostrzeżenia na temat architektury modeli.

Pionier na niszowej ścieżce technicznej

Czy mógłbyś się krótko przedstawić?

Jestem Zhong Yiran, Senior Research Director w MiniMax, gdzie przede wszystkim nadzoruję projektowanie architektur sieciowych i wielomodalne modele rozumienia dużych modeli. W MiniMax moją główną odpowiedzialnością jest kierowanie projektowaniem struktury sieci MiniMax-01.

Wcześniej pełniłem funkcję PI dla New Architecture Exploration Group w Shanghai Artificial Intelligence Laboratory, koncentrując się na wydajnych metodach modelowania treningowego dla architektur nietransformatorowych oraz badaniach nad wizualno-audio-językową fuzją multimodalną.

Kiedy zacząłeś badania nad linear attention i dlaczego wybrałeś tę ścieżkę techniczną?

Zacząłem badania nad linear attention około lipca 2021 roku. Wynikało to z pracy, nad którą pracowałem podczas doktoratu w 2020 roku, ‘Invertible Attention’. W tamtym czasie zarówno odwracalne sieci neuronowe, jak i mechanizmy attention były dość popularne, więc połączyliśmy je w naszych badaniach.

Później niektórzy członkowie naszego zespołu bardzo zainteresowali się matematyką. Wydajne metody modelowania sekwencji, takie jak linear attention, wymagają silnych podstaw matematycznych i obejmują liczne wyprowadzenia wzorów, co idealnie pasowało do zainteresowań zespołu, więc wybraliśmy ten kierunek.

Jaki był status linear attention w branży w tamtym czasie?

Był bardzo niszowy, niewiele osób nad nim pracowało. Większość badaczy koncentrowała się na transformatorach, które zasadniczo stały się dominującą siłą w NLP.

Pomyśleliśmy, że zamiast być kolejną twarzą w tłumie zajmującą się badaniami nad transformatorami, powinniśmy zrobić coś innego.

Jak oceniłeś potencjał techniczny ścieżki linear attention?

Nasza początkowa motywacja była prosta: rozwiązanie problemu kwadratowej złożoności obliczeniowej transformatorów. Testowaliśmy różne metody, w tym sparse transformers i linear attention.

Odkryliśmy, że sparse transformers działają, oferując większą szybkość i mniejsze zużycie pamięci w porównaniu z transformatorami. Jednak linear attention działał słabo i był również powolny. Mimo to zdecydowaliśmy się na linear attention.

Jednym z powodów był jego matematyczny urok – wierzyliśmy, że jego wydajność powinna być lepsza. Drugim powodem było to, że czuliśmy, że górna granica sparse attention to full attention, co utrudniało jej przekroczenie. Z drugiej strony, linear attention miał potencjał, aby ją przekroczyć.

Czy mógłbyś wyjaśnić, czym jest linear attention?

Linear attention to zasadniczo trick z jądrem. W transformatorach mnożenie macierzy Q, K i V wiąże się z różnymi złożonościami obliczeniowymi w zależności od tego, czy mnożysz najpierw QK, czy KV, ze względu na różne wymiary.

Mnożenie najpierw KV może zredukować złożoność obliczeniową do liniowej. Problemem jest jednak to, że po mnożeniu QK następuje operacja softmax, która nie spełnia właściwości przemienności i nie można jej łatwo podzielić na mnożenie najpierw KV. Dlatego pierwszym krokiem w linear attention jest usunięcie softmax.

Ale usunięcie softmax wpływa na wyniki. Kolejnym zadaniem jest utrzymanie spójności wyników bez softmax, co jest celem linear attention.

Jakie są fundamentalne różnice między linear attention, sparse attention i architekturami linear RNN?

Sparse attention to wciąż zasadniczo softmax attention. Po prostu oblicza mniej punktów niż gęsta macierz attention. Na przykład, sliding window attention oblicza tylko wynik attention w oknie, osiągając przyspieszenie poprzez zmniejszenie ilości obliczeń.

Linear RNN i linear attention to zasadniczo to samo, tylko przez niektórych nazywane RNN, a przez innych attention.

Wszystko można zapisać w formie RNN. Na przykład, lightning attention odpowiada RWKV-4, podczas gdy RWKV-7 jest ulepszoną wersją gated delta net. Chociaż są podobne w istocie, szczegóły ich implementacji różnią się.

Jakie są kluczowe kamienie milowe w badaniach nad mechanizmami linear attention?

Około 2018-19 badania wykazały, że teoretyczną złożoność obliczeniową softmax attention transformatora można zredukować za pomocą tricków z jądrem, ale wyniki były słabe, a wydajność niska.

W latach 2019-20 dominowała sparse attention, a firmy takie jak Google zaproponowały wiele wariantów sparse attention. Później zaczęła pojawiać się linear attention, ale stanęła w obliczu wyzwania słabej wydajności i niskiej prędkości.

Badacze przyjęli głównie dwa podejścia do poprawy: jedno polegało na przybliżeniu funkcji softmax, aby rozkład był zgodny z softmax; drugie, które wybraliśmy, polegało na modelowaniu przy użyciu całkowicie różnych metod, nie martwiąc się o przybliżanie softmax.

Opublikowaliśmy nasz pierwszy artykuł, ‘COSFORMER: RETHINKING SOFTMAX IN ATTENTION’, w październiku 2021 roku, który zastąpił operację softmax funkcją cosinus, umożliwiając podział obliczeń.

W pierwszej połowie 2022 roku opublikowaliśmy drugi artykuł, ‘The Devil in Linear Transformer’, który analizował przyczyny degradacji wydajności linear attention i zawierał rozwiązania. To był prekursor lightning attention.

Później badaliśmy również kodowanie pozycji specjalnie dla linear attention i długich konwolucji, publikując TNN, ‘TOEPLITZ NEURAL NETWORK FOR SEQUENCE MODELING’, metodę podobną do S4 (prekursora Mamby).

W końcu uruchomiliśmy lightning attention, który dorównywał wydajności transformatorów dzięki ulepszonym metodom zanikania i strukturom sieciowym. Użyliśmy również techniki kafelkowania, aby uczynić go szybszym.

Jakie są twoje przemyślenia na temat obecnych nietransformatorowych ścieżek technicznych architektury?

Linear attention jest w rzeczywistości metodą nietransformatorową. Obecnie, oprócz podejść typu RNN, inne nietransformatorowe architektury tracą na znaczeniu.

Na przykład, CNN, takie jak długie konwolucje i duże konwolucje jądra, wydają się być stopniowo eliminowane ze względu na słabą wydajność, ale w rzeczywistości są dość silne w niektórych aspektach, nadal mając pewien wpływ na modelowanie sekwencji, takie jak zadania wykrywania anomalii.

W rzeczywistości istnieją tylko trzy nietransformatorowe architektury: linear attention, długie konwolucje i linear RNN.

Ale w rzeczywistości te trzy można zunifikować w jedną, którą nazywamy modelem o złożoności liniowej. Napisaliśmy artykuł obejmujący wszystkie trzy.

Jakie są główne różnice między lightning attention a Mambą i RWKV?

Najważniejszą różnicą jest to, że lightning attention jest najprostszym linear attention. Mamba i RWKV używają zanikania zależnego od danych, podczas gdy lightning attention używa ręcznie wykonanego zanikania dla szybkości.

Chociaż uczenie się zanikania może osiągnąć lepsze wyniki, poświęca szybkość. Na przykład, RWKV-7 jest o 10-15% wolniejszy niż gating delta net, podczas gdy gated delta net jest mniej więcej o połowę szybszy niż lightning attention.

Efekt modelowania RWKV jest rzeczywiście lepszy niż lightning attention, ale jest wolniejszy i jeszcze nie rozwiązał problemu wyszukiwania.

Czy teraz istnieje konsensus w branży, że linear attention ma wysoką i wykonalną górną granicę?

Nie, gdyby istniał konsensus, wszyscy skalowali by modele linear attention. I teraz też nie ma konsensusu. Gdyby tak było, wszyscy robiliby linear, ale jak widać, tak nie jest.

Ale dla nas widzieliśmy to już w drugiej połowie 2023 roku. W tym czasie pytałem wiele osób i rozmawiałem z wieloma, a najczęstszym argumentem, który podnosili, było to, że wiedzieli, że linear attention działa w małej skali, ale czuli, że zawiedzie po przeskalowaniu.

W tamtym czasie myślałem, że przeskaluję to, aby wszyscy zobaczyli. Teraz, gdy MiniMax-01 wyszedł, nikt nie wątpi w zdolność linear attention na dużą skalę.

Od małych eksperymentów do wdrożenia na dużą skalę

Czy uważasz, że górna granica linear attention może przewyższyć full attention?

Widzimy teraz, że hybrydowe architektury są lepsze niż czyste transformatory. Ale największym problemem z czystym linear attention jest zdolność wyszukiwania, która jest trudnym problemem do rozwiązania dla środowiska akademickiego.

Istniejące metody, choć złożone i powolne, nadal nie mogą go całkowicie rozwiązać, dlatego konieczne jest przejście w kierunku architektur hybrydowych.

Jaki węzeł zaobserwowałeś, który skłonił cię do wyjścia z laboratorium?

W maju-czerwcu 2023 roku mieliśmy już wewnętrznie lightning attention 2, który był pierwszym na świecie wdrożeniem linear attention, które było szybsze niż Flash attention.

Uważamy, że przekroczył przemysłową czerwoną linię, a jego dojrzałość technologiczna jest bardzo wysoka i można go przeskalować.

Jak definiujesz tę przemysłową czerwoną linię?

Po pierwsze, efekt jest lepszy niż transformator, a po drugie, jest szybszy niż transformator. To daje mu możliwość zastąpienia transformatora. Zweryfikowaliśmy to na gęstym modelu w skali 15B w tamtym czasie.

Na węźle, kiedy wyszedłeś z laboratorium, dlaczego ostatecznie połączyłeś się z MiniMax?

Właściwie rozmawiałem wtedy z niektórymi dużymi firmami. Ale ostatecznie udało mi się to z MiniMax.

Przede wszystkim, cosformer to artykuł, nad którym współpracowałem z Junjie. Mamy podstawy do współpracy. Junjie był moim szefem, kiedy był w SenseTime. Pod koniec 23 roku Junjie zaprosił mnie na obiad. Jest bardziej pewny możliwości tych najnowocześniejszych technologii. Rozumiem, że szukał również przełomu technicznego w tamtym czasie.

W tamtym czasie MiniMax zakończył badania nad Moe i było bardzo mało punktów przełomowych dla następnego kroku. W tamtym czasie wydano lightning attention, a mamba również był popularny, więc w jego oczach był to wykonalny kierunek.

Czy jest to związane z interaktywnym produktem towarzyszącym MiniMax?

Nie ma połączenia. Yan Junjie bardziej martwi się górną granicą modelu i tym, jak dalej przebić się przez ten sufit.

Linear attention może być bardziej kierunkiem przełamywania wydajności w opinii publicznej, a nie przełamywania sufitu.

Chodzi o to, że po pierwsze, moc obliczeniowa każdego producenta jest stała. Im szybciej model można przyspieszyć, tym więcej danych może zjeść i tym lepszy model powstaje. Kiedy moc obliczeniowa jest stała, im szybszy model, tym lepiej.

Czy zaobserwowałeś sytuację, w której dane osiągnęły szczyt?

Jeszcze nie, prawda? Dane są nadal w fazie ciągłego skalowania, ale mogą nie być tak agresywne jak w 23 roku.

Ponieważ dane wciąż rosną, a każdego dnia pojawiają się nowe dane. Model ma codziennie nowe dane do przetworzenia. Dane generowane przez Internet każdego dnia są tak duże. Dzięki czyszczeniu nadal możemy wydobywać nowe dane.

W porównaniu z danymi, które istniały przez tak wiele lat rozwoju człowieka, czy tempo wzrostu danych spowolniło?

Właściwie niekoniecznie. Spójrz na pięć tysięcy lat historii Chin, a zgromadziło się tylko kilka książek. Ale wraz z rozwojem Internetu wzrost objętości danych jest bardzo stromą krzywą. Całkowita ilość danych wygenerowanych przed Internetem może nie być tak duża jak ilość danych wygenerowanych w jednym roku później.

Podczas procesu skalowania, jakie wyzwania stanęły przed lightning attention?

Aby zweryfikować jego skalowalność, najpierw przeprowadziliśmy eksperymenty z prawem skalowania, stopniowo rozszerzając od małych modeli do 7B, 9B i ostatecznie skalując do modeli z ponad 400B.

I teoretycznie udowodniliśmy, że pojemność linear jest większa niż pojemność transformatora.

Definiujemy pojemność jako rozmiar obecnych stanów RNN. Dla transformatora rozmiar pojemności wynosi O(d), gdzie d jest rozmiarem; dla linear attention rozmiar pojemności wynosi d²/h. Ponieważ d jest znacznie większe niż h, pojemność jest większa.

W końcu zweryfikowaliśmy również, że model hybrydowy jest lepszy niż czysty transformator.

Jak osiąga się sekwencję długości okna 4M?

Dla lightning długość treningu może być dowolna. Tak długo, jak moc obliczeniowa jest w pełni wykorzystana, prędkość treningu 8K, 32K lub 128K jest taka sama, a TGS (token na GPU na sekundę) jest taki sam.

Ponieważ transformator ma złożoność obliczeniową n², im dłuższa sekwencja, tym szybciej rośnie złożoność obliczeniowa, a opóźnienie rośnie w krzywej kwadratowej. Przy długości 1M opóźnienie softmax attention jest 2700 razy większe niż lightning attention.

Jakie wyzwania techniczne nadal należy rozwiązać, aby osiągnąć nieskończone okno kontekstu w przyszłości?

W naszej obecnej architekturze hybrydowej nadal jest 1/8 softmax attention. To jest wąskie gardło przy długości 1M. Opóźnienie spowodowane przez tę 1/8 jest znacznie większe niż pozostałe 7/8 linear attention.

Jeśli chcemy zoptymalizować długi tekst, musimy rozważyć optymalizację części softmax attention. Możemy uczyć się od metod sparse attention, aby uczynić go szybszym i lżejszym.

Ponadto rozważamy również uczynienie współczynnika mieszania softmax i linear attention bardziej ekstremalnym, już nie 1/8, ale prawdopodobnie 1/16 lub 1/32. Najbardziej radykalnym rozwiązaniem jest umieszczenie tylko jednej warstwy softmax w całym modelu, ale dla pewności nie przyjęliśmy go, głównie ze względu na wpływ na zdolność wyszukiwania.

Dlaczego zdolność wyszukiwania jest tak ważna dla modelu?

Wyszukiwanie jest podstawą uczenia się w kontekście i jest warunkiem koniecznym.

Musisz pamiętać informacje w kontekście, aby uczyć się w kontekście, a uczenie się w kontekście jest podstawą wszystkich zaawansowanych możliwości obecnych dużych modeli, takich jak CoT (Chain of Thought), zwłaszcza długi CoT, który opiera się na zdolności wyszukiwania.

Decydująca nowa architektura

Czy zwracasz uwagę na najnowsze ulepszenia architektoniczne w FFN i attention w branży?

Ulepszeniem FFN jest Moe. Zwróciłem również uwagę na Ultra Mem Byte, ale myślę, że to rzecz stratna, stratna kompresja. Mogą wystąpić problemy, jeśli zostanie przeskalowany w przyszłości, ale nie przeskalowaliśmy, więc mogę tylko powiedzieć, że mogą wystąpić problemy.

Ponieważ FFN to zasadniczo te. Nasze ulepszenia w obszarze Moe to nic innego jak zmiana z poprzedniego dużego eksperta na obecny tryb małego eksperta, uczynienie go bardziej rozproszonym, a następnie przyspieszenie, co wymaga dalszych badań.

Jeśli chcesz go dalej zoptymalizować, ponieważ FFN to mnożenie macierzy, optymalizacja może być przeprowadzona tylko na poziomie CUDA przez Nvidię, wykonując niektóre optymalizacje mnożenia macierzy na najniższym poziomie.

Czy zwracasz uwagę na ulepszenia architektury attention w branży?

Ulepszenia attention to zasadniczo linear. Rozważamy również, czy w przyszłości stworzyć silniejszy Linear i dalej przyspieszyć Linear attention na obecnych podstawach.

Istnieje wiele sposobów na poprawę, jednym z nich jest zmiana zanikania, a drugim zmiana niektórych małych trików wewnątrz. Możecie spodziewać się naszego nowego artykułu.

Czy nasz obecny stosunek długości kontekstu i kosztu wnioskowania jest stosunkowo zaawansowany?

Gdy tylko chodzi o wydłużenie długości sekwencji, mamy bardzo wyraźną przewagę kosztową mocy obliczeniowej. Im dłużej, tym bardziej oczywista będzie przewaga kosztowa, niezależnie od tego, czy jest to wnioskowanie, czy trening.

Na przykład, na 1M moc obliczeniowa zużyta przez linear attention to 1/2700 full attention. Dla porównania, ponieważ nadal mamy 1/8 full attention, to zasadniczo 1/8 architektury transformatora, ponieważ linear attention zasadniczo nie liczy się jako wydatek.

Jeśli koszt obliczeniowy jest tak niski, czy może osiągnąć wąskie gardło obliczeniowe?

Teraz rzeczywiście jest to wąskie gardło dostępu do pamięci. Dekodowanie to wąskie gardło dostępu do pamięci, a nie wąskie gardło obliczeniowe. Ponieważ lightning jest bardzo szybki, jest zbyt szybki, aby dostęp do pamięci zajmował tak mało zasobów, jak obliczenia. Wynika to głównie z tego, że długość sekwencji w rzeczywistych aplikacjach nie jest wystarczająco długa.

Jak sprawić, by w przyszłości było to wąskie gardło obliczeniowe, zależy od tego, jak zoptymalizować dostęp do pamięci. Będą to rzeczy, za które będzie odpowiedzialny dział inżynieryjny.

Jeśli architektura linear stanie się główną architekturą następnej generacji, jakie ulepszenia adaptacji sprzętowej byłyby dla niej bardziej odpowiednie?

Bardzo trudną rzeczą jest tutaj to, że musimy wziąć pod uwagę długość sekwencji. Jeśli twoja długość sekwencji koncentruje się na 8K lub 32K, attention stanowi tylko nieco ponad dziesięć procent, a pozostałe osiemdziesiąt procent stanowi część FFN.

Nawet jeśli zoptymalizujesz attention do ekstremum, do 0, zoptymalizowałeś tylko nieco ponad dziesięć procent opóźnienia. Ale jeśli wydłużysz długość sekwencji, proporcja attention będzie coraz większa. Dotyczy to porównania z full attention, ale w przypadku linear attention jego proporcja jest niezmieniona.

Ponieważ FFN jest również linear, a linear attention jest również linear, jego proporcja wynosi około 10%, co jest prawie niezmienione, nawet w przypadku 1M.

Ale jeśli jest to full attention, obliczenia attention mogą stanowić 99%, a następujący FFN tylko 1%. Tak więc linear attention ma zalety tylko w długich tekstach.

Jeśli architektura linear stanie się głównym nurtem, dążenie może być skierowane do sprzętu o niskim zużyciu energii, zmniejszając tylko zużycie energii. W tym chipy Spiking Neural Network (SNN) mogą być bardziej odpowiednie, a niektórzy ludzie faktycznie to robią.

Oczekiwanie na drogę do AGI

Jakie są twoje oczekiwania dotyczące efektu open-source modelu?

Pierwszy to efekt publicity. Osobiście uważam, że oprócz pokazywania mięśni, najważniejszą rzeczą w open source jest zobaczenie, jak wszyscy mogą go wykorzystać w przyszłości. Myślę, że open source małych modeli może być czymś, co bardziej rozważamy w przyszłości.

Należy również rozważyć, jak stworzyć infrastrukturę, aby każdy mógł dostrajać. Open source jest dla nas długoterminową rzeczą w przyszłości, a flagowe modele powinny być nadal open-source.

Czy jest możliwe, że w przyszłości wybiegnie architektura czystej krwi, która nie jest hybrydą?

Obecnie nie ma metody, która działa lepiej niż hybryda, zwłaszcza pod względem prędkości. Dodanie niewielkiej części softmax attention, przewaga prędkości jest bardzo oczywista, gdy długość sekwencji nie jest szczególnie długa, zwłaszcza po pojawieniu się flash attention.

Badania nad architekturą czystej krwi wciąż trwają, ale jest to bardzo trudne i nie ma więcej nisko wiszących owoców. Mamy pewne rozwiązania techniczne, ale wdrożenie nie jest proste i ostatecznie zależy od tego, jak długą sekwencję musimy osiągnąć.

Inne pytanie brzmi, czy istnieje silne zapotrzebowanie na ultradługie teksty? Chociaż modele takie jak Claude osiągnęły kontekst 200K, użytkownicy wydają się być bardzo zadowoleni z obecnej długości. Aplikacje Agent mogą w przyszłości przynieść zapotrzebowanie na ultradługie sekwencje, ale nie ma jeszcze dojrzałego punktu odniesienia.

Ale myślę, że ten problem jest jak Nvidia opracowująca zaawansowane karty graficzne do przyszłych gier, nawet jeśli nie są one potrzebne teraz, jest to technologia na przyszłość.

Na przykład, głębokie badania wymagają, aby model przeczytał zawartość dziesiątek stron internetowych, a czas przetwarzania jest rzędu dziesiątek minut, co może być kierunkiem zastosowania dla długich tekstów.

Co twoim zdaniem może być następną wielką rzeczą po CoT?

Zastanawialiśmy się nad tym. Przede wszystkim obecny model rozumowania jest stosunkowo popularny, a głównym nurtem w tym roku będzie nadal część rozumowania. Potem trudno nam pomyśleć o jakichkolwiek szczególnie dużych zmianach w przyszłości czystych modeli językowych.

Rozmawiałem również z innymi nauczycielami i ich odczucia są takie, że wszyscy ponownie zmniejszą koszt modelu, tak aby prędkość rozumowania stawała się coraz szybsza, a jego cena stawała się coraz niższa, a koszt jest zmniejszany przy jednoczesnym utrzymaniu efektu.

Ponieważ sufit zbliża się szybko, zdecydowana większość przypadków sprawdza i wypełnia luki w możliwościach dużych modeli. Ale jeśli nastąpią jeszcze większe przełomy technologiczne, mogą być stosunkowo rzadkie w krótkim okresie i jeszcze ich nie widzieliśmy.

Po tym, jak MiniMax zbadał linear attention, jaki może być następny kierunek do zbadania?

Następną rzeczą może być zbadanie architektury multimodalnej, a konkretnie, czy chcemy stworzyć natywną architekturę dużego modelu zunifikowanego generowania i rozumienia.

Czy model o złożoności obliczeniowej O(n²) lub O(n) byłby lepszą odpowiedzią, jeśli AGI jest punktem końcowym?

Oczywiście, że jest to O(n). Z perspektywy antropomorfizmu ludzie muszą mieć złożoność O(n). Na przykład, jeśli złożoność osoby wynosi O(n²), to prędkość, z jaką do ciebie mówię, będzie coraz wolniejsza.

Ponieważ dla transformatora jego złożoność wnioskowania jest złożonością obliczeniową O(n²), to znaczy, że opóźnienie wypluwania pierwszego tokenu i wypluwania setnego tokenu jest inne.

My, ludzie, nie możemy sobie wyobrazić takiej rzeczy, ponieważ ludzie nigdy nie restartowali się od urodzenia i cały czas wypluwają rzeczy, więc złożoność obliczeniowa ludzi jest stała.

Czy człowiek jest koniecznie optymalnym rozwiązaniem dla inteligencji?

W tej chwili możemy tylko tak myśleć. Są również osoby podążające ścieżką inteligencji bionicznej, ale nie poświęciliśmy zbyt wiele uwagi tym kierunkom.

Przy AGI jako grze końcowej, które obszary ulepszania modelu są najważniejsze?

Oprócz modelowania języka istnieje również problem metod uczenia się. To, jak się uczysz i uczysz się ze środowiska, uczenie się z interakcji ze środowiskiem jest bardzo ważne. W końcu obecne wielomodalne rozumienie jest wciąż bardzo ubogie w dane.

A nawet uczenie się maszyn z niewielką liczbą strzałów jest obecnie etykietowane, ale ludzkie uczenie się jest nieetykietowane. Tak więc, jak ujednolicić wszystko w ramach samodzielnie skonstruowanych ram, jest również problemem.

zaktualizowano 2025-04-19

# LLM # AGI # MiniMax