Rozczarowania na LlamaCon i zmieniające się oczekiwania
Trajektoria rozwoju dużego modelu językowego (LLM) Llama od Meta była przedmiotem intensywnych analiz i dyskusji w środowisku sztucznej inteligencji. Od premiery Llama 3 do Llama 4 minął około rok, co w szybko zmieniającym się krajobrazie AI stanowi wieczność. Początkowo model ten był okrzyknięty przełomową alternatywą open-source dla modeli własnościowych, takich jak te oferowane przez OpenAI. Jednak ostatnie wydarzenia sugerują zmianę w postrzeganiu, a niektórzy kwestionują dalsze znaczenie Llama na czele innowacji AI.
Podczas LlamaCon, pierwszej konferencji Meta poświęconej modelom LLM open-source, atmosferę wypełniało poczucie niespełnionych oczekiwań. Kilku obecnych programistów zwierzyło się, że spodziewali się odsłonięcia zaawansowanego modelu rozumowania lub przynajmniej tradycyjnego modelu zdolnego do przewyższenia konkurentów, takich jak V3 od DeepSeek i Qwen, czyli zestaw modeli opracowanych przez dział cloud computing Alibaba.
Brak takich ogłoszeń wzbudził obawy, że Llama traci grunt w wyścigu o supremację w dziedzinie AI. Zaledwie miesiąc przed konferencją Meta wprowadziła na rynek czwartą generację rodziny Llama, w tym modele o otwartej wadze Llama 4 Scout i Llama 4 Maverick. Scout został zaprojektowany z myślą o wydajnej pracy na pojedynczym GPU, podczas gdy Maverick został pomyślany jako większy model, który miałby konkurować z innymi modelami podstawowymi.
Oprócz Scout i Maverick, Meta udostępniła przedpremierowy wgląd w Llama 4 Behemoth, znacznie większy "model nauczycielski", który wciąż jest w fazie treningu. Celem Behemotha jest ułatwienie destylacji, techniki tworzenia mniejszych, wyspecjalizowanych modeli z większego, bardziej ogólnego modelu.
Jednak pojawiły się doniesienia o opóźnieniach w wydaniu Behemotha i trudnościach w osiągnięciu konkurencyjnej wydajności dzięki pakietowi Llama 4. Pomimo zapewnień Meta o najnowocześniejszych możliwościach, w opinii niektórych programistów Llama nie jest już liderem.
Wzrost konkurencji: Qwen i DeepSeek
Rozczarowanie związane z LlamaCon i modelami Llama 4 odzwierciedla szersze przekonanie, że modele LLM open-source od Meta tracą impet zarówno pod względem wydajności technicznej, jak i entuzjazmu programistów. Podczas gdy Meta podkreśla swoje zaangażowanie w zasady open-source, budowanie ekosystemu i innowacje, konkurenci, tacy jak DeepSeek, Qwen i OpenAI, szybko robią postępy w kluczowych obszarach, takich jak rozumowanie, obsługa narzędzi i wdrażanie w świecie rzeczywistym.
Jeden z programistów, Vineeth Sai Varikuntla, wyraził swoje rozczarowanie, stwierdzając, że miał nadzieję, że Llama przewyższy Qwen i DeepSeek w ogólnych zastosowaniach i rozumowaniu, ale stwierdził, że Qwen jest znacznie bardziej zaawansowany.
To odczucie podkreśla wyzwania, przed którymi stoi Meta, starając się utrzymać pozycję Llama jako wiodącego modelu LLM open-source. Podczas gdy początkowe wydania Llama wzbudziły znaczną uwagę i pochwały, pojawienie się coraz bardziej wydajnych alternatyw zaostrzyło konkurencję.
Obiecujący początek: wpływ Llama 2
Aby w pełni docenić obecną narrację wokół Llama, należy pamiętać o jej początkach i początkowym podekscytowaniu, jakie wywołała. W 2023 roku dyrektor generalny Nvidii, Jensen Huang, pochwalił premierę Llama 2 jako "prawdopodobnie największe wydarzenie w AI" tego roku. Do lipca 2024 r. wydanie Llama 3 zostało uznane za przełom, stanowiący pierwszy otwarty LLM zdolny do rzucenia wyzwania dominacji OpenAI.
Przybycie Llama 3 wywołało natychmiastowy wzrost popytu na moc obliczeniową, co doprowadziło do wzrostu cen wynajmu GPU, według Dylana Patela, głównego analityka w SemiAnalysis. W tym okresie odnotowano również szczytowe wyniki wyszukiwania w Google fraz "Meta" i "Llama", co wskazuje na powszechne zainteresowanie nowym modelem.
Llama 3 była celebrowana jako amerykański, otwarty i najwyższej klasy LLM. Chociaż nie zawsze zajmowała czołowe miejsca w branżowych testach porównawczych, wywarła znaczący wpływ i znaczenie w społeczności AI. Jednak ta dynamika stopniowo się zmieniała.
Zmiany architektoniczne i krytyka
Modele Llama 4 wprowadziły architekturę "mieszanki ekspertów", projekt spopularyzowany przez DeepSeek. Ta architektura umożliwia modelowi aktywowanie tylko najbardziej odpowiedniej wiedzy specjalistycznej dla konkretnego zadania, co poprawia wydajność.
Jednak premiera Llama 4 spotkała się z krytyką, gdy programiści odkryli, że wersja używana do publicznych testów porównawczych różni się od wersji dostępnej do pobrania i wdrożenia. Ta rozbieżność doprowadziła do oskarżeń o "manipulowanie rankingami", którym Meta zaprzeczyła, stwierdzając, że dana wersja miała charakter eksperymentalny i że ocena wielu wersji modelu jest standardową praktyką.
Pomimo wyjaśnień Meta, kontrowersje przyczyniły się do przekonania, że Llama ma trudności z utrzymaniem przewagi konkurencyjnej. W miarę jak konkurencyjne modele stale się rozwijały, Meta wydawała się nie mieć jasnego kierunku.
Pomiar adopcji przez programistów: zadanie złożone
Określenie, która rodzina LLM jest najpopularniejsza wśród programistów, jest zadaniem trudnym. Jednak dostępne dane sugerują, że najnowsze modele Llama nie należą do liderów.
W szczególności Qwen konsekwentnie zajmuje wysokie miejsca w różnych rankingach w Internecie. Zgodnie z Artificial Analysis, witryną, która szereguje modele na podstawie wydajności, Llama 4 Maverick i Scout są pozycjonowane tuż powyżej modelu GPT-4 OpenAI (wydanego pod koniec poprzedniego roku) i poniżej Grok xAI i Claude Anthropic pod względem inteligencji.
OpenRouter, platforma, która zapewnia programistom dostęp do różnych modeli i publikuje rankingi na podstawie wykorzystania API, pokazuje Llama 3.3 wśród 20 najlepszych modeli na początku maja, ale nie Llama 4.
Te punkty danych, choć nie są ostateczne, sugerują, że najnowsze iteracje Llama nie spotkały się z tak dużym odzewem wśród programistów, jak ich poprzednicy.
Poza testami porównawczymi: obsługa narzędzi i rozumowanie
Chociaż standardowe oceny Llama 4 mogły być rozczarowujące, eksperci twierdzą, że stłumiony entuzjazm wynika z czynników wykraczających poza surowe wskaźniki wydajności.
AJ Kourabi, analityk w SemiAnalysis, podkreśla znaczenie "wywoływania narzędzi" i zdolności modelu do wykraczania poza prostą funkcjonalność chatbota. Wywoływanie narzędzi odnosi się do zdolności modelu do uzyskiwania dostępu i instruowania innych aplikacji w Internecie lub na urządzeniu użytkownika, co jest kluczową funkcją dla agentic AI, która obiecuje automatyzację zadań, takich jak rezerwacja podróży i zarządzanie wydatkami.
Meta oświadczyła, że modele Llama obsługują wywoływanie narzędzi za pośrednictwem swojego API. Jednak Theo Browne, programista i YouTuber, argumentuje, że wywoływanie narzędzi stało się koniecznością dla najnowocześniejszego znaczenia, ponieważ narzędzia agentic zyskują na znaczeniu.
Anthropic stał się wczesnym liderem w dziedzinie korzystania z narzędzi, a modele własnościowe, takie jak OpenAI, szybko go doganiają. Zdolność do niezawodnego wywoływania właściwego narzędzia w celu wygenerowania właściwej odpowiedzi jest bardzo cenna, a OpenAI zmieniła swoje podejście, aby nadać priorytet tej możliwości.
Kourabi argumentuje, że brak silnego modelu rozumowania jest znaczącym wskaźnikiem, że Meta pozostaje w tyle. Rozumowanie uważa się za fundamentalny element w równaniu agentic AI, umożliwiający modelom analizowanie zadań i określanie odpowiedniego sposobu działania.
Nisza Llama: praktyczne zastosowania i adopcja korporacyjna
Pomimo obaw o jej pozycję w czołówce badań nad AI, Llama pozostaje cennym narzędziem dla wielu programistów i organizacji.
Nate Jones, szef produktu w RockerBox, radzi programistom, aby uwzględniali Llama w swoich CV, ponieważ znajomość modelu prawdopodobnie będzie poszukiwana w przyszłości.
Paul Baier, dyrektor generalny i główny analityk w GAI Insights, uważa, że Llama nadal będzie kluczowym elementem strategii AI dla wielu firm, szczególnie tych spoza branży technologicznej.
Przedsiębiorstwa dostrzegają znaczenie modeli open source, których prominentnym przykładem jest Llama, do obsługi mniej złożonych zadań i kontrolowania kosztów. Wiele organizacji preferuje kombinację modeli zamkniętych i otwartych, aby zaspokoić swoje różnorodne potrzeby.
Baris Gultekin, szef AI w Snowflake, zauważa, że klienci często oceniają modele na podstawie ich konkretnych przypadków użycia, a nie polegają wyłącznie na testach porównawczych. Biorąc pod uwagę niski koszt, Llama często okazuje się wystarczająca dla wielu zastosowań.
W Snowflake Llama jest używana do zadań takich jak podsumowywanie transkrypcji rozmów sprzedażowych i wyodrębnianie ustrukturyzowanych informacji z recenzji klientów. W Dremio Llama generuje kod SQL i pisze marketingowe wiadomości e-mail.
Tomer Shiran, współzałożyciel i dyrektor ds. produktów w Dremio, sugeruje, że konkretny model może nie mieć krytycznego znaczenia dla 80% zastosowań, ponieważ większość modeli jest teraz "wystarczająco dobra", aby zaspokoić podstawowe potrzeby.
Zróżnicowany krajobraz: Ugruntowana rola Llama
Chociaż Llama może odchodzić od bezpośredniej konkurencji z modelami własnościowymi w niektórych obszarach, ogólny krajobraz AI staje się bardziej zróżnicowany, a rola Llama umacnia się w określonych niszach.
Shiran podkreśla, że testy porównawcze nie są głównym motorem wyboru modelu, ponieważ użytkownicy priorytetowo traktują testowanie modeli na własnych przypadkach użycia. Wydajność modelu na danych klienta jest najważniejsza, a ta wydajność może się zmieniać w czasie.
Gultekin dodaje, że wybór modelu jest często decyzją specyficzną dla przypadku użycia, a nie jednorazowym wydarzeniem.
Llama może tracić programistów, którzy stale poszukują najnowszych osiągnięć, ale utrzymuje wsparcie wielu programistów, którzy koncentrują się na budowaniu praktycznych narzędzi opartych na sztucznej inteligencji.
Ta dynamika jest zgodna z szerszą strategią open-source Meta, której przykładem jest uruchomienie React w 2013 roku i stworzenie PyTorch w 2016 roku. Poprzez wspieranie udanych ekosystemów Meta czerpie korzyści z wkładu społeczności open-source.
Jak zauważa Nate Jones, Zuckerberg zyskuje znaczące korzyści dzięki inicjatywom open-source Meta.