Llama de Meta: De pointe à pilier d'entreprise ?

L’évolution du modèle de langage étendu (LLM) Llama de Meta a fait l’objet d’un examen minutieux et de débats intenses au sein de la communauté de l’intelligence artificielle. Environ un an séparait la sortie de Llama 3 et de Llama 4, une éternité dans le paysage en évolution rapide de l’IA. Bien qu’il ait été initialement salué comme une alternative open source révolutionnaire aux modèles propriétaires comme ceux d’OpenAI, les développements récents suggèrent un changement de perception, certains remettant en question la pertinence continue de Llama à la pointe de l’innovation en matière d’IA.

Déceptions et attentes changeantes lors de LlamaCon

Lors de LlamaCon, la conférence inaugurale de Meta consacrée à ses LLM open source, un sentiment d’attentes non satisfaites imprégnait l’atmosphère. Plusieurs développeurs présents ont confié qu’ils avaient anticipé le dévoilement d’un modèle de raisonnement sophistiqué, ou au moins d’un modèle traditionnel capable de surpasser des concurrents tels que V3 de DeepSeek et Qwen, ce dernier étant une suite de modèles développés par la division de cloud computing d’Alibaba.

L’absence de telles annonces a alimenté les craintes que Llama ne perde du terrain dans la course à la suprématie de l’IA. Un mois seulement avant la conférence, Meta avait lancé la quatrième génération de sa famille Llama, comprenant les modèles à poids ouverts Llama 4 Scout et Llama 4 Maverick. Scout a été conçu pour des performances efficaces sur un seul GPU, tandis que Maverick a été conçu comme un modèle plus grand pour rivaliser avec d’autres modèles de fondation.

En plus de Scout et Maverick, Meta a donné un aperçu de Llama 4 Behemoth, un “modèle d’enseignant” nettement plus grand encore en cours de formation. Le but de Behemoth est de faciliter la distillation, une technique permettant de créer des modèles plus petits et spécialisés à partir d’un modèle plus grand et plus général.

Cependant, des rapports ont fait surface faisant état de retards dans la sortie de Behemoth et de difficultés à atteindre des performances compétitives avec la suite Llama 4. Malgré les affirmations de Meta concernant des capacités de pointe, la perception de certains développeurs était que Llama n’était plus à la tête du peloton.

L’ascension des concurrents : Qwen et DeepSeek

La déception entourant LlamaCon et les modèles Llama 4 reflète un sentiment plus large que les LLM open source de Meta perdent de l’élan en termes de performances techniques et d’enthousiasme des développeurs. Alors que Meta met l’accent sur son engagement envers les principes de l’open source, la construction d’écosystèmes et l’innovation, des concurrents comme DeepSeek, Qwen et OpenAI progressent rapidement dans des domaines critiques tels que le raisonnement, l’utilisation d’outils et le déploiement dans le monde réel.

Vineeth Sai Varikuntla, un développeur, a exprimé sa déception, déclarant qu’il avait espéré que Llama surpasserait Qwen et DeepSeek dans les cas d’utilisation générale et le raisonnement, mais a constaté que Qwen était nettement en avance.

Ce sentiment souligne les défis auxquels Meta est confronté pour maintenir la position de Llama en tant que LLM open source de premier plan. Alors que les versions initiales de Llama ont suscité une attention et des éloges considérables, l’émergence d’alternatives de plus en plus performantes a intensifié le paysage concurrentiel.

Un début prometteur : l’impact de Llama 2

Pour bien comprendre le récit actuel entourant Llama, il est essentiel de se souvenir de ses origines et de l’enthousiasme initial qu’il a suscité. En 2023, Jensen Huang, PDG de Nvidia, a salué le lancement de Llama 2 comme “probablement l’événement le plus important en matière d’IA” de cette année-là. En juillet 2024, la sortie de Llama 3 était considérée comme une percée, représentant le premier LLM ouvert capable de contester la domination d’OpenAI.

L’arrivée de Llama 3 a déclenché une augmentation immédiate de la demande de puissance de calcul, entraînant une augmentation des prix de location des GPU, selon Dylan Patel, analyste en chef chez SemiAnalysis. Les recherches Google pour “Meta” et “Llama” ont également culminé pendant cette période, indiquant un intérêt généralisé pour le nouveau modèle.

Llama 3 a été célébré comme un LLM de premier plan, ouvert et fabriqué aux États-Unis. Bien qu’il n’ait pas constamment dominé les benchmarks de l’industrie, il a exercé une influence et une pertinence considérables au sein de la communauté de l’IA. Cependant, cette dynamique a progressivement évolué.

Changements architecturaux et critiques

Les modèles Llama 4 ont introduit une architecture de “mélange d’experts”, une conception popularisée par DeepSeek. Cette architecture permet au modèle d’activer uniquement l’expertise la plus pertinente pour une tâche spécifique, améliorant ainsi l’efficacité.

Cependant, la sortie de Llama 4 a été accueillie par des critiques lorsque les développeurs ont découvert que la version utilisée pour les benchmarks publics différait de la version disponible pour le téléchargement et le déploiement. Cet écart a conduit à des accusations de “gamification du tableau de classement”, que Meta a niées, affirmant que la variante en question était expérimentale et qu’évaluer plusieurs versions d’un modèle est une pratique courante.

Malgré les explications de Meta, la controverse a contribué à une perception selon laquelle Llama avait du mal à maintenir son avantage concurrentiel. Alors que les modèles concurrents continuaient de progresser, Meta semblait manquer de direction claire.

Mesurer l’adoption par les développeurs : une tâche complexe

Déterminer quelle famille de LLM est la plus populaire auprès des développeurs est une tâche difficile. Cependant, les données disponibles suggèrent que les derniers modèles de Llama ne figurent pas parmi les leaders.

Qwen, en particulier, se classe régulièrement en tête de divers classements sur Internet. Selon Artificial Analysis, un site qui classe les modèles en fonction de leurs performances, Llama 4 Maverick et Scout sont positionnés juste au-dessus du modèle GPT-4 d’OpenAI (sorti à la fin de l’année précédente) et en dessous de Grok de xAI et Claude d’Anthropic en termes d’intelligence.

OpenRouter, une plateforme qui offre aux développeurs un accès à divers modèles et publie des classements basés sur l’utilisation de l’API, montre Llama 3.3 parmi les 20 meilleurs modèles début mai, mais pas Llama 4.

Ces points de données, bien que non définitifs, suggèrent que les dernières itérations de Llama n’ont pas trouvé un écho aussi fort auprès des développeurs que leurs prédécesseurs.

Au-delà des benchmarks : utilisation d’outils et raisonnement

Bien que les évaluations standard de Llama 4 aient peut-être été décevantes, les experts soutiennent que l’enthousiasme modéré découle de facteurs allant au-delà des simples mesures de performance brute.

AJ Kourabi, analyste chez SemiAnalysis, souligne l’importance du “tool calling” et de la capacité du modèle à aller au-delà de la simple fonctionnalité de chatbot. Le tool calling désigne la capacité d’un modèle à accéder et à donner des instructions à d’autres applications sur Internet ou sur l’appareil d’un utilisateur, une fonctionnalité cruciale pour l’IA agentique, qui promet d’automatiser des tâches telles que la réservation de voyages et la gestion des dépenses.

Meta a déclaré que les modèles Llama prennent en charge le tool calling via son API. Cependant, Theo Browne, développeur et YouTuber, soutient que le tool calling est devenu une nécessité pour la pertinence de pointe à mesure que les outils agentiques gagnent en importance.

Anthropic est apparu comme un chef de file précoce dans l’utilisation d’outils, et les modèles propriétaires comme OpenAI rattrapent rapidement leur retard. La capacité d’appeler de manière fiable le bon outil pour générer la bonne réponse est très précieuse, et OpenAI a recentré ses efforts pour prioriser cette capacité.

Kourabi soutient que l’absence d’un modèle de raisonnement solide est un indicateur important que Meta a pris du retard. Le raisonnement est considéré comme un élément fondamental de l’équation de l’IA agentique, permettant aux modèles d’analyser les tâches et de déterminer la marche à suivre appropriée.

La niche de Llama : applications pratiques et adoption par les entreprises

Malgré les inquiétudes concernant sa position à l’avant-garde de la recherche en IA, Llama reste un outil précieux pour de nombreux développeurs et organisations.

Nate Jones, responsable des produits chez RockerBox, conseille aux développeurs d’inclure Llama dans leurs CV, car la familiarité avec le modèle sera probablement recherchée à l’avenir.

Paul Baier, PDG et analyste principal chez GAI Insights, estime que Llama continuera d’être un élément clé des stratégies d’IA pour de nombreuses entreprises, en particulier celles en dehors du secteur technologique.

Les entreprises reconnaissent l’importance des modèles open source, Llama étant un exemple important, pour gérer les tâches moins complexes et contrôler les coûts. De nombreuses organisations préfèrent une combinaison de modèles fermés et open pour répondre à leurs divers besoins.

Baris Gultekin, responsable de l’IA chez Snowflake, note que les clients évaluent souvent les modèles en fonction de leurs cas d’utilisation spécifiques plutôt que de se fier uniquement aux benchmarks. Compte tenu de son faible coût, Llama s’avère souvent suffisant pour de nombreuses applications.

Chez Snowflake, Llama est utilisé pour des tâches telles que la synthèse des transcriptions d’appels de vente et l’extraction d’informations structurées à partir des avis des clients. Chez Dremio, Llama génère du code SQL et rédige des e-mails marketing.

Tomer Shiran, cofondateur et directeur des produits de Dremio, suggère que le modèle spécifique peut ne pas être essentiel pour 80 % des applications, car la plupart des modèles sont désormais “suffisamment bons” pour répondre aux besoins de base.

Un paysage en diversification : le rôle de consolidation de Llama

Bien que Llama s’éloigne peut-être de la concurrence directe avec les modèles propriétaires dans certains domaines, le paysage global de l’IA se diversifie de plus en plus et le rôle de Llama se consolide au sein de niches spécifiques.

Shiran souligne que les benchmarks ne sont pas le principal moteur du choix des modèles, car les utilisateurs donnent la priorité aux tests des modèles sur leurs propres cas d’utilisation. La performance d’un modèle sur les données d’un client est primordiale, et cette performance peut varier dans le temps.

Gultekin ajoute que la sélection du modèle est souvent une décision spécifique au cas d’utilisation plutôt qu’un événement ponctuel.

Llama perd peut-être des développeurs à la recherche constante des dernières avancées, mais il conserve le soutien de nombreux développeurs axés sur la création d’outils pratiques basés sur l’IA.

Cette dynamique s’aligne sur la stratégie open source plus large de Meta, illustrée par le lancement de React en 2013 et la création de PyTorch en 2016. En encourageant des écosystèmes prospères, Meta bénéficie des contributions de la communauté open source.

Comme l’observe Nate Jones, Zuckerberg tire des vents arrières importants des initiatives open source de Meta.