Le service Oracle Cloud Infrastructure (OCI) Generative AI accueille un nouveau membre passionnant : la série de modèles Meta Llama 4, comprenant Scout et Maverick. Ces modèles intègrent une architecture unique de mélange d’experts (MoE), améliorant considérablement la capacité de traitement et l’efficacité. Ils sont spécialement optimisés pour exceller dans plusieurs domaines, notamment la compréhension multimodale, les tâches multilingues, la génération de code et les appels d’outils, et sont capables de piloter des systèmes d’agents avancés.
Actuellement, ces modèles sont disponibles dans la version en disponibilité générale (GA) dans les régions suivantes :
- À la demande : ORD (Chicago)
- Cluster d’IA dédié : ORD (Chicago), GRU (Guarulhos), LHR (Londres), KIK (Kikuyu)
Points clés de la série Llama 4
Capacités multimodales : Briser les frontières des types de données
Llama 4 Scout et Maverick ne sont pas simplement des modèles linguistiques, ce sont de véritables maîtres multimodaux. Ils sont capables de traiter et d’intégrer nativement divers types de données, notamment du texte et des images, permettant ainsi des applications d’IA plus riches et plus complètes. Vous pouvez imaginer un système d’IA capable de comprendre simultanément une description textuelle et une image associée, afin de mieux saisir le contexte et de prendre des décisions plus éclairées. Cette capacité multimodale ouvre de nouvelles possibilités pour des tâches telles que la génération de légendes d’images, les questions-réponses visuelles, etc.
Prise en charge multilingue : Communiquer sans frontières
Un autre point fort de la série Llama 4 est sa solide prise en charge multilingue. Ces modèles ont été entraînés sur un ensemble de données contenant 200 langues et ont été affinés pour 12 langues principales (arabe, anglais, français, allemand, hindi, indonésien, italien, portugais, espagnol, tagalog, thaï et vietnamien). Cela signifie qu’ils sont capables de comprendre et de générer du texte dans plusieurs langues, ouvrant ainsi la voie à des applications à l’échelle mondiale. Il est important de noter que la fonctionnalité de compréhension d’images n’est actuellement prise en charge qu’en anglais.
Développement efficace : Empreinte GPU plus petite
Pour les développeurs, Llama 4 Scout a été conçu dès le départ pour être plus accessible. Il peut fonctionner efficacement avec une empreinte GPU plus petite, ce qui en fait un choix idéal pour les environnements aux ressources limitées. Cela signifie que même sans équipement matériel puissant, les développeurs peuvent exploiter les puissantes fonctionnalités de Llama 4 Scout pour accélérer le développement et le déploiement d’applications d’IA.
Modèles open source : Autonomiser la communauté
Meta a choisi une posture ouverte en publiant ces deux modèles sous la licence communautaire Llama 4. Cela signifie que les développeurs sont libres de les affiner et de les déployer, à condition de respecter les conditions de licence spécifiques. Ce modèle ouvert favorise l’innovation et la collaboration au sein de la communauté de l’IA, permettant à un plus grand nombre de personnes de participer au développement et à l’application des technologies d’IA.
Date limite de connaissances
Il est important de noter que la date limite des connaissances des modèles Llama 4 est août 2024. Cela signifie qu’ils peuvent ne pas être en mesure de fournir des informations à jour sur les événements ou les informations qui se sont produits après cette date.
Avis important : La politique d’utilisation acceptable de Llama limite son utilisation au sein de l’Union européenne (UE).
Llama 4 Scout : Champion de la légèreté
Architecture : Conception de paramètres ingénieuse
Llama 4 Scout adopte une conception d’architecture ingénieuse, n’activant que 17 milliards de paramètres sur un total d’environ 109 milliards de paramètres. Cette conception exploite un mélange de 16 experts, réalisant ainsi un bon équilibre entre performances et efficacité. En activant uniquement une partie des paramètres, Scout est en mesure de réduire considérablement les besoins en calcul, ce qui lui permet de fonctionner dans des environnements aux ressources limitées.
Fenêtre contextuelle : Capacité à traiter de longs textes
Llama 4 Scout prend en charge une longueur de contexte allant jusqu’à 10 millions de jetons (nécessite plusieurs GPU). Cependant, lors de la mise à disposition générale (GA), le service OCI Generative AI prendra en charge une longueur de contexte de 192k jetons. Même une fenêtre contextuelle de 192k est suffisante pour traiter des textes relativement longs, tels que des chapitres de livres ou des rapports détaillés.
Déploiement : Compact et puissant
L’un des objectifs de conception de Llama 4 Scout était de fonctionner efficacement avec une empreinte GPU plus petite. Cela en fait un choix idéal pour divers scénarios de déploiement, notamment les périphériques et les environnements cloud aux ressources limitées.
Performances : Surpasser les concurrents
Llama 4 Scout a obtenu d’excellents résultats dans plusieurs tests de référence, surpassant des modèles tels que Gemma 3 de Google et Mistral 3.1. Cela prouve les capacités exceptionnelles de Scout en termes de performances, ce qui en fait un outil puissant pour diverses tâches d’IA.
Llama 4 Maverick : Poids lourd
Architecture : Plus grande échelle, plus grande puissance
Par rapport à Scout, Llama 4 Maverick adopte une architecture de plus grande taille. Il active également 17 milliards de paramètres, mais il est implémenté dans un cadre plus vaste d’environ 400 milliards de paramètres et exploite 128 experts. Cette plus grande échelle confère à Maverick des capacités plus puissantes, lui permettant d’exceller dans des tâches d’IA plus complexes.
Fenêtre contextuelle : Mémoire ultra longue
Llama 4 Maverick prend en charge une longueur de contexte allant jusqu’à 1 million de jetons. Lors de la mise à disposition générale (GA), le déploiement OCI prendra en charge une longueur de contexte de 512k jetons. Une fenêtre contextuelle aussi longue permet à Maverick de traiter des textes extrêmement complexes, tels que des livres complets ou des collections de plusieurs documents.
Déploiement : Nécessite plus d’espace
En raison de sa plus grande taille, Llama 4 Maverick nécessite plus d’espace de déploiement que Scout. Au moment de la GA, le déploiement de Maverick sur OCI nécessitera environ le double de l’espace de Scout.
Performances : Comparable aux meilleurs modèles
Dans les tâches de génération de code et de raisonnement, les performances de Llama 4 Maverick sont comparables à celles des meilleurs modèles tels que GPT-4o d’OpenAI et DeepSeek-V3. Cela témoigne de la position de leader de Maverick dans le domaine de l’IA.
En résumé, la série Llama 4 représente un progrès significatif dans le développement des modèles d’IA. Ils ont été considérablement améliorés en termes de performances, de polyvalence et d’accessibilité, offrant un support puissant pour divers scénarios d’application.
Les clients OCI peuvent désormais exploiter facilement ces puissants modèles, sans se soucier de la complexité de la gestion de l’infrastructure. Ils peuvent accéder à ces modèles via une interface de chat, une API ou un point de terminaison dédié, simplifiant ainsi le processus de développement et de déploiement des applications d’IA.
La publication des modèles Llama 4 marque une nouvelle ère pour le service OCI Generative AI. En fournissant ces modèles avancés, OCI aide ses clients à libérer tout le potentiel de l’IA et à stimuler l’innovation dans tous les secteurs.