Sarvam AI, une startup basée à Bengaluru, a récemment lancé un modèle de langage étendu (LLM) révolutionnaire de 24 milliards de paramètres, méticuleusement conçu pour exceller dans les langues indiennes et s’attaquer à des tâches de raisonnement complexes, notamment les mathématiques et la programmation. Ce modèle innovant, baptisé Sarvam-M (avec “M” signifiant Mistral), représente une avancée significative dans le domaine des modèles hybrides à poids ouverts. Il s’appuie sur les fondations de Mistral Small, un modèle de langage open-source compact mais remarquablement puissant, en améliorant ses capacités grâce à des techniques de formation et d’optimisation spécialisées.
Sarvam-M : Une approche hybride de la modélisation linguistique
Sarvam-M se distingue par son approche hybride, combinant les atouts d’une base open-source avec des améliorations propriétaires. Cette philosophie de conception permet à Sarvam AI de tirer parti des connaissances collectives et du soutien communautaire entourant le modèle Mistral Small tout en l’adaptant simultanément aux besoins spécifiques du marché indien. L’architecture du modèle et les méthodologies de formation sont essentielles pour comprendre ses performances et ses capacités.
Ajustement précis supervisé : précision et exactitude
Pour améliorer la précision et l’exactitude du modèle, Sarvam AI a employé un processus méticuleux d’ajustement précis supervisé. Cela impliquait de former le modèle sur un ensemble de données d’exemples soigneusement sélectionnés et spécifiquement conçus pour améliorer ses performances sur diverses tâches. En exposant le modèle à un large éventail de scénarios et en lui fournissant des données claires et étiquetées, le processus d’ajustement précis supervisé permet à Sarvam-M d’apprendre des schémas et des relations complexes au sein des données, ce qui se traduit par des sorties plus précises et plus fiables.
Apprentissage par renforcement avec des récompenses vérifiables : prouesses en matière de prise de décision
Outre l’ajustement précis supervisé, Sarvam AI a intégré l’apprentissage par renforcement avec des récompenses vérifiables pour améliorer les capacités de prise de décision du modèle. Cette technique consiste à former le modèle pour qu’il apprenne à partir des commentaires liés à des objectifs clairs et mesurables, tels que la résolution correcte d’un problème mathématique. En récompensant le modèle pour avoir atteint ces objectifs, le processus d’apprentissage par renforcement l’encourage à prendre de meilleures décisions et à optimiser ses performances au fil du temps. Cette approche est particulièrement efficace pour les tâches qui nécessitent des compétences complexes de raisonnement et de résolution de problèmes.
Optimisé pour une utilisation en temps réel : efficacité et réactivité
Reconnaissant l’importance des performances en temps réel, Sarvam AI a méticuleusement optimisé Sarvam-M pour qu’il réponde plus efficacement et plus précisément lors de la génération de réponses, en particulier lors d’une utilisation en temps réel. Cela impliquait d’affiner l’architecture et les algorithmes du modèle afin de minimiser la latence et de maximiser le débit, garantissant ainsi que les utilisateurs puissent recevoir des réponses en temps opportun et pertinentes à leurs requêtes. Les efforts d’optimisation se sont concentrés sur la réduction des frais généraux de calcul et l’amélioration de la capacité du modèle à gérer les demandes simultanées, ce qui le rend adapté au déploiement dans des environnements à forte demande.
Évaluation comparative : Établir de nouvelles normes
L’affirmation de Sarvam AI selon laquelle Sarvam-M établit une nouvelle référence pour les modèles de sa taille dans les langues indiennes et les tâches de mathématiques et de programmation est étayée par des données d’évaluation comparative exhaustives. La startup a mené des évaluations rigoureuses des performances du modèle sur divers bancs d’essai standard, comparant ses résultats à ceux d’autres modèles de pointe. Les résultats de ces évaluations démontrent les améliorations significatives réalisées par Sarvam-M dans plusieurs domaines clés.
Bancs d’essai de langue indienne : un gain de performance moyen de 20 %
Selon l’article de blog publié par SarvamAI, Sarvam-M présente des améliorations majeures par rapport au modèle de base, avec des gains de performance moyens de 20 % sur les bancs d’essai de langue indienne. Cette amélioration substantielle souligne l’efficacité du processus d’ajustement précis supervisé pour améliorer la compréhension et la génération des langues indiennes par le modèle. La capacité du modèle à gérer les nuances et les complexités de ces langues est cruciale pour son adoption et son utilisation sur le marché indien. Les bancs d’essai spécifiques utilisés pour évaluer les performances comprenaient des tâches telles que la classification de texte, les questions-réponses et la traduction automatique, couvrant un large éventail de défis linguistiques.
Tâches mathématiques : un gain de performance moyen de 21,6 %
Outre les langues indiennes, Sarvam-M démontre également des gains de performance impressionnants sur les tâches mathématiques, avec une amélioration moyenne de 21,6 %. Cette augmentation significative de la précision et de la capacité à résoudre des problèmes met en évidence l’efficacité de l’apprentissage par renforcement avec la technique des récompenses vérifiables pour améliorer les capacités de raisonnement du modèle. La capacité du modèle à résoudre des problèmes mathématiques est essentielle pour son application dans des domaines tels que la modélisation financière, la recherche scientifique et l’analyse de données. Les bancs d’essai utilisés pour évaluer les performances sur les tâches mathématiques comprenaient des problèmes provenant de divers domaines, tels que l’algèbre, le calcul et les statistiques. Le modèle a été évalué sur sa capacité à non seulement fournir des réponses correctes, mais aussi à démontrer son processus de raisonnement et à justifier ses solutions.
Tests de programmation : un gain de performance moyen de 17,6 %
Les performances de Sarvam-M sur les tests de programmation sont tout aussi remarquables, avec un gain moyen de 17,6 %. Cette amélioration reflète la capacité du modèle à comprendre et à générer du code dans divers langages de programmation, ce qui en fait un outil précieux pour les développeurs et les ingénieurs logiciels. La maîtrise de la programmation par le modèle est cruciale pour son application dans des domaines tels que la génération de code, la détection de bogues et les tests automatisés. Les bancs d’essai utilisés pour évaluer les performances sur les tests de programmation comprenaient des tâches telles que la saisie semi-automatique de code, la réparation de code et la génération de code à partir de descriptions en langage naturel. Le modèle a été évalué sur sa capacité à générer du code syntaxiquement correct et sémantiquement significatif qui satisfait aux exigences données.
Tâches combinées : performances exceptionnelles
Le modèle fonctionne encore mieux sur les tâches qui combinent les langues indiennes et les mathématiques, illustrant sa polyvalence et sa capacité à gérer des scénarios complexes qui nécessitent à la fois des compétences linguistiques et de raisonnement. Par exemple, il a réalisé une amélioration de 86 % sur une version romanisée en langue indienne du banc d’essai GSM-8K. Cette amélioration remarquable souligne la capacité du modèle à tirer parti de ses connaissances des langues indiennes et des concepts mathématiques pour résoudre des problèmes difficiles. Le banc d’essai GSM-8K est un ensemble de données largement utilisé qui teste la capacité d’un modèle à résoudre des problèmes mathématiques de niveau primaire exprimés en langage naturel. Les performances du modèle sur ce banc d’essai démontrent sa capacité à comprendre l’énoncé du problème, à identifier les informations pertinentes et à appliquer les opérations mathématiques appropriées pour arriver à la solution correcte. L’amélioration de 86 % réalisée par Sarvam-M témoigne de ses capacités de raisonnement avancées et de sa capacité à gérer des tâches complexes et multifacettes.
Comparaison avec d’autres modèles : Sarvam-M tient son rang
L’article de blog de Sarvam AI établit des comparaisons entre Sarvam-M et d’autres modèles de langage importants, soulignant ses performances concurrentielles. Cette analyse comparative fournit des informations précieuses sur les forces et les faiblesses du modèle, permettant aux utilisateurs de prendre des décisions éclairées quant à sa pertinence pour leurs besoins spécifiques. L’article de blog souligne le fait que Sarvam-M surpasse Llama-2 7B sur la plupart des bancs d’essai et est comparable à des modèles denses plus importants comme Llama-3 70B, et à des modèles comme Gemma 27B, qui sont pré-entraînés sur beaucoup plus de jetons. Ces comparaisons soulignent l’efficacité de la méthodologie de formation de Sarvam-M et sa capacité à obtenir des performances concurrentielles avec une taille de paramètre relativement plus petite. La capacité à obtenir des performances comparables avec moins de paramètres se traduit par des coûts de calcul inférieurs et des vitesses d’inférence plus rapides, ce qui fait de Sarvam-M une solution plus pratique et plus accessible pour de nombreux utilisateurs.
Bancs d’essai basés sur des connaissances en anglais : marge d’amélioration
Malgré ses performances impressionnantes sur les langues indiennes et les tâches de raisonnement, Sarvam AI reconnaît que Sarvam-M a encore besoin d’améliorations dans les bancs d’essai basés sur des connaissances en anglais comme MMLU. Dans ces bancs d’essai, Sarvam-M a une performance inférieure d’environ 1 point de pourcentage à celle du modèle de base. Cette légère baisse de performance suggère que les données de formation du modèle peuvent avoir été biaisées vers les langues indiennes et les tâches de raisonnement, ce qui s’est traduit par une compréhension légèrement plus faible des connaissances en anglais. Cependant, Sarvam AI s’emploie activement à résoudre ce problème en intégrant davantage de données en langue anglaise dans l’ensemble de formation du modèle et en affinant l’architecture du modèle pour mieux gérer les tâches basées sur des connaissances en anglais. L’entreprise s’engage à atteindre la parité avec d’autres modèles de pointe sur les bancs d’essai de langue anglaise, garantissant ainsi que Sarvam-M est un modèle de langage polyvalent et compétitif à l’échelle mondiale.
Polyvalence et applications : un large éventail de possibilités
Sarvam-M est conçu pour être polyvalent et pour prendre en charge un large éventail d’applications, notamment les agents conversationnels, la traduction et les outils pédagogiques. Sa capacité à comprendre et à générer des langues indiennes, associée à ses capacités de raisonnement, en fait un atout précieux pour les entreprises et les organisations opérant sur le marché indien.
Agents conversationnels : améliorer le service à la clientèle
Sarvam-M peut être utilisé pour alimenter des agents conversationnels qui peuvent interagir avec les clients dans leur langue maternelle, offrant ainsi un service à la clientèle personnalisé et efficace. Ces agents peuvent gérer un large éventail de tâches, telles que répondre aux questions fréquemment posées, fournir des informations sur les produits et résoudre les plaintes des clients. En permettant aux clients de communiquer dans leur langue préférée, Sarvam-M peut améliorer la satisfaction et la fidélité des clients. Les agents conversationnels alimentés par Sarvam-M peuvent être déployés sur diverses plateformes, telles que les sites web, les applications mobiles et les plateformes de messagerie, offrant aux clients une expérience de communication transparente et pratique.
Traduction : faire tomber les barrières linguistiques
Les capacités de traduction de Sarvam-M peuvent être utilisées pour faire tomber les barrières linguistiques et faciliter la communication entre les personnes qui parlent des langues différentes. Le modèle peut traduire du texte et de la parole entre l’anglais et diverses langues indiennes, permettant aux entreprises d’étendre leur portée à de nouveaux marchés et aux particuliers d’entrer en contact avec des personnes de cultures différentes. Les services de traduction alimentés par Sarvam-M peuvent être intégrés à diverses applications, telles que les outils de traduction de documents, les plugins de traduction de sites web et les applications de traduction en temps réel, offrant aux utilisateurs des capacités de traduction transparentes et précises.
Outils pédagogiques : des expériences d’apprentissage personnalisées
Sarvam-M peut être utilisé pour développer des outils pédagogiques qui offrent des expériences d’apprentissage personnalisées aux étudiants de tous âges. Le modèle peut générer du matériel pédagogique personnalisé, fournir des commentaires sur le travail des étudiants et répondre aux questions des étudiants. En adaptant l’expérience d’apprentissage aux besoins individuels et au style d’apprentissage de chaque étudiant, Sarvam-M peut améliorer l’engagement des étudiants et leur réussite scolaire. Les outils pédagogiques alimentés par Sarvam-M peuvent être déployés sur diverses plateformes, telles que les plateformes d’apprentissage en ligne, les applications mobiles et les manuels interactifs, offrant aux étudiants un accès à des ressources d’apprentissage personnalisées à tout moment, en tout lieu.
Accès et disponibilité : autonomiser les développeurs
Sarvam AI a rendu Sarvam-M facilement accessible aux développeurs et aux chercheurs, favorisant ainsi l’innovation et la collaboration au sein de la communauté de l’IA. Le modèle est disponible en téléchargement sur Hugging Face, une plateforme populaire pour le partage et l’accès aux modèles d’IA open source. Les développeurs peuvent également tester le modèle sur l’aire de jeu de Sarvam AI, une interface web qui permet aux utilisateurs d’expérimenter les capacités du modèle et d’explorer ses applications potentielles. En outre, Sarvam AI propose des API qui permettent aux développeurs d’intégrer Sarvam-M à leurs propres applications et services. En fournissant un accès facile au modèle et à ses outils associés, Sarvam AI permet aux développeurs de créer des solutions innovantes qui tirent parti de la puissance de l’IA.
Plans futurs : construire un écosystème d’IA souverain en Inde
Sarvam AI prévoit de publier des modèles régulièrement dans le cadre de ses efforts pour construire un écosystème d’IA souverain en Inde. Ce modèle est le premier d’une série de contributions. L’entreprise s’engage à développer et à déployer des technologies d’IA qui sont alignées sur les besoins et les valeurs du peuple indien. En favorisant une industrie nationale de l’IA forte, Sarvam AI vise à réduire la dépendance de l’Inde aux technologies étrangères et à promouvoir la croissance économique et le développement social. La vision de l’entreprise est de créer un écosystème d’IA à la fois innovant et inclusif, garantissant que tous les Indiens ont accès aux avantages de l’IA.
Fin avril, le gouvernement indien a choisi Sarvam pour construire le LLM souverain du pays dans le cadre de la mission IndiaAI, un effort national visant à renforcer les capacités nationales dans les technologies émergentes. Cette sélection souligne la confiance du gouvernement dans la capacité de Sarvam AI à réaliser sa vision d’un écosystème d’IA souverain en Inde. La mission IndiaAI est une initiative globale qui vise à promouvoir la recherche et le développement dans l’IA, à favoriser l’innovation et l’entrepreneuriat et à créer une main-d’œuvre qualifiée pour soutenir l’industrie de l’IA. En s’associant à Sarvam AI, le gouvernement fait un pas important vers la réalisation de ses objectifs et l’établissement de l’Inde comme un leader mondial dans l’IA.