1. Nvidia
La quête de systèmes d’IA de plus en plus sophistiqués continue de stimuler des investissements substantiels de la part des développeurs de grands modèles de langage. Cependant, une entreprise récolte déjà les fruits de cette révolution de l’IA : Nvidia. Ayant déclenché la course à l’IA avec ses unités de traitement graphique (GPU) dominantes, Nvidia est maintenant parfaitement positionnée avec son processeur et sa plateforme Blackwell révolutionnaires pour soutenir la poursuite de l’intelligence de niveau humain.
Blackwell surpasse son prédécesseur, le H100, offrant jusqu’à 2,5 fois plus de puissance pour les tâches générales d’entraînement de modèles, tout en consommant beaucoup moins d’énergie. Les principaux opérateurs de centres de données et laboratoires d’IA, y compris les géants de l’industrie comme Google, Meta, Microsoft, OpenAI, Tesla et xAI, se sont engagés à acheter des centaines de milliers de GPU Blackwell.
Alors que des modèles récents d’entreprises chinoises comme DeepSeek et Alibaba ont démontré des capacités impressionnantes en utilisant des GPU Nvidia plus anciens et moins puissants, Nvidia ne se repose pas sur ses lauriers. L’entreprise développe activement des plateformes pour diverses applications, allant de la découverte de médicaments (Clara for Biopharma) et des véhicules autonomes (Drive AGX) à la production vidéo (Holoscan) et aux jumeaux numériques (Omniverse). En favorisant le progrès de l’IA dans un large éventail de scénarios du monde réel, Nvidia se positionne stratégiquement pour une croissance soutenue, même si les futurs modèles présentent une dépendance réduite à la puissance de calcul brute.
2. OpenAI
Depuis 2019, OpenAI a constamment amélioré ses modèles en augmentant les données d’entraînement et les ressources de calcul, une stratégie qui a été largement adoptée dans l’industrie. Cependant, alors que les rendements décroissants de cette approche de mise à l’échelle devenaient apparents, OpenAI a reconnu la nécessité d’une nouvelle voie pour atteindre l’AGI – des modèles qui surpassent l’intelligence humaine dans la plupart des tâches.
La solution d’OpenAI est arrivée sous la forme du modèle o1. Au lieu de se concentrer uniquement sur l’augmentation des ressources pendant le pré-entraînement, OpenAI a conçu o1 pour allouer plus de temps et de puissance de calcul pendant l’inférence, la phase où le modèle est activement déployé et répond aux invites des utilisateurs. Au cours de ce processus, o1 recueille et conserve des informations contextuelles, à la fois de l’utilisateur et des sources de données pertinentes. Il emploie une méthodologie d’essais et d’erreurs pour déterminer le chemin optimal vers une réponse. Le résultat est la génération de réponses de niveau doctorat à des questions complexes, propulsant o1 au sommet des classements de référence de performance.
OpenAI propose des versions ‘expérimentales’ et ‘mini’ de o1 aux abonnés ChatGPT Plus. De plus, un service premium appelé ChatGPT Pro offre un accès illimité au modèle o1 complet pour 200 $ par mois. En décembre 2024, OpenAI a dévoilé le successeur de o1, o3, et en février 2025, a accordé aux utilisateurs payants l’accès à o3-mini, une variante plus petite et plus rapide optimisée pour la science, les mathématiques et le codage. L’impact le plus profond des nouveaux modèles de raisonnement d’OpenAI est la validation de la mise à l’échelle de l’informatique au moment de l’inférence comme une voie prometteuse pour réaliser de nouvelles percées dans l’intelligence sur la voie de l’AGI.
3. Google DeepMind
La recherche fondamentale qui a ouvert la voie aux chatbots d’aujourd’hui a débuté chez Google à la fin des années 2010. Google avait développé un chatbot alimenté par un grand modèle de langage bien avant l’émergence de ChatGPT. Cependant, des préoccupations concernant la sécurité, la confidentialité et les implications juridiques auraient conduit à une approche prudente, retardant sa publication. Cette hésitation a fait que Google a initialement pris du retard dans la course à l’IA déclenchée par le lancement de ChatGPT.
La sortie de Gemini 2.0 de Google DeepMind en 2024 a signalé la résurgence définitive de Google. Gemini 2.0 représente le premier modèle d’IA grand public intrinsèquement multimodal, capable de traiter et de générer des images, des vidéos, de l’audio et du code informatique avec la même fluidité que le texte. Cette capacité permet au modèle d’analyser et de raisonner sur des clips vidéo, ou même des flux vidéo en direct à partir d’une caméra de téléphone, avec une rapidité et une précision remarquables.
Gemini se distingue également par sa capacité à contrôler d’autres services Google, tels que Maps et Search. Cette intégration met en valeur l’avantage stratégique de Google, combinant sa recherche en IA avec ses outils d’information et de productivité établis. Gemini est parmi les premiers modèles d’IA démontrant un fonctionnement autonome et la capacité de raisonner à travers des problèmes complexes pour le compte de l’utilisateur. Le modèle Gemini 2.0 Flash Thinking Experimental fournit même aux utilisateurs des informations sur le processus de pensée employé pour arriver à une réponse. De plus, en décembre, Google a présenté Project Mariner, une fonctionnalité d’IA agentique basée sur Gemini conçue pour effectuer des tâches telles que les achats d’épicerie en ligne de manière autonome.
4. Anthropic
Les principales applications de l’IA générative se sont jusqu’à présent concentrées sur l’écriture de texte, la synthèse et la génération d’images. La prochaine étape évolutive consiste à doter les grands modèles de langage de capacités de raisonnement et de la capacité d’utiliser des outils. Le modèle ‘Computer Use’ d’Anthropic a fourni un premier aperçu de cet avenir.
À partir de Claude 3.5 Sonnet en 2024, le modèle d’Anthropic peut percevoir l’activité à l’écran, y compris le contenu Internet. Il peut manipuler un curseur, cliquer sur des boutons et saisir du texte. Une vidéo de démonstration a montré la capacité de Claude à remplir un formulaire en utilisant les informations disponibles sur les sites Web ouverts dans les onglets du navigateur. Il peut accomplir des tâches telles que la création d’un site Web personnel ou l’organisation de la logistique d’une excursion d’une journée. Les actions autonomes de l’IA, telles que l’ouverture de nouveaux onglets, la conduite de recherches et le remplissage de champs de données, sont vraiment remarquables.
Bien que le modèle fonctionne actuellement à un rythme plus lent et ne produise pas toujours la bonne réponse, des améliorations rapides sont attendues à mesure qu’Anthropic identifie et corrige ses limitations. Le projet Mariner de Google, mentionné précédemment, a suivi l’exemple d’Anthropic en décembre, et OpenAI a présenté son propre modèle d’utilisation de l’ordinateur, Operator, en janvier 2025. En février 2025, Anthropic a dévoilé sa prochaine itération majeure, Claude 3.7 Sonnet, un modèle plus grand capable d’engager automatiquement le mode de raisonnement pour les requêtes difficiles.
5. Microsoft
Le développement des modèles Phi de Microsoft est né d’une question fondamentale posée par les chercheurs de l’entreprise en 2023 : ‘Quelle est la plus petite taille de modèle qui peut présenter des signes d’intelligence émergente ?’ Cette question a marqué un moment charnière dans l’évolution des ‘petits modèles de langage’, des modèles conçus pour des performances optimales dans des scénarios avec une mémoire, une puissance de traitement ou une connectivité limitées, où des temps de réponse rapides sont cruciaux.
Tout au long de 2024, Microsoft a publié deux générations de petits modèles qui ont affiché des capacités de raisonnement et de logique qui n’étaient pas explicitement intégrées pendant l’entraînement. En avril, la société a dévoilé une série de modèles Phi-3 qui excellaient dans les benchmarks de langage, de raisonnement, de codage et de mathématiques, probablement en raison de leur entraînement sur des données synthétiques générées par des LLM beaucoup plus grands et plus performants. Des variantes du Phi-3 open source ont été téléchargées plus de 4,5 millions de fois sur Hugging Face en 2024.
Fin 2024, Microsoft a lancé ses petits modèles de langage Phi-4, qui ont surpassé les modèles Phi-3 dans les tâches axées sur le raisonnement et ont même surpassé le GPT-4o d’OpenAI sur les benchmarks GPQA (questions scientifiques) et MATH. Microsoft a publié le modèle sous une licence open source et open-weights, permettant aux développeurs de créer des modèles edge ou des applications pour téléphones ou ordinateurs portables. En moins d’un mois, Phi-4 a recueilli 375 000 téléchargements sur Hugging Face.
6. Amazon
Amazon AWS a récemment présenté Trainium2, une nouvelle version de son processeur Trainium pour l’IA, défiant potentiellement la domination des GPU Nvidia dans des contextes spécifiques. Trainium2 est conçu pour fournir la puissance de calcul massive requise pour l’entraînement des plus grands modèles d’IA générative et pour les opérations d’inférence après le déploiement du modèle. AWS affirme que Trainium est 30% à 40% plus rentable que les GPU pour des tâches comparables.
Trainium2 corrige les lacunes de puissance et d’intégration logicielle observées dans la première puce Trainium, positionnant Amazon pour potentiellement combler l’écart avec Nvidia. (Il convient de noter qu’AWS lui-même reste fortement dépendant de Nvidia pour les GPU.) Déplacer Nvidia est un défi de taille en raison du verrouillage des clients avec la couche logicielle CUDA de Nvidia, qui offre aux chercheurs un contrôle granulaire sur la façon dont leurs modèles utilisent les ressources de la puce. Amazon propose sa propre couche logicielle de contrôle du noyau, Neuron Kernel Interface (NKI), qui, comme CUDA, accorde aux chercheurs un contrôle précis sur les interactions du noyau de la puce.
Il est important de noter que Trainium2 n’a pas encore été testé à grande échelle. AWS construit actuellement un cluster de serveurs avec 400 000 puces Trainium2 pour Anthropic, ce qui pourrait fournir des informations précieuses sur l’optimisation des performances de ses puces IA dans les déploiements à grande échelle.
7. Arm
Le concepteur britannique de semi-conducteurs Arm est depuis longtemps un fournisseur clé de l’architecture utilisée dans les puces alimentant les petits appareils comme les téléphones, les capteurs et le matériel IoT. Ce rôle prend une importance accrue à l’ère émergente où les puces des appareils edge exécuteront des modèles d’IA. Les centres de données joueront également un rôle crucial dans cette évolution, gérant souvent une partie ou la totalité du traitement de l’IA le plus exigeant et fournissant des résultats aux appareils edge.
Alors que les centres de données prolifèrent à l’échelle mondiale, leur consommation d’énergie électrique deviendra une préoccupation de plus en plus pressante. Ce facteur contribue à l’accent mis sur l’efficacité dans la dernière architecture CPU Neoverse d’Arm. Elle offre une amélioration des performances de 50 % par rapport aux générations précédentes et des performances par watt 20 % supérieures à celles des processeurs utilisant des architectures x86 concurrentes, selon l’entreprise.
Arm rapporte qu’Amazon, Microsoft, Google et Oracle ont tous adopté Arm Neoverse à la fois pour le calcul généraliste et l’inférence et l’entraînement de l’IA basés sur le CPU. Par exemple, en 2024, Microsoft a annoncé que son premier silicium personnalisé conçu pour le cloud, le processeur Cobalt 100, était basé sur Arm Neoverse. Certains des plus grands centres de données d’IA s’appuieront sur le Superchip Grace Hopper de NVIDIA, qui combine un GPU Hopper et un CPU Grace basé sur Neoverse. Arm devrait lancer son propre CPU cette année, avec Meta comme l’un de ses premiers clients.
8. Gretel
Au cours de l’année écoulée, les entreprises d’IA ont constaté des rendements décroissants en entraînant leurs modèles avec des volumes toujours croissants de données extraites du Web. Par conséquent, elles ont déplacé leur attention de la quantité de données d’entraînement à sa qualité. Cela a conduit à un investissement accru dans le contenu non public et spécialisé sous licence de partenaires éditeurs. Les chercheurs en IA doivent également combler les lacunes ou les angles morts dans leurs données d’entraînement générées ou annotées par des humains. À cette fin, ils se sont de plus en plus tournés vers des données d’entraînement synthétiques générées par des modèles d’IA spécialisés.
Gretel a gagné en importance en 2024 en se spécialisant dans la création et la curation de données d’entraînement synthétiques. L’entreprise a annoncé la disponibilité générale de son produit phare, Gretel Navigator, qui permet aux développeurs d’utiliser des invites en langage naturel ou SQL pour générer, augmenter, éditer et organiser des ensembles de données d’entraînement synthétiques pour l’affinage et les tests. La plateforme a déjà attiré une communauté de plus de 150 000 développeurs qui ont synthétisé plus de 350 milliards de données d’entraînement.
D’autres acteurs de l’industrie ont remarqué les capacités de Gretel. Gretel s’est associé à Google pour rendre ses données d’entraînement synthétiques facilement accessibles aux clients de Google Cloud. Un partenariat similaire avec Databricks a été annoncé en juin, accordant aux clients entreprises de Databricks l’accès à des données d’entraînement synthétiques pour leurs modèles fonctionnant dans le cloud Databricks.
9. Mistral AI
Mistral AI, le concurrent français dans le domaine de l’IA générative, a constamment exercé une pression sur OpenAI, Anthropic et Google à l’avant-garde du développement de modèles d’IA de pointe. Mistral AI a publié une série de nouveaux modèles intégrant des avancées technologiques significatives en 2024, démontrant une croissance rapide de l’entreprise grâce à la fois à la commercialisation directe de ses API et à des partenariats stratégiques.
Plus tôt dans l’année, la société a présenté une paire de modèles open source appelés Mixtral, remarquables pour leur utilisation innovante de l’architecture ‘mixture of experts’, où seul un sous-ensemble spécialisé des paramètres du modèle est engagé pour traiter une requête, améliorant ainsi l’efficacité. En juillet 2024, Mistral a annoncé Mistral Large 2, qui, avec 123 milliards de paramètres, a présenté des améliorations significatives dans la génération de code, les mathématiques, le raisonnement et l’appel de fonctions. La société française a également publié Ministral 3B et Ministral 8B, des modèles plus petits conçus pour être exécutés sur des ordinateurs portables ou des téléphones, capables de stocker environ 50 pages de texte d’informations contextuelles fournies par l’utilisateur.
Mistral a réussi en Europe en se positionnant comme une alternative peu coûteuse et flexible aux entreprises américaines d’IA comme OpenAI. Elle a également poursuivi son expansion sur le marché des entreprises américaines en 2024. En juin, la société a obtenu un financement de 640 millions de dollars, dirigé par la société de capital-risque General Catalyst, portant la valorisation de Mistral à environ 6,2 milliards de dollars.
10. Fireworks AI
Fireworks propose un environnement d’exécution personnalisé qui rationalise le travail d’ingénierie souvent complexe associé à la construction d’une infrastructure pour les déploiements d’IA. En utilisant la plateforme Fireworks, les entreprises peuvent intégrer n’importe lequel des plus de 100 modèles d’IA, puis les personnaliser et les affiner pour leurs cas d’utilisation spécifiques.
L’entreprise a présenté de nouveaux produits en 2024 qui la positionneront pour capitaliser sur les tendances clés de l’industrie de l’IA. Premièrement, les développeurs se sont de plus en plus concentrés sur la réactivité des modèles et des applications alimentés par l’IA. Fireworks a lancé FireAttention V2, un logiciel d’optimisation et de quantification qui accélère les performances du modèle et réduit la latence du réseau. Deuxièmement, les systèmes d’IA évoluent de plus en plus vers des ‘pipelines’ qui invoquent divers modèles et outils via des API. Le nouveau logiciel FireFunction V2 agit comme un orchestrateur pour tous les composants de ces systèmes de plus en plus complexes, en particulier lorsque les entreprises déploient davantage d’applications d’IA autonomes.
Fireworks rapporte une augmentation de 600 % de la croissance de ses revenus en 2024. Sa clientèle comprend des entreprises de premier plan telles que Verizon, DoorDash, Uber, Quora et Upwork.
11. Snorkel AI
Les entreprises ont compris que l’efficacité de leurs systèmes d’IA est directement liée à la qualité de leurs données. Snorkel AI a bâti une entreprise florissante en aidant les entreprises à préparer leurs données propriétaires pour une utilisation dans les modèles d’IA. La plateforme de développement de données d’IA Snorkel Flow de l’entreprise offre une méthode rentable pour les entreprises d’étiqueter et d’organiser leurs données propriétaires, permettant leur utilisation dans la personnalisation et l’évaluation des modèles d’IA pour leurs besoins commerciaux spécifiques.
En 2024, Snorkel a étendu son support pour inclure les images, permettant aux entreprises d’entraîner des modèles d’IA multimodaux et des générateurs d’images en utilisant leurs propres images propriétaires. Il a également intégré la génération augmentée par récupération (RAG) dans sa plateforme, permettant aux clients de récupérer uniquement les segments d’informations les plus pertinents à partir de documents volumineux, tels que le contenu de la base de connaissances propriétaire, pour une utilisation dans l’entraînement de l’IA. Snorkel Custom, un nouveau niveau de service plus personnalisé, implique que les experts en apprentissage automatique de Snorkel collaborent directement avec les clients sur des projets.
Snorkel déclare que ses réservations annuelles d’une année sur l’autre ont doublé en 2024, avec une croissance à trois chiffres des réservations annuelles pour chacune des trois dernières années. Six des plus grandes banques utilisent désormais Snorkel Flow, selon l’entreprise, ainsi que des marques comme Chubb, Wayfair et Experian.
12. CalypsoAI
Alors que l’IA joue un rôle de plus en plus crucial dans les processus décisionnels critiques, les entreprises recherchent une visibilité accrue sur le fonctionnement interne des modèles. Ce besoin est particulièrement prononcé dans les industries réglementées qui doivent surveiller en permanence les biais et autres résultats involontaires. CalypsoAI a été parmi les premiers à reconnaître cette exigence émergente et a rapidement répondu avec des fonctionnalités d’explicabilité améliorées dans sa plateforme d’infrastructure d’IA.
Ce qui distingue Calypso, c’est l’étendue de sa technologie d’observabilité. En 2024, l’entreprise a lancé sa plateforme de sécurité de l’IA, qui protège les données de l’entreprise en sécurisant, en auditant et en surveillant tous les modèles d’IA générative actifs qu’une entreprise peut utiliser, quel que soit le fournisseur du modèle ou que le modèle soit hébergé en interne ou en externe. Calypso a également introduit de nouveaux outils de visualisation qui permettent aux utilisateurs d’observer la logique sous-jacente aux décisions de l’IA en temps réel.
Le marché réagit positivement à l’accent mis par Calypso sur l’observabilité de l’IA. L’entreprise signale une multiplication par dix de ses revenus en 2024 et prévoit une nouvelle multiplication par cinq en 2025.
13. Galileo
Bien que les systèmes d’IA présentent moins d’instances d’hallucinations factuelles et de biais par rapport à il y a un an, ils restent sensibles à ces problèmes. Cela pose un problème important pour toute entreprise utilisant l’IA, en particulier celles des secteurs réglementés comme la santé et la banque. Les équipes de développement de l’IA utilisent la plateforme d’IA de Galileo pour mesurer, optimiser et surveiller la précision de leurs modèles et applications.
Début 2024, après deux années de recherche, Galileo a publié Luna, une suite de modèles d’évaluation formés pour identifier les résultats nuisibles. Ces modèles permettent à la plateforme de Galileo d’examiner et de noter rapidement le travail d’un LLM au fur et à mesure qu’il assemble les jetons qui constituent sa réponse. Ce processus prend environ 200 millisecondes, ce qui laisse suffisamment de temps pour signaler et empêcher la sortie de l’IA d’être affichée à un utilisateur. Bien qu’un LLM standard puisse effectuer cette tâche, ce serait considérablement plus coûteux. Les modèles spécialement conçus de Galileo offrent une précision, une rentabilité et, surtout, une vitesse supérieures.
Galileo rapporte un quadruplement de sa clientèle en 2024, avec des clients tels que Twilio, Reddit, Chegg, Comcast et JPMorgan Chase. La startup a également obtenu un financement de 68 millions de dollars auprès d’investisseurs tels que le PDG de Hugging Face, Clément Delangue.
14. Runway
L’une des aspirations – et des angoisses – les plus importantes concernant l’IA est son potentiel à générer des vidéos d’une qualité suffisante pour révolutionner l’art et l’économie du cinéma. La technologie a fait des progrès substantiels vers cet avenir en 2024, avec Runway, une startup de génération vidéo basée à New York, jouant un rôle de premier plan. La sortie du modèle Gen-3 Alpha de Runway en juin 2024 a été largement saluée par la communauté de l’IA pour la crédibilité considérablement améliorée de la vidéo générée.
Runway a également mis en œuvre des améliorations majeures à ses outils de contrôle de l’esthétique de la vidéo IA. Le modèle a été entraîné à la fois sur des images et des vidéos et peut générer des vidéos basées sur des entrées de texte ou d’image. La société a ensuite publié Gen-3 Alpha Turbo, une version plus rentable et plus rapide de Gen-3.
Hollywood a suivi de près les progrès de l’IA générative, et Runway rapporte qu’elle a commencé à produire des versions personnalisées de ses modèles pour les acteurs de l’industrie du divertissement. Elle a conclu un partenariat formel avec Lionsgate Studios en septembre 2024. Runway a développé un modèle personnalisé pour la société de production et l’a formé sur le catalogue de films de Lionsgate. Runway déclare que le modèle est destiné à aider les cinéastes, réalisateurs et autres créatifs de Lionsgate à ‘augmenter’ leur travail tout en ‘économisant du temps, de l’argent et des ressources’. Runway pense que son arrangement avec Lionsgate pourrait servir de modèle pour des collaborations similaires avec d’autres sociétés de production.
15. Cerebras Systems
Les systèmes d’IA, en particulier les grands modèles de pointe, exigent une puissance de calcul immense pour fonctionner à grande échelle. Cela nécessite l’interconnexion de milliers ou de millions de puces pour répartir la charge de travail. Cependant, les connexions réseau entre les puces peuvent introduire des goulots d’étranglement en termes de performances. La technologie de Cerebras Systems est conçue pour exploiter les avantages de vitesse et d’efficacité de l’intégration d’une grande quantité de puissance de calcul sur une seule puce exceptionnellement grande.
La dernière puce WSE-3 (Wafer Scale Engine de troisième génération) de la société, par exemple, mesure 814 millimètres carrés, la taille d’une assiette, et est 56 fois plus grande que les puces H100 de Nvidia, leaders du marché. La puce intègre un nombre stupéfiant de 4 billions de transistors et offre 44 gigabits de mémoire. Ces puces peuvent être regroupées pour former des supercalculateurs, tels que Condor Galaxy, une ‘constellation’ de supercalculateurs interconnectés que Cerebras développe en collaboration avec son plus gros client, G42, une société d’IA et de cloud computing basée aux Émirats arabes unis.
À ce jour, Cerebras a trouvé un créneau dans les grandes organisations de recherche, notamment Mayo Clinic, Sandia National Laboratories, Lawrence Livermore National Laboratory et Los Alamos National Laboratory. La société a déposé une demande d’introduction en bourse en septembre 2024. Le prospectus indique que les ventes de la société ont plus que triplé pour atteindre 78,7 millions de dollars en 2023 et ont bondi à 136,4 millions de dollars au premier semestre 2024.