IA : Le calcul d'inférence, nouvelle ruée vers l'or ?

Le rythme incessant de l’innovation dans le domaine de l’intelligence artificielle garantit que la complaisance n’est jamais une option. Juste au moment où les méthodologies établies semblent cimentées, de nouveaux développements émergent pour défier le statu quo. Un exemple frappant est arrivé au début de 2025, lorsque DeepSeek, un laboratoire d’IA chinois moins connu, a publié un modèle qui n’a pas seulement fait tourner les têtes – il a envoyé des secousses palpables à travers les marchés financiers. L’annonce a été rapidement suivie d’une chute surprenantede 17% du cours de l’action de Nvidia, entraînant dans sa baisse d’autres entreprises liées à l’écosystème florissant des centres de données IA. Les commentateurs de marché ont rapidement attribué cette réaction brutale à la prouesse démontrée par DeepSeek dans la création de modèles d’IA de haut calibre, apparemment sans les budgets colossaux typiquement associés aux principaux laboratoires de recherche américains. Cet événement a immédiatement déclenché un débat intense concernant l’architecture future et l’économie de l’infrastructure IA.

Pour saisir pleinement la perturbation potentielle annoncée par l’arrivée de DeepSeek, il est crucial de la replacer dans un contexte plus large : les contraintes évolutives auxquelles est confronté le pipeline de développement de l’IA. Un facteur significatif influençant la trajectoire de l’industrie est la rareté croissante de données d’entraînement nouvelles et de haute qualité. Les principaux acteurs du domaine de l’IA ont, à ce jour, ingéré de vastes pans de données Internet accessibles au public pour entraîner leurs modèles fondamentaux. Par conséquent, la source d’informations facilement accessibles commence à se tarir, rendant les avancées significatives supplémentaires dans la performance des modèles par les méthodes traditionnelles de pré-entraînement de plus en plus difficiles et coûteuses. Ce goulot d’étranglement émergent force un pivot stratégique. Les développeurs de modèles explorent de plus en plus le potentiel du « test-time compute » (TTC). Cette approche met l’accent sur l’amélioration des capacités de raisonnement d’un modèle pendant la phase d’inférence – permettant essentiellement au modèle de consacrer plus d’efforts de calcul à « réfléchir » et à affiner sa réponse lorsqu’il est confronté à une requête, plutôt que de se fier uniquement à ses connaissances pré-entraînées. Il existe une conviction croissante au sein de la communauté de recherche que le TTC pourrait débloquer un nouveau paradigme de mise à l’échelle, reflétant potentiellement les gains de performance spectaculaires précédemment obtenus en augmentant les données et les paramètres de pré-entraînement. Cette focalisation sur le traitement au moment de l’inférence pourrait bien représenter la prochaine frontière pour des avancées transformatrices en intelligence artificielle.

Ces événements récents signalent deux transformations fondamentales en cours dans le paysage de l’IA. Premièrement, il devient évident que des organisations opérant avec des ressources financières comparativement plus modestes, ou du moins moins claironnées publiquement, peuvent désormais développer et déployer des modèles qui rivalisent avec l’état de l’art. Le terrain de jeu, traditionnellement dominé par quelques géants lourdement financés, semble s’aplanir. Deuxièmement, l’accent stratégique se déplace de manière décisive vers l’optimisation du calcul au point d’inférence (TTC) comme principal moteur du progrès futur de l’IA. Examinons plus en profondeur ces deux tendances clés et explorons leurs ramifications potentielles pour la concurrence, la dynamique du marché et les différents segments au sein de l’écosystème IA plus large.

Remodeler le paysage matériel

La réorientation stratégique vers le calcul au moment du test (test-time compute) a des implications profondes pour le matériel qui sous-tend la révolution de l’IA, remodelant potentiellement les exigences pour les GPUs, le silicium spécialisé et l’infrastructure de calcul globale. Nous pensons que ce changement pourrait se manifester de plusieurs manières clés :

  • Une transition des hubs d’entraînement dédiés vers une puissance d’inférence dynamique : L’attention de l’industrie pourrait progressivement pivoter de la construction de clusters GPU monolithiques toujours plus grands, exclusivement dédiés à la tâche de pré-entraînement des modèles, gourmande en calcul. Au lieu de cela, les entreprises d’IA pourraient réallouer stratégiquement leurs investissements vers le renforcement de leurs capacités d’inférence. Cela ne signifie pas nécessairement moins de GPUs au total, mais plutôt une approche différente de leur déploiement et de leur gestion. Soutenir les demandes croissantes du TTC nécessite une infrastructure d’inférence robuste capable de gérer des charges de travail dynamiques, souvent imprévisibles. Bien qu’un grand nombre de GPUs resteront sans aucun doute nécessaires pour l’inférence, la nature fondamentale de ces tâches diffère considérablement de l’entraînement. L’entraînement implique souvent des tâches de traitement par lots importantes et prévisibles exécutées sur de longues périodes. L’inférence, en particulier lorsqu’elle est améliorée par le TTC, tend à être beaucoup plus « en pics » et sensible à la latence, caractérisée par des schémas de demande fluctuants basés sur les interactions des utilisateurs en temps réel. Cette imprévisibilité inhérente introduit de nouvelles complexités dans la planification de la capacité et la gestion des ressources, exigeant des solutions plus agiles et évolutives que les configurations d’entraînement traditionnelles orientées par lots.

  • L’ascension des accélérateurs d’inférence spécialisés : Alors que le goulot d’étranglement des performances se déplace de plus en plus vers l’inférence, nous anticipons une augmentation de la demande de matériel spécifiquement optimisé pour cette tâche. L’accent mis sur le calcul à faible latence et à haut débit pendant la phase d’inférence crée un terrain fertile pour des architectures alternatives au-delà du GPU à usage général. Nous pourrions assister à une augmentation significative de l’adoption des Circuits Intégrés Spécifiques à une Application (ASICs) méticuleusement conçus pour les charges de travail d’inférence, aux côtés d’autres types d’accélérateurs novateurs. Ces puces spécialisées promettent souvent un rapport performance/watt supérieur ou une latence plus faible pour des opérations d’inférence spécifiques par rapport aux GPUs plus polyvalents. Si la capacité à exécuter efficacement des tâches de raisonnement complexes au moment de l’inférence (TTC) devient un différenciateur concurrentiel plus critique que la capacité brute d’entraînement, la domination actuelle des GPUs à usage général – appréciés pour leur flexibilité à la fois pour l’entraînement et l’inférence – pourrait s’éroder. Ce paysage en évolution pourrait bénéficier de manière significative aux entreprises développant et fabriquant du silicium d’inférence spécialisé, leur permettant potentiellement de conquérir une part de marché substantielle.

Plateformes Cloud : Le nouveau champ de bataille pour la qualité et l’efficacité

Les fournisseurs de cloud hyperscale (comme AWS, Azure et GCP) et autres services de calcul cloud se trouvent au cœur de cette transformation. Le virage vers le TTC et la prolifération de modèles de raisonnement puissants remodèleront probablement les attentes des clients et la dynamique concurrentielle sur le marché du cloud :

  • La Qualité de Service (QoS) comme avantage concurrentiel déterminant : Un défi persistant entravant une adoption plus large par les entreprises de modèles d’IA sophistiqués, au-delà des préoccupations inhérentes à l’exactitude et à la fiabilité, réside dans la performance souvent imprévisible des APIs d’inférence. Les entreprises qui dépendent de ces APIs rencontrent fréquemment des problèmes frustrants tels que des temps de réponse très variables (latence), une limitation inattendue du débit (rate limiting) étranglant leur utilisation, des difficultés à gérer efficacement les requêtes utilisateur simultanées, et la surcharge opérationnelle liée à l’adaptation aux changements fréquents des points de terminaison d’API par les fournisseurs de modèles. Les demandes de calcul accrues associées aux techniques sophistiquées de TTC menacent d’exacerber ces points douloureux existants. Dans cet environnement, une plateforme cloud capable d’offrir non seulement l’accès à des modèles puissants mais aussi des garanties robustes de Qualité de Service (QoS) – assurant une faible latence constante, un débit prévisible, une disponibilité fiable et une évolutivité transparente – possédera un avantage concurrentiel convaincant. Les entreprises cherchant à déployer des applications d’IA critiques se tourneront vers les fournisseurs capables de fournir des performances fiables dans des conditions réelles exigeantes.

  • Le paradoxe de l’efficacité : Moteur d’une consommation accrue du Cloud ? Cela peut sembler contre-intuitif, mais l’avènement de méthodes plus efficaces en termes de calcul pour l’entraînement et, surtout, pour l’inférence des grands modèles de langage (LLMs) pourrait ne pas entraîner une réduction de la demande globale de matériel IA et de ressources cloud. Au lieu de cela, nous pourrions assister à un phénomène analogue au Paradoxe de Jevons. Ce principe économique, observé historiquement, postule que les augmentations de l’efficacité des ressources conduisent souvent à un taux de consommation global plus élevé, car le coût inférieur ou la plus grande facilité d’utilisation encouragent une adoption plus large et de nouvelles applications. Dans le contexte de l’IA, des modèles d’inférence très efficaces, potentiellement rendus possibles par des percées en TTC initiées par des laboratoires comme DeepSeek, pourraient réduire considérablement le coût par requête ou par tâche. Cette accessibilité pourrait, à son tour, inciter un éventail beaucoup plus large de développeurs et d’organisations à intégrer des capacités de raisonnement sophistiquées dans leurs produits et flux de travail. L’effet net pourrait être une augmentation substantielle de la demande globale de calcul IA basé sur le cloud, englobant à la fois l’exécution de ces modèles d’inférence efficaces à grande échelle et le besoin continu d’entraîner des modèles plus petits et plus spécialisés adaptés à des tâches ou domaines spécifiques. Les avancées récentes pourraient donc paradoxalement alimenter plutôt que freiner les dépenses globales en IA dans le cloud.

Modèles de Fondation : Un avantage concurrentiel mouvant

L’arène concurrentielle pour les fournisseurs de modèles de fondation – un espace actuellement dominé par des noms comme OpenAI, Anthropic, Cohere, Google et Meta, désormais rejoints par des acteurs émergents comme DeepSeek et Mistral – est également sur le point de connaître des changements significatifs :

  • Repenser la défendabilité du pré-entraînement : L’avantage concurrentiel traditionnel, ou « moat », dont jouissaient les principaux laboratoires d’IA reposait fortement sur leur capacité à amasser de vastes ensembles de données et à déployer d’énormes ressources de calcul pour pré-entraîner des modèles toujours plus grands. Cependant, si des acteurs disruptifs comme DeepSeek peuvent démontrer de manière tangible des performances comparables, voire de pointe, avec des dépenses déclarées significativement inférieures, la valeur stratégique des modèles pré-entraînés propriétaires comme unique différenciateur pourrait diminuer. La capacité à entraîner des modèles massifs pourrait devenir un avantage moins unique si des techniques innovantes en matière d’architecture de modèle, de méthodologies d’entraînement ou, de manière critique, d’optimisation du calcul au moment du test (test-time compute) permettent à d’autres d’atteindre des niveaux de performance similaires plus efficacement. Nous devrions anticiper une innovation rapide et continue dans l’amélioration des capacités des modèles transformer grâce au TTC, et comme l’illustre l’émergence de DeepSeek, ces percées peuvent provenir de bien au-delà du cercle établi des titans de l’industrie. Cela suggère une démocratisation potentielle du développement de l’IA de pointe, favorisant un écosystème plus diversifié et compétitif.

Adoption de l’IA en entreprise et couche applicative

Les implications de ces changements se répercutent sur le paysage des logiciels d’entreprise et sur l’adoption plus large de l’IA au sein des entreprises, en particulier concernant la couche applicative Software-as-a-Service (SaaS) :

  • Naviguer dans les obstacles de sécurité et de confidentialité : Les origines géopolitiques de nouveaux entrants comme DeepSeek introduisent inévitablement des complexités, notamment en matière de sécurité des données et de confidentialité. Étant donné la base deDeepSeek en Chine, ses offres, en particulier ses services d’API directs et ses applications de chatbot, sont susceptibles de faire l’objet d’un examen intense de la part des clients potentiels en Amérique du Nord, en Europe et dans d’autres pays occidentaux. Des rapports indiquent déjà que de nombreuses organisations bloquent de manière proactive l’accès aux services de DeepSeek par mesure de précaution. Même lorsque les modèles de DeepSeek sont hébergés par des fournisseurs de cloud tiers dans des centres de données occidentaux, des préoccupations persistantes concernant la gouvernance des données, l’influence potentielle de l’État et le respect des réglementations strictes en matière de confidentialité (comme le GDPR ou le CCPA) pourraient entraver une adoption généralisée en entreprise. De plus, les chercheurs enquêtent activement et mettent en évidence les vulnérabilités potentielles liées au « jailbreaking » (contournement des contrôles de sécurité), aux biais inhérents aux sorties du modèle, et à la génération de contenu potentiellement nuisible ou inapproprié. Bien que l’expérimentation et l’évaluation au sein des équipes R&D des entreprises puissent avoir lieu en raison des capacités techniques des modèles, il semble improbable que les acheteurs d’entreprise abandonnent rapidement des fournisseurs établis et fiables comme OpenAI ou Anthropic uniquement sur la base des offres actuelles de DeepSeek, compte tenu de ces considérations importantes de confiance et de sécurité.

  • La spécialisation verticale trouve un terrain plus solide : Historiquement, les développeurs créant des applications basées sur l’IA pour des industries ou des fonctions commerciales spécifiques (applications verticales) se sont principalement concentrés sur la création de flux de travail sophistiqués autour des modèles de fondation à usage général existants. Des techniques telles que la Génération Augmentée par Récupération (RAG) pour injecter des connaissances spécifiques au domaine, le routage intelligent des modèles pour sélectionner le meilleur LLM pour une tâche donnée, l’appel de fonctions pour intégrer des outils externes, et la mise en œuvre de garde-fous robustes pour garantir des sorties sûres et pertinentes ont été essentielles pour adapter ces modèles puissants mais généralisés à des besoins spécialisés. Ces approches ont connu un succès considérable. Cependant, une anxiété persistante a plané sur la couche applicative : la crainte qu’un bond soudain et spectaculaire dans les capacités des modèles de fondation sous-jacents puisse instantanément rendre obsolètes ces innovations spécifiques à l’application soigneusement conçues – un scénario célèbrement appelé « steamrolling » (rouleau compresseur) par Sam Altman d’OpenAI.

    Pourtant, si la trajectoire du progrès de l’IA est effectivement en train de changer, les gains les plus significatifs étant désormais attendus de l’optimisation du calcul au moment du test plutôt que d’améliorations exponentielles du pré-entraînement, la menace existentielle pour la valeur de la couche applicative diminue. Dans un paysage où les avancées découlent de plus en plus des optimisations TTC, de nouvelles voies s’ouvrent pour les entreprises spécialisées dans des domaines spécifiques. Les innovations axées sur les algorithmes de post-entraînement spécifiques au domaine – telles que le développement de techniques de prompting structuré optimisées pour le jargon d’une industrie particulière, la création de stratégies de raisonnement sensibles à la latence pour les applications en temps réel, ou la conception de méthodes d’échantillonnage très efficaces adaptées à des types de données spécifiques – pourraient générer des avantages de performance substantiels sur des marchés verticaux ciblés.

    Ce potentiel d’optimisation spécifique au domaine est particulièrement pertinent pour la nouvelle génération de modèles axés sur le raisonnement, comme GPT-4o d’OpenAI ou la série R de DeepSeek, qui, bien que puissants, présentent souvent une latence notable, prenant parfois plusieurs secondes pour générer une réponse. Dans les applications exigeant une interaction quasi temps réel (par exemple, les chatbots de service client, les outils d’analyse de données interactifs), réduire cette latence tout en améliorant simultanément la qualité et la pertinence de la sortie d’inférence dans un contexte de domaine spécifique représente un différenciateur concurrentiel significatif. Par conséquent, les entreprises de la couche applicative possédant une expertise verticale approfondie pourraient se retrouver à jouer un rôle de plus en plus crucial, non seulement dans la construction de flux de travail, mais aussi dans l’optimisation active de l’efficacité de l’inférence et l’ajustement fin du comportement du modèle pour leur niche spécifique. Elles deviennent des partenaires indispensables pour traduire la puissance brute de l’IA en valeur commerciale tangible.

L’émergence de DeepSeek sert d’illustration puissante d’une tendance plus large : une dépendance décroissante à l’égard de la simple échelle du pré-entraînement comme voie exclusive vers une qualité de modèle supérieure. Au lieu de cela, son succès souligne l’importance croissante de l’optimisation du calcul pendant la phase d’inférence – l’ère du calcul au moment du test (test-time compute). Bien que l’adoption directe des modèles spécifiques de DeepSeek au sein des logiciels d’entreprise occidentaux puisse rester limitée par les contrôles de sécurité et géopolitiques en cours, leur influence indirecte devient déjà apparente. Les techniques et les possibilités qu’ils ont démontrées catalysent sans aucun doute les efforts de recherche et d’ingénierie au sein des laboratoires d’IA établis, les contraignant à intégrer des stratégies d’optimisation TTC similaires pour compléter leurs avantages existants en termes d’échelle et de ressources. Cette pression concurrentielle, comme prévu, semble prête à faire baisser le coût effectif de l’inférence de modèles sophistiqués, ce qui, conformément au Paradoxe de Jevons, contribue probablement à une expérimentation plus large et à une utilisation globale accrue des capacités d’IA avancées dans l’économie numérique.