DeepSeek : L'ascension d'une puissance chinoise en IA

DeepSeek, un nom qui a rapidement transcendé l’obscurité relative pour devenir un point central dans la conversation mondiale sur l’IA, a suscité un débat intense et des spéculations dans les secteurs de la technologie et de la finance. Le laboratoire chinois d’IA derrière cette force naissante a perturbé l’ordre établi, incitant les analystes à s’interroger sur la durabilité de la domination américaine dans la course à l’IA et sur la viabilité à long terme de la demande actuelle de puces pour l’IA. Mais quels sont les principaux facteurs qui ont propulsé DeepSeek à sa position actuelle ?

La genèse de DeepSeek : Du fonds spéculatif au laboratoire d’IA

Les origines de DeepSeek sont profondément liées au monde de la finance quantitative. Il est soutenu par High-Flyer Capital Management, un fonds spéculatif chinois réputé pour son utilisation de l’IA dans la prise de décisions commerciales fondées sur des données.

Liang Wenfeng, un passionné d’IA ayant une expérience dans le trading pendant son séjour à l’Université de Zhejiang, a cofondé High-Flyer en 2015. En 2019, il a lancé High-Flyer Capital Management en tant que fonds spéculatif avec un accent particulier sur le développement et la mise en œuvre d’algorithmes d’IA pour les applications financières.

En 2023, High-Flyer a incubé DeepSeek en tant que laboratoire de recherche dédié à l’IA, fonctionnant indépendamment de son activité financière principale. Par la suite, avec High-Flyer comme investisseur clé, le laboratoire a été transformé en une entité distincte, conservant le nom de DeepSeek.

Dès sa création, DeepSeek a priorisé la mise en place de ses propres grappes de centres de données pour faciliter la formation de modèles. Cependant, comme d’autres entreprises d’IA opérant en Chine, DeepSeek a rencontré des difficultés en raison des restrictions américaines à l’exportation de matériel avancé. Par conséquent, pour former ses modèles les plus récents, l’entreprise a dû recourir à l’utilisation de puces Nvidia H800, une variante moins puissante des puces H100 qui sont facilement disponibles pour les entreprises américaines.

L’équipe technique de DeepSeek est connue pour sa jeunesse et son dynamisme. L’entreprise recrute activement des chercheurs en IA titulaires d’un doctorat dans les principales universités chinoises. En outre, DeepSeek emploie des personnes d’horizons divers, même celles qui n’ont pas d’expertise en informatique, afin de s’assurer que sa technologie peut comprendre efficacement et répondre à un large éventail de sujets, comme l’a rapporté le The New York Times.

Les modèles d’IA de DeepSeek : Remettre en question le statu quo

DeepSeek a dévoilé sa suite initiale de modèles – DeepSeek Coder, DeepSeek LLM et DeepSeek Chat – en novembre 2023. Cependant, c’est la sortie de sa famille de modèles DeepSeek-V2 de nouvelle génération au printemps qui a véritablement capté l’attention de l’industrie de l’IA.

DeepSeek-V2, un système polyvalent capable d’analyser à la fois du texte et des images, a démontré des performances impressionnantes dans divers benchmarks d’IA. Notamment, il a réalisé cette performance à un coût nettement inférieur à celui des modèles concurrents disponibles à l’époque. Cela a incité les rivaux nationaux de DeepSeek, notamment ByteDance et Alibaba, à réduire les prix de certains de leurs modèles et à en offrir d’autres entièrement gratuitement.

DeepSeek V3 a affiché des performances supérieures à la fois aux modèles téléchargeables et open source comme Llama de Meta et aux modèles « fermés » accessibles uniquement via des API, tels que GPT-4o d’OpenAI.

Le modèle de « raisonnement » R1 de DeepSeek est tout aussi remarquable. Lancé en janvier, DeepSeek affirme que R1 atteint des performances comparables au modèle o1 d’OpenAI sur les principaux benchmarks.

En tant que modèle de raisonnement, R1 intègre des mécanismes d’auto-vérification, atténuant ainsi certains des pièges courants associés aux modèles standard. Bien que les modèles de raisonnement puissent nécessiter des temps de traitement légèrement plus longs pour arriver à des solutions (allant de quelques secondes à quelques minutes), ils ont tendance à faire preuve d’une plus grande fiabilité dans des domaines tels que la physique, la science et les mathématiques.

Cependant, les modèles de DeepSeek, y compris R1 et DeepSeek V3, sont soumis à la surveillance du régulateur de l’internet chinois, qui veille à ce que leurs réponses soient conformes aux « valeurs socialistes fondamentales ». Par exemple, dans l’application de chatbot de DeepSeek, R1 ne répondra pas aux questions relatives à la place Tiananmen ou à l’autonomie de Taïwan.

En mars, le trafic du site web de DeepSeek a dépassé 16,5 millions de visites. Malgré une baisse de 25 % du trafic par rapport à février, DeepSeek s’est classé deuxième en termes de visites quotidiennes, selon David Carr, rédacteur en chef chez Similarweb. Cependant, ce chiffre reste pâle par rapport à ChatGPT, qui a dépassé les 500 millions d’utilisateurs actifs hebdomadaires en mars.

Une approche disruptive du paysage de l’IA

Le modèle économique de DeepSeek reste quelque peu énigmatique. L’entreprise fixe le prix de ses produits et services bien en dessous de la valeur marchande, et en offre même certains gratuitement. En outre, elle a résisté au financement externe malgré l’intérêt considérable des sociétés de capital-risque.

DeepSeek attribue sa compétitivité extrême en matière de coûts aux percées en matière d’efficacité. Cependant, certains experts ont remis en question l’exactitude des chiffres fournis par l’entreprise.

Quoi qu’il en soit, les développeurs ont adopté les modèles de DeepSeek, qui, bien que n’étant pas open source au sens traditionnel du terme, sont disponibles sous des licences permissives qui autorisent une utilisation commerciale. Selon Clem Delangue, PDG de Hugging Face, les développeurs de la plateforme ont créé plus de 500 modèles dérivés de R1, accumulant un total combiné de 2,5 millions de téléchargements.

Le succès de DeepSeek face à des concurrents plus importants et plus établis a été décrit à la fois comme « bouleversant l’IA » et « sur-médiatisé ». Les réalisations de l’entreprise ont été en partie responsables d’une chute de 18 % du cours de l’action Nvidia en janvier, et ont suscité une réponse publique du PDG d’OpenAI, Sam Altman. En mars, les bureaux du département du commerce américain auraient interdit DeepSeek sur les appareils gouvernementaux, selon Reuters.

Microsoft a intégré DeepSeek dans son service Azure AI Foundry, une plateforme qui consolide les services d’IA pour les entreprises. Lors de la conférence téléphonique sur les résultats du premier trimestre de Meta, le PDG Mark Zuckerberg a déclaré que les investissements dans l’infrastructure d’IA resteraient un « avantage stratégique » pour l’entreprise, interrogé sur l’impact potentiel de DeepSeek sur les dépenses d’IA de Meta. En mars, OpenAI a qualifié DeepSeek de « subventionné par l’État » et de « contrôlé par l’État », recommandant au gouvernement américain d’envisager d’interdire ses modèles.

Lors de la conférence téléphonique sur les résultats du quatrième trimestre de Nvidia, le PDG Jensen Huang a souligné l’« excellente innovation » de DeepSeek, notant que ses modèles de raisonnement nécessitent beaucoup plus de puissance de calcul, ce qui profite à Nvidia.

Inversement, certaines entreprises, certains pays et certains gouvernements, dont la Corée du Sud et l’État de New York, ont interdit l’utilisation de DeepSeek sur les appareils gouvernementaux.

En mai, le vice-président et président de Microsoft, Brad Smith, a témoigné devant le Sénat que les employés de Microsoft sont interdits d’utiliser DeepSeek en raison des préoccupations concernant la sécurité des données et la propagande potentielle.

L’avenir incertain de DeepSeek

La trajectoire future de DeepSeek reste incertaine. Bien que d’autres améliorations du modèle soient prévues, le gouvernement américain semble de plus en plus méfiant à l’égard de l’influence étrangère néfaste perçue. En mars, le The Wall Street Journal a rapporté que les États-Unis allaient probablement interdire DeepSeek sur les appareils gouvernementaux.

L’ascension rapide de DeepSeek a indéniablement ébranlé les fondements de l’industrie de l’IA, incitant à une réévaluation de la dynamique concurrentielle et du potentiel d’innovation disruptive. Il reste à voir s’il peut maintenir son élan actuel face à une surveillance accrue et à des défis réglementaires. Les années à venir seront cruciales pour déterminer l’impact à long terme de DeepSeek sur le paysage mondial de l’IA. Sa capacité à naviguer dans l’interaction complexe des progrès technologiques, des considérations géopolitiques et des préoccupations éthiques définira en fin de compte son héritage. Le monde de l’IA observera attentivement.

L’histoire de DeepSeek nous rappelle que, dans le monde en évolution rapide de l’intelligence artificielle, de nouveaux acteurs peuvent émerger rapidement et remettre en question l’ordre établi. Le succès de l’entreprise, stimulé par une technologie innovante et une volonté de perturber les modèles économiques traditionnels, a forcé l’industrie à prendre note. Alors que DeepSeek continue de se développer et d’étendre sa portée, il jouera sans aucun doute un rôle important dans la définition de l’avenir de l’IA.