GPT-4.5 : Échec ou Fondations ?

L’Échelle et la Portée de GPT-4.5

GPT-4.5 représente l’entreprise la plus ambitieuse d’OpenAI à ce jour en termes de taille pure. Bien que les détails précis concernant son architecture et ses données d’entraînement restent rares, il est connu que le processus d’entraînement était si intensif en calcul qu’il a nécessité une distribution sur plusieurs centres de données. Cela seul laisse entrevoir les ressources monumentales consacrées à son développement.

La structure tarifaire du modèle souligne davantage son positionnement en tant qu’offre premium. Les coûts sont considérablement plus élevés que ceux de ses prédécesseurs, dépassant GPT-4o d’un facteur de 15 à 30X, o1 de 3 à 5X et Claude 3.7 Sonnet de 10 à 25X. L’accès est actuellement limité aux abonnés ChatGPT Pro (à un prix élevé de 200 $ par mois) et aux clients API prêts à payer par jeton.

Cependant, les gains de performance, du moins dans certains domaines, n’ont pas tout à fait correspondu au prix. Les benchmarks initiaux n’ont révélé que des améliorations modestes par rapport à GPT-4o et ont même montré que GPT-4.5 était à la traîne par rapport à des modèles comme o1 et o3-mini dans les tâches de raisonnement.

Comprendre l’Objectif Prévu de GPT-4.5

Il est crucial de reconnaître qu’OpenAI n’a jamais explicitement commercialisé GPT-4.5 comme son modèle phare et polyvalent. En fait, les premières versions de leur article de blog précisaient qu’il n’était pas destiné à être un « modèle de frontière » repoussant les limites absolues des capacités. De plus, il n’est pas principalement conçu comme un modèle de raisonnement, ce qui rend les comparaisons directes avec des modèles optimisés à cette fin (comme o3 et DeepSeek-R1) quelque peu trompeuses.

OpenAI a indiqué que GPT-4.5 sera son dernier modèle non-chaîne-de-pensée (non-chain-of-thought). Cela signifie que sa formation s’est fortement concentrée sur l’intégration de vastes quantités de connaissances du monde et sur l’alignement avec les préférences des utilisateurs, plutôt que sur le développement de capacités de raisonnement complexes.

Où GPT-4.5 Pourrait Briller : Connaissance et Nuance

L’avantage principal des modèles plus grands réside souvent dans leur capacité accrue d’acquisition de connaissances. GPT-4.5, conformément à ce principe, démontre une tendance réduite à halluciner par rapport à ses homologues plus petits. Cela le rend potentiellement précieux dans les scénarios où le strict respect des faits et des informations contextuelles est primordial.

De plus, GPT-4.5 présente une capacité améliorée à suivre les instructions et les préférences de l’utilisateur. Cela a été démontré dans diverses démonstrations par OpenAI et corroboré par les expériences des utilisateurs partagées en ligne. Le modèle semble saisir les nuances de l’intention de l’utilisateur plus efficacement, conduisant à des résultats plus adaptés et pertinents.

Le Débat sur la Qualité de la Prose : Subjectivité et Potentiel

Une discussion animée a émergé concernant la capacité de GPT-4.5 à générer une prose supérieure. Certains dirigeants d’OpenAI ont salué la qualité de la production du modèle, le PDG Sam Altman suggérant même que l’interaction avec celui-ci offrait un aperçu de l’« AGI » (Artificial General Intelligence) pour certains testeurs avertis.

Cependant, la réaction générale a été résolument mitigée. Le co-fondateur d’OpenAI, Andrej Karpathy, a anticipé des améliorations dans les tâches moins dépendantes du raisonnement pur, en mettant l’accent sur des domaines tels que l’« EQ » (intelligence émotionnelle), la créativité, l’analogie et l’humour – des aspects souvent limités par la connaissance du monde et la compréhension générale.

Il est intéressant de noter qu’une enquête ultérieure menée par Karpathy a révélé une préférence générale des utilisateurs pour les réponses de GPT-4o par rapport à celles de GPT-4.5 en termes de qualité d’écriture. Cela souligne la subjectivité inhérente à l’évaluation de la prose et suggère qu’une ingénierie de prompt habile pourrait susciter une qualité comparable à partir de modèles plus petits et plus efficaces.

Karpathy lui-même a reconnu l’ambiguïté des résultats, suggérant diverses explications possibles : les testeurs « de bon goût » pourraient percevoir des améliorations structurelles subtiles manquées par d’autres, les exemples testés pourraient ne pas avoir été idéaux, ou les différences pourraient simplement être trop subtiles pour être discernées dans un petit échantillon.

Les Limites de la Mise à l’Échelle et l’Avenir des LLM

La sortie de GPT-4.5, à certains égards, souligne les limitations potentielles de la simple mise à l’échelle de modèles entraînés sur des ensembles de données massifs. Ilya Sutskever, un autre co-fondateur d’OpenAI et ancien scientifique en chef, a déclaré à NeurIPS 2024 que « le pré-entraînement tel que nous le connaissons prendra incontestablement fin… Nous avons atteint le pic de données et il n’y en aura plus. Nous devons faire avec les données que nous avons. Il n’y a qu’un seul Internet ».

Les rendements décroissants observés avec GPT-4.5 témoignent des défis de la mise à l’échelle de modèles à usage général entraînés principalement sur des données Internet et affinés pour l’alignement grâce à l’apprentissage par renforcement à partir de la rétroaction humaine (RLHF).

La prochaine frontière pour les grands modèles de langage semble être la mise à l’échelle au moment du test (ou mise à l’échelle au moment de l’inférence). Cela implique d’entraîner les modèles à « réfléchir » pendant une durée plus longue en générant des jetons de chaîne de pensée (CoT). La mise à l’échelle au moment du test améliore la capacité d’un modèle à résoudre des problèmes de raisonnement complexes et a été un facteur clé dans le succès de modèles comme o1 et R1.

Pas un Échec, mais une Fondation

Bien que GPT-4.5 ne soit peut-être pas le choix optimal pour toutes les tâches, il est crucial de reconnaître son rôle potentiel en tant qu’élément fondamental pour les avancées futures. Une base de connaissances solide est essentielle pour le développement de modèles de raisonnement plus sophistiqués.

Même si GPT-4.5 lui-même ne devient pas le modèle de référence pour la plupart des applications, il peut servir de base essentielle pour les modèles de raisonnement ultérieurs. Il est même plausible qu’il soit déjà utilisé dans des modèles comme o3.

Comme l’a expliqué Mark Chen, directeur de la recherche chez OpenAI, « Vous avez besoin de connaissances pour construire le raisonnement par-dessus. Un modèle ne peut pas entrer à l’aveugle et simplement apprendre le raisonnement à partir de zéro. Nous trouvons donc ces deux paradigmes assez complémentaires, et nous pensons qu’ils ont des boucles de rétroaction l’un sur l’autre ».

Le développement de GPT-4.5 ne représente donc pas une impasse, mais une étape stratégique dans l’évolution continue des grands modèles de langage. C’est un témoignage de la nature itérative de la recherche en IA, où chaque étape, même si elle semble décevante isolément, contribue au progrès plus large vers des systèmes d’IA plus capables et polyvalents. L’accent est désormais mis sur l’exploitation de cette solide base de connaissances pour construire des modèles qui peuvent non seulement rappeler des informations, mais aussi raisonner et résoudre des problèmes avec une efficacité sans précédent. Le voyage vers une IA véritablement intelligente se poursuit, et GPT-4.5, malgré son accueil mitigé, joue un rôle important dans ce voyage.
L’accent n’est plus seulement mis sur la quantité de connaissances qu’un modèle possède, mais sur la façon dont il peut utiliser ces connaissances. C’est le défi fondamental auquel la communauté de l’IA est confrontée, et GPT-4.5, bien qu’il ne soit pas une solution parfaite, fournit des informations précieuses et une base solide pour les futures percées. La voie à suivre implique une combinaison d’approches : affiner les techniques existantes, explorer de nouvelles architectures et développer des méthodes plus sophistiquées pour la formation et l’évaluation. L’objectif ultime reste le même : créer des systèmes d’IA capables non seulement de comprendre et de générer le langage humain, mais aussi de raisonner, d’apprendre et de s’adapter d’une manière qui était autrefois considérée comme le domaine exclusif de l’intelligence humaine.