Le Défi de la Spécialisation : Adapter l’IA aux Frontières Techniques
Les Grands Modèles de Langage (LLMs) ont indéniablement révolutionné notre interaction avec l’information et l’automatisation des tâches impliquant le langage naturel. Des géants comme Llama et Mistral, même dans leurs formes open-source, démontrent une fluidité remarquable dans la compréhension et la génération de texte qui rivalise souvent avec la production humaine. Leurs prouesses couvrent un vaste paysage, de la conversation quotidienne à la synthèse complexe. Cependant, s’aventurer dans les territoires spécialisés et riches en jargon de la science et de l’ingénierie — des domaines comme la science des matériaux ou la biomatériomique — présente un obstacle unique.
Ces domaines techniques exigent plus qu’une connaissance générale ; ils nécessitent une compréhension profonde et nuancée, la capacité de raisonner sur des principes spécifiques, et une familiarité avec la terminologie spécialisée et les structures de données. Les LLMs standards, entraînés sur de vastes corpus web, échouent souvent face à ces exigences. Le défi réside donc dans l’adaptation au domaine : comment pouvons-nous efficacement adapter ces puissants modèles généralistes pour qu’ils deviennent des assistants experts dans des domaines très spécifiques ?
Fournir simplement plus de données spécialisées n’est pas toujours la réponse, ni toujours réalisable. Entraîner ces mastodontes à partir de zéro est prohibitivement coûteux, et les ensembles de données massifs originaux utilisés pour leur pré-entraînement initial sont généralement inaccessibles. C’est particulièrement vrai pour les modèles open-source populaires où, malgré une certaine transparence, la recette complète — les mélanges exacts de données et les séquences utilisées pendant le pré-entraînement, le fine-tuning et l’alignement — reste largement propriétaire. Les chercheurs et les ingénieurs ont besoin de stratégies robustes et efficaces pour imprégner les modèles existants de nouvelles connaissances spécialisées tout en préservant de manière cruciale les vastes capacités générales acquises lors de leur entraînement initial. Cet équilibre délicat est primordial pour créer des outils d’IA vraiment utiles pour la découverte scientifique et l’innovation en ingénierie, comme le développement de moteurs capables de raisonnement multimodal pour explorer l’inspiration de conception de matériaux biologiques à travers diverses échelles et contextes.
Cartographier le Paysage de l’Entraînement : Du Pré-entraînement à l’Optimisation des Préférences
Naviguer sur le chemin de l’expertise LLM spécifique à un domaine implique d’explorer une boîte à outils diversifiée de stratégies de fine-tuning. Chaque approche offre une manière différente de façonner les connaissances et le comportement du modèle.
Pré-entraînement Continu (CPT - Continued Pre-Training): Cette stratégie consiste à prolonger la phase initiale de pré-entraînement, mais cette fois en utilisant un corpus axé carrément sur le domaine cible — comme une collection d’articles de recherche en science des matériaux. L’objectif est d’immerger le modèle dans le langage, les concepts et les structures de connaissances spécifiques du domaine, lui permettant d’absorber des informations spécifiques au domaine plus profondément qu’il n’est possible avec le seul fine-tuning spécifique à la tâche. Il pose une fondation de connaissances pertinentes.
Fine-Tuning Supervisé (SFT - Supervised Fine-Tuning): Après le CPT ou en partant d’un modèle de base, le SFT enseigne directement au modèle comment effectuer des tâches spécifiques. Ceci est réalisé en utilisant des ensembles de données organisés de paires entrée-sortie, souvent formatées comme des instructions et des réponses souhaitées, ou des questions et des réponses précises pertinentes pour le domaine. Le SFT affine la capacité du modèle à suivre les instructions, à répondre aux questions avec précision dans le contexte spécialisé et à adhérer aux formats de sortie souhaités.
Adaptation de Bas Rang (LoRA - Low-Rank Adaptation): Bien que n’étant pas l’objectif principal ici, LoRA représente une alternative ou un complément efficace. Au lieu de réentraîner l’ensemble du modèle, LoRA introduit de petites couches “adaptatrices” entraînables. Cela permet une adaptation significative avec un coût de calcul beaucoup plus faible, bien qu’il puisse avoir des limites quant à la quantité de connaissances fondamentalement nouvelles pouvant être intégrées par rapport au CPT.
Optimisation Basée sur les Préférences: Allant au-delà de la simple réalisation de tâches, l’optimisation des préférences vise à aligner plus étroitement les sorties du modèle avec les jugements humains ou des critères spécifiques comme l’utilité, l’innocuité et la précision du raisonnement. Au lieu de s’appuyer uniquement sur des réponses “correctes” prédéfinies (comme dans le SFT), ces méthodes apprennent à partir de comparaisons.
- Optimisation Directe des Préférences (DPO - Direct Preference Optimization): Le DPO apprend directement à partir de paires de réponses où l’une est préférée à l’autre (par exemple, par un évaluateur humain ou une autre IA). Il optimise le modèle pour augmenter la probabilité de générer des réponses préférées sans nécessiter de modèle de récompense séparé, simplifiant le pipeline traditionnel d’Apprentissage par Renforcement à partir du Feedback Humain (RLHF).
- Optimisation des Préférences par Rapport de Cotes (ORPO - Odds Ratio Preference Optimization): Une entrée plus récente, ORPO modifie l’objectif d’optimisation, produisant parfois des performances ou une stabilité améliorées par rapport au DPO, en particulier pour aligner les modèles vers des critères stylistiques ou de raisonnement spécifiques au sein d’un domaine.
Ces techniques ne sont pas mutuellement exclusives ; elles sont souvent employées séquentiellement ou en combinaison, formant des pipelines d’entraînement complexes. Une séquence courante pourrait impliquer le CPT pour construire la connaissance du domaine, suivi du SFT pour la compétence de la tâche, et enfin DPO ou ORPO pour l’alignement et le raffinement. Cependant, la combinaison et la séquence optimales restent des domaines de recherche actifs, en particulier pour atteindre des performances de pointe dans des domaines scientifiques spécialisés.
Au-delà du Simple Réglage : La Promesse de la Fusion de Modèles
Alors que le raffinement d’un seul modèle à travers des étapes d’entraînement séquentielles peut apporter des améliorations significatives, une autre voie intrigante a émergé : la fusion de modèles. Cette pratique consiste à prendre deux modèles ou plus entraînés séparément et à combiner leurs paramètres — leurs “poids” internes — pour créer un seul nouveau modèle hybride.
Pourquoi tenter une telle fusion ? L’idée centrale est de combiner synergiquement les forces des modèles parents. Imaginez un modèle expertement entraîné sur la littérature de la science des matériaux (via CPT et SFT) et un autre modèle “instruct” à usage général très apte à suivre des instructions complexes et à engager un dialogue cohérent. Les fusionner pourrait potentiellement créer un modèle qui possède à la fois une connaissance approfondie du domaine et d’excellentes capacités conversationnelles et de suivi d’instructions.
Les premières explorations ont laissé entendre que ce processus pourrait être plus qu’une simple moyenne. Au lieu de simplement mélanger les capacités, la fusion pourrait potentiellement débloquer des fonctionnalités entièrement nouvelles et émergentes — des capacités non explicitement présentes dans l’un ou l’autre des modèles parents. Cela suggère une interaction hautement non linéaire entre les paramètres pendant la fusion, conduisant potentiellement à un tout plus grand que la somme de ses parties. Si elle s’avère efficace et contrôlable, la fusion de modèles pourrait représenter un outil puissant et transformateur pour repousser les limites des capacités des LLMs, créant des systèmes d’IA hautement adaptables et puissants adaptés aux défis scientifiques et d’ingénierie complexes du monde réel.
Révéler la Puissance de SLERP : Une Approche Géométrique de la Fusion
L’efficacité de la fusion de modèles dépend de manière critique de la manière dont les paramètres des modèles parents sont combinés. Une simple moyenne linéaire (souvent appelée Interpolation Linéaire ou LERP) peut sembler intuitive, mais elle conduit souvent à des résultats sous-optimaux ou même dégrade les performances. C’est probablement parce que l’espace des paramètres de haute dimension des LLMs n’est pas plat ; il possède une géométrie complexe et courbe. L’interpolation linéaire risque de traverser des “zones mortes” ou des régions à perte élevée dans cet espace, brouillant efficacement les représentations soigneusement apprises des modèles parents.
Entrez Interpolation Linéaire Sphérique (SLERP - Spherical Linear Interpolation). Développé à l’origine pour l’animation fluide des rotations en infographie, SLERP offre une manière géométriquement sophistiquée d’interpoler entre deux points (dans ce cas, les vecteurs de paramètres de deux modèles) en suivant le chemin le plus court le long de la surface d’une hypersphère.
Imaginez les ensembles de paramètres des deux modèles parents comme deux points à la surface d’une sphère géante.
- LERP tracerait une ligne droite à travers la sphère reliant les points. Ce chemin pourrait ne pas rester à la surface et pourrait passer par des régions représentant des modèles peu performants.
- SLERP, à l’inverse, se déplace le long de la surface courbe de la sphère elle-même. Ce chemin respecte intrinsèquement la structure géométrique sous-jacente de l’espace des paramètres.
Pourquoi ce chemin sphérique est-il potentiellement supérieur pour la fusion des LLMs ?
- Préservation de la Structure: En restant “sur la sphère”, SLERP maintient les relations géométriques entre les paramètres, préservant les structures apprises au sein de chaque modèle parent plus efficacement qu’un chemin linéaire.
- Évitement des Régions à Perte Élevée: Le chemin courbe est moins susceptible de croiser des régions de l’espace des paramètres associées à des erreurs de prédiction élevées (perte).
- Combinaison Non Linéaire: La formule d’interpolation pour SLERP est intrinsèquement non linéaire. Cela permet des interactions complexes et synergiques entre les paramètres des modèles parents, débloquant potentiellement des combinaisons qui représentent de nouvelles capacités. Un paramètre fusionné pourrait activer des caractéristiques d’une manière qu’aucun parent ne pourrait faire seul.
- Transitions Douces: SLERP fournit une transition mathématiquement douce entre les états des modèles parents, conduisant potentiellement à une meilleure généralisation dans le modèle fusionné.
Parce que SLERP respecte la géométrie intrinsèque du modèle et facilite les interactions non linéaires des paramètres, il a le potentiel non seulement de moyenner les capacités mais de les mélanger véritablement d’une manière qui favorise les propriétés émergentes. Cela en fait un candidat particulièrement prometteur pour la fusion de modèles visant des domaines complexes comme la science des matériaux, où les interactions subtiles et la compréhension nuancée sont essentielles.
Mettre les Théories à l’Épreuve : Expériences avec Llama et Mistral
Pour étudier rigoureusement ces stratégies de fine-tuning et de fusion, une série systématique d’expériences a été menée en utilisant des familles de modèles open-source populaires : Llama 3.1 (8 milliards de paramètres) et Mistral (7 milliards de paramètres). L’objectif était de comparer différents pipelines d’entraînement et d’évaluer l’impact de la fusion SLERP.
La conception expérimentale comprenait plusieurs étapes clés :
- Modèles de Base: Les expériences ont commencé avec à la fois les modèles “base” fondamentaux (pré-entraînés mais non ajustés aux instructions) et les versions “instruct” (déjà affinées pour le chat et le suivi d’instructions) pour les familles Llama et Mistral.
- Corpus du Domaine: Un corpus spécialisé axé sur la science des matériaux a été compilé à partir de publications scientifiques et de données traitées.
- Pipelines d’Entraînement: Diverses combinaisons de techniques d’entraînement ont été appliquées :
- CPT seul
- CPT suivi de SFT (CPT-SFT)
- CPT-SFT suivi de ORPO (CPT-SFT-ORPO)
- CPT-SFT suivi de DPO (CPT-SFT-DPO)
- Quelques variations partant directement du modèle Instruct (par exemple, Instruct-CPT-SFT-DPO).
- Fusion de Modèles: Pour de nombreux modèles affinés, la fusion SLERP a été effectuée, combinant généralement le modèle adapté au domaine avec le modèle “instruct” à usage général correspondant de la même famille (par exemple, un modèle Llama CPT-SFT-DPO fusionné avec le modèle standard Llama 3.1 Instruct).
- Évaluation: La performance de tous les modèles résultants (fusionnés et non fusionnés) a été évaluée sur une suite de benchmarks pertinents conçus pour tester la connaissance du domaine, le raisonnement et le suivi d’instructions.
Principales Conclusions pour Llama et Mistral :
- La Fusion SLERP Améliore Systématiquement les Performances: Dans les deux familles de modèles et divers pipelines d’entraînement, les modèles améliorés via la fusion SLERP ont généralement atteint la plus haute précision sur les benchmarks d’évaluation. Cela soutient fortement l’hypothèse que SLERP est une technique efficace pour combiner les forces des modèles.
- Effets Synergiques Confirmés: La performance des modèles fusionnés par SLERP dépassait fréquemment une simple moyenne des performances des deux modèles parents. Le tracé du score réellement atteint par rapport à cette moyenne attendue a révélé un écart positif significatif, confirmant que le processus de fusion débloque souvent des gains synergiques et des capacités émergentes. L’entité fusionnée était manifestement plus capable que la simple somme de ses parties.
- L’Optimisation des Préférences Ajoute de la Valeur: L’incorporation d’étapes d’optimisation des préférences (DPO ou ORPO) a souvent fourni une amélioration supplémentaire des performances, en particulier lorsqu’elle est combinée avec la fusion SLERP. Des stratégies comme CPT-SFT-DPO-SLERP ou CPT-SFT-ORPO-SLERP figuraient fréquemment parmi les plus performantes.
- La Stratégie Optimale Non Fusionnée Varie: Sans fusion, la stratégie la plus performante différait légèrement entre les familles de modèles. Pour Llama 3.1, Instruct-CPT-SFT-DPO a montré de solides résultats, tandis que pour Mistral, Base-CPT-SFT a obtenu des performances comparables à celles de son homologue Instruct.
- Impact de la Durée du CPT: Une analyse plus approfondie sur les modèles Mistral a montré que les performances s’amélioraient généralement avec plus d’époques de Pré-entraînement Continu (jusqu’aux cinq testées), en particulier en partant du modèle Instruct, renforçant la valeur d’une exposition suffisante au domaine pendant le CPT.
Ces résultats dressent un tableau clair : bien que le fine-tuning séquentiel soit précieux, la fusion stratégique de modèles utilisant SLERP offre une voie puissante pour améliorer considérablement les performances des LLMs, en particulier pour les domaines spécialisés, produisant souvent des capacités allant au-delà de la simple agrégation.
Plongée en Profondeur : Qu’est-ce qui Fait Fonctionner la Fusion ?
Le succès constant de la fusion SLERP incite à examiner de plus près les mécanismes sous-jacents et les facteurs d’influence. Pourquoi cette approche géométrique donne-t-elle des résultats si puissants, et quelles conditions optimisent son efficacité ?
Interactions Non Linéaires: Comme théorisé, le chemin non linéaire de SLERP à travers l’espace des paramètres semble crucial. Il permet au modèle fusionné d’explorer des combinaisons de paramètres que la moyenne linéaire manquerait. Ces combinaisons peuvent représenter des interactions nouvelles entre les caractéristiques apprises, conduisant à des capacités de raisonnement ou de résolution de problèmes émergentes adaptées au domaine. Imaginez combiner des paramètres qui, individuellement, représentent la compréhension de la ‘résistance des matériaux’ et des ‘structures biologiques’ – SLERP pourrait trouver une combinaison qui représente efficacement les ‘matériaux bio-inspirés à haute résistance’ d’une manière qu’aucun modèle parent n’a explicitement fait.
Le Rôle de la Diversité: À quel point les modèles parents doivent-ils être différents ? L’analyse a suggéré des relations complexes. Bien qu’une diversité extrême puisse sembler bénéfique, certaines corrélations ont indiqué que dans certains contextes (comme les modèles Llama), une plus grande diversité de performances entre les parents pourrait légèrement réduire la dépendance au SFT ultérieur, peut-être parce que la fusion capture déjà un ensemble de capacités plus large. L’interaction est subtile et dépend probablement des méthodes spécifiques de fine-tuning utilisées pour les parents.
Point de Départ Base vs. Instruct: Le choix du modèle de départ est important. Pour les expériences Llama, le modèle fusionné le plus performant provenait de la version Instruct. Inversement, pour Mistral, un des meilleurs performeurs était dérivé du modèle Base avant de subir CPT, SFT et fusion. Cela suggère que des différences architecturales ou des variations dans les compositions initiales de pré-entraînement des familles Llama et Mistral influencent la façon dont elles répondent à des pipelines spécifiques de fine-tuning et de fusion. Il n’y a pas de “meilleur” point de départ universel unique ; cela nécessite des tests empiriques.
Qualité des Données dans le CPT: La fondation posée pendant le Pré-entraînement Continu est critique. Des expériences utilisant un ensemble de données CPT plus grand mais plus “bruité” (contenant plus d’erreurs de formatage ou d’artefacts de reconnaissance optique de caractères) ont entraîné une diminution des performances par rapport à l’utilisation d’un ensemble de données plus petit et plus propre. Cela souligne l’importance de données spécifiques au domaine de haute qualité et bien traitées pour que l’étape CPT soit efficace. Le principe “garbage in, garbage out” s’applique toujours.
Réglage Fin des Paramètres SLERP: SLERP lui-même a des paramètres, notamment le coefficient d’interpolation (souvent noté ‘t’, allant de 0 à 1) déterminant le poids accordé à chaque modèle parent. De plus, la fusion ne doit pas nécessairement être uniforme sur toutes les couches du modèle. Des expériences ont exploré la variation du facteur d’interpolation différemment pour les couches d’auto-attention par rapport aux couches de perceptron multicouche (MLP), ou même en le faisant varier progressivement à travers la profondeur du modèle. Les résultats ont montré que des schémas de pondération non uniformes spécifiques pouvaient surpasser l’approche uniforme standard, suggérant un potentiel d’optimisation supplémentaire en adaptant soigneusement le processus de fusion à travers l’architecture du réseau. Une simple progression linéaire des poids à travers les couches s’est avérée efficace dans un cas Llama.
Effet de Régularisation: SLERP pourrait également agir comme une forme de régularisation. En trouvant un chemin lisse entre deux modèles potentiellement spécialisés, il pourrait décourager le surajustement aux idiosyncrasies des données d’entraînement de l’un ou l’autre parent, conduisant à une meilleure généralisation sur des problèmes spécifiques au domaine non vus. Il pourrait également aider à atténuer “l’oubli catastrophique”, où le fine-tuning sur une tâche efface les connaissances d’une tâche précédente.
En substance, l’efficacité de SLERP découle de sa capacité à naviguer intelligemment dans la géométrie complexe de l’espace des paramètres LLM, favorisant des interactions non linéaires bénéfiques tout en préservant les structures de connaissances apprises. Cependant, l’optimisation de son utilisation nécessite une considération attentive du choix du modèle parent, de l’historique d’entraînement, de la qualité des données, et potentiellement même des détails fins de la fusion elle-même.
La Taille Compte-t-elle ? Exploration des Effets d’Échelle avec des Modèles Plus Petits
Les effets synergiques impressionnants observés avec les modèles de 7 et 8 milliards de paramètres soulèvent une question naturelle : ces capacités émergentes débloquées par la fusion SLERP se manifestent-elles également dans des modèles de langage beaucoup plus petits ? Ou y a-t-il un seuil d’échelle en dessous duquel la magie s’estompe ?
Pour étudier cela, des expériences similaires ont été menées en utilisant la série de modèles SmolLM, spécifiquement une variante avec seulement 1,7 milliard de paramètres. Ce modèle est significativement plus petit, le rendant adapté aux environnements à ressources limitées comme les appareils mobiles ou l’edge computing, mais manquant potentiellement de la richesse paramétrique de ses cousins plus grands.
Les modèles SmolLM ont suivi le même pipeline : CPT avec le corpus de science des matériaux, suivi de SFT et DPO (qui s’est avéré plus efficace que ORPO pour cette architecture plus petite). La fusion SLERP a ensuite été appliquée, combinant le SmolLM affiné avec sa version de base ou d’autres variantes.
Les Conclusions avec SmolLM :
- Le Fine-tuning Aide Toujours : Le pipeline CPT-SFT-DPO a amélioré les performances du modèle SmolLM sur les tâches du domaine par rapport à son état d’origine. Le processus de fine-tuning lui-même était bénéfique, améliorant ses connaissances spécialisées.
- Émergence Largement Absente : Cependant, contrairement aux expériences Llama et Mistral, les modèles SmolLM fusionnés par SLERP n’ont généralement pas montré d’effets synergiques significatifs. Leurs performances se situaient typiquement près d’une simple moyenne des modèles parents, ou seulement légèrement au-dessus. Les bonds de performance spectaculaires et les signes clairs de capacités émergentes observés dans les modèles 7B/8B manquaient.
Implications :
Ce contraste suggère que l’échelle du modèle est probablement un facteur clé pour réaliser le plein potentiel de la fusion SLERP pour générer des propriétés émergentes. Les modèles plus petits, avec leurs espaces de paramètres moins complexes et de dimension inférieure, pourraient manquer de la capacité de représentation ou de la richesse requise pour que ces interactions non linéaires puissantes se produisent pendant la fusion. L’”espace” pour découvrir de nouvelles combinaisons de paramètres bénéfiques semble considérablement limité par rapport aux modèles plus grands.
Ces résultats s’alignent sur des observations plus larges concernant les lois d’échelle en apprentissage profond, où certaines capacités qualitatives n’émergent souvent qu’une fois que les modèles atteignent un certain seuil de taille. Il semble que la puissance synergique de la fusion SLERP puisse être l’une de ces capacités qui dépend de manière critique d’une échelle et d’une complexité de modèle suffisantes.
Quantification des Gains : Un Regard Plus Attentif sur l’Amélioration des Performances due à la Fusion
Bien que les benchmarks montrent que les modèles fusionnés obtiennent souvent les meilleures performances globales, il est utile de quantifier précisément à quel point ils sont meilleurs par rapport à leurs parents. Plus précisément, le modèle fusionné surpasse-t-il systématiquement même le plus fort des deux modèles utilisés pour le créer ?
Pour analyser cela, l’écart de performance a été calculé pour chaque modèle fusionné par SLERP. Cet écart a été défini comme :
Écart de Performance = Performance(Modèle Fusionné) - Max(Performance(Parent 1), Performance(Parent 2))
- Un écart positif (visualisé dans des tons de bleu) signifie que le modèle SLERP a obtenu de meilleurs résultats que le meilleur de ses parents – une preuve claire de synergie.
- Un écart négatif (visualisé en rouge) signifie que le modèle SLERP a obtenu de moins bons résultats qu’au moins un de ses parents, indiquant que la fusion était préjudiciable ou, au mieux, une simple moyenne.
L’Analyse a Révélé :
Dans la majorité des expériences impliquant les modèles Llama 3.1 (8B) et Mistral (7B), les écarts de performance étaient principalement positifs. Dans de nombreux cas, en particulier pour les pipelines bien optimisés (par exemple, ceux impliquant CPT, SFT, optimisation des préférences et SLERP), les modèles fusionnés ont montré des écarts positifs substantiels, indiquant qu’ils dépassaient significativement les capacités de leur parent le plus fort.
Il y a eu des cas, en particulier avec des modèles parents moins optimisés ou peut-être des paramètres de fusion sous-optimaux, où l’écart était légèrement négatif ou proche de zéro. Cependant, la tendance générale était claire : la fusion SLERP stratégique fournit fréquemment une véritable amélioration des performances au-delà de ce que l’un ou l’autre modèle parent pourrait atteindre seul. Cela renforce l’idée que la fusion n’est pas seulement une moyenne, mais un processus capable de synthétiser des capacités supérieures. Les résultats de SmolLM (1.7B), en revanche, montreraient des écarts beaucoup plus faibles ou négatifs, cohérents avec l’absence d’effets émergents forts à cette échelle.
Des Benchmarks au Brainstorming : Applications Interactives dans la Conception de Matériaux
Au-delà des benchmarks quantitatifs, la vraie valeur de ces modèles adaptés au domaine réside dans leur capacité à aider dans des tâches du monde réel, telles que le raisonnement scientifique et la conception créative. Pour évaluer cet aspect qualitatif, des sessions de chat interactives ont été menées avec plusieurs des modèles les plus performants (y compris des variantes fusionnées et non fusionnées).
La configuration impliquait de fournir une invite système cohérente demandant au modèle d’agir en tant qu’expert en science des matériaux, suivie d’une invite utilisateur conçue pour tester le raisonnement créatif inter-domaines. Une tâche typique consistait à demander au modèle de :
- Considérer deux concepts biologiques apparemment disparates (par exemple, la structure du collagène et les motifs de nervation des feuilles).
- Brainstormer de nouvelles conceptions de matériaux inspirées par la combinaison de principes issus des deux concepts.
- Expliquer le raisonnement derrière les conceptions proposées.
- Produire les suggestions dans un format structuré (comme JSON) pour un traitement ultérieur potentiel.
Observations Qualitatives :
- Forte Compréhension du Domaine: Tous les modèles affinés ont démontré une solide compréhension des concepts biologiques et de science des matériaux sous-jacents, utilisant une terminologie appropriée et référençant des principes pertinents. Les étapes CPT et SFT ont clairement transmis une connaissance significative du domaine.
- Synthèse Créative: Les modèles étaient généralement capables de combler le fossé conceptuel entre les entrées disparates (comme le collagène et les feuilles) pour proposer des architectures ou des fonctionnalités matérielles innovantes. Cela a mis en évidence leur capacité à effectuer un raisonnement analogique dans le domaine spécialisé.
- Sortie Structurée: Les modèles ont réussi à adhérer aux instructions demandant une sortie structurée (JSON), indiquant de bonnes capacités de suivi d’instructions, en particulier pour ceux affinés avec SFT et optimisation des préférences ou provenant de bases Instruct.
- Profondeur et Clarté Variables: Bien que tous aient effectué la tâche principale, des différences sont apparues dans la profondeur du raisonnement fourni, la nouveauté et la praticité des conceptions proposées, et la clarté et la cohérence globales de l’explication. Les modèles ayant subi des pipelines d’entraînement plus complets, en particulier ceux incluant l’optimisation des préférences et la fusion SLERP, ont souvent fourni des réponses plus riches, plus perspicaces et plus créatives.
- Influence de la Fusion: Les modèles fusionnés présentaient souvent un bon équilibre entre la précision spécifique au domaine et la fluidité/créativité conversationnelle, intégrant apparemment les connaissances du parent adapté au domaine avec les compétences d’interaction du parent instruct à usage général.
Ces sessions interactives ont fourni des preuves qualitatives précieuses que les stratégies de fine-tuning et de fusion se traduisent par des améliorations tangibles dans des tâches pratiques et ouvertes nécessitant un raisonnement et une créativité spécifiques au domaine. Elles ont démontré le potentiel de ces LLMs personnalisés à agir comme de précieux collaborateurs dans l’exploration scientifique et l’idéation de conception dans des domaines comme la science des matériaux.