El Desafío de la Especialización: Adaptando la IA para Fronteras Técnicas
Los Large Language Models (LLMs) han revolucionado innegablemente la forma en que interactuamos con la información y automatizamos tareas que involucran lenguaje natural. Gigantes como Llama y Mistral, incluso en sus formas de código abierto, muestran una fluidez notable en la comprensión y generación de texto que a menudo rivaliza con la producción humana. Su destreza abarca un vasto panorama, desde la conversación cotidiana hasta la sumarización compleja. Sin embargo, aventurarse en los territorios especializados y ricos en jerga de la ciencia y la ingeniería —campos como la ciencia de materiales o la biomateriómica— presenta un obstáculo único.
Estos dominios técnicos exigen más que conocimiento general; requieren una comprensión profunda y matizada, la capacidad de razonar sobre principios específicos y familiaridad con terminología y estructuras de datos especializadas. Los LLMs estándar, entrenados en amplios corpus web, a menudo flaquean ante estas demandas. El desafío, por lo tanto, radica en la adaptación de dominio: ¿cómo podemos adaptar eficazmente estos potentes modelos generalistas para convertirlos en asistentes expertos en campos muy específicos?
Simplemente alimentar más datos especializados no siempre es la respuesta, ni siempre es factible. Entrenar a estos gigantes desde cero es prohibitivamente caro, y los conjuntos de datos masivos originales utilizados para su pre-entrenamiento inicial suelen ser inaccesibles. Esto es particularmente cierto para los modelos populares de código abierto donde, a pesar de cierta transparencia, la receta completa —las mezclas exactas de datos y las secuencias utilizadas durante el pre-entrenamiento, el fine-tuning y la alineación— sigue siendo en gran medida propietaria. Los investigadores e ingenieros necesitan estrategias robustas y eficientes para imbuir a los modelos existentes con conocimientos nuevos y especializados, preservando crucialmente las vastas capacidades generales adquiridas durante su entrenamiento inicial. Este delicado acto de equilibrio es primordial para crear herramientas de IA verdaderamente útiles para el descubrimiento científico y la innovación en ingeniería, como el desarrollo de motores capaces de razonamiento multimodal para explorar la inspiración del diseño de materiales biológicos a través de diversas escalas y contextos.
Trazando el Paisaje del Entrenamiento: Del Pre-Entrenamiento a la Optimización de Preferencias
Navegar el camino hacia la experiencia en LLMs específicos de dominio implica explorar un conjunto diverso de herramientas de estrategias de fine-tuning. Cada enfoque ofrece una forma diferente de moldear el conocimiento y el comportamiento del modelo.
Continued Pre-Training (CPT): Esta estrategia implica extender la fase inicial de pre-entrenamiento, pero esta vez utilizando un corpus centrado directamente en el dominio objetivo, como una colección de artículos de investigación en ciencia de materiales. El objetivo es sumergir al modelo en el lenguaje, los conceptos y las estructuras de conocimiento específicos del campo, permitiéndole absorber información específica del dominio más profundamente de lo que es posible solo con el fine-tuning específico de la tarea. Sienta una base de conocimiento relevante.
Supervised Fine-Tuning (SFT): Siguiendo al CPT o comenzando desde un modelo base, el SFT enseña directamente al modelo cómo realizar tareas específicas. Esto se logra utilizando conjuntos de datos curados de pares entrada-salida, a menudo formateados como instrucciones y respuestas deseadas, o preguntas y respuestas precisas relevantes para el dominio. El SFT perfecciona la capacidad del modelo para seguir instrucciones, responder preguntas con precisión dentro del contexto especializado y adherirse a los formatos de salida deseados.
Low-Rank Adaptation (LoRA): Aunque no es el enfoque principal aquí, LoRA representa una alternativa o suplemento eficiente. En lugar de reentrenar todo el modelo, LoRA introduce pequeñas capas ‘adaptadoras’ entrenables. Esto permite una adaptación significativa con un costo computacional mucho menor, aunque puede tener limitaciones en cuanto a la cantidad de conocimiento fundamentalmente nuevo que se puede integrar en comparación con el CPT.
Optimización Basada en Preferencias: Más allá de la simple finalización de tareas, la optimización de preferencias tiene como objetivo alinear las salidas del modelo más estrechamente con los juicios humanos o criterios específicos como la utilidad, la inocuidad y la precisión en el razonamiento. En lugar de depender únicamente de respuestas ‘correctas’ predefinidas (como en SFT), estos métodos aprenden de comparaciones.
- Direct Preference Optimization (DPO): DPO aprende directamente de pares de respuestas donde una es preferida sobre la otra (por ejemplo, por un evaluador humano u otra IA). Optimiza el modelo para aumentar la probabilidad de generar respuestas preferidas sin necesidad de un modelo de recompensa separado, simplificando el pipeline tradicional de Reinforcement Learning from Human Feedback (RLHF).
- Odds Ratio Preference Optimization (ORPO): Un participante más reciente, ORPO modifica el objetivo de optimización, a veces produciendo un rendimiento o estabilidad mejorados en comparación con DPO, particularmente al alinear modelos hacia criterios estilísticos o de razonamiento específicos dentro de un dominio.
Estas técnicas no son mutuamente excluyentes; a menudo se emplean secuencialmente o en combinación, formando pipelines de entrenamiento complejos. Una secuencia común podría implicar CPT para construir conocimiento del dominio, seguido de SFT para la competencia en tareas, y finalmente DPO u ORPO para la alineación y el refinamiento. Sin embargo, la combinación y secuencia óptimas siguen siendo áreas activas de investigación, particularmente para lograr el máximo rendimiento en dominios científicos especializados.
Más Allá del Simple Ajuste: La Promesa de la Fusión de Modelos
Si bien refinar un solo modelo a través de etapas de entrenamiento secuenciales puede producir mejoras significativas, ha surgido otra vía intrigante: la fusión de modelos. Esta práctica implica tomar dos o más modelos entrenados por separado y combinar sus parámetros —sus ‘pesos’ internos— para crear un único modelo híbrido nuevo.
¿Por qué intentar tal fusión? La idea central es combinar sinérgicamente las fortalezas de los modelos parentales. Imagina un modelo expertamente entrenado en literatura de ciencia de materiales (mediante CPT y SFT) y otro modelo ‘instruct’ de propósito general muy hábil para seguir instrucciones complejas y participar en diálogos coherentes. Fusionarlos podría potencialmente crear un modelo que posea tanto un profundo conocimiento del dominio como excelentes habilidades conversacionales y de seguimiento de instrucciones.
Las exploraciones tempranas insinuaron que este proceso podría ser más que una simple promediación. En lugar de simplemente mezclar capacidades, la fusión podría potencialmente desbloquear funcionalidades completamente nuevas y emergentes, habilidades no presentes explícitamente en ninguno de los modelos parentales. Esto sugiere una interacción altamente no lineal entre los parámetros durante la fusión, lo que podría llevar a un todo mayor que la suma de sus partes. Si se demuestra que es eficaz y controlable, la fusión de modelos podría representar una herramienta poderosa y transformadora para empujar los límites de las capacidades de los LLMs, creando sistemas de IA altamente adaptables y potentes diseñados para desafíos científicos y de ingeniería complejos del mundo real.
Revelando el Poder de SLERP: Un Enfoque Geométrico para la Fusión
La efectividad de la fusión de modelos depende críticamente de cómo se combinan los parámetros de los modelos parentales. Una simple promediación lineal (a menudo llamada Interpolación Lineal o LERP) podría parecer intuitiva, pero a menudo conduce a resultados subóptimos o incluso degrada el rendimiento. Esto probablemente se deba a que el espacio de parámetros de alta dimensión de los LLMs no es plano; posee una geometría compleja y curva. La interpolación lineal corre el riesgo de atravesar ‘zonas muertas’ o regiones de alta pérdida dentro de este espacio, desorganizando efectivamente las representaciones cuidadosamente aprendidas de los modelos parentales.
Aquí entra Spherical Linear Interpolation (SLERP). Originalmente desarrollado para la animación suave de rotaciones en gráficos por computadora, SLERP ofrece una forma geométricamente sofisticada de interpolar entre dos puntos (en este caso, los vectores de parámetros de dos modelos) siguiendo la ruta más corta a lo largo de la superficie de una hiperesfera.
Imagina los conjuntos de parámetros de los dos modelos parentales como dos puntos en la superficie de una esfera gigante.
- LERP dibujaría una línea recta a través de la esfera conectando los puntos. Esta ruta podría no permanecer en la superficie y podría pasar por regiones que representan modelos de bajo rendimiento.
- SLERP, por el contrario, viaja a lo largo de la superficie curva de la esfera misma. Esta ruta respeta inherentemente la estructura geométrica subyacente del espacio de parámetros.
¿Por qué esta ruta esférica es potencialmente superior para fusionar LLMs?
- Preservación de la Estructura: Al permanecer ‘en la esfera’, SLERP mantiene las relaciones geométricas entre los parámetros, preservando las estructuras aprendidas dentro de cada modelo parental de manera más efectiva que una ruta lineal.
- Evitar Regiones de Alta Pérdida: La ruta curva es menos probable que intersecte regiones del espacio de parámetros asociadas con altos errores de predicción (pérdida).
- Combinación No Lineal: La fórmula de interpolación para SLERP es inherentemente no lineal. Esto permite interacciones complejas y sinérgicas entre los parámetros de los modelos parentales, desbloqueando potencialmente combinaciones que representan capacidades novedosas. Un parámetro fusionado podría activar características de una manera que ninguno de los padres podría por sí solo.
- Transiciones Suaves: SLERP proporciona una transición matemáticamente suave entre los estados de los modelos parentales, lo que potencialmente conduce a una mejor generalización en el modelo fusionado.
Debido a que SLERP respeta la geometría intrínseca del modelo y facilita las interacciones no lineales de parámetros, tiene el potencial no solo de promediar capacidades, sino de combinarlas genuinamente de una manera que fomente propiedades emergentes. Esto lo convierte en un candidato particularmente prometedor para fusionar modelos destinados a dominios complejos como la ciencia de materiales, donde las interacciones sutiles y la comprensión matizada son clave.
Poniendo a Prueba las Teorías: Experimentos con Llama y Mistral
Para investigar rigurosamente estas estrategias de fine-tuning y fusión, se llevó a cabo una serie sistemática de experimentos utilizando familias de modelos populares de código abierto: Llama 3.1 (8 mil millones de parámetros) y Mistral (7 mil millones de parámetros). El objetivo era comparar diferentes pipelines de entrenamiento y evaluar el impacto de la fusión SLERP.
El diseño experimental implicó varios pasos clave:
- Modelos Base: Los experimentos comenzaron tanto con los modelos ‘base’ fundamentales (pre-entrenados pero no ajustados para instrucciones) como con las versiones ‘instruct’ (ya ajustadas para chat y seguimiento de instrucciones) para ambas familias Llama y Mistral.
- Corpus de Dominio: Se compiló un corpus especializado centrado en la ciencia de materiales a partir de publicaciones científicas y datos procesados.
- Pipelines de Entrenamiento: Se aplicaron varias combinaciones de técnicas de entrenamiento:
- Solo CPT
- CPT seguido de SFT (CPT-SFT)
- CPT-SFT seguido de ORPO (CPT-SFT-ORPO)
- CPT-SFT seguido de DPO (CPT-SFT-DPO)
- Algunas variaciones comenzando directamente desde el modelo Instruct (por ejemplo, Instruct-CPT-SFT-DPO).
- Fusión de Modelos: Para muchos de los modelos ajustados, se realizó la fusión SLERP, típicamente combinando el modelo adaptado al dominio con el modelo ‘instruct’ de propósito general correspondiente de la misma familia (por ejemplo, un modelo Llama CPT-SFT-DPO fusionado con el modelo estándar Llama 3.1 Instruct).
- Evaluación: El rendimiento de todos los modelos resultantes (tanto fusionados como no fusionados) se evaluó en un conjunto de benchmarks relevantes diseñados para probar el conocimiento del dominio, el razonamiento y el seguimiento de instrucciones.
Hallazgos Clave en Llama y Mistral:
- La Fusión SLERP Impulsa Consistentemente el Rendimiento: En ambas familias de modelos y varios pipelines de entrenamiento, los modelos mejorados mediante la fusión SLERP generalmente lograron la mayor precisión en los benchmarks de evaluación. Esto respalda firmemente la hipótesis de que SLERP es una técnica eficaz para combinar las fortalezas de los modelos.
- Efectos Sinérgicos Confirmados: El rendimiento de los modelos fusionados con SLERP frecuentemente excedió un simple promedio de los rendimientos de los dos modelos parentales. Graficar la puntuación real alcanzada frente a este promedio esperado reveló una desviación positiva significativa, confirmando que el proceso de fusión a menudo desbloquea ganancias sinérgicas y capacidades emergentes. La entidad fusionada era demostrablemente más capaz que solo la suma de sus partes.
- La Optimización de Preferencias Agrega Valor: Incorporar etapas de optimización de preferencias (DPO u ORPO) a menudo proporcionó un impulso adicional en el rendimiento, particularmente cuando se combinaba con la fusión SLERP. Estrategias como CPT-SFT-DPO-SLERP o CPT-SFT-ORPO-SLERP estuvieron frecuentemente entre las de mejor rendimiento.
- La Estrategia Óptima No Fusionada Varía: Sin fusión, la estrategia de mejor rendimiento difirió ligeramente entre las familias de modelos. Para Llama 3.1, Instruct-CPT-SFT-DPO mostró resultados sólidos, mientras que para Mistral, Base-CPT-SFT tuvo un rendimiento comparable al de su contraparte Instruct.
- Impacto de la Duración del CPT: Análisis adicionales en modelos Mistral mostraron que el rendimiento generalmente mejoraba con más épocas de Continued Pre-Training (hasta las cinco probadas), especialmente al comenzar desde el modelo Instruct, reforzando el valor de una exposición suficiente al dominio durante el CPT.
Estos resultados pintan un cuadro claro: si bien el fine-tuning secuencial es valioso, la fusión estratégica de modelos usando SLERP ofrece una vía poderosa para mejorar significativamente el rendimiento de los LLMs, particularmente para dominios especializados, a menudo produciendo capacidades más allá de la simple agregación.
Profundizando: ¿Qué Hace que la Fusión Funcione?
El éxito constante de la fusión SLERP impulsa una mirada más cercana a la mecánica subyacente y los factores influyentes. ¿Por qué este enfoque geométrico produce resultados tan potentes y qué condiciones optimizan su efectividad?
Interacciones No Lineales: Como se teorizó, la ruta no lineal de SLERP a través del espacio de parámetros parece crucial. Permite que el modelo fusionado explore combinaciones de parámetros que la promediación lineal omitiría. Estas combinaciones pueden representar interacciones novedosas entre características aprendidas, lo que lleva a habilidades emergentes de razonamiento o resolución de problemas adaptadas al dominio. Imagina combinar parámetros que, individualmente, representan la comprensión de la ‘resistencia del material’ y las ‘estructuras biológicas’: SLERP podría encontrar una combinación que represente eficazmente ‘materiales de alta resistencia bioinspirados’ de una manera que ninguno de los modelos parentales lo hizo explícitamente.
El Papel de la Diversidad: ¿Cuán diferentes deberían ser los modelos parentales? El análisis sugirió relaciones complejas. Si bien la diversidad extrema podría parecer beneficiosa, algunas correlaciones indicaron que en ciertos contextos (como los modelos Llama), una mayor diversidad de rendimiento entre los padres podría reducir ligeramente la dependencia del SFT posterior, quizás porque la fusión ya captura un conjunto de capacidades más amplio. La interacción es sutil y probablemente depende de los métodos específicos de fine-tuning utilizados para los padres.
Punto de Partida Base vs. Instruct: La elección del modelo inicial importa. Para los experimentos con Llama, el modelo fusionado de mayor rendimiento se originó a partir de la versión Instruct. Por el contrario, para Mistral, uno de los de mejor rendimiento se derivó del modelo Base antes de someterse a CPT, SFT y fusión. Esto sugiere que las diferencias arquitectónicas o las variaciones en las composiciones iniciales de pre-entrenamiento de las familias Llama y Mistral influyen en cómo responden a pipelines específicos de fine-tuning y fusión. No existe un único punto de partida universal ‘mejor’; requiere pruebas empíricas.
Calidad de los Datos en CPT: La base establecida durante el Continued Pre-Training es crítica. Los experimentos que utilizaron un conjunto de datos CPT más grande pero ‘más ruidoso’ (que contenía más errores de formato o artefactos del reconocimiento óptico de caracteres) dieron como resultado una disminución del rendimiento en comparación con el uso de un conjunto de datos más pequeño y limpio. Esto subraya la importancia de datos específicos del dominio de alta calidad y bien procesados para que la etapa CPT sea efectiva. Basura entra, basura sale todavía aplica.
Ajuste Fino de los Parámetros SLERP: SLERP en sí tiene parámetros, notablemente el coeficiente de interpolación (a menudo denotado como ‘t’, que varía de 0 a 1) que determina cuánto peso se le da a cada modelo parental. Además, la fusión no tiene que ser uniforme en todas las capas del modelo. Los experimentos exploraron variar el factor de interpolación de manera diferente para las capas de autoatención versus las capas de perceptrón multicapa (MLP), o incluso variarlo progresivamente a través de la profundidad del modelo. Los resultados mostraron que esquemas específicos de ponderación no uniforme podrían superar al enfoque uniforme estándar, sugiriendo un potencial de optimización adicional al adaptar cuidadosamente el proceso de fusión a través de la arquitectura de la red. Una simple progresión lineal de pesos a través de las capas demostró ser efectiva en un caso de Llama.
Efecto de Regularización: SLERP también podría actuar como una forma de regularización. Al encontrar una ruta suave entre dos modelos potencialmente especializados, podría desalentar el sobreajuste a las idiosincrasias de los datos de entrenamiento de cualquiera de los padres, lo que lleva a una mejor generalización en problemas específicos del dominio no vistos. También podría ayudar a mitigar el ‘olvido catastrófico’, donde el fine-tuning en una tarea borra el conocimiento de una anterior.
En esencia, la efectividad de SLERP proviene de su capacidad para navegar inteligentemente la compleja geometría del espacio de parámetros de los LLMs, fomentando interacciones no lineales beneficiosas mientras preserva las estructuras de conocimiento aprendidas. Sin embargo, optimizar su uso requiere una cuidadosa consideración de la elección del modelo parental, el historial de entrenamiento, la calidad de los datos y potencialmente incluso los detalles finos de la fusión misma.
¿Importa el Tamaño? Explorando Efectos de Escala con Modelos Más Pequeños
Los impresionantes efectos sinérgicos observados con modelos de 7 y 8 mil millones de parámetros plantean una pregunta natural: ¿estas capacidades emergentes desbloqueadas por la fusión SLERP también se manifiestan en modelos de lenguaje mucho más pequeños? ¿O existe un umbral de escala por debajo del cual la magia se desvanece?
Para investigar esto, se realizaron experimentos similares utilizando la serie de modelos SmolLM, específicamente una variante con solo 1.7 mil millones de parámetros. Este modelo es significativamente más pequeño, lo que lo hace adecuado para entornos con recursos limitados como dispositivos móviles o computación en el borde, pero potencialmente carece de la riqueza de parámetros de sus primos más grandes.
Los modelos SmolLM se sometieron al mismo pipeline: CPT con el corpus de ciencia de materiales, seguido de SFT y DPO (que demostró ser más efectivo que ORPO para esta arquitectura más pequeña). Luego se aplicó la fusión SLERP, combinando el SmolLM ajustado con su versión base u otras variantes.
Los Hallazgos con SmolLM:
- El Fine-Tuning Todavía Ayuda: El pipeline CPT-SFT-DPO mejoró el rendimiento del modelo SmolLM en tareas de dominio en relación con su estado original. El proceso de fine-tuning en sí fue beneficioso, mejorando su conocimiento especializado.
- Emergencia Mayormente Ausente: Sin embargo, a diferencia de los experimentos con Llama y Mistral, los modelos SmolLM fusionados con SLERP generalmente no exhibieron efectos sinérgicos significativos. Su rendimiento típicamente se situó cerca de un simple promedio de los modelos parentales, o solo ligeramente por encima. Los dramáticos saltos de rendimiento y los claros signos de capacidades emergentes vistos en los modelos 7B/8B estaban ausentes.
Implicaciones:
Este contraste sugiere que la escala del modelo es probablemente un factor clave para realizar todo el potencial de la fusión SLERP para generar propiedades emergentes. Los modelos más pequeños, con sus espacios de parámetros menos complejos y de menor dimensión, podrían carecer de la capacidad de representación o la riqueza requerida para que ocurran estas potentes interacciones no lineales durante la fusión. El ‘espacio’ para descubrir combinaciones de parámetros novedosas y beneficiosas parece significativamente restringido en comparación con los modelos más grandes.
Estos resultados se alinean con observaciones más amplias sobre las leyes de escala en el aprendizaje profundo, donde ciertas capacidades cualitativas a menudo solo emergen una vez que los modelos alcanzan un cierto umbral de tamaño. Parece que el poder sinérgico de la fusión SLERP podría ser una de esas capacidades que depende críticamente de una escala y complejidad suficientes del modelo.
Cuantificando las Ganancias: Una Mirada Más Cercana al Impulso de Rendimiento de la Fusión
Si bien los benchmarks muestran que los modelos fusionados a menudo tienen el mejor rendimiento general, es útil cuantificar precisamente cuánto mejores son en comparación con sus padres. Específicamente, ¿el modelo fusionado supera consistentemente incluso al más fuerte de los dos modelos utilizados para crearlo?
Para analizar esto, se calculó la desviación de rendimiento para cada modelo fusionado con SLERP. Esta desviación se definió como:
Desviación de Rendimiento = Rendimiento(Modelo Fusionado) - Máx(Rendimiento(Padre 1), Rendimiento(Padre 2))
- Una desviación positiva (visualizada en tonos de azul) significa que el modelo SLERP rindió mejor que el mejor de sus padres – evidencia clara de sinergia.
- Una desviación negativa (visualizada en rojo) significa que el modelo SLERP rindió peor que al menos uno de sus padres, indicando que la fusión fue perjudicial o, en el mejor de los casos, promediadora.
El Análisis Reveló:
En la mayoría de los experimentos que involucraron los modelos Llama 3.1 (8B) y Mistral (7B), las desviaciones de rendimiento fueron predominantemente positivas. En muchos casos, especialmente para los pipelines bien optimizados (por ejemplo, aquellos que involucran CPT, SFT, optimización de preferencias y SLERP), los modelos fusionados mostraron desviaciones positivas sustanciales, lo que indica que superaron significativamente las capacidades incluso de su padre más fuerte.
Hubo instancias, particularmente con modelos parentales menos optimizados o quizás parámetros de fusión subóptimos, donde la desviación fue ligeramente negativa o cercana a cero. Sin embargo, la tendencia general fue clara: la fusión estratégica SLERP frecuentemente proporciona un impulso de rendimiento genuino más allá de lo que cualquiera de los modelos parentales podría lograr por sí solo. Esto refuerza la idea de que la fusión no es solo promediar, sino un proceso capaz de sintetizar capacidades superiores. Los resultados de SmolLM (1.7B), en contraste, mostrarían desviaciones mucho menores o negativas, consistentes con la falta de fuertes efectos emergentes a esa escala.
De Benchmarks a Brainstorming: Aplicaciones Interactivas en Diseño de Materiales
Más allá de los benchmarks cuantitativos, el verdadero valor de estos modelos adaptados al dominio radica en su capacidad para ayudar con tareas del mundo real, como el razonamiento científico y el diseño creativo. Para evaluar este aspecto cualitativo, se realizaron sesiones de chat interactivas con varios de los modelos de mayor rendimiento (incluidas variantes fusionadas y no fusionadas).
La configuración implicó proporcionar un prompt de sistema consistente instruyendo al modelo para que actúe como un experto en ciencia de materiales, seguido de un prompt de usuario diseñado para probar el razonamiento creativo y transdisciplinario. Una tarea típica implicaba pedirle al modelo que:
- Considere dos conceptos biológicos aparentemente dispares (por ejemplo, la estructura del colágeno y los patrones de venación de las hojas).
- Haga brainstorming de diseños de materiales novedosos inspirados en la combinación de principios de ambos conceptos.
- Explique el razonamiento detrás de los diseños propuestos.
- Produzca las sugerencias en un formato estructurado (como JSON) para un posible procesamiento posterior.
Observaciones Cualitativas:
- Fuerte Comprensión del Dominio: Todos los modelos ajustados demostraron una sólida comprensión de los conceptos subyacentes de biología y ciencia de materiales, utilizando terminología apropiada y haciendo referencia a principios relevantes. Las etapas CPT y SFT claramente impartieron un conocimiento significativo del dominio.
- Síntesis Creativa: Los modelos fueron generalmente capaces de salvar la brecha conceptual entre las entradas dispares (como colágeno y hojas) para proponer arquitecturas o funcionalidades de materiales innovadoras. Esto demostró su capacidad para realizar razonamiento analógico dentro del dominio especializado.
- Salida Estructurada: Los modelos siguieron con éxito las instrucciones que solicitaban una salida estructurada (JSON), lo que indica buenas capacidades de seguimiento de instrucciones, particularmente para aquellos refinados con SFT y optimización de preferencias o que se originaron a partir de bases Instruct.
- Profundidad y Claridad Variables: Si bien todos realizaron la tarea principal, surgieron diferencias en la profundidad del razonamiento proporcionado, la novedad y practicidad de los diseños propuestos, y la claridad y coherencia general de la explicación. Los modelos que se sometieron a pipelines de entrenamiento más completos, especialmente aquellos que incluían optimización de preferencias y fusión SLERP, a menudo proporcionaron respuestas más ricas, perspicaces y creativas.
- Influencia de la Fusión: Los modelos fusionados a menudo exhibieron un buen equilibrio entre la precisión específica del dominio y la fluidez/creatividad conversacional, aparentemente integrando el conocimiento del padre ajustado al dominio con las habilidades de interacción del padre instruct de propósito general.
Estas sesiones interactivas proporcionaron una valiosa evidencia cualitativa de que las estrategias de fine-tuning y fusión se traducen en mejoras tangibles en tareas prácticas y abiertas que requieren razonamiento y creatividad específicos del dominio. Demostraron el potencial de estos LLMs personalizados para actuar como colaboradores valiosos en la exploración científica y la ideación de diseños dentro de campos como la ciencia de materiales.