O Desafio da Especialização: Adaptando a IA para Fronteiras Técnicas
Os Large Language Models (LLMs) revolucionaram inegavelmente a forma como interagimos com a informação e automatizamos tarefas que envolvem linguagem natural. Gigantes como Llama e Mistral, mesmo nas suas formas de código aberto, demonstram uma fluência notável na compreensão e geração de texto que muitas vezes rivaliza com a produção humana. A sua proeza abrange uma vasta paisagem, desde conversas quotidianas até sumarizações complexas. No entanto, aventurar-se nos territórios especializados e ricos em jargão da ciência e engenharia — campos como ciência dos materiais ou biomateriómica — apresenta um obstáculo único.
Estes domínios técnicos exigem mais do que conhecimento geral; requerem uma compreensão profunda e nuanceada, a capacidade de raciocinar sobre princípios específicos e familiaridade com terminologia e estruturas de dados especializadas. Os LLMs padrão, treinados em corpora amplos da web, muitas vezes falham perante estas exigências. O desafio, portanto, reside na adaptação de domínio: como podemos efetivamente adaptar estes poderosos modelos generalistas para se tornarem assistentes especialistas em campos altamente específicos?
Simplesmente fornecer mais dados especializados nem sempre é a resposta, nem é sempre viável. Treinar estes gigantes do zero é proibitivamente caro, e os conjuntos de dados massivos originais usados para o seu pré-treinamento inicial são tipicamente inacessíveis. Isto é particularmente verdade para modelos populares de código aberto onde, apesar de alguma transparência, a receita completa — as misturas exatas de dados e sequências usadas durante o pré-treinamento, fine-tuning e alinhamento — permanece em grande parte proprietária. Investigadores e engenheiros precisam de estratégias robustas e eficientes para imbuir modelos existentes com conhecimento novo e especializado, preservando crucialmente as vastas capacidades gerais adquiridas durante o seu treinamento inicial. Este delicado ato de equilíbrio é primordial para criar ferramentas de IA verdadeiramente úteis para a descoberta científica e inovação em engenharia, como o desenvolvimento de motores capazes de raciocínio multimodal para explorar a inspiração no design de materiais biológicos em diversas escalas e contextos.
Mapeando o Cenário de Treinamento: Do Pré-Treinamento à Otimização de Preferências
Navegar pelo caminho para a expertise de LLMs específicos de domínio envolve explorar um conjunto diversificado de estratégias de fine-tuning. Cada abordagem oferece uma maneira diferente de moldar o conhecimento e o comportamento do modelo.
Continued Pre-Training (CPT): Esta estratégia envolve estender a fase inicial de pré-treinamento, mas desta vez usando um corpus focado diretamente no domínio alvo — como uma coleção de artigos de investigação em ciência dos materiais. O objetivo é imergir o modelo na linguagem, conceitos e estruturas de conhecimento específicos do campo, permitindo-lhe absorver informações específicas do domínio mais profundamente do que é possível apenas com o fine-tuning específico da tarefa. Estabelece uma base de conhecimento relevante.
Supervised Fine-Tuning (SFT): Seguindo o CPT ou começando a partir de um modelo base, o SFT ensina diretamente o modelo a realizar tarefas específicas. Isto é alcançado usando conjuntos de dados curados de pares entrada-saída, muitas vezes formatados como instruções e respostas desejadas, ou perguntas e respostas precisas relevantes para o domínio. O SFT aprimora a capacidade do modelo de seguir instruções, responder a perguntas com precisão dentro do contexto especializado e aderir aos formatos de saída desejados.
Low-Rank Adaptation (LoRA): Embora não seja o foco principal aqui, o LoRA representa uma alternativa ou suplemento eficiente. Em vez de retreinar o modelo inteiro, o LoRA introduz pequenas camadas ‘adaptadoras’ treináveis. Isto permite uma adaptação significativa com um custo computacional muito menor, embora possa ter limitações na quantidade de conhecimento fundamentalmente novo que pode ser integrado em comparação com o CPT.
Preference-Based Optimization: Indo além da simples conclusão de tarefas, a otimização baseada em preferências visa alinhar as saídas do modelo mais de perto com julgamentos humanos ou critérios específicos como utilidade, inofensividade e precisão no raciocínio. Em vez de depender apenas de respostas ‘corretas’ predefinidas (como no SFT), estes métodos aprendem a partir de comparações.
- Direct Preference Optimization (DPO): O DPO aprende diretamente a partir de pares de respostas onde uma é preferida em relação à outra (por exemplo, por um avaliador humano ou outra IA). Otimiza o modelo para aumentar a probabilidade de gerar respostas preferidas sem a necessidade de um modelo de recompensa separado, simplificando o pipeline tradicional de Reinforcement Learning from Human Feedback (RLHF).
- Odds Ratio Preference Optimization (ORPO): Uma entrada mais recente, o ORPO modifica o objetivo de otimização, por vezes produzindo desempenho ou estabilidade melhorados em comparação com o DPO, particularmente no alinhamento de modelos para critérios estilísticos ou de raciocínio específicos dentro de um domínio.
Estas técnicas não são mutuamente exclusivas; são frequentemente empregadas sequencialmente ou em combinação, formando pipelines de treinamento complexos. Uma sequência comum pode envolver CPT para construir conhecimento de domínio, seguido por SFT para proficiência na tarefa e, finalmente, DPO ou ORPO para alinhamento e refinamento. No entanto, a combinação e sequência ótimas permanecem áreas ativas de investigação, particularmente para alcançar o desempenho máximo em domínios científicos especializados.
Além do Simples Ajuste: A Promessa da Fusão de Modelos
Embora refinar um único modelo através de estágios de treinamento sequenciais possa produzir melhorias significativas, surgiu outra via intrigante: a fusão de modelos (model merging). Esta prática envolve pegar dois ou mais modelos treinados separadamente e combinar os seus parâmetros — os seus ‘pesos’ internos — para criar um único modelo híbrido novo.
Porquê tentar tal fusão? A ideia central é combinar sinergicamente os pontos fortes dos modelos pais. Imagine um modelo treinado expertemente na literatura de ciência dos materiais (via CPT e SFT) e outro modelo ‘instruct’ de propósito geral altamente adepto a seguir instruções complexas e a envolver-se em diálogo coerente. Fundi-los poderia potencialmente criar um modelo que possua tanto conhecimento profundo do domínio quanto excelentes capacidades de conversação e seguimento de instruções.
Explorações iniciais sugeriram que este processo poderia ser mais do que uma simples média. Em vez de apenas misturar capacidades, a fusão poderia potencialmente desbloquear funcionalidades totalmente novas e emergentes — habilidades não explicitamente presentes em nenhum dos modelos pais. Isto sugere uma interação altamente não linear entre os parâmetros durante a fusão, potencialmente levando a um todo maior do que a soma das suas partes. Se comprovada eficaz e controlável, a fusão de modelos poderia representar uma ferramenta poderosa e transformadora para expandir os limites das capacidades dos LLMs, criando sistemas de IA altamente adaptáveis e potentes, adaptados para desafios científicos e de engenharia complexos do mundo real.
Revelando o Poder do SLERP: Uma Abordagem Geométrica para a Fusão
A eficácia da fusão de modelos depende criticamente de como os parâmetros dos modelos pais são combinados. Uma simples média linear (frequentemente chamada de Interpolação Linear ou LERP) pode parecer intuitiva, mas muitas vezes leva a resultados subótimos ou até degrada o desempenho. Isto provavelmente ocorre porque o espaço de parâmetros de alta dimensão dos LLMs não é plano; possui uma geometria complexa e curva. A interpolação linear corre o risco de atravessar ‘zonas mortas’ ou regiões de alta perda dentro deste espaço, efetivamente embaralhando as representações cuidadosamente aprendidas dos modelos pais.
Entra em cena a Spherical Linear Interpolation (SLERP). Originalmente desenvolvida para animação suave de rotações em computação gráfica, a SLERP oferece uma maneira geometricamente sofisticada de interpolar entre dois pontos (neste caso, os vetores de parâmetros de dois modelos) seguindo o caminho mais curto ao longo da superfície de uma hiperesfera.
Imagine os conjuntos de parâmetros dos dois modelos pais como dois pontos na superfície de uma esfera gigante.
- LERP desenharia uma linha reta através da esfera conectando os pontos. Este caminho pode não permanecer na superfície e poderia passar por regiões que representam modelos de baixo desempenho.
- SLERP, inversamente, viaja ao longo da superfície curva da própria esfera. Este caminho respeita inerentemente a estrutura geométrica subjacente do espaço de parâmetros.
Porque é que este caminho esférico é potencialmente superior para a fusão de LLMs?
- Preservação da Estrutura: Ao permanecer ‘na esfera’, a SLERP mantém as relações geométricas entre os parâmetros, preservando as estruturas aprendidas dentro de cada modelo pai de forma mais eficaz do que um caminho linear.
- Evitar Regiões de Alta Perda: O caminho curvo é menos propenso a intersectar regiões do espaço de parâmetros associadas a altos erros de previsão (perda).
- Combinação Não Linear: A fórmula de interpolação para a SLERP é inerentemente não linear. Isto permite interações complexas e sinérgicas entre os parâmetros dos modelos pais, potencialmente desbloqueando combinações que representam novas capacidades. Um parâmetro fundido pode ativar características de uma forma que nenhum dos pais poderia sozinho.
- Transições Suaves: ASLERP fornece uma transição matematicamente suave entre os estados dos modelos pais, potencialmente levando a uma melhor generalização no modelo fundido.
Como a SLERP respeita a geometria intrínseca do modelo e facilita interações de parâmetros não lineares, ela tem o potencial não apenas de mediar capacidades, mas de genuinamente misturá-las de uma forma que fomenta propriedades emergentes. Isto torna-a uma candidata particularmente promissora para fundir modelos destinados a domínios complexos como a ciência dos materiais, onde interações subtis e compreensão nuanceada são chave.
Colocando as Teorias à Prova: Experimentos com Llama e Mistral
Para investigar rigorosamente estas estratégias de fine-tuning e fusão, foi conduzida uma série sistemática de experimentos usando famílias populares de modelos de código aberto: Llama 3.1 (8 mil milhões de parâmetros) e Mistral (7 mil milhões de parâmetros). O objetivo era comparar diferentes pipelines de treinamento e avaliar o impacto da fusão SLERP.
O design experimental envolveu vários passos chave:
- Modelos Base: Os experimentos começaram tanto com os modelos ‘base’ fundamentais (pré-treinados mas não ajustados para instruções) quanto com as versões ‘instruct’ (já afinadas para chat e seguimento de instruções) para ambas as famílias Llama e Mistral.
- Corpus de Domínio: Um corpus especializado focado em ciência dos materiais foi compilado a partir de publicações científicas e dados processados.
- Pipelines de Treinamento: Várias combinações de técnicas de treinamento foram aplicadas:
- Apenas CPT
- CPT seguido por SFT (CPT-SFT)
- CPT-SFT seguido por ORPO (CPT-SFT-ORPO)
- CPT-SFT seguido por DPO (CPT-SFT-DPO)
- Algumas variações começando diretamente do modelo Instruct (por exemplo, Instruct-CPT-SFT-DPO).
- Fusão de Modelos: Para muitos dos modelos afinados, foi realizada a fusão SLERP, tipicamente combinando o modelo adaptado ao domínio com o modelo ‘instruct’ de propósito geral correspondente da mesma família (por exemplo, um modelo Llama CPT-SFT-DPO fundido com o modelo Llama 3.1 Instruct padrão).
- Avaliação: O desempenho de todos os modelos resultantes (tanto fundidos quanto não fundidos) foi avaliado através de um conjunto de benchmarks relevantes projetados para testar conhecimento de domínio, raciocínio e seguimento de instruções.
Principais Descobertas em Llama e Mistral:
- Fusão SLERP Aumenta Consistentemente o Desempenho: Em ambas as famílias de modelos e vários pipelines de treinamento, os modelos aprimorados via fusão SLERP geralmente alcançaram a maior precisão nos benchmarks de avaliação. Isto apoia fortemente a hipótese de que a SLERP é uma técnica eficaz para combinar os pontos fortes dos modelos.
- Efeitos Sinérgicos Confirmados: O desempenho dos modelos fundidos por SLERP frequentemente excedeu uma simples média dos desempenhos dos dois modelos pais. Plotar a pontuação real alcançada contra esta média esperada revelou um desvio positivo significativo, confirmando que o processo de fusão muitas vezes desbloqueia ganhos sinérgicos e capacidades emergentes. A entidade fundida era demonstravelmente mais capaz do que apenas a soma das suas partes.
- Otimização de Preferências Agrega Valor: Incorporar estágios de otimização de preferências (DPO ou ORPO) muitas vezes forneceu um impulso adicional de desempenho, particularmente quando combinado com a fusão SLERP. Estratégias como CPT-SFT-DPO-SLERP ou CPT-SFT-ORPO-SLERP estiveram frequentemente entre as de melhor desempenho.
- Estratégia Ótima Não Fundida Varia: Sem fusão, a estratégia de melhor desempenho diferiu ligeiramente entre as famílias de modelos. Para o Llama 3.1, Instruct-CPT-SFT-DPO mostrou resultados fortes, enquanto para o Mistral, Base-CPT-SFT teve desempenho comparável ao seu homólogo Instruct.
- Impacto da Duração do CPT: Análises adicionais em modelos Mistral mostraram que o desempenho geralmente melhorou com mais épocas de Continued Pre-Training (até as cinco testadas), especialmente ao começar do modelo Instruct, reforçando o valor da exposição suficiente ao domínio durante o CPT.
Estes resultados pintam um quadro claro: embora o fine-tuning sequencial seja valioso, a fusão estratégica de modelos usando SLERP oferece um caminho poderoso para melhorar significativamente o desempenho do LLM, particularmente para domínios especializados, muitas vezes produzindo capacidades além da simples agregação.
Mergulho Profundo: O Que Faz a Fusão Funcionar?
O sucesso consistente da fusão SLERP incita um olhar mais atento sobre a mecânica subjacente e os fatores influenciadores. Por que esta abordagem geométrica produz resultados tão potentes e que condições otimizam a sua eficácia?
Interações Não Lineares: Como teorizado, o caminho não linear da SLERP através do espaço de parâmetros parece crucial. Permite que o modelo fundido explore combinações de parâmetros que a média linear perderia. Estas combinações podem representar interações novas entre características aprendidas, levando a raciocínio emergente ou habilidades de resolução de problemas adaptadas ao domínio. Imagine combinar parâmetros que, individualmente, representam a compreensão de ‘resistência do material’ e ‘estruturas biológicas’ – a SLERP pode encontrar uma combinação que represente efetivamente ‘materiais de alta resistência bioinspirados’ de uma forma que nenhum dos modelos pais fez explicitamente.
O Papel da Diversidade: Quão diferentes devem ser os modelos pais? A análise sugeriu relações complexas. Embora a diversidade extrema possa parecer benéfica, algumas correlações indicaram que em certos contextos (como modelos Llama), uma maior diversidade de desempenho entre os pais poderia reduzir ligeiramente a dependência do SFT subsequente, talvez porque a fusão já captura um conjunto mais amplo de capacidades. A interação é subtil e provavelmente depende dos métodos específicos de fine-tuning usados para os pais.
Ponto de Partida Base vs. Instruct: A escolha do modelo inicial importa. Para os experimentos com Llama, o modelo fundido de melhor desempenho originou-se da versão Instruct. Inversamente, para o Mistral, um dos melhores desempenhos foi derivado do modelo Base antes de passar por CPT, SFT e fusão. Isto sugere que diferenças arquitetónicas ou variações nas composições iniciais de pré-treinamento das famílias Llama e Mistral influenciam como elas respondem a pipelines específicos de fine-tuning e fusão. Não existe um único ponto de partida universal ‘melhor’; requer testes empíricos.
Qualidade dos Dados no CPT: A base estabelecida durante o Continued Pre-Training é crítica. Experimentos usando um conjunto de dados CPT maior, mas ‘mais ruidoso’ (contendo mais erros de formatação ou artefactos de reconhecimento ótico de caracteres) resultaram em desempenho diminuído em comparação com o uso de um conjunto de dados menor e mais limpo. Isto sublinha a importância de dados específicos do domínio de alta qualidade e bem processados para que a fase CPT seja eficaz. Lixo entra, lixo sai ainda se aplica.
Ajuste Fino dos Parâmetros SLERP: A própria SLERP tem parâmetros, notavelmente o coeficiente de interpolação (frequentemente denotado como ‘t’, variando de 0 a 1) determinando quanto peso é dado a cada modelo pai. Além disso, a fusão não precisa ser uniforme em todas as camadas do modelo. Experimentos exploraram variar o fator de interpolação diferentemente para camadas de auto-atenção versus camadas de perceptron multicamadas (MLP), ou mesmo variá-lo progressivamente através da profundidade do modelo. Os resultados mostraram que esquemas específicos de ponderação não uniforme poderiam superar a abordagem uniforme padrão, sugerindo potencial de otimização adicional ao adaptar cuidadosamente o processo de fusão através da arquitetura da rede. Uma simples progressão linear de pesos através das camadas provou ser eficaz num caso Llama.
Efeito de Regularização: A SLERP também pode atuar como uma forma de regularização. Ao encontrar um caminho suave entre dois modelos potencialmente especializados, pode desencorajar o overfitting às idiossincrasias dos dados de treinamento de qualquer um dos pais, levando a uma melhor generalização em problemas específicos do domínio não vistos. Também pode ajudar a mitigar o ‘esquecimento catastrófico’, onde o fine-tuning numa tarefa apaga o conhecimento de uma anterior.
Em essência, a eficácia da SLERP deriva da sua capacidade de navegar inteligentemente pela complexa geometria do espaço de parâmetros do LLM, fomentando interações não lineares benéficas enquanto preserva estruturas de conhecimento aprendidas. No entanto, otimizar o seu uso requer consideração cuidadosa da escolha do modelo pai, histórico de treinamento, qualidade dos dados e potencialmente até os detalhes finos da própria fusão.
O Tamanho Importa? Explorando Efeitos de Escala com Modelos Menores
Os impressionantes efeitos sinérgicos observados com modelos de 7 e 8 mil milhões de parâmetros levantam uma questão natural: estas capacidades emergentes desbloqueadas pela fusão SLERP também se manifestam em modelos de linguagem muito menores? Ou existe um limiar de escala abaixo do qual a magia desaparece?
Para investigar isto, experimentos semelhantes foram conduzidos usando a série de modelos SmolLM, especificamente uma variante com apenas 1.7 mil milhões de parâmetros. Este modelo é significativamente menor, tornando-o adequado para ambientes com recursos limitados, como dispositivos móveis ou computação de ponta, mas potencialmente carecendo da riqueza de parâmetros dos seus primos maiores.
Os modelos SmolLM passaram pelo mesmo pipeline: CPT com o corpus de ciência dos materiais, seguido por SFT e DPO (que se mostrou mais eficaz que o ORPO para esta arquitetura menor). A fusão SLERP foi então aplicada, combinando o SmolLM afinado com a sua versão base ou outras variantes.
As Descobertas com SmolLM:
- Fine-tuning Ainda Ajuda: O pipeline CPT-SFT-DPO melhorou o desempenho do modelo SmolLM em tarefas de domínio em relação ao seu estado original. O processo de fine-tuning em si foi benéfico, aprimorando o seu conhecimento especializado.
- Emergência Amplamente Ausente: No entanto, ao contrário dos experimentos com Llama e Mistral, os modelos SmolLM fundidos por SLERP geralmente não exibiram efeitos sinérgicos significativos. O seu desempenho tipicamente ficou próximo de uma simples média dos modelos pais, ou apenas ligeiramente acima. Os saltos dramáticos de desempenho e os sinais claros de capacidades emergentes vistos nos modelos 7B/8B estavam ausentes.
Implicações:
Este contraste sugere que a escala do modelo é provavelmente um fator chave na realização do potencial total da fusão SLERP para gerar propriedades emergentes. Modelos menores, com os seus espaços de parâmetros menos complexos e de menor dimensão, podem carecer da capacidade representacional ou riqueza necessária para que estas potentes interações não lineares ocorram durante a fusão. O ‘espaço’ para descobrir combinações de parâmetros novas e benéficas parece significativamente limitado em comparação com modelos maiores.
Estes resultados alinham-se com observações mais amplas sobre as leis de escala (scaling laws) em deep learning, onde certas capacidades qualitativas muitas vezes só emergem quando os modelos atingem um certo limiar de tamanho. Parece que o poder sinérgico da fusão SLERP pode ser uma dessas capacidades que depende criticamente de escala e complexidade suficientes do modelo.
Quantificando os Ganhos: Um Olhar Mais Atento ao Aumento de Desempenho da Fusão
Embora os benchmarks mostrem que os modelos fundidos frequentemente têm o melhor desempenho geral, é útil quantificar precisamente quanto melhores eles são em comparação com os seus pais. Especificamente, o modelo fundido consistentemente supera até mesmo o mais forte dos dois modelos usados para criá-lo?
Para analisar isto, o desvio de desempenho foi calculado para cada modelo fundido por SLERP. Este desvio foi definido como:
Desvio de Desempenho = Desempenho(Modelo Fundido) - Max(Desempenho(Pai 1), Desempenho(Pai 2))
- Um desvio positivo (visualizado em tons de azul) significa que o modelo SLERP teve um desempenho melhor do que o melhor dos seus pais – evidência clara de sinergia.
- Um desvio negativo (visualizado em vermelho) significa que o modelo SLERP teve um desempenho pior do que pelo menos um dos seus pais, indicando que a fusão foi prejudicial ou, na melhor das hipóteses, apenas uma média.
A Análise Revelou:
Na maioria dos experimentos envolvendo os modelos Llama 3.1 (8B) e Mistral (7B), os desvios de desempenho foram predominantemente positivos. Em muitos casos, especialmente para os pipelines bem otimizados (por exemplo, aqueles envolvendo CPT, SFT, otimização de preferências e SLERP), os modelos fundidos mostraram desvios positivos substanciais, indicando que superaram significativamente as capacidades até mesmo do seu pai mais forte.
Houve instâncias, particularmente com modelos pais menos otimizados ou talvez parâmetros de fusão subótimos, onde o desvio foi ligeiramente negativo ou próximo de zero. No entanto, a tendência geral foi clara: a fusão estratégica SLERP frequentemente fornece um genuíno aumento de desempenho além do que qualquer modelo pai poderia alcançar sozinho. Isto reforça a ideia de que a fusão não é apenas uma média, mas um processo capaz de sintetizar capacidades superiores. Os resultados do SmolLM (1.7B), em contraste, mostrariam desvios muito menores ou negativos, consistentes com a falta de fortes efeitos emergentes naquela escala.
Dos Benchmarks ao Brainstorming: Aplicações Interativas no Design de Materiais
Além dos benchmarks quantitativos, o verdadeiro valor destes modelos adaptados ao domínio reside na sua capacidade de auxiliar em tarefas do mundo real, como raciocínio científico e design criativo. Para avaliar este aspecto qualitativo, foram conduzidas sessões de chat interativas com vários dos modelos de melhor desempenho (incluindo variantes fundidas e não fundidas).
A configuração envolveu fornecer um prompt de sistema consistente instruindo o modelo a atuar como um especialista em ciência dos materiais, seguido por um prompt do utilizador projetado para testar o raciocínio criativo e interdomínio. Uma tarefa típica envolviapedirao modelo para:
- Considerar dois conceitos biológicos aparentemente díspares (por exemplo, a estrutura do colagénio e os padrões de venação das folhas).
- Fazer brainstorming de designs de materiais inovadores inspirados na combinação de princípios de ambos os conceitos.
- Explicar o raciocínio por trás dos designs propostos.
- Produzir as sugestões num formato estruturado (como JSON) para potencial processamento downstream.
Observações Qualitativas:
- Forte Compreensão do Domínio: Todos os modelos afinados demonstraram um sólido domínio dos conceitos subjacentes de biologia e ciência dos materiais, usando terminologia apropriada e referenciando princípios relevantes. As fases CPT e SFT claramente transmitiram conhecimento significativo do domínio.
- Síntese Criativa: Os modelos foram geralmente capazes de transpor a lacuna conceitual entre as entradas díspares (como colagénio e folhas) para propor arquiteturas ou funcionalidades de materiais inovadoras. Isto demonstrou a sua capacidade de realizar raciocínio analógico dentro do domínio especializado.
- Saída Estruturada: Os modelos seguiram com sucesso as instruções que solicitavam saída estruturada (JSON), indicando boas capacidades de seguimento de instruções, particularmente para aqueles refinados com SFT e otimização de preferências ou originários de bases Instruct.
- Profundidade e Clareza Variáveis: Embora todos tenham realizado a tarefa central, surgiram diferenças na profundidade do raciocínio fornecido, na novidade e praticidade dos designs propostos e na clareza e coerência geral da explicação. Modelos que passaram por pipelines de treinamento mais abrangentes, especialmente aqueles incluindo otimização de preferências e fusão SLERP, muitas vezes forneceram respostas mais ricas, perspicazes e criativas.
- Influência da Fusão: Modelos fundidos frequentemente exibiram um bom equilíbrio entre precisão específica do domínio e fluência/criatividade conversacional, aparentemente integrando o conhecimento do pai ajustado ao domínio com as habilidades de interação do pai ‘instruct’ de propósito geral.
Estas sessões interativas forneceram evidências qualitativas valiosas de que as estratégias de fine-tuning e fusão se traduzem em melhorias tangíveis em tarefas práticas e abertas que exigem raciocínio e criatividade específicos do domínio. Demonstraram o potencial destes LLMs adaptados para atuar como colaboradores valiosos na exploração científica e ideação de design em campos como a ciência dos materiais.