Microsoft Phi-4: Modelo de Linguagem Pequeno para Raciocínio Matemático Complexo

A Microsoft Research apresentou o Phi-4, um modelo de linguagem pequeno com 14 bilhões de parâmetros, com o objetivo de elevar o nível do raciocínio matemático. Inicialmente disponível no Azure AI Foundry, este modelo foi recentemente disponibilizado no Hugging Face sob licença MIT.

Inovações do Phi-4

De acordo com a Microsoft, o Phi-4 supera modelos semelhantes e até maiores em raciocínio matemático, graças a várias técnicas inovadoras empregadas no seu treinamento, incluindo:

  • Pré-treinamento e Treinamento Intermediário com Dados Sintéticos: O uso de dados sintéticos no pré-treinamento e treinamento intermediário oferece ao modelo um caminho de aprendizagem mais estruturado.
  • Gestão de Dados Orgânicos: Dados orgânicos são cuidadosamente selecionados e filtrados, garantindo a qualidade dos dados de treinamento.
  • Novo Esquema de Pós-Treinamento: A adoção de novos métodos de pós-treinamento melhora ainda mais o desempenho do modelo.

Estas inovações permitem que o Phi-4 supere seu modelo professor, o GPT-4o, em capacidade de perguntas e respostas com foco em STEM, demonstrando que as técnicas de geração de dados e pós-treinamento da Microsoft não são uma simples destilação de conhecimento.

Vantagens Exclusivas dos Dados Sintéticos

O uso de dados sintéticos no treinamento de grandes modelos de linguagem (LLM) não é novidade, e os modelos Phi já adotaram essa abordagem. A Microsoft ressalta que os dados sintéticos não são uma alternativa barata, mas sim superiores aos dados orgânicos nos seguintes aspectos:

  • Caminho de Aprendizagem Mais Gradual: Os dados sintéticos podem guiar o LLM através de um aprendizado passo a passo, desde a apresentação inicial do problema até a solução final, facilitando a compreensão do processo de raciocínio.
  • Melhor Alinhamento com o Ambiente de Raciocínio: Ao contrário dos dados orgânicos que contêm a apresentação do problema e a solução final, os dados sintéticos podem fornecer um processo de raciocínio passo a passo mais detalhado, que se alinha melhor com os cenários de raciocínio reais.

Dados Orgânicos Cuidadosamente Selecionados

Além dos dados sintéticos, a Microsoft também utilizou dados orgânicos cuidadosamente selecionados, incluindo dezenas de milhões de problemas e soluções matemáticas de alta qualidade coletados de sites públicos e conjuntos de dados externos. Para casos em que não havia soluções precisas, eles usaram um método de votação majoritária para gerar soluções, aumentando a precisão. Além disso, também coletaram artigos acadêmicos, fóruns educacionais e tutoriais de programação.

A Microsoft enfatizou o papel crucial dos dados naturais de alta qualidade na geração de dados sintéticos, apontando que mesmo pequenos erros podem levar a uma degradação significativa na qualidade dos documentos sintéticos derivados. Portanto, dedicaram muitos recursos para refinar a gestão de dados da web.

Fase de Pós-Treinamento do Phi-4

A fase de pós-treinamento do Phi-4 visa transformá-lo em um assistente de IA confiável. Esta fase inclui os seguintes passos:

  1. Ajuste Fino: O modelo é ajustado utilizando dados de alta qualidade gerados a partir de diferentes áreas, como matemática, codificação, raciocínio, diálogo, identidade do modelo e segurança.
  2. Otimização Direta de Preferências (DPO): São executados dois passos de DPO para alinhar melhor o modelo com as preferências humanas e eliminar comportamentos indesejados.
    • Pivotal Token Search: No primeiro passo, a Microsoft usa uma nova técnica chamada Pivotal Token Search para gerar pares de resultados desejados/indesejados.
    • GPT-4o como Avaliador: No segundo passo, eles usam o GPT-4o como avaliador para atribuir rótulos positivos ou negativos a cada par de resultados.

Avaliação do Phi-4

O Phi-4 é avaliado usando a estrutura SIMPLE-EVALS da OpenAI e supera o Llama-3.1-405B em vários benchmarks. Além disso, também supera seu modelo professor, o GPT-4o, nos benchmarks GPQA (perguntas e respostas STEM de nível de pós-graduação) e MATH (competição matemática).

Detalhes dos Dados de Treinamento do Modelo Phi-4

A Microsoft adotou uma estratégia de dados cuidadosamente projetada para treinar o modelo Phi-4, centrada em dados sintéticos e dados reais selecionados. Essa abordagem combinada visa otimizar o processo de aprendizagem do modelo e torná-lo excelente em raciocínio matemático.

Geração de Dados Sintéticos

Os dados sintéticos desempenham um papel crucial no treinamento do Phi-4. A equipe da Microsoft não considera os dados sintéticos como um simples substituto dos dados reais, mas sim como uma ferramenta que pode orientar o modelo através de um aprendizado passo a passo. O processo de geração de dados sintéticos geralmente segue estes passos:

  1. Criação de Problemas: Primeiro, são gerados vários problemas matemáticos com base em regras e modelos predefinidos. Esses problemas abrangem diferentes áreas da matemática e níveis de dificuldade, garantindo um aprendizado abrangente do modelo.
  2. Soluções Passo a Passo: Para cada problema gerado, é criada uma solução passo a passo, explicando detalhadamente o processo de raciocínio desde a apresentação do problema até a resposta final. Essa solução passo a passo não inclui apenas a resposta final, mas também as etapas intermediárias e a lógica do raciocínio, ajudando o modelo a entender o processo de resolução de problemas.
  3. Aumento de Dados: Para aumentar a diversidade dos dados, os dados sintéticos também são aumentados, por exemplo, alterando o texto dos problemas, ajustando os números ou usando diferentes métodos de solução.

Dados Reais Selecionados

Além dos dados sintéticos, o treinamento do Phi-4 também utilizou uma grande quantidade de dados reais selecionados. Esses dados são provenientes de vários sites públicos, artigos acadêmicos, fóruns educacionais e tutoriais de programação, incluindo os seguintes tipos:

  • Problemas e Soluções Matemáticas: Milhões de problemas matemáticos de alta qualidade e suas soluções foram coletados de sites públicos e conjuntos de dados externos. Esses problemas abrangem diferentes áreas da matemática e níveis de dificuldade.
  • Artigos Acadêmicos: Para melhorar a capacidade de compreensão e raciocínio do modelo, também foram coletados muitos artigos acadêmicos, que fornecem conceitos e teorias matemáticas aprofundadas.
  • Fóruns Educacionais: Foram coletados problemas levantados por alunos e respostas fornecidas por especialistas de fóruns educacionais, permitindo que o modelo compreendesse problemas matemáticos de diferentes perspectivas.
  • Tutoriais de Programação: Para melhorar a capacidade de programação do modelo, também foram coletados muitos tutoriais de programação, que abrangem diferentes linguagens de programação e algoritmos.

Controle de Qualidade de Dados

A Microsoft investiu muitos recursos no controle de qualidade dos dados para garantir a precisão e a consistência dos dados de treinamento. As seguintes medidas foram tomadas:

  • Revisão Humana: Alguns conjuntos de dados críticos são revisados por humanos para garantir a precisão e a qualidade dos dados.
  • Votação Majoritária: Para problemas que não fornecem soluções precisas, é usado um método de votação majoritária para gerar soluções, aumentando a precisão.
  • Limpeza de Dados: Todos os dados são limpos para remover dados duplicados, dados incorretos e dados irrelevantes.

Análise Detalhada da Estratégia de Pós-Treinamento

A fase de pós-treinamento do Phi-4 visa transformá-lo em um assistente de IA confiável e consiste principalmente em ajuste fino e otimização direta de preferências (DPO).

Fase de Ajuste Fino

O objetivo da fase de ajuste fino é adaptar o modelo a uma variedade de tarefas e áreas diferentes. Nesta fase, a Microsoft utilizou dados de alta qualidade gerados nas seguintes áreas:

  • Matemática: Inclui vários problemas e soluções matemáticas para melhorar a capacidade de raciocínio matemático do modelo.
  • Codificação: Inclui vários problemas e soluções de programação para melhorar a capacidade de geração e compreensão de código do modelo.
  • Raciocínio: Inclui vários problemas de raciocínio lógico para melhorar a capacidade de pensamento lógico do modelo.
  • Diálogo: Inclui vários dados de diálogo para melhorar a capacidade de compreensão e geração de linguagem natural do modelo.
  • Identidade do Modelo: Inclui várias descrições da identidade do modelo para melhorar a compreensão do modelo sobre suas próprias capacidades.
  • Segurança: Inclui vários problemas e soluções de segurança para melhorar a segurança do modelo.

Fase de Otimização Direta de Preferências (DPO)

O objetivo da fase de otimização direta de preferências (DPO) é alinhar melhor o comportamento do modelo com as preferências humanas e eliminar comportamentos indesejados. Esta fase inclui dois passos:

  1. Pivotal Token Search: No primeiro passo, a Microsoft usa uma nova técnica chamada Pivotal Token Search para gerar pares de resultados desejados/indesejados. Esta técnica pesquisa o espaço de saída do modelo para encontrar os tokens-chave que distinguem o comportamento desejado do indesejado.
  2. GPT-4o como Avaliador: No segundo passo, eles usam o GPT-4o como avaliador para atribuir rótulos positivos ou negativos a cada par de resultados. O GPT-4o pode avaliar a saída do modelo com base nas preferências humanas, ajudando o modelo a aprender melhor as preferências humanas.

Avaliação de Desempenho do Phi-4

Para avaliar o desempenho do Phi-4, a Microsoft utilizou a estrutura SIMPLE-EVALS da OpenAI, que inclui uma variedade de benchmarks diferentes que podem avaliar o desempenho do modelo em diferentes tarefas.

Benchmarks

O Phi-4 teve um desempenho excelente nos seguintes benchmarks:

  • GPQA (Perguntas e Respostas STEM de Nível de Pós-Graduação): Neste benchmark, o Phi-4 superou seu modelo professor, o GPT-4o, demonstrando sua grande capacidade de perguntas e respostas no campo STEM.
  • MATH (Competição Matemática): Neste benchmark, o Phi-4 também superou seu modelo professor, o GPT-4o, demonstrando sua excelente capacidade de resolver problemas matemáticos complexos.
  • Comparação com Outros Modelos: Em vários benchmarks, o Phi-4 superou o Llama-3.1-405B, demonstrando seu desempenho geral muito forte.

Análise de Desempenho

Através da avaliação do desempenho do Phi-4, as seguintes conclusões podem ser tiradas:

  • Forte Capacidade de Raciocínio Matemático: O Phi-4 tem um desempenho muito forte em raciocínio matemático, graças às abordagens inovadoras usadas em seu processo de treinamento, incluindo dados sintéticos, dados reais selecionados e estratégias de pós-treinamento.
  • Supera o Modelo Professor: Em vários benchmarks, o Phi-4 superou seu modelo professor, o GPT-4o, demonstrando que seu desempenho não é uma simples destilação de conhecimento.
  • Comparação com Outros Modelos: O Phi-4 superou o Llama-3.1-405B em vários benchmarks, demonstrando seu desempenho geral muito forte.

Perspectivas de Aplicação do Phi-4

O Phi-4, como um modelo de linguagem pequeno projetado para raciocínio matemático complexo, tem amplas perspectivas de aplicação. Pode ser aplicado nas seguintes áreas:

  • Educação: Pode servir como ferramenta de tutoria matemática, ajudando os alunos a resolver problemas matemáticos e proporcionando uma experiência de aprendizagem personalizada.
  • Pesquisa Científica: Pode servir como ferramenta de pesquisa científica, ajudando os pesquisadores a realizar modelagem matemática e análise de dados.
  • Engenharia: Pode servir como ferramenta de engenharia, ajudando os engenheiros a realizar projetos e análises.
  • Finanças: Pode servir como ferramenta financeira, ajudando os analistas financeiros a realizar avaliações de risco e decisões de investimento.
  • Outras Áreas: Também pode ser aplicado em outras áreas que exigem raciocínio matemático complexo, como medicina, logística e manufatura.

Conclusão

O surgimento do Microsoft Phi-4 marca um avanço significativo no campo do raciocínio matemático para modelos de linguagem pequenos. Sua estratégia única de treinamento de dados e abordagem de pós-treinamento permitem que ele supere modelos semelhantes e maiores em desempenho e forneça novas ideias para o desenvolvimento futuro da IA. Com o lançamento do Phi-4 no Hugging Face, acredita-se que ele trará conveniência para mais pesquisadores e desenvolvedores e impulsionará a aplicação da tecnologia de IA em vários campos.