Modelo DeepSeek: Treinado no Gemini? Controvérsia

O mundo da inteligência artificial não é estranho a controvérsias, e o mais recente desenvolvimento envolve o laboratório de IA chinês DeepSeek. Recentemente, a DeepSeek revelou uma versão atualizada de seu modelo de raciocínio R1, demonstrando capacidades impressionantes na abordagem de benchmarks de matemática e codificação. No entanto, a fonte dos dados utilizados para treinar este modelo gerou um debate considerável entre os pesquisadores de IA, com alguns especulando que pode ter se originado, pelo menos em parte, da família Gemini de modelos de IA do Google. Esta suspeita levanta questões significativas sobre práticas éticas, fornecimento de dados e o cenário competitivo dentro da indústria de IA.

A Evidência Apresentada

A controvérsia começou quando Sam Paech, um desenvolvedor sediado em Melbourne especializado na criação de avaliações de “inteligência emocional” para sistemas de IA, apresentou o que ele afirma ser evidência de que o modelo mais recente da DeepSeek foi treinado em saídas geradas pelo Gemini. De acordo com Paech, o modelo da DeepSeek, identificado como R1-0528, exibe uma preferência por palavras e expressões específicas que são notavelmente semelhantes às favorecidas pelo Gemini 2.5 Pro do Google. Embora esta observação por si só possa não ser conclusiva, ela levanta uma bandeira vermelha e justifica uma investigação mais aprofundada.

Aumentando a intriga, outro desenvolvedor, operando sob o pseudônimo SpeechMap e conhecido por criar uma “avaliação de liberdade de expressão” para IA, apontou que os traços do modelo DeepSeek - os “pensamentos” que ele gera enquanto trabalha em direção a uma conclusão - “parecem traços do Gemini”. Esta convergência de padrões linguísticos e processos de pensamento alimenta ainda mais a suspeita de que a DeepSeek pode ter utilizado as saídas do Gemini durante o processo de treinamento.

Acusações Anteriores Contra a DeepSeek

Esta não é a primeira vez que a DeepSeek enfrenta acusações de treinar seus modelos de IA com dados de sistemas de IA rivais. Em dezembro, os desenvolvedores notaram que o modelo V3 da DeepSeek frequentemente se identificava como ChatGPT, a plataforma de chatbot com tecnologia de IA da OpenAI. Este comportamento peculiar sugeriu que o modelo pode ter sido treinado em logs de bate-papo do ChatGPT, levantando preocupações sobre as implicações éticas de tal prática.

No início deste ano, a OpenAI informou ao Financial Times que havia descoberto evidências que ligavam a DeepSeek ao uso de destilação, uma técnica que envolve treinar modelos de IA extraindo dados de modelos maiores e mais capazes. Além disso, a Microsoft, um colaborador e investidor chave na OpenAI, detectou quantidades significativas de dados sendo exfiltrados através de contas de desenvolvedor da OpenAI no final de 2024. A OpenAI acredita que estas contas são afiliadas à DeepSeek, solidificando ainda mais a suspeita de extração não autorizada de dados.

Embora a destilação não seja inerentemente antiética, os termos de serviço da OpenAI proíbem explicitamente que os clientes utilizem as saídas do modelo da empresa para construir sistemas de IA concorrentes. Esta restrição visa proteger a propriedade intelectual da OpenAI e manter um ambiente competitivo justo dentro da indústria de IA. Se a DeepSeek utilizou de fato a destilação para treinar seu modelo R1 com saídas do Gemini, isso constituiria uma violação dos termos de serviço da OpenAI e levantaria sérias preocupações éticas.

Os Desafios da Contaminação de Dados

É importante reconhecer que muitos modelos de IA exibem uma tendência de se identificarem incorretamente e convergirem em palavras e frases semelhantes. Este fenômeno pode ser atribuído à crescente presença de conteúdo gerado por IA na web aberta, que serve como a principal fonte de dados de treinamento para empresas de IA. As fazendas de conteúdo estão usando IA para criar artigos clickbait, e os bots estão inundando plataformas como Reddit e X com postagens geradas por IA.

Esta “contaminação” da web com conteúdo gerado por IA representa um desafio significativo para as empresas de IA, tornando extremamente difícil filtrar completamente as saídas de IA dos conjuntos de dados de treinamento. Como resultado, os modelos de IA podem inadvertidamente aprender uns com os outros, levando às semelhanças observadas na linguagem e nos processos de pensamento.

Opiniões e Perspectivas de Especialistas

Apesar dos desafios da contaminação de dados, especialistas em IA como Nathan Lambert, um pesquisador no instituto de pesquisa de IA sem fins lucrativos AI2, acreditam que não é implausível que a DeepSeek tenha treinado com dados do Gemini do Google. Lambert sugere que a DeepSeek, enfrentando uma escassez de GPUs, mas possuindo amplos recursos financeiros, pode ter optado por gerar dados sintéticos a partir do melhor modelo de API disponível. Em sua opinião, esta abordagem poderia ser mais eficiente em termos computacionais para a DeepSeek.

A perspectiva de Lambert destaca as considerações práticas que podem levar as empresas de IA a explorar estratégias alternativas de fornecimento de dados. Embora o uso de dados sintéticos possa ser uma técnica legítima e eficaz, é crucial garantir que os dados sejam gerados de forma ética e não violem quaisquer termos de serviço ou diretrizes éticas.

Medidas de Segurança e Esforços Preventivos

Em resposta às preocupações em torno da destilação e da contaminação de dados, as empresas de IA têm aumentado suas medidas de segurança. A OpenAI, por exemplo, implementou um requisito para que as organizações completem um processo de verificação de ID para acessar certos modelos avançados. Este processo exige um ID emitido pelo governo de um dos países suportados pela API da OpenAI, excluindo a China da lista.

O Google também tomou medidas para mitigar o risco de destilação, “resumindo” os traços gerados pelos modelos disponíveis através de sua plataforma de desenvolvedor AI Studio. Este processo de resumo torna mais desafiador treinar modelos rivais de alto desempenho em traços do Gemini. Da mesma forma, a Anthropic anunciou em maio que começaria a resumir os traços de seu próprio modelo, citando a necessidade de proteger suas “vantagens competitivas”.

Estas medidas de segurança representam um esforço conjunto das empresas de IA para proteger sua propriedade intelectual e impedir a extração não autorizada de dados. Ao implementar controles de acesso mais rigorosos e ofuscar os traços do modelo, elas visam dissuadir práticas antiéticas e manter um campo de jogo equilibrado dentro da indústria de IA.

A Resposta do Google

Quando contatado para comentar, o Google ainda não respondeu às alegações. Este silêncio deixa espaço para especulação e intensifica ainda mais a controvérsia. Enquanto a comunidade de IA aguarda uma declaração oficial do Google, as perguntas sobre as práticas de fornecimento de dados da DeepSeek continuam a pairar.

As Implicações para a Indústria de IA

A controvérsia da DeepSeek levanta questões fundamentais sobre os limites éticos do desenvolvimento de IA e a importância do fornecimento de dados responsável. À medida que os modelos de IA se tornam cada vez mais sofisticados e capazes, a tentação de cortar custos e utilizar dados não autorizados pode se tornar mais forte. No entanto, tais práticas podem ter consequências prejudiciais, minando a integridade da indústria de IA e corroendo a confiança pública.

Para garantir a sustentabilidade a longo prazo e o desenvolvimento ético da IA, é imperativo que as empresas de IA adiram a diretrizes éticas estritas e priorizem práticas de fornecimento de dados responsáveis. Isso inclui obter consentimento explícito dos fornecedores de dados, respeitar os direitos de propriedade intelectual e evitar o uso de dados não autorizados ou tendenciosos.

Além disso, é necessária maior transparência e responsabilidade dentro da indústria de IA. As empresas de IA devem ser mais transparentes sobre suas práticas de fornecimento de dados e os métodos utilizados para treinar seus modelos. Esta maior transparência ajudará a fomentar a confiança nos sistemas de IA e promover um ecossistema de IA mais ético e responsável.

A controvérsia da DeepSeek serve como um lembrete oportuno dos desafios e considerações éticas que devem ser abordados à medida que a tecnologia de IA continua a avançar. Ao defender princípios éticos, promover a transparência e fomentar a colaboração, a comunidade de IA pode garantir que a IA seja usada para o benefício da sociedade e não à custa de valores éticos.

Análise Detalhada dos Aspectos Técnicos

Para entender melhor as nuances desta questão, é crucial aprofundar os aspectos técnicos de como os modelos de IA são treinados e as técnicas específicas em questão, nomeadamente a destilação e a geração de dados sintéticos.

Destilação: Clonando Inteligência?

Destilação, no contexto da IA, refere-se a uma técnica de compressão de modelos onde um modelo “aluno” menor e mais eficiente é treinado para imitar o comportamento de um modelo “professor” maior e mais complexo. O modelo aluno aprende observando as saídas do modelo professor, extraindo efetivamente conhecimento e transferindo-o para uma arquitetura menor. Embora a destilação possa ser benéfica para implementar modelos de IA em dispositivos com recursos limitados, ela levanta preocupações éticas quando os dados ou a arquitetura do modelo professor são proprietários.

Se a DeepSeek usou as saídas do Gemini para treinar seu modelo R1 através da destilação sem permissão, seria semelhante a clonar a inteligência do Gemini e potencialmente violar os direitos de propriedade intelectual do Google. A chave aqui é o uso não autorizado das saídas do Gemini, que são protegidas por direitos autorais e outros mecanismos legais.

Geração de Dados Sintéticos: Uma Faca de Dois Gumes

A geração de dados sintéticos envolve a criação de pontos de dados artificiais que se assemelham a dados do mundo real. Esta técnica é frequentemente utilizada para aumentar conjuntos de dados de treinamento, especialmente quando os dados reais são escassos ou dispendiosos de obter. No entanto, a qualidade e as implicações éticas dos dados sintéticos dependem fortemente de como são gerados.

Se a DeepSeek usou a API do Gemini para gerar dados sintéticos, a questão torna-se: quão perto estes dados se assemelham às saídas reais do Gemini, e infringe a propriedade intelectual do Google? Se os dados sintéticos são meramente inspirados pelo Gemini, mas não replicam diretamente as suas saídas, pode ser considerado uso justo. No entanto, se os dados sintéticos são virtualmente indistinguíveis das saídas do Gemini, poderia levantar preocupações semelhantes à destilação.

Implicações do Sobreajuste do Modelo

Outra preocupação relacionada é o sobreajuste do modelo. O sobreajuste ocorre quando um modelo aprende os dados de treinamento muito bem, ao ponto de ter um fraco desempenho em dados novos e não vistos. Se a DeepSeek treinou seu modelo R1 excessivamente nas saídas do Gemini, poderia ter resultado em sobreajuste, onde o modelo essencialmente memoriza as respostas do Gemini em vez de generalizar para novas situações.

Este tipo de sobreajuste não só limitaria a aplicabilidade do modelo R1 como também tornaria mais fácil detetar a sua dependência nos dados do Gemini. Os “traços” que o SpeechMap notou podem ser evidência deste sobreajuste, onde o modelo R1 está essencialmente a regurgitar padrões aprendidos com as saídas do Gemini.

Considerações Éticas e Melhores Práticas da Indústria

Além dos aspectos técnicos, esta controvérsia destaca a necessidade de diretrizes claras éticas e melhores práticas da indústria para o desenvolvimento de IA. Alguns princípios chave incluem:

  • Transparência: As empresas de IA devem ser transparentes sobre as suas fontes de dados e metodologias de treinamento. Isto permite auditoria e verificação independentes.
  • Consentimento: As empresas de IA devem obter consentimento explícito dos fornecedores de dados antes de usarem os seus dados para treinamento. Isto inclui respeitar os direitos de propriedade intelectual e evitar a raspagem de dados não autorizada.
  • Justiça: Os modelos de IA devem ser justos e imparciais. Isto requer atenção cuidadosa à diversidade de dados e mitigação de viés algorítmico.
  • Responsabilidade: As empresas de IA devem ser responsáveis pelas ações dos seus modelos de IA. Isto inclui estabelecer estruturas de responsabilidade claras e abordar danos causados por sistemas de IA.
  • Segurança: As empresas de IA devem priorizar a segurança dos seus modelos de IA e dados. Isto inclui proteger contra acesso não autorizado e prevenir violações de dados.

O Papel da Regulação

Além de diretrizes éticas e melhores práticas da indústria, a regulação pode ser necessária para abordar os desafios colocados pelo desenvolvimento de IA. Algumas medidas regulatórias potenciais incluem:

  • Leis de privacidade de dados: Leis que protegem os dados dos indivíduos e restringem o uso de informações pessoais para treinamento de IA.
  • Leis de propriedade intelectual: Leis que protegem modelos e dados de IA de cópia e distribuição não autorizadas.
  • Leis de concorrência: Leis que previnem comportamento anticompetitivo na indústria de IA, como acumulação de dados e acesso injusto a recursos.
  • Regulamentos de segurança: Regulamentos que garantem a segurança e confiabilidade de sistemas de IA utilizados em aplicaçõescríticas.

Ao combinar diretrizes éticas, melhores práticas da indústria e regulação apropriada, podemos criar um ecossistema de IA mais responsável e sustentável que beneficie a sociedade como um todo. A controvérsia da DeepSeek serve como um alerta, exortando-nos a abordar estes desafios proativamente e garantir que a IA é desenvolvida de uma forma que se alinha com os nossos valores e princípios.