DeepSeek: IA Acessível para Empresas

DeepSeek Day Two: Uma Mudança Rumo à Adoção de IA Empresarial

A DeepSeek, uma startup chinesa de IA em ascensão, está causando impacto com seus modelos de fundação significativamente descontados. Essa medida tem o potencial de revolucionar a adoção de IA para empresas, abordando uma das barreiras mais significativas: o custo.

O Alto Custo da Adoção de IA

De acordo com os analistas Brad Sills e Carly Liu da BofA Global Research, a despesa associada às aplicações de IA é o principal obstáculo que dificulta sua implementação generalizada. O relatório deles, divulgado na terça-feira, 28 de janeiro, sugere que avanços na redução de custos poderiam diminuir ainda mais os preços, levando a taxas de adoção aumentadas.

O anúncio da DeepSeek na segunda-feira, 27 de janeiro, causou ondas de choque na indústria de IA, causando um declínio nas ações de várias empresas de IA. A empresa revelou sua capacidade de treinar um modelo de fundação por apenas US$ 5,58 milhões usando 2.048 chips Nvidia H800. Esse valor contrasta fortemente com os custos estimados da OpenAI e da Anthropic, que variam de US$ 100 milhões a um bilhão de dólares e envolvem o uso de milhares de chips de IA da Nvidia.

Roy Benesh, CTO da eSIMple, enfatizou o potencial transformador da conquista da DeepSeek, afirmando que ela capacita empresas menores, desenvolvedores individuais e até pesquisadores a aproveitar o poder da IA sem incorrer em custos exorbitantes. Essa maior acessibilidade pode promover o desenvolvimento de ideias e tecnologias inovadoras, levando a uma maior competitividade no campo. Como resultado, os clientes podem se beneficiar de novas opções, enquanto as empresas de IA estabelecidas provavelmente reduzirão seus preços e acelerarão os avanços tecnológicos.

Os analistas da BofA forneceram exemplos dos custos associados às aplicações de IA existentes. O 365 Copilot Chat da Microsoft cobra entre 1 centavo e 30 centavos por prompt, dependendo da complexidade da solicitação. O Agentforce da Salesforce para Service Cloud cobra uma taxa fixa de US$ 2 por conversão.

Embora a BofA tenha reconhecido que o valor de US$ 5,58 milhões apresentado pela DeepSeek é um tanto enganoso devido à exclusão de custos relacionados a pesquisa, experimentos, arquiteturas, algoritmos e dados, os analistas enfatizaram a importância das inovações da startup ao demonstrar a viabilidade de métodos de treinamento menos dispendiosos.

Pré-Treinamento vs. Inferência: Entendendo os Custos

Modelos de IA de fundação, como GPT-4o da OpenAI e Gemini do Google, passam por um processo chamado pré-treinamento, onde são expostos a vastas quantidades de dados, como toda a internet, para desenvolver conhecimento geral. No entanto, para tornar esses modelos mais relevantes e úteis para empresas e setores específicos, as empresas precisam treinar ou ajustar ainda mais usando seus próprios dados.

Depois que o modelo de IA foi ajustado, ele pode processar prompts do usuário e gerar respostas relevantes. No entanto, o processo de solicitar o modelo e obter uma resposta acarreta custos de inferência, que são taxas associadas ao envolvimento do modelo com novos dados para entender e analisar.

É importante observar que a maioria das empresas não arca com o custo de treinamento de modelos de fundação. Essa responsabilidade recai sobre os desenvolvedores desses modelos, incluindo OpenAI, Google, Meta, Amazon, Microsoft, Anthropic, Cohere, Hugging Face, Mistral AI, Stability AI, xAI, IBM, Nvidia, certos laboratórios de pesquisa e gigantes da tecnologia chinesa como Baidu e Alibaba.

As empresas incorrem principalmente em custos de inferência para processar cargas de trabalho de IA, que constituem a maioria das despesas relacionadas à IA.

A Conexão China: Custos de Inferência e Preocupações com a Privacidade da DeepSeek

A DeepSeek oferece seus próprios serviços de inferência a custos significativamente mais baixos em comparação com as empresas do Vale do Silício. No entanto, há certas considerações a serem lembradas ao usar esses serviços.

De acordo com a política de privacidade da DeepSeek, as informações do usuário são armazenadas em servidores localizados na China. A empresa também afirma que cumprirá as obrigações legais e realizará tarefas de interesse público ou para proteger os interesses vitais de seus usuários e outras pessoas.

A lei de inteligência nacional da China, especificamente o artigo 7, exige que todas as organizações e cidadãos apoiem, auxiliem e cooperem com os esforços de inteligência nacional de acordo com a lei e protejam os segredos do trabalho de inteligência nacional de que estão cientes.

Kevin Surace, CEO da Appvance, levantou preocupações sobre a privacidade, afirmando que a coleta de dados de usuários é uma prática comum na China. Ele aconselhou os usuários a terem cautela.

Em um experimento conduzido pela PYMNTS, o chatbot da DeepSeek foi solicitado a explicar como os protestos da Praça Tiananmen de 1989 influenciaram a política chinesa. O chatbot respondeu: ‘Desculpe, não tenho certeza de como abordar esse tipo de pergunta ainda.’

Tim Enneking, CEO da Presearch, salientou que a DeepSeek é uma empresa 100% de propriedade chinesa localizada na China. Ele observou que a incapacidade do chatbot de fornecer informações sobre a Praça Tiananmen ou figuras do governo chinês sênior sugere limitações na objetividade da tecnologia. Embora Enneking tenha reconhecido o potencial empolgante da tecnologia, ele expressou preocupações sobre seu controle.

No entanto, Enneking também destacou a natureza de código aberto dos modelos da DeepSeek, que permite revisões para remover controles governamentais e corporativos. Ele acredita que a criatividade de engenharia da empresa cria oportunidades para empresas e países menores participarem e terem sucesso no cenário de IA generativa.

O Potencial da DeepSeek para Reduzir os Custos de Inferência para Todos

A abordagem inovadora da DeepSeek para treinar modelos de fundação a um custo menor tem implicações positivas para empresas como a Microsoft, que pode continuar a reduzir o custo da computação de IA e impulsionar a escala. De acordo com Sills e Liu, custos de computação mais baixos podem levar a margens melhores em ofertas habilitadas para IA.

Em uma nota de pesquisa separada, os analistas da BofA Alkesh Shah, Andrew Moss e Brad Sills sugeriram que custos de computação de IA mais baixos poderiam permitir serviços de IA mais amplos em vários setores, de automóveis a smartphones.

Embora seja improvável que desenvolvedores de modelos de fundação como a OpenAI alcancem imediatamente custos de treinamento tão baixos quanto os da DeepSeek, os analistas acreditam que as técnicas inovadoras de treinamento e pós-treinamento da DeepSeek serão adotadas por desenvolvedores concorrentes de modelos de fronteira para aumentar a eficiência. No entanto, eles enfatizam que os modelos atuais ainda exigirão investimentos significativos, pois formam a base para agentes de IA.

A longo prazo, os analistas preveem uma adoção acelerada de IA por empresas, à medida que chatbots, copilotos e agentes se tornam mais inteligentes e baratos, um fenômeno conhecido como paradoxo de Jevons.

O CEO da Microsoft, Satya Nadella, ecoou esse sentimento no X, afirmando que o paradoxo de Jevons está em jogo à medida que a IA se torna mais eficiente e acessível. Ele acredita que isso levará a um aumento no uso de IA, transformando-a em uma commodity da qual não nos cansamos.

Uma Análise Mais Profunda dos Modelos de Fundação e Seu Impacto

Os modelos de fundação, a espinha dorsal da IA moderna, estão revolucionando a forma como as empresas operam e interagem com a tecnologia. Esses modelos, treinados em vastos conjuntos de dados, possuem a capacidade de realizar uma ampla gama de tarefas, desde processamento de linguagem natural até reconhecimento de imagem. O desenvolvimento e a implantação desses modelos, no entanto, envolvem uma complexa interação de fatores, incluindo custos de treinamento, custos de inferência, privacidade de dados e considerações éticas.

Entendendo os Modelos de Fundação

Em sua essência, os modelos de fundação são grandes redes neurais treinadas em conjuntos de dados massivos. Este processo de treinamento permite que eles aprendam padrões e relacionamentos dentro dos dados, permitindo-lhes realizar uma variedade de tarefas com notável precisão. Alguns exemplos de modelos de fundação incluem:

  • GPT-4o: Um poderoso modelo de linguagem desenvolvido pela OpenAI, capaz de gerar texto de qualidade humana, traduzir idiomas e responder a perguntas de forma abrangente.
  • Gemini do Google: Um modelo de IA multimodal que pode processar e entender vários tipos de dados, incluindo texto, imagens e áudio.

Esses modelos não se limitam a tarefas específicas, mas podem ser adaptados a uma ampla gama de aplicações, tornando-os ferramentas versáteis para empresas.

O Papel do Pré-Treinamento e Ajuste Fino

O desenvolvimento de um modelo de fundação normalmente envolve duas etapas principais: pré-treinamento e ajuste fino.

  • Pré-treinamento: Nesta etapa, o modelo é treinado em um conjunto de dados massivo, como toda a internet, para aprender conhecimento geral e habilidades linguísticas. Este processo equipa o modelo com a capacidade de entender e gerar texto, traduzir idiomas e executar outras tarefas básicas.
  • Ajuste fino: Nesta etapa, o modelo pré-treinado é ainda treinado em um conjunto de dados menor e mais específico relacionado a uma tarefa ou setor específico. Este processo permite que o modelo adapte seu conhecimento e habilidades às necessidades específicas da aplicação.

Por exemplo, um modelo de linguagem pré-treinado poderia ser ajustado em um conjunto de dados de interações de atendimento ao cliente para criar um chatbot que possa responder efetivamente às consultas dos clientes.

O Custo do Treinamento e Inferência

Os custos associados aos modelos de fundação podem ser divididos em duas categorias principais: custos de treinamento e custos de inferência.

  • Custos de treinamento: Esses custos envolvem os recursos computacionais, dados e experiência necessários para treinar o modelo de fundação. Treinar um grande modelo de fundação pode ser extremamente caro, muitas vezes exigindo milhões de dólares em investimento.
  • Custos de inferência: Esses custos envolvem os recursos computacionais necessários para usar o modelo treinado para fazer previsões ou gerar resultados. Os custos de inferência podem variar dependendo do tamanho e complexidade do modelo, da quantidade de dados sendo processada e da infraestrutura sendo usada.

A inovação da DeepSeek reside em sua capacidade de reduzir significativamente os custos de treinamento associados aos modelos de fundação, tornando-os mais acessíveis a uma gama mais ampla de empresas e organizações.

Abordando Preocupações com Privacidade e Ética

O uso de modelos de fundação levanta questões importantes sobre privacidade de dados e considerações éticas. Os modelos de fundação são treinados em conjuntos de dados massivos, que podem conter informações confidenciais ou pessoais. É crucial garantir que esses modelos sejam usados de forma responsável e ética, respeitando a privacidade do usuário e evitando o preconceito.

Algumas estratégias para abordar essas preocupações incluem:

  • Anonimização de dados: Remover ou mascarar informações pessoais dos dados de treinamento para proteger a privacidade do usuário.
  • Detecção e mitigação de preconceitos: Identificar e abordar preconceitos nos dados de treinamento para garantir que o modelo não perpetue estereótipos prejudiciais ou práticas discriminatórias.
  • Transparência e responsabilidade: Fornecer informações claras sobre como o modelo funciona e como está sendo usado, e estabelecer mecanismos de responsabilidade em caso de erros ou consequências não intencionais.

À medida que os modelos de fundação se tornam mais prevalentes, é essencial abordar essas preocupações de privacidade e ética proativamente para garantir que sejam usados para o benefício da sociedade.

O Futuro dos Modelos de Fundação

Os modelos de fundação estão evoluindo rapidamente, e seu potencial impacto na sociedade é imenso. No futuro, podemos esperar ver:

  • Modelos mais poderosos e versáteis: À medida que os pesquisadores continuam a desenvolver novas arquiteturas e técnicas de treinamento, os modelos de fundação se tornarão ainda mais poderosos e versáteis, capazes de realizar uma gama mais ampla de tarefas com maior precisão.
  • Maior acessibilidade: À medida que os custos de treinamento diminuem e as plataformas de IA baseadas em nuvem se tornam mais prevalentes, os modelos de fundação se tornarão mais acessíveis a empresas de todos os tamanhos.
  • Novas aplicações e casos de uso: Os modelos de fundação continuarão a ser aplicados a novos e inovadores casos de uso em vários setores, da saúde às finanças à educação.

A ascensão dos modelos de fundação representa uma mudança de paradigma no campo da inteligência artificial. Ao entender suas capacidades, custos e considerações éticas, podemos aproveitar seu poder para criar um futuro melhor.

A Contribuição da DeepSeek para a Democratização da IA

A conquista da DeepSeek em reduzir significativamente o custo de treinamento de modelos de fundação marca um momento crucial na democratização da IA. Ao diminuir a barreira de entrada, a DeepSeek está capacitando uma gama mais ampla de organizações e indivíduos a participar da revolução da IA.

O Impacto nas Empresas Menores

As empresas menores geralmente carecem de recursos e experiência para desenvolver e implantar seus próprios modelos de IA. Os modelos de fundação econômicos da DeepSeek fornecem a essas empresas acesso a tecnologia de IA de ponta que antes estava fora de alcance. Isso pode nivelar o campo de atuação, permitindo que as empresas menores compitam de forma mais eficaz com empresas maiores e mais estabelecidas.

Por exemplo, uma pequena empresa de comércio eletrônico poderia usar os modelos da DeepSeek para personalizar as recomendações de produtos para seus clientes, melhorar seu atendimento ao cliente ou automatizar suas campanhas de marketing.

A Capacitação de Desenvolvedores Individuais

Os modelos da DeepSeek também capacitam desenvolvedores individuais e pesquisadores a explorar novas aplicações e inovações de IA. Com acesso a modelos de fundação acessíveis, os desenvolvedores podem experimentar diferentes ideias, desenvolver novas ferramentas alimentadas por IA e contribuir para o avanço da tecnologia de IA.

Isso pode levar a um aumento na inovação, pois mais pessoas têm a oportunidade de participar do desenvolvimento da IA.

O Potencial para Colaboração de Código Aberto

A abordagem de código aberto da DeepSeek promove ainda mais a colaboração e a inovação na comunidade de IA. Ao disponibilizar seus modelos ao público, a DeepSeek incentiva os desenvolvedores a contribuir para sua melhoria, identificar e corrigir bugs e desenvolver novos recursos.

Essa abordagem colaborativa pode acelerar o desenvolvimento da tecnologia de IA e garantir que ela seja usada para o benefício de todos.

A Aceleração da Adoção de IA

Ao diminuir o custo da IA, a DeepSeek está acelerando a adoção da IA em vários setores. À medida que a IA se torna mais acessível e acessível, mais empresas poderão integrá-la em suas operações, levando ao aumento da produtividade, eficiência e inovação.

Isso pode ter um profundo impacto na economia global, impulsionando o crescimento e criando novas oportunidades.

Um Ecossistema de IA Mais Inclusivo

Os esforços da DeepSeek para democratizar a IA estão contribuindo para um ecossistema de IA mais inclusivo, onde mais pessoas têm a oportunidade de participar do desenvolvimento e uso da IA. Isso pode ajudar a garantir que a IA seja usada de forma a beneficiar todos os membros da sociedade, em vez de apenas alguns.

Ao capacitar empresas menores, desenvolvedores individuais e pesquisadores, a DeepSeek está promovendo um cenário de IA mais diversificado e inovador.