O rápido desenvolvimento da tecnologia de IA na China tem trazido tanto entusiasmo quanto incerteza para muitas startups. Antes repletas de metas ambiciosas, algumas empresas estão agora recalibrando suas estratégias, enfrentando as duras realidades de um mercado competitivo e com uso intensivo de recursos.
De Grandes Visões a Pivôs Estratégicos
Uma carta interna recente do CEO de um dos ‘Pequenos Tigres’ da IA da China, Baichuan Intelligent, marcou o segundo aniversário da empresa e destacou uma mudança estratégica. O foco se restringiria, priorizando aplicações médicas. Isso contrastava fortemente com sua missão inicial de criar um modelo de base inovador semelhante ao OpenAI, completo com aplicações inovadoras.
Da mesma forma, Li Kaifu, fundador de outro ‘Pequeno Tigre’, 01.AI, anunciou em janeiro que sua empresa adotaria uma abordagem ‘pequena, mas bonita’. Esta foi uma notável partida da grande visão de construir uma plataforma de IA 2.0 para acelerar a chegada da AGI (Inteligência Artificial Geral).
Esses recuos estratégicos alimentaram especulações, com alguns observadores sugerindo que esses ‘Pequenos Tigres’ estão se tornando mais como ‘gatos doentes’. Em um ambiente marcado por mudanças constantes, como essas empresas podem garantir seu futuro?
Para responder a essa pergunta, a equipe editorial da Zhiwei buscou insights de vários especialistas, incluindo especialistas em tecnologia de modelos grandes, especialistas em IA em finanças e saúde e especialistas em tecnologia de IA de empresas líderes.
O Efeito DeepSeek e Estratégias Mutáveis
O cenário da IA mudou drasticamente após a popularidade explosiva do DeepSeek, um modelo que abalou o mercado. Como um guerreiro formidável, o DeepSeek interrompeu o cenário, forçando muitas empresas de IA a reavaliarem suas posições e buscarem caminhos diferentes.
No entanto, essa transformação começou ainda mais cedo do que muitos imaginavam. De acordo com Wang Wenguang, um especialista em tecnologia de modelos grandes, algumas empresas chinesas de IA começaram a abandonar a busca pelo treinamento de modelos grandes mesmo antes do lançamento do DeepSeek V3 e R1. Os custos eram simplesmente muito altos, e essas empresas se sentiram incapazes de competir com alternativas disponíveis gratuitamente e de código aberto, como DeepSeek V2.5 e Qwen 70B da Alibaba.
Liang He, um especialista de uma empresa de serviços de tecnologia de IA, acrescentou que, embora a maioria dos ‘Pequenos Tigres’ ainda estivesse treinando modelos grandes em meados de 2024, seu investimento já havia diminuído significativamente. Em janeiro de 2025, com o lançamento do DeepSeek R1, muitas empresas menores perceberam que não conseguiam acompanhar.
Essa mudança abrupta causou uma grande mudança de direção para os ‘Pequenos Tigres’, afastando-se do desenvolvimento da AGI em direção a abordagens mais especializadas.
Baichuan e 01.AI abandonaram o pré-treinamento de modelos grandes, concentrando-se em IA médica e aplicação industrial, respectivamente. A MiniMax está reduzindo suas operações B2B e se concentrando em mercados estrangeiros com geração de vídeo C-end e outras aplicações. A Zhipu, Moonshot AI e StepUp ainda estão ativas na comunidade de código aberto, mas não produziram nenhum novo modelo que supere o DeepSeek R1. A Zhipu garantiu financiamento considerável e parcerias governo-empresa, garantindo sua sobrevivência. O principal produto da Moonshot AI, Kimi, viu sua posição ameaçada pelo Yuanbao, tornando seu posicionamento cada vez mais estranho.
No geral, os ‘Pequenos Tigres’ estão convergindo cada vez mais com o mercado de SaaS B2B, que alguns consideram ‘sem imaginação’.
O Fascínio e as Limitações do Mercado B2B
A 01.AI anunciou recentemente sua intenção de integrar totalmente o DeepSeek para criar uma plataforma de modelo grande empresarial completa para vários setores. No entanto, essa mudança foi recebida com ceticismo.
Jiang Shao, um especialista em IA financeira, acredita que o futuro da 01.AI é incerto devido ao seu amplo foco, falta de competitividade tecnológica após o surgimento do DeepSeek e capacidades limitadas de comercialização.
Wang Wenguang ecoou esse sentimento, observando que a barreira técnica de entrada para uma plataforma de modelo grande completa é relativamente baixa.
Wang compartilhou sua experiência de desenvolver tal plataforma de forma independente em cerca de seis meses, vendendo-a através de canais pessoais. Ele argumentou que, embora seja difícil lucrar com este produto como uma empresa, pode ser lucrativo como um empreendimento individual.
Wang colabora com várias empresas B2B que oferecem serviços de modelos grandes, mas carecem de uma plataforma técnica. Ele fornece sua plataforma a um baixo custo, em torno de 40.000 a 50.000 yuan por licença, diminuindo significativamente as empresas maiores.
Sua plataforma, KAF (Knowledge-based Agent Factory), usa gráficos de conhecimento, bancos de dados vetoriais e mecanismos de busca para fornecer modelos grandes e aplicações de Agent. Ele permite que os usuários criem assistentes de conhecimento ou Agents personalizados sem codificação por meio do gerenciamento de prompt e modelo. Wang observou a prevalência de plataformas semelhantes no mercado, tornando-o fácil de replicar.
De acordo com Wang, uma empresa que busca desenvolver uma aplicação de modelo grande B2B pode criar rapidamente um produto contratando uma pequena equipe de indivíduos qualificados ou fazendo parceria com uma empresa de IA externa. Essa abordagem é significativamente mais barata do que treinar um modelo grande.
Além do modelo de plataforma, as soluções integradas fornecem hardware, software e ambientes de execução, oferecendo funcionalidade pronta para uso. Zhang Sensen, chefe do grupo de plataforma de tecnologia da Ping An Insurance, acredita que as soluções integradas têm um mercado viável, particularmente entre instituições governamentais e educacionais com capacidades limitadas de implantação técnica. Essas soluções priorizam a facilidade de uso e a autonomia técnica, oferecendo benefícios como segurança de dados, conformidade com a privacidade e otimização de hardware-software. Eles também podem usar chips produzidos internamente, evitando restrições e melhorando a eficiência. Empresas sensíveis a custos e focadas no ROI podem achar as soluções integradas atraentes devido aos seus ciclos de vida mais longos.
O mercado doméstico de SaaS historicamente enfrentou desafios como altos requisitos de personalização, produtos genéricos e homogeneizados, intensa concorrência, estratégias de preços baixos e um foco na monetização de curto prazo. Os clientes neste mercado geralmente têm baixos níveis de digitalização e uma limitada disposição para pagar.
Em contraste, o mercado internacional de SaaS enfatiza a especialização, com empresas concentrando-se em áreas específicas e fornecendo serviços aprofundados para clientes de grande e médio porte com uma maior disposição para pagar.
O campo de modelo grande reflete essas tendências. Eventos recentes no mercado internacional de SaaS demonstram isso:
- Em fevereiro de 2025, a MongoDB adquiriu a Voyage AI, uma startup de IA de 17 meses focada em modelos de incorporação e reclassificação, por US$ 220 milhões.
- Em 2024, a Amazon anunciou um acordo de licenciamento de tecnologia com a Adept, uma startup de AI Agent de dois anos, com alguns membros da Adept se juntando à equipe AGI da Amazon.
Essas startups obtiveram sucesso concentrando-se em um nicho específico dentro da tecnologia de modelo grande. Tais exemplos são raros na China. Muitas pequenas e médias empresas devem constantemente se proteger contra empresas maiores que entram em seu espaço.
Wang Wenguang, aproveitando sua extensa experiência no mercado B2B, descreveu suas duras realidades. Ele observou que, embora haja um grande mercado para plataformas completas, ele é fragmentado. Empresas menores com custos operacionais mais baixos podem oferecer preços competitivos, prejudicando as empresas maiores. Isso reduz o preço dos serviços de aplicação. Mesmo as grandes empresas enfrentam a concorrência de outras startups e integradores tradicionais. As grandes empresas podem ter seus próprios modelos grandes e vantagens de marca, mas enfrentam estratégias de negócios B2B semelhantes.
Como Wang afirmou: ‘Eu também estou usando DeepSeek, e muitas outras empresas estão usando DeepSeek, então não há diferenciação. Existem tantos fornecedores de nuvem na China, então haverá pelo menos tantos concorrentes. O mercado doméstico de B2B sempre foi assim; para sobreviver, você precisa ter conexões fortes, bom serviço ou preços baixos.’
Liang He ofereceu uma avaliação concisa das escolhas atuais e perspectivas futuras da 01.AI:
- A decisão de Li Kaifu de mudar totalmente os negócios da 01.AI para aplicações B2B e promover uma plataforma de modelo grande empresarial completa é comercialmente sólida, mas levará a uma intensa competição.
- A necessidade da 01.AI de oferecer produtos de modelo grande com preços mais baixos do que as empresas maiores é resultado de sua falta de vantagens exclusivas na camada de aplicação.
- A mudança da 01.AI para B2B sinaliza uma perda de imaginação e projetos menos ‘atraentes’. Isso é semelhante ao destino de muitas empresas de visão computacional da onda anterior de IA em 2017.
- A 01.AI pode ter oportunidades se explorar mercados estrangeiros.
Em comparação com a 01.AI, as opiniões sobre o futuro da Baichuan são menos pessimistas.
No entanto, a entrada da Baichuan no campo médico carece de vantagens exclusivas, especialmente em dados.
Jiang Shao disse que a mudança da Baichuan para a área médica é simplesmente uma forma de sobreviver. No entanto, em comparação com a 01.AI, a Baichuan está pelo menos tentando entrar em um nicho de mercado.
Zhang Sensen afirmou que está mais otimista em relação às empresas com dados médicos que desenvolvem modelos grandes médicos do que as empresas de tecnologia. Isso se aplica a qualquer empresa que busca criar um modelo grande específico do setor. O principal desafio na criaçãode modelos grandes médicos está nos dados, não no próprio modelo. Existem muitos hospitais excelentes na China que podem ajustar um modelo grande usando DeepSeek para seu próprio uso.
Como os dados médicos podem ser obtidos de forma eficaz? Jiang Shao disse que as startups de tecnologia de IA carecem de vantagens em dados. Para criar modelos grandes médicos, eles podem precisar colaborar com empresas que já fornecem serviços de TI para hospitais.
Segundo relatos, um dos ‘Pequenos Tigres’ fez uma parceria exclusiva com um grande fórum doméstico de troca de médicos para treinar modelos usando o vasto número de casos gerados pelas trocas de médicos.
Além de uma perspectiva mais otimista sobre os nichos de mercado, os especialistas do setor têm esperanças para o fundador da Baichuan, Wang Xiaochuan.
Liang He acredita que se Wang Xiaochuan terá sucesso na especialização em medicina depende se ele quer buscar um ideal ou ganhar dinheiro. Ele acredita que Wang está mais inclinado a buscar um ideal, criando resultados inovadores de pesquisa de IA médica.
Wang Wenguang enfatizou a natureza desatualizada deste mercado. Ele afirmou que, se o objetivo é a comercialização de curto prazo, o campo médico também é altamente competitivo, semelhante ao mercado geral de B2B. Muitas empresas podem usar gráficos de conhecimento, buscas vetoriais e modelos grandes para aplicações médicas.
De acordo com as discussões da Zhiwei com especialistas em IA médica, a própria pesquisa médica tem lacunas significativas de conhecimento, e novos conhecimentos estão crescendo rapidamente. Portanto, há um potencial significativo para usar modelos grandes para conduzir pesquisas médicas básicas. Por exemplo, o modelo AlphaFold para previsão de estrutura de proteína tem sido usado por mais de 1,8 milhão de cientistas em todo o mundo para acelerar a pesquisa, incluindo o desenvolvimento de materiais biorrenováveis e o avanço da pesquisa genética, de acordo com a Meis Medical.
Além de buscar um ideal ou ganhar dinheiro, a startup de IA médica também enfrenta a questão de criar ou não um modelo grande médico geral.
Zhang Sensen afirmou que não houve um avanço em modelos grandes médicos gerais no mercado doméstico, principalmente devido à dependência de equipamentos médicos poderosos para coleta e aplicação de dados em grande escala. Muitas instalações médicas na China não foram amplamente divulgadas, tornando difícil para a IA realizar diagnósticos precisos. No entanto, alguns hospitais fortes, como a Mayo Clinic, começaram a explorar o lançamento de seus próprios modelos grandes. Embora seja difícil ver oportunidades de lucro a curto prazo, esses tipos de modelos grandes podem ter um profundo impacto na indústria médica a longo prazo.
A indústria médica também enfrenta o desafio do diagnóstico totalmente automatizado, especialmente no mercado doméstico, onde os equipamentos são inadequados e a IA não pode substituir completamente os métodos de diagnóstico tradicionais. A falta de equipamentos médicos generalizados, especialmente em áreas remotas, dificulta a cobertura total da tecnologia médica, portanto, o diagnóstico totalmente automatizado continua sendo um desafio significativo.
A indústria médica tem requisitos rigorosos de licenciamento e conformidade, e os modelos grandes devem abordar questões de conformidade ao entrar no campo médico. Futuros serviços médicos C-end podem combinar as técnicas dos médicos e a IA para melhorar a eficiência do diagnóstico e tratamento, especialmente para as gerações mais jovens.
Finalmente, mesmo desconsiderando as características do mercado doméstico de B2B, a concorrência em aplicações de modelo grande torna desafiador sobreviver no mercado To B. Wang Wenguang afirmou que, embora os modelos de design para produtos To B de modelo grande ainda estejam sendo explorados, eles acabarão convergindo. Isso é verdade não apenas na China, mas também em empresas de tecnologia do Vale do Silício, como OpenAI, Anthropic e Google. Desde que não haja diferença significativa no desempenho dos próprios modelos, é impossível ganhar dinheiro neste mercado, e eventualmente todos estarão no mesmo nível.
É por isso que o DeepSeek R1 teve seu maior impacto não na China, mas no exterior, especialmente em empresas de tecnologia do Vale do Silício. O mercado de ações dos EUA começou a experimentar alta volatilidade e, em seguida, declínio após o lançamento do R1. A lógica central é simples: os modelos grandes do Vale do Silício foram alcançados pela China. Embora não os tenha superado, a incapacidade de ampliar a lacuna tornou impossível sustentar avaliações tão altas, levando a um declínio nos preços das ações.
Claro, há outra maneira de o mercado To B atrair clientes: código aberto. Os principais modelos de lucro para código aberto incluem fornecer funções de nível pago, hospedagem em nuvem e serviços de valor agregado, como consultoria e treinamento de nível empresarial com base na tecnologia de código aberto.
O efeito mais direto dos modelos grandes de código aberto é promover a popularização da tecnologia. Zhang Sensen afirmou que o código aberto do DeepSeek acelerou significativamente a aplicação de modelos grandes pelas empresas. A alta gerência apoia muito a aplicação de modelos grandes. Como os modelos grandes têm um bom desempenho em aplicações práticas, especialmente na redução da intervenção humana e no aumento da eficiência, o suporte continuará a aumentar.
O setor financeiro, como o setor com a melhor qualidade de dados, sempre teve uma rica acumulação técnica em IA e pode acompanhar rapidamente. Independentemente do DeepSeek, o setor financeiro implementará a tecnologia de IA. No entanto, com o DeepSeek, a IA não apenas habilitará os negócios principais do setor financeiro, mas também será usada em tarefas e operações de escritório diárias que antes eram difíceis de realizar.
As operações costumavam ser muito caras. Por exemplo, a análise da causa raiz exigia anteriormente monitoramento de operações tradicionais e AIOps, bem como o treinamento de modelos pequenos. Agora, o DeepSeek pode ser usado em conjunto com bases de conhecimento para gerar planos de aplicação para lidar com monitoramento, alarmes, análise de autoatendimento e rastreabilidade, processamento automatizado e melhoria da estabilidade, o que é mais flexível do que o AIOps.
Além disso, a cobertura da IA das operações tornou-se mais ampla, com maior consideração pela interatividade e iniciativa. Iniciativa significa permitir que a IA execute proativamente as operações. Mudando de depender de regras, humanos ou até mesmo experiência pessoal, onde o nível de experiência humana determinava o nível de capacidade de operações, modelos de IA mais leves agora podem ser usados para alcançar isso diretamente.
Embora a taxa de alucinação do DeepSeek ainda seja alta, mesmo não significativamente diferente de outros modelos semelhantes, suas capacidades de raciocínio e aplicação prática podem compensar os efeitos negativos das alucinações. Esse problema será gradualmente aprimorado por meio de ajuste fino e otimização usando RAG e outras tecnologias relacionadas.
O especialista em tecnologia de modelo grande da Alibaba, Gao Peng, acredita que o impacto do DeepSeek varia para empresas grandes e pequenas:
Os modelos grandes usados internamente pela Alibaba sempre foram os mais avançados do setor, então o surgimento do DeepSeek não teve um impacto significativo. A Alibaba usa o DeepSeek para avaliação de desempenho e comparação, fornecendo mais uma inspiração técnica. A implementação do DeepSeek em Raciocínio é relativamente rápida, e os detalhes técnicos são mais comuns. O DeepSeek também foi influenciado pelo Qianwen.
Em contraste, o DeepSeek tem um impacto maior em pequenas e médias empresas, pois antes não havia nenhum modelo que pudesse alcançar o efeito do DeepSeek ao fornecer implantação privada e de baixo custo. Após o lançamento do DeepSeek, muitas empresas que vendem máquinas integradas DeepSeek surgiram. No entanto, o DeepSeek não é o mais barato em comparação com muitas máquinas integradas de modelo de código aberto, dependendo dos padrões específicos.
Em qualquer caso, o modelo grande de código aberto doméstico agora está prosperando e pode competir globalmente. No entanto, com base na implementação de modelos grandes da Ping An Insurance, Zhang Sensen acredita que os modelos grandes de código aberto ainda têm limitações intransponíveis:
Para nós, o DeepSeek tem principalmente uma enorme vantagem de custo. Em termos de capacidades, pode ser melhor do que outros modelos em cenários de operações em termos de raciocínio, capacidade de generalização e compreensão contextual. No entanto, o DeepSeek não tem um bom desempenho em cenários mais complexos, como controle de risco financeiro. Isso ocorre porque é necessário um ajuste fino mais detalhado ou até mesmo otimização em conjunto com outros modelos. Portanto, o ajuste fino direcionado com base em cenários de aplicação específicos é necessário para melhorar ainda mais o desempenho do modelo.
Os modelos grandes auto-desenvolvidos da Ping An são divididos em duas camadas: o modelo grande de base subjacente e os modelos de domínio responsáveis por bancos, seguros e outros negócios. Os modelos grandes usados internamente têm um desempenho melhor do que o DeepSeek no campo do conhecimento profissional, especialmente em campos específicos, como finanças e medicina, onde os modelos são mais precisos. No entanto, o DeepSeek ainda tem uma forte vantagem na capacidade de raciocínio. Em alguns cenários, queremos usar o DeepSeek para uma tentativa em pequena escala para ver se ele pode ser executado.
Não há diferença significativa entre Alibaba Qianwen, Baidu Wenxin e Zhipu ChatGLM e DeepSeek a esse respeito. O julgamento é baseado no fato de que esses modelos não têm diferença significativa do DeepSeek na capacidade de raciocínio e na estrutura da base de conhecimento.
No geral, o impacto dos modelos grandes de código aberto é atualmente limitado e o ritmo da competição entre eles é intenso.
Os Perigos do Mercado To C
Embora a competição seja acirrada no mercado To B, isso não significa que a rota To C ofereça mais esperança.
A competição no mercado To C para modelos grandes também é muito acirrada, mas é muito diferente do mercado To B.
O cenário do mercado está em constante mudança.
A monetização do To C é difícil.
As aplicações mais populares não geram necessariamente a maior receita. Por exemplo, o ChatGPT tem a maior receita, mas o OpenAI ainda perde US$ 5 bilhões por ano, enquanto muitas aplicações ‘imitadoras’ do ChatGPT provavelmente alcançaram uma rápida lucratividade; depois que o DeepSeek se tornou popular, imitadores e falsificadores vieram em massa.
Observar a situação dos ‘Pequenos Tigres’ do mercado C-end também não é otimista. A comunicação da Zhiwei com especialistas do setor geralmente acredita que os grandes fabricantes trarão grande pressão de sobrevivência.
Jiang Shao afirmou que o melhor desempenho dos ‘Pequenos Tigres’ no mercado consumidor é o Kimi da Moonshot AI. Mas agora, o Yuanbao da Tencent ocupa o primeiro lugar, o DeepSeek ocupa o segundo lugar e o Doubao ocupa o terceiro lugar. As três principais empresas quase ocupam a maior parte da participação de mercado. O Yuanbao da Tencent ganhou um grande número de tráfego de clientes com a ajuda do ecossistema WeChat, enquanto o DeepSeek se destacou com sua inovação tecnológica e excelente desempenho em vários cenários.
Liang He afirmou que a tecnologia de modelo grande da Kimi não é muito diferente de seus concorrentes, então só pode ser gratuita, o que torna muito difícil para a Moonshot comercializar. Como uma aplicação To C, não está claro em que difere de Yuanbao e Doubao. Além disso, o Doubao pode ser apoiado pelos outros negócios da Byte e o Yuanbao pode ser apoiado pelos outros negócios da Tencent. Eles podem investir 100 bilhões para apoiar essas aplicações.
Jiang Shao acrescentou que os usuários C-end estão mais preocupados com a facilidade de uso do produto, o que a Tencent e a Byte são melhores. Claro, a Alibaba também tem oportunidades. A Alibaba está incubando uma aplicação chamada ‘AI Listening’, que usa IA para bate-papo e interação, com o objetivo de substituir o Douyin na plataforma de vídeo curto. Embora o Douyin atraia um grande número de criadores para gerar conteúdo de alta qualidade, as aplicações de bate-papo com IA têm o potencial de atrair grupos de usuários, fornecendo experiências mais personalizadas e interativas. A diferença entre os dois está na criação e interação de conteúdo. Se a Alibaba puder romper com isso, também tem a chance de virar a mesa, mas é difícil dizer se a Tencent seguir.
Em relação ao MiniMax, as opiniões do setor são ligeiramente diferentes.
Liang He acredita que o Conch AI da MiniMax está atualmente obtendo um bom lucro. Ele encontrou seu próprio caminho, mas ainda não se sabe se esse caminho permitirá que o MiniMax aumente sua avaliação o suficiente. Devido à sua orientação de aplicação, o MiniMax está mais relaxado depois que o DeepSeek surgiu. Se eles usarem os modelos do DeepSeek, economizará os custos de pesquisa e desenvolvimento do modelo, e suas aplicações podem continuar a ganhar dinheiro, ainda mais.
Jiang Shao acredita que o MiniMax tem uma chance se conseguir criar um APP popular mais tarde, mas a Alibaba pode excedê-lo e fazer um APP popular primeiro, então, mesmo que o MiniMax tenha uma chance, a probabilidade não é alta.
Em última análise, a diferenciação do produto ainda é o ponto de avanço para as aplicações C-end.
De acordo com o último relatório da a16z ‘Top 100 Gen AI Consumer Apps’, muitas aplicações de baixo uso realmente obtêm melhor receita. Alguns produtos com pouca versatilidade, como identificação de plantas e nutrição, atraem usuários pagantes mais do que produtos gerais.
É difícil diferenciar produtos de IA gerais. Os usuários têm pouca disposição para pagar, o ciclo de lucro é longo, então eles não podem sobreviver a grandes empresas.
E se a diferenciação não for profunda o suficiente verticalmente, também é fácil ser internalizada pelo modelo grande de base por meio de atualizações de capacidade. Por exemplo, as recentes capacidades de geração de imagem do GPT-4o trouxeram um golpe de redução de dimensionalidade para startups de texto para imagem, como Midjourney. Essa capacidade de cobertura é frequentemente aleatória e imprevisível, como diz o ditado, ‘Destruir você não tem nada a ver com você’.
A imitação em nível de pixel de concorrentes e a rápida atualização de modelos grandes de base fazem com que o cenário de startups de IA C-end quase sempre seja mantido por apenas um curto período de tempo.
Quanto a como aproveitar a probabilidade extremamente baixa de se tornar um sucesso, os especialistas do setor acreditam unanimemente que ‘basicamente não há experiência a seguir’.
Os ‘Pequenos Tigres’ entraram na situação de hoje, em grande parte porque investiram muito no modelo grande de base e subestimaram a mão de obra, os recursos financeiros e os recursos materiais necessários para sobreviver e se destacar nessa trilha, resultando em ser difícil diferenciar na trilha de aplicação.
Agora, os ‘Pequenos Tigres’ estão cada vez menos determinados a atacar a AGI, e Li Kaifu afirmou publicamente que apenas DeepSeek, Ali e Byte permanecerão no modelo grande de base doméstico.
A este respeito, os especialistas do setor que se comunicaram com a Zhiwei basicamente concordam com este ponto de vista.
Jiang Shao disse que as startups de IA que ainda estão continuando a trabalhar duro na tecnologia de modelo grande devem basicamente morrer. O mais promissor é definitivamente o DeepSeek, o segundo é a Alibaba e o terceiro é o ByteDance. Espera-se que o primeiro lugar obtenha 50%-80% do tráfego, e os dois últimos podem obter 10% do tráfego. O núcleo está em quem faz a AGI primeiro e quem é o vencedor final.
O DeepSeek é atualmente o mais competitivo no campo de modelos grandes, e sua inovação tecnológica e desempenho em aplicações práticas são impecáveis. A Alibaba e o ByteDance também têm forte competitividade, especialmente em aplicações multiplataforma e recursos de dados. A classificação é baseada principalmente nas capacidades de inovação de cada empresa em tecnologia básica, poder de computação, recursos de dados e aplicações práticas.
As equipes Zhipu e Kimi acreditam firmemente que continuar a aprimorar as capacidades do modelo de base é o futuro. Em contraste, acredito que, com as mudanças na demanda do mercado e a diversificação dos cenários de aplicação, a rota de simplesmente fortalecer o modelo de base pode ser limitada, e caminhos de desenvolvimento de modelo mais flexíveis e adaptáveis podem ser mais competitivos no mercado.
A competição na tecnologia de modelo grande é extremamente acirrada, e as empresas com enormes investimentos devem, eventualmente, ter avanços claros em inovação, poder de computação, dados e otimização para manter a competitividade. Outras empresas que não conseguirem acompanhar o progresso tecnológico ou forem incapazes de lidar com a demanda do mercado serão gradualmente eliminadas.
Liang He disse que apenas DeepSeek, Ali e Byte permanecerão na empresa doméstica de modelo grande de base no futuro, com base no fato de que esses três têm a força e a determinação de investir super recursos em pesquisa e desenvolvimento. Para Byte, é impossível perder a oportunidade de modelos grandes, caso contrário, terá um grande impacto em seu todo. E a tecnologia DeepSeek nãoterá muitas barreiras para Byte, mas o DeepSeek atualmente tem uma vantagem maior na eficiência de P&D. O modelo de código aberto Qianwen da Alibaba em si está em um nível alto. Antes que o DeepSeek se tornasse popular, Qianwen e Llama estavam basicamente se perseguindo. Para a Alibaba, o modelo Qianwen pode não ganhar dinheiro, mas os negócios de nuvem relacionados podem ganhar dinheiro, e o Byte é semelhante e pode continuar a usar a tecnologia de modelo grande para otimizar continuamente a experiência do Douyin e outros Apps. Para startups de IA, se o próprio modelo não ganhar dinheiro, ele toca a raiz da sobrevivência.
Wang Wenguang disse que a vantagem do DeepSeek reside principalmente no idealismo tecnológico. Dentro de dois ou três meses antes e depois do Festival da Primavera, o tráfego do DeepSeek era enorme. Se quisesse comercializar, logo chegaria ao topo do mundo, e outros modelos grandes, como Doubao, não teriam nenhuma chance. Contanto que o DeepSeek não abra o código aberto dos métodos de otimização relacionados à infraestrutura na recente semana de código aberto, ele pode confiar nisso para ganhar dinheiro no futuro, para que outros não tenham chance. O DeepSeek não foi financiado e não precisa ser influenciado por investidores. O idealismo tecnológico e o talento são as maiores barreiras. Em comparação com o OpenAI, os resultados que o OpenAI pode ver agora são basicamente os resultados da pesquisa antes da disputa entre Altman e Ilya. Pelo menos os pontos de inovação foram determinados. Agora, após a partida da equipe original de idealistas, o OpenAI em si quase não tem inovação. Atualmente, a inovação do OpenAI está mais no nível de aplicação, como Deep Research. Não há barreiras para a inovação no nível de aplicação, então ele tem que competir com os concorrentes.
Wang Mu, um especialista em tecnologia de IA de grande fábrica, disse à Zhiwei que, a menos que haja dinheiro, talento e hardware, não há necessidade de desperdiçar esforço no pré-treinamento de modelos grandes. O DeepSeek tinha um cluster de 10.000 cartões já em 2021 e não falta dinheiro. Em contraste, outras pequenas e médias empresas dificilmente conseguem reunir essa condição.
Gao Peng afirmou que as startups de IA querem sobreviver, elas ainda têm que se voltar para aplicações. Eu pensei assim há um ou dois anos, e agora pode ser tarde demais para virar. O primeiro lote de empresas de IA a ser eliminado a seguir será aqueles que fazem modelos grandes de base. O treinamento de modelo grande na verdade tem muitos detalhes complexos e é muito dependente da acumulação de experiência. Os detalhes internos da arquitetura Transformer são geralmente bem compreendidos, mas os artigos de modelos de código aberto ou fechado basicamente não dizem como os dados são preparados, quais são os detalhes dos dados, quão grande é a escala de dados e quão boa é a qualidade de dados. Não há um padrão unificado no setor.
O código aberto aberto sempre foi uma prática típica na trilha de modelo grande. Atualmente, há muito poucos modelos grandes que divulgarão totalmente o código, pesos, conjuntos de dados e processo de treinamento. Os mais conhecidos são OLMo, BLOOM, etc.
No entanto, mesmo que se voltar para aplicações possa sobreviver? Da análise anterior da trilha To B e da trilha To C, é quase difícil para as startups de IA formar suas próprias barreiras de indústria em aplicações. A este respeito, Gao Peng afirmou que a chave para formar suas próprias barreiras de indústria reside em quais dados você tem. Os modelos podem ser usados por qualquer pessoa. Os dados são divididos em dois aspectos: um é a experiência de campo do empresário, e o outro são os dados em mãos.
Da perspectiva da cultura corporativa, Gao Peng acredita que a pesquisa e o desenvolvimento de modelos grandes de base requerem um espírito de trabalho árduo experimental e de engenharia. ‘Por muito tempo antes, muitas startups de IA domésticas eram muito exibicionistas. Ao fazer tecnologia, você deve primeiro fazê-la de forma discreta e, em seguida, promovê-la de forma exibicionista. Algumas equipes são mais fortemente compostas por academia, mas as pessoas na academia às vezes estudam tecnologia muito teoricamente. Em termos de talento ou equipe, o sucesso de uma grande equipe de modelo depende principalmente se o chefe entende modelos grandes. Se o chefe não entende a tecnologia de modelo grande ou não tem a fé para persistir, porque não ganha dinheiro, não funcionará de forma alguma. O sucesso do DeepSeek depende mais de um modo de organização de cima para baixo. O chefe entende muito bem os detalhes técnicos e leva todos a fazê-lo juntos. Existem muito poucos modelos domésticos que atendem a este modelo.’
Em relação à discussão acalorada da indústria sobre a previsão do vencedor final do modelo grande de base doméstico, Gao Peng acredita que este julgamento é muito cedo. ‘Não haverá muita diferença nas rotas técnicas dos jogadores que podem participar da competição. Basta seguir a arquitetura Transformer e fazer uma otimização detalhada. Mamba e RWKV também têm esperança. A chave é fazer as coisas de forma constante, e o tempo provará tudo. O vencedor final e os três primeiros não são fáceis de dizer. A pilha de tecnologia de modelo grande é uma coisa muito complicada, e quem sabe se há muitas pessoas que estão fazendo silenciosamente uma coisa, mas a hora ainda não chegou.’
Na situação atual em que é difícil julgar o vencedor do modelo, os dados se tornaram o fosso mais importante. Konstantine Buhler, um parceiro da Sequoia Capital, disse uma vez que um erro que o OpenAI cometeu no ChatGPT foi não permitir editar as respostas, o que poderia ter fornecido dados de maior qualidade no ciclo de feedback e construído um fosso mais profundo.
Se os dados podem permitir que uma certa indústria se desenvolva ainda mais com a ajuda da IA ou trazer novas oportunidades de negócios no presente também é muito importante. Zhang Sensen disse que a maturidade do pouso da IA está mais perto das indústrias financeira e de Internet. Estou mais otimista em relação ao escritório de IA, assuntos governamentais de IA e e-commerce de IA. É baseado principalmente em seu alto grau de digitalização e na alta certeza de desempenho.
‘Embora o e-commerce seja relativamente maduro, a IA continuará a melhorar a eficiência do e-commerce, especialmente na recomendação de commodities, atendimento ao cliente e otimização de logística. A IA pode melhorar a eficiência das plataformas de e-commerce através de uma análise de mercado mais precisa e otimização da tomada de decisão. Essa melhoria na eficiência não será apenas a continuação do varejo offline, mas trará novas formas de e-commerce, especialmente no campo do e-commerce transfronteiriço, a IA ajudará seu crescimento explosivo.’
‘Em contraste, a indústria financeira experimentou uma explosão de desempenho em 2024, e ainda há muito espaço para crescimento em 2025 à medida que os negócios de IA se aprofundam.’
‘Olhando para aquelas indústrias onde o pouso da IA não é maduro, especialmente a fabricação inteligente, há muitas coisas personalizadas, e os produtos produzidos por cada empresa são diferentes, e não há um padrão unificado. Portanto, é difícil para as empresas promover a automação do trabalho de IA, o preço dos dados é muito alto e os requisitos de precisão também são muito altos. Embora o software industrial seja basicamente a direção de solução mais antiga para o pouso de fabricação inteligente, ele tem um efeito melhor. No entanto, a atualização de IA da indústria de manufatura tem um fardo histórico. Os dados e o nível de informatização da maioria da indústria de manufatura não são suficientes, o que os leva a faltar dados ao fazer IA, especialmente a coleta de amostras anormais é quase inexistente. A complexidade também é alta, como o grande número de tipos de equipamentos e os padrões de dados inconsistentes, o que leva a uma má transferibilidade do algoritmo, muitas vezes ignorando alguns fatores-chave, como temperatura, materiais ou a influência de algumas variáveis imprevisíveis. Além disso, as empresas têm desvios em sua atenção aos dados do sensor. Para vários dados de falha de sensor, as empresas se concentram principalmente nos dados que afetarão os resultados da produção. Na verdade, esses dados de sensor de borda provavelmente se tornarão um ponto de apoio para nós alavancarmos a inovação e a comercialização de toda a indústria de manufatura no futuro. A IA pode descobrir oportunidades de otimização potenciais através da análise desses dados, promovendo assim o progresso de toda a indústria.’
‘Além disso, os requisitos de capacidade da indústria de manufatura também são diferentes de outras indústrias. Requer processamento de problemas em tempo real, e a latência de modelos grandes é difícil de ser aceita aqui. Portanto, a fabricação inteligente não tem retorno sobre o investimento a curto prazo. Claro, o país definitivamente apoiará a IA desta indústria. É possível que um aumento em grande escala ocorra nos próximos cinco anos, e o robô e a IA serão uma combinação dupla.’
No final, para as startups, seja fazendo modelos grandes de base ou fazendo To B ou To C, é difícil encontrar um fosso sólido. Sem a acumulação de longo prazo de dados ou experiência técnica, é impossível formar uma barreira competitiva.
Portanto, uma vez que uma startup não consegue rolar a bola de neve quando é um pouco famosa, é fácil declinar gradualmente e, eventualmente, não encontrar uma razão para sobreviver.
Quando eles pegam uma maçã dourada em algum momento, é apenas que a deusa do destino está tirando uma soneca curta.