1. Nvidia
A busca por sistemas de IA cada vez mais sofisticados continua a impulsionar investimentos substanciais de desenvolvedores de modelos de linguagem grandes (LLMs). No entanto, uma empresa já está colhendo os frutos desta revolução da IA: a Nvidia. Tendo iniciado a corrida da IA com suas unidades de processamento gráfico (GPUs) dominantes, a Nvidia agora está perfeitamente posicionada com seu processador e plataforma Blackwell inovadores para apoiar a busca por inteligência de nível humano.
Blackwell supera seu antecessor, o H100, oferecendo até 2,5 vezes mais potência para tarefas gerais de treinamento de modelo, enquanto consome significativamente menos energia. Os principais operadores de data centers e laboratórios de IA, incluindo gigantes da indústria como Google, Meta, Microsoft, OpenAI, Tesla e xAI, comprometeram-se a comprar centenas de milhares de GPUs Blackwell.
Embora modelos recentes de empresas chinesas como DeepSeek e Alibaba tenham demonstrado capacidades impressionantes usando GPUs Nvidia mais antigas e menos potentes, a Nvidia não está simplesmente descansando sobre os louros. A empresa está ativamente desenvolvendo plataformas para diversas aplicações, desde a descoberta de medicamentos (Clara for Biopharma) e veículos autônomos (Drive AGX) até a produção de vídeo (Holoscan) e gêmeos digitais (Omniverse). Ao promover o progresso da IA em um amplo espectro de cenários do mundo real, a Nvidia está estrategicamente se posicionando para um crescimento sustentado, mesmo que os modelos futuros exibam menor dependência de pura potência computacional.
2. OpenAI
Desde 2019, a OpenAI tem consistentemente aprimorado seus modelos expandindo os dados de treinamento e os recursos computacionais, uma estratégia que foi amplamente adotada em toda a indústria. No entanto, à medida que os retornos decrescentes dessa abordagem de escalonamento se tornaram aparentes, a OpenAI reconheceu a necessidade de um novo caminho para alcançar a AGI – modelos que superam a inteligência humana na maioria das tarefas.
A solução da OpenAI chegou na forma do modelo o1. Em vez de se concentrar apenas no aumento de recursos durante o pré-treinamento, a OpenAI projetou o o1 para alocar mais tempo e poder computacional durante a inferência, a fase em que o modelo está ativamente implantado e respondendo a prompts do usuário. Durante este processo, o o1 coleta e retém informações contextuais, tanto do usuário quanto de fontes de dados relevantes. Ele emprega uma metodologia de tentativa e erro para determinar o caminho ideal para uma resposta. O resultado é a geração de respostas de nível de doutorado para perguntas complexas, impulsionando o o1 para o topo dos rankings de benchmark de desempenho.
A OpenAI oferece versões ‘experimentais’ e ‘mini’ do o1 para assinantes do ChatGPT Plus. Além disso, um serviço premium chamado ChatGPT Pro oferece acesso ilimitado ao modelo o1 completo por US$ 200 por mês. Em dezembro de 2024, a OpenAI revelou o sucessor do o1, o o3, e em fevereiro de 2025, concedeu aos usuários pagos acesso ao o3-mini, uma variante menor e mais rápida otimizada para ciência, matemática e codificação. O impacto mais profundo dos novos modelos de raciocínio da OpenAI é a validação do aumento da computação no momento da inferência como um caminho promissor para alcançar novos avanços em inteligência no caminho para a AGI.
3. Google DeepMind
A pesquisa fundamental que abriu caminho para os chatbots de hoje originou-se no Google no final da década de 2010. O Google havia desenvolvido um chatbot baseado em um modelo de linguagem grande bem antes do surgimento do ChatGPT. No entanto, preocupações com segurança, privacidade e implicações legais teriam levado a uma abordagem cautelosa, atrasando seu lançamento público. Essa hesitação resultou no Google inicialmente ficando para trás na corrida de IA desencadeada pelo lançamento do ChatGPT.
O lançamento do Gemini 2.0 do Google DeepMind em 2024 sinalizou o ressurgimento definitivo do Google. O Gemini 2.0 representa o primeiro modelo de IA de mercado de massa que é inerentemente multimodal, capaz de processar e gerar imagens, vídeo, áudio e código de computador com a mesma fluência que o texto. Essa capacidade permite que o modelo analise e raciocine sobre clipes de vídeo, ou mesmo feeds de vídeo ao vivo de uma câmera de telefone, com notável velocidade e precisão.
O Gemini também se destaca por sua capacidade de controlar outros serviços do Google, como Maps e Search. Essa integração mostra a vantagem estratégica do Google, combinando sua pesquisa de IA com suas ferramentas estabelecidas de informação e produtividade. O Gemini está entre os primeiros modelos de IA que demonstram operação autônoma e a capacidade de raciocinar sobre problemas complexos em nome do usuário. O modelo Gemini 2.0 Flash Thinking Experimental ainda fornece aos usuários insights sobre o processo de pensamento empregado para chegar a uma resposta. Além disso, em dezembro, o Google apresentou o Project Mariner, um recurso de IA agente baseado no Gemini projetado para executar tarefas como compras de supermercado online de forma autônoma.
4. Anthropic
As principais aplicações da IA generativa até agora se concentraram em escrita de texto, resumo e geração de imagens. O próximo passo evolutivo envolve equipar modelos de linguagem grandes com habilidades de raciocínio e a capacidade de utilizar ferramentas. O modelo ‘Computer Use’ da Anthropic forneceu um vislumbre inicial desse futuro.
Começando com o Claude 3.5 Sonnet em 2024, o modelo da Anthropic pode perceber a atividade na tela, incluindo conteúdo da internet. Ele pode manipular um cursor, clicar em botões e inserir texto. Um vídeo de demonstração mostrou a capacidade do Claude de preencher um formulário usando informações disponíveis em sites abertos em abas do navegador. Ele pode realizar tarefas como criar um site pessoal ou organizar a logística de uma viagem de um dia. As ações autônomas da IA, como abrir novas abas, realizar pesquisas e preencher campos de dados, são realmente notáveis.
Embora o modelo atualmente opere em um ritmo mais lento e nem sempre produza a resposta correta, melhorias rápidas são esperadas à medida que a Anthropic identifica e aborda suas limitações. O já mencionado Project Mariner do Google seguiu o exemplo da Anthropic em dezembro, e a OpenAI apresentou seu próprio modelo de uso de computador, o Operator, em janeiro de 2025. Em fevereiro de 2025, a Anthropic revelou sua próxima grande iteração, o Claude 3.7 Sonnet, um modelo maior capaz de engajar automaticamente o modo de raciocínio para consultas desafiadoras.
5. Microsoft
O desenvolvimento dos modelos Phi da Microsoft resultou de uma pergunta fundamental feita pelos pesquisadores da empresa em 2023: “Qual é o menor tamanho de modelo que pode exibir sinais de inteligência emergente?”. Essa pergunta marcou um momento crucial na evolução dos “modelos de linguagem pequenos”, modelos projetados para desempenho ideal em cenários com memória, poder de processamento ou conectividade limitados, onde tempos de resposta rápidos são cruciais.
Ao longo de 2024, a Microsoft lançou duas gerações de modelos pequenos que exibiram capacidades de raciocínio e lógica não explicitamente incorporadas durante o treinamento. Em abril, a empresa revelou uma série de modelos Phi-3 que se destacaram em benchmarks de linguagem, raciocínio, codificação e matemática, provavelmente devido ao seu treinamento em dados sintéticos gerados por LLMs significativamente maiores e mais capazes. Variantes do Phi-3 de código aberto foram baixadas mais de 4,5 milhões de vezes no Hugging Face durante 2024.
No final de 2024, a Microsoft lançou seus modelos de linguagem pequenos Phi-4, que superaram os modelos Phi-3 em tarefas focadas em raciocínio e até superaram o GPT-4o da OpenAI nos benchmarks GPQA (questões científicas) e MATH. A Microsoft lançou o modelo sob uma licença de código aberto e pesos abertos, capacitando os desenvolvedores a criar modelos de borda ou aplicativos para telefones ou laptops. Em menos de um mês, o Phi-4 acumulou 375.000 downloads no Hugging Face.
6. Amazon
A Amazon AWS introduziu recentemente o Trainium2, uma nova versão de seu processador Trainium para IA, potencialmente desafiando o domínio das GPUs da Nvidia em configurações específicas. O Trainium2 é projetado para fornecer a enorme potência computacional necessária para treinar os maiores modelos de IA generativa e para operações de inferência após a implantação do modelo. A AWS afirma que o Trainium é 30% a 40% mais econômico do que as GPUs para tarefas comparáveis.
O Trainium2 aborda as deficiências de potência e integração de software observadas no primeiro chip Trainium, posicionando a Amazon para potencialmente diminuir a diferença com a Nvidia. (Vale a pena notar que a própria AWS continua fortemente dependente da Nvidia para GPUs.) Deslocar a Nvidia é um desafio formidável devido ao bloqueio do cliente com a camada de software CUDA da Nvidia, que fornece aos pesquisadores controle granular sobre como seus modelos utilizam os recursos do chip. A Amazon oferece sua própria camada de software de controle de kernel, Neuron Kernel Interface (NKI), que, semelhante ao CUDA, concede aos pesquisadores controle refinado sobre as interações do kernel do chip.
É importante notar que o Trainium2 ainda não foi testado em escala. A AWS está atualmente construindo um cluster de servidores com 400.000 chips Trainium2 para a Anthropic, o que pode fornecer insights valiosos sobre a otimização do desempenho de seus chips de IA em implantações em larga escala.
7. Arm
A designer britânica de semicondutores Arm tem sido há muito tempo uma fornecedora chave da arquitetura usada em chips que alimentam pequenos dispositivos como telefones, sensores e hardware IoT. Esse papel assume maior importância na era emergente em que os chips de dispositivos de borda executarão modelos de IA. Os data centers também desempenharão um papel crucial nessa evolução, muitas vezes lidando com parte ou todo o processamento de IA mais exigente e entregando resultados aos dispositivos de borda.
À medida que os data centers proliferam globalmente, seu consumo de energia elétrica se tornará uma preocupação cada vez mais premente. Esse fator contribui para a ênfase na eficiência na mais recente arquitetura de CPU Neoverse da Arm. Ela possui uma melhoria de desempenho de 50% em relação às gerações anteriores e 20% melhor desempenho por watt em comparação com processadores que utilizam arquiteturas x86 concorrentes, de acordo com a empresa.
A Arm relata que Amazon, Microsoft, Google e Oracle adotaram o Arm Neoverse tanto para computação de propósito geral quanto para inferência e treinamento de IA baseados em CPU. Por exemplo, em 2024, a Microsoft anunciou que seu primeiro silício personalizado projetado para a nuvem, o processador Cobalt 100, foi construído no Arm Neoverse. Alguns dos maiores data centers de IA dependerão do Grace Hopper Superchip da NVIDIA, que combina uma GPU Hopper e uma CPU Grace baseada no Neoverse. A Arm está programada para lançar sua própria CPU este ano, com a Meta como um de seus clientes iniciais.
8. Gretel
No ano passado, as empresas de IA experimentaram retornos decrescentes ao treinar seus modelos com volumes cada vez maiores de dados extraídos da web. Consequentemente, elas mudaram seu foco da quantidade de dados de treinamento para sua qualidade. Isso levou a um aumento do investimento em conteúdo não público e especializado licenciado de parceiros editores. Os pesquisadores de IA também precisam abordar lacunas ou pontos cegos em seus dados de treinamento gerados por humanos ou anotados por humanos. Para esse fim, eles têm recorrido cada vez mais a dados de treinamento sintéticos gerados por modelos de IA especializados.
A Gretel ganhou destaque em 2024 ao se especializar na criação e curadoria de dados de treinamento sintéticos. A empresa anunciou a disponibilidade geral de seu principal produto, o Gretel Navigator, que permite aos desenvolvedores usar linguagem natural ou prompts SQL para gerar, aumentar, editar e curar conjuntos de dados de treinamento sintéticos para ajuste fino e teste. A plataforma já atraiu uma comunidade de mais de 150.000 desenvolvedores que sintetizaram mais de 350 bilhões de peças de dados de treinamento.
Outros players da indústria perceberam as capacidades da Gretel. A Gretel fez parceria com o Google para tornar seus dados de treinamento sintéticos prontamente acessíveis aos clientes do Google Cloud. Uma parceria semelhante com a Databricks foi anunciada em junho, concedendo aos clientes corporativos da Databricks acesso a dados de treinamento sintéticos para seus modelos executados na nuvem Databricks.
9. Mistral AI
A Mistral AI, concorrente da França na arena da IA generativa, tem consistentemente exercido pressão sobre OpenAI, Anthropic e Google na vanguarda do desenvolvimento de modelos de IA de fronteira. A Mistral AI lançou uma série de novos modelos incorporando avanços tecnológicos significativos em 2024, demonstrando rápido crescimento de negócios por meio de marketing direto de suas APIs e parcerias estratégicas.
No início do ano, a empresa introduziu um par de modelos de código aberto chamados Mixtral, notáveis por seu uso inovador da arquitetura de “mistura de especialistas”, onde apenas um subconjunto especializado dos parâmetros do modelo é engajado para lidar com uma consulta, aumentando a eficiência. Em julho de 2024, a Mistral anunciou o Mistral Large 2, que, com 123 bilhões de parâmetros, apresentou melhorias significativas na geração de código, matemática, raciocínio e chamada de função. A empresa francesa também lançou o Ministral 3B e o Ministral 8B, modelos menores projetados para execução em laptops ou telefones, capazes de armazenar aproximadamente 50 páginas de texto de informações contextuais fornecidas pelo usuário.
A Mistral alcançou sucesso na Europa ao se posicionar como uma alternativa de baixo custo e flexível às empresas de IA dos EUA, como a OpenAI. Também continuou sua expansão no mercado corporativo dos EUA durante 2024. Em junho, a empresa garantiu uma rodada de financiamento de US$ 640 milhões, liderada pela empresa de capital de risco General Catalyst, elevando a avaliação da Mistral para aproximadamente US$ 6,2 bilhões.
10. Fireworks AI
A Fireworks oferece um ambiente de tempo de execução personalizado que simplifica o trabalho de engenharia muitas vezes complexo associado à construção de infraestrutura para implantações de IA. Usando a plataforma Fireworks, as empresas podem integrar qualquer um dos mais de 100 modelos de IA e, em seguida, personalizá-los e ajustá-los para seus casos de uso específicos.
A empresa introduziu novos produtos durante 2024 que a posicionarão para capitalizar as principais tendências da indústria de IA. Primeiro, os desenvolvedores se tornaram cada vez mais focados na capacidade de resposta de modelos e aplicativos baseados em IA. A Fireworks lançou o FireAttention V2, software de otimização e quantização que acelera o desempenho do modelo e reduz a latência da rede. Em segundo lugar, os sistemas de IA estão evoluindo cada vez mais para “pipelines” que invocam vários modelos e ferramentas por meio de APIs. O novo software FireFunction V2 atua como um orquestrador para todos os componentes dentro desses sistemas cada vez mais complexos, particularmente à medida que as empresas implantam mais aplicativos de IA autônomos.
A Fireworks relata um aumento de 600% no crescimento da receita em 2024. Sua base de clientes inclui empresas proeminentes como Verizon, DoorDash, Uber, Quora e Upwork.
11. Snorkel AI
As empresas perceberam que a eficácia de seus sistemas de IA está diretamente ligada à qualidade de seus dados. A Snorkel AI construiu um negócio próspero ajudando as empresas a preparar seus dados proprietários para uso em modelos de IA. A plataforma de desenvolvimento de dados de IA Snorkel Flow da empresa fornece um método econômico para as empresas rotularem e curarem seus dados proprietários, permitindo seu uso na personalização e avaliação de modelos de IA para suas necessidades de negócios específicas.
Em 2024, a Snorkel expandiu seu suporte para incluir imagens, permitindo que as empresas treinem modelos de IA multimodais e geradores de imagens usando suas próprias imagens proprietárias. Também incorporou a geração aumentada de recuperação (RAG) em sua plataforma, permitindo que os clientes recuperem apenas os segmentos mais relevantes de informações de documentos longos, como conteúdo de base de conhecimento proprietário, para uso no treinamento de IA. O Snorkel Custom, um novo nível de serviço de maior contato, envolve os especialistas em aprendizado de máquina da Snorkel colaborando diretamente com os clientes em projetos.
A Snorkel afirma que suas reservas anuais ano a ano dobraram durante 2024, com crescimento de três dígitos nas reservas anuais para cada um dos últimos três anos. Seis dos maiores bancos agora utilizam o Snorkel Flow, de acordo com a empresa, juntamente com marcas como Chubb, Wayfair e Experian.
12. CalypsoAI
À medida que a IA desempenha um papel cada vez mais crucial nos processos críticos de tomada de decisão, as empresas buscam maior visibilidade do funcionamento interno dos modelos. Essa necessidade é particularmente pronunciada em setores regulamentados que devem monitorar continuamente o viés e outras saídas não intencionais. A CalypsoAI foi uma das primeiras a reconhecer esse requisito emergente e respondeu rapidamente com recursos de explicabilidade aprimorados em sua plataforma de infraestrutura de IA.
O que diferencia a Calypso é a amplitude de sua tecnologia de observabilidade. Em 2024, a empresa lançou sua Plataforma de Segurança de IA, que protege os dados corporativos protegendo, auditando e monitorando todos os modelos de IA generativa ativos que uma empresa pode estar usando, independentemente do fornecedor do modelo ou se o modelo está hospedado internamente ou externamente. A Calypso também introduziu novas ferramentas de visualização que permitem aos usuários observar a lógica subjacente às decisões de IA em tempo real.
O mercado está respondendo positivamente à ênfase da Calypso na observabilidade da IA. A empresa relata um aumento de dez vezes nas receitas durante 2024 e antecipa um aumento adicional de cinco vezes em 2025.
13. Galileo
Embora os sistemas de IA exibam menos instâncias de alucinações factuais e vieses em comparação com um ano atrás, eles permanecem suscetíveis a esses problemas. Isso representa uma preocupação significativa para qualquer empresa que utilize IA, particularmente aquelas em setores regulamentados como saúde e bancos. As equipes de desenvolvimento de IA empregam a plataforma de IA da Galileo para medir, otimizar e monitorar a precisão de seus modelos e aplicativos.
No início de 2024, após dois anos de pesquisa, a Galileo lançou o Luna, um conjunto de modelos de avaliação treinados para identificar saídas prejudiciais. Esses modelos permitem que a plataforma da Galileo examine e pontue rapidamente o trabalho de um LLM à medida que ele monta os tokens que constituem sua resposta. Esse processo leva aproximadamente 200 milissegundos, permitindo tempo suficiente para sinalizar e impedir que a saída da IA seja exibida a um usuário. Embora um LLM padrão pudesse realizar essa tarefa, seria consideravelmente mais caro. Os modelos construídos para fins específicos da Galileo oferecem precisão superior, economia e, crucialmente, velocidade.
A Galileo relata uma quadruplicação de sua base de clientes em 2024, com clientes incluindo Twilio, Reddit, Chegg, Comcast e JPMorgan Chase. A startup também garantiu uma rodada de financiamento de US$ 68 milhões de investidores como o CEO da Hugging Face, Clément Delangue.
14. Runway
Uma das aspirações – e ansiedades – mais significativas em torno da IA é seu potencial para gerar vídeo de qualidade suficiente para revolucionar a arte e a economia do cinema. A tecnologia deu passos substanciais em direção a esse futuro em 2024, com a Runway, uma startup de geração de vídeo com sede em Nova York, desempenhando um papel de liderança. O lançamento do modelo Gen-3 Alpha da Runway em junho de 2024 recebeu ampla aclamação da comunidade de IA pela credibilidade significativamente melhorada do vídeo gerado.
A Runway também implementou grandes melhorias em suas ferramentas para controlar a estética do vídeo de IA. O modelo foi treinado em imagens e vídeo e pode gerar vídeo com base em entradas de texto ou imagem. A empresa subsequentemente lançou o Gen-3 Alpha Turbo, uma versão mais econômica e rápida do Gen-3.
Hollywood tem monitorado de perto o progresso da IA generativa, e a Runway relata que começou a produzir versões personalizadas de seus modelos para players da indústria do entretenimento. Ela firmou uma parceria formal com a Lionsgate Studios em setembro de 2024. A Runway desenvolveu um modelo personalizado para a produtora e o treinou no catálogo de filmes da Lionsgate. A Runway afirma que o modelo tem como objetivo ajudar os cineastas, diretores e outros criativos da Lionsgate a ‘aumentar’ seu trabalho, ‘economizando tempo, dinheiro e recursos’. A Runway acredita que seu acordo com a Lionsgate pode servir como um modelo para colaborações semelhantes com outras produtoras.
15. Cerebras Systems
Os sistemas de IA, particularmente os grandes modelos de fronteira, exigem imenso poder computacional para operar em escala. Isso exige a interconexão de milhares ou milhões de chips para distribuir a carga de trabalho. No entanto, as conexões de rede entre os chips podem introduzir gargalos de desempenho. A tecnologia da Cerebras Systems é projetada para aproveitar as vantagens de velocidade e eficiência da integração de uma vasta quantidade de poder computacional em um único chip excepcionalmente grande.
O mais recente chip WSE-3 (Wafer Scale Engine de terceira geração) da empresa, por exemplo, mede 814 milímetros quadrados, o tamanho de um prato de jantar, e é 56 vezes maior do que os chips H100 líderes de mercado da Nvidia. O chip incorpora impressionantes 4 trilhões de transistores e oferece 44 gigabits de memória. Esses chips podem ser agrupados para formar supercomputadores, como o Condor Galaxy, uma ‘constelação’ de supercomputadores interconectados que a Cerebras está desenvolvendo em colaboração com seu maior cliente, a G42, uma empresa de IA e computação em nuvem com sede nos Emirados Árabes Unidos.
Até o momento, a Cerebras encontrou um nicho em grandes organizações de pesquisa, incluindo Mayo Clinic, Sandia National Laboratories, Lawrence Livermore National Laboratory e Los Alamos National Laboratory. A empresa entrou com um pedido de IPO em setembro de 2024. O prospecto indica que as vendas da empresa mais que triplicaram para US$ 78,7 milhões em 2023 e aumentaram para US$ 136,4 milhões no primeiro semestre de 2024.