A paisagem dos Large Language Models (LLMs) testemunhou uma transformação significativa, com o Google emergindo como um player proeminente enquanto a Meta e a OpenAI enfrentam desafios notáveis. Inicialmente, a OpenAI dominou o campo com seus inovadores modelos GPT, estabelecendo novos benchmarks para o desempenho de LLMs. A Meta também garantiu uma posição substancial ao oferecer modelos de peso aberto que ostentavam capacidades impressionantes e permitiam o uso, modificação e implantação irrestritos de seu código acessível ao público.
No entanto, esse domínio inicial deixou outras gigantes da tecnologia, incluindo o Google, correndo atrás do prejuízo. Apesar do artigo de pesquisa fundamental do Google em 2017 sobre a arquitetura de transformadores que sustenta os LLMs, os esforços iniciais da empresa foram ofuscados pelo lançamento amplamente criticado do Bard em 2023.
Recentemente, a maré virou com a introdução de novos LLMs poderosos do Google, juntamente com os contratempos experimentados pela Meta e OpenAI. Essa mudança alterou significativamente a dinâmica da paisagem dos LLMs.
Llama 4 da Meta: Um Passo em Falso?
O lançamento inesperado do Llama 4 pela Meta no sábado, 5 de abril, levantou sobrancelhas em toda a indústria.
A decisão de lançar um modelo importante em um fim de semana foi percebida como não convencional, levando a uma recepção moderada e obscurecendo o anúncio em meio ao fluxo de notícias da semana subsequente.
Embora o Llama 4 possua certas fortalezas, incluindo suas capacidades multimodais (lidando com imagens, áudio e outras modalidades) e sua disponibilidade em três versões (Llama 4 Behemoth, Maverick e Scout) com diferentes tamanhos e pontos fortes, seu lançamento foi recebido com críticas. A versão Llama 4 Scout, em particular, apresentava uma janela de contexto substancial de até 10 milhões de tokens, permitindo que o modelo processasse e gerasse vastas quantidades de texto em uma única sessão.
No entanto, a recepção do modelo azedou quando surgiram discrepâncias em relação à abordagem de ranking da Meta no LMArena, uma plataforma que classifica os LLMs com base nos votos dos usuários. Descobriu-se que o modelo Llama 4 específico usado para os rankings era diferente daquele disponibilizado ao público em geral. A LMArena afirmou que a Meta forneceu ‘um modelo personalizado para otimizar a preferência humana’.
Além disso, as alegações da Meta em relação à janela de contexto de 10 milhões de tokens do Llama 4 Scout foram recebidas com ceticismo. Apesar da precisão técnica desse número, benchmarks revelaram que o Llama 4 ficou atrás dos modelos concorrentes no desempenho de contexto longo.
Aumentando as preocupações, a Meta se absteve de lançar um modelo de ‘raciocínio’ ou ‘pensamento’ do Llama 4 e reteve variantes menores, embora a empresa tenha indicado que um modelo de raciocínio está por vir.
BenLorica, fundador da empresa de consultoria em IA Gradient Flow, observou que a Meta se desviou da prática padrão de um lançamento mais sistemático, onde todos os componentes estão totalmente preparados. Isso sugere que a Meta pode ter estado ansiosa para mostrar um novo modelo, mesmo que faltassem elementos essenciais, como um modelo de raciocínio e versões menores.
GPT-4.5 da OpenAI: Uma Retirada Prematura
A OpenAI também enfrentou desafios nos últimos meses.
O GPT-4.5, revelado como uma prévia de pesquisa em 27 de fevereiro, foi anunciado como o ‘maior e melhor modelo da empresa para bate-papo até agora’. Os benchmarks da OpenAI indicaram que o GPT-4.5 geralmente superava seu antecessor, o GPT-4o.
No entanto, a estrutura de preços do modelo atraiu críticas. A OpenAI definiu o preço de acesso à API em US$ 150 por milhão de tokens de saída, um aumento impressionante de 15 vezes em comparação com o preço de US$ 10 por milhão de tokens do GPT-4o. A API permite que os desenvolvedores integrem os modelos da OpenAI em seus aplicativos e serviços.
Alan D. Thompson, consultor de IA e analista da Life Architect, estimou que o GPT-4.5 provavelmente foi o maior LLM tradicional lançado durante o primeiro trimestre de 2025, com aproximadamente 5,4 trilhões de parâmetros. Ele argumentou que tal escala imensa é difícil de justificar dadas as limitações de hardware atuais e apresenta desafios significativos para servir uma grande base de usuários.
Em 14 de abril, a OpenAI anunciou sua decisão de descontinuar o acesso ao GPT-4.5 por meio da API após menos de três meses. Embora o GPT-4.5 permaneça acessível, ele será limitado aos usuários do ChatGPT por meio da interface do ChatGPT.
Este anúncio coincidiu com a introdução do GPT-4.1, um modelo mais econômico com preço de US$ 8 por milhão de tokens. Os benchmarks da OpenAI indicam que o GPT-4.1 não é tão capaz quanto o GPT-4.5 em geral, embora exiba desempenho superior em certos benchmarks de codificação.
A OpenAI também lançou recentemente novos modelos de raciocínio, o3 e o4-mini, com o modelo o3 demonstrando um desempenho de benchmark particularmente forte. No entanto, o custo continua sendo uma preocupação, pois o acesso à API ao o3 tem o preço de US$ 40 por milhão de tokens de saída.
Ascensão do Google: Aproveitando a Oportunidade
A recepção mista do Llama 4 e do ChatGPT-4.5 criou uma abertura para que os concorrentes capitalizassem e eles aproveitaram a oportunidade.
O lançamento problemático do Llama 4 pela Meta provavelmente não dissuadirá os desenvolvedores de adotar alternativas como o DeepSeek-V3, o Gemma do Google e o Qwen2.5 da Alibaba. Esses LLMs, introduzidos no final de 2024, tornaram-se os modelos de peso aberto preferidos nos rankings do LMArena e do HuggingFace. Eles rivalizam ou superam o Llama 4 em benchmarks populares, oferecem acesso à API acessível e, em alguns casos, estão disponíveis para download e uso em hardware de nível de consumidor.
No entanto, é o LLM de ponta do Google, o Gemini 2.5 Pro, que realmente capturou a atenção.
Lançado em 25 de março, o Google Gemini 2.5 Pro é um ‘modelo de pensamento’ semelhante ao GPT-o1 e ao DeepSeek-R1, empregando auto-prompting para raciocinar através de tarefas. O Gemini 2.5 Pro é multimodal, apresenta uma janela de contexto de um milhão de tokens e suporta pesquisa aprofundada.
O Gemini 2.5 alcançou rapidamente vitórias de benchmark, incluindo o primeiro lugar no SimpleBench (embora tenha cedido essa posição para o o3 da OpenAI em 16 de abril) e no Índice de Inteligência Artificial Combinada da Artificial Analysis. O Gemini 2.5 Pro atualmente ocupa a primeira posição no LMArena. Em 14 de abril, os modelos do Google ocupavam 5 dos 10 primeiros lugares no LMArena, incluindo o Gemini 2.5 Pro, três variantes do Gemini 2.0 e o Gemma 3-27B.
Além de seu desempenho impressionante, o Google também é um líder de preços. O Google Gemini 2.5 está atualmente disponível para uso gratuito através do aplicativo Gemini do Google e do site AI Studio do Google. O preço da API do Google também é competitivo, com o Gemini 2.5 Pro com preço de US$ 10 por milhão de tokens de saída e o Gemini 2.0 Flash com preço de apenas 40 centavos por milhão de tokens.
Lorica observa que para tarefas de raciocínio de alto volume, ele frequentemente opta pelo DeepSeek-R1 ou Google Gemini, enquanto usar os modelos da OpenAI requer uma consideração mais cuidadosa dos preços.
Embora a Meta e a OpenAI não estejam necessariamente à beira do colapso, a OpenAI se beneficia da popularidade do ChatGPT, que supostamente possui um bilhão de usuários. No entanto, os fortes rankings e o desempenho de benchmark do Gemini indicam uma mudança na paisagem dos LLMs, favorecendo atualmente o Google.