Llama da Meta: De Vanguarda a Essencial?

O percurso do modelo de linguagem grande (LLM) Llama da Meta tem sido objeto de intenso escrutínio e debate na comunidade de inteligência artificial. Aproximadamente um ano separou o lançamento do Llama 3 e do Llama 4, uma eternidade no cenário de rápida evolução da IA. Embora inicialmente saudado como uma alternativa inovadora de código aberto aos modelos proprietários como as ofertas da OpenAI, desenvolvimentos recentes sugerem uma mudança na perceção, com alguns a questionarem a relevância contínua do Llama na vanguarda da inovação em IA.

Deceções da LlamaCon e Expectativas Mutáveis

Na LlamaCon, a conferência inaugural da Meta dedicada aos seus LLMs de código aberto, uma sensação de expetativas não cumpridas permeou a atmosfera. Vários desenvolvedores presentes confidenciaram que tinham antecipado a revelação de um modelo de raciocínio sofisticado, ou pelo menos um modelo tradicional capaz de superar concorrentes como o V3 da DeepSeek e o Qwen, este último sendo um conjunto de modelos desenvolvidos pela divisão de computação em nuvem da Alibaba.

A ausência de tais anúncios alimentou preocupações de que o Llama estivesse a perder terreno na corrida pela supremacia da IA. Apenas um mês antes da conferência, a Meta tinha lançado a quarta geração da sua família Llama, incluindo os modelos de peso aberto Llama 4 Scout e Llama 4 Maverick. O Scout foi projetado para um desempenho eficiente numa única GPU, enquanto o Maverick foi projetado como um modelo maior para rivalizar com outros modelos básicos.

Além do Scout e do Maverick, a Meta forneceu uma prévia do Llama 4 Behemoth, um “modelo de professor” significativamente maior ainda em treinamento. O objetivo do Behemoth é facilitar a destilação, uma técnica para criar modelos menores e especializados a partir de um maior e mais geral.

No entanto, surgiram relatos indicando atrasos no lançamento do Behemoth e desafios para alcançar um desempenho competitivo com o conjunto Llama 4. Apesar das alegações da Meta de capacidades de última geração, a perceção entre alguns desenvolvedores era de que o Llama não estava mais a liderar o grupo.

A Ascensão dos Concorrentes: Qwen e DeepSeek

A deceção em torno da LlamaCon e dos modelos Llama 4 reflete um sentimento mais amplo de que os LLMs de código aberto da Meta estão a perder impulso em termos de desempenho técnico e entusiasmo do desenvolvedor. Embora a Meta enfatize o seu compromisso com os princípios de código aberto, a construção de ecossistemas e a inovação, concorrentes como DeepSeek, Qwen e OpenAI estão a avançar rapidamente em áreas críticas como raciocínio, uso de ferramentas e implantação no mundo real.

Um desenvolvedor, Vineeth Sai Varikuntla, expressou a sua deceção, afirmando que esperava que o Llama superasse o Qwen e o DeepSeek em casos de uso geral e raciocínio, mas descobriu que o Qwen estava significativamente à frente.

Este sentimento sublinha os desafios que a Meta enfrenta para manter a posição do Llama como um LLM de código aberto líder. Embora os lançamentos iniciais do Llama tenham atraído atenção e elogios significativos, o surgimento de alternativas cada vez mais capazes intensificou o cenário competitivo.

Um Começo Promissor: O Impacto do Llama 2

Para apreciar totalmente a narrativa atual em torno do Llama, é essencial lembrar as suas origens e a excitação inicial que gerou. Em 2023, o CEO da Nvidia, Jensen Huang, elogiou o lançamento do Llama 2 como “provavelmente o maior evento em IA” daquele ano. Em julho de 2024, o lançamento do Llama 3 foi considerado um avanço, representando o primeiro LLM aberto capaz de desafiar o domínio da OpenAI.

A chegada do Llama 3 desencadeou um aumento imediato na procura por poder de computação, levando ao aumento dos preços de aluguer de GPU, de acordo com Dylan Patel, analista-chefe da SemiAnalysis. As pesquisas do Google por “Meta” e “Llama” também atingiram o pico durante este período, indicando um interesse generalizado no novo modelo.

O Llama 3 foi celebrado como um LLM de fabricação americana, aberto e de primeira linha. Embora não tenha consistentemente superado os benchmarks da indústria, exerceu considerável influência e relevância dentro da comunidade de IA. No entanto, esta dinâmica mudou gradualmente.

Mudanças Arquitetônicas e Críticas

Os modelos Llama 4 introduziram uma arquitetura de “mistura de especialistas”, um design popularizado pela DeepSeek. Esta arquitetura permite que o modelo ative apenas a especialização mais relevante para uma tarefa específica, melhorando assim a eficiência.

No entanto, o lançamento do Llama 4 foi recebido com críticas quando os desenvolvedores descobriram que a versão utilizada para benchmarking público diferia da versão disponível para download e implantação. Esta discrepância levou a acusações de “manipulação do ranking”, que a Meta negou, afirmando que a variante em questão era experimental e que avaliar várias versões de um modelo é prática comum.

Apesar das explicações da Meta, a controvérsia contribuiu para a perceção de que o Llama estava a lutar para manter a sua vantagem competitiva. À medida que os modelos concorrentes continuaram a avançar, a Meta parecia carecer de uma direção clara.

Medindo a Adoção do Desenvolvedor: Uma Tarefa Complexa

Determinar qual família LLM é mais popular entre os desenvolvedores é uma tarefa desafiadora. No entanto, os dados disponíveis sugerem que os modelos mais recentes do Llama não estão entre os líderes.

O Qwen, em particular, classifica-se consistentemente em alta em vários rankings na internet. De acordo com a Artificial Analysis, um site que classifica os modelos com base no desempenho, o Llama 4 Maverick e o Scout estão posicionados logo acima do modelo GPT-4 da OpenAI (lançado no final do ano anterior) e abaixo do Grok da xAI e do Claude da Anthropic em termos de inteligência.

O OpenRouter, uma plataforma que fornece aos desenvolvedores acesso a vários modelos e publica rankings com base no uso da API, mostra o Llama 3.3 entre os 20 principais modelos no início de maio, mas não o Llama 4.

Estes pontos de dados, embora não sejam definitivos, sugerem que as iterações mais recentes do Llama não ressoaram tão fortemente com os desenvolvedores quanto os seus antecessores.

Além dos Benchmarks: Uso de Ferramentas e Raciocínio

Embora as avaliações padrão do Llama 4 possam ter sido dececionantes, os especialistas argumentam que o entusiasmo moderado decorre de fatores além das métricas de desempenho bruto.

AJ Kourabi, analista da SemiAnalysis, enfatiza a importância do “tool calling” e da capacidade do modelo de se estender além da simples funcionalidade de chatbot. O tool calling refere-se à capacidade de um modelo de aceder e instruir outras aplicações na internet ou no dispositivo do utilizador, uma característica crucial para a IA agentic, que promete automatizar tarefas como reservar viagens e gerir despesas.

A Meta afirmou que os modelos Llama suportam o tool calling através da sua API. No entanto, Theo Browne, desenvolvedor e YouTuber, argumenta que o tool calling tornou-se uma necessidade para a relevância de ponta à medida que as ferramentas agentic ganham destaque.

A Anthropic surgiu como um dos primeiros líderes no uso de ferramentas, e modelos proprietários como a OpenAI estão a recuperar rapidamente. A capacidade de chamar de forma confiável a ferramenta certa para gerar a resposta certa é altamente valiosa, e a OpenAI mudou o seu foco para priorizar esta capacidade.

Kourabi argumenta que a ausência de um modelo de raciocínio forte é um indicador significativo de que a Meta ficou para trás. O raciocínio é considerado um elemento fundamental na equação da IA agentic, permitindo que os modelos analisem tarefas e determinem o curso de ação apropriado.

O Nicho do Llama: Aplicações Práticas e Adoção Empresarial

Apesar das preocupações sobre a sua posição na vanguarda da pesquisa em IA, o Llama continua a ser uma ferramenta valiosa para muitos desenvolvedores e organizações.

Nate Jones, chefe de produto da RockerBox, aconselha os desenvolvedores a incluir o Llama nos seus currículos, pois a familiaridade com o modelo provavelmente será procurada no futuro.

Paul Baier, CEO e analista principal da GAI Insights, acredita que o Llama continuará a ser um componente-chave das estratégias de IA para muitas empresas, especialmente aquelas fora da indústria de tecnologia.

As empresas reconhecem a importância dos modelos de código aberto, com o Llama sendo um exemplo proeminente, para lidar com tarefas menos complexas e controlar custos. Muitas organizações preferem uma combinação de modelos fechados e abertos para atender às suas diversas necessidades.

Baris Gultekin, chefe de IA da Snowflake, observa que os clientes geralmente avaliam os modelos com base nos seus casos de uso específicos, em vez de confiar apenas em benchmarks. Dado o seu baixo custo, o Llama geralmente se mostra suficiente para muitas aplicações.

Na Snowflake, o Llama é usado para tarefas como resumir transcrições de chamadas de vendas e extrair informações estruturadas de avaliações de clientes. Na Dremio, o Llama gera código SQL e escreve e-mails de marketing.

Tomer Shiran, cofundador e diretor de produto da Dremio, sugere que o modelo específico pode não ser crítico para 80% das aplicações, pois a maioria dos modelos agora é “boa o suficiente” para atender às necessidades básicas.

Um Cenário Diversificado: O Papel de Consolidação do Llama

Embora o Llama possa estar a se afastar da concorrência direta com modelos proprietários em certas áreas, o cenário geral da IA está se tornando mais diversificado, e o papel do Llama está se consolidando dentro de nichos específicos.

Shiran enfatiza que os benchmarks não são o principal impulsionador da escolha do modelo, pois os utilizadores priorizam os testes dos modelos nos seus próprios casos de uso. O desempenho de um modelo nos dados de um cliente é fundamental, e este desempenho pode variar ao longo do tempo.

Gultekin acrescenta que a seleção do modelo é frequentemente uma decisão específica do caso de uso, em vez de um evento único.

O Llama pode estar a perder desenvolvedores que procuram constantemente os últimos avanços, mas mantém o apoio de muitos desenvolvedores focados na construção de ferramentas práticas alimentadas por IA.

Esta dinâmica alinha-se com a estratégia mais ampla de código aberto da Meta, exemplificada pelo lançamento do React em 2013 e pela criação do PyTorch em 2016. Ao promover ecossistemas bem-sucedidos, a Meta beneficia-se das contribuições da comunidade de código aberto.

Como Nate Jones observa, Zuckerberg ganha impulsos significativos das iniciativas de código aberto da Meta.