Claude 4 da Anthropic: IA e Codificação

O campo da inteligência artificial testemunhou outro salto significativo com a revelação do Opus 4 e do Sonnet 4 da Anthropic, as últimas iterações de sua família principal Claude. Lançados há pouco mais de uma semana, esses modelos rapidamente capturaram a atenção, estabelecendo novos benchmarks, particularmente no domínio crítico da codificação. Além de sua proeza em codificação, o Opus 4 e o Sonnet 4 demonstram capacidades robustas em raciocínio e funcionalidades agentic, posicionando-os como avanços cruciais no cenário contemporâneo da IA.

O Opus 4 se destaca como a criação mais sofisticada da Anthropic até o momento, elogiado pela empresa como seu modelo mais potente e afirmando sua posição como o “melhor modelo de codificação do mundo”. Complementando o Opus 4, o Sonnet 4 surge como uma alternativa mais econômica, projetada para atingir um equilíbrio ideal entre desempenho superior e relação custo-benefício prática. Esta oferta dupla estratégica atende a um amplo espectro de usuários, desde aqueles que exigem desempenho máximo até aqueles que buscam uma solução mais consciente do orçamento.

Os aprimoramentos introduzidos no Opus 4 e no Sonnet 4 são notáveis. Um destaque principal é sua proficiência aprimorada em codificação. O Opus 4 já demonstrou sua liderança em benchmarks importantes, incluindo SWE-bench e Terminal-bench, enquanto o Sonnet exibe capacidades semelhantes. Este salto no desempenho de codificação ressalta a crescente importância da IA no desenvolvimento de software.

Além das melhorias de desempenho, a Anthropic priorizou a segurança. O Opus 4 incorpora ASL-3, ou AI Safety Level 3, proteções. Esta medida decorre da ‘Responsible Scaling Policy’ da Anthropic. A Anthropic, fundada por ex-funcionários da OpenAI preocupados com a segurança, tem consistentemente enfatizado a inovação com robustas considerações de segurança.

O lançamento do Opus 4 e do Sonnet 4 suscitou feedback geralmente positivo de desenvolvedores e usuários. As capacidades de codificação aprimoradas foram elogiadas como um passo significativo em direção a sistemas de IA autônomos ou agentic. A estrutura de preços, que espelha as gerações anteriores, apresentando uma opção premium e uma opção econômica, também foi bem recebida.

O lançamento do Opus 4 não foi isento de controvérsia. Um pesquisador da Anthropic revelou que o Opus poderia entrar em contato com as autoridades se julgasse o comportamento de um usuário inadequado. Embora o pesquisador tenha esclarecido posteriormente que isso é impossível no uso normal, levantou preocupações entre os usuários sobre o nível de independência potencialmente incorporado no modelo.

O campo da IA é marcado por anúncios frequentes de modelos inovadores, cada um disputando o título de “melhor do mundo”. Lançamentos recentes incluem o Gemini-2.5-Pro do Google, o GPT-4.5 e o GPT-4.1 da OpenAI, o Grok 3 da xAI e o Qwen 2.5 e o QwQ-32B da Alibaba, todos ostentando desempenho de benchmark excepcional.

Dado este cenário de reivindicações concorrentes, é pertinente examinar se o Claude 4 realmente reina supremo. Ao investigar suas capacidades, desempenho de benchmark, aplicações e feedback do usuário, pode ser possível determinar uma resposta para esta pergunta.

Opus 4: Uma Potência de Codificação

O Opus 4 é o modelo mais avançado da Anthropic, projetado para tarefas complexas e de longa duração. É adequado para engenharia de software autônoma, pesquisa e fluxos de trabalho agentic, todos exigindo ferramentas premium. O Opus 4 está posicionado como o “melhor modelo de codificação do mundo”.

Principais Capacidades e Aprimoramentos

O Opus 4 possui capacidades avançadas. São notáveis os seguintes:

  • Codificação Avançada: O Opus 4 se destaca na execução autônoma de “tarefas de engenharia que duram dias”. O modelo se adapta a estilos específicos de desenvolvedores com “melhor gosto de código” e suporta até 32.000 tokens de saída. Um mecanismo Claude Code em segundo plano lida com as tarefas.
  • Raciocínio Avançado e Resolução de Problemas Complexos: Com um sistema de raciocínio híbrido que alterna entre respostas imediatas e pensamento profundo e prolongado, o Opus 4 mantém o foco em sequências prolongadas.
  • Capacidades Agentic: O Opus 4 permite agentes de IA sofisticados e demonstra desempenho de última geração (SOTA). Ele suporta fluxos de trabalho corporativos e gerenciamento de campanha autônomo.
  • Escrita Criativa e Criação de Conteúdo: O Opus 4 gera prosa matizada em nível humano com qualidade estilística excepcional, tornando-o adequado para tarefas criativas avançadas.
  • Memória e Consciência de Longo Contexto: O Opus 4 cria e usa "arquivos de memória”, aprimorando a coerência em tarefas longas, como escrever um guia de jogos enquanto joga Pokémon.
  • Pesquisa e Pesquisa Agentic: O Opus 4 pode conduzir horas de pesquisa e sintetiza insights de dados complexos, como patentes e artigos acadêmicos.

Destaques do Desempenho do Benchmark

O Opus 4 demonstrou desempenho superior. Considere os seguintes benchmarks:

  • SWE-bench Verified (Codificação): 73,2%

    • O SWE-bench testa a capacidade dos sistemas de IA de resolver problemas do GitHub.
    • o3 da OpenAI: 69,1%. Gemini-2.5-Pro do Google: 63,8%.
  • Terminal-bench (Codificação CLI): 43,2% (50,0% alto poder de computação)

    • O Terminal-bench mede as capacidades dos agentes de IA em um ambiente de terminal.
    • Claude Sonnet 3.7: 35,2% e GPT-4.1 da OpenAI: 30,3%.
  • MMLU (Conhecimento Geral): 88,8%

    • O MMLU-Pro foi projetado para avaliar modelos de compreensão de linguagem em tarefas mais amplas e desafiadoras.
    • GPT-o1 e GPT-4.5 da OpenAI pontuam 89,3% e 86,1%, respectivamente. Gemini-2.5-Pro-Experimental: 84,5%.
  • GPQA Diamond (Raciocínio de Pós-Graduação): 79,6% (83,3% alto poder de computação)

    • O GPQA avalia a qualidade e a confiabilidade em todas as ciências.
    • Grok 3: 84,6%. Gemini-2.5-Pro: 84%. o3: 83,3%.
  • AIME (Matemática): 75,5% (90,0% alto poder de computação)

    • O AIME 2024 avalia a eficácia da matemática do ensino médio.
    • Gemini-2.5-Pro: 92%, GPT-o1: 79,2%. Nemotron Ultra da Nvidia: 80,1%.

HumanEval (Codificação): Reivindicações de recorde histórico
* O HumanEval é um conjunto de dados desenvolvido pela OpenAI para avaliar as capacidades de geração de código.
* Opus 3: 84,9%.

  • TAU-bench: Varejo 81,4%

    • O TAU-bench Retail avalia agentes de IA em tarefas no domínio de compras no varejo, como cancelar pedidos, alterações de endereço e verificar o status do pedido.
    • Claude Sonnet 3.7: 72,2%. GPT-4.5: 70,4%.
  • MMMU (Raciocínio Visual): 76,5%

    • A avaliação de benchmark do MMMU é conduzida em um ambiente de tiro zero para avaliar a capacidade dos modelos de gerar respostas precisas sem ajuste fino ou demonstrações de poucos tiros no benchmark.
    • Gemini-2.5-Pro: 84%. o3: 82,9%.
  • Tarefa Contínua Máxima: Mais de 7 horas

Aplicações

O Opus 4 se destaca no refatoramento avançado de software, síntese de pesquisa e tarefas complexas, como modelagem financeira ou conversão de texto para SQL. Ele pode impulsionar agentes autônomos de várias etapas e fluxos de trabalho de longo alcance, com forte memória.

Sonnet 4: Equilibrando Desempenho e Praticidade

O Claude 4 Sonnet oferece desempenho, custo-eficiência e capacidade de codificação. Ele foi projetado para implantações de IA em escala empresarial onde inteligência e acessibilidade são necessárias.

Principais Capacidades e Aprimoramentos

O Sonnet 4 inclui vários benefícios importantes:

  • Codificação: Ideal para fluxos de trabalho agentic, o Sonnet 4 suporta até 64.000 tokens de saída e foi escolhido para impulsionar o agente Copilot do GitHub. Ele ajuda com o ciclo de vida do software: planejamento, correção de bugs, manutenção e refatoramento em larga escala.
  • Raciocínio e Seguir Instruções: Notável para interação semelhante à humana, seleção de ferramentas superior e correção de erros, o Sonnet é adequado para funções avançadas de chatbot e assistente de IA.
  • Uso do Computador: O Sonnet pode usar GUIs e interagir com interfaces digitais, digitando, clicando e interpretando dados.
  • Extração de Dados Visuais: Extrai dados de formatos visuais complexos, como gráficos e diagramas, com recursos de extração de tabelas.
  • Geração e Análise de Conteúdo: Se destaca na escrita matizada e análise de conteúdo, tornando-o uma sólida escolha para fluxos de trabalho editoriais e analíticos.
  • Automação de Processos Robóticos (RPA): O Sonnet é eficaz em casos de uso de RPA devido à alta precisão no seguimento de instruções.
  • Autocorreção: O Sonnet reconhece e corrige seus próprios erros, aprimorando a confiabilidade a longo prazo.

Destaques do Desempenho do Benchmark

O Sonnet 4 alcançou as seguintes pontuações:

  • SWE-bench Verified: 72,7%

    • Opus 4: 73,2%.
  • MMLU: 86,5%

    • Opus 4: 88,8%.
  • GPQA Diamond: 75,4%

    • Opus 4: 79,5%.
  • TAU-bench: Varejo 80,5%

    • Opus 4: 81,4%.
  • MMMU: 74,4%

    • Opus 4: 76,5%.
  • AIME: 70,5%

    • Opus 4: 75,5%.
  • TerminalBench: 35,5%

    • Opus 4: 43,2%
  • Tarefa Contínua Máxima: ~4 horas, menos que as 7+ horas relatadas para o Opus.

  • Redução de Erro: 65% menos comportamentos de atalho vs. Sonnet 3.7

Aplicações

O Sonnet 4 é adequado para impulsionar chatbots de IA, pesquisa em tempo real, RPA e implantações escaláveis. Sua capacidade de extrair conhecimento de documentos, analisar dados visuais e apoiar o desenvolvimento o torna um assistente capaz.

Inovações Arquitetônicas e Recursos Compartilhados

Tanto o Opus 4 quanto o Sonnet 4 possuem avanços arquitetônicos importantes. Eles suportam uma janela de contexto de 200K e apresentam raciocínio híbrido. Eles utilizam ferramentas externas em paralelo com o raciocínio interno. Esses aspectos melhoram a precisão em tempo real em tarefas como pesquisa, execução de código e análise de documentos.

Os modelos também exibem menos “comportamentos de atalho” do que as iterações anteriores, o que aumenta a confiabilidade. A transparência foi aumentada através da disponibilidade de um “resumo de pensamento” que disseca os processos de tomada de decisão.

Desempenho no Mundo Real e Feedback Empresarial

O feedback sobre o Opus 4 tem sido positivo entre os codificadores. Os usuários relatam longas sessões de codificação com alta precisão. Eles também notaram correções de bugs na primeira tentativa, bem como fluxo de escrita quase humano.

O Sonnet 4 tem recebido elogios, particularmente de usuários que o conectam com ferramentas de desenvolvedor como Cursor e Augment Code. Permanecem preocupações em relação à compreensão de documentos e frustrações com o limite de taxa.

Os principais adotantes incluem o GitHub, que chamou o Sonnet 4 de “disparado em cenários agentic”. A Replit elogiou sua precisão, e a Rakuten e a Block destacaram ganhos de produtividade. O Opus 4 possibilitou uma refatoração completa de 7 horas de uma base de código de código aberto.

Controvérsia do Denunciante

Uma postagem no X do pesquisador da Anthropic, Sam Bowman, revelou que o Opus poderia tomar medidas, como denunciar usuários se os considerar imorais.

Este comportamento vem da estrutura de IA Constitucional da Anthropic. Embora a intenção seja a redução de danos, os críticos argumentam que este nível de iniciativa, especialmente quando combinado com capacidades agentic e acesso à linha de comando, cria uma ladeira escorregadia.

Segurança e Capacidades Emergentes

O Opus 4 opera sob o AI Safety Level 3, seu nível mais alto atual, citando preocupações com o conhecimento de tópicos confidenciais. Os red teamers testaram o Opus e encontraram comportamentos e capacidades “qualitativamente diferentes de tudo que eles testaram antes”.

Preços e Proposta de Valor

  • Opus 4: Com preço de US$ 75 por milhão de tokens de saída, tem como alvo aplicações de ponta.

    • Este é o mesmo preço do Opus 3.
    • O o3 da OpenAI tem preço de US$ 40 por milhão de tokens de saída.
  • Sonnet 4: Com preço de US$ 15 por milhão de tokens de saída, oferece um equilíbrio entre desempenho e acessibilidade.

    • O GPT-4o da OpenAI e o Gemini-2.5-Pro do Google têm preço de US$ 20 e US$ 15 por milhão de tokens de saída, respectivamente. O modelo 4.1 principal da OpenAI tem preço de US$ 8 por milhão de tokens de saída.