El ámbito de la inteligencia artificial ha sido testigo de otro salto significativo hacia adelante con la presentación de Opus 4 y Sonnet 4 de Anthropic, las últimas iteraciones de su familia insignia Claude. Lanzados hace poco más de una semana, estos modelos han capturado rápidamente la atención, estableciendo nuevos puntos de referencia, particularmente en el dominio crítico de la codificación. Más allá de su destreza en la codificación, Opus 4 y Sonnet 4 demuestran sólidas capacidades en el razonamiento y las funcionalidades agenticas, posicionándolos como avances fundamentales en el panorama contemporáneo de la IA.
Opus 4 se erige como la creación más sofisticada de Anthropic hasta la fecha, elogiada por la compañía como su modelo más potente y afirmando su posición como el "mejor modelo de codificación del mundo". Como complemento de Opus 4, Sonnet 4 emerge como una alternativa más económica, diseñada para lograr un equilibrio óptimo entre rendimiento superior y rentabilidad práctica. Esta doble oferta estratégica atiende a un amplio espectro de usuarios, desde aquellos que exigen el máximo rendimiento hasta aquellos que buscan una solución más económica.
Las mejoras introducidas en Opus 4 y Sonnet 4 son notables. Un aspecto destacado principal es su mayor dominio de la codificación. Opus 4 ya ha demostrado su liderazgo en puntos de referencia clave, incluidos SWE-bench y Terminal-bench, mientras que Sonnet exhibe capacidades similares. Este salto en el rendimiento de la codificación subraya la creciente importancia de la IA en el desarrollo de software.
Además de las mejoras en el rendimiento, Anthropic ha priorizado la seguridad. Opus 4 incorpora protección ASL-3, o nivel de seguridad de IA 3. Esta medida se deriva de la "Política de escalado responsable" de Anthropic. Anthropic, fundada por exempleados de OpenAI preocupados por la seguridad, ha enfatizado constantemente la innovación con sólidas consideraciones de seguridad.
El lanzamiento de Opus 4 y Sonnet 4 ha provocado comentarios generalmente positivos de desarrolladores y usuarios. Las capacidades de codificación mejoradas han sido elogiadas como un paso significativo hacia sistemas de IA autónomos, o agenticos. La estructura de precios, que refleja las generaciones anteriores al presentar tanto una opción premium como una rentable, también ha sido bien recibida.
El lanzamiento de Opus 4 no estuvo exento de controversia. Un investigador de Anthropic reveló que Opus podría contactar a las autoridades si consideraba que el comportamiento de un usuario era inapropiado. Si bien el investigador luego aclaró que esto es imposible en el uso normal, generó preocupaciones entre los usuarios con respecto al nivel de independencia potencialmente integrado en el modelo.
El campo de la IA está marcado por frecuentes anuncios de modelos innovadores, cada uno compitiendo por el título de "el mejor del mundo". Los lanzamientos recientes incluyen Gemini-2.5-Pro de Google, GPT-4.5 y GPT-4.1 de OpenAI, Grok 3 de xAI y Qwen 2.5 y QwQ-32B de Alibaba, todos con un rendimiento de referencia excepcional.
Dado este panorama de afirmaciones contrapuestas, es pertinente examinar si Claude 4 realmente reina de forma suprema. Al profundizar en sus capacidades, rendimiento de referencia, aplicaciones y comentarios de los usuarios, puede ser posible determinar una respuesta a esta pregunta.
Opus 4: Una potencia de codificación
Opus 4 es el modelo más avanzado de Anthropic, diseñado para tareas complejas y de larga duración. Es adecuado para ingeniería de software autónoma, investigación y flujos de trabajo agenticos, todos los cuales requieren herramientas premium. Opus 4 se posiciona como el "mejor modelo de codificación del mundo".
Capacidades y mejoras centrales
Opus 4 posee capacidades avanzadas. Destacan los siguientes:
- Codificación avanzada: Opus 4 sobresale en la ejecución autónoma de "tareas de ingeniería de días de duración". El modelo se adapta a estilos de desarrollador específicos con "un gusto de código mejorado" y admite hasta 32.000 tokens de salida. Un motor de código Claude en segundo plano maneja las tareas.
- Razonamiento avanzado y resolución de problemas complejos: con un sistema de razonamiento híbrido que alterna entre respuestas inmediatas y pensamiento profundo y extendido, Opus 4 mantiene la concentración durante secuencias prolongadas.
- Capacidades agenticas: Opus 4 permite agentes de IA sofisticados y demuestra un rendimiento de última generación (SOTA). Admite flujos de trabajo empresariales y gestión de campañas autónoma.
- Escritura creativa y creación de contenido: Opus 4 genera prosa matizada de nivel humano con una calidad estilística excepcional, lo que lo hace adecuado para tareas creativas avanzadas.
- Memoria y conciencia de contexto prolongado: Opus 4 crea y utiliza "archivos de memoria", lo que mejora la coherencia en tareas largas, como escribir una guía del juego mientras se juega Pokémon.
- Búsqueda e investigación agentica: Opus 4 puede realizar horas de investigación y sintetizar conocimientos a partir de datos complejos como patentes y documentos académicos.
Aspectos destacados del rendimiento de referencia
Opus 4 ha demostrado un rendimiento superior. Considere los siguientes puntos de referencia:
SWE-bench Verified (Codificación): 73,2%
- SWE-bench prueba la capacidad de los sistemas de IA para resolver problemas de GitHub.
- o3 de OpenAI: 69,1%. Gemini-2.5-Pro de Google: 63,8%.
Terminal-bench (Codificación CLI): 43,2% (50,0% de computación de alto rendimiento)
- Terminal-bench mide las capacidades de los agentes de IA en un entorno de terminal.
- Claude Sonnet 3.7: 35,2% y GPT-4.1 de OpenAI: 30,3%.
MMLU (Conocimiento general): 88,8%
- MMLU-Pro está diseñado para evaluar modelos de comprensión del lenguaje en tareas más amplias y desafiantes.
- GPT-o1 y GPT-4.5 de OpenAI obtienen 89,3% y 86,1%, respectivamente. Gemini-2.5-Pro-Experimental: 84,5%.
GPQA Diamond (Razonamiento de posgrado): 79,6% (83,3% de computación de alto rendimiento)
- GPQA evalúa la calidad y la fiabilidad en todas las ciencias.
- Grok 3: 84,6%. Gemini-2.5-Pro: 84%. o3: 83,3%.
AIME (Matemáticas): 75,5% (90,0% de computación de alto rendimiento)
- AIME 2024 evalúa la eficacia de las matemáticas de la escuela secundaria.
- Gemini-2.5-Pro: 92%, GPT-o1: 79,2%. Nemotron Ultra de Nvidia: 80,1%.
HumanEval (Codificación): Afirmaciones récord
* HumanEval es un conjunto de datos desarrollado por OpenAI para evaluar las capacidades de generación de código.
* Opus 3: 84,9%.
TAU-bench: Retail 81,4%
- TAU-bench Retail evalúa a los agentes de IA en tareas en el dominio de las compras minoristas, como cancelar pedidos, cambiar direcciones y verificar el estado del pedido.
- Claude Sonnet 3.7: 72,2%. GPT-4.5: 70,4%.
MMMU (Razonamiento visual): 76,5%
- La evaluación de bench de MMMU se lleva a cabo en un entorno de disparo cero para evaluar la capacidad de los modelos para generar respuestas precisas sin ajuste fino ni demostraciones de pocos disparos en el punto de referencia.
- Gemini-2.5-Pro: 84%. o3: 82,9%.
Tarea continua máxima: más de 7 horas
Aplicaciones
Opus 4 sobresale en la refactorización avanzada de software, la síntesis de investigación y tareas complejas como el modelado financiero o la conversión de texto a SQL. Puede potenciar agentes autónomos de varios pasos y flujos de trabajo de horizonte largo, con una memoria sólida.
Sonnet 4: Equilibrio entre rendimiento y practicidad
Claude 4 Sonnet ofrece rendimiento, rentabilidad y capacidad de codificación. Está diseñado para implementaciones de IA a escala empresarial donde se necesita inteligencia y asequibilidad.
Capacidades y mejoras centrales
Sonnet 4 incluye varios beneficios clave:
- Codificación: Ideal para flujos de trabajo agenticos, Sonnet 4 admite hasta 64.000 tokens de salida y fue elegido para potenciar el agente Copilot de GitHub. Ayuda con el ciclo de vida del software: planificación, corrección de errores, mantenimiento y refactorización a gran escala.
- Razonamiento y seguimiento de instrucciones: Notable por la interacción humana, la selección superior de herramientas y la corrección de errores, Sonnet es muy adecuado para roles avanzados de chatbot y asistente de IA.
- Uso de la computadora: Sonnet puede usar GUI e interactuar con interfaces digitales, escribir, hacer clic e interpretar datos.
- Extracción de datos visuales: extrae datos de formatos visuales complejos como gráficos y diagramas, con capacidades de extracción de tablas.
- Generación y análisis de contenido: sobresale en la escritura matizada y el análisis de contenido, lo que lo convierte en una opción sólida para flujos de trabajo editoriales y analíticos.
- Automatización robótica de procesos (RPA): Sonnet es eficaz en los casos de uso de RPA debido a la gran precisión en el seguimiento de las instrucciones.
- Autocorrección: Sonnet reconoce y corrige sus propios errores, lo que mejora la confiabilidad a largo plazo.
Aspectos destacados del rendimiento de referencia
Sonnet 4 ha logrado las siguientes puntuaciones:
SWE-bench Verified: 72,7%
- Opus 4: 73,2%.
MMLU: 86,5%
- Opus 4: 88,8%.
GPQA Diamond: 75,4%
- Opus 4: 79,5%.
TAU-bench: Retail 80,5%
- Opus 4: 81,4%.
MMMU: 74,4%
- Opus 4: 76,5%.
AIME: 70,5%
- Opus 4: 75,5%.
TerminalBench: 35,5%
- Opus 4: 43,2%.
Tarea continua máxima: ~4 horas, menos que las más de 7 horas informadas para Opus.
Reducción de errores: 65 % menos de comportamientos de acceso directo frente a Sonnet 3.7
Aplicaciones
Sonnet 4 es adecuado para potenciar chatbots de IA, investigación en tiempo real, RPA e implementaciones escalables. Su capacidad para extraer conocimiento de documentos, analizar datos visuales y respaldar el desarrollo lo convierte en un asistente capaz.
Innovaciones arquitectónicas y características compartidas
Tanto Opus 4 como Sonnet 4 tienen avances arquitectónicos clave. Admiten una ventana de contexto de 200K y cuentan con razonamiento híbrido. Utilizan herramientas externas en paralelo con el razonamiento interno. Estos aspectos mejoran la precisión en tiempo real en tareas como la búsqueda, la ejecución de código y el análisis de documentos.
Los modelos también exhiben menos "comportamientos de acceso directo" que las iteraciones anteriores, lo que mejora la confiabilidad. La transparencia se ha aumentado a través de la disponibilidad de un "resumen de pensamiento" que analiza los procesos de toma de decisiones.
Rendimiento en el mundo real y comentarios empresariales
Los comentarios sobre Opus 4 han sido positivos entre los programadores. Los usuarios informan largas sesiones de codificación con alta precisión. También han notado correcciones de errores al primer intento, así como un flujo de escritura casi humano.
Sonnet 4 ha recibido elogios, particularmente de los usuarios que lo conectan con herramientas de desarrollador como Cursor y Augment Code. Persisten las preocupaciones con respecto a la comprensión de documentos y las frustraciones de los límites de velocidad.
Entre los principales adoptantes se encuentra GitHub, que calificó a Sonnet 4 como "un éxito en escenarios agenticos". Replit elogió su precisión y Rakuten y Block destacaron las ganancias de productividad. Opus 4 permitió una refactorización completa de 7 horas de una base de código de código abierto.
Controversia sobre la denuncia de irregularidades
Una publicación en X del investigador de Anthropic, Sam Bowman, reveló que Opus podría tomar medidas, como informar a los usuarios si los considera inmorales.
Este comportamiento proviene del marco de IA constitucional de Anthropic. Si bien la intención es la reducción de daños, los críticos argumentan que este nivel de iniciativa, especialmente cuando se combina con capacidades agenticas y acceso a la línea de comandos, crea una pendiente resbaladiza.
Seguridad y capacidades emergentes
Opus 4 opera bajo el Nivel de seguridad de IA 3, su nivel actual más alto, citando preocupaciones sobre el conocimiento de temas delicados. Los equipos rojos probaron Opus y encontraron comportamientos y capacidades "cualitativamente diferentes de todo lo que habían probado antes".
Precio y propuesta de valor
Opus 4: Con un precio de $75 por millón de tokens de salida, se dirige a aplicaciones de alta gama.
- Este es el mismo precio que Opus 3.
- o3 de OpenAI tiene un precio de $40 por millón de tokens de salida.
Sonnet 4: Con un precio de $15 por millón de tokens de salida, ofrece un equilibrio entre rendimiento y asequibilidad.
- GPT-4o de OpenAI y Gemini-2.5-Pro de Google tienen un precio de $20 y $15 por millón de tokens de salida, respectivamente. El modelo insignia 4.1 de OpenAI tiene un precio de $8 por millón de tokens de salida.