В эпоху стремительного развития искусственного интеллекта компания Anthropic сделала очередной важный шаг вперед, представив Opus 4 и Sonnet 4 – последние версии своей флагманской серии Claude. Эти модели, выпущенные чуть больше недели назад, быстро привлекли внимание, установив новые стандарты, особенно в критически важной области кодирования. Помимо высокого уровня кодирования, Opus 4 и Sonnet 4 демонстрируют надежные возможности в рассуждениях и агентских функциях, что делает их ключевым шагом вперед в современной среде AI.
Opus 4 является самым сложным творением Anthropic на сегодняшний день, которое компания называет своей самой мощной моделью, утверждая, что это "лучшая в мире модель кодирования". В дополнение к Opus 4, Sonnet 4 является более экономичной альтернативой, разработанной для достижения оптимального баланса между высочайшей производительностью и практической экономической эффективностью. Это стратегическое двойное предложение удовлетворяет широкий круг пользователей, от тех, кто требует максимальной производительности, до тех, кто ищет более экономичное решение.
Усовершенствования, представленные в Opus 4 и Sonnet 4, заслуживают внимания. Основным моментом является их повышенное мастерство кодирования. Opus 4 уже продемонстрировал свое лидерство в ключевых тестах, включая SWE-bench и Terminal-bench, а Sonnet демонстрирует аналогичные возможности. Этот скачок в производительности кодирования подчеркивает растущую важность AI в разработке программного обеспечения.
В дополнение к улучшению производительности, Anthropic уделила приоритетное внимание безопасности. Opus 4 включает ASL-3 или AI Safety Level 3 protections. Эта мера вытекает из "Responsible Scaling Policy" Anthropic. Anthropic, основанная бывшими сотрудниками OpenAI, обеспокоенными безопасностью, последовательно подчеркивала инновации со строгими соображениями безопасности.
Выпуск Opus 4 и Sonnet 4 вызвал в целом положительные отзывы разработчиков и пользователей. Расширенные возможности кодирования были отмечены как важный шаг к автономным или агентским системам AI. Структура ценообразования, которая отражает предыдущие поколения, представляя как премиальный, так и экономичный вариант, также была хорошо воспринята.
Выпуск Opus 4 не обошелся без споров. Исследователь Anthropic показал, что Opus может связаться с властями, если сочтет поведение пользователя ненадлежащим. Хотя исследователь позже пояснил, что это невозможно при обычном использовании, это вызвало обеспокоенность среди пользователей относительно уровня независимости, потенциально встроенного в модель.
Область AI отмечена частыми объявлениями о новаторских моделях, каждая из которых борется за звание "лучшей в мире". Недавние выпуски включают Gemini-2.5-Pro от Google, GPT-4.5 и GPT-4.1 от OpenAI, Grok 3 от xAI и Qwen 2.5 и QwQ-32B от Alibaba, каждая из которых может похвастаться исключительной производительностью в тестах.
Учитывая этот ландшафт конкурирующих утверждений, уместно изучить, действительно ли Claude 4 является лучшим. Углубившись в его возможности, контрольные показатели производительности, применения и отзывы пользователей, можно будет установить ответ на этот вопрос.
Opus 4: мощь кодирования
Opus 4 – самая передовая модель Anthropic, разработанная для сложных, длительных задач. Она подходит для автономной разработки программного обеспечения, исследований и агентских рабочих процессов, требующих премиальных инструментов. Opus 4 позиционируется как "лучшая в мире модель кодирования".
Основные возможности и улучшения
Opus 4 обладает расширенными возможностями. Следует отметить следующее:
- Продвинутое кодирование: Opus 4 отлично справляется с автономным выполнением "многодневных инженерных задач". Модель адаптируется к конкретным стилям разработчиков с помощью “improved code taste” и поддерживает до 32000 выходных токенов. Фоновый движок Claude Code обрабатывает задачи.
- Продвинутые рассуждения и решение сложных проблем: Благодаря гибридной системе рассуждений, которая переключается между немедленными ответами и глубоким, расширенным мышлением, Opus 4 сохраняет концентрацию в течение длительных последовательностей.
- Агентские возможности: Opus 4 обеспечивает сложные AI-агенты и демонстрирует современную (SOTA) производительность. Он поддерживает корпоративные рабочие процессы и автономное управление кампаниями.
- Креативное письмо и создание контента: Opus 4 генерирует прозу человеческого уровня с нюансами и исключительным стилистическим качеством, что делает его подходящим для продвинутых творческих задач.
- Память и осведомленность о длинном контексте: Opus 4 создает и использует "файлы памяти", улучшая согласованность при выполнении длительных задач, таких как написание руководства по игре во время игры в Pokémon.
- Агентский поиск и исследования: Opus 4 может проводить многочасовые исследования и синтезировать идеи из сложных данных, таких как патенты и научные статьи.
Основные моменты производительности эталонного теста
Opus 4 продемонстрировал превосходную производительность. Рассмотрим следующие эталонные тесты:
SWE-bench Verified (Coding): 73.2%
- SWE-bench тестирует способность систем AI решать проблемы GitHub.
- o3 от OpenAI: 69.1%. Gemini-2.5-Pro от Google: 63.8%.
Terminal-bench (CLI Coding): 43.2% (50.0% high-compute)
- Terminal-bench измеряет возможности AI-агентов в терминальной среде.
- Claude Sonnet 3.7: 35.2%, и GPT-4.1 от OpenAI: 30.3%.
MMLU (General Knowledge): 88.8%
- MMLU-Pro разработан для оценки моделей понимания языка по более широким и сложным задачам.
- GPT-o1 и GPT-4.5 от OpenAI набирают 89.3% и 86.1%, соответственно. Gemini-2.5-Pro-Experimental: 84.5%.
GPQA Diamond (Graduate Reasoning): 79.6% (83.3% high-compute)
- GPQA оценивает качество и надежность в разных науках.
- Grok 3: 84.6%. Gemini-2.5-Pro: 84%. o3: 83.3%.
AIME (Math): 75.5% (90.0% high-compute)
- AIME 2024 оценивает эффективность математики в средней школе.
- Gemini-2.5-Pro: 92%, GPT-o1: 79.2%. Nemotron Ultra от Nvidia: 80.1%.
HumanEval (Coding): заявки на рекордно высокие показатели
* HumanEval – это набор данных, разработанный OpenAI для оценки возможностей создания кода.
* Opus 3: 84.9%.
TAU-bench: Retail 81.4%
- TAU-bench Retail оценивает AI-агентов по задачам в сфере розничной торговли, таким как отмена заказов, изменение адресов и проверка статуса заказа.
- Claude Sonnet 3.7: 72.2%. GPT-4.5: 70.4%.
MMMU (Visual Reasoning): 76.5%
- Эталонная оценка MMMU проводится в условиях zero-shot, чтобы оценить способность моделей генерировать точные ответы без тонкой настройки или демонстрации нескольких снимков по эталону.
- Gemini-2.5-Pro: 84%. o3: 82.9%.
Max Continuous Task: Over 7 hours
Приложения
Opus 4 отлично справляется с расширенным рефакторингом программного обеспечения, синтезом исследований и сложными задачами, такими как финансовое моделирование или преобразование текста в SQL. Он может обеспечивать многоэтапных автономных агентов и рабочие процессы с длинным горизонтом, с сильной памятью.
Sonnet 4: балансировка производительности и практичности
Claude 4 Sonnet обеспечивает производительность, экономичность и умение кодировать. Он разработан для крупномасштабных развертываний AI, где требуются интеллект и доступность.
Основные возможности и улучшения
Sonnet 4 включает в себя несколько ключевых преимуществ:
- Кодирование: Идеально подходит для агентских рабочих процессов, Sonnet 4 поддерживает до 64000 выходных токенов и был выбран для обеспечения работы агента Copilot от GitHub. Он помогает с жизненным циклом программного обеспечения: планированием, исправлением ошибок, обслуживанием и крупномасштабным рефакторингом.
- Рассуждения и следование инструкциям: Sonnet хорошо подходит для продвинутых ролей чат-бота и AI-ассистента благодаря человекоподобному взаимодействию, превосходному выбору инструментов и исправлению ошибок.
- Использование компьютера: Sonnet может использовать GUI и взаимодействовать с цифровыми интерфейсами, печатать, щелкать и интерпретировать данные.
- Извлечение визуальных данных: Извлекает данные из сложных визуальных форматов, таких как графики и диаграммы, с возможностями извлечения таблиц.
- Создание и анализ контента: Отлично подходит для нюансированного письма и анализа контента, что делает его отличным выбором для редакционных и аналитических рабочих процессов.
- Роботизированная автоматизация процессов (RPA): Sonnet эффективен в вариантах использования RPA благодаря высокой точности следования инструкциям.
- Самокоррекция: Sonnet распознает и исправляет свои собственные ошибки, повышая долгосрочную надежность.
Основные моменты производительности эталонного теста
Sonnet 4 достиг следующих результатов:
SWE-bench Verified: 72.7%
- Opus 4: 73.2%.
MMLU: 86.5%
- Opus 4: 88.8%.
GPQA Diamond: 75.4%
- Opus 4: 79.5%.
TAU-bench: Retail 80.5%
- Opus 4: 81.4%.
MMMU: 74.4%
- Opus 4: 76.5%.
AIME: 70.5%
- Opus 4: 75.5%.
TerminalBench: 35.5%
- Opus 4: 43.2%
Max Continuous Task: ~4 hours, less than the 7+ hours reported for Opus.
Error Reduction: 65% fewer shortcut behaviors vs. Sonnet 3.7
Приложения
Sonnet 4 подходит для обеспечения работы AI-чат-ботов, исследований в реальном времени, RPA и масштабируемых развертываний. Его способность извлекать знания из документов, анализировать визуальные данные и поддерживать разработку делает его компетентным помощником.
Архитектурные инновации и общие функции
И Opus 4, и Sonnet 4 имеют ключевые архитектурные достижения. Они поддерживают контекстное окно 200K и имеют гибридное рассуждение. Они используют внешние инструменты параллельно с внутренним рассуждением. Эти аспекты улучшают точность в реальном времени при выполнении таких задач, как поиск, выполнение кода и анализ документов.
Модели также демонстрируют меньше “поведения ярлыков”, чем предыдущие итерации, что повышает надежность. Прозрачность была увеличена благодаря доступности "резюме мышления", детализирующего процессы принятия решений.
Производительность в реальном мире и корпоративные отзывы
Отзывы об Opus 4 были положительными среди программистов. Пользователи сообщают о длительных сеансах кодирования с высокой точностью. Они также отметили исправление ошибок с первой попытки, а также поток письма, близкий к человеческому.
Sonnet 4 удостоился похвал, особенно от пользователей, связывающих его с инструментами разработчика, такими как Cursor и Augment Code. Сохраняются опасения относительно понимания документов и ограничений скорости.
Крупнейшие пользователи включают GitHub, который назвал Sonnet 4 “soaring in agentic scenarios.” Replit похвалил его точность, а Rakuten и Block отметили рост производительности. Opus 4 обеспечил полный 7-часовой рефакторинг кодовой базы с открытым исходным кодом.
Обвинительные споры
Сообщение в X от исследователя Anthropic Sam Bowman показало, что Opus может принимать меры, такие как сообщение о пользователях, если сочтет их аморальными.
Это поведение происходит из Constitutional AI framework от Anthropic. Хотя намерение состоит в уменьшении вреда, критики утверждают, что этот уровень инициативы, особенно в сочетании с агентскими возможностями и доступом к командной строке, создает опасную тенденцию.
Безопасность и новые возможности
Opus 4 работает под уровнем AI Safety Level 3, его самый высокий текущий уровень, ссылаясь на опасения по поводу знания конфиденциальных тем. Red teamers протестировали Opus и нашли поведение и возможности "качественно отличающимися от всего, что они тестировали раньше".
Ценообразование и ценностное предложение
Opus 4: По цене 75 долларов за миллион выходных токенов, он нацелен на высокотехнологичные приложения.
- Это та же цена, что и у Opus 3.
- o3 от OpenAI стоит 40 долларов за миллион выходных токенов.
Sonnet 4: По цене 15 долларов за миллион выходных токенов, он обеспечивает баланс между производительностью и доступностью.
- GPT-4o от OpenAI и Gemini-2.5-Pro от Google стоят 20 и 15 долларов за миллион выходных токенов соответственно. Флагманская модель 4.1 от OpenAI стоит 8 долларов за миллион выходных токенов.