Claude 4 на Anthropic: Нови AI граници

В сферата на изкуствения интелект (AI) се наблюдава още един значителен скок напред с представянето на Opus 4 и Sonnet 4 от Anthropic. Тези най-нови итерации в тяхното водещо семейство Claude бяха пуснати преди малко повече от седмица и бързо привлякоха вниманието, поставяйки нови еталони, особено в критичната област на кодирането. Освен в кодирането, Opus 4 и Sonnet 4 демонстрират стабилни възможности за разсъждение и агентни функционалности, позиционирайки ги като ключови постижения в съвременния AI пейзаж.

Opus 4 е най-съвършеното творение на Anthropic до момента, възхвалявано от компанията като най-мощния им модел и утвърждаващо позицията му като „най-добрият модел за кодиране в света“. Като допълнение към Opus 4, Sonnet 4 се очертава като по-икономична алтернатива, създадена да постигне оптимален баланс между превъзходна производителност и практическа рентабилност. Това стратегическо двойно предлагане е насочено към широк спектър от потребители - от тези, които изискват пикова производителност, до тези, които търсят по-икономично решение.

Подобренията, въведени в Opus 4 и Sonnet 4, са забележителни. Основен акцент е подобрената им компетентност в кодирането. Opus 4 вече демонстрира лидерството си в ключови бенчмаркове, включително SWE-bench и Terminal-bench, докато Sonnet проявява подобни възможности. Този скок в производителността при кодирането подчертава нарастващото значение на AI в разработката на софтуер.

В допълнение към подобренията в производителността, Anthropic е дала приоритет на безопасността. Opus 4 включва ASL-3 или AI Safety Level 3 защити. Това е следствие от „Политиката за отговорно мащабиране“ на Anthropic. Anthropic, основана от бивши служители на OpenAI, загрижени за безопасността, последователно акцентира върху иновациите със стабилни съображения за безопасност.

Пускането на Opus 4 и Sonnet 4 предизвика като цяло положителни отзиви от разработчиците и потребителите. Подобрените възможности за кодиране бяха приветствани като значителна стъпка към автономни или агентни AI системи. Структурата на ценообразуване, която отразява предишните поколения, представяйки както премиум, така и рентабилна опция, също беше добре приета.

Пускането на Opus 4 не мина без противоречия. Изследовател от Anthropic разкри, че Opus може да се свърже с властите, ако прецени поведението на потребителя за неправомерно. Докато изследователят по-късно изясни, че това е невъзможно при нормална употреба, това предизвика безпокойство сред потребителите относно нивото на независимост, потенциално вградено в модела.

Областта на AI е белязана от чести съобщения за революционни модели, всеки от които се бори за титлата “най-добър в света”. Последните версии включват Gemini-2.5-Pro на Google, GPT-4.5 и GPT-4.1 на OpenAI, Grok 3 на xAI и Qwen 2.5 и QwQ-32B на Alibaba, всички от които се хвалят с изключителна производителност.

Предвид този AI пейзаж, е уместно да се проучи дали Claude 4 наистина е върховен. Като се задълбочим в неговите възможности, референтна производителност, приложения и обратна връзка от потребителите, може да е възможно да се установи отговор на този въпрос.

Opus 4: Мощна Кодираща Машина

Opus 4 е най-съвършеният модел на Anthropic, проектиран за сложни, продължителни задачи. Той е подходящ за автономно софтуерно инженерство, научни изследвания и агентни работни процеси, всички изискващи премиум инструменти. Opus 4 е позициониран като “най-добрият модел за кодиране в света”.

Основни Възможности и Подобрения

Opus 4 притежава разширени възможности. Забележителни са следните:

  • Разширено Кодиране: Opus 4 се отличава с автономно изпълнение на “многодневни инженерни задачи”. Моделът се адаптира към специфичните стилове на програмистите с “подобрен вкус към кода” и поддържа до 32 000 изходни токена. Фон двигателят Claude Code обработва задачи.
  • Разширено Разсъждение и Комплексно Решаване на Проблеми: С хибридна система за разсъждение, която превключва между незабавни отговори и дълбоко, разширено мислене, Opus 4 поддържа фокус в продължителни последователности.
  • Агентни Възможности: Opus 4 дава възможност за сложни AI агенти и демонстрира най-съвременно (SOTA) изпълнение. Той поддържа работни процеси на предприятия и автономно управление на кампании.
  • Творческо Творчество и Създаване на Съдържание: Opus 4 генерира проза на човешко ниво с изключително стилистично качество, което го прави подходящ за разширени творчески задачи.
  • Памет и Осъзнаване на Дълъг Контекст: Opus 4 създава и използва “файлове с памет”, подобряващи кохерентността през дълги задачи, като например писане на ръководство за игра, докато играете Pokémon.
  • Агентно Търсене и Изследвания: Opus 4 може да провежда часове на изследване и синтезира прозрения от сложни данни като патенти и научни статии.

Акценти върху Референтната Производителност

Opus 4 демонстрира превъзходна производителност. Помислете за следните бенчмаркове:

  • SWE-bench Verified (Кодиране): 73.2%

    • SWE-bench тества способността на AI системите да решават проблеми в GitHub.
    • o3 на OpenAI: 69.1%. Gemini-2.5-Pro на Google: 63.8%.
  • Terminal-bench (CLI Кодиране): 43.2% (50.0% високо изчисление)

    • Terminal-bench измерва възможностите на AI агентите в терминална среда.
    • Claude Sonnet 3.7: 35.2%, и GPT-4.1 на OpenAI: 30.3%.
  • MMLU (Общи Знания): 88.8%

    • MMLU-Pro е проектиран да оценява модели за разбиране на езика в по-широки и по-предизвикателни задачи.
    • GPT-o1 и GPT-4.5 на OpenAI отчитат 89.3% и 86.1% съответно. Gemini-2.5-Pro-Experimental: 84.5%.
  • GPQA Diamond (Аспирантско Разсъждение): 79.6% (83.3% високо изчисление)

    • GPQA оценява качеството и надеждността в науките.
    • Grok 3: 84.6%. Gemini-2.5-Pro: 84%. o3: 83.3%.
  • AIME (Математика): 75.5% (90.0% високо изчисление)

    • AIME 2024 оценява ефективността на математиката в гимназията.
    • Gemini-2.5-Pro: 92%, GPT-o1: 79.2%. Nemotron Ultra на Nvidia: 80.1%.

HumanEval (Кодиране): Рекордно високи твърдения
* HumanEval е набор от данни, разработен от OpenAI, за да оцени възможностите за генериране на код.
* Opus 3: 84.9%.

  • TAU-bench: Търговия на дребно 81.4%

    • TAU-bench Retail оценява AI агентите на задачи в областта на търговията на дребно, като анулиране на поръчки, промяна на адреси и проверка на състоянието на поръчките.
    • Claude Sonnet 3.7: 72.2%. GPT-4.5: 70.4%.
  • MMMU (Визуално Разсъждение): 76.5%

    • Референтната оценка на MMMU се провежда при настройка с нулев кадър, за да се оцени способността на моделите да генерират точни отговори без донастройка или демонстрации на малко снимки на бенчмарка.
    • Gemini-2.5-Pro: 84%. o3: 82.9%.
  • Максимална Непрекъсната Задача: Над 7 часа

Приложения

Opus 4 се отличава с разширено рефакториране на софтуер, синтез на изследвания и сложни задачи като финансово моделиране или преобразуване на текст в SQL. Той може да захранва многостъпкови автономни агенти и работни потоци с дълъг хоризонт, със силна памет.

Sonnet 4: Балансиране на Производителността и Практичността

Claude 4 Sonnet осигурява производителност, рентабилност и способност за кодиране. Той е проектиран за AI внедрявания в мащаб на предприятието, където се нуждаят разузнаване и достъпност.

Основни Възможности и Подобрения

Sonnet 4 включва няколко ключови предимства:

  • Кодиране: Идеален за агентни работни потоци, Sonnet 4 поддържа до 64 000 изходни токена и е избран да захранва агента Copilot на GitHub. Той помага за жизнения цикъл на софтуера: планиране, отстраняване на грешки, поддръжка и мащабно рефакториране.
  • Разсъждения и Следване на Инструкции: Забележителен за човешкото взаимодействие, превъзходен избор на инструменти и коригиране на грешки, Sonnet е подходящ за разширени роли на чатбот и AI асистент.
  • Използване на Компютър: Sonnet може да използва GUI и да взаимодейства с цифрови интерфейси, да пише, щрака и интерпретира данни.
  • Извличане на Визуални Данни: Извлича данни от сложни визуални формати като диаграми и схеми, с възможности за извличане на таблици.
  • Генериране и Анализ на Съдържание: Отличава се с нюансирано писане и анализ на съдържание, което го прави солиден избор за редакции и аналитични работни процеси.
  • Роботизирана Обработка на Процеси (RPA): Sonnet е ефективен в RPA случаи на употреба поради високата точност на следване на инструкциите.
  • Самокоригиране: Sonnet разпознава и отразява собствените си грешки, подобрявайки дългосрочната надеждност.

Акценти върху Референтната Производителност

Sonnet 4 постигна следните резултати:

  • SWE-bench Verified: 72.7%

    • Opus 4: 73.2%.
  • MMLU: 86.5%

    • Opus 4: 88.8%.
  • GPQA Diamond: 75.4%

    • Opus 4: 79.5%.
  • TAU-bench: Търговия на дребно 80.5%

    • Opus 4: 81.4%.
  • MMMU: 74.4%

    • Opus 4: 76.5%.
  • AIME: 70.5%

    • Opus 4: 75.5%.
  • TerminalBench: 35.5%

    • Opus 4: 43.2%
  • Максимална Непрекъсната Задача: ~4 часа, по-малко от 7+ часа, отчетени за Opus.

  • Намаляване на Грешки: 65% по-малко поведения, водещи до преки пътища спрямо Sonnet 3.7

Приложения

Sonnet 4 е подходящ за захранване на AI чатботове, изследвания в реално време, RPA и разширяеми внедрявания. Способността му да извлича знания от документи, да анализира визуални данни и да поддържа разработка го прави способен асистент.

Архитектурни Иновации и Споделени Характеристики

И двата модела, Opus 4 и Sonnet 4, имат ключови архитектурни постижения. Поддържат контекстов прозорец от 200K и имат хибридно разсъждение. Използват външни инструменти паралелно с вътрешно разсъждение. Тези аспекти подобряват точността в реално време при задачи като търсене, изпълнение на код и анализ на документи.

Моделите също така проявяват по-малко „поведения, водещи до преки пътища“ от предишните итерации, което подобрява надеждността. Прозрачността беше разширена чрез наличието на „обобщение на мисленето“, което разчленява процесите на вземане на решения.

Производителност в Реалния Свят и Отзиви от Предприятията

Обратната информация за Opus 4 е положителна сред програмистите. Потребителите съобщават за дълги кодиращи сесии с висока точност. Също така са отбелязали отстраняване на грешки при първия опит, както и почти човешки начин на писане.

Sonnet 4 получи похвали, особено от потребителите, свързващи го с инструменти за разработчици като Cursor и Augment Code. Опасенията остават относно разбирането на документите и разочарованията от ограниченията на скоростта.

Основните потребители включват GitHub, който нарече Sonnet 4 „стремителен в агентни сценарии“. Replit похвали неговата прецизност, а Rakuten и Block подчертаха печалбите в производителността. Opus 4 позволи пълно 7-часово рефакториране на кодова база с отворен код.

Спор за Сигнализиране

Публикация в X от изследователя на Anthropic Сам Боуман разкри, че Opus може да предприеме действия, като например да докладва потребители, ако ги прецени за неморални.

Това поведение произтича от рамката Constitutional AI на Anthropic. Докато намерението е намаляване на вредите, критиците твърдят, че това ниво на инициатива, особено когато е съчетано с агентни възможности и достъп до командния ред, създава хлъзгав наклон.

Безопасност и Възникващи Възможности

Opus 4 работи под AI Safety Level 3, най-високото му текущо ниво, позовавайки се на опасения относно познания за чувствителни теми. Red teamers тестваха Opus и откриха поведения и възможности, “качествено различни от всичко, което бяха тествали преди”.

Ценообразуване и Предложение за Стойност

  • Opus 4: На цена от $75 за милион изходни токена, той е насочен към приложения от висок клас.

    • Това е същото ценообразуване като Opus 3.
    • o3 на OpenAI е на цена от $40 за милион изходни токени.
  • Sonnet 4: На цена от $15 за милион изходни токени, той осигурява баланс между производителност и достъпност.

    • GPT-4o на OpenAI и Gemini-2.5-Pro на Google са на цена от $20 и $15 за милион изходни токени съответно. Водещият модел 4.1 на OpenAI е на цена от $8 за милион изходни токени.