人工知能(AI)の分野では、Anthropic社の最新フラッグシップモデルであるClaudeファミリーのOpus 4とSonnet 4が発表され、大きな飛躍を遂げました。発表からわずか1週間強で、これらのモデルは注目を集め、特に重要なコーディングの分野で新たなベンチマークを確立しました。コーディング能力に加えて、Opus 4とSonnet 4は、推論とエージェント機能においても堅牢な能力を発揮し、現代のAIランドスケープにおける重要な進歩として位置付けられています。
Opus 4は、Anthropic社がこれまでで最も洗練された創造物として、同社によって最も強力なモデルであると賞賛され、「世界最高のコーディングモデル」としての地位を主張しています。Opus 4を補完するものとして、Sonnet 4は、優れたパフォーマンスと実用的なコスト効率の最適なバランスを実現するように設計された、より経済的な代替手段として登場します。この戦略的なデュアルオファリングは、最高のパフォーマンスを求めるユーザーから、より予算に配慮したソリューションを求めるユーザーまで、幅広いユーザーに対応します。
Opus 4とSonnet 4で導入された機能強化は注目に値します。主なハイライトは、強化されたコーディング能力です。Opus 4は、SWE-benchやTerminal-benchなどの主要なベンチマークで既にリーダーシップを発揮しており、Sonnetも同様の能力を示しています。このコーディングパフォーマンスの飛躍は、ソフトウェア開発におけるAIの重要性の高まりを強調しています。
パフォーマンスの向上に加えて、Anthropicは安全性を優先しています。Opus 4には、ASL-3(AI Safety Level 3)の保護が組み込まれています。この対策は、Anthropicの「責任あるスケーリングポリシー」に由来します。安全性に関心を持つOpenAIの元従業員によって設立されたAnthropicは、一貫して堅牢な安全性の考慮事項を備えたイノベーションを重視してきました。
Opus 4とSonnet 4のリリースは、開発者やユーザーから概ね肯定的なフィードバックを得ています。強化されたコーディング能力は、自律型またはエージェント型のAIシステムに向けた重要なステップとして賞賛されています。以前の世代を反映して、プレミアムオプションと費用対効果の高いオプションの両方を提示する価格設定構造も好評です。
Opus 4のリリースに際して、物議を醸す出来事がありました。Anthropicの研究者が、Opusがユーザーの行動を不適切と判断した場合、当局に連絡する可能性があることを明らかにしました。研究者は後に、これは通常の使用では不可能であると釈明しましたが、モデルに潜在的に組み込まれている自律性のレベルについて、ユーザーの間で懸念が高まりました。
AIの分野は、画期的なモデルの頻繁な発表によって特徴付けられており、それぞれが「世界最高のモデル」の称号を競い合っています。最近のリリースには、GoogleのGemini-2.5-Pro、OpenAIのGPT-4.5およびGPT-4.1、xAIのGrok 3、AlibabaのQwen 2.5およびQwQ-32Bなどがあり、これらはすべて卓越したベンチマークパフォーマンスを誇っています。
この競合する主張の状況を考えると、Claude 4が本当に最高位に君臨しているかどうかを検証することが適切です。その能力、ベンチマークパフォーマンス、アプリケーション、およびユーザーからのフィードバックを掘り下げることによって、この質問に対する答えを確かめることができるかもしれません。
Opus 4: コーディングの原動力
Opus 4は、Anthropic社の最先端モデルであり、複雑で長時間のタスク向けに設計されています。自律的なソフトウェアエンジニアリング、研究、およびエージェント型のワークフローに適しており、これらはすべてプレミアムツールを必要とします。Opus 4は、「世界最高のコーディングモデル」として位置付けられています。
主要な機能と拡張機能
Opus 4は高度な機能を備えています。特に注目すべきは次のとおりです。
- 高度なコーディング: Opus 4は、「数日間のエンジニアリングタスク」を自律的に実行することに優れています。このモデルは、「改善されたコードテイスト」で特定の開発者スタイルに適応し、最大32,000の出力トークンをサポートします。バックグラウンドのClaude Codeエンジンがタスクを処理します。
- 高度な推論と複雑な問題解決: 即時の応答と深くて拡張された思考を切り替えるハイブリッド推論システムにより、Opus 4は、長時間のシーケンスにわたって集中力を維持します。
- エージェント機能: Opus 4は、高度なAIエージェントを可能にし、最先端(SOTA)のパフォーマンスを発揮します。エンタープライズワークフローと自律的なキャンペーン管理をサポートします。
- クリエイティブライティングとコンテンツ作成: Opus 4は、優れた文体品質を備えた、人間レベルのニュアンスのある散文を生成し、高度なクリエイティブタスクに適しています。
- メモリと長いコンテキストの認識: Opus 4は、「メモリファイル」を作成して使用し、ポケモンをプレイしながらゲームガイドを作成するなど、長いタスク全体で一貫性を高めます。
- エージェント検索と調査: Opus 4は、数時間にわたる調査を実施し、特許や学術論文などの複雑なデータから洞察を合成できます。
ベンチマークパフォーマンスのハイライト
Opus 4は優れたパフォーマンスを発揮しています。次のベンチマークを検討してください。
SWE-bench Verified(コーディング): 73.2%
- SWE-benchは、GitHubの問題を解決するAIシステムの能力をテストします。
- OpenAIのo3: 69.1%、GoogleのGemini-2.5-Pro: 63.8%。
Terminal-bench(CLIコーディング): 43.2%(高計算時50.0%)
- Terminal-benchは、ターミナル環境におけるAIエージェントの能力を測定します。
- Claude Sonnet 3.7: 35.2%、OpenAIのGPT-4.1: 30.3%。
MMLU(一般知識): 88.8%
- MMLU-Proは、より広範でより困難なタスクにわたって言語理解モデルを評価するように設計されています。
- OpenAIのGPT-o1とGPT-4.5は、それぞれ89.3%と86.1%を獲得しています。Gemini-2.5-Pro-Experimental: 84.5%。
GPQA Diamond(大学院推論): 79.6%(高計算時83.3%)
- GPQAは、科学全体にわたる品質と信頼性を評価します。
- Grok 3: 84.6%、Gemini-2.5-Pro: 84%、o3: 83.3%。
AIME(数学): 75.5%(高計算時90.0%)
- AIME 2024は、高校の数学の有効性を評価します。
- Gemini-2.5-Pro: 92%、GPT-o1: 79.2%、NvidiaのNemotron Ultra: 80.1%。
HumanEval(コーディング): 記録的な主張
* HumanEvalは、コード生成能力を評価するためにOpenAIによって開発されたデータセットです。
* Opus 3: 84.9%。
TAU-bench: 小売 81.4%
- TAU-bench Retailは、注文のキャンセル、住所の変更、注文状況の確認など、小売ショッピングドメインのタスクにおけるAIエージェントを評価します。
- Claude Sonnet 3.7: 72.2%、GPT-4.5: 70.4%。
MMMU(視覚的推論): 76.5%
- MMMUのベンチ評価は、ベンチマークでの微調整または少数ショットのデモンストレーションなしに、モデルが正確な回答を生成する能力を評価するために、ゼロショット設定で実施されます。
- Gemini-2.5-Pro: 84%、o3: 82.9%。
最大連続タスク: 7時間以上
アプリケーション
Opus 4は、高度なソフトウェアのリファクタリング、研究の合成、および財務モデリングやテキストからSQLへの変換などの複雑なタスクに優れています。強力なメモリを備えた、複数のステップからなる自律型エージェントと長期的なワークフローを強化できます。
Sonnet 4: パフォーマンスと実用性のバランス
Claude 4 Sonnetは、パフォーマンス、コスト効率、およびコーディング能力を提供します。インテリジェンスと手頃な価格が必要とされるエンタープライズスケールのAIデプロイメント向けに設計されています。
主要な機能と拡張機能
Sonnet 4には、いくつかの主要な利点があります。
- コーディング: エージェント型のワークフローに最適なSonnet 4は、最大64,000の出力トークンをサポートし、GitHubのCopilotエージェントを強化するために選択されました。ソフトウェアのライフサイクル(計画、バグの修正、メンテナンス、大規模なリファクタリング)を支援します。
- 推論と指示の実行: 人間のような対話、優れたツール選択、およびエラー修正で注目されるSonnetは、高度なチャットボットおよびAIアシスタントの役割に適しています。
- コンピューターの使用: SonnetはGUIを使用でき、デジタルインターフェイスと対話し、入力、クリック、およびデータを解釈できます。
- 視覚データの抽出: チャートやダイアグラムなどの複雑な視覚形式からデータを抽出し、テーブル抽出機能を備えています。
- コンテンツの生成と分析: ニュアンスのあるライティングとコンテンツ分析に優れており、編集および分析ワークフローの確実な選択肢となります。
- ロボティックプロセスオートメーション(RPA): Sonnetは、高い指示実行精度により、RPAユースケースで効果的です。
- 自己修正: Sonnetは、自身の間違いを認識して修正し、長期的な信頼性を高めます。
ベンチマークパフォーマンスのハイライト
Sonnet 4は、次のスコアを達成しました。
SWE-bench Verified: 72.7%
- Opus 4: 73.2%。
MMLU: 86.5%
- Opus 4: 88.8%。
GPQA Diamond: 75.4%
- Opus 4: 79.5%。
TAU-bench: 小売 80.5%
- Opus 4: 81.4%。
MMMU: 74.4%
- Opus 4: 76.5%。
AIME: 70.5%
- Opus 4: 75.5%。
TerminalBench: 35.5%
- Opus 4: 43.2%。
最大連続タスク: 約4時間、Opusで報告された7時間以上よりも短い。
エラー削減: Sonnet 3.7と比較して、ショートカット動作が65%減少
アプリケーション
Sonnet 4は、AIチャットボット、リアルタイム研究、RPA、およびスケーラブルなデプロイメントを強化するのに適しています。ドキュメントから知識を抽出し、視覚データを分析し、開発をサポートする能力により、有能なアシスタントになります。
アーキテクチャの革新と共有機能
Opus 4とSonnet 4の両方には、主要なアーキテクチャの進歩があります。200Kのコンテキストウィンドウをサポートし、ハイブリッド推論を備えています。内部推論と並行して外部ツールを利用します。これらの側面は、検索、コード実行、ドキュメント分析などのタスク全体でリアルタイムの精度を向上させます。
また、これらのモデルは、以前のバージョンよりも「ショートカット動作」が少なく、信頼性が向上しています。「思考の概要」を利用できることで透明性が高まり、意思決定プロセスを詳しく調べることができます。
実際のパフォーマンスとエンタープライズのフィードバック
Opus 4に関するフィードバックは、コーダーの間で肯定的に受け止められています。ユーザーは、高い精度での長時間のコーディングセッションを報告しています。また、最初の試みでのバグ修正や、ほぼ人間のようなライティングフローも指摘しています。
Sonnet 4は、特にCursorやAugment Codeなどの開発ツールと連携させているユーザーから賞賛を得ています。ドキュメントの理解とレート制限に関する不満は残っています。
主要な採用企業には、Sonnet 4を「エージェントシナリオで急上昇している」と呼ぶGitHubが含まれます。Replitはその精度を称賛し、RakutenとBlockは生産性の向上を強調しました。Opus 4は、オープンソースコードベースの完全な7時間のリファクタリングを可能にしました。
内部告発の論争
Anthropicの研究者であるSam Bowman氏からのXへの投稿で、Opusは、ユーザーを不道徳と見なした場合に、報告するなど、行動を起こす可能性があることが明らかになりました。
この動作は、AnthropicのConstitutional AIフレームワークに由来します。意図は危害の軽減ですが、特にエージェント機能とコマンドラインアクセスと組み合わせた場合、このレベルのイニシアチブは危険なスロープを作り出すと批判する人もいます。
安全性と緊急能力
Opus 4は、AI Safety Level 3(現在の最高層)で動作し、機密トピックに関する知識に関する懸念を挙げています。レッドチーマーはOpusをテストし、「以前にテストしたこととは質的に異なる」動作と機能を発見しました。
価格設定と価値提案
Opus 4: 100万出力トークンあたり75ドルで価格設定されており、ハイエンドアプリケーションをターゲットにしています。
- これは、Opus 3と同じ価格設定です。
OpenAIのo3は、100万出力トークンあたり40ドルで価格設定されています。
Sonnet 4: 100万出力トークンあたり15ドルで価格設定されており、パフォーマンスと手頃な価格のバランスを提供します。
- OpenAIのGPT-4oとGoogleのGemini-2.5-Proは、それぞれ100万出力トークンあたり20ドルと15ドルで価格設定されています。OpenAIのフラッグシップ4.1モデルは、100万出力トークンあたり8ドルで価格設定されています。