شهد عالم الذكاء الاصطناعي قفزة نوعية أخرى إلى الأمام مع الكشف عن Opus 4 و Sonnet 4 من قبل أنثروبيك، وهما أحدث التكرارات في عائلة Claude الرائدة. سرعان ما استحوذت هذه النماذج، التي تم إصدارها منذ ما يزيد قليلاً عن أسبوع، على الاهتمام، حيث وضعت معايير جديدة، لا سيما في مجال البرمجة الحرج. بالإضافة إلى براعتهم في البرمجة، يُظهر Opus 4 و Sonnet 4 قدرات قوية في الاستدلال والوظائف العاملة، مما يجعلهما بمثابة تطورات محورية في مشهد الذكاء الاصطناعي المعاصر.
يُعد Opus 4 بمثابة أحدث إبداعات Anthropic وأكثرها تطوراً حتى الآن، وقد أشادته الشركة باعتباره نموذجها الأقوى ويؤكد موقعه باعتباره "أفضل نموذج ترميز في العالم". بالإضافة إلى Opus 4، يظهر Sonnet 4 كبديل أكثر اقتصادا، وهو مصمم لتحقيق توازن مثالي بين الأداء الفائق والفعالية العملية من حيث التكلفة. يلبي هذا العرض المزدوج الاستراتيجي مجموعة واسعة من المستخدمين، من أولئك الذين يطلبون أداءً عالياً إلى أولئك الذين يبحثون عن حل أكثر وعياً بالميزانية.
التحسينات التي تم إدخالها في Opus 4 و Sonnet 4 جديرة بالملاحظة. ومن أبرزها كفاءتهم المحسنة في البرمجة. وقد أظهر Opus 4 بالفعل ريادته في المعايير الرئيسية، بما في ذلك SWE-bench و Terminal-bench، بينما يمتلك Sonnet قدرات مماثلة. ويؤكد هذا القفزة في أداء البرمجة الأهمية المتزايدة للذكاء الاصطناعي في تطوير البرمجيات.
بالإضافة إلى تحسينات الأداء، أعطت أنثروبيك الأولوية للسلامة. يشتمل Opus 4 على ASL-3، أو حماية مستوى السلامة 3 للذكاء الاصطناعي. وهذا الإجراء نابع من "سياسة التوسع المسؤولة" الخاصة بـ Anthropic. وقد أكدت أنثروبيك، التي أسسها موظفون سابقون في OpenAI يشعرون بالقلق إزاء السلامة، باستمرار على الابتكار مع اعتبارات السلامة القوية.
أثار إطلاق Opus 4 و Sonnet 4 ردود فعل إيجابية بشكل عام من المطورين والمستخدمين. وقد تم الإشادة بقدرات الترميز المحسنة باعتبارها خطوة مهمة نحو أنظمة الذكاء الاصطناعي المستقلة أو العاملة. كما تم استقبال هيكل التسعير بشكل جيد، والذي يعكس الأجيال السابقة من خلال تقديم خيار ممتاز وفعال من حيث التكلفة.
لم يكن إصدار Opus 4 بدون جدل. كشف باحث في Anthropic أن Opus يمكنه الاتصال بالسلطات إذا اعتبر سلوك المستخدم غير لائق. وفي حين أوضح الباحث لاحقًا أن هذا مستحيل في الاستخدام العادي، إلا أنه أثار مخاوف بين المستخدمين بشأن مستوى الاستقلالية الذي قد يكون مضمنًا في النموذج.
يتميز مجال الذكاء الاصطناعي بالإعلانات المتكررة عن النماذج الرائدة، ويتنافس كل منها على لقب "الأفضل في العالم". تشمل الإصدارات الحديثة Gemini-2.5-Pro من Google، و GPT-4.5 و GPT-4.1 من OpenAI، و Grok 3 من xAI، و Qwen 2.5 و QwQ-32B من Alibaba، وكلها تتباهى بأداء قياسي استثنائي.
بالنظر إلى هذا المشهد من المطالبات المتنافسة، من المناسب فحص ما إذا كان Claude 4 يحكم حقًا. من خلال الخوض في قدراته وأدائه المرجعي وتطبيقاته وردود فعل المستخدمين، قد يكون من الممكن التأكد من إجابة هذا السؤال.
Opus 4: قوة ترميز
يعد Opus 4 نموذج Anthropic الأكثر تقدما، وهو مصمم للمهام المعقدة والطويلة الأمد. وهو مناسب لهندسة البرمجيات المستقلة، والبحث، وسير العمل العاملة، وكلها تتطلب أدوات متميزة. يتم وضع Opus 4 على أنه "أفضل نموذج ترميز في العالم".
القدرات والتحسينات الأساسية
يمتلك Opus 4 قدرات متقدمة. والجدير بالذكر ما يلي:
- ترميز متقدم: يتفوق Opus 4 في تنفيذ "مهام هندسية تستغرق أياماً" بشكل مستقل. يتكيف النموذج مع أنماط المطورين المحددة مع "تحسين طعم الكود" ويدعم ما يصل إلى 32000 رمز إخراج. محرك Claude Code الخلفي يعالج المهام.
- الاستدلال المتقدم وحل المشكلات المعقدة: مع نظام استدلال هجين يتنقل بين الاستجابات الفورية والتفكير العميق والممتد، يحافظ Opus 4 على التركيز على مدى التسلسلات الطويلة.
- قدرات العامل: يمكّن Opus 4 وكلاء الذكاء الاصطناعي المتطورين ويثبت أداءً حديثًا (SOTA). وهو يدعم سير العمل المؤسسي وإدارة الحملات المستقلة.
- الكتابة الإبداعية وإنشاء المحتوى: يولد Opus 4 نثراً دقيقاً على المستوى البشري بجودة أسلوبية استثنائية، مما يجعله مناسباً للمهام الإبداعية المتقدمة.
- الذاكرة والوعي بالسياق الطويل: ينشئ Opus 4 ويستخدم "ملفات ذاكرة"، مما يعزز التماسك عبر المهام الطويلة، مثل كتابة دليل لعبة أثناء لعب Pokémon.
- البحث والبحث العميل: يستطيع Opus 4 إجراء ساعات من البحث وتجميع رؤى من بيانات معقدة مثل براءات الاختراع والأوراق الأكاديمية.
يسلط الضوء على أداء المعايير
أظهر Opus 4 أداء متفوقاً. ضع في اعتبارك المعايير التالية:
SWE-bench Verified (البرمجة): 73.2%
- تختبر SWE-bench قدرة أنظمة الذكاء الاصطناعي على حل مشكلات GitHub.
- o3 من OpenAI: 69.1%. Gemini-2.5-Pro من Google: 63.8%.
Terminal-bench (برمجة CLI): 43.2% (50.0% حساب عالي)
- تقيس Terminal-bench قدرات وكلاء الذكاء الاصطناعي في بيئة طرفية.
- Claude Sonnet 3.7: 35.2%، و GPT-4.1 من OpenAI: 30.3%.
MMLU (المعرفة العامة): 88.8%
- تم تصميم MMLU-Pro لتقييم نماذج فهم اللغة عبر مهام أوسع وأكثر صعوبة.
- سجل GPT-o1 و GPT-4.5 من OpenAI 89.3% و 86.1% على التوالي. Gemini-2.5-Pro-Experimental: 84.5%.
GPQA Diamond (الاستدلال للخريجين): 79.6% (83.3% حساب عالي)
- تقوم GPQA بتقييم الجودة والموثوقية في جميع أنحاء العلوم.
- Grok 3: 84.6%. Gemini-2.5-Pro: 84%. o3: 83.3%.
AIME (الرياضيات): 75.5% (90.0% حساب عالي)
- يقوم AIME 2024 بتقييم فعالية الرياضيات في المدرسة الثانوية.
- Gemini-2.5-Pro: 92%، GPT-o1: 79.2%. Nemotron Ultra من Nvidia: 80.1%.
HumanEval (البرمجة): ادعاءات عالية قياسية
* HumanEval عبارة عن مجموعة بيانات طورتها OpenAI لتقييم قدرات إنشاء التعليمات البرمجية.
* Opus 3: 84.9%.
TAU-bench: البيع بالتجزئة 81.4%
- تقوم TAU-bench Retail بتقييم وكلاء الذكاء الاصطناعي بشأن المهام في مجال التسوق بالتجزئة، مثل إلغاء الطلبات وتغيير العناوين والتحقق من حالة الطلب.
- Claude Sonnet 3.7: 72.2%. GPT-4.5: 70.4%.
MMMU (الاستدلال البصري): 76.5%
- يتم إجراء تقييم MMMU المرجعي في بيئة صفرية لتقييم قدرة النماذج على إنشاء إجابات دقيقة دون ضبط دقيق أو عروض توضيحية قليلة اللقطات على المعيار.
- Gemini-2.5-Pro: 84%. o3: 82.9%.
الحد الأقصى للمهمة المستمرة: أكثر من 7 ساعات
التطبيقات
يتفوق Opus 4 في إعادة هيكلة البرامج المتقدمة، وتركيب الأبحاث، والمهام المعقدة مثل النمذجة المالية أو تحويل النص إلى SQL. يمكن أن يشغل الوكلاء المستقلين متعددي الخطوات وسير العمل طويل الأجل، مع ذاكرة قوية.
Sonnet 4: الموازنة بين الأداء والتطبيق العملي
يوفر Claude 4 Sonnet الأداء والفعالية من حيث التكلفة والقدرة على البرمجة. وهو مصمم لعمليات نشر الذكاء الاصطناعي على نطاق المؤسسات حيث تكون هناك حاجة إلى الذكاء والقدرة على تحمل التكاليف.
القدرات والتحسينات الأساسية
يتضمن Sonnet 4 العديد من الفوائد الرئيسية:
- البرمجة: مثالية لسير العمل العميل، يدعم Sonnet 4 ما يصل إلى 64000 رمز إخراج وقد تم اختياره لتشغيل وكيل Copilot الخاص بـ GitHub. وهو يساعد في دورة حياة البرمجيات: التخطيط وإصلاح الأخطاء والصيانة وإعادة الهيكلة واسعة النطاق.
- الاستدلال واتباع التعليمات: يتميز Sonnet بالتفاعل الشبيه بالبشر واختيار الأدوات الفائق وتصحيح الأخطاء، وهو مناسب تماماً لأدوار روبوتات الدردشة المتقدمة والذكاء الاصطناعي للمساعد.
- استخدام الكمبيوتر: يمكن لـ Sonnet استخدام واجهات المستخدم الرسومية والتفاعل مع الواجهات الرقمية والكتابة والنقر وتفسير البيانات.
- استخراج البيانات المرئية: يستخرج البيانات من التنسيقات المرئية المعقدة مثل الرسوم البيانية والمخططات، مع إمكانات استخراج الجدول.
- إنشاء المحتوى وتحليله: يتفوق في الكتابة الدقيقة وتحليل المحتوى، مما يجعله خياراً قوياً لسير العمل التحريري والتحليلي.
- أتمتة العمليات الروبوتية (RPA): يعتبر Sonnet فعالاً في حالات استخدام RPA نظراً لدقته العالية في اتباع التعليمات.
- التصحيح الذاتي: يدرك Sonnet أخطائه ويصلحها، مما يعزز الموثوقية على المدى الطويل.
يسلط الضوء على أداء المعايير
حقق Sonnet 4 النتائج التالية:
- SWE-bench Verified:72.7%
- Opus 4: 73.2%.
MMLU: 86.5%
- Opus 4: 88.8%.
GPQA Diamond: 75.4%
- Opus 4: 79.5%.
TAU-bench: البيع بالتجزئة 80.5%
- Opus 4: 81.4%.
MMMU: 74.4%
- Opus 4: 76.5%.
AIME: 70.5%
- Opus 4: 75.5%.
TerminalBench: 35.5%
- Opus 4: 43.2%
الحد الأقصى للمهمة المستمرة: ~4 ساعات، أقل من 7+ ساعات المبلغ عنها لـ Opus.
تقليل الأخطاء: سلوكيات الاختصار أقل بنسبة 65% مقارنة بـ Sonnet 3.7
التطبيقات
يعتبر Sonnet 4 مناسبًا لتشغيل روبوتات الدردشة بالذكاء الاصطناعي، والبحث في الوقت الفعلي، و RPA، وعمليات النشر القابلة للتطوير. إن قدرته على استخراج المعرفة من المستندات، وتحليل البيانات المرئية، ودعم التطوير تجعله مساعدًا قادراً.
الابتكارات المعمارية والميزات المشتركة
يتمتع كل من Opus 4 و Sonnet 4 بتطورات معمارية رئيسية. إنهم يدعمون نافذة سياق 200 ألف ويتميزون بالاستدلال الهجين. إنهم يستخدمون أدوات خارجية بالتوازي مع الاستدلال الداخلي. تعمل هذه الجوانب على تحسين الدقة في الوقت الفعلي عبر المهام مثل البحث وتنفيذ التعليمات البرمجية وتحليل المستندات.
تُظهر النماذج أيضًا عددًا أقل من "سلوكيات الاختصار" من التكرارات السابقة، مما يعزز الموثوقية. تم تعزيز الشفافية من خلال توفير "ملخص التفكير" الذي يشرح عمليات صنع القرار.
الأداء الواقعي وردود الفعل من المؤسسات
كانت ردود الفعل على Opus 4 إيجابية بين المبرمجين. يشير المستخدمون إلى جلسات ترميز طويلة بدقة عالية. كما لاحظوا أيضاً إصلاحات الأخطاء في المحاولة الأولى، بالإضافة إلى تدفق الكتابة القريب من الإنسان.
نال Sonnet 4 الثناء، لا سيما من المستخدمين الذين يربطونه بأدوات المطورين مثل Cursor و Augment Code. لا تزال المخاوف قائمة بشأن فهم المستندات والإحباطات المتعلقة بمعدل الحد.
تشمل الشركات الكبرى المتبنية GitHub، التي أطلقت على Sonnet 4 اسم "التحليق في السيناريوهات الفاعلة". وأشاد Replit بدقته، وسلط كل من Rakuten و Block الضوء على مكاسب الإنتاجية. مكّن Opus 4 من إعادة هيكلة كاملة مدتها 7 ساعات لقاعدة بيانات مفتوحة المصدر.
جدل كشف المخالفات
كشفت مشاركة على X من Sam Bowman، الباحث في Anthropic، أن Opus يمكنه اتخاذ إجراءات، مثل الإبلاغ عن المستخدمين إذا اعتبرهم غير أخلاقيين.
يأتي هذا السلوك من إطار عمل الذكاء الاصطناعي الدستوري الخاص بـ Anthropic. في حين أن الهدف هو الحد من الضرر، إلا أن النقاد يجادلون بأن هذا المستوى من المبادرة، خاصة عندما يقترن بالقدرات الفاعلة والوصول إلى سطر الأوامر، يخلق منحدرًا زلقًا.
السلامة والقدرات الناشئة
يعمل Opus 4 بموجب مستوى السلامة 3 للذكاء الاصطناعي، وهو أعلى مستوى حالي له، مشيراً إلى مخاوف بشأن المعرفة بالموضوعات الحساسة. اختبر Red teamers Opus ووجدوا سلوكيات وقدرات "مختلفة نوعياً عن أي شيء اختبروه من قبل".
التسعير وعرض القيمة
Opus 4: بسعر 75 دولاراً لكل مليون رمز إخراج، فإنه يستهدف التطبيقات المتطورة.
- هذا هو نفس سعر Opus 3.
- يبلغ سعر o3 من OpenAI 40 دولاراً لكل مليون رمز إخراج.
Sonnet 4: بسعر 15 دولاراً لكل مليون رمز إخراج، فإنه يمنح توازناً بين الأداء والقدرة على تحمل التكاليف.
- يبلغ سعر GPT-4o من OpenAI و Gemini-2.5-Pro من Google 20 دولاراً و 15 دولاراً لكل مليون رمز إخراج على التوالي. يبلغ سعر نموذج 4.1 الرائد من OpenAI 8 دولارات لكل مليون رمز إخراج.