Gemini 2.5: هل هو الأداة الأفضل لبرمجة الذكاء الاصطناعي؟ | ar

يشهد المجال المتخصص للذكاء الاصطناعي المصمم خصيصًا لمهام البرمجة تحولًا محتملًا. لفترة طويلة، غالبًا ما تم الاستشهاد بالنماذج التي طورتها شركة Anthropic، وخاصة سلسلة Claude، باعتبارها الرائدة في مساعدة المطورين في كتابة التعليمات البرمجية وتصحيحها وفهمها. ومع ذلك، تشير التطورات الأخيرة إلى دخول منافس جديد هائل إلى الساحة: Google Gemini 2.5. تشير المؤشرات المبكرة، بما في ذلك أداء المقاييس المعيارية وردود الفعل الأولية للمطورين، إلى أن هذا الإصدار الأخير قد يعيد تعريف معايير المساعدة البرمجية المدعومة بالذكاء الاصطناعي، مما يثير تساؤلات حول ما إذا كان التسلسل الهرمي القائم على وشك إعادة التشكيل. إن ظهور Gemini 2.5 Pro Experimental، على وجه الخصوص، يثير نقاشًا ومقارنة مكثفة داخل مجتمع المطورين.

براعة المقارنة المعيارية: ميزة كمية؟

غالبًا ما توفر المقاييس الموضوعية النظرة الأولى لقدرات النموذج الجديد، وفي هذا الصدد، حقق Gemini 2.5 دخولًا مهمًا. أحد التقييمات ذات الصلة بشكل خاص هو لوحة صدارة Aider Polyglot، وهو مقياس معياري مصمم بدقة لتقييم كفاءة نماذج اللغة الكبيرة (LLMs) في المهام العملية لتوليد تعليمات برمجية جديدة وتعديل قواعد التعليمات البرمجية الحالية عبر لغات برمجة متعددة. ضمن هذا التقييم الصعب، حققت النسخة التجريبية من Gemini 2.5 Pro درجة ملحوظة بلغت 72.9%. هذا الرقم يضعه في المقدمة بشكل ملحوظ على المنافسين الأقوياء، بما في ذلك Claude 3.7 Sonnet من Anthropic، الذي سجل 64.9%. كما أنه تجاوز العروض المقدمة من OpenAI، مثل نموذج o1 (61.7%) ومتغير o3-mini high (60.4%). مثل هذا التقدم في مقياس معياري خاص بالبرمجة هو حجة كمية قوية لكفاءة Gemini 2.5 في هذا المجال.

بالإضافة إلى التقييمات التي تركز على البرمجة، أظهر Gemini 2.5 أداءً استثنائيًا في اختبارات أوسع نطاقًا للاستدلال وتطبيق المعرفة. فقد حصل على المرتبة الأولى في مقياس GPQA (Graduate-Level Google-Proof Q&A)، وهو اختبار صارم يتحدى نماذج الذكاء الاصطناعي بأسئلة معقدة تغطي مختلف التخصصات العلمية التي يتم مواجهتها عادةً في مستوى الدراسات العليا. حصل Gemini 2.5 على درجة 83% في هذا المقياس. تفوق هذا الأداء على أداء نموذج o1-Pro من OpenAI، الذي سجل 79%، و Claude 3.7 Sonnet من Anthropic، الذي حقق 77% حتى عند استخدام تقنيات وقت التفكير الممتد. تشير التصنيفات العالية المتسقة عبر مقاييس متنوعة، بما في ذلك تلك التي تختبر الاستدلال العام إلى جانب المهارات المتخصصة مثل البرمجة، إلى بنية أساسية قوية ومتعددة الاستخدامات. يمكن أن يكون هذا المزيج من القدرة المتخصصة على البرمجة والقدرة الفكرية الواسعة عامل تمييز رئيسي للمطورين الذين يبحثون عن مساعد ذكاء اصطناعي شامل.

إشادة المطورين والتحقق في العالم الحقيقي

بينما تقدم المقاييس المعيارية رؤى كمية قيمة، فإن الاختبار الحقيقي لمساعد البرمجة بالذكاء الاصطناعي يكمن في تطبيقه العملي من قبل المطورين الذين يتعاملون مع مشاريع العالم الحقيقي. تشير التقارير والشهادات المبكرة إلى أن Gemini 2.5 لا يعمل بشكل جيد في الاختبارات الخاضعة للرقابة فحسب، بل يثير إعجاب المستخدمين أيضًا في سير عملهم اليومي. قدم Mckay Wrigley، وهو مطور يجرب النموذج الجديد بنشاط، تأييدًا قويًا، مصرحًا بشكل لا لبس فيه، ‘Gemini 2.5 Pro هو الآن بسهولة أفضل نموذج للتعليمات البرمجية‘. تجاوزت ملاحظاته مجرد توليد التعليمات البرمجية؛ فقد سلط الضوء على الحالات التي أظهر فيها النموذج ما أسماه ‘ومضات من التألق الحقيقي‘. علاوة على ذلك، أشار Wrigley إلى خاصية قد تكون حاسمة: النموذج لا يوافق ببساطة على مطالبات المستخدم افتراضيًا ولكنه ينخرط بشكل أكثر نقدًا، مما يشير إلى مستوى أعمق من الفهم أو الاستدلال المحاكى. كان استنتاجه قاطعًا: ‘قدمت Google فائزًا حقيقيًا هنا‘.

يبدو أن هذا الشعور الإيجابي مشترك بين الآخرين، خاصة عند إجراء مقارنات مباشرة مع Claude 3.7 Sonnet من Anthropic الذي يحظى بتقدير كبير. يجد العديد من المطورين أن تجاربهم العملية تتوافق مع نتائج المقاييس المعيارية التي تفضل Gemini 2.5. ظهرت رواية توضيحية من مستخدم على Reddit وصف بالتفصيل معاناته في بناء تطبيق على مدار عدة ساعات باستخدام Claude 3.7 Sonnet. كانت النتيجة، وفقًا للمستخدم، تعليمات برمجية غير وظيفية إلى حد كبير تعاني من ممارسات أمنية سيئة، مثل تضمين مفاتيح API مباشرة داخل التعليمات البرمجية (hardcoding). محبطًا، تحول المطور إلى Gemini 2.5. قدم قاعدة التعليمات البرمجية المعيبة بالكامل التي أنشأها Claude كمدخل. وبحسب ما ورد، لم يقم Gemini 2.5 بتحديد العيوب الحرجة وشرحها بوضوح فحسب، بل شرع أيضًا في إعادة كتابة التطبيق بأكمله، مما أدى إلى إصدار وظيفي وأكثر أمانًا. تؤكد هذه الحكاية على إمكانات Gemini 2.5 للتعامل مع مهام التصحيح وإعادة الهيكلة المعقدة بفعالية.

ركزت اختبارات مقارنة أخرى على جوانب مختلفة من التطوير. في إحدى الحالات الموثقة على منصة التواصل الاجتماعي X، قام مستخدم بمقارنة Gemini 2.5 مع Claude 3.7 Sonnet في مهمة بصرية: إعادة إنشاء واجهة المستخدم (UI) لـ ChatGPT. وفقًا لتقييم المستخدم، أنتج Gemini 2.5 تمثيلًا مرئيًا أكثر دقة لواجهة المستخدم المستهدفة مقارنة بنظيره من Anthropic. في حين أن تكرار واجهة المستخدم هو جانب واحد فقط من التطوير، فإن الدقة في مثل هذه المهام يمكن أن تشير إلى اهتمام النموذج الدقيق بالتفاصيل وقدرته على ترجمة الأوصاف أو الأمثلة المعقدة إلى مخرجات ملموسة.

لا تقتصر التحسينات على المنافسين فحسب، بل تمثل أيضًا تقدمًا كبيرًا على نماذج Google السابقة. شارك المطور Alex Mizrahi تجربة تسلط الضوء على هذا التقدم الداخلي. استخدم Gemini 2.5 ووجد أنه يمكنه تذكر ما يقرب من 80-90% من بناء جملة Rell (لغة برمجة محددة) فقط من قاعدة معارفه الداخلية. شكل هذا قفزة كبيرة إلى الأمام مقارنة بإصدارات Gemini السابقة، والتي، وفقًا لـ Mizrahi، كافحت بشكل كبير مع بناء جملة Rell حتى عند تزويدها صراحة بأمثلة داخل المطالبة. يشير هذا إلى تحسينات في بيانات التدريب الأساسية للنموذج وقدرات الاستدعاء للغات أو بناء الجمل الأقل شيوعًا.

البرمجة التعاونية والمزايا السياقية

بالإضافة إلى توليد التعليمات البرمجية الخام والدقة، يؤثر أسلوب التفاعل والقدرة السياقية لنموذج الذكاء الاصطناعي بشكل كبير على فائدته كشريك في البرمجة. يبلغ المستخدمون عن شعور أكثر تعاونية عند العمل مع Gemini 2.5. لاحظ المطور Matthew Berman سلوكًا مميزًا على X: ‘إنه (Gemini 2.5 Pro) يطرح علي أسئلة توضيحية على طول الطريق، وهو ما لم يفعله أي نموذج آخر.‘ وفسر ذلك على أنه يجعل التفاعل ‘أكثر تعاونية بكثير‘. يمكن أن يؤدي هذا الانخراط الاستباقي - السعي للحصول على توضيح بدلاً من وضع افتراضات - إلى نتائج أكثر دقة، وتقليل التكرارات، وربما منع سوء الفهم، خاصة في المهام المعقدة أو غير المحددة بوضوح التي غالبًا ما تتم مواجهتها في ‘vibe coding’ حيث يكون لدى المطور فكرة عامة ولكن ليس مواصفات دقيقة.

أحد العوامل التقنية الرئيسية التي تساهم في التفوق المحتمل لـ Gemini 2.5 في سيناريوهات البرمجة المعقدة هو نافذة السياق الواسعة الخاصة به. يدعم النموذج ما يصل إلى مليون رمز إدخال. يمثل هذا ميزة كبيرة على المنافسين الحاليين. تدعم نماذج OpenAI الرائدة، o1 و o3-mini، حاليًا نافذة سياق تبلغ 250,000 رمز. بينما يقال إن Anthropic تعمل على توسيع نافذة السياق الخاصة بها، ربما إلى 500,000 رمز، فإن قدرة Gemini 2.5 الحالية تتجاوز هذه الأرقام بشكل كبير.

لماذا تعتبر نافذة السياق الكبيرة حاسمة جدًا للبرمجة؟ غالبًا ما يتضمن تطوير البرامج الحديثة العمل مع قواعد تعليمات برمجية واسعة، وملفات متعددة، وتبعيات معقدة، وتاريخ طويل من التغييرات. يمكن للنموذج ذي نافذة السياق الأكبر استيعاب ومعالجة المزيد من هذه المعلومات المحيطة في وقت واحد. يتيح له ذلك الحفاظ على تناسق أفضل عبر المشاريع الكبيرة، وفهم العلاقات المعقدة بين وحدات التعليمات البرمجية المختلفة، وتتبع استخدام المتغيرات وتعريفات الوظائف عبر الملفات، وربما توليد تعليمات برمجية تتكامل بسلاسة أكبر في الهيكل الحالي دون مطالبة المطور بتغذية مقتطفات من السياق ذي الصلة يدويًا باستمرار. بالنسبة لمهام مثل إعادة الهيكلة واسعة النطاق، أو فهم الأنظمة القديمة، أو تطوير الميزات التي تمس أجزاء كثيرة من التطبيق، يمكن أن تكون نافذة سياق المليون رمز بمثابة تغيير جذري، مما يقلل الأخطاء ويحسن جودة وملاءمة مساهمات الذكاء الاصطناعي.

العيوب المستمرة والحاجة إلى الإشراف

على الرغم من التطورات المثيرة للإعجاب وردود الفعل الإيجابية، من الضروري الحفاظ على المنظور: Gemini 2.5، خاصة في تسميته الحالية ‘Pro Experimental’، ليس أوراكل برمجة لاتشوبه شائبة. لا يزال يظهر بعض التحديات الكلاسيكية والمزالق المحتملة المرتبطة باستخدام نماذج اللغة الكبيرة لتطوير البرمجيات. يظل المطلب الأساسي للحكم البشري والإشراف الدؤوب مطلقًا.

لا يزال الأمن أحد مجالات القلق الرئيسية. شارك المطور Kaden Bilyeu حالة على X حيث حاول Gemini 2.5 إنشاء تعليمات برمجية من شأنها إنشاء واجهة برمجة تطبيقات من جانب العميل (client-side API) للتعامل مع استجابات الدردشة. هذا النهج غير آمن بطبيعته لأنه سيؤدي حتمًا إلى كشف أو تسريب مفتاح API داخل التعليمات البرمجية من جانب العميل، مما يجعله متاحًا للمستخدمين النهائيين. يسلط هذا الضوء على أنه حتى النماذج المتقدمة يمكن أن تفتقر إلى فهم أساسي لأفضل ممارسات الأمان، مما قد يؤدي إلى إدخال ثغرات أمنية حرجة إذا تم الوثوق بمخرجاتها بشكل أعمى. يجب على المطورين مراجعة التعليمات البرمجية التي تم إنشاؤها بواسطة الذكاء الاصطناعي بدقة، خاصة فيما يتعلق بالمصادقة والترخيص ومعالجة البيانات.

علاوة على ذلك، تلقت قدرة النموذج على إدارة قواعد التعليمات البرمجية الكبيرة جدًا بفعالية مراجعات متباينة، مما يشير إلى أن نافذة السياق المثيرة للإعجاب قد لا تترجم دائمًا بشكل مثالي إلى أداء عملي تحت الحمل الثقيل. أبلغ المطور Louie Bacaj عن صعوبات كبيرة عند تكليف Gemini 2.5 بعمليات على قاعدة تعليمات برمجية تتألف من حوالي 3500 سطر من التعليمات البرمجية. لاحظ Bacaj أنه على الرغم من التحسينات المزعومة للنموذج في معالجة السياق ونجاح استدعاءات API التي تشير إلى استلام السياق، إلا أنه فشل بشكل متكرر في أداء المهام المطلوبة بدقة أو بشكل شامل ضمن نطاق هذا المشروع الأكبر. يشير هذا إلى قيود محتملة في الاستخدام الفعال لنافذة السياق بأكملها لمهام الاستدلال أو المعالجة المعقدة ضمن تعليمات برمجية موجودة كبيرة، أو ربما عدم اتساق في الأداء اعتمادًا على الطبيعة المحددة للتعليمات البرمجية والمهمة.

تعتبر علامة ‘Experimental’ المرفقة بإصدار Gemini 2.5 Pro المتاح حاليًا مهمة أيضًا. إنها تشير إلى أن Google لا تزال تعمل بنشاط على تحسين النموذج. يجب أن يتوقع المستخدمون عدم استقرار محتمل، وتغيرات في الأداء، وتغييرات مستمرة حيث تجمع Google التعليقات وتكرر التكنولوجيا. بينما تتيح هذه المرحلة الوصول المبكر إلى القدرات المتطورة، فإنها تعني أيضًا أن النموذج قد لا يمتلك بعد الموثوقية الكاملة أو الصقل المتوقع من إصدار إنتاج نهائي. من المحتمل حدوث تحسين مستمر، لكن المستخدمين الحاليين يشاركون فعليًا في اختبار تجريبي واسع النطاق. تؤكد هذه العيوب على الدور الذي لا يمكن الاستغناء عنه للمطور البشري في الحلقة - ليس فقط لاكتشاف الأخطاء، ولكن لاتخاذ القرارات المعمارية والتخطيط الاستراتيجي وضمان توافق المنتج النهائي مع المتطلبات ومعايير الجودة.

التحدي الأوسع: تحويل القوة إلى تجربة

بينما يبدو أن Google DeepMind تحقق إنجازات تقنية ملحوظة بنماذج مثل Gemini 2.5، يظهر موضوع متكرر: تحدي ترجمة القوة التكنولوجية الخام إلى تجارب مستخدم مقنعة وسهلة الوصول وجذابة تجذب انتباه السوق. هناك تصور بأنه حتى عندما تطور Google قدرات ذكاء اصطناعي رائدة عالميًا محتملة، فإنها تتعثر أحيانًا في تغليف وتقديم هذه القدرات بطريقة تلقى صدى واسعًا لدى المستخدمين، خاصة مقارنة بالمنافسين مثل OpenAI.

تم تسليط الضوء على هذه القضية من قبل المستثمر الملاك Nikunj Kothari، الذي أعرب عن درجة من التعاطف مع فريق Google DeepMind. وعلق قائلاً: ‘أشعر ببعض الأسف تجاه فريق Google DeepMind‘، ملاحظًا التباين بين إطلاق النماذج القوية والظواهر الفيروسية التي غالبًا ما يولدها المنافسون. وأضاف: ‘أنت تبني نموذجًا يغير العالم والجميع ينشرون صورًا بأسلوب Ghibli بدلاً من ذلك‘، في إشارة إلى الضجة حول قدرات توليد الصور في GPT-4o من OpenAI، والتي سرعان ما استحوذت على خيال الجمهور. حدد Kothari هذا باعتباره تحديًا مستمرًا لـ Google: امتلاك موهبة تقنية هائلة قادرة على بناء أفضل ذكاء اصطناعي في فئته، ولكن ربما الاستثمار بشكل أقل في الطبقة الحاسمة لتصميم المنتجات وتجربة المستخدم التي تواجه المستهلك. وحث قائلاً: ‘أتوسل إليهم أن يأخذوا 20% من أفضل مواهبهم ويمنحوهم حرية التصرف في بناء تجارب مستهلك عالمية المستوى‘.

يمتد هذا الشعور إلى ‘شخصية’ النماذج المتصورة. لاحظ Kothari أن أسلوب Gemini 2.5 التفاعلي بدا ‘أساسيًا جدًا‘ مقارنة بالنماذج الرائدة الأخرى. يؤثر هذا العنصر الذاتي، على الرغم من صعوبة قياسه كميًا، على تفاعل المستخدم والشعور بالتعاون مع الذكاء الاصطناعي. ردد العديد من المستخدمين الآخرين هذه الملاحظة، مشيرين إلى أنه على الرغم من كفاءته التقنية، قد يفتقر النموذج إلى أسلوب التفاعل الأكثر جاذبية أو دقة الذي يزرعه المنافسون.

ظهرت أيضًا مشكلات عملية في قابلية الاستخدام. على سبيل المثال، تم الإشادة تقنيًا بإصدار توليد الصور الأصلي داخل نموذج Gemini 2.0 Flash لقدراته. ومع ذلك، أبلغ العديد من المستخدمين عن صعوبة في مجرد العثور على الميزة واستخدامها. وُصفت واجهة المستخدم بأنها غير بديهية، مع خيارات متداخلة بشكل غير ضروري داخل القوائم. يمكن أن يؤدي هذا الاحتكاك في الوصول إلى ميزة قوية إلى إضعاف حماس المستخدم واعتماده بشكل كبير، بغض النظر عن جودة التكنولوجيا الأساسية. إذا كان المستخدم يكافح حتى لبدء مهمة ما، تصبح قوة النموذج غير ذات صلة به.

بالتفكير في ‘هوس Ghibli’ المحيط بتوليد الصور في GPT-4o، قد يكون الوضع أقل تعلقًا بفشل Google الصريح في التسويق وأكثر تعلقًا ببراعة OpenAI في فهم سيكولوجية المستخدم والاستفادة منها. كما أشار أحد المستخدمين على X بخصوص عرض OpenAI، ‘تنشر صورتين والجميع يفهم الأمر.‘ الطبيعة المرئية وسهلة المشاركة والإبداعية بطبيعتها للعرض استغلت اهتمام المستخدم الفوري. في المقابل، يتطلب تقييم التحسينات الدقيقة في نموذج لغوي مثل Gemini 2.5 مزيدًا من الجهد. وأوضح المستخدم: ‘تطلب من نفس الأشخاص قراءة تقرير تم إنشاؤه بواسطة 2.0 ومقارنته بـ 2.5، وهذا يتطلب وقتًا أطول من التمرير والإعجاب‘.

تؤكد هذه السيناريوهات درسًا حاسمًا في مشهد الذكاء الاصطناعي الحالي: التفوق التكنولوجي وحده لا يضمن ريادة السوق أو تفضيل المستخدم. تلعب عوامل مثل سهولة الاستخدام والتصميم البديهي والتواصل الفعال للقدرات وحتى عامل الشخصية المتصورة أو المشاركة للذكاء الاصطناعي أدوارًا حاسمة. غالبًا ما ينجذب المستخدم العادي، بما في ذلك العديد من المطورين الذين يركزون على الإنتاجية، نحو الأدوات التي ليست قوية فحسب، بل ممتعة أيضًا وذات صلة ومتكاملة بسلاسة في سير عملهم. لكي تستفيد Google بالكامل من إمكانات نماذج مثل Gemini 2.5، لا سيما في المجالات التنافسية مثل مساعدة البرمجة، يظل سد الفجوة بين البحث المتطور وتجربة المستخدم الاستثنائية مهمة حيوية.

تم التحديث في ٢٠٢٥-٠٤-٠١

# Google # Gemini # Assistant