هل كان GPT-4.5 فشلاً؟

حجم ونطاق GPT-4.5

يمثل GPT-4.5 أضخم مشاريع OpenAI حتى الآن من حيث الحجم الهائل. على الرغم من ندرة التفاصيل الدقيقة المتعلقة ببنيته وبيانات التدريب الخاصة به، فمن المعروف أن عملية التدريب كانت مكثفة من الناحية الحسابية لدرجة أنها استلزمت التوزيع عبر مراكز بيانات متعددة. وهذا وحده يلمح إلى الموارد الهائلة التي تم ضخها في تطويره.

يؤكد هيكل تسعير النموذج أيضًا على مكانته كعرض متميز. التكاليف أعلى بكثير من تكاليف أسلافه، حيث تتجاوز GPT-4o بمعامل 15-30X، و o1 بمعامل 3-5X، و Claude 3.7 Sonnet بمعامل 10-25X. يقتصر الوصول حاليًا على مشتركي ChatGPT Pro (بسعر ضخم قدره 200 دولار شهريًا) وعملاء API المستعدين للدفع على أساس كل رمز.

ومع ذلك، فإن مكاسب الأداء، على الأقل في بعض المجالات، لم تتناسب تمامًا مع السعر. كشفت المعايير الأولية عن تحسينات متواضعة فقط مقارنة بـ GPT-4o، بل وأظهرت أن GPT-4.5 يتخلف عن نماذج مثل o1 و o3-mini في مهام الاستدلال.

فهم الغرض المقصود من GPT-4.5

من الأهمية بمكان أن ندرك أن OpenAI لم تسوق GPT-4.5 صراحةً على أنه نموذجها الرائد والمتعدد الأغراض. في الواقع، أوضحت الإصدارات المبكرة من منشور مدونتهم أنه لم يكن المقصود منه أن يكون “نموذجًا حدوديًا” يدفع الحدود المطلقة للقدرة. علاوة على ذلك، فهو ليس مصممًا في المقام الأول كنموذج استدلال، مما يجعل المقارنات المباشرة مع النماذج المحسّنة لهذا الغرض (مثل o3 و DeepSeek-R1) مضللة إلى حد ما.

أشارت OpenAI إلى أن GPT-4.5 سيكون نموذجها الأخير غير المتسلسل. وهذا يعني أن تدريبه ركز بشكل كبير على تضمين كميات هائلة من المعرفة العالمية والمواءمة مع تفضيلات المستخدم، بدلاً من تطوير قدرات استدلال معقدة.

أين يمكن أن يتألق GPT-4.5: المعرفة والفروق الدقيقة

غالبًا ما تكمن الميزة الأساسية للنماذج الأكبر في قدرتها الموسعة على اكتساب المعرفة. يوضح GPT-4.5، تماشيًا مع هذا المبدأ، ميلًا منخفضًا إلى الهلوسة مقارنة بنظرائه الأصغر. وهذا يجعله ذا قيمة محتملة في السيناريوهات التي يكون فيها الالتزام الصارم بالحقائق والمعلومات السياقية أمرًا بالغ الأهمية.

علاوة على ذلك، يُظهر GPT-4.5 قدرة محسّنة على اتباع تعليمات المستخدم وتفضيلاته. وقد تم عرض هذا في العديد من العروض التوضيحية بواسطة OpenAI وأكدته تجارب المستخدمين المشتركة عبر الإنترنت. يبدو أن النموذج يفهم الفروق الدقيقة في نية المستخدم بشكل أكثر فعالية، مما يؤدي إلى مخرجات أكثر تخصيصًا وملاءمة.

الجدل حول جودة النثر: الذاتية والإمكانات

ظهر نقاش حيوي بشأن قدرة GPT-4.5 على توليد نثر فائق. أشاد بعض المديرين التنفيذيين في OpenAI بجودة مخرجات النموذج، حتى أن الرئيس التنفيذي سام ألتمان أشار إلى أن التفاعل معه قدم لمحة عن “AGI” (الذكاء العام الاصطناعي) لبعض المختبرين المميزين.

ومع ذلك، كان رد الفعل الأوسع مختلطًا بالتأكيد. توقع المؤسس المشارك لـ OpenAI، أندريه كارباثي، حدوث تحسينات في المهام الأقل اعتمادًا على الاستدلال الخالص، مع التركيز على مجالات مثل “EQ” (الذكاء العاطفي)، والإبداع، وصنع التشبيه، والفكاهة - وهي جوانب غالبًا ما تكون مقيدة بالمعرفة العالمية والفهم العام.

ومن المثير للاهتمام، أن استطلاعًا لاحقًا أجراه كارباثي كشف عن تفضيل عام للمستخدم لاستجابات GPT-4o على استجابات GPT-4.5 من حيث جودة الكتابة. يسلط هذا الضوء على الذاتية المتأصلة في تقييم النثر ويشير إلى أن هندسة الأوامر الماهرة قد تستخلص جودة مماثلة من نماذج أصغر وأكثر كفاءة.

اعترف كارباثي نفسه بغموض النتائج، واقترح تفسيرات محتملة مختلفة: قد يدرك المختبرون “ذوو الذوق الرفيع” تحسينات هيكلية دقيقة فاتها الآخرون، أو ربما لم تكن الأمثلة المختبرة مثالية، أو قد تكون الاختلافات ببساطة دقيقة للغاية بحيث لا يمكن تمييزها في حجم عينة صغير.

حدود التوسع ومستقبل نماذج اللغات الكبيرة (LLMs)

يؤكد إصدار GPT-4.5، في بعض النواحي، القيود المحتملة لمجرد توسيع نطاق النماذج المدربة على مجموعات بيانات ضخمة. صرح إيليا سوتسكيفر، وهو مؤسس مشارك آخر لـ OpenAI وكبير العلماء السابق، في NeurIPS 2024 أن “التدريب المسبق كما نعرفه سينتهي بلا شك… لقد وصلنا إلى ذروة البيانات ولن يكون هناك المزيد. علينا أن نتعامل مع البيانات التي لدينا. هناك إنترنت واحد فقط.”

تعتبر العوائد المتناقصة التي لوحظت مع GPT-4.5 بمثابة شهادة على تحديات توسيع نطاق النماذج ذات الأغراض العامة المدربة في المقام الأول على بيانات الإنترنت وضبطها من أجل المواءمة من خلال التعلم المعزز من ردود الفعل البشرية (RLHF).

يبدو أن الحدود التالية لنماذج اللغات الكبيرة هي توسيع نطاق وقت الاختبار (أو توسيع نطاق وقت الاستدلال). يتضمن ذلك تدريب النماذج على “التفكير” لمدة أطول عن طريق إنشاء رموز سلسلة الأفكار (CoT). يعزز توسيع نطاق وقت الاختبار قدرة النموذج على معالجة مشكلات الاستدلال المعقدة وكان عاملاً رئيسيًا في نجاح نماذج مثل o1 و R1.

ليس فشلاً، بل أساس

في حين أن GPT-4.5 قد لا يكون الخيار الأمثل لكل مهمة، فمن الضروري إدراك دوره المحتمل كعنصر أساسي للتقدم المستقبلي. تعد قاعدة المعرفة القوية ضرورية لتطوير نماذج استدلال أكثر تعقيدًا.

حتى لو لم يصبح GPT-4.5 نفسه النموذج المفضل لمعظم التطبيقات، فيمكن أن يكون بمثابة لبنة بناء حاسمة لنماذج الاستدلال اللاحقة. من المعقول حتى أنه يتم استخدامه بالفعل في نماذج مثل o3.

كما أوضح مارك تشين، كبير مسؤولي الأبحاث في OpenAI، “أنت بحاجة إلى المعرفة لبناء الاستدلال عليها. لا يمكن لنموذج أن يدخل بشكل أعمى ويتعلم الاستدلال من الصفر. لذلك نجد أن هذين النموذجين متكاملان إلى حد ما، ونعتقد أن لديهما حلقات تغذية راجعة على بعضهما البعض.”

وبالتالي، فإن تطوير GPT-4.5 لا يمثل طريقًا مسدودًا، بل خطوة استراتيجية في التطور المستمر لنماذج اللغات الكبيرة. إنه دليل على الطبيعة التكرارية لأبحاث الذكاء الاصطناعي، حيث تساهم كل خطوة، حتى لو بدت غير مثيرة للإعجاب في عزلة، في التقدم الأوسع نحو أنظمة ذكاء اصطناعي أكثر قدرة وتنوعًا. يتحول التركيز الآن نحو الاستفادة من هذه القاعدة المعرفية القوية لبناء نماذج لا يمكنها استدعاء المعلومات فحسب، بل يمكنها أيضًا التفكير وحل المشكلات بفعالية غير مسبوقة. تستمر الرحلة نحو الذكاء الاصطناعي الحقيقي، ويلعب GPT-4.5، على الرغم من استقباله المختلط، دورًا مهمًا في تلك الرحلة.
التركيز الآن ليس فقط على مقدار ما يعرفه النموذج، ولكن على مدى جودة استخدامه لتلك المعرفة. هذا هو التحدي الأساسي الذي يتصارع معه مجتمع الذكاء الاصطناعي، ويوفر GPT-4.5، على الرغم من أنه ليس حلاً مثاليًا، رؤى قيمة وأساسًا متينًا للاختراقات المستقبلية. يتضمن المسار إلى الأمام مجموعة من الأساليب: تحسين التقنيات الحالية، واستكشاف بنيات جديدة، وتطوير طرق أكثر تعقيدًا للتدريب والتقييم. يظل الهدف النهائي كما هو: إنشاء أنظمة ذكاء اصطناعي لا يمكنها فهم اللغة البشرية وتوليدها فحسب، بل يمكنها أيضًا التفكير والتعلم والتكيف بطرق كانت تعتبر في يوم من الأيام المجال الحصري للذكاء البشري.