سباق سياق الذكاء الاصطناعي: هل الأكبر هو الأفضل؟

سباق تسلح طول السياق: لماذا تتنافس شركات الذكاء الاصطناعي؟

تنخرط كبرى مؤسسات الذكاء الاصطناعي، بما في ذلك OpenAI و Google DeepMind و MiniMax، في منافسة شرسة لزيادة طول السياق، وهو ما يرتبط ارتباطًا مباشرًا بكمية النص التي يمكن لنموذج الذكاء الاصطناعي معالجتها في مثيل واحد. والوعد هو أن طول السياق الأكبر سيمكن من فهم أعمق، وتقليل الهلوسة (الاختلاقات)، وإنشاء تفاعلات أكثر سلاسة.

بالنسبة للمؤسسات، يترجم هذا إلى ذكاء اصطناعي يمكنه تحليل العقود بأكملها، وتصحيح قواعد البيانات الكبيرة، أو تلخيص التقارير المطولة دون فقدان السياق. والتوقع هو أنه من خلال التخلص من الحلول البديلة مثل التجميع أو الإنشاء المعزز للاسترجاع (RAG)، يمكن أن تصبح مهام سير عمل الذكاء الاصطناعي أكثر سلاسة وكفاءة.

مشكلة ‘الإبرة في كومة القش’: العثور على معلومات مهمة

تسلط مشكلة ‘الإبرة في كومة القش’ الضوء على الصعوبة التي يواجهها الذكاء الاصطناعي في تحديد المعلومات المهمة (‘الإبرة’) المخفية داخل مجموعات البيانات الضخمة (‘كومة القش’). غالبًا ما تكافح نماذج LLM لتحديد التفاصيل الرئيسية، مما يؤدي إلى أوجه قصور في مجموعة متنوعة من المجالات:

  • البحث واسترجاع المعرفة: غالبًا ما يواجه مساعدو الذكاء الاصطناعي صعوبة في استخراج الحقائق الأكثر صلة من مستودعات الوثائق الواسعة.

  • القانون والامتثال: يحتاج المحامون إلى تتبع تبعيات البنود داخل العقود المطولة.

  • تحليلات المؤسسات: يخاطر المحللون الماليون بالتغاضي عن رؤى حاسمة مدفونة في التقارير المعقدة.

تساعد نوافذ السياق الأكبر النماذج على الاحتفاظ بمزيد من المعلومات، مما يقلل من الهلوسة ويحسن الدقة ويتيح ما يلي:

  • فحوصات الامتثال عبر المستندات: يمكن لموجه واحد بسعة 256 ألف رمز مقارنة دليل سياسات كامل مقابل تشريع جديد.

  • تجميع الأدبيات الطبية: يمكن للباحثين استخدام نوافذ بسعة 128 ألف رمز+ لمقارنة نتائج التجارب الدوائية عبر عقود من الدراسات.

  • تطوير البرمجيات: يتحسن تصحيح الأخطاء عندما يتمكن الذكاء الاصطناعي من فحص ملايين الأسطر من التعليمات البرمجية دون فقدان التبعيات.

  • البحث المالي: يمكن للمحللين تحليل تقارير الأرباح الكاملة وبيانات السوق في استعلام واحد.

  • دعم العملاء: يمكن لروبوتات الدردشة ذات الذاكرة الأطول تقديم تفاعلات أكثر وعيًا بالسياق.

تساعد زيادة نافذة السياق أيضًا النموذج على الرجوع بشكل أفضل إلى التفاصيل ذات الصلة، مما يقلل من احتمالية إنشاء معلومات غير صحيحة أو ملفقة. وجدت دراسة أجرتها جامعة ستانفورد عام 2024 أن نماذج بسعة 128 ألف رمز قللت معدلات الهلوسة بنسبة 18% مقارنة بأنظمة RAG عند تحليل اتفاقيات الاندماج.

على الرغم من هذه الفوائد المحتملة، فقد أبلغ المتبنون الأوائل عن تحديات. أظهرت الأبحاث التي أجراها JPMorgan Chase أن النماذج تعمل بشكل سيئ في حوالي 75% من سياقها، مع انخفاض الأداء في المهام المالية المعقدة إلى ما يقرب من الصفر بعد 32 ألف رمز. لا تزال النماذج تعاني من الاستدعاء بعيد المدى، وغالبًا ما تعطي الأولوية للبيانات الحديثة على الرؤى الأعمق.

يثير هذا أسئلة مهمة: هل تعمل نافذة بسعة 4 ملايين رمز حقًا على تحسين التفكير، أم أنها مجرد توسيع مكلف للذاكرة؟ ما هي كمية الإدخال الهائلة التي يستخدمها النموذج بالفعل؟ وهل تفوق الفوائد التكاليف الحسابية المتزايدة؟

RAG مقابل المطالبات الكبيرة: المفاضلات الاقتصادية

يجمع الإنشاء المعزز للاسترجاع (RAG) بين قدرات LLM ونظام استرجاع يجلب المعلومات ذات الصلة من مصادر خارجية مثل قواعد البيانات أو مخازن المستندات. يمكّن هذا النموذج من إنشاء استجابات بناءً على كل من معرفته الموجودة مسبقًا والبيانات التي تم استرجاعها ديناميكيًا.

بينما تدمج الشركات الذكاء الاصطناعي للمهام المعقدة، فإنها تواجه قرارًا أساسيًا: هل يجب عليها استخدام مطالبات ضخمة بنوافذ سياق كبيرة، أم يجب عليها الاعتماد على RAG لجلب المعلومات ذات الصلة في الوقت الفعلي؟

  • مطالبات كبيرة: تعالج النماذج ذات نوافذ الرمز الكبيرة كل شيء في تمريرة واحدة، مما يقلل الحاجة إلى الحفاظ على أنظمة استرجاع خارجية والتقاط رؤى عبر المستندات. ومع ذلك، فإن هذا النهج مكلف من الناحية الحسابية، مما يؤدي إلى ارتفاع تكاليف الاستدلال وزيادة متطلبات الذاكرة.

  • RAG: بدلاً من معالجة المستند بأكمله مرة واحدة، يقوم RAG باسترجاع الأجزاء الأكثر صلة فقط قبل إنشاء استجابة. يقلل هذا بشكل كبير من استخدام الرمز وتكاليفه، مما يجعله أكثر قابلية للتطوير للتطبيقات الواقعية.

تكاليف الاستدلال: الاسترجاع متعدد الخطوات مقابل المطالبات الفردية الكبيرة

في حين أن المطالبات الكبيرة تعمل على تبسيط مهام سير العمل، فإنها تتطلب المزيد من طاقة ووحدة معالجة الرسومات والذاكرة، مما يجعل تنفيذها مكلفًا على نطاق واسع. غالبًا ما تقلل الأساليب القائمة على RAG، على الرغم من الحاجة إلى خطوات استرجاع متعددة، من استهلاك الرمز الإجمالي، مما يؤدي إلى انخفاض تكاليف الاستدلال دون التضحية بالدقة.

بالنسبة لمعظم المؤسسات، يعتمد النهج المثالي على حالة الاستخدام المحددة:

  • هل تحتاج إلى تحليل عميق للوثائق؟ قد تكون نماذج السياق الكبيرة هي الخيار الأفضل.
  • هل تحتاج إلى ذكاء اصطناعي قابل للتطوير وفعال من حيث التكلفة للاستعلامات الديناميكية؟ من المحتمل أن يكون RAG هو الخيار الأذكى.

تكون نافذة السياق الكبيرة ذات قيمة خاصة عندما:

  • يجب تحليل النص الكامل مرة واحدة، كما هو الحال في مراجعات العقود أو عمليات تدقيق التعليمات البرمجية.
  • يعد تقليل أخطاء الاسترجاع أمرًا بالغ الأهمية، على سبيل المثال، في الامتثال التنظيمي.
  • تعتبر زمن الوصول أقل أهمية من الدقة، كما هو الحال في البحث الاستراتيجي.

وفقًا لبحث من Google، تفوقت نماذج التنبؤ بالأسهم التي تستخدم نوافذ بسعة 128 ألف رمز لتحليل 10 سنوات من نصوص الأرباح على RAG بنسبة 29%. وعلى العكس من ذلك، أظهرت الاختبارات الداخلية في GitHub Copilot أن إكمال المهام كان أسرع بمقدار 2.3 مرة باستخدام المطالبات الكبيرة مقابل RAG لعمليات ترحيل monorepo.

قيود نماذج السياق الكبيرة: زمن الوصول والتكاليف وقابلية الاستخدام

في حين أن نماذج السياق الكبيرة تقدم قدرات رائعة، إلا أن هناك حدودًا لمقدار السياق الإضافي المفيد حقًا. مع توسع نوافذ السياق، تدخل ثلاثة عوامل رئيسية حيز التنفيذ:

  • زمن الوصول: كلما زاد عدد الرموز التي يعالجها النموذج، كان الاستدلال أبطأ. يمكن أن تؤدي نوافذ السياق الأكبر إلى تأخيرات كبيرة، خاصة عند الحاجة إلى استجابات في الوقت الفعلي.

  • التكاليف: تزداد التكاليف الحسابية مع كل رمز إضافي تتم معالجته. يمكن أن يصبح توسيع البنية التحتية للتعامل مع هذه النماذج الأكبر حجمًا مكلفًا للغاية، خاصة بالنسبة للمؤسسات التي لديها أحجام عمل كبيرة.

  • قابلية الاستخدام: مع نمو السياق، تتضاءل قدرة النموذج على ‘التركيز’ بشكل فعال على المعلومات الأكثر صلة. يمكن أن يؤدي ذلك إلى معالجة غير فعالة، حيث تؤثر البيانات الأقل صلة على أداء النموذج، مما يؤدي إلى تناقص العوائد لكل من الدقة والكفاءة.

تحاول تقنية Infini-attention من Google التخفيف من هذه المفاضلات من خلال تخزين تمثيلات مضغوطة لسياق ذي طول عشوائي بذاكرة محدودة. ومع ذلك، يؤدي الضغط حتمًا إلى فقدان المعلومات، وتكافح النماذج لتحقيق التوازن بين المعلومات الفورية والتاريخية، مما يؤدي إلى تدهور الأداء وزيادة التكاليف مقارنة بـ RAG التقليدي.

في حين أن نماذج بسعة 4 ملايين رمز مثيرة للإعجاب، يجب على المؤسسات اعتبارها أدوات متخصصة وليست حلولًا عالمية. يكمن المستقبل في الأنظمة الهجينة التي تختار بشكل تكيفي بين RAG والمطالبات الكبيرة بناءً على متطلبات المهمة المحددة.

يجب على المؤسسات الاختيار بين نماذج السياق الكبيرة وRAG بناءً على تعقيد التفكير واعتبارات التكلفة ومتطلبات زمن الوصول. تعتبر نوافذ السياق الكبيرة مثالية للمهام التي تتطلب فهمًا عميقًا، بينما يعتبر RAG أكثر فعالية من حيث التكلفة وكفاءة للمهام الأبسط والواقعية. لإدارة التكاليف بشكل فعال، يجب على المؤسسات تحديد حدود تكلفة واضحة، مثل 0.50 دولارًا لكل مهمة، حيث يمكن أن تصبح النماذج الكبيرة مكلفة بسرعة. بالإضافة إلى ذلك، تعتبر المطالبات الكبيرة أكثر ملاءمة للمهام غير المتصلة بالإنترنت، في حين أن أنظمة RAG تتفوق في التطبيقات في الوقت الفعلي التي تتطلب استجابات سريعة.

يمكن للابتكارات الناشئة مثل GraphRAG أن تعزز هذه الأنظمة التكيفية بشكل أكبر من خلال دمج الرسوم البيانية المعرفية مع طرق استرجاع المتجهات التقليدية. يعمل هذا التكامل على تحسين التقاط العلاقات المعقدة، مما يؤدي إلى تحسين التفكير الدقيق ودقة الإجابة بنسبة تصل إلى 35% مقارنة بنهج المتجهات فقط. أظهرت التطبيقات الحديثة من قبل شركات مثل Lettria تحسينات كبيرة في الدقة، حيث زادت من 50% مع RAG التقليدي إلى أكثر من 80% باستخدام GraphRAG داخل أنظمة الاسترجاع الهجينة.

كما يحذر يوري كوراتوف بشكل مناسب، ‘إن توسيع السياق دون تحسين التفكير يشبه بناء طرق سريعة أوسع للسيارات التي لا تستطيع التوجيه.’ يكمن المستقبل الحقيقي للذكاء الاصطناعي في النماذج التي تفهم العلاقات حقًا عبر أي حجم سياق، وليس فقط النماذج التي يمكنها معالجة كميات هائلة من البيانات. يتعلق الأمر بالذكاء وليس الذاكرة فقط.