رهان MiniMax على الانتباه الخطي

رائد في مسار تقني غير سائد

هل يمكنك تقديم نفسك بإيجاز؟

أنا Zhong Yiran، مدير الأبحاث الأول في MiniMax، حيث أشرف بشكل أساسي على تصميم هياكل الشبكات ونماذج الفهم متعددة الوسائط الكبيرة. في MiniMax، تقع على عاتقي المسؤولية الرئيسية المتمثلة في قيادة تصميم هيكل شبكة MiniMax-01.

في السابق، عملت كباحث رئيسي لمجموعة استكشاف الهندسة المعمارية الجديدة في مختبر شنغهاي للذكاء الاصطناعي، حيث ركزت على طرق النمذجة التدريبية الفعالة للهياكل غير المحولات والبحث في الاندماج متعدد الوسائط المرئية والصوتية واللغوية.

متى بدأت البحث في الانتباه الخطي، ولماذا اخترت هذا المسار التقني؟

بدأت البحث في الانتباه الخطي في حوالي يوليو 2021. وقد نشأ هذا من ورقة عملت عليها للحصول على درجة الدكتوراه في عام 2020، ‘Invertible Attention’. في ذلك الوقت، كانت كل من الشبكات العصبية القابلة للعكس وآليات الانتباه شائعة جدًا، لذلك قمنا بدمجهما في بحثنا.

لاحقًا، أصبح بعض أعضاء فريقنا مهتمين جدًا بالرياضيات. تتطلب طرق نمذجة التسلسل الفعالة مثل الانتباه الخطي أساسًا رياضيًا قويًا وتتضمن العديد من اشتقاقات الصيغ، والتي تتماشى تمامًا مع اهتمامات الفريق، لذلك اخترنا هذا الاتجاه.

ما هو وضع الانتباه الخطي في الصناعة في ذلك الوقت؟

كان غير سائد للغاية، مع قلة من الأشخاص الذين يعملون عليه. كان معظم الباحثين يركزون على المحولات، التي أصبحت في الأساس القوة المهيمنة في البرمجة اللغوية العصبية.

اعتقدنا أنه بدلًا من أن نكون مجرد وجه آخر في الحشد الذي يقوم بأبحاث المحولات، يجب أن نفعل شيئًا مختلفًا.

كيف قمت بتقييم الإمكانات التقنية لمسار الانتباه الخطي؟

كانت دوافعنا الأولية واضحة: معالجة التعقيد الحسابي التربيعي للمحولات. اختبرنا طرقًا مختلفة، بما في ذلك المحولات المتفرقة والانتباه الخطي.

وجدنا أن المحولات المتفرقة تعمل بالفعل، مما يوفر سرعة أكبر واستخدامًا أقل للذاكرة مقارنة بالمحولات. ومع ذلك، كان أداء الانتباه الخطي ضعيفًا وكان بطيئًا أيضًا. على الرغم من ذلك، اخترنا متابعة الانتباه الخطي.

أحد الأسباب هو جاذبيته الرياضية - فقد اعتقدنا أن أدائه يجب أن يكون أفضل. والسبب الآخر هو أننا شعرنا أن الحد الأعلى للانتباه المتفرق هو الانتباه الكامل، مما يجعل من الصعب تجاوزه. من ناحية أخرى، كان لدى الانتباه الخطي القدرة على تجاوزه.

هل يمكنك شرح ما هو الانتباه الخطي؟

الانتباه الخطي هو في الأساس خدعة kernel. في المحولات، يتضمن ضرب المصفوفات Q و K و V تعقيدات حسابية مختلفة اعتمادًا على ما إذا كنت تضرب QK أولاً أو KV أولاً، نظرًا للأبعاد المختلفة.

يمكن أن يقلل ضرب KV أولاً التعقيدالحسابي إلى خطي. ومع ذلك، المشكلة هي أن ضرب QK يتبعه عملية softmax، والتي لا تفي بالخاصية التبادلية ولا يمكن تقسيمها بسهولة إلى ضرب KV أولاً. لذلك، فإن الخطوة الأولى في الانتباه الخطي هي إزالة softmax.

لكن إزالة softmax تؤثر على النتائج. المهمة اللاحقة هي الحفاظ على الاتساق في النتائج بدون softmax، وهو ما يهدف الانتباه الخطي إلى تحقيقه.

ما هي الاختلافات الأساسية بين الانتباه الخطي والانتباه المتفرق وهياكل RNN الخطية؟

لا يزال الانتباه المتفرق في الأساس انتباه softmax. إنه ببساطة يحسب نقاطًا أقل من مصفوفة انتباه كثيفة. على سبيل المثال، يحسب انتباه النافذة المنزلقة درجة الانتباه فقط داخل نافذة، مما يحقق تسارعًا عن طريق تقليل مقدار الحساب.

تعتبر RNNs الخطية والانتباه الخطي في الأساس نفس الشيء، فقط يسميها البعض RNNs والبعض الآخر يسميها الانتباه.

يمكن كتابة كل شيء في شكل RNN. على سبيل المثال، يتوافق الانتباه الخفيف مع RWKV-4، بينما RWKV-7 هو نسخة محسنة من شبكة دلتا ذات البوابة. على الرغم من أنها متشابهة في جوهرها، إلا أن تفاصيل تنفيذها تختلف.

ما هي المعالم الرئيسية في البحث عن آليات الانتباه الخطي؟

في حوالي عام 2018-19، أظهرت الأبحاث أنه يمكن تقليل التعقيد الحسابي النظري لانتباه softmax للمحول باستخدام حيل kernel، لكن النتائج كانت ضعيفة وكانت الكفاءة منخفضة.

في عام 2019-20، كان الانتباه المتفرق هو المهيمن، حيث اقترحت شركات مثل Google العديد من متغيرات الانتباه المتفرق. في وقت لاحق، بدأ الانتباه الخطي في الظهور، لكنه واجه تحدي الأداء الضعيف والسرعة البطيئة.

اعتمد الباحثون بشكل أساسي نهجين للتحسين: أحدهما كان تقريب وظيفة softmax، مما يجعل التوزيع يتوافق مع softmax؛ والآخر، الذي اخترناه، كان النمذجة باستخدام طرق مختلفة تمامًا، دون أن نهتم بتقريب softmax.

نشرنا ورقتنا الأولى، ‘COSFORMER: RETHINKING SOFTMAX IN ATTENTION’ في أكتوبر 2021، والتي استبدلت عملية softmax بوظيفة جيب التمام، مما يسمح بتقسيم الحساب.

في النصف الأول من عام 2022، نشرنا ورقة ثانية، ‘The Devil in Linear Transformer’، والتي حللت أسباب تدهور أداء الانتباه الخطي وقدمت حلولًا. كان هذا هو السلف للانتباه الخفيف.

في وقت لاحق، بحثنا أيضًا في ترميزات الموضع خصيصًا للانتباه الخطي والالتواءات الطويلة، ونشرنا TNN، ‘TOEPLITZ NEURAL NETWORK FOR SEQUENCE MODELING’، وهي طريقة مشابهة لـ S4 (سلف Mamba).

أخيرًا، أطلقنا الانتباه الخفيف، الذي يضاهي أداء المحولات من خلال طرق الاضمحلال المحسنة وهياكل الشبكات. استخدمنا أيضًا تقنية التبليط لجعله أسرع.

ما هي أفكارك حول المسارات التقنية الحالية للهياكل غير المحولات؟

الانتباه الخطي هو في الواقع طريقة غير محولة. حاليًا، إلى جانب الأساليب الشبيهة بـ RNN، تتراجع الهياكل الأخرى غير المحولة.

على سبيل المثال، يبدو أن شبكات CNN مثل الالتواءات الطويلة والالتواءات ذات النواة الكبيرة قد تم التخلص منها تدريجيًا بسبب الأداء الضعيف، لكنها في الواقع قوية جدًا في جوانب معينة، ولا يزال لها بعض التأثير في نمذجة التسلسل، مثل مهام الكشف عن الحالات الشاذة.

يوجد بالفعل ثلاثة هياكل غير محولة فقط: الانتباه الخطي، والالتواءات الطويلة، و RNNs الخطية.

ولكن في الواقع، يمكن توحيد هذه الثلاثة في واحدة، والتي نسميها نموذج التعقيد الخطي. كتبنا مقالًا يشمل الثلاثة جميعًا.

ما هي الاختلافات الأساسية بين الانتباه الخفيف و Mamba و RWKV؟

الفرق الأكثر جوهرية هو أن الانتباه الخفيف هو أبسط انتباه خطي. تستخدم كل من Mamba و RWKV اضمحلالًا يعتمد على البيانات، بينما يستخدم الانتباه الخفيف اضمحلالًا مصنوعًا يدويًا للسرعة.

على الرغم من أن الاضمحلال القابل للتعلم يمكن أن يحقق نتائج أفضل، إلا أنه يضحي بالسرعة. على سبيل المثال، RWKV-7 أبطأ بنسبة 10-15٪ من شبكة دلتا ذات البوابة، بينما شبكة دلتا ذات البوابة تبلغ حوالي نصف سرعة الانتباه الخفيف.

تأثير النمذجة RWKV أفضل بالفعل من الانتباه الخفيف، لكنه أبطأ ولم يحل بعد مشكلة الاسترجاع.

هل هناك الآن إجماع في الصناعة على أن الانتباه الخطي له حد أعلى مرتفع وقابل للتطبيق؟

لا، إذا كان هناك إجماع، فسوف يقوم الجميع بتوسيع نطاق نماذج الانتباه الخطي. وليس هناك إجماع الآن أيضًا. إذا كان الأمر كذلك، فسوف يفعل الجميع ذلك خطيًا، ولكن كما ترون، هذا ليس هو الحال.

ولكن بالنسبة لنا، رأينا هذا بالفعل في النصف الثاني من عام 2023. في ذلك الوقت، سألت العديد من الأشخاص وتحدثت مع الكثيرين، وكانت النقطة الأكثر شيوعًا التي أثاروها هي أنهم علموا أن الانتباه الخطي يعمل على نطاق صغير، لكنهم شعروا أنه سيفشل بمجرد توسيع نطاقه.

في ذلك الوقت، اعتقدت أنني سأقوم بتوسيع نطاقه ليراه الجميع. الآن بعد أن تم إصدار MiniMax-01، لا أحد يشك في قدرة الانتباه الخطي على نطاق واسع.

من التجارب الصغيرة إلى التنفيذ واسع النطاق

هل تعتقد أن الحد الأعلى للانتباه الخطي يمكن أن يتجاوز الانتباه الكامل؟

يمكننا الآن أن نرى أن الهياكل الهجينة أفضل من المحولات النقية. لكن أكبر مشكلة في الانتباه الخطي النقي هي القدرة على الاسترجاع، وهي مشكلة صعبة على الأوساط الأكاديمية حلها.

الطرق الحالية، على الرغم من أنها معقدة وبطيئة، لا يمكنها حتى الآن حلها تمامًا، وهذا هو السبب في ضرورة التحرك نحو الهياكل الهجينة.

ما هي العقدة التي لاحظتها والتي دفعتك إلى اتخاذ قرار الخروج من المختبر؟

في مايو ويونيو 2023، كان لدينا بالفعل الانتباه الخفيف 2 داخليًا، والذي كان أول تطبيق للانتباه الخطي في العالم أسرع من انتباه Flash.

نعتقد أنه تجاوز الخط الأحمر الصناعي، وأن نضجه التكنولوجي مرتفع للغاية ويمكن توسيع نطاقه.

كيف تحدد هذا الخط الأحمر الصناعي؟

أولاً، التأثير أفضل من المحول، وثانيًا، إنه أسرع من المحول. هذا يعطيه القدرة على استبدال المحول. تحققنا من ذلك على نموذج كثيف بحجم 15 مليار في ذلك الوقت.

في العقدة عندما خرجت من المختبر، لماذا اجتمعت في النهاية مع MiniMax؟

في الواقع، تحدثت مع بعض الشركات الكبيرة في ذلك الوقت. ولكن في النهاية، ما زلت أجعل هذا يحدث مع MiniMax.

بادئ ذي بدء، cosformer هو مقال تعاونت فيه مع Junjie. لدينا أساس للتعاون. كان Junjie رئيسي عندما كان في SenseTime. في نهاية عام 23، دعاني Junjie لتناول العشاء. إنه أكثر ثقة في إمكانيات هذه التقنيات المتطورة. فهمي هو أنه كان يبحث أيضًا عن اختراق تقني في ذلك الوقت.

في ذلك الوقت، أكملت MiniMax البحث في Moe، ولم يكن هناك في الواقع سوى عدد قليل جدًا من نقاط الاختراق التقني للخطوة التالية. في ذلك الوقت، تم إصدار الانتباه الخفيف، وكان mamba شائعًا أيضًا، لذلك في عينيه، كان اتجاهًا قابلاً للتطبيق.

هل هذا مرتبط بمنتج الرفيق التفاعلي MiniMax؟

لا يوجد اتصال. يهتم Yan Junjie أكثر بالحد الأعلى للنموذج وكيفية اختراق هذا السقف.

قد يكون الانتباه الخطي أكثر من اتجاه لاختراق الكفاءة في نظر الجمهور، بدلًا من اختراق السقف.

النقطة هنا هي أنه، بادئ ذي بدء، فإن قوة الحوسبة لكل مصنع ثابتة. كلما أمكن تسريع النموذج بشكل أسرع، زادت البيانات التي يمكن أن يأكلها، وكان النموذج الناتج أفضل. عندما تكون قوة الحوسبة ثابتة، كلما كان النموذج أسرع، كان ذلك أفضل.

هل لاحظت وضعًا وصلت فيه البيانات إلى ذروتها؟

ليس بعد، أليس كذلك؟ لا تزال البيانات في مرحلة التوسع المستمر، ولكنها قد لا تكون عدوانية كما كانت في عام 23.

لأن البيانات تزداد دائمًا، وتصدر بيانات جديدة كل يوم. بالنسبة للنموذج، لديه بيانات جديدة لمعالجتها كل يوم. البيانات التي ينتجها الإنترنت كل يوم كثيرة جدًا. من خلال التنظيف، لا يزال بإمكاننا الحصول على بيانات جديدة.

بالمقارنة مع البيانات التي كانت موجودة لسنوات عديدة من التطور البشري، هل تباطأ معدل نمو البيانات؟

في الواقع، ليس بالضرورة. انظر إلى خمسة آلاف سنة من تاريخ الصين، وقد تراكمت تلك الكتب القليلة فقط. ولكن مع تطور الإنترنت، فإن الزيادة في حجم البيانات هي منحنى شديد الانحدار. قد لا تكون البيانات الإجمالية التي تم إنشاؤها قبل الإنترنت بقدر البيانات التي تم إنشاؤها في عام واحد لاحقًا.

أثناء عملية التوسع، ما هي التحديات التي واجهها الانتباه الخفيف؟

للتحقق من قابليتها للتوسع، قمنا أولاً بتجارب قانون التوسع، وتوسعت تدريجيًا من النماذج الصغيرة إلى 7B و 9B، وأخيرًا توسعت إلى نماذج بأكثر من 400B.

وأثبتنا نظريًا أن سعة الخطي أكبر من سعة المحول.

نحن نحدد السعة على أنها حجم الحالات الحالية لـ RNN. بالنسبة للمحول، حجم السعة هو O (d)، حيث d هو الحجم؛ بالنسبة للانتباه الخطي، حجم السعة هو d²/h. نظرًا لأن d أكبر بكثير من h، فإن السعة أكبر.

في النهاية، تحققنا أيضًا من أن النموذج الهجين أفضل من المحول النقي.

كيف يتم تحقيق نافذة تسلسل بطول 4 ملايين؟

بالنسبة للانتباه الخفيف، يمكن أن يكون طول التدريب عشوائيًا. طالما تم استخدام قوة الحوسبة بالكامل، فإن سرعة تدريب 8K أو 32K أو 128K هي نفسها، و TGS (رمز لكل وحدة معالجة رسومات في الثانية) هو نفسه.

نظرًا لأن المحول هو تعقيد حسابي n²، فكلما طال التسلسل، زاد التعقيد الحسابي بشكل أسرع، ويزداد الكمون في منحنى تربيعي. عند طول 1 مليون، يكون الكمون الخاص بالانتباه softmax 2700 ضعف الكمون الخاص بالانتباه الخفيف.

ما هي التحديات التقنية التي لا يزال يتعين معالجتها لتحقيق نافذة سياق لانهائية في المستقبل؟

في هيكلنا الهجين الحالي، لا يزال هناك 1/8 من الانتباه softmax. هذه هي عنق الزجاجة بطول 1 مليون. الكمون الذي يجلبه هذا 1/8 أعلى بكثير من 7/8 المتبقية من الانتباه الخطي.

إذا أردنا تحسين النص الطويل، يجب أن نفكر في تحسين جزء الانتباه softmax. يمكننا أن نتعلم من طرق الانتباه المتفرقة لجعله أسرع وأخف وزنا.

بالإضافة إلى ذلك، نفكر أيضًا في جعل نسبة الخلط بين softmax والانتباه الخطي أكثر تطرفًا، ولم تعد 1/8، ولكن ربما 1/16 أو 1/32. الحل الأكثر جذرية هو وضع طبقة واحدة فقط من softmax في النموذج بأكمله، ولكن للتأمين، لم نعتمدها، مع الأخذ في الاعتبار بشكل أساسي التأثير على القدرة على الاسترجاع.

لماذا تعتبر القدرة على الاسترجاع مهمة جدًا للنموذج؟

الاسترجاع هو أساس التعلم في السياق وشرط ضروري.

يجب أن تتذكر المعلومات الموجودة في السياق للقيام بالتعلم في السياق، والتعلم في السياق هو أساس جميع القدرات المتقدمة للنماذج الكبيرة الحالية، مثل CoT (سلسلة التفكير)، وخاصة CoT الطويل، والتي تعتمد جميعها على القدرة على الاسترجاع.

هيكل جديد حاسم

هل انتبهت إلى أحدث التحسينات المعمارية في FFN والانتباه في الصناعة؟

تحسين FFN هو Moe. لقد انتبهت أيضًا إلى Ultra Mem الخاص بـ Byte، لكنني أعتقد أنه شيء ضائع، وضغط ضائع. قد تكون هناك مشاكل إذا تم توسيع نطاقه في المستقبل، ولكننا لم نقم بتوسيع النطاق، لذلك يمكنني فقط أن أقول أنه قد تكون هناك مشاكل.

نظرًا لأن FFN هو في الأساس هذه. تحسيناتنا في منطقة Moe ليست أكثر من تغيير من الخبير الكبير السابق إلى وضع الخبير الصغير الحالي، مما يجعله أكثر تفرعًا، ثم إجراء بعض التسريع، الأمر الذي يتطلب مزيدًا من البحث.

إذا كنت ترغب في تحسينه بشكل أكبر، نظرًا لأن FFN هو ضرب المصفوفة، فلا يمكن إجراء التحسين إلا على مستوى CUDA بواسطة Nvidia، حيث يتم إجراء بعض التحسينات ذات المستوى الأدنى لضرب المصفوفة.

هل انتبهت إلى التحسينات في هيكل الانتباه في الصناعة؟

التحسينات في الانتباه هي في الأساس خطية. نحن نفكر أيضًا فيما إذا كنا سنجعل Linear أقوى في المستقبل، وزيادة تسريع الانتباه الخطي على الأساس الحالي.

هناك طرق عديدة للتحسين، إحداها هي تغيير الاضمحلال، والأخرى هي تغيير بعض الحيل الصغيرة في الداخل. يمكنك التطلع إلى ورقتنا الجديدة.

هل نسبتنا الحالية لطول السياق وتكلفة الاستدلال متقدمة نسبيًا؟

بمجرد أن يتعلق الأمر بإطالة طول التسلسل، لدينا ميزة واضحة جدًا في تكلفة قوة الحوسبة. كلما طالت المدة، كلما كانت ميزة التكلفة أكثر وضوحًا، سواء كانت الاستدلال أو التدريب.

على سبيل المثال، على 1 مليون، فإن قوة الحوسبة التي يستهلكها الانتباه الخطي هي 1/2700 من الانتباه الكامل. بالمقارنة، نظرًا لأننا لا نزال لدينا 1/8 من الانتباه الكامل، فهو في الأساس 1/8 من هيكل المحول، لأن الانتباه الخطي لا يتم حسابه بشكل أساسي كمصروفات.

إذا كانت تكلفة الحساب منخفضة جدًا، فهل يمكن أن تحقق عنق الزجاجة في الحساب؟

الآن هو بالفعل عنق الزجاجة للوصول إلى الذاكرة. فك التشفير هو عنق الزجاجة للوصول إلى الذاكرة، وليس عنق الزجاجة للحساب. نظرًا لأن الانتباه الخفيف سريع جدًا، فإنه سريع جدًا بحيث يسمح لوصول الذاكرة باحتلال موارد قليلة مثل الحساب. هذا بشكل أساسي لأن طول التسلسل في التطبيقات الفعلية ليس طويلاً بما فيه الكفاية.

كيفية جعله عنق الزجاجة للحساب في المستقبل يعتمد على كيفية تحسين الوصول إلى الذاكرة. ستكون هذه أشياء تحتاج الإدارة الهندسية إلى تحمل مسؤوليتها.

إذا أصبح الهيكل الخطي هو الهيكل السائد للجيل التالي، فما هي تحسينات تكييف الأجهزة التي ستكون أكثر ملاءمة له؟

هناك شيء صعب للغاية هنا وهو أننا بحاجة إلى النظر في طول التسلسل. إذا كان طول التسلسل الخاص بك يركز على 8K أو 32K، فإن الانتباه يمثل أكثر من عشرة بالمائة فقط، والنسبة المتبقية البالغة ثمانين بالمائة هي جزء FFN.

حتى إذا قمت بتحسين الانتباه إلى أقصى الحدود، إلى 0، فقد قمت بتحسين ما يزيد قليلاً عن عشرة بالمائة من الكمون. ولكن إذا قمت بإطالة طول التسلسل، فإن نسبة الانتباه ستصبح أكبر وأكبر. هذا بالمقارنة مع الانتباه الكامل، ولكن بالنسبة للانتباه الخطي، فإن نسبته لم تتغير.

نظرًا لأن FFN خطي أيضًا، والانتباه الخطي خطي أيضًا، فإن نسبته تبلغ حوالي 10٪، وهي ثابتة تقريبًا، حتى في حالة 1 مليون.

ولكن إذا كان انتباهًا كاملاً، فقد يمثل حساب الانتباه 99٪، ولا يمثل FFN التالي سوى 1٪. لذلك فإن الانتباه الخطي له مزايا فقط في النصوص الطويلة.

إذا أصبح الهيكل الخطي هو التيار السائد، فقد يكون السعي وراء الأجهزة منخفضة الطاقة، مما يقلل من استهلاك الطاقة فقط. بما في ذلك رقائق Spiking Neural Network (SNN) قد تكون أكثر ملاءمة، وبعض الأشخاص يفعلونها بالفعل.

التطلع إلى الطريق إلى AGI

ما هي توقعاتك لتأثير المصدر المفتوح للنموذج؟

الأول هو تأثير الدعاية. أعتقد شخصيًا أنه بالإضافة إلى إظهار بعض العضلات، فإن الشيء الأكثر أهمية بالنسبة للمصدر المفتوح هو رؤية كيف يمكن للجميع استخدامه في المستقبل. أعتقد أن المصدر المفتوح للنموذج الصغير قد يكون ما نفكر فيه أكثر في المستقبل.

وقد تحتاج أيضًا إلى النظر في كيفية إنشاء بعض البنية التحتية للجميع لضبطها بدقة. المصدر المفتوح هو شيء طويل الأجل بالنسبة لنا في المستقبل، ويجب أن تستمر النماذج الرئيسية في أن تكون مفتوحة المصدر.

هل من الممكن أن يعمل هيكل نقي الدم غير هجين في المستقبل؟

حاليًا، لا توجد طريقة يمكنها أن تعمل بشكل أفضل من الهجين، خاصة من حيث السرعة. إن إضافة جزء صغير من الانتباه softmax، فإن ميزة السرعة واضحة جدًا عندما لا يكون طول التسلسل طويلاً بشكل خاص، خاصة بعد ظهور انتباه flash.

لا يزال البحث في هيكل نقي الدم جاريًا، لكنه صعب للغاية، ولا توجد المزيد من الثمار المتدلية. لدينا بعض الحلول التقنية، لكن التنفيذ ليس بسيطًا، ويعتمد في النهاية على طول التسلسل الذي نحتاجه لتحقيقه.

سؤال آخر هو، هل هناك طلب قوي على النصوص الطويلة جدًا؟ على الرغم من أن نماذج مثل Claude قد وصلت إلى سياق 200 ألف، يبدو أن المستخدمين راضون جدًا عن الطول الحالي. قد تجلب تطبيقات الوكيل طلبًا على التسلسلات الطويلة جدًا في المستقبل، ولكن لا يوجد معيار ناضج حتى الآن.

لكنني أعتقد أن هذه المشكلة تشبه قيام Nvidia بتطوير بطاقات رسومات متقدمة الأداء للألعاب المستقبلية، على الرغم من أنها غير ضرورية الآن، إلا أنها تقنية للمستقبل.

على سبيل المثال، يتطلب البحث العميق من النموذج قراءة محتوى عشرات المواقع، ووقت المعالجة بترتيب عشرات الدقائق، وهو ما قد يكون اتجاهًا لتطبيق النصوصالطويلة.

ما هو الشيء الكبير التالي بعد CoT؟

لقد فكرنا في هذا. بادئ ذي بدء، نموذج الاستدلال الحالي شائع نسبيًا، وسيكون التيار السائد هذا العام لا يزال جزء الاستدلال. بعد ذلك، من الصعب علينا التفكير في أي تغييرات كبيرة بشكل خاص في مستقبل نماذج اللغة النقية.

لقد تحدثت أيضًا مع مدرسين آخرين، وشعورهم هو أن الجميع سيقومون بإعادة تقليل تكلفة النموذج، بحيث تصبح سرعة الاستدلال أسرع وأسرع، ويصبح سعره أقل وأقل، ويتم تخفيض التكلفة مع الحفاظ على التأثير.

نظرًا لأن السقف يقترب بسرعة، فإن الغالبية العظمى من الحالات تقوم بفحص وملء الثغرات في قدرات النماذج الكبيرة. ولكن إذا كانت هناك اختراقات تقنية أكبر، فقد تكون نادرة نسبيًا على المدى القصير، ولم نرها بعد.

بعد أن استكشفت MiniMax الانتباه الخطي، ما هو الاتجاه التالي الذي يمكن استكشافه؟

قد يكون الشيء التالي هو استكشاف هيكل الوسائط المتعددة، وتحديدًا ما إذا كنا نريد القيام بهيكلة نموذج كبير موحد للفهم والتوليد الأصلي هذا.

مع وجود AGI كنقطة النهاية، أي نموذج بتعقيد حسابي O (n²) أو O (n) سيكون إجابة أفضل؟

بالطبع، هو O (n). من منظور التشخيص، يجب أن يكون الأشخاص تعقيد O (n). على سبيل المثال، إذا كان تعقيد الشخص هو O (n²)، فإن السرعة التي أتحدث بها إليك ستصبح أبطأ وأبطأ.

نظرًا لأن المحول، فإن تعقيد الاستدلال الخاص به هو تعقيد حسابي O (n²)، أي أن الكمون لإخراج الرمز الأول وإخراج الرمز المائة يختلف.

لا يمكننا نحن البشر تخيل مثل هذا الشيء، لأن الناس لم يعيدوا التشغيل أبدًا منذ ولادتهم، ويخرجون الأشياء طوال الوقت، وبالتالي فإن التعقيد الحسابي للناس ثابت.

هل الإنسان بالضرورة هو الحل الأمثل للذكاء؟

لا يمكننا التفكير بهذه الطريقة في الوقت الحالي. هناك أيضًا بعض الأشخاص الذين يقومون بمسار الذكاء المحاكي، لكننا لم نولي الكثير من الاهتمام لتلك الاتجاهات.

مع وجود AGI كلعبة نهاية، ما هي مجالات تحسين النموذج التي تعتبر أهم الأشياء؟

بالإضافة إلى نمذجة اللغة، هناك أيضًا مشكلة طرق التعلم. كيف تتعلم، وتتعلم من البيئة، فالتعلم من التفاعل مع البيئة مهم جدًا. بعد كل شيء، لا يزال الفهم الحالي للوسائط المتعددة يفتقر إلى البيانات.

وحتى التعلم القليل من الآلات يتم تصنيفه حاليًا، لكن التعلم البشري غير مصنف. لذا فإن كيفية توحيد كل شيء في إطار ذاتي البناء هي أيضًا مشكلة.