الكشف عن ابتكارات NVIDIA: Llama Nemotron Ultra وParakeet

في محادثة كاشفة، يقدم جوي كونواي من NVIDIA نظرة متعمقة على أحدث التطورات التي حققتها الشركة في نماذج اللغة الكبيرة مفتوحة المصدر (LLMs) والتعرف التلقائي على الكلام (ASR). يتركز النقاش حول Llama Nemotron Ultra وParakeet، وهما مشروعان رائدان يعرضان التزام NVIDIA بدفع حدود تكنولوجيا الذكاء الاصطناعي.

استراتيجية NVIDIA مفتوحة المصدر

تظهر NVIDIA بسرعة كقوة كبيرة في ساحة الذكاء الاصطناعي مفتوحة المصدر. يوضح إصدار نماذج متقدمة مثل Llama Nemotron Ultra وParakeet TDT خطوة استراتيجية نحو إضفاء الطابع الديمقراطي على تكنولوجيا الذكاء الاصطناعي وتعزيز الابتكار داخل المجتمع. تهدف NVIDIA، من خلال إتاحة هذه الأدوات المتطورة، إلى تسريع البحث والتطوير ونشر حلول الذكاء الاصطناعي في مختلف الصناعات.

Llama Nemotron Ultra: إعادة تعريف الكفاءة والأداء

يعد Llama Nemotron Ultra، وهو نموذج بارامترات 253 مليار، شهادة على براعة NVIDIA الهندسية. ما يميزه هو قدرته على تقديم أداء مماثل للنماذج ذات الحجم ضعف حجمه، مثل Llama 405B وDeepSeek R1. يسمح هذا الإنجاز الرائع بنشره على عقدة 8x H100 واحدة، مما يجعله في متناول مجموعة واسعة من المستخدمين.

الصلصة السرية: FFN Fusion

تعزى الكفاءة الرائعة لـ Llama Nemotron Ultra إلى حد كبير إلى تقنية مبتكرة تسمى FFN (شبكة التغذية الأمامية) fusion. تعمل استراتيجية التحسين هذه، التي تم اكتشافها من خلال بحث NVIDIA عن بنية عصبية للألغاز، على تبسيط بنية النموذج عن طريق تقليل طبقات الانتباه الزائدة.

من خلال محاذاة طبقات FFN في تسلسل، تمكن التقنية من إجراء حساب متوازي أكبر على وحدات معالجة الرسومات (GPUs). يؤدي دمج أو تجميع الطبقات المتبقية إلى زيادة الكفاءة إلى الحد الأقصى، وهو أمر مفيد بشكل خاص للنماذج الأكبر حجمًا استنادًا إلى Meta’s Llama 3.1 - 405B. فوائد FFN fusion ذات شقين: فهي تحسن الإنتاجية بشكل كبير، وتحقق تسريعًا في نطاق 3 إلى 5x، وتقلل من مساحة الذاكرة الخاصة بالنموذج. يسمح الحجم المنخفض باستخدام ذاكرة تخزين مؤقت KV أكبر، مما يمكن النموذج من التعامل مع أطوال سياق أكبر.

الاستدلال عند الطلب: ميزة تغير قواعد اللعبة

إحدى الميزات الأكثر تميزًا وقيمة في Llama Nemotron Ultra هي قدرته على الاستدلال "تشغيل/إيقاف". يتيح ذلك تحكمًا غير مسبوق في عملية الاستدلال الخاصة بالنموذج، مما يوفر مزايا كبيرة لعمليات النشر الإنتاجية وتحسين التكاليف.

تمنح القدرة على تبديل الاستدلال وإيقافه عبر مطالبة النظام المؤسسات المرونة اللازمة لتحقيق التوازن بين الدقة وزمن الاستجابة والتكلفة. في حين أن الاستدلال أمر بالغ الأهمية لحل المشكلات المعقدة، إلا أنه يولد المزيد من الرموز، مما يؤدي إلى زيادة زمن الاستجابة والتكلفة. من خلال توفير تحكم صريح، تمكن NVIDIA المستخدمين من اتخاذ قرارات مستنيرة بشأن متى يتم استخدام الاستدلال، وبالتالي تحسين الأداء واستخدام الموارد.

لتنفيذ هذه الميزة، قامت NVIDIA بتعليم النموذج بشكل صريح متى يستدل ومتى لا يستدل أثناء مرحلة الضبط الدقيق الخاضع للإشراف. تضمن ذلك عرض نفس السؤال بإجابتين مختلفتين: إحداهما باستدلال تفصيلي والأخرى بدون استدلال، مما أدى بشكل أساسي إلى مضاعفة مجموعة البيانات لهذا الغرض المحدد. والنتيجة هي نموذج واحد حيث يمكن للمستخدمين التحكم في عملية الاستدلال ببساطة عن طريق تضمين "استخدم التفكير التفصيلي في" أو "استخدم التفكير التفصيلي إيقاف" في المطالبة.

إحداث ثورة في التعرف على الكلام باستخدام Parakeet TDT

أعاد Parakeet TDT، نموذج ASR المتطور من NVIDIA، تعريف المعايير القياسية للسرعة والدقة في التعرف على الكلام. يمكنه نسخ ساعة واحدة من الصوت في ثانية واحدة فقط بمعدل خطأ في الكلمات يبلغ 6٪ - أسرع 50 مرة من البدائل الأخرى مفتوحة المصدر.

الابتكارات المعمارية: "كيف" لأداء Parakeet

الأداء المثير للإعجاب لـ Parakeet TDT هو نتيجة لمزيج من الخيارات المعمارية وعمليات التحسين المحددة. يعتمد على بنية Fast Conformer، المحسّنة بتقنيات مثل أخذ العينات المتقطعة التفاضلية القابلة للفصل بعمق والانتباه المحدود للسياق.

يقلل أخذ العينات المتقطعة التفاضلية القابلة للفصل بعمق في مرحلة الإدخال بشكل كبير من التكلفة الحسابية ومتطلبات الذاكرة للمعالجة. من خلال التركيز على أجزاء أصغر ومتداخلة من الصوت، يحافظ الانتباه المحدود للسياق على الدقة مع تحقيق تسريع في المعالجة. على جانب المشفر، تسمح تقنية الانتباه إلى النافذة المنزلقة للنموذج بمعالجة ملفات صوتية أطول دون تقسيمها إلى مقاطع أقصر، وهو أمر بالغ الأهمية للتعامل مع الصوت الطويل.

Token Duration Transducer (TDT): مفتاح السرعة

بالإضافة إلى بنية Conformer، يتضمن Parakeet TDT محول رمز المدة (TDT). تقوم تقنية محول الشبكة العصبية المتكررة (RNN) التقليدية بمعالجة إطار الصوت تلو الآخر. يمكّن TDT النموذج من التنبؤ بكل من الرموز والمدة المتوقعة لتلك الرموز، مما يسمح له بتخطي الإطارات الزائدة وتسريع عملية النسخ بشكل كبير.

يساهم ابتكار TDT هذا وحده في تسريع يتراوح بين 1.5 إلى 2x. بالإضافة إلى ذلك، تسمح خوارزمية تكرار التسمية بالتقدم المستقل للرموز لعينات مختلفة أثناء الاستدلال الدفعي، مما يزيد من سرعة عملية فك التشفير. يوفر نقل بعض العمليات الحسابية على جانب وحدة فك التشفير إلى رسوم CUDA دفعة أخرى تبلغ 3x للسرعة. تمكن هذه الابتكارات Parakeet TDT من تحقيق سرعات مماثلة لأجهزة فك التشفير Connectionist Temporal Classification (CTC)، المعروفة بسرعتها، مع الحفاظ على دقة عالية.

إضفاء الطابع الديمقراطي على الذكاء الاصطناعي باستخدام البيانات المفتوحة

يمتد التزام NVIDIA بمجتمع المصادر المفتوحة إلى ما هو أبعد من إصدارات النماذج ليشمل مشاركة مجموعات بيانات ضخمة وعالية الجودة لكل من اللغة والكلام. يؤكد نهج الشركة في تنظيم البيانات على الشفافية والانفتاح، بهدف مشاركة أكبر قدر ممكن من المعلومات حول بياناتها وتقنياتها وأدواتها حتى يتمكن المجتمع من فهمها واستخدامها.

تنظيم البيانات لـ Llama Nemotron Ultra

كان الهدف الأساسي من تنظيم البيانات لـ Llama Nemotron Ultra هو تحسين الدقة في العديد من المجالات الرئيسية، بما في ذلك مهام الاستدلال مثل الرياضيات والبرمجة، بالإضافة إلى المهام غير الاستدلالية مثل استدعاء الأدوات واتباع التعليمات والدردشة.

تضمنت الإستراتيجية تنظيم مجموعات بيانات محددة لتحسين الأداء في هذه المجالات. داخل عملية الضبط الدقيق الخاضع للإشراف، ميزت NVIDIA بين سيناريوهات "الاستدلال قيد التشغيل" و"الاستدلال قيد الإيقاف". تم الاستفادة من النماذج عالية الجودة من المجتمع كـ "خبراء" في مجالات محددة. على سبيل المثال، تم استخدام DeepSeek R-1 على نطاق واسع في مهام الرياضيات والبرمجة المكثفة للاستدلال، بينما تم استخدام نماذج مثل Llama وQwen في المهام غير الاستدلالية مثل الرياضيات الأساسية والبرمجة والدردشة واستدعاء الأدوات. تم إتاحة مجموعة البيانات المنظمة هذه، التي تتكون من حوالي 30 مليون زوج من الأسئلة والأجوبة، للجمهور على Hugging Face.

ضمان جودة البيانات: نهج متعدد الطبقات

نظرًا لأن جزءًا كبيرًا من البيانات تم إنشاؤه باستخدام نماذج أخرى، فقد نفذت NVIDIA عملية صارمة متعددة الطبقات لضمان الجودة. تضمن هذا:

  • إنشاء استجابات مرشحة متعددة لنفس المطالبة باستخدام كل نموذج خبير.
  • توظيف مجموعة منفصلة من نماذج "الناقد" لتقييم هؤلاء المرشحين بناءً على الصحة والتماسك والالتزام بالمطالبة.
  • تنفيذ آلية تسجيل حيث يتلقى كل زوج من الأسئلة والأجوبة التي تم إنشاؤها درجة جودة بناءً على تقييم نموذج الناقد، مع تعيين حد مرتفع للقبول.
  • دمج المراجعة البشرية في مراحل مختلفة، حيث يقوم علماء البيانات والمهندسون بفحص عينات من البيانات التي تم إنشاؤها يدويًا لتحديد أي أخطاء منهجية أو تحيزات أو حالات هلوسة.
  • التركيز على تنوع البيانات التي تم إنشاؤها لضمان مجموعة واسعة من الأمثلة داخل كل مجال.
  • إجراء تقييمات مكثفة مقابل مجموعات بيانات قياسية وفي حالات الاستخدام الواقعية بعد تدريب Llama Nemotron Ultra على هذه البيانات المنظمة.

فتح مصدر مجموعة بيانات الكلام لـ Parakeet TDT

تخطط NVIDIA لفتح مصدر مجموعة بيانات كلام كبيرة، حوالي 100000 ساعة، منظمة بدقة لتعكس التنوع الحقيقي في العالم. ستتضمن مجموعة البيانات هذه اختلافات في مستويات الصوت ونسب الإشارة إلى الضوضاء وأنواع ضوضاء الخلفية وحتى تنسيقات الصوت عبر الهاتف ذات الصلة بمراكز الاتصال. الهدف هو تزويد المجتمع ببيانات متنوعة عالية الجودة تمكن النماذج من الأداء الجيد في مجموعة واسعة من السيناريوهات الواقعية.

التوجهات المستقبلية: نماذج أصغر ودعم متعدد اللغات وتدفق في الوقت الفعلي

تتضمن رؤية NVIDIA للمستقبل المزيد من التطورات في الدعم متعدد اللغات، وحتى نماذج أصغر محسّنة للحافة، وتحسينات في التدفق في الوقت الفعلي للتعرف على الكلام.

قدرات متعددة اللغات

يعد دعم لغات متعددة أمرًا بالغ الأهمية للمؤسسات الكبيرة. تهدف NVIDIA إلى التركيز على عدد قليل من اللغات الرئيسية وضمان دقة عالمية المستوى للاستدلال واستدعاء الأدوات والدردشة داخل تلك اللغات. من المحتمل أن يكون هذا هو المجال الرئيسي التالي للتوسع.

نماذج محسنة للحافة

تدرس NVIDIA نماذج تصل إلى حوالي 50 مليون معلمة لمعالجة حالات الاستخدام على الحافة حيث تكون هناك حاجة إلى مساحة أصغر، مثل تمكين معالجة الصوت في الوقت الفعلي للروبوتات في البيئات الصاخبة.

التدفق في الوقت الفعلي لـ Parakeet TDT

من الناحية التكنولوجية، تخطط NVIDIA للعمل على قدرات التدفق لـ TDT لتمكين النسخ المباشر في الوقت الفعلي.

الذكاء الاصطناعي الجاهز للإنتاج: تصميم لعمليات النشر الواقعية

تم تصميم كل من Llama Nemotron Ultra وParakeet TDT مع وضع تحديات النشر الواقعية في الاعتبار، مع التركيز على الدقة والكفاءة والفعالية من حيث التكلفة.

الاستدلال قيد التشغيل/الإيقاف من أجل قابلية التوسع والكفاءة من حيث التكلفة

يمكن أن يؤدي الاستدلال المفرط إلى مشكلات في قابلية التوسع وزيادة زمن الاستجابة في بيئات الإنتاج. توفر ميزة الاستدلال قيد التشغيل/الإيقاف التي تم تقديمها في Llama Nemotron Ultra المرونة اللازمة للتحكم في الاستدلال على أساس الاستعلام، مما يتيح العديد من حالات الاستخدام الإنتاجية.

تحقيق التوازن بين الدقة والكفاءة

يشكل تحقيق التوازن بين الدقة والكفاءة تحديًا مستمرًا. يتضمن نهج NVIDIA النظر بعناية في عدد الحقب لكل مهارة أثناء التدريب وقياس الدقة باستمرار. الهدف هو تحسين الأداء في جميع المجالات الرئيسية.

دور نماذج NVIDIA في نظام المصادر المفتوحة

ترى NVIDIA دور Llama Nemotron Ultra وParakeet TDT في نظام المصادر المفتوحة وLLM الأوسع نطاقًا على أنه بناء على الأسس الحالية والتركيز بشكل ضيق على مجالات محددة لإضافة قيمة كبيرة. تهدف الشركة إلى الاستمرار في تحديد مجالات محددة يمكنها المساهمة فيها، بينما يواصل الآخرون بناء نماذج للأغراض العامة ممتازة ومناسبة للإنتاج المؤسسي.

النقاط الرئيسية: مفتوح المصدر وسريع وعالي الإنتاجية وفعال من حيث التكلفة

تتمثل النقاط الرئيسية من عمل NVIDIA على Llama Nemotron Ultra وParakeet TDT في الالتزام بفتح مصدر كل شيء، وتحقيق أحدث دقة، وتحسين المساحات الصغيرة لتحقيق الاستخدام الفعال لوحدة معالجة الرسومات من حيث زمن الاستجابة والإنتاجية، وتمكين المجتمع.

تتوفر جميع النماذج ومجموعات البيانات على Hugging Face. تأتي حزمة البرامج لتشغيلها من NVIDIA وهي متاحة على NGC، مستودع المحتوى الخاص بها. الكثير من البرامج الأساسية مفتوح المصدر أيضًا ويمكن العثور عليها على GitHub. إطار Nemo هو المحور المركزي للكثير من حزمة البرامج هذه.