إحداث ثورة في الذكاء الاصطناعي: نموذج لغوي 1 بت من مايكروسوفت لجيل الذكاء الاصطناعي الفعال على وحدات المعالجة المركزية اليومية
في المشهد الديناميكي للذكاء الاصطناعي، ظهر تطور رائد من Microsoft Research يعد بإعادة تعريف إمكانية الوصول والكفاءة للذكاء الاصطناعي التوليدي. تقدم ورقتهم البحثية الأخيرة BitNet b1.58 2B4T، وهو نموذج لغوي كبير رائد (LLM) يتميز بتدريبه الأصلي بأوزان ‘1-bit’، أو بشكل أكثر دقة، أوزان 1-trit. يمثل هذا النهج المبتكر خروجًا عن الأساليب التقليدية التي تعتمد على نماذج التكميم المدربة في البداية بدقة كاملة.
التغلب على قيود نماذج اللغات الكبيرة التقليدية
تعاني نماذج اللغات الكبيرة التقليدية، على الرغم من أدائها الملحوظ، من حواجز كبيرة تعيق اعتمادها على نطاق واسع. تنبع هذه القيود بشكل أساسي من آثار الذاكرة الكبيرة واستهلاك الطاقة الكبير وزمن الوصول الاستنتاجي الملحوظ. ونتيجة لذلك، يصبح نشر هذه النماذج على الأجهزة الطرفية، وفي البيئات محدودة الموارد، وللتطبيقات في الوقت الفعلي غير عملي.
للتخفيف من هذه التحديات، ركز مجتمع الذكاء الاصطناعي بشكل متزايد على استكشاف النماذج الكمية. هذه النماذج مشتقة من نظيراتها كاملة الدقة عن طريق تحويل أوزانها إلى تنسيق أقل بت. في حين أن التكميم يوفر طريقًا لتقليل حجم النموذج والمتطلبات الحسابية، إلا أنه غالبًا ما يأتي على حساب فقدان الدقة، مما قد يضر بدقة النموذج والأداء العام.
بنية BitNet b1.58 2B4T
يمثل BitNet b1.58 2B4T نقلة نوعية في تصميم LLM، متجاوزًا فقدان الدقة المرتبط بالتكميم عن طريق تدريب النموذج من الألف إلى الياء باستخدام أوزان 1 بت. يتيح هذا النهج للنموذج الاحتفاظ بمزايا الأوزان الأصغر، بما في ذلك تقليل مساحة الذاكرة وتكاليف الحوسبة المنخفضة.
شرع باحثو Microsoft في هذا المسعى الطموح من خلال تدريب BitNet b1.58 2B4T على مجموعة كبيرة من 4 تريليونات رمز. ضمنت مجموعة بيانات التدريب المكثفة هذه أن النموذج يمكن أن يتعلم بشكل فعال أنماط اللغة المعقدة ويطور فهمًا شاملاً لدقائق التواصل البشري.
تقييم الأداء وقياسه
لتقييم فعالية BitNet b1.58 2B4T، أجرت Microsoft معايير صارمة، وقارنت أدائها بنماذج كاملة الدقة مفتوحة الوزن ورائدة ذات حجم مماثل. وكشفت النتائج أن النموذج الجديد قدم أداءً مماثلاً عبر مجموعة واسعة من المهام، تشمل فهم اللغة والاستدلال، والمعرفة العالمية، وفهم القراءة، والرياضيات والشفرة، واتباع التعليمات والمحادثة.
تؤكد هذه النتائج على إمكانات نماذج اللغات الكبيرة ذات 1 بت لتحقيق تكافؤ الأداء مع نظيراتها كاملة الدقة، مع توفير مزايا كبيرة في الوقت نفسه من حيث الكفاءة واستخدام الموارد.
الابتكارات المعمارية الرئيسية
يكمن في قلب BitNet b1.58 2B4T بنيته المبتكرة، التي تحل محل الطبقات الخطية القياسية كاملة الدقة بطبقات BitLinear مخصصة. تستخدم هذه الطبقات تمثيلات 1.58 بت لترميز الأوزان كقيم ثلاثية (trits) أثناء التمرير الأمامي.
يتيح استخدام القيم الثلاثية، الممثلة بـ {-1، 0، +1}، تقليلًا جذريًا في حجم النموذج ويسهل العمليات الرياضية الفعالة. يتحقق هذا من خلال نظام تكميم متوسط مطلق (absmean
)، والذي يعين الأوزان لهذه القيم الثلاثية.
بالإضافة إلى طبقات BitLinear، يشتمل BitNet b1.58 2B4T على العديد من تقنيات LLM الثابتة، مثل وظائف تنشيط ReLU التربيعية، والتضمينات الموضعية الدورانية، وإزالة مصطلح التحيز. تساهم هذه التقنيات بشكل أكبر في تقليل حجم النموذج وتحسين استقرار التدريب.
تعزيز استقرار التدريب وكفاءته
هناك تقنيتان إضافيتان مستخدمتان في طبقات BitLinear - تكميم التنشيط والتطبيع - تلعبان دورًا حاسمًا في تقليل حجم النموذج وتعزيز استقرار التدريب. يقلل تكميم التنشيط من دقة التنشيطات، بينما تساعد تقنيات التطبيع على منع التنشيطات من أن تصبح كبيرة جدًا أو صغيرة جدًا.
تتيح هذه التقنيات، جنبًا إلى جنب مع استخدام أوزان 1 بت، تدريب BitNet b1.58 2B4T بشكل أكثر كفاءة وفعالية، حتى على مجموعات البيانات الكبيرة.
منهجيات التدريب
للتدريب، تستفيد BitNet b1.58 2B4T من ثلاث تقنيات رئيسية: التدريب المسبق على نطاق واسع، والضبط الدقيق الخاضع للإشراف، والتحسين التفضيلي المباشر.
التدريب المسبق على نطاق واسع
تتضمن هذه المرحلة الأولية تدريب النموذج على مجموعة بيانات ضخمة من النصوص والشفرات، مما يسمح له بتعلم أنماط اللغة العامة وتطوير فهم واسع للعالم.
الضبط الدقيق الخاضع للإشراف
في هذه المرحلة، يتم ضبط النموذج بدقة على مجموعة بيانات أصغر وأكثر تحديدًا، ومصممة خصيصًا لمهمة أو مجال معين. يسمح هذا للنموذج بتكييف معرفته ومهاراته مع المتطلبات المحددة للمهمة.
التحسين التفضيلي المباشر
تتضمن هذه التقنية تدريب النموذج على التحسين المباشر للتفضيلات البشرية، كما يتم التعبير عنها من خلال التعليقات أو التصنيفات. يساعد هذا على ضمان توافق مخرجات النموذج مع القيم والتوقعات البشرية.
يشير الباحثون إلى أنه سيتم استكشاف المزيد من التقنيات المتقدمة، مثل تحسين السياسة التقريبية أو تحسين السياسة النسبية للمجموعة، في المستقبل لتعزيز القدرات الرياضية واستدلال سلسلة الأفكار.
مكتبة استنتاج Bitnet.cpp
بالنظر إلى نظام التكميم الفريد لـ BitNet b1.58 2B4T، لا يمكن استخدام النموذج مع مكتبات التعلم العميق القياسية مثل llama.cpp ويتطلب نواة متخصصة. ولمعالجة هذا التحدي، طورت Microsoft مكتبة استنتاج مخصصة مفتوحة المصدر، bitnet.cpp.
يعمل bitnet.cpp بمثابة إطار الاستنتاج الرسمي لنماذج اللغات الكبيرة ذات 1 بت، مثل BitNet b1.58. يوفر مجموعة من النواة المحسنة التي تدعم الاستنتاج السريع وغير المفقود للنماذج 1.58 بت على وحدات المعالجة المركزية، مع خطط لتوسيع الدعم ليشمل وحدات NPU ووحدات معالجة الرسومات في المستقبل.
تعتبر مكتبة الاستنتاج هذه ضرورية لتمكين نشر BitNet b1.58 2B4T على نطاق أوسع من الأجهزة والمنصات، مما يجعلها أكثر سهولة في الوصول إليها للمطورين والباحثين.
اتجاهات البحث المستقبلية
يقر الباحثون بأن أجهزة GPU الحالية ليست مُحسَّنة لنماذج 1 بت وأنه يمكن تحقيق المزيد من مكاسب الأداء من خلال دمج منطق مخصص لعمليات البت المنخفض. يشير هذا إلى أن بنيات الأجهزة المستقبلية قد تكون مصممة خصيصًا لدعم نماذج اللغات الكبيرة ذات 1 بت، مما يؤدي إلى كفاءة وأداء أكبر.
بالإضافة إلى تحسينات الأجهزة، تشمل اتجاهات البحث المستقبلية تدريب نماذج أكبر، وإضافة قدرات متعددة اللغات وتكامل متعدد الوسائط، وتوسيع طول نافذة السياق. ستؤدي هذه التطورات إلى زيادة تعزيز قدرات وتعدد استخدامات BitNet b1.58 2B4T ونماذج اللغات الكبيرة الأخرى ذات 1 بت.
الآثار والتأثير المحتمل
إن تطوير BitNet b1.58 2B4T له آثار كبيرة على مستقبل الذكاء الاصطناعي، لا سيما في مجال الذكاء الاصطناعي التوليدي. من خلال إظهار أنه من الممكن تدريب نماذج LLM عالية الأداء باستخدام أوزان 1 بت فقط، فتحت Microsoft إمكانيات جديدة لإنشاء أنظمة ذكاء اصطناعي أكثر كفاءة ويسهل الوصول إليها.
يمكن أن يؤدي هذا الاختراق إلى نشر نماذج الذكاء الاصطناعي على نطاق أوسع من الأجهزة، بما في ذلك الهواتف الذكية وأجهزة إنترنت الأشياء والمنصات الأخرى ذات الموارد المحدودة. يمكن أن يتيح أيضًا تطوير أنظمة ذكاء اصطناعي أكثر كفاءة في استخدام الطاقة، مما يقلل من تأثيرها البيئي.
علاوة على ذلك، فإن القدرة على تدريب نماذج LLM بأوزان 1 بت يمكن أن تسهل تخصيص نماذج الذكاء الاصطناعي وتخصيصها لتطبيقات محددة. يمكن أن يؤدي ذلك إلى تطوير أنظمة ذكاء اصطناعي أكثر فاعلية وسهولة في الاستخدام ومصممة خصيصًا للاحتياجات الفريدة للمستخدمين والمؤسسات الفردية.
خاتمة
يمثل BitNet b1.58 2B4T من Microsoft خطوة مهمة إلى الأمام في البحث عن ذكاء اصطناعي أكثر كفاءة ويسهل الوصول إليه. من خلال إظهار أنه من الممكن تدريب نماذج LLM عالية الأداء باستخدام أوزان 1 بت فقط، تحدت Microsoft الحكمة التقليدية وفتحت إمكانيات جديدة لمستقبل الذكاء الاصطناعي.
مع استمرار البحث في هذا المجال، يمكننا أن نتوقع رؤية المزيد من التطبيقات المبتكرة لنماذج اللغات الكبيرة ذات 1 بت، مما يؤدي إلى مستقبل يكون فيه الذكاء الاصطناعي أكثر انتشارًا وكفاءة وفائدة للمجتمع ككل.