كشف أصول تدريب DeepSeek-R1
أشارت الأبحاث الحديثة التي أجرتها Copyleaks، وهي شركة متخصصة في الكشف عن الذكاء الاصطناعي وإدارته، إلى إجابة قاطعة فيما يتعلق بما إذا كانت DeepSeek-R1 قد تدربت على نموذج OpenAI: نعم. DeepSeek، وهو روبوت محادثة يعمل بالذكاء الاصطناعي ومتاح بدون تكلفة، يشبه إلى حد كبير ChatGPT في مظهره وشعوره ووظائفه.
تقنية البصمات: تحديد الذكاء الاصطناعي المؤلف
لإلقاء الضوء على أصول النصوص التي تم إنشاؤها بواسطة الذكاء الاصطناعي، طور الباحثون أداة مبتكرة لبصمات النصوص. تم تصميم هذه الأداة لتحديد نموذج الذكاء الاصطناعي المحدد المسؤول عن إنشاء قطعة معينة من النص. قام الباحثون بتدريب الأداة بدقة باستخدام مجموعة بيانات واسعة من آلاف العينات التي تم إنشاؤها بواسطة الذكاء الاصطناعي. بعد ذلك، قاموا باختبارها باستخدام نماذج ذكاء اصطناعي معروفة، وكانت النتائج قاطعة.
تشابه مذهل: DeepSeek-R1 و OpenAI
كشف الاختبار عن إحصائية مقنعة: 74.2% من النصوص التي أنتجتها DeepSeek-R1 أظهرت تطابقًا أسلوبيًا مع مخرجات OpenAI. يشير هذا الارتباط القوي بقوة إلى أن DeepSeek دمجت نموذج OpenAI أثناء مرحلة التدريب.
تباين في النهج: Phi-4 من Microsoft
لتوفير منظور متباين، ضع في اعتبارك نموذج Phi-4 من Microsoft. في نفس الاختبار، أظهر Phi-4 ‘اختلافًا’ ملحوظًا بنسبة 99.3% مع أي نموذج معروف. هذه النتيجة بمثابة دليل مقنع على التدريب المستقل، مما يدل على أن Phi-4 تم تطويره دون الاعتماد على النماذج الحالية. التناقض الصارخ بين طبيعة Phi-4 المستقلة وتشابه DeepSeek الهائل مع OpenAI يؤكد على النسخ أو التقليد الواضح للأخير.
مخاوف أخلاقية ومخاوف تتعلق بالملكية الفكرية
يثير هذا الكشف مخاوف جدية بشأن التشابه الوثيق بين DeepSeek-R1 ونموذج OpenAI. تشمل هذه المخاوف العديد من المجالات الحاسمة، بما في ذلك:
- مصادر البيانات: يصبح أصل البيانات المستخدمة لتدريب DeepSeek-R1 سؤالاً حاسمًا.
- حقوق الملكية الفكرية: يعد الانتهاك المحتمل لحقوق الملكية الفكرية لـ OpenAI مصدر قلق كبير.
- الشفافية: يثير الافتقار إلى الشفافية فيما يتعلق بمنهجية تدريب DeepSeek تساؤلات أخلاقية.
فريق البحث والمنهجية
أجرى فريق علوم البيانات في Copyleaks، بقيادة يهوناتان بيتون وشاي نيسان وإلعاد بيتون، هذا البحث الرائد. تمحورت منهجيتهم حول نهج ‘هيئة المحلفين بالإجماع’. تضمن هذا النهج ثلاثة أنظمة كشف متميزة، كل منها مكلف بتصنيف النصوص التي تم إنشاؤها بواسطة الذكاء الاصطناعي. لم يتم التوصل إلى حكم قاطع إلا عندما اتفقت الأنظمة الثلاثة.
الآثار التشغيلية والسوقية
بالإضافة إلى المخاوف الأخلاقية والمتعلقة بالملكية الفكرية، هناك آثار تشغيلية عملية يجب أخذها في الاعتبار. يمكن أن يؤدي الاعتماد غير المعلن على النماذج الحالية إلى العديد من المشكلات:
- تعزيز التحيزات: يمكن إدامة التحيزات الحالية داخل النموذج الأصلي.
- تنوع محدود: قد يكون تنوع المخرجات مقيدًا، مما يعيق الابتكار.
- مخاطر قانونية وأخلاقية: قد تنشأ تداعيات قانونية أو أخلاقية غير متوقعة.
علاوة على ذلك، فإن ادعاءات DeepSeek بوجود طريقة تدريب ثورية وفعالة من حيث التكلفة، إذا تبين أنها تستند إلى تقطير غير مصرح به لتقنية OpenAI، يمكن أن يكون لها تداعيات كبيرة على السوق. ربما تكون قد ساهمت في خسارة NVIDIA الكبيرة ليوم واحد بقيمة 593 مليار دولار وربما منحت DeepSeek ميزة تنافسية غير عادلة.
نهج صارم: الجمع بين مصنفات متعددة
استخدمت منهجية البحث نهجًا صارمًا للغاية، حيث دمجت ثلاثة مصنفات ذكاء اصطناعي متقدمة. تم تدريب كل من هذه المصنفات بدقة على عينات نصية من أربعة نماذج ذكاء اصطناعي بارزة:
- Claude
- Gemini
- Llama
- OpenAI
تم تصميم هذه المصنفات لتحديد الفروق الأسلوبية الدقيقة، بما في ذلك:
- بنية الجملة: ترتيب الكلمات والعبارات داخل الجمل.
- المفردات: اختيار الكلمات وتكرارها.
- الصياغة: الأسلوب العام ونبرة التعبير.
نظام ‘هيئة المحلفين بالإجماع’: ضمان الدقة
كان نظام ‘هيئة المحلفين بالإجماع’ عنصرًا أساسيًا في المنهجية، مما يضمن فحصًا قويًا ضد الإيجابيات الكاذبة. تطلب هذا النظام من جميع المصنفات الثلاثة الاتفاق بشكل مستقل على تصنيف ما قبل اعتباره نهائيًا. أدى هذا المعيار الصارم إلى معدل دقة استثنائي بلغ 99.88% ومعدل إيجابي كاذب منخفض بشكل ملحوظ بلغ 0.04% فقط. أظهر النظام قدرته على تحديد النصوص بدقة من نماذج الذكاء الاصطناعي المعروفة وغير المعروفة.
ما وراء الكشف عن الذكاء الاصطناعي: الإسناد الخاص بالنموذج
صرح شاي نيسان، كبير علماء البيانات في Copyleaks: ‘من خلال هذا البحث، انتقلنا إلى ما هو أبعد من الكشف العام عن الذكاء الاصطناعي كما عرفناه وإلى الإسناد الخاص بالنموذج، وهو اختراق يغير بشكل أساسي كيفية تعاملنا مع محتوى الذكاء الاصطناعي’.
أهمية إسناد النموذج
أكد نيسان كذلك على أهمية هذه القدرة: ‘هذه القدرة ضرورية لأسباب متعددة، بما في ذلك تحسين الشفافية العامة، وضمان ممارسات التدريب الأخلاقي للذكاء الاصطناعي، والأهم من ذلك، حماية حقوق الملكية الفكرية لتقنيات الذكاء الاصطناعي، ونأمل، منع إساءة استخدامها المحتملة’.
التعمق أكثر: الآثار المترتبة على نهج DeepSeek
النتائج التي توصل إليها هذا البحث لها آثار بعيدة المدى تتجاوز السؤال المباشر عما إذا كانت DeepSeek قد نسخت نموذج OpenAI. دعونا نستكشف بعض هذه الآثار بمزيد من التفصيل:
وهم الابتكار
إذا كان تدريب DeepSeek يعتمد بشكل كبير على نموذج OpenAI، فإنه يثير تساؤلات حول المدى الحقيقي لابتكاره. في حين أن DeepSeek ربما قدمت روبوت الدردشة الخاص بها على أنه إنشاء جديد، فقد تكون التكنولوجيا الأساسية أقل ريادة مما كان يُزعم في البداية. قد يؤدي هذا إلى تضليل المستخدمين والمستثمرين الذين يعتقدون أنهم يتفاعلون مع نظام ذكاء اصطناعي فريد حقًا.
التأثير على مشهد الذكاء الاصطناعي
يمكن أن يكون للتبني الواسع النطاق لنماذج الذكاء الاصطناعي المدربة على نماذج أخرى تأثير متجانس على مشهد الذكاء الاصطناعي. إذا كانت العديد من أنظمة الذكاء الاصطناعي مشتقة في النهاية من عدد قليل من النماذج التأسيسية، فقد يحد ذلك من تنوع الأساليب ووجهات النظر في هذا المجال. قد يؤدي هذا إلى خنق الابتكار ويؤدي إلى نظام بيئي للذكاء الاصطناعي أقل ديناميكية وتنافسية.
الحاجة إلى مزيد من الشفافية
تسلط هذه الحالة الضوء على الحاجة الملحة إلى مزيد من الشفافية في تطوير ونشر نماذج الذكاء الاصطناعي. يستحق المستخدمون وأصحاب المصلحة معرفة كيفية تدريب أنظمة الذكاء الاصطناعي وما هي مصادر البيانات المستخدمة. هذه المعلومات ضرورية لتقييم التحيزات المحتملة والقيود والآثار الأخلاقية لهذه الأنظمة.
دور التنظيم
قد تؤجج قضية DeepSeek أيضًا النقاش حول الحاجة إلى مزيد من التنظيم لصناعة الذكاء الاصطناعي. قد تحتاج الحكومات والهيئات التنظيمية إلى النظر في تدابير لضمان التزام مطوري الذكاء الاصطناعي بالمبادئ التوجيهية الأخلاقية، وحماية حقوق الملكية الفكرية، وتعزيز الشفافية.
مستقبل تطوير الذكاء الاصطناعي
يمكن أن يكون الجدل الدائر حول أساليب تدريب DeepSeek بمثابة حافز لإجراء مناقشة أوسع حول مستقبل تطوير الذكاء الاصطناعي. قد يدفع إلى إعادة تقييم أفضل الممارسات والاعتبارات الأخلاقية وأهمية الأصالة في إنشاء أنظمة الذكاء الاصطناعي.
دعوة لتطوير الذكاء الاصطناعي المسؤول
تعتبر قضية DeepSeek بمثابة تذكير بأهمية تطوير الذكاء الاصطناعي المسؤول. إنه يؤكد على الحاجة إلى:
- الأصالة: يجب على مطوري الذكاء الاصطناعي أن يسعوا جاهدين لإنشاء نماذج جديدة حقًا بدلاً من الاعتماد بشكل كبير على النماذج الحالية.
- الشفافية: يجب الكشف عن بيانات التدريب والمنهجيات المستخدمة لتطوير أنظمة الذكاء الاصطناعي للمستخدمين وأصحاب المصلحة.
- الاعتبارات الأخلاقية: يجب أن يسترشد تطوير الذكاء الاصطناعي بالمبادئ الأخلاقية، بما في ذلك الإنصاف والمساءلة واحترام حقوق الملكية الفكرية.
- التعاون: يمكن أن يساعد التعاون المفتوح وتبادل المعرفة داخل مجتمع الذكاء الاصطناعي في تعزيز الابتكار ومنع تكرار التحيزات الحالية.
الطريق إلى الأمام: ضمان مستقبل ذكاء اصطناعي متنوع وأخلاقي
يجب أن يكون الهدف النهائي هو إنشاء نظام بيئي متنوع وأخلاقي للذكاء الاصطناعي حيث يزدهر الابتكار ويمكن للمستخدمين الوثوق بالأنظمة التي يتفاعلون معها. يتطلب هذا التزامًا بممارسات تطوير الذكاء الاصطناعي المسؤولة والشفافية والحوار المستمر حول الآثار الأخلاقية لهذه التكنولوجيا سريعة التطور. تعتبر قضية DeepSeek بمثابة درس قيم، حيث تسلط الضوء على المزالق المحتملة للاعتماد المفرط على النماذج الحالية وتؤكد على أهمية الأصالة والاعتبارات الأخلاقية في السعي لتحقيق تقدم الذكاء الاصطناعي. يعتمد مستقبل الذكاء الاصطناعي على الخيارات التي نتخذها اليوم، ومن الأهمية بمكان أن نعطي الأولوية للتطوير المسؤول لضمان مستقبل مفيد ومنصف للجميع.
لقد ألقت نتائج تحقيق Copyleaks الضوء على جانب حاسم من جوانب تطوير الذكاء الاصطناعي، ومن الضروري أن تتعلم الصناعة ككل من هذه التجربة لتعزيز مستقبل أكثر شفافية وأخلاقية وابتكارًا.