DeepSeek و Gemini: جدل حول بيانات التدريب

الأدلة المقدمة

بدأ الجدل عندما قدم سام بيتش، وهو مطور مقيم في ملبورن متخصص في إنشاء تقييمات "الذكاء العاطفي" لأنظمة الذكاء الاصطناعي، ما يدعي أنه دليل على أن أحدث نموذج DeepSeek قد تم تدريبه على مخرجات تم إنشاؤها بواسطة Gemini. وفقًا لبيتش، يُظهر نموذج DeepSeek، الذي تم تحديده على أنه R1-0528، تفضيلًا لكلمات وتعبيرات محددة تشبه إلى حد كبير تلك التي يفضلها Google Gemini 2.5 Pro. في حين أن هذه الملاحظة وحدها قد لا تكون قاطعة، إلا أنها تثير علامة حمراء وتستدعي مزيدًا من التحقيق.

ومما يزيد من الإثارة أن مطورًا آخر، يعمل تحت اسم مستعار SpeechMap ويشتهر بإنشاء "تقييم حرية التعبير" للذكاء الاصطناعي، أشار إلى أن آثار نموذج DeepSeek - "الأفكار" التي يولدها أثناء عمله للوصول إلى نتيجة - "تقرأ مثل آثار Gemini". هذا التقارب بين الأنماط اللغوية وعمليات التفكير يزيد من الشك في أن DeepSeek ربما استخدمت مخرجات Gemini خلال عملية التدريب.

اتهامات سابقة ضد DeepSeek

ليست هذه هي المرة الأولى التي تواجه فيها DeepSeek اتهامات بتدريب نماذج الذكاء الاصطناعي الخاصة بها على بيانات من أنظمة الذكاء الاصطناعي المنافسة. في ديسمبر الماضي، لاحظ المطورون أن نموذج DeepSeek V3 غالبًا ما حدد نفسه على أنه ChatGPT، وهي منصة chatbot المدعومة بالذكاء الاصطناعي من OpenAI. يشير هذا السلوك الغريب إلى أن النموذج ربما تم تدريبه على سجلات دردشة ChatGPT، مما أثار مخاوف بشأن الآثار الأخلاقية لمثل هذه الممارسة.

في وقت سابق من هذا العام، أبلغت OpenAI صحيفة Financial Times أنها اكتشفت أدلة تربط DeepSeek باستخدام التقطير، وهي تقنية تتضمن تدريب نماذج الذكاء الاصطناعي عن طريق استخراج البيانات من نماذج أكبر وأكثر قدرة. علاوة على ذلك، اكتشفت Microsoft، وهي متعاون رئيسي ومستثمر في OpenAI، كميات كبيرة من البيانات التي يتم تسريبها من خلال حسابات مطوري OpenAI في أواخر عام 2024. تعتقد OpenAI أن هذه الحسابات تابعة لـ DeepSeek، مما يزيد من ترسيخ الاشتباه في استخراج البيانات غير المصرح به.

في حين أن التقطير ليس غير أخلاقي بطبيعته، فإن شروط خدمة OpenAI تحظر صراحةً على العملاء استخدام مخرجات نموذج الشركة لبناء أنظمة ذكاء اصطناعي منافسة. يهدف هذا القيد إلى حماية الملكية الفكرية لـ OpenAI والحفاظ على بيئة تنافسية عادلة داخل صناعة الذكاء الاصطناعي. إذا كانت DeepSeek قد استخدمت بالفعل التقطير لتدريب نموذج R1 الخاص بها على مخرجات Gemini، فسيشكل ذلك انتهاكًا لشروط خدمة OpenAI ويثير مخاوف أخلاقية خطيرة.

تحديات تلوث البيانات

من المهم الاعتراف بأن العديد من نماذج الذكاء الاصطناعي تُظهر ميلًا إلى التعريف الخاطئ بأنفسها والتقارب على كلمات وعبارات مماثلة. يمكن أن يُعزى هذه الظاهرة إلى التواجد المتزايد للمحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي على الويب المفتوح، والذي يعمل كمصدر أساسي لبيانات التدريب لشركات الذكاء الاصطناعي. تستخدم مزارع المحتوى الذكاء الاصطناعي لإنشاء مقالات clickbait، وتغمر الروبوتات منصات مثل Reddit و X بمنشورات تم إنشاؤها بواسطة الذكاء الاصطناعي.

يمثل هذا "التلوث" للويب بمحتوى تم إنشاؤه بواسطة الذكاء الاصطناعي تحديًا كبيرًا لشركات الذكاء الاصطناعي، مما يجعل من الصعب للغاية تصفية مخرجات الذكاء الاصطناعي بدقة من مجموعات بيانات التدريب. نتيجة لذلك، قد تتعلم نماذج الذكاء الاصطناعي عن غير قصد من بعضها البعض، مما يؤدي إلى أوجه التشابه الملحوظة في اللغة وعمليات التفكير.

آراء الخبراء ووجهات النظر

على الرغم من تحديات تلوث البيانات، يعتقد خبراء الذكاء الاصطناعي مثل ناثان لامبرت، الباحث في معهد أبحاث الذكاء الاصطناعي غير الربحي AI2، أنه ليس من غير المعقول أن تكون DeepSeek قد تدربت على بيانات من Google Gemini. يشير لامبرت إلى أن DeepSeek، التي تواجه نقصًا في وحدات معالجة الرسومات ولكنها تمتلك موارد مالية وفيرة، ربما اختارت إنشاء بيانات اصطناعية من أفضل نموذج API متاح. من وجهة نظره، قد يكون هذا النهج أكثر كفاءة من الناحية الحسابية لـ DeepSeek.

تسلط وجهة نظر لامبرت الضوء على الاعتبارات العملية التي قد تدفع شركات الذكاء الاصطناعي إلى استكشاف استراتيجيات بديلة لمصادر البيانات. في حين أن استخدام البيانات الاصطناعية يمكن أن يكون تقنية مشروعة وفعالة، فمن الضروري التأكد من أن البيانات يتم إنشاؤها بشكل أخلاقي ولا تنتهك أي شروط خدمة أو إرشادات أخلاقية.

التدابير الأمنية والجهود الوقائية

استجابة للمخاوف المحيطة بالتقطير وتلوث البيانات، تقوم شركات الذكاء الاصطناعي بتعزيز تدابيرها الأمنية. على سبيل المثال، قامت OpenAI بتنفيذ شرط على المؤسسات لإكمال عملية التحقق من الهوية من أجل الوصول إلى بعض النماذج المتقدمة. تتطلب هذه العملية وثيقة هوية صادرة عن جهة حكومية من إحدى البلدان التي يدعمها API الخاص بـ OpenAI، باستثناء الصين من القائمة.

اتخذت Google أيضًا خطوات للتخفيف من خطر التقطير عن طريق "تلخيص" الآثار التي تولدها النماذج المتاحة من خلال منصة مطوري AI Studio الخاصة بها. تجعل عملية التلخيص هذه من الصعب تدريب نماذج منافسة عالية الأداء على آثار Gemini. وبالمثل، أعلنت Anthropic في مايو أنها ستبدأ في تلخيص آثار نموذجها الخاص، مشيرة إلى الحاجة إلى حماية "ميزاتها التنافسية".

تمثل هذه التدابير الأمنية جهدًا متضافرًا من قبل شركات الذكاء الاصطناعي لحماية ملكيتها الفكرية ومنع استخراج البيانات غير المصرح به. من خلال تنفيذ ضوابط وصول أكثر صرامة وإخفاء آثار النموذج، فإنها تهدف إلى ردع الممارسات غير الأخلاقية والحفاظ على تكافؤ الفرص داخل صناعة الذكاء الاصطناعي.

رد Google

عند الاتصال بها للتعليق، لم ترد Google بعد على الادعاءات. هذا الصمت يترك مجالًا للتكهنات ويزيد من حدة الجدل. بينما ينتظر مجتمع الذكاء الاصطناعي بيانًا رسميًا من Google، تستمر الأسئلة المحيطة بممارسات الحصول على البيانات الخاصة بـ DeepSeek في التلاشي.

الآثار المترتبة على صناعة الذكاء الاصطناعي

يثير جدل DeepSeek أسئلة أساسية حول الحدود الأخلاقية لتطوير الذكاء الاصطناعي وأهمية الحصول على البيانات بشكل مسؤول. مع ازدياد تطور وقدرة نماذج الذكاء الاصطناعي، قد تنمو الرغبة في اختصار الزوايا واستخدام البيانات غير المصرح بها. ومع ذلك، يمكن أن تكون لهذه الممارسات عواقب وخيمة، تقوض سلامة صناعة الذكاء الاصطناعي وتقوض ثقة الجمهور.

لضمان الاستدامة طويلة الأجل والتطوير الأخلاقي للذكاء الاصطناعي، من الضروري أن تلتزم شركات الذكاء الاصطناعي بإرشادات أخلاقية صارمة وتحديد أولويات ممارسات الحصول على البيانات بشكل مسؤول. ويشمل ذلك الحصول على موافقة صريحة من مزودي البيانات، واحترام حقوق الملكية الفكرية، وتجنب استخدام البيانات غير المصرح بها أو المتحيزة.

علاوة على ذلك، هناك حاجة إلى مزيد من الشفافية والمساءلة داخل صناعة الذكاء الاصطناعي. يجب أن تكون شركات الذكاء الاصطناعي أكثر صراحة بشأن ممارسات الحصول على البيانات الخاصة بها والطرق المستخدمة لتدريب نماذجها. ستساعد هذه الشفافية المتزايدة في تعزيز الثقة في أنظمة الذكاء الاصطناعي وتعزيز نظام بيئي أكثر أخلاقية ومسؤولية للذكاء الاصطناعي.

يعمل جدل DeepSeek بمثابة تذكير في الوقت المناسب بالتحديات والاعتبارات الأخلاقية التي يجب معالجتها مع استمرار تقدم تكنولوجيا الذكاء الاصطناعي. من خلال التمسك بالمبادئ الأخلاقية، وتعزيز الشفافية، وتعزيز التعاون، يمكن لمجتمع الذكاء الاصطناعي ضمان استخدام الذكاء الاصطناعي لصالح المجتمع وليس على حساب القيم الأخلاقية.

نظرة متعمقة على الجوانب الفنية

لفهم الفروق الدقيقة في هذه المشكلة بشكل أكبر، من الضروري الخوض في الجوانب الفنية لكيفية تدريب نماذج الذكاء الاصطناعي والتقنيات المحددة قيد البحث، وبالتحديد التقطير وتوليد البيانات الاصطناعية.

التقطير: استنساخ الذكاء؟

يشير التقطير، في سياق الذكاء الاصطناعي، إلى تقنية ضغط النماذج حيث يتم تدريب نموذج "طالب" أصغر وأكثر كفاءة لتقليد سلوك نموذج "معلم" أكبر وأكثر تعقيدًا. يتعلم نموذج الطالب من خلال مراقبة مخرجات نموذج المعلم، واستخراج المعرفة ونقلها بشكل فعال إلى بنية أصغر. في حين أن التقطير يمكن أن يكون مفيدًا لنشر نماذج الذكاء الاصطناعي على الأجهزة ذات الموارد المحدودة، إلا أنه يثير مخاوف أخلاقية عندما تكون بيانات نموذج المعلم أو هيكله ملكية خاصة.

إذا استخدمت DeepSeek مخرجات Gemini لتدريب نموذج R1 الخاص بها من خلال التقطير دون إذن، فسيكون ذلك بمثابة استنساخ لذكاء Gemini وربما انتهاك حقوق الملكية الفكرية لـ Google. المفتاح هنا هو الاستخدام غير المصرح به لمخرجات Gemini، المحمية بموجب حقوق النشر والآليات القانونية الأخرى.

توليد البيانات الاصطناعية: سلاح ذو حدين

يتضمن توليد البيانات الاصطناعية إنشاء نقاط بيانات اصطناعية تشبه بيانات العالم الحقيقي. غالبًا ما تستخدم هذه التقنية لتوسيع مجموعات بيانات التدريب، خاصةً عندما تكون البيانات الحقيقية نادرة أو مكلفة للحصول عليها. ومع ذلك، تعتمد جودة الآثار الأخلاقية للبيانات الاصطناعية بشكل كبير على كيفية إنشائها.

إذا استخدمت DeepSeek واجهة برمجة تطبيقات Gemini لإنشاء بيانات اصطناعية، فسيصبح السؤال: ما مدى تشابه هذه البيانات بمخرجات Gemini الفعلية، وهل تنتهك حقوق الملكية الفكرية لـ Google؟ إذا كانت البيانات الاصطناعية مستوحاة فقط من Gemini ولكنها لا تكرر مخرجاتها بشكل مباشر، فقد تعتبر استخدامًا عادلًا. ومع ذلك، إذا كانت البيانات الاصطناعية لا يمكن تمييزها تقريبًا عن مخرجات Gemini، فقد تثير مخاوف مماثلة مثل التقطير.

آثار الإفراط في التجهيز للنموذج

هناك قلق آخر ذي صلة وهو الإفراط في تجهيز النموذج. يحدث الإفراط في التجهيز عندما يتعلم النموذج بيانات التدريب جيدًا، لدرجة أنه يؤدي أداءً ضعيفًا على البيانات الجديدة وغير المرئية. إذا قامت DeepSeek بتدريب نموذج R1 الخاص بها بشكل مفرط على مخرجات Gemini، فقد يكون ذلك قد أدى إلى الإفراط في التجهيز، حيث يحتفظ النموذج أساسًا باستجابات Gemini بدلاً من التعميم على المواقف الجديدة.

لن يحد هذا النوع من الإفراط في التجهيز من قابلية تطبيق نموذج R1 فحسب، بل سيجعل من السهل أيضًا اكتشاف اعتماده على بيانات Gemini. قد تكون "الآثار" التي لاحظها SpeechMap دليلًا على هذا الإفراط في التجهيز، حيث يقوم نموذج R1 بشكل أساسي بإعادة إنتاج الأنماط المستفادة من مخرجات Gemini.

الاعتبارات الأخلاقية وأفضل الممارسات في الصناعة

بالإضافة إلى الجوانب الفنية، يسلط هذا الجدل الضوء على الحاجة إلى إرشادات أخلاقية واضحة وأفضل الممارسات في الصناعة لتطوير الذكاء الاصطناعي. تتضمن بعض المبادئ الأساسية ما يلي:

  • الشفافية: يجب أن تكون شركات الذكاء الاصطناعي شفافة بشأن مصادر البيانات الخاصة بها ومنهجيات التدريب. يتيح ذلك التدقيق والتحقق المستقلين.
  • الموافقة: يجب أن تحصل شركات الذكاء الاصطناعي على موافقة صريحة من مزودي البيانات قبل استخدام بياناتهم للتدريب. يتضمن ذلك احترام حقوق الملكية الفكرية وتجنب تجريف البيانات غير المصرح به.
  • الإنصاف: يجب أن تكون نماذج الذكاء الاصطناعي عادلة وغير متحيزة. يتطلب ذلك اهتمامًا دقيقًا بتنوع البيانات وتخفيف التحيزات الخوارزمية.
  • المساءلة: يجب أن تكون شركات الذكاء الاصطناعي مسؤولة عن تصرفات نماذج الذكاء الاصطناعي الخاصة بها. يتضمن ذلك إنشاء أطر مسؤولية واضحة ومعالجة الأضرار التي تسببها أنظمة الذكاء الاصطناعي.
  • الأمن: يجب على شركات الذكاء الاصطناعي إعطاء الأولوية لأمن نماذج وبيانات الذكاء الاصطناعي الخاصة بها. يتضمن ذلك الحماية من الوصول غير المصرح به ومنع خروقات البيانات.

دور التنظيم

بالإضافة إلى الإرشادات الأخلاقية وأفضل الممارسات في الصناعة، قد يكون التنظيم ضروريًا لمعالجة التحديات التي يفرضها تطوير الذكاء الاصطناعي. تتضمن بعض التدابير التنظيمية المحتملة ما يلي:

  • قوانين خصوصية البيانات: قوانين تحمي بيانات الأفراد وتقيد استخدام المعلومات الشخصية لتدريب الذكاء الاصطناعي.
  • قوانين الملكية الفكرية: قوانين تحمي نماذج وبيانات الذكاء الاصطناعي من النسخ والتوزيع غير المصرح به.
  • قوانين المنافسة: قوانين تمنع السلوك المناهض للمنافسة في صناعة الذكاء الاصطناعي، مثل تكديس البيانات والوصول غير العادل إلى الموارد.
  • لوائح السلامة: لوائح تضمن سلامة وموثوقية أنظمة الذكاء الاصطناعي المستخدمة في التطبيقات الهامة.

من خلال الجمع بين الإرشادات الأخلاقية وأفضل الممارسات في الصناعة والتنظيم المناسب، يمكننا إنشاء نظام بيئي للذكاء الاصطناعي أكثر مسؤولية واستدامة يفيد المجتمع ككل. يعمل جدل DeepSeek كدعوة للاستيقاظ، وتحثنا على معالجة هذه التحديات بشكل استباقي وضمان تطوير الذكاء الاصطناعي بطريقة تتماشى مع قيمنا ومبادئنا.