تدقيق تدريب الذكاء الاصطناعي لـ DeepSeek: هل ساهم Gemini من جوجل؟

أدلة واتهامات

قدم سام بيتش، وهو مطور مقيم في ملبورن متخصص في إنشاء تقييمات "للذكاء العاطفي" للذكاء الاصطناعي، ما يعتقد أنه دليل على أن نموذج DeepSeek قد تم تدريبه باستخدام مخرجات تم إنشاؤها بواسطة Gemini. لاحظ بيتش في منشور على X (تويتر سابقًا) أن نموذج DeepSeek، وتحديدًا الإصدار R1-0528، يُظهر تفضيلًا للغة والتعبيرات المشابهة لتلك التي يفضلها Gemini 2.5 Pro من Google.

علاوة على ذلك، لاحظ مطور آخر، يعمل تحت الاسم المستعار لمنشئ SpeechMap، وهو "تقييم حرية التعبير" للذكاء الاصطناعي، أن "الأفكار" التي يولدها نموذج DeepSeek أثناء عمله للوصول إلى استنتاجات تشبه إلى حد كبير آثار Gemini. تضيف هذه الملاحظة طبقة أخرى من الإثارة إلى الادعاءات.

ليست هذه هي المرة الأولى التي تواجه فيها DeepSeek مزاعم بشأن الاستفادة من بيانات من نماذج الذكاء الاصطناعي المنافسة. بالعودة إلى ديسمبر، لاحظ المطورون أن نموذج V3 من DeepSeek غالبًا ما يعرّف نفسه على أنه ChatGPT، منصة الدردشة الآلية الشهيرة من OpenAI. يشير هذا إلى أن النموذج قد تم تدريبه على سجلات دردشة ChatGPT، مما أثار مخاوف بشأن ممارسات استخدام البيانات.

اتهامات أعمق: التقطير والتسريب البياناتي

في وقت سابق من هذا العام، شاركت OpenAI مع صحيفة Financial Times أنها اكتشفت أدلة تربط DeepSeek باستخدام تقنية تسمى التقطير. يتضمن التقطير تدريب نماذج الذكاء الاصطناعي عن طريق استخراج البيانات من نماذج أكبر وأكثر تطوراً. ذكرت بلومبرج أن مايكروسوفت، وهي متعاون رئيسي ومستثمر في OpenAI، اكتشفت تسريبًا كبيرًا للبيانات من خلال حسابات مطوري OpenAI في أواخر عام 2024. تعتقد OpenAI أن هذه الحسابات مرتبطة بـ DeepSeek.

التقطير، على الرغم من أنه ليس غير أخلاقي بطبيعته، يصبح إشكاليًا عندما ينتهك شروط الخدمة. تحظر شروط OpenAI صراحةً على العملاء استخدام مخرجات نموذج الشركة لتطوير أنظمة ذكاء اصطناعي منافسة. هذا يثير تساؤلات جدية حول مدى التزام DeepSeek بهذه الشروط.

المياه العكرة لبيانات تدريب الذكاء الاصطناعي

من المهم أن نعترف بأن نماذج الذكاء الاصطناعي غالبًا ما تحدد نفسها بشكل خاطئ وتتقارب على كلمات وعبارات مماثلة. ويرجع ذلك إلى طبيعة الويب المفتوح، الذي يعمل كمصدر رئيسي لبيانات التدريب للعديد من شركات الذكاء الاصطناعي. أصبح الويب مشبعًا بشكل متزايد بالمحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي. تستخدم مزارع المحتوى الذكاء الاصطناعي لإنتاج طعم نقري، وتغرق الروبوتات منصات مثل Reddit و X بمنشورات تم إنشاؤها بواسطة الذكاء الاصطناعي.

يجعل هذا "التلوث" من الصعب للغاية تصفية مخرجات الذكاء الاصطناعي بشكل فعال من مجموعات بيانات التدريب، مما يزيد من تعقيد مسألة ما إذا كانت DeepSeek قد استخدمت بيانات Gemini عن قصد.

آراء الخبراء ووجهات النظر

على الرغم من التحديات التي تواجه إثبات الادعاءات بشكل قاطع، يعتقد بعض خبراء الذكاء الاصطناعي أنه من المعقول أن DeepSeek تدرب على بيانات من Gemini من Google. صرح ناثان لامبرت، الباحث في معهد أبحاث الذكاء الاصطناعي غير الربحي AI2، على X، "إذا كنت DeepSeek، فسأقوم بالتأكيد بإنشاء الكثير من البيانات الاصطناعية من أفضل نموذج API موجود. [DeepSeek] يعاني من نقص في وحدات معالجة الرسومات ولديه الكثير من النقود. إنه حرفيًا حوسبة أكثر فعالية بالنسبة لهم."

تسلط وجهة نظر لامبرت الضوء على الحوافز الاقتصادية المحتملة لـ DeepSeek للاستفادة من نماذج الذكاء الاصطناعي الحالية لتحسين قدراتها الخاصة، لا سيما بالنظر إلى القيود المفروضة على مواردها.

تدابير الأمن والإجراءات المضادة

تقوم شركات الذكاء الاصطناعي بتكثيف التدابير الأمنية، ويرجع ذلك جزئيًا إلى منع ممارسات مثل التقطير. بدأت OpenAI، في أبريل، في مطالبة المنظمات بإكمال عملية التحقق من الهوية للوصول إلى بعض النماذج المتقدمة. تتضمن هذه العملية تقديم هوية صادرة عن جهة حكومية من بلد مدعوم من API الخاص بـ OpenAI. تغيب الصين بشكل ملحوظ عن هذه القائمة.

في خطوة أخرى، بدأت Google مؤخرًا في "تلخيص" الآثار التي تولدها النماذج المتاحة من خلال منصة مطوري AI Studio الخاصة بها. هذا الإجراء يجعل من الصعب تدريب النماذج المنافسة على آثار Gemini بفعالية. وبالمثل، أعلنت Anthropic في مايو أنها ستبدأ في تلخيص آثار نموذجها الخاص، مشيرة إلى الحاجة إلى حماية "المزايا التنافسية". تشير هذه الإجراءات إلى وعي متزايد باحتمالية إساءة استخدام مخرجات نموذج الذكاء الاصطناعي وجهود استباقية للتخفيف من هذه المخاطر.

الآثار والعواقب

تثير الادعاءات الموجهة ضد DeepSeek تساؤلات مهمة حول أخلاقيات وقانونية ممارسات تدريب الذكاء الاصطناعي. إذا كانت DeepSeek قد استخدمت بالفعل بيانات Gemini لتدريب نموذج R1 الخاص بها، فقد تواجه تداعيات قانونية والإضرار بالسمعة. يسلط هذا الموقف الضوء أيضًا على الحاجة إلى مزيد من الشفافية والتنظيم في صناعة الذكاء الاصطناعي، خاصة فيما يتعلق بتحديد مصادر البيانات واستخدامها.

تؤكد الاتهامات الموجهة ضد DeepSeek معضلة حاسمة: كيفية الموازنة بين الرغبة في الابتكار والتقدم في الذكاء الاصطناعي والحاجة إلى حماية حقوق الملكية الفكرية وضمان المنافسة العادلة. تتطور صناعة الذكاء الاصطناعي بسرعة، وتعتبر المبادئ التوجيهية الواضحة والأطر الأخلاقية ضرورية للتنقل في المشهد القانوني والأخلاقي المعقد. يجب أن تكون الشركات شفافة بشأن مصادر بياناتها وتلتزم باتفاقيات شروط الخدمة للحفاظ على الثقة وتجنب الالتزامات القانونية المحتملة.

علاوة على ذلك، تمثل قضية تلوث المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي لمجموعات بيانات التدريب تحديًا كبيرًا لمجتمع الذكاء الاصطناعي بأكمله. مع ازدياد براعة نماذج الذكاء الاصطناعي في إنشاء نصوص وصور وأشكال أخرى من المحتوى مقنعة، يصبح من الصعب بشكل متزايد التمييز بين البيانات التي تم إنشاؤها بواسطة الإنسان والبيانات التي تم إنشاؤها بواسطة الذكاء الاصطناعي. يمكن أن يؤدي هذا "التلوث" إلى تجانس نماذج الذكاء الاصطناعي، حيث تبدأ جميعها في إظهار تحيزات وقيود مماثلة.

لمعالجة هذا التحدي، تحتاج شركات الذكاء الاصطناعي إلى الاستثمار في تقنيات أكثر تطوراً لتصفية البيانات واستكشاف مصادر بيانات تدريب بديلة. إنهم بحاجة أيضًا إلى أن يكونوا أكثر شفافية بشأن تكوين مجموعات بيانات التدريب الخاصة بهم والأساليب المستخدمة لتصفية المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي.

تصفح مستقبل تدريب الذكاء الاصطناعي

تسلط قضية DeepSeek الضوء على الحاجة الملحة إلى مناقشة أكثر دقة حول مستقبل تدريب الذكاء الاصطناعي. مع ازدياد قوة نماذج الذكاء الاصطناعي وأصبحت البيانات أكثر ندرة، قد تميل الشركات إلى اختصار الزوايا والانخراط في ممارسات غير أخلاقية أو غير قانونية. ومع ذلك، فإن هذه الممارسات تقوض في النهاية الاستدامة والموثوقية على المدى الطويل لصناعة الذكاء الاصطناعي.

هناك حاجة إلى جهد تعاوني يشارك فيه الباحثون وصناع السياسات وقادة الصناعة لتطوير مبادئ توجيهية أخلاقية وأطر قانونية تعزز تطوير الذكاء الاصطناعي المسؤول. يجب أن تعالج هذه المبادئ التوجيهية قضايا مثل تحديد مصادر البيانات والشفافية والمساءلة. يجب عليهم أيضًا تحفيز الشركات على الاستثمار في ممارسات تدريب الذكاء الاصطناعي الأخلاقية والمستدامة.

اعتبارات أساسية لمستقبل تدريب الذكاء الاصطناعي:

  • الشفافية: يجب أن تكون الشركات شفافة بشأن مصادر البيانات المستخدمة لتدريب نماذج الذكاء الاصطناعي الخاصة بها والأساليب المستخدمة لتصفية المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي.
  • الأخلاق: يجب أن يلتزم تطوير الذكاء الاصطناعي بالمبادئ الأخلاقية التي تعزز العدالة والمساءلة واحترام حقوق الملكية الفكرية.
  • التنظيم: يجب على صانعي السياسات إنشاء أطر قانونية واضحة تعالج التحديات الفريدة التي يفرضها تدريب الذكاء الاصطناعي.
  • التعاون: يجب على الباحثين وصانعي السياسات وقادة الصناعة التعاون لتطوير مبادئ توجيهية أخلاقية وأفضل الممارسات لتطوير الذكاء الاصطناعي.
  • تنوع البيانات: يجب أن يعطي تدريب الذكاء الاصطناعي الأولوية لتنوع البيانات للحد من التحيز وتحسين الأداء العام لنماذج الذكاء الاصطناعي.
  • الاستدامة: يجب إجراء تدريب الذكاء الاصطناعي بطريقة مستدامة، مما يقلل من تأثيره البيئي.
  • الأمن: يجب أن تحمي التدابير الأمنية نماذج الذكاء الاصطناعي وبيانات التدريب من الوصول والاستخدام غير المصرح بهما.

من خلال معالجة هذه الاعتبارات الرئيسية، يمكن لصناعة الذكاء الاصطناعي ضمان إجراء تطوير الذكاء الاصطناعي بطريقة مسؤولة وأخلاقية، وتعزيز الابتكار مع التخفيف من المخاطر المحتملة.

الطريق إلى الأمام

تعتبر الاتهامات الموجهة ضد DeepSeek بمثابة دعوة للاستيقاظ لمجتمع الذكاء الاصطناعي. إنها تؤكد الحاجة الملحة إلى مزيد من الشفافية والسلوك الأخلاقي والضمانات القوية في تطوير الذكاء الاصطناعي. نظرًا لأن الذكاء الاصطناعي يستمر في الانتشار في جوانب مختلفة من حياتنا، فمن الضروري أن نضع حدودًا واضحة ومبادئ توجيهية أخلاقية لضمان استخدامه المسؤول والمفيد.

ستشكل قضية DeepSeek، بغض النظر عن نتيجتها النهائية، بلا شك الخطاب المستمر المحيط بأخلاقيات الذكاء الاصطناعي وتؤثر على المسار المستقبلي لتطوير الذكاء الاصطناعي. إنها بمثابة تذكير بأن السعي وراء الابتكار يجب أن يخفف من الالتزام بالمبادئ الأخلاقية والاعتراف بالعواقب المحتملة لأفعالنا. يعتمد مستقبل الذكاء الاصطناعي على قدرتنا على اجتياز هذه التحديات المعقدة بحكمة وبصيرة.