جدل حول DeepSeek: هل لعب Gemini من Google دورًا؟

يشهد عالم الذكاء الاصطناعي (AI) تكهنات واسعة النطاق في أعقاب الإصدار الأخير من نسخة محسّنة من نموذج الاستدلال R1 التابع لـ DeepSeek. كشفت هذه الشركة الصينية المتخصصة في الذكاء الاصطناعي عن نموذج يظهر قدرات مثيرة للإعجاب في معايير الرياضيات والبرمجة. ومع ذلك، أصبح أصل البيانات المستخدمة لتدريب هذا النموذج محورًا للنقاش، حيث يشير بعض الباحثين في مجال الذكاء الاصطناعي إلى وجود صلة محتملة بعائلة Gemini AI من Google.

نظرة فاحصة على نموذج R1 من DeepSeek

اكتسب نموذج DeepSeek R1 للاستدلال اهتمامًا لأدائه في مجالات مثل حل المشكلات الرياضية ومهام الترميز. إن تردد الشركة في الكشف عن مصادر البيانات المحددة المستخدمة في تدريب النموذج قد أثار تكهنات داخل مجتمع أبحاث الذكاء الاصطناعي.

مزاعم بتأثير Gemini

يدور جوهر النقاش حول إمكانية أن تكون DeepSeek قد استغلت مخرجات من Gemini من Google لتعزيز نموذجها الخاص. قدم سام بيتش، وهو مطور ذكاء اصطناعي متخصص في تقييمات "الذكاء العاطفي" ، أدلة تشير إلى أن نموذج DeepSeek R1-0528 يُظهر تفضيلات للغة والتعبيرات المماثلة لتلك التي تفضلها Google Gemini 2.5 Pro. في حين أن هذه الملاحظة وحدها لا تشكل دليلًا قاطعًا، فقد ساهمت في المناقشة المستمرة.

وبإضافة طبقة أخرى إلى المناقشة، أشار المُنشئ المجهول لـ "SpeechMap"، وهي أداة تقييم للذكاء الاصطناعي تركز على حرية التعبير، إلى أن "الأفكار" التي يولدها نموذج DeepSeek - عمليات الاستدلال الداخلية التي يستخدمها للوصول إلى الاستنتاجات - تحمل تشابهًا مع أنماط تتبع Gemini. هذا يزيد من حدة السؤال عما إذا كانت DeepSeek قد استخدمت بيانات من عائلة Gemini من Google.

اتهامات سابقة ومخاوف OpenAI

ليست هذه هي المرة الأولى التي تواجه فيها DeepSeek اتهامات باستخدام بيانات من نماذج الذكاء الاصطناعي المنافسة. في كانون الأول (ديسمبر)، لوحظ أن نموذج DeepSeek V3 غالبًا ما كان يعرّف نفسه بأنه ChatGPT، وهو برنامج الدردشة الآلي للذكاء الاصطناعي الذي تستخدمه OpenAI على نطاق واسع. أدى ذلك إلى شكوك في أن النموذج ربما تم تدريبه على سجلات دردشة ChatGPT.

ومما يزيد الأمر إثارة، أن OpenAI أفادت باكتشاف أدلة في وقت سابق من هذا العام تربط DeepSeek باستخدام التقطير، وهي تقنية تتضمن استخراج بيانات من نماذج الذكاء الاصطناعي الأكبر والأكثر قوة لتدريب نماذج أصغر. وفقًا للتقارير، اكتشفت Microsoft، وهي متعاون رئيسي ومستثمر في OpenAI، تسريبًا كبيرًا للبيانات من خلال حسابات مطوري OpenAI في أواخر عام 2024. تعتقد OpenAI أن هذه الحسابات مرتبطة بـ DeepSeek.

في حين أن التقطير ممارسة شائعة في عالم الذكاء الاصطناعي، فإن شروط خدمة OpenAI تحظر صراحةً على المستخدمين استخدام مخرجات نموذج الشركة لإنشاء أنظمة ذكاء اصطناعي منافسة. هذا يثير مخاوف بشأن الانتهاكات المحتملة لسياسات OpenAI.

تحدي "تلوث" الذكاء الاصطناعي

من المهم أن نضع في اعتبارنا أن نماذج الذكاء الاصطناعي، أثناء التدريب، قد تتقارب على مفردات وصياغة مماثلة. ويرجع ذلك أساسًا إلى أن الويب المفتوح، وهو المصدر الرئيسي لبيانات التدريب لشركات الذكاء الاصطناعي، مشبع بشكل متزايد بالمحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي. تستخدم مزارع المحتوى الذكاء الاصطناعي لإنتاج مقالات لجذب النقرات، وتغرق الروبوتات منصات مثل Reddit و X بالمنشورات التي تم إنشاؤها بواسطة الذكاء الاصطناعي.

يجعل هذا "التلوث" لمشهد البيانات من الصعب تصفية المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي بشكل فعال من مجموعات بيانات التدريب. نتيجة لذلك، قد يكون من الصعب تحديد ما إذا كانت مخرجات النموذج مشتقة حقًا من بيانات نموذج آخر أو تعكس ببساطة الوجود المنتشر للمحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعيعلى الويب.

وجهات نظر الخبراء حول هذه المسألة

على الرغم من التحديات التي تواجه إثبات الارتباط بشكل قاطع، يعتقد خبراء الذكاء الاصطناعي مثل ناثان لامبرت، الباحث في معهد أبحاث الذكاء الاصطناعي AI2، أن إمكانية تدريب DeepSeek على بيانات من Gemini من Google أمر معقول. يقترح لامبرت أن DeepSeek، الذي يواجه قيودًا في توفر وحدة معالجة الرسومات ولكن لديه موارد مالية كبيرة، قد يجد أنه من الأكثر كفاءة استخدام البيانات الاصطناعية التي تم إنشاؤها بواسطة أفضل نموذج API متاح.

شركات الذكاء الاصطناعي تعزز الإجراءات الأمنية

إن المخاوف بشأن التقطير والاستخدام غير المصرح به للبيانات تدفع شركات الذكاء الاصطناعي إلى تعزيز إجراءاتها الأمنية. على سبيل المثال، تطلب OpenAI الآن من المؤسسات إكمال عملية التحقق من الهوية للوصول إلى بعض النماذج المتقدمة. تتطلب هذه العملية هوية صادرة عن جهة حكومية من بلد مدعوم من واجهة برمجة تطبيقات OpenAI، باستثناء الصين.

اتخذت Google أيضًا خطوات للتخفيف من احتمالية التقطير. لقد بدأوا مؤخرًا في "تلخيص" آثار النماذج التي تم إنشاؤها والمتوفرة من خلال منصة مطوري AI Studio الخاصة بها. هذا يجعل من الصعب تدريب النماذج المنافسة عن طريق استخراج معلومات مفصلة من آثار Gemini. وبالمثل، أعلنت Anthropic عن خطط لتلخيص آثار نموذجها الخاص، مشيرة إلى الحاجة إلى حماية "ميزاتها التنافسية".

الآثار المترتبة على مشهد الذكاء الاصطناعي

تسلط القضية المثيرة للجدل المحيطة بـ DeepSeek والاستخدام المحتمل لبيانات Gemini من Google الضوء على العديد من القضايا الحاسمة في مشهد الذكاء الاصطناعي:

  • أخلاقيات البيانات وتطوير الذكاء الاصطناعي المسؤول: مع تزايد تطور نماذج الذكاء الاصطناعي، تصبح الاعتبارات الأخلاقية المحيطة بمصادر البيانات واستخدامها ذات أهمية قصوى. تحتاج شركات الذكاء الاصطناعي إلى التأكد من أنها تلتزم بالمبادئ التوجيهية الأخلاقية وتحترم حقوق الملكية الفكرية للآخرين.
  • تأثير المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي: يمثل انتشار المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي على الويب تحديًا لتدريب الذكاء الاصطناعي. مع تزايد "تلوث" البيانات، يصبح من الصعب التأكد من جودة وسلامة نماذج الذكاء الاصطناعي.
  • الحاجة إلى الشفافية والمساءلة: يجب أن تكون شركات الذكاء الاصطناعي شفافة بشأن مصادر بياناتها وأساليب التدريب الخاصة بها. سيساعد ذلك في بناء الثقة والتأكد من أن الذكاء الاصطناعي يتم تطويره واستخدامه بمسؤولية.
  • أهمية التدابير الأمنية القوية: مع تزايد المنافسة في صناعة الذكاء الاصطناعي، تحتاج شركات الذكاء الاصطناعي إلى تنفيذ تدابير أمنية قوية لمنع الوصول غير المصرح به إلى بياناتها ونماذجها.

مستقبل تطوير الذكاء الاصطناعي

تعد قضية DeepSeek بمثابة تذكير بالتحديات الأخلاقية والتقنية المعقدة التي تواجه صناعة الذكاء الاصطناعي. مع استمرار تطور الذكاء الاصطناعي، من الضروري أن تعمل شركات الذكاء الاصطناعي والباحثون وصناع السياسات معًا لضمان تطوير الذكاء الاصطناعي واستخدامه بطريقة تفيد المجتمع. ويشمل ذلك تعزيز الشفافية والمساءلة وممارسات البيانات الأخلاقية.

النقاش المستمر: تؤكد الادعاءات الموجهة ضد DeepSeek المخاوف المتزايدة بشأن خصوصية البيانات وأمنها وتطوير الذكاء الاصطناعي الأخلاقي. إن عدم وجود شفافية في تحديد مصادر البيانات والخطوط غير الواضحة بشكل متزايد بين جمع البيانات المشروعة وكشط البيانات غير المصرح به يتطلبان لوائح واضحة وممارسات مسؤولة داخل مجتمع الذكاء الاصطناعي. مع تقدم التكنولوجيا، يجب على الصناعة أن تتعامل مع قضايا مثل حقوق الملكية الفكرية، وخطر "تلوث الذكاء الاصطناعي"، واحتمال حدوث عواقب غير مقصودة.

أخلاقيات بيانات تدريب الذكاء الاصطناعي: تسلط القضية المثيرة للجدل المحيطة بـ DeepSeek الضوء أيضًا على الاعتبارات الأخلاقية التي تدخل حيز التنفيذ عند تجميع بيانات التدريب لنماذج الذكاء الاصطناعي. مع الاعتماد المتزايد على مجموعات البيانات الضخمة التي يتم جمعها من الإنترنت، تصبح أسئلة مثل من يملك البيانات، وكيف يتم الحصول على الموافقة (أو تجاهلها)، وما إذا كانت البيانات تستخدم بشكل عادل ومسؤول أكثر إلحاحًا. يجب على مجتمع الذكاء الاصطناعي وضع مبادئ توجيهية واضحة لمصادر البيانات تحترم قوانين حقوق النشر، وتحمي المعلومات الشخصية، وتخفف التحيز.

السباق نحو الهيمنة على الذكاء الاصطناعي: يمكن أيضًا تفسير الاتهامات الموجهة ضد DeepSeek على أنها انعكاس للسباق الشديد نحو الهيمنة على الذكاء الاصطناعي بين الولايات المتحدة والصين. كلا البلدين يضخان مليارات الدولارات في أبحاث وتطوير الذكاء الاصطناعي، والضغط لتحقيق اختراقات يغذي المنافسة وربما يختصر الزوايا. إذا كانت DeepSeek تستخدم بالفعل بيانات OpenAI أو Google دون إذن، فيمكن تفسير ذلك على أنه مثال على التكتيكات العدوانية وسرقة الملكية الفكرية التي ابتليت بها علاقة التكنولوجيا بين الولايات المتحدة والصين لفترة طويلة.

الآثار الأوسع على نظام الذكاء الاصطناعي: على الرغم من أن التركيز ينصب حاليًا على DeepSeek، إلا أن هذه القضية يمكن أن يكون لها آثار أوسع على نظام الذكاء الاصطناعي بأكمله. إذا ثبت أن DeepSeek قد استخدمت بشكل غير قانوني بيانات من ChatGPT أو Gemini، فقد يدفع ذلك شركات أخرى إلى مراجعة ممارسات تحديد مصادر البيانات الخاصة بها بدقة، مما قد يؤدي إلى إبطاء وتيرة التطوير وزيادة التكاليف. قد يؤدي ذلك أيضًا إلى لوائح أكثر صرامة بشأن جمع البيانات واستخدامها، ليس فقط في الولايات المتحدة والصين، ولكن على مستوى العالم.

تأثير البيانات التي تم إنشاؤها اصطناعيًا: ظهور البيانات الاصطناعية، التي اقترحها لامبرت، كبديل قابل للتطبيق لتدريب النماذج يثير أسئلة أساسية حول مستقبل تطوير الذكاء الاصطناعي. في حين أن مجموعات البيانات الاصطناعية تتجاوز بعض المخاوف الأخلاقية وحقوق النشر المتعلقة ببيانات العالم الحقيقي، فإن أداء وقوة النماذج المدربة على البيانات الاصطناعية غالبًا ما تفشل في مطابقة تلك المدربة على البيانات الأصلية. يحتاج مجتمع الذكاء الاصطناعي إلى إيجاد مناهج مبتكرة لإنشاء مجموعات بيانات اصطناعية متطورة تلبي احتياجات الصناعة دون المساس بالدقة والموثوقية.

تلخيص النموذج كشكل من أشكال إدارة البيانات: يشير قرار Google و Anthropic الأخير ببدء "تلخيص" آثار النماذج التي تم إنشاؤها بواسطة نماذجهما إلى الأهمية المتزايدة لإدارة البيانات في صناعة الذكاء الاصطناعي. من خلال حجب المعلومات التفصيلية داخل عمليات صنع القرار في النماذج، تجعل الشركات من الصعب على الآخرين عكس هندسة تقنياتها. يمكن أن يساعد هذا النهج في حماية الأسرار التجارية ودعم ممارسات تحديد مصادر البيانات الأخلاقية، ولكنه يثير أيضًا أسئلة حول الشفافية وقابلية التفسير لأنظمة الذكاء الاصطناعي.

الموازنة بين الابتكار والاعتبارات الأخلاقية والقانونية: تؤكد القضية المثيرة للجدل المحيطة بـ DeepSeek الحاجة إلى تحقيق توازن دقيق بين تشجيع ابتكار الذكاء الاصطناعي وحماية حقوق الملكية الفكرية وضمان الالتزام بالمبادئ الأخلاقية. مع استمرار نمو نماذج الذكاء الاصطناعي في التطور والتعقيد، فإن التحديات الأخلاقية والقانونية التي تواجه الصناعة ستصبح أكثر وضوحًا. سيكون إيجاد التوازن الصحيح بين هذه المخاوف أمرًا بالغ الأهمية لتعزيز التطوير المسؤول والمستدام للذكاء الاصطناعي.