تقلید DeepSeek از OpenAI: آیا فاش شد؟

رونمایی از ریشه‌های آموزشی DeepSeek-R1

تحقیقات اخیر انجام شده توسط Copyleaks، شرکتی متخصص در تشخیص و حاکمیت هوش مصنوعی، به پاسخی قطعی در مورد اینکه آیا DeepSeek-R1 بر روی مدل OpenAI آموزش دیده است یا خیر، اشاره کرده است: بله. DeepSeek، یک ربات چت مبتنی بر هوش مصنوعی که بدون هیچ هزینه‌ای در دسترس است، شباهت چشمگیری به ChatGPT در ظاهر، احساس و عملکرد خود دارد.

تکنیک انگشت نگاری: شناسایی هوش مصنوعی مولف

برای روشن شدن ریشه‌های متن تولید شده توسط هوش مصنوعی، محققان یک ابزار نوآورانه انگشت نگاری متن را توسعه دادند. این ابزار برای تعیین مدل خاص هوش مصنوعی مسئول تولید یک قطعه متن معین طراحی شده است. محققان با دقت این ابزار را با استفاده از مجموعه داده‌های عظیمی از هزاران نمونه تولید شده توسط هوش مصنوعی آموزش دادند. متعاقباً، آنها آن را با استفاده از مدل‌های شناخته شده هوش مصنوعی آزمایش کردند و نتایج صریح بود.

شباهت شگفت انگیز: DeepSeek-R1 و OpenAI

آزمایش یک آمار قانع کننده را نشان داد: 74.2 درصد قابل توجهی از متون تولید شده توسط DeepSeek-R1 مطابقت سبکی با خروجی OpenAI را نشان دادند. این همبستگی قوی قویاً نشان می‌دهد که DeepSeek مدل OpenAI را در طول مرحله آموزش خود گنجانده است.

تضاد در رویکرد: Phi-4 مایکروسافت

برای ارائه یک دیدگاه متضاد، مدل Phi-4 مایکروسافت را در نظر بگیرید. در همان آزمایش، Phi-4 ‘مخالفت’ 99.3 درصدی قابل توجهی را با هر مدل شناخته شده‌ای نشان داد. این نتیجه به عنوان شواهد قانع کننده‌ای از آموزش مستقل عمل می‌کند، که نشان می‌دهد Phi-4 بدون اتکا به مدل‌های موجود توسعه یافته است. تضاد شدید بین ماهیت مستقل Phi-4 و شباهت زیاد DeepSeek به OpenAI بر تکرار یا کپی برداری آشکار دومی تأکید می‌کند.

نگرانی‌های اخلاقی و مالکیت معنوی

این افشاگری نگرانی‌های جدی در مورد شباهت نزدیک DeepSeek-R1 به مدل OpenAI ایجاد می‌کند. این نگرانی‌ها چندین حوزه حیاتی را شامل می‌شود، از جمله:

  • منبع یابی داده: منشأ داده‌های مورد استفاده برای آموزش DeepSeek-R1 به یک سوال حیاتی تبدیل می‌شود.
  • حقوق مالکیت معنوی: نقض احتمالی حقوق مالکیت معنوی OpenAI یک نگرانی مهم است.
  • شفافیت: عدم شفافیت در مورد روش آموزش DeepSeek سوالات اخلاقی را ایجاد می‌کند.

تیم تحقیق و روش شناسی

تیم علوم داده Copyleaks، به رهبری یهوناتان بیتون، شای نیسان و العاد بیتون، این تحقیق پیشگامانه را انجام دادند. روش شناسی آنها بر رویکرد ‘هیئت منصفه متفق القول’ متمرکز بود. این رویکرد شامل سه سیستم تشخیص مجزا بود که هر کدام وظیفه طبقه بندی متون تولید شده توسط هوش مصنوعی را داشتند. تنها زمانی به یک قضاوت قطعی می‌رسیدند که هر سه سیستم در توافق کامل بودند.

پیامدهای عملیاتی و بازاری

فراتر از نگرانی‌های اخلاقی و مالکیت معنوی، پیامدهای عملیاتی عملی نیز وجود دارد که باید در نظر گرفته شود. اتکای فاش نشده به مدل‌های موجود می‌تواند منجر به چندین مشکل شود:

  • تقویت سوگیری‌ها: سوگیری‌های موجود در مدل اصلی می‌تواند تداوم یابد.
  • تنوع محدود: تنوع خروجی‌ها ممکن است محدود شود و مانع نوآوری شود.
  • خطرات قانونی و اخلاقی: ممکن است پیامدهای قانونی یا اخلاقی پیش بینی نشده‌ای ایجاد شود.

علاوه بر این، ادعاهای DeepSeek مبنی بر یک روش آموزشی انقلابی و مقرون به صرفه، اگر مشخص شود که بر اساس تقطیر غیرمجاز فناوری OpenAI است، می‌تواند پیامدهای قابل توجهی در بازار داشته باشد. این ممکن است به زیان 593 میلیارد دلاری یک روزه NVIDIA کمک کرده باشد و به طور بالقوه مزیت رقابتی ناعادلانه‌ای را برای DeepSeek فراهم کرده باشد.

یک رویکرد دقیق: ترکیب چندین طبقه بندی کننده

روش شناسی تحقیق از یک رویکرد بسیار دقیق استفاده کرد و سه طبقه بندی کننده پیشرفتههوش مصنوعی را ادغام کرد. هر یک از این طبقه بندی کننده‌ها با دقت بر روی نمونه‌های متنی از چهار مدل برجسته هوش مصنوعی آموزش داده شدند:

  1. Claude
  2. Gemini
  3. Llama
  4. OpenAI

این طبقه بندی کننده‌ها برای شناسایی تفاوت‌های ظریف سبکی طراحی شده‌اند، از جمله:

  • ساختار جمله: ترتیب کلمات و عبارات در جملات.
  • واژگان: انتخاب کلمات و فراوانی آنها.
  • عبارت پردازی: سبک کلی و لحن بیان.

سیستم ‘هیئت منصفه متفق القول’: تضمین دقت

سیستم ‘هیئت منصفه متفق القول’ عنصر کلیدی روش شناسی بود که بررسی قوی در برابر مثبت‌های کاذب را تضمین می‌کرد. این سیستم مستلزم آن بود که هر سه طبقه بندی کننده به طور مستقل در مورد یک طبقه بندی به توافق برسند تا اینکه نهایی در نظر گرفته شود. این معیار سختگیرانه منجر به نرخ دقت استثنایی 99.88 درصد و نرخ مثبت کاذب بسیار پایین تنها 0.04 درصد شد. این سیستم توانایی خود را در شناسایی دقیق متون از مدل‌های هوش مصنوعی شناخته شده و ناشناخته نشان داد.

فراتر از تشخیص هوش مصنوعی: انتساب خاص مدل

شای نیسان، دانشمند ارشد داده در Copyleaks، اظهار داشت: ‘با این تحقیق، ما فراتر از تشخیص کلی هوش مصنوعی که می‌شناختیم، به سمت انتساب خاص مدل حرکت کرده‌ایم، پیشرفتی که اساساً نحوه برخورد ما با محتوای هوش مصنوعی را تغییر می‌دهد.’

اهمیت انتساب مدل

نیسان در ادامه بر اهمیت این قابلیت تأکید کرد: ‘این قابلیت به دلایل متعددی از جمله بهبود شفافیت کلی، تضمین شیوه‌های آموزش اخلاقی هوش مصنوعی و مهم‌تر از همه، حفاظت از حقوق مالکیت معنوی فناوری‌های هوش مصنوعی و امیدواریم جلوگیری از سوء استفاده احتمالی آنها، بسیار مهم است.’

کاوش عمیق‌تر: پیامدهای رویکرد DeepSeek

یافته‌های این تحقیق پیامدهای گسترده‌ای دارد که فراتر از این سوال فوری است که آیا DeepSeek مدل OpenAI را کپی کرده است یا خیر. بیایید برخی از این پیامدها را با جزئیات بیشتری بررسی کنیم:

توهم نوآوری

اگر آموزش DeepSeek به شدت به مدل OpenAI متکی باشد، سوالاتی در مورد میزان واقعی نوآوری آن ایجاد می‌شود. در حالی که DeepSeek ممکن است ربات چت خود را به عنوان یک خلاقیت جدید ارائه کرده باشد، فناوری زیربنایی ممکن است کمتر از آنچه در ابتدا ادعا شده بود، پیشگامانه باشد. این می‌تواند کاربران و سرمایه گذارانی را که معتقدند با یک سیستم هوش مصنوعی واقعاً منحصر به فرد در تعامل هستند، گمراه کند.

تأثیر بر چشم انداز هوش مصنوعی

پذیرش گسترده مدل‌های هوش مصنوعی آموزش دیده بر روی مدل‌های دیگر می‌تواند تأثیر همگن کننده‌ای بر چشم انداز هوش مصنوعی داشته باشد. اگر بسیاری از سیستم‌های هوش مصنوعی در نهایت از چند مدل بنیادی مشتق شوند، می‌تواند تنوع رویکردها و دیدگاه‌ها را در این زمینه محدود کند. این می‌تواند نوآوری را خفه کند و منجر به یک اکوسیستم هوش مصنوعی کمتر پویا و رقابتی شود.

نیاز به شفافیت بیشتر

این مورد نیاز فوری به شفافیت بیشتر در توسعه و استقرار مدل‌های هوش مصنوعی را برجسته می‌کند. کاربران و ذینفعان حق دارند بدانند که سیستم‌های هوش مصنوعی چگونه آموزش داده می‌شوند و از چه منابع داده‌ای استفاده می‌شود. این اطلاعات برای ارزیابی سوگیری‌های بالقوه، محدودیت‌ها و پیامدهای اخلاقی این سیستم‌ها بسیار مهم است.

نقش مقررات

پرونده DeepSeek همچنین ممکن است به بحث در مورد نیاز به مقررات بیشتر در صنعت هوش مصنوعی دامن بزند. دولت‌ها و نهادهای نظارتی ممکن است نیاز به بررسی اقداماتی برای اطمینان از پایبندی توسعه دهندگان هوش مصنوعی به دستورالعمل‌های اخلاقی، حفاظت از حقوق مالکیت معنوی و ارتقای شفافیت داشته باشند.

آینده توسعه هوش مصنوعی

جنجال پیرامون روش‌های آموزشی DeepSeek می‌تواند به عنوان کاتالیزوری برای بحث گسترده‌تر در مورد آینده توسعه هوش مصنوعی عمل کند. این ممکن است باعث ارزیابی مجدد بهترین شیوه‌ها، ملاحظات اخلاقی و اهمیت اصالت در ایجاد سیستم‌های هوش مصنوعی شود.

فراخوانی برای توسعه مسئولانه هوش مصنوعی

پرونده DeepSeek به عنوان یادآوری اهمیت توسعه مسئولانه هوش مصنوعی عمل می‌کند. این بر نیاز به موارد زیر تأکید می‌کند:

  • اصالت: توسعه دهندگان هوش مصنوعی باید تلاش کنند تا مدل‌های واقعاً جدیدی ایجاد کنند تا اینکه به شدت به مدل‌های موجود متکی باشند.
  • شفافیت: داده‌های آموزشی و روش‌های مورد استفاده برای توسعه سیستم‌های هوش مصنوعی باید برای کاربران و ذینفعان فاش شود.
  • ملاحظات اخلاقی: توسعه هوش مصنوعی باید با اصول اخلاقی، از جمله انصاف، پاسخگویی و احترام به حقوق مالکیت معنوی هدایت شود.
  • همکاری: همکاری باز و به اشتراک گذاری دانش در جامعه هوش مصنوعی می‌تواند به تقویت نوآوری و جلوگیری از تکرار سوگیری‌های موجود کمک کند.

مسیر پیش رو: تضمین آینده‌ای متنوع و اخلاقی برای هوش مصنوعی

هدف نهایی باید ایجاد یک اکوسیستم هوش مصنوعی متنوع و اخلاقی باشد که در آن نوآوری شکوفا شود و کاربران بتوانند به سیستم‌هایی که با آنها تعامل دارند اعتماد کنند. این امر مستلزم تعهد به شیوه‌های توسعه مسئولانه هوش مصنوعی، شفافیت و گفتگوی مداوم در مورد پیامدهای اخلاقی این فناوری به سرعت در حال تحول است. پرونده DeepSeek به عنوان یک درس ارزشمند عمل می‌کند و بر دام‌های بالقوه اتکای بیش از حد به مدل‌های موجود و تأکید بر اهمیت اصالت و ملاحظات اخلاقی در پیگیری پیشرفت هوش مصنوعی تأکید می‌کند. آینده هوش مصنوعی به انتخاب‌هایی که امروز انجام می‌دهیم بستگی دارد و بسیار مهم است که توسعه مسئولانه را برای تضمین آینده‌ای سودمند و عادلانه برای همه در اولویت قرار دهیم.
یافته‌های تحقیقات Copyleaks جنبه‌ای حیاتی از توسعه هوش مصنوعی را روشن کرده است و ضروری است که کل صنعت از این تجربه درس بگیرد تا آینده‌ای شفاف‌تر، اخلاقی‌تر و نوآورانه‌تر را تقویت کند.