رونمایی از ریشههای آموزشی DeepSeek-R1
تحقیقات اخیر انجام شده توسط Copyleaks، شرکتی متخصص در تشخیص و حاکمیت هوش مصنوعی، به پاسخی قطعی در مورد اینکه آیا DeepSeek-R1 بر روی مدل OpenAI آموزش دیده است یا خیر، اشاره کرده است: بله. DeepSeek، یک ربات چت مبتنی بر هوش مصنوعی که بدون هیچ هزینهای در دسترس است، شباهت چشمگیری به ChatGPT در ظاهر، احساس و عملکرد خود دارد.
تکنیک انگشت نگاری: شناسایی هوش مصنوعی مولف
برای روشن شدن ریشههای متن تولید شده توسط هوش مصنوعی، محققان یک ابزار نوآورانه انگشت نگاری متن را توسعه دادند. این ابزار برای تعیین مدل خاص هوش مصنوعی مسئول تولید یک قطعه متن معین طراحی شده است. محققان با دقت این ابزار را با استفاده از مجموعه دادههای عظیمی از هزاران نمونه تولید شده توسط هوش مصنوعی آموزش دادند. متعاقباً، آنها آن را با استفاده از مدلهای شناخته شده هوش مصنوعی آزمایش کردند و نتایج صریح بود.
شباهت شگفت انگیز: DeepSeek-R1 و OpenAI
آزمایش یک آمار قانع کننده را نشان داد: 74.2 درصد قابل توجهی از متون تولید شده توسط DeepSeek-R1 مطابقت سبکی با خروجی OpenAI را نشان دادند. این همبستگی قوی قویاً نشان میدهد که DeepSeek مدل OpenAI را در طول مرحله آموزش خود گنجانده است.
تضاد در رویکرد: Phi-4 مایکروسافت
برای ارائه یک دیدگاه متضاد، مدل Phi-4 مایکروسافت را در نظر بگیرید. در همان آزمایش، Phi-4 ‘مخالفت’ 99.3 درصدی قابل توجهی را با هر مدل شناخته شدهای نشان داد. این نتیجه به عنوان شواهد قانع کنندهای از آموزش مستقل عمل میکند، که نشان میدهد Phi-4 بدون اتکا به مدلهای موجود توسعه یافته است. تضاد شدید بین ماهیت مستقل Phi-4 و شباهت زیاد DeepSeek به OpenAI بر تکرار یا کپی برداری آشکار دومی تأکید میکند.
نگرانیهای اخلاقی و مالکیت معنوی
این افشاگری نگرانیهای جدی در مورد شباهت نزدیک DeepSeek-R1 به مدل OpenAI ایجاد میکند. این نگرانیها چندین حوزه حیاتی را شامل میشود، از جمله:
- منبع یابی داده: منشأ دادههای مورد استفاده برای آموزش DeepSeek-R1 به یک سوال حیاتی تبدیل میشود.
- حقوق مالکیت معنوی: نقض احتمالی حقوق مالکیت معنوی OpenAI یک نگرانی مهم است.
- شفافیت: عدم شفافیت در مورد روش آموزش DeepSeek سوالات اخلاقی را ایجاد میکند.
تیم تحقیق و روش شناسی
تیم علوم داده Copyleaks، به رهبری یهوناتان بیتون، شای نیسان و العاد بیتون، این تحقیق پیشگامانه را انجام دادند. روش شناسی آنها بر رویکرد ‘هیئت منصفه متفق القول’ متمرکز بود. این رویکرد شامل سه سیستم تشخیص مجزا بود که هر کدام وظیفه طبقه بندی متون تولید شده توسط هوش مصنوعی را داشتند. تنها زمانی به یک قضاوت قطعی میرسیدند که هر سه سیستم در توافق کامل بودند.
پیامدهای عملیاتی و بازاری
فراتر از نگرانیهای اخلاقی و مالکیت معنوی، پیامدهای عملیاتی عملی نیز وجود دارد که باید در نظر گرفته شود. اتکای فاش نشده به مدلهای موجود میتواند منجر به چندین مشکل شود:
- تقویت سوگیریها: سوگیریهای موجود در مدل اصلی میتواند تداوم یابد.
- تنوع محدود: تنوع خروجیها ممکن است محدود شود و مانع نوآوری شود.
- خطرات قانونی و اخلاقی: ممکن است پیامدهای قانونی یا اخلاقی پیش بینی نشدهای ایجاد شود.
علاوه بر این، ادعاهای DeepSeek مبنی بر یک روش آموزشی انقلابی و مقرون به صرفه، اگر مشخص شود که بر اساس تقطیر غیرمجاز فناوری OpenAI است، میتواند پیامدهای قابل توجهی در بازار داشته باشد. این ممکن است به زیان 593 میلیارد دلاری یک روزه NVIDIA کمک کرده باشد و به طور بالقوه مزیت رقابتی ناعادلانهای را برای DeepSeek فراهم کرده باشد.
یک رویکرد دقیق: ترکیب چندین طبقه بندی کننده
روش شناسی تحقیق از یک رویکرد بسیار دقیق استفاده کرد و سه طبقه بندی کننده پیشرفتههوش مصنوعی را ادغام کرد. هر یک از این طبقه بندی کنندهها با دقت بر روی نمونههای متنی از چهار مدل برجسته هوش مصنوعی آموزش داده شدند:
- Claude
- Gemini
- Llama
- OpenAI
این طبقه بندی کنندهها برای شناسایی تفاوتهای ظریف سبکی طراحی شدهاند، از جمله:
- ساختار جمله: ترتیب کلمات و عبارات در جملات.
- واژگان: انتخاب کلمات و فراوانی آنها.
- عبارت پردازی: سبک کلی و لحن بیان.
سیستم ‘هیئت منصفه متفق القول’: تضمین دقت
سیستم ‘هیئت منصفه متفق القول’ عنصر کلیدی روش شناسی بود که بررسی قوی در برابر مثبتهای کاذب را تضمین میکرد. این سیستم مستلزم آن بود که هر سه طبقه بندی کننده به طور مستقل در مورد یک طبقه بندی به توافق برسند تا اینکه نهایی در نظر گرفته شود. این معیار سختگیرانه منجر به نرخ دقت استثنایی 99.88 درصد و نرخ مثبت کاذب بسیار پایین تنها 0.04 درصد شد. این سیستم توانایی خود را در شناسایی دقیق متون از مدلهای هوش مصنوعی شناخته شده و ناشناخته نشان داد.
فراتر از تشخیص هوش مصنوعی: انتساب خاص مدل
شای نیسان، دانشمند ارشد داده در Copyleaks، اظهار داشت: ‘با این تحقیق، ما فراتر از تشخیص کلی هوش مصنوعی که میشناختیم، به سمت انتساب خاص مدل حرکت کردهایم، پیشرفتی که اساساً نحوه برخورد ما با محتوای هوش مصنوعی را تغییر میدهد.’
اهمیت انتساب مدل
نیسان در ادامه بر اهمیت این قابلیت تأکید کرد: ‘این قابلیت به دلایل متعددی از جمله بهبود شفافیت کلی، تضمین شیوههای آموزش اخلاقی هوش مصنوعی و مهمتر از همه، حفاظت از حقوق مالکیت معنوی فناوریهای هوش مصنوعی و امیدواریم جلوگیری از سوء استفاده احتمالی آنها، بسیار مهم است.’
کاوش عمیقتر: پیامدهای رویکرد DeepSeek
یافتههای این تحقیق پیامدهای گستردهای دارد که فراتر از این سوال فوری است که آیا DeepSeek مدل OpenAI را کپی کرده است یا خیر. بیایید برخی از این پیامدها را با جزئیات بیشتری بررسی کنیم:
توهم نوآوری
اگر آموزش DeepSeek به شدت به مدل OpenAI متکی باشد، سوالاتی در مورد میزان واقعی نوآوری آن ایجاد میشود. در حالی که DeepSeek ممکن است ربات چت خود را به عنوان یک خلاقیت جدید ارائه کرده باشد، فناوری زیربنایی ممکن است کمتر از آنچه در ابتدا ادعا شده بود، پیشگامانه باشد. این میتواند کاربران و سرمایه گذارانی را که معتقدند با یک سیستم هوش مصنوعی واقعاً منحصر به فرد در تعامل هستند، گمراه کند.
تأثیر بر چشم انداز هوش مصنوعی
پذیرش گسترده مدلهای هوش مصنوعی آموزش دیده بر روی مدلهای دیگر میتواند تأثیر همگن کنندهای بر چشم انداز هوش مصنوعی داشته باشد. اگر بسیاری از سیستمهای هوش مصنوعی در نهایت از چند مدل بنیادی مشتق شوند، میتواند تنوع رویکردها و دیدگاهها را در این زمینه محدود کند. این میتواند نوآوری را خفه کند و منجر به یک اکوسیستم هوش مصنوعی کمتر پویا و رقابتی شود.
نیاز به شفافیت بیشتر
این مورد نیاز فوری به شفافیت بیشتر در توسعه و استقرار مدلهای هوش مصنوعی را برجسته میکند. کاربران و ذینفعان حق دارند بدانند که سیستمهای هوش مصنوعی چگونه آموزش داده میشوند و از چه منابع دادهای استفاده میشود. این اطلاعات برای ارزیابی سوگیریهای بالقوه، محدودیتها و پیامدهای اخلاقی این سیستمها بسیار مهم است.
نقش مقررات
پرونده DeepSeek همچنین ممکن است به بحث در مورد نیاز به مقررات بیشتر در صنعت هوش مصنوعی دامن بزند. دولتها و نهادهای نظارتی ممکن است نیاز به بررسی اقداماتی برای اطمینان از پایبندی توسعه دهندگان هوش مصنوعی به دستورالعملهای اخلاقی، حفاظت از حقوق مالکیت معنوی و ارتقای شفافیت داشته باشند.
آینده توسعه هوش مصنوعی
جنجال پیرامون روشهای آموزشی DeepSeek میتواند به عنوان کاتالیزوری برای بحث گستردهتر در مورد آینده توسعه هوش مصنوعی عمل کند. این ممکن است باعث ارزیابی مجدد بهترین شیوهها، ملاحظات اخلاقی و اهمیت اصالت در ایجاد سیستمهای هوش مصنوعی شود.
فراخوانی برای توسعه مسئولانه هوش مصنوعی
پرونده DeepSeek به عنوان یادآوری اهمیت توسعه مسئولانه هوش مصنوعی عمل میکند. این بر نیاز به موارد زیر تأکید میکند:
- اصالت: توسعه دهندگان هوش مصنوعی باید تلاش کنند تا مدلهای واقعاً جدیدی ایجاد کنند تا اینکه به شدت به مدلهای موجود متکی باشند.
- شفافیت: دادههای آموزشی و روشهای مورد استفاده برای توسعه سیستمهای هوش مصنوعی باید برای کاربران و ذینفعان فاش شود.
- ملاحظات اخلاقی: توسعه هوش مصنوعی باید با اصول اخلاقی، از جمله انصاف، پاسخگویی و احترام به حقوق مالکیت معنوی هدایت شود.
- همکاری: همکاری باز و به اشتراک گذاری دانش در جامعه هوش مصنوعی میتواند به تقویت نوآوری و جلوگیری از تکرار سوگیریهای موجود کمک کند.
مسیر پیش رو: تضمین آیندهای متنوع و اخلاقی برای هوش مصنوعی
هدف نهایی باید ایجاد یک اکوسیستم هوش مصنوعی متنوع و اخلاقی باشد که در آن نوآوری شکوفا شود و کاربران بتوانند به سیستمهایی که با آنها تعامل دارند اعتماد کنند. این امر مستلزم تعهد به شیوههای توسعه مسئولانه هوش مصنوعی، شفافیت و گفتگوی مداوم در مورد پیامدهای اخلاقی این فناوری به سرعت در حال تحول است. پرونده DeepSeek به عنوان یک درس ارزشمند عمل میکند و بر دامهای بالقوه اتکای بیش از حد به مدلهای موجود و تأکید بر اهمیت اصالت و ملاحظات اخلاقی در پیگیری پیشرفت هوش مصنوعی تأکید میکند. آینده هوش مصنوعی به انتخابهایی که امروز انجام میدهیم بستگی دارد و بسیار مهم است که توسعه مسئولانه را برای تضمین آیندهای سودمند و عادلانه برای همه در اولویت قرار دهیم.
یافتههای تحقیقات Copyleaks جنبهای حیاتی از توسعه هوش مصنوعی را روشن کرده است و ضروری است که کل صنعت از این تجربه درس بگیرد تا آیندهای شفافتر، اخلاقیتر و نوآورانهتر را تقویت کند.