بررسی آموزش هوش مصنوعی DeepSeek: آیا Gemini نقش داشته؟

شواهد و اتهامات

سام پائچ (Sam Paech)، توسعه‌دهنده‌ای مستقر در ملبورن (Melbourne) که در زمینه ایجاد ارزیابی «هوش هیجانی» برای هوش مصنوعی (AI) تخصص دارد، شواهدی را ارائه کرده است که به نظر او نشان می‌دهد مدل DeepSeek با استفاده از خروجی‌های تولید شده توسط Gemini آموزش داده شده است. پائچ در پستی در X (توئیتر سابق) اشاره کرد که مدل DeepSeek، به‌ویژه نسخه R1-0528، ترجیحی برای زبان و عباراتی مشابه با موارد مورد علاقه Gemini 2.5 Pro گوگل نشان می‌دهد.

علاوه بر این، یکی دیگر از توسعه‌دهندگان که با نام مستعار خالق SpeechMap فعالیت می‌کند، یک «ارزیابی آزادی بیان» برای هوش مصنوعی، مشاهده کرده است که «افکاری» که مدل DeepSeek در حین کار برای رسیدن به نتیجه‌گیری تولید می‌کند، شباهت زیادی به آثار Gemini دارد. این مشاهده لایه دیگری از دسیسه را به این ادعاها اضافه می کند.

این اولین بار نیست که DeepSeek با اتهاماتی مبنی بر استفاده از داده‌های مدل‌های هوش مصنوعی رقیب مواجه می‌شود. در دسامبر گذشته، توسعه‌دهندگان متوجه شدند که مدل V3 DeepSeek اغلب خود را ChatGPT، پلتفرم محبوب چت‌بات OpenAI معرفی می‌کند. این نشان می‌دهد که مدل بر روی گزارش‌های چت ChatGPT آموزش داده شده است و نگرانی‌هایی را در مورد شیوه‌های استفاده از داده ایجاد می‌کند.

اتهامات عمیق‌تر: تقطیر و استخراج داده

اوایل سال جاری، OpenAI با فایننشال تایمز (Financial Times) به اشتراک گذاشت که شواهدی را کشف کرده است که DeepSeek را به استفاده از تکنیکی به نام تقطیر مرتبط می‌کند. تقطیر شامل آموزش مدل‌های هوش مصنوعی با استخراج داده‌ها از مدل‌های بزرگ‌تر و پیچیده‌تر است. بلومبرگ (Bloomberg) گزارش داد که مایکروسافت (Microsoft)، یکی از همکاران و سرمایه‌گذاران اصلی OpenAI، در اواخر سال 2024، استخراج قابل‌توجه داده‌ها از طریق حساب‌های توسعه‌دهنده OpenAI را شناسایی کرده است. OpenAI معتقد است این حساب‌ها به DeepSeek مرتبط هستند.

تقطیر، در حالی که ذاتاً غیراخلاقی نیست، زمانی مشکل‌ساز می‌شود که شرایط خدمات را نقض کند. شرایط OpenAI صریحاً مشتریان را از استفاده از خروجی‌های مدل این شرکت برای توسعه سیستم‌های هوش مصنوعی رقیب منع می‌کند. این امر سؤالات جدی در مورد پایبندی DeepSeek به این شرایط ایجاد می‌کند.

آب‌های گل‌آلود داده‌های آموزش هوش مصنوعی

مهم است که اذعان کنیم که مدل‌های هوش مصنوعی اغلب خود را به اشتباه تشخیص می‌دهند و بر روی کلمات و عبارات مشابه همگرا می‌شوند. این به دلیل ماهیت وب باز است که به عنوان منبع اصلی داده‌های آموزشی برای بسیاری از شرکت‌های هوش مصنوعی عمل می کند. وب به طور فزاینده‌ای با محتوای تولید شده توسط هوش مصنوعی اشباع شده است. مزارع محتوا از هوش مصنوعی برای تولید کلیک‌بیت (clickbait) استفاده می‌کنند و ربات‌ها پلتفرم‌هایی مانند Reddit و X را با پست‌های تولید شده توسط هوش مصنوعی پر می‌کنند.

این «آلودگی» فیلتر کردن مؤثر خروجی‌های هوش مصنوعی از مجموعه‌های داده آموزشی را فوق‌العاده دشوار می‌کند و این سؤال را پیچیده‌تر می‌کند که آیا DeepSeek عمداً از داده‌های Gemini استفاده کرده است یا خیر.

نظرات و دیدگاه‌های کارشناسان

با وجود چالش‌های اثبات قطعی ادعاها، برخی از کارشناسان هوش مصنوعی بر این باورند که این احتمال وجود دارد که DeepSeek بر روی داده‌های Gemini گوگل آموزش دیده باشد. ناتان لمبرت (Nathan Lambert)، محقق مؤسسه تحقیقات هوش مصنوعی غیرانتفاعی AI2، در X اظهار داشت: «اگر من DeepSeek بودم، قطعاً مقادیر زیادی داده مصنوعی از بهترین مدل API تولید می‌کردم. [DeepSeek] از نظر GPU کمبود دارد و دارای حجم نقدینگی بالایی است. این در واقع برای آنها محاسبات بیشتری دارد.»

دیدگاه لمبرت انگیزه‌های اقتصادی بالقوه DeepSeek برای استفاده از مدل‌های هوش مصنوعی موجود برای افزایش قابلیت‌های خود را برجسته می‌کند، به‌ویژه با توجه به محدودیت‌های منابع آن.

اقدامات امنیتی و اقدامات متقابل

شرکت‌های هوش مصنوعی تا حدی برای جلوگیری از اقداماتی مانند تقطیر، اقدامات امنیتی را تشدید کرده‌اند. OpenAI، در ماه آوریل، شروع به الزام سازمان‌ها برای تکمیل فرآیند تأیید هویت برای دسترسی به مدل‌های پیشرفته خاص کرد. این فرآیند شامل ارسال یک شناسه دولتی از کشوری است که توسط API OpenAI پشتیبانی می‌شود. چین به طور قابل توجهی در این لیست غایب است.

در اقدامی دیگر، گوگل اخیراً شروع به «خلاصه سازی» آثاری کرده است که توسط مدل‌های موجود از طریق پلتفرم توسعه‌دهنده AI Studio تولید می‌شوند. این اقدام آموزش مدل‌های رقیب بر روی آثار Gemini را به طور موثر دشوارتر می‌کند. به طور مشابه، آنتروپیک (Anthropic) در ماه می اعلام کرد که شروع به خلاصه سازی آثار مدل خود خواهد کرد و به نیاز به محافظت از «مزایای رقابتی» خود استناد کرد. این اقدامات نشان دهنده آگاهی فزاینده از پتانسیل سوء استفاده از خروجی‌های مدل هوش مصنوعی و تلاش پیشگیرانه برای کاهش چنین خطراتی است.

پیامدها و عواقب

ادعاهای وارد شده به DeepSeek سؤالات مهمی را در مورد اخلاق و قانونی بودن شیوه‌های آموزشی هوش مصنوعی ایجاد می‌کند. اگر DeepSeek واقعاً از داده‌های Gemini برای آموزش مدل R1 خود استفاده کرده باشد، ممکن است با پیامدهای قانونی و آسیب به شهرت مواجه شود. این وضعیت همچنین نیاز به شفافیت و تنظیم مقررات بیشتر در صنعت هوش مصنوعی، به‌ویژه در مورد منبع‌یابی و استفاده از داده‌ها را برجسته می‌کند.

اتهامات علیه DeepSeek بر یک معضل اساسی تأکید می‌کند: چگونه می‌توان بین تمایل به نوآوری و پیشرفت در هوش مصنوعی و نیاز به محافظت از مالکیت معنوی و اطمینان از رقابت منصفانه تعادل ایجاد کرد. صنعت هوش مصنوعی به سرعت در حال تکامل است و دستورالعمل‌های واضح و چارچوب‌های اخلاقی برای پیمایش در چشم‌انداز پیچیده حقوقی و اخلاقی ضروری است. شرکت‌ها باید در مورد منابع داده خود شفاف بوده و به توافق‌نامه‌های شرایط خدمات پایبند باشند تا اعتماد را حفظ کرده و از مسئولیت‌های بالقوه قانونی جلوگیری کنند.

علاوه بر این، موضوع آلودگی مجموعه‌های داده آموزشی با محتوای تولید شده توسط هوش مصنوعی، چالش بزرگی را برای کل جامعه هوش مصنوعی ایجاد می کند. با ماهرتر شدن مدل‌های هوش مصنوعی در تولید متون، تصاویر و سایر اشکال قانع‌کننده محتوا، تشخیص بین داده‌های تولید شده توسط انسان و داده‌های تولید شده توسط هوش مصنوعی به طور فزاینده‌ای دشوار می‌شود. این «آلودگی» می‌تواند منجر به همگن‌سازی مدل‌های هوش مصنوعی شود، جایی که همه آنها شروع به نشان دادن تعصبات و محدودیت‌های مشابه می‌کنند.

برای مقابله با این چالش، شرکت‌های هوش مصنوعی باید در تکنیک‌های فیلتر کردن داده پیشرفته‌تر سرمایه‌گذاری کرده و منابع داده آموزشی جایگزین را کشف کنند. آنها همچنین باید در مورد ترکیب مجموعه‌های داده آموزشی خود و روش‌های مورد استفاده برای فیلتر کردن محتوای تولید شده توسط هوش مصنوعی شفاف‌تر باشند.

پیمایش در آینده آموزش هوش مصنوعی

اختلاف DeepSeek نیاز فوری به بحث دقیق‌تر در مورد آینده آموزش هوش مصنوعی را برجسته می کند. با قدرتمندتر شدن مدل‌های هوش مصنوعی و کمیاب‌تر شدن داده‌ها، شرکت‌ها ممکن است وسوسه شوند که میانبر بزنند و در شیوه‌های غیراخلاقی یا غیرقانونی شرکت کنند. با این حال، چنین شیوه‌هایی در نهایت پایداری و قابلیت اطمینان طولانی‌مدت صنعت هوش مصنوعی را تضعیف می‌کنند.

تلاشی مشترک با مشارکت محققان، سیاست‌گذاران و رهبران صنعت مورد نیاز است تا دستورالعمل‌های اخلاقی و چارچوب‌های قانونی ایجاد شود که توسعه مسئولانه هوش مصنوعی را ترویج کند. این دستورالعمل‌ها باید به مسائلی مانند منبع‌یابی داده‌ها، شفافیت و پاسخگویی بپردازند. آنها همچنین باید شرکت‌ها را تشویق به سرمایه‌گذاری در شیوه‌های آموزشی هوش مصنوعی اخلاقی و پایدار کنند.

ملاحظات کلیدی برای آینده آموزش هوش مصنوعی:

  • شفافیت: شرکت‌ها باید در مورد منابع داده مورد استفاده برای آموزش مدل‌های هوش مصنوعی خود و روش‌های مورد استفاده برای فیلتر کردن محتوای تولید شده توسط هوش مصنوعی شفاف باشند.
  • اخلاق: توسعه هوش مصنوعی باید به اصول اخلاقی پایبند باشد که عدالت، پاسخگویی و احترام به مالکیت معنوی را ترویج می‌کند.
  • تنظیم مقررات: سیاست‌گذاران باید چارچوب‌های قانونی واضحی ایجاد کنند که چالش‌های منحصربه‌فرد ناشی از آموزش هوش مصنوعی را برطرف کند.
  • همکاری: محققان، سیاست‌گذاران و رهبران صنعت باید برای ایجاد دستورالعمل‌های اخلاقی و بهترین شیوه‌ها برای توسعه هوش مصنوعی همکاری کنند.
  • تنوع داده: آموزش هوش مصنوعی باید تنوع داده را در اولویت قرار دهد تا تعصب را کاهش داده و عملکرد کلی مدل‌های هوش مصنوعی را بهبود بخشد.
  • پایداری: آموزش هوش مصنوعی باید به شیوه‌ای پایدار انجام شود و اثرات زیست‌محیطی آن را به حداقل برساند.
  • امنیت: اقدامات امنیتی باید از مدل‌های هوش مصنوعی و داده‌های آموزشی در برابر دسترسی و استفاده غیرمجاز محافظت کند.

با پرداختن به این ملاحظات کلیدی، صنعت هوش مصنوعی می‌تواند اطمینان حاصل کند که توسعه هوش مصنوعی به روشی مسئولانه و اخلاقی انجام می‌شود و نوآوری را ترویج می‌کند در حالی که خطرات بالقوه را کاهش می‌دهد.

مسیر پیش رو

اتهاماتی که به DeepSeek وارد شده است، هشداری برای جامعه هوش مصنوعی است. آنها نیاز مبرم به شفافیت، رفتار اخلاقی و محافظت‌های قوی در توسعه هوش مصنوعی را برجسته می‌کنند. با ادامه نفوذ هوش مصنوعی به جنبه‌های مختلف زندگی ما، ضروری است که مرزهای مشخصی و دستورالعمل‌های اخلاقی برای اطمینان از استفاده مسئولانه و سودمند از آن ایجاد کنیم.

پرونده DeepSeek، صرف نظر از نتیجه نهایی آن، بدون شک گفتمان فعلی پیرامون اخلاق هوش مصنوعی را شکل داده و بر مسیر آینده توسعه هوش مصنوعی تأثیر خواهد گذاشت. این یادآوری است که پیگیری نوآوری باید با تعهد به اصول اخلاقی و تشخیص پیامدهای بالقوه اقدامات ما متعادل شود. آینده هوش مصنوعی به توانایی ما در پیمایش در این چالش‌های پیچیده با خرد و دوراندیشی بستگی دارد.