شواهد و اتهامات
سام پائچ (Sam Paech)، توسعهدهندهای مستقر در ملبورن (Melbourne) که در زمینه ایجاد ارزیابی «هوش هیجانی» برای هوش مصنوعی (AI) تخصص دارد، شواهدی را ارائه کرده است که به نظر او نشان میدهد مدل DeepSeek با استفاده از خروجیهای تولید شده توسط Gemini آموزش داده شده است. پائچ در پستی در X (توئیتر سابق) اشاره کرد که مدل DeepSeek، بهویژه نسخه R1-0528، ترجیحی برای زبان و عباراتی مشابه با موارد مورد علاقه Gemini 2.5 Pro گوگل نشان میدهد.
علاوه بر این، یکی دیگر از توسعهدهندگان که با نام مستعار خالق SpeechMap فعالیت میکند، یک «ارزیابی آزادی بیان» برای هوش مصنوعی، مشاهده کرده است که «افکاری» که مدل DeepSeek در حین کار برای رسیدن به نتیجهگیری تولید میکند، شباهت زیادی به آثار Gemini دارد. این مشاهده لایه دیگری از دسیسه را به این ادعاها اضافه می کند.
این اولین بار نیست که DeepSeek با اتهاماتی مبنی بر استفاده از دادههای مدلهای هوش مصنوعی رقیب مواجه میشود. در دسامبر گذشته، توسعهدهندگان متوجه شدند که مدل V3 DeepSeek اغلب خود را ChatGPT، پلتفرم محبوب چتبات OpenAI معرفی میکند. این نشان میدهد که مدل بر روی گزارشهای چت ChatGPT آموزش داده شده است و نگرانیهایی را در مورد شیوههای استفاده از داده ایجاد میکند.
اتهامات عمیقتر: تقطیر و استخراج داده
اوایل سال جاری، OpenAI با فایننشال تایمز (Financial Times) به اشتراک گذاشت که شواهدی را کشف کرده است که DeepSeek را به استفاده از تکنیکی به نام تقطیر مرتبط میکند. تقطیر شامل آموزش مدلهای هوش مصنوعی با استخراج دادهها از مدلهای بزرگتر و پیچیدهتر است. بلومبرگ (Bloomberg) گزارش داد که مایکروسافت (Microsoft)، یکی از همکاران و سرمایهگذاران اصلی OpenAI، در اواخر سال 2024، استخراج قابلتوجه دادهها از طریق حسابهای توسعهدهنده OpenAI را شناسایی کرده است. OpenAI معتقد است این حسابها به DeepSeek مرتبط هستند.
تقطیر، در حالی که ذاتاً غیراخلاقی نیست، زمانی مشکلساز میشود که شرایط خدمات را نقض کند. شرایط OpenAI صریحاً مشتریان را از استفاده از خروجیهای مدل این شرکت برای توسعه سیستمهای هوش مصنوعی رقیب منع میکند. این امر سؤالات جدی در مورد پایبندی DeepSeek به این شرایط ایجاد میکند.
آبهای گلآلود دادههای آموزش هوش مصنوعی
مهم است که اذعان کنیم که مدلهای هوش مصنوعی اغلب خود را به اشتباه تشخیص میدهند و بر روی کلمات و عبارات مشابه همگرا میشوند. این به دلیل ماهیت وب باز است که به عنوان منبع اصلی دادههای آموزشی برای بسیاری از شرکتهای هوش مصنوعی عمل می کند. وب به طور فزایندهای با محتوای تولید شده توسط هوش مصنوعی اشباع شده است. مزارع محتوا از هوش مصنوعی برای تولید کلیکبیت (clickbait) استفاده میکنند و رباتها پلتفرمهایی مانند Reddit و X را با پستهای تولید شده توسط هوش مصنوعی پر میکنند.
این «آلودگی» فیلتر کردن مؤثر خروجیهای هوش مصنوعی از مجموعههای داده آموزشی را فوقالعاده دشوار میکند و این سؤال را پیچیدهتر میکند که آیا DeepSeek عمداً از دادههای Gemini استفاده کرده است یا خیر.
نظرات و دیدگاههای کارشناسان
با وجود چالشهای اثبات قطعی ادعاها، برخی از کارشناسان هوش مصنوعی بر این باورند که این احتمال وجود دارد که DeepSeek بر روی دادههای Gemini گوگل آموزش دیده باشد. ناتان لمبرت (Nathan Lambert)، محقق مؤسسه تحقیقات هوش مصنوعی غیرانتفاعی AI2، در X اظهار داشت: «اگر من DeepSeek بودم، قطعاً مقادیر زیادی داده مصنوعی از بهترین مدل API تولید میکردم. [DeepSeek] از نظر GPU کمبود دارد و دارای حجم نقدینگی بالایی است. این در واقع برای آنها محاسبات بیشتری دارد.»
دیدگاه لمبرت انگیزههای اقتصادی بالقوه DeepSeek برای استفاده از مدلهای هوش مصنوعی موجود برای افزایش قابلیتهای خود را برجسته میکند، بهویژه با توجه به محدودیتهای منابع آن.
اقدامات امنیتی و اقدامات متقابل
شرکتهای هوش مصنوعی تا حدی برای جلوگیری از اقداماتی مانند تقطیر، اقدامات امنیتی را تشدید کردهاند. OpenAI، در ماه آوریل، شروع به الزام سازمانها برای تکمیل فرآیند تأیید هویت برای دسترسی به مدلهای پیشرفته خاص کرد. این فرآیند شامل ارسال یک شناسه دولتی از کشوری است که توسط API OpenAI پشتیبانی میشود. چین به طور قابل توجهی در این لیست غایب است.
در اقدامی دیگر، گوگل اخیراً شروع به «خلاصه سازی» آثاری کرده است که توسط مدلهای موجود از طریق پلتفرم توسعهدهنده AI Studio تولید میشوند. این اقدام آموزش مدلهای رقیب بر روی آثار Gemini را به طور موثر دشوارتر میکند. به طور مشابه، آنتروپیک (Anthropic) در ماه می اعلام کرد که شروع به خلاصه سازی آثار مدل خود خواهد کرد و به نیاز به محافظت از «مزایای رقابتی» خود استناد کرد. این اقدامات نشان دهنده آگاهی فزاینده از پتانسیل سوء استفاده از خروجیهای مدل هوش مصنوعی و تلاش پیشگیرانه برای کاهش چنین خطراتی است.
پیامدها و عواقب
ادعاهای وارد شده به DeepSeek سؤالات مهمی را در مورد اخلاق و قانونی بودن شیوههای آموزشی هوش مصنوعی ایجاد میکند. اگر DeepSeek واقعاً از دادههای Gemini برای آموزش مدل R1 خود استفاده کرده باشد، ممکن است با پیامدهای قانونی و آسیب به شهرت مواجه شود. این وضعیت همچنین نیاز به شفافیت و تنظیم مقررات بیشتر در صنعت هوش مصنوعی، بهویژه در مورد منبعیابی و استفاده از دادهها را برجسته میکند.
اتهامات علیه DeepSeek بر یک معضل اساسی تأکید میکند: چگونه میتوان بین تمایل به نوآوری و پیشرفت در هوش مصنوعی و نیاز به محافظت از مالکیت معنوی و اطمینان از رقابت منصفانه تعادل ایجاد کرد. صنعت هوش مصنوعی به سرعت در حال تکامل است و دستورالعملهای واضح و چارچوبهای اخلاقی برای پیمایش در چشمانداز پیچیده حقوقی و اخلاقی ضروری است. شرکتها باید در مورد منابع داده خود شفاف بوده و به توافقنامههای شرایط خدمات پایبند باشند تا اعتماد را حفظ کرده و از مسئولیتهای بالقوه قانونی جلوگیری کنند.
علاوه بر این، موضوع آلودگی مجموعههای داده آموزشی با محتوای تولید شده توسط هوش مصنوعی، چالش بزرگی را برای کل جامعه هوش مصنوعی ایجاد می کند. با ماهرتر شدن مدلهای هوش مصنوعی در تولید متون، تصاویر و سایر اشکال قانعکننده محتوا، تشخیص بین دادههای تولید شده توسط انسان و دادههای تولید شده توسط هوش مصنوعی به طور فزایندهای دشوار میشود. این «آلودگی» میتواند منجر به همگنسازی مدلهای هوش مصنوعی شود، جایی که همه آنها شروع به نشان دادن تعصبات و محدودیتهای مشابه میکنند.
برای مقابله با این چالش، شرکتهای هوش مصنوعی باید در تکنیکهای فیلتر کردن داده پیشرفتهتر سرمایهگذاری کرده و منابع داده آموزشی جایگزین را کشف کنند. آنها همچنین باید در مورد ترکیب مجموعههای داده آموزشی خود و روشهای مورد استفاده برای فیلتر کردن محتوای تولید شده توسط هوش مصنوعی شفافتر باشند.
پیمایش در آینده آموزش هوش مصنوعی
اختلاف DeepSeek نیاز فوری به بحث دقیقتر در مورد آینده آموزش هوش مصنوعی را برجسته می کند. با قدرتمندتر شدن مدلهای هوش مصنوعی و کمیابتر شدن دادهها، شرکتها ممکن است وسوسه شوند که میانبر بزنند و در شیوههای غیراخلاقی یا غیرقانونی شرکت کنند. با این حال، چنین شیوههایی در نهایت پایداری و قابلیت اطمینان طولانیمدت صنعت هوش مصنوعی را تضعیف میکنند.
تلاشی مشترک با مشارکت محققان، سیاستگذاران و رهبران صنعت مورد نیاز است تا دستورالعملهای اخلاقی و چارچوبهای قانونی ایجاد شود که توسعه مسئولانه هوش مصنوعی را ترویج کند. این دستورالعملها باید به مسائلی مانند منبعیابی دادهها، شفافیت و پاسخگویی بپردازند. آنها همچنین باید شرکتها را تشویق به سرمایهگذاری در شیوههای آموزشی هوش مصنوعی اخلاقی و پایدار کنند.
ملاحظات کلیدی برای آینده آموزش هوش مصنوعی:
- شفافیت: شرکتها باید در مورد منابع داده مورد استفاده برای آموزش مدلهای هوش مصنوعی خود و روشهای مورد استفاده برای فیلتر کردن محتوای تولید شده توسط هوش مصنوعی شفاف باشند.
- اخلاق: توسعه هوش مصنوعی باید به اصول اخلاقی پایبند باشد که عدالت، پاسخگویی و احترام به مالکیت معنوی را ترویج میکند.
- تنظیم مقررات: سیاستگذاران باید چارچوبهای قانونی واضحی ایجاد کنند که چالشهای منحصربهفرد ناشی از آموزش هوش مصنوعی را برطرف کند.
- همکاری: محققان، سیاستگذاران و رهبران صنعت باید برای ایجاد دستورالعملهای اخلاقی و بهترین شیوهها برای توسعه هوش مصنوعی همکاری کنند.
- تنوع داده: آموزش هوش مصنوعی باید تنوع داده را در اولویت قرار دهد تا تعصب را کاهش داده و عملکرد کلی مدلهای هوش مصنوعی را بهبود بخشد.
- پایداری: آموزش هوش مصنوعی باید به شیوهای پایدار انجام شود و اثرات زیستمحیطی آن را به حداقل برساند.
- امنیت: اقدامات امنیتی باید از مدلهای هوش مصنوعی و دادههای آموزشی در برابر دسترسی و استفاده غیرمجاز محافظت کند.
با پرداختن به این ملاحظات کلیدی، صنعت هوش مصنوعی میتواند اطمینان حاصل کند که توسعه هوش مصنوعی به روشی مسئولانه و اخلاقی انجام میشود و نوآوری را ترویج میکند در حالی که خطرات بالقوه را کاهش میدهد.
مسیر پیش رو
اتهاماتی که به DeepSeek وارد شده است، هشداری برای جامعه هوش مصنوعی است. آنها نیاز مبرم به شفافیت، رفتار اخلاقی و محافظتهای قوی در توسعه هوش مصنوعی را برجسته میکنند. با ادامه نفوذ هوش مصنوعی به جنبههای مختلف زندگی ما، ضروری است که مرزهای مشخصی و دستورالعملهای اخلاقی برای اطمینان از استفاده مسئولانه و سودمند از آن ایجاد کنیم.
پرونده DeepSeek، صرف نظر از نتیجه نهایی آن، بدون شک گفتمان فعلی پیرامون اخلاق هوش مصنوعی را شکل داده و بر مسیر آینده توسعه هوش مصنوعی تأثیر خواهد گذاشت. این یادآوری است که پیگیری نوآوری باید با تعهد به اصول اخلاقی و تشخیص پیامدهای بالقوه اقدامات ما متعادل شود. آینده هوش مصنوعی به توانایی ما در پیمایش در این چالشهای پیچیده با خرد و دوراندیشی بستگی دارد.