مدل هوش مصنوعی DeepSeek: الهام‌گرفته از جمینی؟

دنیا هوش مصنوعی (Artificial Intelligence) از جنجال دور نیست و آخرین تحول مربوط به آزمایشگاه هوش مصنوعی چینی DeepSeek است. اخیراً، DeepSeek نسخه به روز شده مدل استدلال R1 خود را ارائه داد و توانایی های چشمگیری در مقابله با آزمون های استاندارد ریاضی و کدنویسی به نمایش گذاشت. با این حال، منبع داده های مورد استفاده برای آموزش این مدل، بحث قابل توجهی را در میان محققان هوش مصنوعی برانگیخته است، به طوری که برخی حدس می زنند که ممکن است، حداقل تا حدی، از خانواده مدل های هوش مصنوعی Gemini گوگل سرچشمه گرفته باشد. این سوء ظن سوالات مهمی را در مورد شیوه های اخلاقی، منبع یابی داده ها و فضای رقابتی در صنعت هوش مصنوعی ایجاد می کند.

شواهد ارائه شده

این جنجال زمانی آغاز شد که سام پائچ، توسعه‌دهنده‌ای مستقر در ملبورن که در ایجاد ارزیابی‌های «هوش هیجانی» برای سیستم‌های هوش مصنوعی تخصص دارد، آنچه را که مدعی است شواهدی مبنی بر آموزش آخرین مدل DeepSeek بر روی خروجی‌های تولیدشده توسط جمینی است، ارائه کرد. به گفته پائچ، مدل DeepSeek، که با نام R1-0528 شناسایی می‌شود، تمایلی به کلمات و عبارات خاص نشان می‌دهد که به طرز چشمگیری شبیه به عبارات مورد علاقه Gemini 2.5 Pro گوگل است. در حالی که این مشاهده به تنهایی ممکن است قطعی نباشد، اما یک پرچم قرمز را بالا می برد و مستلزم بررسی بیشتر است.

در ادامه این جذابیت، توسعه‌دهنده دیگری که با نام مستعار SpeechMap فعالیت می‌کند و به دلیل ایجاد «ارزیابی آزادی بیان» برای هوش مصنوعی شناخته می‌شود، اشاره کرد که ردپای مدل DeepSeek - «افکاری» که هنگام کار برای رسیدن به یک نتیجه ایجاد می‌کند - “شبیه ردپای جمینی است.” این همگرایی الگوهای زبانی و فرآیندهای فکری، بیشتر این سوء ظن را تقویت می کند که DeepSeek ممکن است از خروجی های جمینی در طول فرآیند آموزش استفاده کرده باشد.

اتهامات قبلی علیه DeepSeek

این اولین بار نیست که DeepSeek با اتهام آموزش مدل های هوش مصنوعی خود بر روی داده های سیستم های هوش مصنوعی رقیب مواجه می شود. در دسامبر گذشته، توسعه دهندگان متوجه شدند که مدل V3 DeepSeek اغلب خود را به عنوان ChatGPT، پلتفرم چت بات مجهز به هوش مصنوعی OpenAI شناسایی می کند. این رفتار عجیب نشان می‌دهد که مدل ممکن است بر روی گزارش‌های چت ChatGPT آموزش داده شده باشد، و نگرانی‌ها را در مورد پیامدهای اخلاقی چنین رویه‌ای افزایش می‌دهد.

در اوایل سال جاری، OpenAI به فایننشال تایمز اطلاع داد که شواهدی را کشف کرده است که DeepSeek را به استفاده از تقطیر مرتبط می‌کند، تکنیکی که شامل آموزش مدل‌های هوش مصنوعی از طریق استخراج داده‌ها از مدل‌های بزرگ‌تر و توانمندتر است. علاوه بر این، مایکروسافت، یک همکار و سرمایه‌گذار کلیدی در OpenAI، مقادیر قابل توجهی از داده‌ها را که از طریق حساب‌های توسعه‌دهنده OpenAI در اواخر سال 2024 به بیرون درز می‌کرد، کشف کرد. OpenAI معتقد است که این حساب ها با DeepSeek مرتبط هستند، و این سوء ظن استخراج غیرمجاز داده را بیشتر تقویت می کند.

در حالی که تقطیر ذاتاً غیراخلاقی نیست، شرایط خدمات OpenAI صریحاً مشتریان را از استفاده از خروجی های مدل این شرکت برای ساخت سیستم های هوش مصنوعی رقیب منع می کند. این محدودیت با هدف محافظت از مالکیت معنوی OpenAI و حفظ یک محیط رقابتی عادلانه در صنعت هوش مصنوعی است. اگر DeepSeek در واقع از تقطیر برای آموزش مدل R1 خود بر روی خروجی های جمینی استفاده کرده باشد، این امر نقض شرایط خدمات OpenAI تلقی شده و نگرانی های جدی اخلاقی را ایجاد می کند.

چالش های آلودگی داده ها

توجه به این نکته مهم است که بسیاری از مدل‌های هوش مصنوعی تمایل به اشتباه شناسایی خود و همگرایی بر روی کلمات و عبارات مشابه دارند. این پدیده را می توان به افزایش حضور محتوای تولید شده توسط هوش مصنوعی در وب باز نسبت داد، که به عنوان منبع اصلی داده های آموزشی برای شرکت های هوش مصنوعی عمل می کند. مزارع محتوا از هوش مصنوعی برای ایجاد مقالات کلیک‌خور استفاده می‌کنند، و ربات‌ها پلتفرم‌هایی مانند Reddit و X را با پست‌های تولید شده توسط هوش مصنوعی پر می‌کنند.

این “آلودگی” وب با محتوای تولید شده توسط هوش مصنوعی یک چالش مهم برای شرکت های هوش مصنوعی ایجاد می کند، و فیلتر کردن کامل خروجی های هوش مصنوعی از مجموعه داده های آموزشی را فوق العاده دشوار می کند. در نتیجه، مدل‌های هوش مصنوعی ممکن است ناخواسته از یکدیگر یاد بگیرند، که منجر به شباهت‌های مشاهده شده در زبان و فرآیندهای فکری می‌شود.

نظرات و دیدگاه های متخصصان

علیرغم چالش‌های آلودگی داده‌ها، کارشناسان هوش مصنوعی مانند ناتان لمبرت، محققی در موسسه تحقیقاتی غیرانتفاعی هوش مصنوعی AI2، معتقدند که غیرممکن نیست که DeepSeek بر روی داده‌های جمینی گوگل آموزش دیده باشد. لمبرت پیشنهاد می‌کند که DeepSeek، با کمبود پردازنده‌های گرافیکی (GPU) مواجه است اما منابع مالی فراوانی دارد، ممکن است تصمیم گرفته باشد داده‌های مصنوعی را از بهترین مدل API موجود تولید کند. به نظر او، این رویکرد می تواند از نظر محاسباتی برای DeepSeek کارآمدتر باشد.

دیدگاه لمبرت ملاحظات عملی را برجسته می کند که ممکن است شرکت های هوش مصنوعی را به بررسی استراتژی های جایگزین منبع یابی داده ها سوق دهد. در حالی که استفاده از داده های مصنوعی می تواند یک تکنیک قانونی و موثر باشد، بسیار مهم است که اطمینان حاصل شود که داده ها به صورت اخلاقی تولید می شوند و هیچ شرایط خدماتی یا دستورالعمل های اخلاقی را نقض نمی کنند.

اقدامات امنیتی و تلاش های پیشگیرانه

در پاسخ به نگرانی های مربوط به تقطیر و آلودگی داده ها، شرکت های هوش مصنوعی اقدامات امنیتی خود را افزایش داده اند. به عنوان مثال، OpenAI یک الزام برای سازمان ها برای تکمیل فرآیند تایید هویت (ID) به منظور دسترسی به مدل های پیشرفته خاص اجرا کرده است. این فرآیند مستلزم ارائه شناسه صادر شده توسط دولت از یکی از کشورهای پشتیبانی شده توسط API OpenAI است و چین را از این فهرست مستثنی می کند.

گوگل نیز اقداماتی را برای کاهش خطر تقطیر با “خلاصه کردن” ردپای تولید شده توسط مدل های موجود از طریق پلتفرم توسعه دهنده AI Studio خود انجام داده است. این فرآیند خلاصه سازی، آموزش مدل های رقیب پرفرمنس را بر روی ردپای جمینی دشوارتر می کند. به طور مشابه، آنتروپیک در ماه می اعلام کرد که خلاصه کردن ردپای مدل خود را آغاز خواهد کرد و به نیاز به محافظت از “مزایای رقابتی” خود اشاره کرد.

این اقدامات امنیتی نشان دهنده یک تلاش هماهنگ توسط شرکت های هوش مصنوعی برای محافظت از مالکیت معنوی خود و جلوگیری از استخراج غیرمجاز داده است. با اجرای کنترل‌های دسترسی دقیق‌تر و مبهم کردن ردپای مدل، هدف آنها جلوگیری از شیوه‌های غیراخلاقی و حفظ یک زمین بازی برابر در صنعت هوش مصنوعی است.

پاسخ گوگل

هنگامی که برای اظهار نظر با گوگل تماس گرفته شد، هنوز پاسخی به این اتهامات نداده است. این سکوت فضا را برای گمانه زنی باز می گذارد و بیشتر به این جنجال دامن می زند. در حالی که جامعه هوش مصنوعی منتظر بیانیه رسمی از گوگل است، سوالات مربوط به شیوه های منبع یابی داده های DeepSeek همچنان باقی است.

پیامدهای صنعت هوش مصنوعی

جنجال DeepSeek سوالات اساسی را در مورد مرزهای اخلاقی توسعه هوش مصنوعی و اهمیت منبع یابی مسئولانه داده ها مطرح می کند. از آنجایی که مدل های هوش مصنوعی به طور فزاینده ای پیشرفته و توانا می شوند، وسوسه دور زدن و استفاده از داده های غیرمجاز ممکن است قوی تر شود. با این حال، چنین شیوه هایی می تواند پیامدهای مضری داشته باشد، یکپارچگی صنعت هوش مصنوعی را تضعیف کند و اعتماد عمومی را از بین می برد.

برای اطمینان از پایداری بلندمدت و توسعه اخلاقی هوش مصنوعی، ضروری است که شرکت های هوش مصنوعی به دستورالعمل های اخلاقی سختگیرانه پایبند باشند و شیوه های مسئولانه منبع یابی داده ها را در اولویت قرار دهند. این شامل کسب رضایت صریح از ارائه دهندگان داده، احترام به حقوق مالکیت معنوی و اجتناب از استفاده از داده های غیرمجاز یا دارای سوگیری است.

علاوه بر این، شفافیت و پاسخگویی بیشتری در صنعت هوش مصنوعی مورد نیاز است. شرکت های هوش مصنوعی باید در مورد شیوه های منبع یابی داده ها و روش های مورد استفاده برای آموزش مدل های خود صریح تر باشند. این افزایش شفافیت به تقویت اعتماد و اطمینان به سیستم های هوش مصنوعی کمک می کند و یک اکوسیستم هوش مصنوعی اخلاقی تر و مسئولانه تر را ترویج می کند.

جنجال DeepSeek به عنوان یک یادآوری به موقع از چالش ها و ملاحظات اخلاقی است که باید با پیشرفت فناوری هوش مصنوعی مورد توجه قرار گیرند. با رعایت اصول اخلاقی، ترویج شفافیت و تقویت همکاری، جامعه هوش مصنوعی می تواند اطمینان حاصل کند که از هوش مصنوعی به نفع جامعه استفاده می شود و نه به قیمت ارزش های اخلاقی.

بررسی عمیق جنبه های فنی

برای درک بیشتر تفاوت های ظریف این موضوع، ضروری است که به جنبه های فنی نحوه آموزش مدل های هوش مصنوعی و تکنیک های خاص مورد نظر، یعنی تقطیر و تولید داده های مصنوعی، بپردازیم.

تقطیر: شبیه سازی هوش؟

تقطیر، در زمینه هوش مصنوعی، به یک تکنیک فشرده سازی مدل اشاره دارد که در آن یک مدل “دانش آموز” کوچکتر و کارآمدتر آموزش داده می شود تا رفتار یک مدل “معلم” بزرگتر و پیچیده تر را تقلید کند. مدل دانش آموز با مشاهده خروجی های مدل معلم یاد می گیرد، به طور موثر دانش را استخراج کرده و آن را به یک معماری کوچکتر منتقل می کند. در حالی که تقطیر می تواند برای استقرار مدل های هوش مصنوعی بر روی دستگاه های محدود از نظر منابع مفید باشد، اما هنگامی که داده ها یا معماری مدل معلم اختصاصی هستند، نگرانی های اخلاقی را ایجاد می کند.

اگر DeepSeek از خروجی های جمینی برای آموزش مدل R1 خود از طریق تقطیر بدون اجازه استفاده کرده باشد، این شبیه به شبیه سازی هوش جمینی و نقض احتمالی حقوق مالکیت معنوی گوگل خواهد بود. نکته کلیدی در اینجا استفاده غیرمجاز از خروجی های جمینی است که توسط قانون کپی رایت و سایر مکانیسم های قانونی محافظت می شود.

تولید داده های مصنوعی: شمشیری دولبه

تولید داده های مصنوعی شامل ایجاد نقاط داده مصنوعی است که شبیه داده های دنیای واقعی هستند. این تکنیک اغلب برای افزایش مجموعه داده های آموزشی استفاده می شود، به خصوص زمانی که داده های واقعی کمیاب یا گران قیمت برای به دست آوردن هستند. با این حال، کیفیت و پیامدهای اخلاقی داده های مصنوعی به شدت به نحوه تولید آن بستگی دارد.

اگر DeepSeek از API جمینی برای تولید داده های مصنوعی استفاده کرده باشد، این سوال مطرح می شود: این داده ها چقدر شبیه به خروجی های واقعی جمینی هستند و آیا به حقوق مالکیت معنوی گوگل تجاوز می کند؟ اگر داده‌های مصنوعی صرفاً از جمینی الهام گرفته شده باشند اما مستقیماً خروجی‌های آن را تکرار نکنند، ممکن است استفاده منصفانه تلقی شود. با این حال، اگر داده‌های مصنوعی عملاً از خروجی‌های جمینی قابل تشخیص نباشند، می‌تواند نگرانی‌های مشابهی را با تقطیر ایجاد کند.

پیامدهای بیش برازش مدل

یکی دیگر از نگرانی های مربوطه، بیش برازش مدل است. بیش برازش زمانی رخ می دهد که یک مدل داده های آموزشی را خیلی خوب یاد می گیرد، به طوری که عملکرد ضعیفی روی داده های جدید و دیده نشده دارد. اگر DeepSeek مدل R1 خود را بیش از حد بر روی خروجی های جمینی آموزش داده باشد، می تواند منجر به بیش برازش شود، جایی که مدل اساساً پاسخ های جمینی را به جای تعمیم به موقعیت های جدید حفظ می کند.

این نوع بیش برازش نه تنها کاربردپذیری مدل R1 را محدود می کند، بلکه تشخیص تکیه آن به داده های جمینی را آسان تر می کند. “ردپاهایی” که SpeechMap به آن اشاره کرد، می تواند شاهدی بر این بیش برازش باشد، جایی که مدل R1 اساساً الگوهای آموخته شده از خروجی های جمینی را بازنویسی می کند.

ملاحظات اخلاقی و بهترین شیوه های صنعت

فراتر از جنبه های فنی، این جنجال نیاز به دستورالعمل های اخلاقی روشن و بهترین شیوه های صنعت برای توسعه هوش مصنوعی را برجسته می کند. برخی از اصول کلیدی عبارتند از:

  • شفافیت: شرکت های هوش مصنوعی باید در مورد منابع داده و روش های آموزش خود شفاف باشند. این امکان ممیزی و تأیید مستقل را فراهم می کند.
  • رضایت: شرکت های هوش مصنوعی باید قبل از استفاده از داده های خود برای آموزش، رضایت صریح را از ارائه دهندگان داده دریافت کنند. این شامل احترام به حقوق مالکیت معنوی و اجتناب از خراش دادن غیرمجاز داده ها است.
  • انصاف: مدل های هوش مصنوعی باید منصفانه و بدون سوگیری باشند. این امر مستلزم توجه دقیق به تنوع داده ها و کاهش سوگیری الگوریتمی است.
  • پاسخگویی: شرکت های هوش مصنوعی باید در قبال اقدامات مدل های هوش مصنوعی خود پاسخگو باشند. این شامل ایجاد چارچوب های مسئولیت پذیری شفاف و رسیدگی به آسیب های ناشی از سیستم های هوش مصنوعی است.
  • امنیت: شرکت های هوش مصنوعی باید امنیت مدل های هوش مصنوعی و داده های خود را در اولویت قرار دهند. این شامل محافظت در برابر دسترسی غیرمجاز و جلوگیری از نقض داده ها است.

نقش نظارت

علاوه بر دستورالعمل های اخلاقی و بهترین شیوه های صنعت، نظارت ممکن است برای رسیدگی به چالش های ناشی از توسعه هوش مصنوعی ضروری باشد. برخی از اقدامات نظارتی بالقوه عبارتند از:

  • قوانین حفظ حریم خصوصی داده ها: قوانینی که از داده های افراد محافظت می کند و استفاده از اطلاعات شخصی برای آموزش هوش مصنوعی را محدود می کند.
  • قوانین مالکیت معنوی: قوانینی که از مدل های هوش مصنوعی و داده ها در برابر کپی برداری و توزیع غیرمجاز محافظت می کند.
  • قوانین رقابت: قوانینی که از رفتار ضد رقابتی در صنعت هوش مصنوعی جلوگیری می کند، مانند انباشت داده ها و دسترسی ناعادلانه به منابع.
  • مقررات ایمنی: مقرراتی که ایمنی و قابلیت اطمینان سیستم های هوش مصنوعی مورد استفاده در برنامه های کاربردی حیاتی را تضمین می کند.

با ترکیب دستورالعمل های اخلاقی، بهترین شیوه های صنعت و نظارت مناسب، می توانیم یک اکوسیستم هوش مصنوعی مسئولانه تر و پایدارتر ایجاد کنیم که به ن سود جامعه باشد. جنجال DeepSeek به عنوان یک زنگ بیدارباش عمل می کند و ما را بر این می دارد که به طور فعال به این چالش ها رسیدگی کنیم و اطمینان حاصل کنیم که هوش مصنوعی به نحوی توسعه می یابد که با ارزش ها و اصول ما همسو باشد.