ڈیپ سیک کی اے آئی ٹریننگ پر سوالات: کیا گوگل کے جیمنی کا حصہ ہے؟
حالیہ قیاس آرائیوں نے جنم لیا ہے کہ چینی اے آئی لیبارٹری ڈیپ سیک نے اپنے تازہ ترین تکرار ، آر 1 استدلال اے آئی ماڈل کو تربیت دینے کے لئے گوگل کے جیمنی اے آئی ماڈل سے ڈیٹا استعمال کیا ہوگا۔ اس ماڈل نے ریاضی اور کوڈنگ معیار میں عمدہ کارکردگی کا مظاہرہ کیا ہے۔ اگرچہ ڈیپ سیک آر 1 کو تربیت دینے کے لئے استعمال ہونے والے اعداد و شمار کے ذرائع کے بارے میں خاموش ہے ، لیکن متعدد اے آئی محققین نے تجویز پیش کی ہے کہ جیمنی ، یا کم از کم جیمنی کے کچھ حصوں نے اس میں کردار ادا کیا ہے۔
ثبوت اور الزامات
سیم پیچ ، میلبورن میں مقیم ایک ڈویلپر جو اے آئی کے لئے “جذباتی ذہانت” کی تشخیصات بنانے میں مہارت رکھتے ہیں ، نے وہ ثبوت پیش کیا ہے جس کا وہ یقین رکھتے ہیں کہ ڈیپ سیک ماڈل کو جیمنی کے ذریعہ تیار کردہ نتائج کا استعمال کرتے ہوئے تربیت دی گئی تھی۔ پیچ نے ایکس (سابقہ ٹویٹر) پر ایک پوسٹ میں نوٹ کیا کہ ڈیپ سیک کا ماڈل ، خاص طور پر آر 1-0528 ورژن ، گوگل کے جیمنی 2.5 پرو کے ذریعہ پسند کی جانے والی زبان اور تاثرات کو ترجیح دیتا ہے۔
مزید برآں ، ایک اور ڈویلپر ، جو स्पीच میپ کے تخلیق کار کے تخلص کے تحت چل رہا ہے ، جو اے آئی کے لئے “آزاد تقریر ایوال” ہے ، نے مشاہدہ کیا ہے کہ ڈیپ سیک ماڈل کے ذریعہ تیار کردہ “خیالات” جس طرح سے یہ نتائج کی طرف کام کرتا ہے وہ جیمنی ٹریس سے ملتا جلتا ہے۔ اس مشاہدے سے دعووں میں ایک اور تہہ کا اضافہ ہوتا ہے۔
یہ پہلی بار نہیں ہے کہ ڈیپ سیک کو حریف اے آئی ماڈلز سے ڈیٹا فائدہ اٹھانے کے الزامات کا سامنا کرنا پڑا ہے۔ دسمبر میں ، ڈویلپرز نے دیکھا کہ ڈیپ سیک کا وی 3 ماڈل اکثر خود کو اوپن اے آئی کے مقبول چیٹ بوٹ پلیٹ فارم چیٹ جی پی ٹی کے طور پر شناخت کرتا ہے۔ اس سے معلوم ہوا کہ ماڈل کو چیٹ جی پی ٹی چیٹ لاگز پر تربیت دی گئی ہے ، جس سے اعداد و شمار کے استعمال کے طریقوں کے بارے میں خدشات پیدا ہوتے ہیں۔
گہرے الزامات: کشیدگی اور ڈیٹا کا اخراج
اس سال کے شروع میں ، اوپن اے آئی نے فنانشل ٹائمز کے ساتھ شیئر کیا تھا کہ انہوں نے ڈیپ سیک کو کشیدگی نامی تکنیک کے استعمال سے جوڑنے والے ثبوت دریافت کیے ہیں۔ کشیدگی میں بڑے ، زیادہ جدید ماڈلز سے डेटा نکال کر اے آئی ماڈلز کو تربیت دینا شامل ہے۔ بلوم برگ نے اطلاع دی ہے کہ مائیکروسافٹ ، اوپن اے آئی میں ایک اہم सहयोगी اور سرمایہ کار ، نے 2024 کے آخر میں اوپن اے आई ڈویلپر اکاؤنٹس کے ذریعے ڈیٹا کا نمایاں اخراج دریافت کیا تھا۔ ओpenAI کا ماننا ہے کہ یہ اکاؤنٹس ڈیپ سیک سے جڑے ہوئے ہیں۔
کشیدگی ، اگرچہ فطری طور پر غیر اخلاقی نہیں ہے ، اس وقت مسئلہ بن جاتی ہے جب اس سے خدمات کی شرائط کی خلاف ورزی ہوتی ہے۔ ओpenAI की شرائط واضح طور پر صارفین کو کمپنی کے ماڈل आउटपुट کو حریف اے آئی سسٹم تیار کرنے کے لئے استعمال करने سے منع کرتی ہیں۔ اس سے ان شرائط پر ڈیپ سیک کے عمل پیرا ہونے کے بارے میں سنگین سوالات پیدا ہوتے ہیں۔
اے آئی ٹریننگ ڈیٹا کے دبیز پانی
اس باتကို تسليم کرنا ضروری ہے کہ اے آئی ماڈل اکثر خود کو غلط شناخت کرتے ہیں اور ملتے جلتے الفاظ اور فقروں پر مبنی ہوتے ہیں۔ اس کی وجہ کھلی ویب کی نوعیت ہے ، جو بہت सी اے آئی کمپنیوں کے لئے تربیتی ڈیٹا کا بنیادی ذریعہ ہے۔ यह वेब تیزی से اے آئی سے تیار کردہ مواد سے سیر ہو رہا ہے۔ مواد کے फार्म اےआई کا उपयोग क्लिकबैट تیار करने के लिए کر رہے ہیں ، اور बॉट ریڈڈٹ اور ایکس جیسے پلیٹ فارمز کو اے आई से تیار کردہ پوسٹوں से بھر رہے ہیں۔
یہ “آلودگی” تربیتی ڈیٹا سیٹوں سے اے آئی आउटपुट کو مؤثر طریقے سے فلٹر کرنا ناقابل یقین حد تک مشکل بنا دیتا ہے ، مزید برآں اس सवाल को پیچیدہ بنا دیتا ہے کہ کیا ڈیپ سیک نے جان بوجھ کر جیمنی ڈیٹا استعمال کیا۔
ماہرین کی رائے اور نقطہ نظر
دعووں کو واضح طور پر ثابت کرنے میں درپیش چیلنجوں کے باوجود ، کچھ اے آئی ماہرین کا ماننا ہے کہ یہ قابل فہم ہے کہ ڈیپ سیک نے گوگل کے جیمنی سے ڈیٹا پر تربیت حاصل کی۔ غیر منفعتی اے आई रिसर्च انسٹی ٹیوٹ اے آئی 2 میں ایک محقق ناتھن لیمبرٹ نے ایکس پر کہا ، “اگر میں ڈیپ سیک ہوتا تو میں निश्चित طور پر بہترین एपीआई ماڈل سے सिंथेटिक डेटा کی ایک ٹن बनाता۔ [ڈیپ سیک के पास] جی پی یو کم ہیں और نقدی میں богаты ہے۔ यह सचमुच प्रभावी रूप سے उनके लिए अधिक संगणना है। “
لیمبرٹ کے نقطہ نظر سے ڈیپ सेक को اپنی صلاحیتوں को بڑھانے के लिए موجودہ एआई मॉडल को लाभ उठाने के लिए संभावित आर्थिक ప్రోਤساہن को اجاگر کیا گیا ہے ، خاص طور پر اس کی وسائل کی رکاوٹوں کے پیش نظر।
حفاظتی تدابیر اور جوابی اقدامات
اے آئی کمپنیوں نے حفاظتی تدابیر کو تیز کیا ہے ، جزوی طور پر इस طرح کے طریقوں کو रोकने کے لئے। OpenAI ने अप्रैल میں، تنظیموں سے کچھ ترقی یافتہ ماڈل تک رسائی حاصل کرنے کے لئے شناختی تصدیق کے عمل को مکمل کرنے کے لئے کہا جانا شروع کردیا۔ इस প্রক্রিয়া में OpenAI के API के द्वारा समर्थित देश से सरकार के जारी किए गए परिचय पत्र सबमिट करना शामिल है। چین विशेष रूप سے इस सूची से غیر حاضر ہے۔
एक دیگر حرکت میں، गूगल ने हाल ہی میں اپنے اے آئی اسٹوڈیو ڈویلپر پلیٹ فارم کے ذریعے دستیاب ماڈلز के ذریعے تیار किए गए ٹریسز को “خلاصہ کرنا” शुरू کر ਦਿੱਤਾ ہے۔ اس حرکت سے حریف ماڈلز کو جیمنی ٹریسز پر مؤثر तरीके سے تربیت دینا زیادہ مشکل ہو जाता ہے۔ اسی طرح, اینتھروپک نے مئی میں اعلان کیا کہ वह اپنی خود کی ماڈل کی ٹریسز کو درست کرنا شروع کر دے گا، اس ضرورت کو پورا کرنے کے لئے اپنے “مقابلاتی فوائد” کی حفاظت کرنا ضروری ہے۔ ان تدابیر سے یہ ظاہر ہوتا ہے کہ اے آئی ماڈل आउटपुट کے غلط استعمال کے امکان سے آگاہی میں اضافہ हो رہا है और ایسے خطرات को कम करने के लिए एक सक्रिय முயற்சி کی جا رہی ہے۔
اثرات اور نتائج
डीप सेक के खिलाफ लगाए गए आरोप एआई प्रशिक्षण प्रथाओं की नैतिकता और वैधता पर महत्वपूर्ण प्रश्न उठाते हैं। यदि वास्तव में डीप सेक ने अपने आर 1 मॉडल को प्रशिक्षण देने के लिए जेमिनी डेटा का उपयोग किया, तो इसे कानूनी नतीजों और प्रतिष्ठा संबंधी नुकसान का सामना करना पड़ सकता है। यह स्थिति एआई उद्योग में अधिक पारदर्शिता और विनियमन की आवश्यकता को भी उजागर करती है, विशेष रूप से डेटा सोर्सिंग और उपयोग के संबंध में।
डीप सेक के खिलाफ आरोप एक महत्वपूर्ण दुविधा को रेखांकित करते हैं: बौद्धिक संपदा की रक्षा करने और उचित प्रतिस्पर्धा सुनिश्चित करने की आवश्यकता के साथ एआई में नवाचार और उन्नति की इच्छा को कैसे संतुलित किया जाए। एआई उद्योग तेजी से विकसित हो रहा है, और जटिल कानूनी और नैतिक परिदृश्य को नेविगेट करने के लिए स्पष्ट दिशानिर्देश और नैतिक ढांचे आवश्यक हैं। कंपनियों को अपने डेटा स्रोतों के बारे में पारदर्शी होना चाहिए और विश्वास बनाए रखने और संभावित कानूनी देनदारियों से बचने के लिए सेवा समझौतों की शर्तों का पालन करना चाहिए।
इसके अलावा, प्रशिक्षण डेटासेट को দূষিত करने वाले एआई-जनरेटेड सामग्री का मुद्दा पूरे एआई समुदाय के लिए एक बड़ी चुनौती पेश करता है। जैसे-जैसे एआई मॉडल убедителен पाठ,图像 और अन्य रूपों की सामग्री उत्पन्न करने में अधिक कुशल होते जाते हैं, मानव-जनरेटेड और एआई-जनरेटेड डेटा के बीच अंतर करना अधिक मुश्किल होता जाता है। यह “দূषितতা” एआई मॉडल के समरूपीकरण की ओर ले जा सकती है, जहां वे सभी समान पूर्वाग्रह और सीमाएं दिखाना शुरू कर देते हैं।
इस चुनौती का सामना करने के लिए, एआई कंपनियों को अधिक परिष्कृत डेटा फ़िल्टरिंग तकनीकों में निवेश करने और वैकल्पिक प्रशिक्षण डेटा स्रोतों का पता लगाने की आवश्यकता है। उन्हें अपने प्रशिक्षण डेटासेट की संरचना और एआई-जनरेटेड सामग्री को फ़िल्टर करने के लिए उपयोग किए जाने वाले तरीकों के बारे में भी अधिक पारदर्शी होने की आवश्यकता है।
एआई प्रशिक्षण के भविष्य को नेविगेट करना
डीप सेक विवाद एआई प्रशिक्षण के भविष्य के बारे में अधिक सूक्ष्म चर्चा की तत्काल आवश्यकता को रेखांकित करता है। जैसे-जैसे एआई मॉडल अधिक शक्तिशाली होते जाते हैं और डेटा अधिक दुर्लभ होता जाता है, कंपनियां कोनों को काटने और अनैतिक या अवैध गतिविधियों में शामिल होने के लिए लुभाया जा सकता है। हालांकि, इस तरह के अभ्यास अंततः एआई उद्योग की दीर्घकालिक स्थिरता और विश्वसनीयता को कमजोर करते हैं।
जिम्मेदार एआई विकास को बढ़ावा देने वाले नैतिक दिशानिर्देशों और कानूनी ढांचे को विकसित करने के लिए शोधकर्ताओं, नीति निर्माताओं और उद्योग के नेताओं को शामिल करने के लिए एक सहयोगात्मक प्रयास की आवश्यकता है। इन दिशानिर्देशों को डेटा सोर्सिंग, पारदर्शिता और जवाबदेही जैसे मुद्दों को संबोधित करना चाहिए। उन्हें कंपनियों को नैतिक और टिकाऊ एआई प्रशिक्षण प्रथाओं में निवेश करने के लिए भी प्रोत्साहित करना चाहिए।
एआई प्रशिक्षण के भविष्य के लिए प्रमुख विचार:
- पारदर्शिता: कंपनियों को अपने एआई मॉडल को प्रशिक्षित करने के लिए उपयोग किए जाने वाले डेटा स्रोतों और एआई-जनरेटेड सामग्री को फ़िल्टर करने के लिए उपयोग किए जाने वाले तरीकों के बारे में पारदर्शी होना चाहिए।
- नैतिकता: एआई विकास को नैतिक सिद्धांतों का पालन करना चाहिए जो निष्पक्षता, जवाबदेही और बौद्धिक संपदा के प्रति सम्मान को बढ़ावा देते हैं।
- विनियमन: नीति निर्माताओं को स्पष्ट कानूनी ढांचे बनाने चाहिए जो एआई प्रशिक्षण द्वारा प्रस्तुत अनूठी चुनौतियों का समाधान करें।
- सहयोग: शोधकर्ताओं, नीति निर्माताओं और उद्योग के नेताओं को एआई विकास के लिए नैतिक दिशानिर्देशों और सर्वोत्तम अभ्यासों को विकसित करने के लिए सहयोग करना चाहिए।
- डेटा विविधता: एआई प्रशिक्षण को पूर्वाग्रह को कम करने और एआई मॉडल के समग्र प्रदर्शन को बेहतर बनाने के लिए डेटा विविधता को प्राथमिकता देनी चाहिए।
- स्थिरता: एआई प्रशिक्षण को टिकाऊ तरीके से आयोजित