انسانی آوازوں کی تلاش میں AI

مصنوعی ذہانت (AI) کی اس دوڑ میں کہ وہ انسانی تعامل کی نقل کر سکے، کچھ دلچسپ اور بعض اوقات پریشان کن پیش رفتیں ہوئی ہیں۔ AI معاونین بنانے کی جستجو میں جو نہ صرف ذہین ہوں بلکہ قابلِ نسبت بھی ہوں، کمپنیاں اپنے صوتی ماڈلز کو تربیت دینے کے لیے مختلف تکنیکوں کا استعمال کر رہی ہیں۔ حالیہ انکشافات نے ایک ایسی کوشش پر روشنی ڈالی ہے: xAI کا “پراجیکٹ زائلوفون” (Project Xylophone)۔

پروجیکٹ زائلوفون کے اندر: conversational AI تخلیق کرنا

لیک ہونے والے دستاویزات نے پراجیکٹ زائلوفون کے اندرونی کام کاج کو بے نقاب کر دیا ہے، یہ Scale AI کا ایک اقدام ہے جو xAI کے صوتی ماڈلز کو بہتر بنانے کے لیے ڈیزائن کیا گیا ہے۔ یہ پروجیکٹ ٹھیکیداروں کو تنوع مضامین پر خود کو گفتگو کرتے ہوئے ریکارڈ کرنے میں مصروف کرنے کے گرد گھومتا ہے۔ اس کا بنیادی مقصد xAI کے ماڈلز کو زیادہ فطری، انسانی جیسی خصوصیت سے آراستہ کرنا ہے، جو اس روبوٹک لہجے سے دور ہٹنا ہے جو اکثر AI تعاملات کی خصوصیت ہوتی ہے۔

یہ ٹھیکیدار، جو ڈیٹا لیبلنگ کمپنی Scale AI کے ذریعے حاصل کیے گئے ہیں، انہیں xAI کے صوتی ماڈلز کو زیادہ مستند بنانے کے لیے اپنے ساتھیوں کے ساتھ معمولی نوعیت سے لے کر خیالی موضوعات پر گفتگو ریکارڈ کرنے کے لیے معاوضہ دیا جاتا ہے۔ اپریل تک، Scale AI کم از کم 10 جنریٹو AI پروجیکٹس xAI کے لیے چلا رہا تھا، جو اس شعبے میں کی جانے والی شدید کوششوں کی عکاسی کرتا ہے۔

زیادہ conversational AI کے لیے صنعت گیر تحریک ان خدمات کے پریمیم، بامعاوضہ ورژن کی طرف صارفین کو راغب کرنے کی خواہش سے پیدا ہوتی ہے۔ AI تعاملات کو زیادہ خوشگوار اور فطری بنا کر، کمپنیاں صارفین کو ان جدید ٹیکنالوجیز میں سرمایہ کاری کرنے کی ترغیب دینے کی امید رکھتی ہیں۔

مکالماتی تربیت کا بلیو پرنٹ

بزنس اِن سائڈر (Business Insider) نے Scale AI کی دستاویزات کی ایک سیریز حاصل کی ہے جو اس بات پر تفصیلی نظر ڈالتی ہے کہ پراجیکٹ زائلوفون کیسے کام کرتا ہے۔ ان دستاویزات میں، پروجیکٹ کی ہدایات، جائزہ لینے کے رہنما خطوط، اور گفتگو کے موضوع کے رہنما شامل ہیں، جو پروجیکٹ کے طریقہ کار کا ایک جامع جائزہ فراہم کرتے ہیں۔

اگرچہ تربیت یافتہ مخصوص xAI ماڈل دستاویزات میں غیر ظاہر شدہ رہتا ہے، لیکن “آڈیو معیار اور قدرتی روانی” پر پروجیکٹ کی توجہ ایک ہموار اور دل چسپ صارف تجربہ تخلیق کرنے پر ایک مضبوط زور کی تجویز کرتی ہے۔ صوتی اداکاری کے تجربے رکھنے والے ٹھیکیداروں کی خاص طور پر شرکت کی حوصلہ افزائی کی جاتی ہے، جو کامیابی کی مطلوبہ سطح کو حاصل کرنے میں آواز کی کارکردگی کی اہمیت کی عکاسی کرتی ہے۔

پراجیکٹ زائلوفون دو بنیادی اجزاء کے گرد ترتیب دیا گیا ہے: “گفتگو” اور “گراس لینڈز”۔ “گفتگو” کے جزو میں تین ٹھیکیداروں کی ٹیمیں زوم پر حقیقت پسندانہ گفتگو میں مشغول ہوتی ہیں۔ یہ گفتگو سینکڑوں اشاروں پر مشتمل ایک اسپریڈ شیٹ کے ذریعے رہنمائی کی جاتی ہے، جس میں دنیا کے بعد apocalyptic دنیا میں بقا کے طریقوں سے لے کر اضطراب کو سنبھالنے اور بین الاقوامی دوروں کی منصوبہ بندی کرنے تک، موضوعات کی ایک وسیع رینج کا احاطہ کیا گیا ہے۔

گفتگو کے اشاروں میں گہرا غوطہ: AI کے تخیل کی ایک جھلک

پراجیکٹ زائلوفون میں استعمال ہونے والے گفتگو کے اشارے اس قسم کے منظرناموں اور موضوعات کی ایک دل چسپ جھلک پیش کرتے ہیں جن کو سنبھالنے کے لیے AI ماڈلز کو تربیت دی جا رہی ہے۔ اشارے عملی سے لے کر فلسفیانہ، اور یہاں تک کہ سائنس فکشن کے دائرے میں بھی جاتے ہیں۔

Scale AI دستاویزات میں استعمال ہونے والے گفتگو کے آغاز کرنے والوں کی چند مثالیں یہاں ہیں:

  • اگر آپ مریخ کی پہلی بستی کے لیے ‘ثقافت’ ڈیزائن کر رہے تھے، تو آپ زمین کی کس روایت کو یقینی طور پر دوبارہ تخلیق کرنا چاہتے ہیں، اور کس چیز کو ہمیشہ کے لیے پیچھے چھوڑنے میں آپ کو خوشی ہوگی؟
  • آپ کی روزمرہ کی زندگی میں ‘ولن’ کیا ہے جسے آپ چاہتے ہیں کہ ایک سپر ہیرو ٹیم سب کے لیے ٹھیک کرنے کے لیے جھپٹ پڑے؟
  • اگر کل زومبی Apocalypse آ جائے تو، فرار ہونے سے پہلے آپ اپنے گھر سے سب سے پہلے کیا چیز پکڑیں گے؟
  • تصور کریں کہ آپ مریخ کالونی کے مشن سائیکالوجسٹ ہیں — آپ کو اپنے ساتھی کالونیوں میں کس قسم کی شخصیت یا عجیب و غریب خصلت کو پوشیدہ طور پر تلاش کرنے کی امید ہوگی؟
  • بطور گھر کے مالک آپ نے پلمبنگ کا سب سے یادگار کون سا ڈیزاسٹر تجربہ کیا ہے — اور کیا آپ نے خود اسے ٹھیک کرنے کی کوشش کی یا فوری طور پر مدد کے لیے کال کی؟
  • کیا آپ کو یاد ہے کہ آپ کو پہلی بار زیادہ پیسے یا بہتر فوائد مانگنے پڑے تھے؟ آپ کے ذہن میں کیا چل رہا تھا؟

یہ اشارے ٹھیکیداروں سے فطری، غیر اسکرپٹ شدہ ردعمل حاصل کرنے کے لیے ڈیزائن کیے گئے ہیں، جنہیں پھر AI ماڈلز کو مختلف قسم کے گفتگو کے منظرناموں کو سنبھالنے کی تربیت دینے کے لیے استعمال کیا جا سکتا ہے۔

“اچھی” گفتگو کے لیے ہدایات فطری اور جذباتی آواز دینے کی اہمیت پر زور دیتی ہیں، مختلف تانوں اور مداخلتوں کے ساتھ۔ اس کا مقصد حقیقی دنیا کی انسانی گفتگو کی بے ساختگی اور غیر متوقع نوعیت کی نقل کرنا ہے۔

گراس لینڈز اپروچ: غیر اسکرپٹ شدہ اور مستند

منظم “گفتگو” کے جزو کے برعکس، “گراس لینڈز” کا جزو انفرادی کارکنوں پر توجہ مرکوز کرتا ہے جو اپنی مادری زبانوں میں غیر اسکرپٹ شدہ، قدرتی آواز والی ریکارڈنگ بناتے ہیں۔ ان کارکنوں کو گفتگو کی قسم اور ذیلی زمرہ دیا جاتا ہے اور انہیں گفتگو کو آزادانہ طور پر بہنے کی ترغیب دی جاتی ہے، یہاں تک کہ پس منظر کے شور کی بھی حوصلہ افزائی کی جاتی ہے۔

“گراس لینڈز” کے جزو میں درجنوں ذیلی زمرے شامل ہیں، جن میں “سقراطی سوال و جواب،” “عکاسی کہانی سنانا،” “درباری محبت کے منظرنامے،” “ہیرو-ولن کا تصادم،” اور “تعاون پر مبنی پہیلی کو حل کرنا” شامل ہیں۔ ان ذیلی زمروں میں اکثر مخصوص ضروریات شامل ہوتی ہیں، جیسے کہ مختلف لہجے، صوتی اثرات، یا ایجاد شدہ لسانی نمونے۔

“گراس لینڈز” اپروچ انسانی گفتگو کی باریکیوں اور پیچیدگیوں کو زیادہ مستند اور غیر محدود انداز میں حاصل کرنے کی خواہش کو ظاہر کرتی ہے۔

AI تربیت کی معاشیات: معاوضے پر ایک نظر

پراجیکٹ زائلوفون میں شامل Scale AI کے ٹھیکیداروں کو ان کی شراکت کے لیے معاوضہ دیا جاتا ہے، جو AI تربیت کے معاشی پہلو کو اجاگر کرتا ہے۔ رپورٹس کے مطابق ٹھیکیداروں کو ان کے کام کے لیے چند ڈالر فی ٹاسک ادا کیے جاتے ہیں۔

“گراس لینڈز” پروجیکٹ کے لیے ادائیگی کا ڈھانچہ مبینہ طور پر 3 ڈالر فی ٹاسک سے شروع ہوا لیکن بعد میں اسے کم کر کے 1 ڈالر فی ٹاسک کر دیا گیا۔ ہر ٹاسک میں ایک آڈیو فائل ریکارڈ کرنا شامل ہے، جسے ٹھیکیدار پھر Scale AI پلیٹ فارم پر اپ لوڈ کرتے ہیں اور دستی طور پر ٹرانسکرائب کرتے ہیں۔

ادائیگی کی کم شرحیں اس اکثر پوشیدہ محنت کو کم کرتی ہیں جو AI ماڈلز بنانے اور تربیت دینے میں جاتی ہے۔

ڈیٹا کے معیار کی اہمیت: انسانی تقریر کی باریکیوں کو حاصل کرنا

AI صوتی ماڈلز کی کامیابی وسیع مقدار میں اعلیٰ معیار کے ڈیٹا کی دستیابی پر منحصر ہے۔ پراجیکٹ زائلوفون حقیقی دنیا کے منظرناموں، جیسے کہ لوگوں کے درمیان فطری آواز والی گفتگو، کو دوبارہ تخلیق کرکے موزوں ڈیٹا تیار کرنے کی کوشش کو ظاہر کرتا ہے۔

“گراس لینڈز” دستاویز ٹھیکیداروں کو واضح طور پر ہدایت کرتی ہے کہ وہ اپنی ٹرانسکرپشنز میں “اُہ” جیسے فلر الفاظ شامل کریں۔ تفصیل پر یہ توجہ دینے سے انسانی تقریر کی لطیف باریکیوں، بشمول تعطل، ہچکچاہٹ، اور دیگر غیر زبانی اشاروں کو حاصل کرنے کی اہمیت اجاگر ہوتی ہے۔

ان عناصر کو تربیتی ڈیٹا میں شامل کرکے، AI ماڈلز زیادہ فطری اور دل چسپ گفتگو تیار کرنا سیکھ سکتے ہیں۔

AI میں شخصیت ڈالنا: مسابقتی برتری (competitive edge)

پراجیکٹ زائلوفون AI کمپنیوں کے درمیان ایک وسیع تر رجحان کا حصہ ہے کہ وہ اپنے AI ماڈلز میں شخصیت ڈالیں، ایک تیزی سے بھرے بازار میں خود کو ممتاز کرنے کی کوشش کریں۔

مثال کے طور پر، میٹا نے مبینہ طور پر Scale AI کے ذریعے ایک پروجیکٹ چلایا ہے جس میں گیگ ورکرز training its AI سے کہا گیا ہے کہ وہ مختلف شخصیات اختیار کریں، جیسے کہ “ایک دانا اور صوفیانہ جادوگر” یا “ایک انتہائی پرجوش موسیقی کے نظریہ کا طالب علم۔”

اوپن اے آئی کے سیم آلٹمین (Sam Altman) نے تسلیم کیا کہ تازہ ترین GPT-4o “بہت زیادہ چاپلوس اور پریشان کن” ہو گیا تھا، جس کی وجہ سے اس کے جوابات کو زیادہ فطری بنانے کے لیے اسے دوبارہ ترتیب دیا گیا۔

یہ کوششیں اس تسلیم کی عکاسی کرتی ہیں کہ AI ماڈلز کو صرف ذہین ہونے سے زیادہ کی ضرورت ہے — انہیں پسند کرنے کے قابل اور قابلِ نسبت بھی ہونا چاہیے۔

AI تربیت کے اخلاقی جہتیں: تعصب کے ساتھ درستگی کو متوازن کرنا

جیسے جیسے AI ماڈلز زیادہ نفیس ہوتے جا رہے ہیں، تعصبات اور اخلاقی تحفظات کے بارے میں خدشات بڑھ گئے ہیں، جس سے ذمہ دار AI کی ترقی کے بارے میں بحث شروع ہو گئی ہے۔

xAI نے گروک کو ایک سیاسی طور پر زیادہ جاندار چیٹ بوٹ (chatbot) کے طور پر اس مارکیٹنگ کی ہے مقابلے میں جسے مسک نے “ویک” رقیب کہا ہے، جس میں تربیتی طریقے بعض اوقات دائیں بازو یا متضاد خیالات پر بہت زیادہ جھکاؤ رکھتے ہیں۔

xAI نے گروک کے غیر متوقع پہلو کو کنٹرول کرنے کی اپنی کوششوں کو بھی تیز کیا ہے۔ نئی بھرتیاں گروک کی “ریڈ ٹیمنگ” کر رہی ہیں، خاص طور پر متنازعہ موضوعات پر اور “NSFW” یا “بے لگام” طریقوں میں غیر محفوظ یا پالیسی کی خلاف ورزی کرنے والے جوابات کے لیے اس پر زور ڈال رہی ہیں۔

یہ کوششیں ایسے AI ماڈلز بنانے کے چیلنجوں کو اجاگر کرتی ہیں جو معلوماتی اور اخلاقی دونوں ہوں، اور جاری نگرانی اور تشخیص کی ضرورت ہے۔

AI صوتی ماڈلز کی جاری ترقی: ہموار تعامل کا مستقبل

پراجیکٹ زائلوفون (Project Xylophone) اور اسی طرح کے اقدامات AI صوتی ماڈلز بنانے کی تلاش میں ایک اہم قدم کی نمائندگی کرتے ہیں جو انسانوں کے ساتھ ہموار تعامل کر سکتے ہیں۔ جیسے جیسے AI ٹیکنالوجی میں ترقی ہوتی رہے گی، ہم مستقبل میں اور بھی نفیس اور قدرتی آواز والے AI معاونین کو دیکھنے کی توقع کر سکتے ہیں۔

انسانی جیسی AI صوتی ماڈلز کی تلاش اس کے چیلنجوں سے مبرا نہیں ہے۔ تعصبات، اخلاقی تحفظات، اور غلط استعمال کی صلاحیت کے بارے میں خدشات باقی ہیں۔ تاہم، ان ٹیکنالوجیز کے ممکنہ فوائد بے شمار ہیں، رسائی کو بہتر بنانے سے لے کر مواصلات اور تعاون کو بڑھانے تک۔

جیسے جیسے AI صوتی ماڈلز زیادہ عام ہوتے جائیں گے، ان چیلنجوں سے فعال طور پر نمٹنا اور اس بات کو یقینی بنانا ضروری ہوگا کہ ان ٹیکنالوجیز کو ذمہ داری اور اخلاقی طور پر استعمال کیا جائے۔ AI صوتی ماڈلز کے مستقبل میں زبردست وعدہ ہے، لیکن یہ ہم پر منحصر ہے کہ ہم اس مستقبل کو اس طرح تشکیل دیں جو تمام انسانیت کے لیے فائدہ مند ہو۔

زیادہ انسانی آواز والا AI بنانے کی کوشش مشکل ہے، جیسا کہ لیک ہونے والے دستاویزات میں دیکھا گیا ہے۔ نہ صرف یہ کہ AI کو درست گرامر کے ساتھ روانی سے بولنا چاہیے، بلکہ اس کی ایک شخصیت بھی ہونی چاہیے jo us shakhs ko sachchi lage jo اس کے ساتھ بول رہا ha۔ یہ یادگار کام وہ جگہ ہے جہاں یہ کمپنیاں اب خود کو تلاش کرتی ہیں۔