AI चा मानवी आवाजाचा शोध: xAI चे प्रशिक्षण रहस्य | mr

कृत्रिम बुद्धिमत्तेच्या (Artificial Intelligence) जगात मानवाशी संवाद साधणाऱ्या आवाजाची निर्मिती करणे, हे एक आकर्षक आणि कधी कधी विचलित करणारे आव्हान आहे. केवळ बुद्धीमान नव्हे, तर मानवी संबंधांना अधिक जवळचे वाटणारे AI सहाय्यक (AI assistants) तयार करण्यासाठी, कंपन्या विविध प्रशिक्षण तंत्रांचा वापर करत आहेत. अलीकडील काही खुलासे xAI च्या “Project Xylophone” या उपक्रमावर प्रकाश टाकतात.

Project Xylophone: संभाषणात्मक AI ची निर्मिती

लीक झालेल्या कागदपत्रांनुसार, Project Xylophone हे Scale AI चे (Scale AI) xAI च्या व्हॉइस मॉडेलला (voice models) सुधारण्यासाठी डिझाइन केलेले एक महत्वाचे प्रयत्न आहे. या प्रकल्पात कंत्राटदारांना विविध विषयांवरimprovise करून संभाषणे रेकॉर्ड करण्यास सांगितले जाते. xAI च्या मॉडेलला अधिक नैसर्गिक आणि मानवी आवाज देणे हा या मागचा मुख्य उद्देश आहे, जेणेकरून AI च्या संवादात येणारा रोबोटिक टोन (robotic tone) कमी करता येईल.

डेटा-लेबलिंग कंपनी Scale AI द्वारे हे कंत्राटदार नेमले जातात. xAI च्या व्हॉइस मॉडेलला अधिकAuthentic बनवण्यासाठी ते त्यांच्या सहकाऱ्यांशी साध्या विषयांवर तसेच काल्पनिक विषयांवर संभाषणे रेकॉर्ड करतात आणि त्यासाठी त्यांना पैसे दिले जातात. एप्रिलपर्यंत, Scale AI हे xAI साठी किमान 10 जनरेटिव्ह AI (generative AI) प्रोजेक्ट्स (projects) व्यवस्थापित करत होते, ज्यामुळे या क्षेत्रातील தீவிர प्रयत्नांचे प्रमाण दिसून येते.

संभाषणात्मक AI (conversational AI) विकसित करण्याच्या उद्देशाने कंपन्या वापरकर्त्यांना प्रीमियम, सशुल्क सेवांकडे आकर्षित करण्याचा प्रयत्न करत आहेत. AI संवाद अधिक आनंददायी आणि नैसर्गिक बनवून, कंपन्या वापरकर्त्यांना या प्रगत तंत्रज्ञानामध्ये गुंतवणूक करण्यास प्रवृत्त करण्याची आशा बाळगतात.

संभाषणात्मक प्रशिक्षणाचा आराखडा

Business Insider ला Scale AI च्या कागदपत्रांची मालिका (series of Scale AI documents) मिळाली आहे, जी Project Xylophone कसे कार्य करते याबद्दल तपशीलवार माहिती देते. या कागदपत्रांमध्ये प्रोजेक्ट सूचना, समीक्षकांसाठी मार्गदर्शक तत्त्वे आणि संभाषणाचे विषय मार्गदर्शक यांचा समावेश आहे, जे प्रोजेक्टच्या पद्धतींचे विस्तृत विहंगावलोकन (comprehensive overview) देतात.

प्रशिक्षित केले जाणारे विशिष्ट xAI मॉडेल कागदपत्रांमध्ये उघड केले नसले तरी, “ऑडिओ गुणवत्ता आणि नैसर्गिक ओघ” यावर लक्ष केंद्रित केले जात आहे, ज्यामुळे एक अखंड आणि आकर्षक वापरकर्ता अनुभव (seamless and engaging user experience) तयार करण्यावर भर दिला जात आहे. विशेषतः ज्या कंत्राटदारांना व्हॉइस ॲक्टिंगचा (voice acting) अनुभव आहे, त्यांना सहभागी होण्यासाठी प्रोत्साहित केले जाते, कारण इच्छित पातळीवरील वास्तवता प्राप्त करण्यासाठी vocal performance महत्वाचे आहे.

Project Xylophone दोन मुख्य घटकांवर आधारित आहे: “Conversations” आणि “Grasslands.” “Conversations” मध्ये, तीन कंत्राटदारांचे संघ झूमवर (Zoom) वास्तववादी (realistic) संभाषणांमध्ये भाग घेतात. या संभाषणांना शेकडो प्रॉम्प्ट्स असलेल्या स्प्रेडशीटद्वारे (spreadsheet) मार्गदर्शन केले जाते, ज्यामध्ये post-apocalyptic जगातील survival tactics पासून ते चिंता व्यवस्थापित (managing anxiety) करण्यापर्यंत आणि आंतरराष्ट्रीय सहलींचे नियोजन (planning international trips) करण्यापर्यंत विविध विषयांचा समावेश असतो.

संभाषणाच्या प्रॉम्प्ट्समध्ये खोलवर ডুব: AI च्या কল্পনাশक्तीची झलक

Project Xylophone मध्ये वापरलेले संभाषण प्रॉम्प्ट्स (conversation prompts), AI मॉडेलला कोणत्या प्रकारच्या परिस्थिती आणि विषयांसाठी प्रशिक्षित केले जात आहे, याची एक आकर्षक झलक देतात. हे प्रॉम्प्ट्स व्यावहारिक (practical) ते तात्विक (philosophical) आहेत आणि विज्ञानकथांच्या (science fiction) क्षेत्रातही डोकावतात.

Scale AI च्या कागदपत्रांमध्ये (Scale AI documents) वापरल्या गेलेल्या काही conversation starters ची उदाहरणे येथे दिली आहेत:

जर तुम्ही मंगळावरील (Mars) पहिल्या वस्तीसाठी ‘संस्कृती’ (culture) तयार करत असाल, तर पृथ्वीवरील कोणती परंपरा (Earth tradition) तुम्हाला निश्चितपणे पुन्हा तयार करायला आवडेल आणि कोणती कायमची सोडून द्यायला आवडेल?
तुमच्या दैनंदिन जीवनातील (daily life) असा कोणता ‘खलनायक’ (villain) आहे, ज्याला superhero team ने त्वरित दूर करावे असे तुम्हाला वाटते?
जर उद्या zombie apocalypse आले, तर घरातून पळ काढण्यापूर्वी तुम्ही कोणती पहिली गोष्ट घ्याल?
कल्पना करा की तुम्ही मंगळ ग्रहावरील (Mars colony) मिशन सायकॉलॉजिस्ट (mission psychologist) आहात—तुम्हाला तुमच्या सहकाऱ्यांमध्ये (fellow colonists) कोणत्या personality type किंवा quirky trait चीsecretly आशा आहे?
तुम्ही homeowner म्हणून अनुभवलेली सर्वात अविस्मरणीय plumbing disaster कोणती आहे—आणि तुम्ही ती स्वतः दुरुस्त करण्याचा प्रयत्न केला की मदतीसाठी त्वरित call केला?
तुम्हाला आठवते का, तुम्ही पहिल्यांदा जास्त पैसे किंवा चांगले फायदे (better benefits) कधी मागितले होते? त्यावेळी तुमच्या मनात काय विचार होते?

हे प्रॉम्प्ट्स कंत्राटदारांकडून नैसर्गिक, unscripted प्रतिसाद मिळवण्यासाठी डिझाइन केलेले आहेत, जे AI मॉडेलला विविध conversation scenarios हाताळण्यासाठी प्रशिक्षित करण्यासाठी वापरले जाऊ शकतात.

“चांगल्या” संभाषणांसाठीच्या सूचनांमध्ये नैसर्गिक आणि emotional असण्यावर जोर दिला जातो, ज्यामध्ये वेगवेगळ्या intonations आणि interruptions चा समावेश असतो. वास्तविक जगात मानवी संभाषणाची spontaneity आणि unpredictability नक्कल करणे हा ध्येय आहे.

Grasslands दृष्टिकोन: Unscripted आणि Authentic

structured “Conversations” घटकाच्या तुलनेत, “Grasslands” घटक (component) त्यांच्या मूळ भाषांमध्ये unscripted, नैसर्गिक-आवाज रेकॉर्डिंग (natural-sounding recordings) तयार करणाऱ्या solo workers वर लक्ष केंद्रित करतो. या कामगारांना conversation type आणि subcategory दिली जाते आणि त्यांना संभाषणाला অবাধपणे वाहू देण्यास प्रोत्साहित केले जाते, तसेच पार्श्वभूमीतील आवाजालाही (background noise) प्रोत्साहन दिले जाते.

“Grasslands” घटकामध्ये (component) “Socratic questioning,” “reflective storytelling,” “courtly love scenarios,” “hero-villain confrontations,”आणि “collaborative puzzle-solving” यांसारख्या डझनभर subcategories चा समावेश आहे. या subcategories मध्ये अनेकदा विशिष्ट आवश्यकता (specific requirements) असतात, जसे की different accents, sound effects किंवा invented linguistic patterns.

“Grasslands” दृष्टिकोन मानवी संभाषणातील (human conversation) nuances आणि complexities अधिक Authentic आणि unconstrained पद्धतीने कॅप्चर (capture) करण्याच्या इच्छेचे प्रतिबिंब आहे.

AI प्रशिक्षणाचे अर्थशास्त्र: मोबदल्याची एक झलक

Project Xylophone मध्ये सहभागी Scale AI च्या कंत्राटदारांना (Scale AI contractors) त्यांच्या योगदानासाठी मोबदला दिला जातो, ज्यामुळे AI प्रशिक्षणाचा आर्थिक पैलू (economic aspect) अधोरेखित होतो. अहवालानुसार, कंत्राटदारांना त्यांच्या कामासाठी प्रति task काही डॉलर्स (dollars) दिले जातात.

“Grasslands” प्रोजेक्टसाठी (project) पेमेंट स्ट्रक्चर (payment structure) सुरुवातीला प्रति task $3 होते, परंतु नंतर ते कमी करून प्रति task $1 करण्यात आले. प्रत्येक task मध्ये ऑडिओ फाइल (audio file) रेकॉर्ड करणे असते, जी कंत्राटदार Scale AI प्लॅटफॉर्मवर (Scale AI platform) अपलोड करतात आणि manually transcribe करतात.

कमी वेतनाचे दर AI मॉडेल तयार (creating AI models) करण्यासाठी आणि प्रशिक्षित (trained) करण्यासाठी लागणाऱ्या अदृश्य श्रमांवर प्रकाश टाकतात.

डेटा गुणवत्तेचे महत्त्व: मानवी भाषणातील सूक्ष्मता कॅप्चर करणे

AI व्हॉइस मॉडेलचे (AI voice models) यश मोठ्या प्रमाणात उच्च-गुणवत्तेच्या डेटाच्या उपलब्धतेवर अवलंबून असते. Project Xylophone वास्तविक जगातील परिस्थिती (real-world scenarios) पुन्हा तयार करून, जसे की लोकांमध्ये नैसर्गिक संभाषणे (natural-sounding conversations), योग्य डेटा (suitable data) तयार करण्याच्या प्रयत्नांना दर्शवते.

“Grasslands” दस्तऐवज (document) कंत्राटदारांना त्यांच्या transcriptions मध्ये “uh” सारखे filler words समाविष्ट करण्यास स्पष्टपणे सूचना देतो. तपशीलांकडे दिलेले हे लक्ष मानवी भाषणातील सूक्ष्म बारकावे (subtle nuances), जसे की विराम (pauses), संकोच (hesitations) आणि इतर nonverbal cues कॅप्चर करण्याच्या महत्त्वावर जोर देते.

प्रशिक्षण डेटामध्ये हे घटक समाविष्ट करून, AI मॉडेल अधिक नैसर्गिक आणि आकर्षक संभाषणे (engaging conversations) तयार करण्यास शिकू शकतात.

AI मध्ये व्यक्तिमत्त्व (Personality) इंजेक्ट करणे: स्पर्धात्मक advantage

Project Xylophone हा AI कंपन्यांमध्ये (AI companies) त्यांच्या AI मॉडेलमध्ये व्यक्तिमत्त्व (personality) इंजेक्ट करण्याच्या व्यापक ट्रेंडचा (broader trend) भाग आहे, जे अधिकाधिक गर्दीच्या बाजारात स्वतःला वेगळे करण्याचा प्रयत्न करत आहेत.

उदाहरणार्थ, Meta ने Scale AI द्वारे एक प्रोजेक्ट चालवला आहे, ज्यामध्ये gig workers ला “एक wise and mystical wizard” किंवा “hyper-excited music theory student” अशा वेगवेगळ्या व्यक्तीरेखा (personas) स्वीकारण्यास सांगितले आहे.

OpenAI चे (OpenAI) Sam Altman यांनी मान्य केले की नवीनतम GPT-4o “too sycophant-y and annoying” झाले आहे, ज्यामुळे त्याचे replies अधिक नैसर्गिक बनवण्यासाठी reset करणे आवश्यक आहे.

हे प्रयत्न दर्शवतात की AI मॉडेल केवळ बुद्धीमान असून चालणार नाही – ते आवडण्यासारखे (likable) आणि relatable देखील असले पाहिजेत.

AI प्रशिक्षणाचे नैतिक पैलू: अचूकता आणि bias यांचा समतोल

AI मॉडेल अधिकाधिक sophisticated होत असल्याने, bias आणि ethical considerations (नैतिक विचार) संबंधित चिंता वाढल्या आहेत, ज्यामुळे जबाबदार AI विकासावर (responsible AI development) चर्चा सुरू झाली आहे.

xAI ने Grok ला (Grok) राजकीयदृष्ट्या अधिक edgier chatbot म्हणून marketed केले आहे, कारण मस्कने (Musk) त्याला “woke” rivals म्हटले आहे. त्याच्या training methods काहीवेळा right-wing किंवा contrarian views वर जोरदारपणे झुकतात.

xAI ने Grok ची unpredictable बाजू नियंत्रित करण्याचे प्रयत्न देखील वाढवले आहेत. नवीन कर्मचाऱ्यांकडून Grok ची “red teaming” केली जात आहे, जेणेकरून असुरक्षित (unsafe) किंवा धोरण-उल्लंघन (policy-violating) उत्तरांसाठी, विशेषत: controversial विषयांवर आणि “NSFW” किंवा “unhinged” modes मध्ये त्याची stress-testing केली जाईल.

हे प्रयत्न AI मॉडेल तयार करण्याच्या आव्हानांवर प्रकाश टाकतात, जे माहितीपूर्ण (informative) आणि ethical दोन्ही आहेत आणि ज्यासाठी सतत monitoring आणि evaluation आवश्यक आहे.

AI व्हॉइस मॉडेलचा सतत विकास: अखंड संवादाचे भविष्य

Project Xylophone आणि तत्सम उपक्रम AI व्हॉइस मॉडेल (AI voice models) तयार करण्याच्या दिशेने एक महत्त्वपूर्ण पाऊल आहे, जे मानवाशी अखंडपणे संवाद साधू शकतात. AI तंत्रज्ञान जसजसे विकसित होत आहे, तसतसे भविष्यात आपल्याला अधिक sophisticated आणि नैसर्गिक-आवाज AI सहाय्यक (natural-sounding AI assistants) दिसण्याची अपेक्षा आहे.

मानवासारखे AI व्हॉइस मॉडेल (AI voice models) तयार करण्याचे प्रयत्न आव्हानांशिवाय नाहीत. bias, ethical considerations आणि गैरवापराची शक्यता (potential for misuse) याबद्दल चिंता कायम आहेत. तथापि, या तंत्रज्ञानाचे संभाव्य फायदे खूप मोठे आहेत, जसे की accessibility सुधारणे, communication आणि collaboration वाढवणे.

AI व्हॉइस मॉडेल (AI voice models) अधिकाधिक प्रचलित होत असताना, या आव्हानांना सक्रियपणे (proactively) सामोरे जाणे आणि हे तंत्रज्ञान जबाबदारीने आणि नैतिकतेने वापरले जाईल, याची खात्री करणे महत्त्वाचे आहे. AI व्हॉइस मॉडेलचे भविष्य (future of AI voice models) खूप आशादायक आहे, परंतु ते भविष्य अशा प्रकारे घडवणे आपल्या हातात आहे, जेणेकरून ते संपूर्ण मानवजातीसाठी फायदेशीर ठरेल.

अधिक मानवी आवाज देणारे AI तयार करण्याचे प्रयत्न खूप कठीण आहेत, जसे की लीक झालेल्या कागदपत्रांमध्ये दिसून येते. AI ला केवळ योग्य grammar सह अस्खलितपणे बोलणे आवश्यक नाही, तर त्यात एक personality देखील असावी जी त्याच्याशी बोलणाऱ्या व्यक्तीला खरी वाटावी. हे मोठे कार्य आता या कंपन्यांसमोर आहे.

रोजी अद्यतनित २०२५-०६-०७

# Chatbot # Grok # xAI