मानव जैसी आवाज़ों के लिए AI की खोज | hi

कृत्रिम बुद्धिमत्ता जो मानवीय बातचीत की नकल कर सकती है, की खोज ने कुछ आकर्षक और कभी-कभी परेशान करने वाले विकासों को जन्म दिया है। एआई सहायकों को बनाने की खोज में जो न केवल बुद्धिमान हैं बल्कि संबंधित भी हैं, कंपनियां अपनी आवाज मॉडल को प्रशिक्षित करने के लिए विभिन्न तकनीकों को नियोजित कर रही हैं। हाल के खुलासे ने इस तरह के एक प्रयास पर प्रकाश डाला: xAI का “प्रोजेक्ट जाइलोफोन।”

प्रोजेक्ट जाइलोफोन के अंदर: संवादात्मक AI क्राफ्टिंग

लीक हुए दस्तावेजों ने प्रोजेक्ट जाइलोफोन के आंतरिक कामकाज को उजागर किया है, जो xAI के आवाज मॉडल को परिष्कृत करने के लिए डिज़ाइन की गई एक स्केल एआई पहल है। परियोजना विभिन्न विषयों पर बातचीत को सुधारने के लिए खुद को रिकॉर्ड करने के लिए ठेकेदारों को संलग्न करने के आसपास घूमती है। व्यापक लक्ष्य xAI के मॉडल को अधिक प्राकृतिक, मानवीय गुणवत्ता के साथ जोड़ना है, जो रोबोटिक टोन से दूर जा रहा है जो अक्सर एआई इंटरैक्शन की विशेषता है।

ये ठेकेदार, डेटा-लेबलिंग कंपनी स्केल एआई द्वारा प्राप्त किए गए हैं, उन्हें विषयों की विविध सरणी पर अपने साथियों के साथ बातचीत रिकॉर्ड करने के लिए मुआवजा दिया जाता है, जो xAI के आवाज मॉडल को अधिक प्रामाणिक बनाने की सेवा में है। अप्रैल तक, स्केल एआई xAI के लिए कम से कम 10 जेनरेटिव एआई परियोजनाओं का प्रबंधन कर रहा था, जो इस क्षेत्र में डाले जा रहे गहन प्रयास को दर्शाता है।

अधिक संवादात्मक एआई के लिए उद्योग-व्यापी धक्का इन सेवाओं के प्रीमियम, भुगतान किए गए संस्करणों के लिए उपयोगकर्ताओं को आकर्षित करने की इच्छा से उपजा है। AI इंटरैक्शन को अधिक सुखद और प्राकृतिक बनाकर, कंपनियां इन उन्नत तकनीकों में निवेश करने के लिए उपयोगकर्ताओं को लुभाने की उम्मीद करती हैं।

संवादात्मक प्रशिक्षण के लिए ब्लू प्रिंट

बिजनेस इनसाइडर को स्केल एआई दस्तावेजों की एक श्रृंखला मिली जो प्रोजेक्ट जाइलोफोन के संचालन के तरीके पर एक विस्तृत नज़र प्रदान करती है। इन दस्तावेजों में परियोजना निर्देश, समीक्षक दिशानिर्देश और वार्तालाप विषय मार्गदर्शिकाएँ शामिल हैं, जो परियोजना की कार्यप्रणाली का एक व्यापक अवलोकन प्रदान करते हैं।

जबकि प्रशिक्षित किए जा रहे विशिष्ट xAI मॉडल दस्तावेजों में अज्ञात रहता है, “ऑडियो गुणवत्ता और प्राकृतिक प्रवाह” पर परियोजना का ध्यान एक सहज और आकर्षक उपयोगकर्ता अनुभव बनाने पर एक मजबूत जोर देता है। आवाज अभिनय अनुभव वाले ठेकेदारों को विशेष रूप से भाग लेने के लिए प्रोत्साहित किया जाता है, जो वांछित स्तर की यथार्थवाद को प्राप्त करने में मुखर प्रदर्शन के महत्व को दर्शाता है।

प्रोजेक्ट जाइलोफोन दो प्राथमिक घटकों के आसपास संरचित है: “बातचीत” और “घास के मैदान।” “बातचीत” घटक में ज़ूम पर यथार्थवादी बातचीत में शामिल तीन ठेकेदारों की टीमें शामिल हैं। ये बातचीत सैकड़ों संकेतों वाली एक स्प्रैडशीट द्वारा निर्देशित होती है, जिसमें सर्वनाश के बाद की दुनिया में अस्तित्व की रणनीति से लेकर चिंता के प्रबंधन और अंतर्राष्ट्रीय यात्राओं की योजना बनाने तक विभिन्न प्रकार के विषय शामिल होते हैं।

वार्तालाप संकेतों में गहरी डुबकी: AI की कल्पना में एक झलक

प्रोजेक्ट जाइलोफोन में नियोजित वार्तालाप संकेत उन परिदृश्यों और विषयों में एक आकर्षक झलक प्रदान करते हैं जिन्हें एआई मॉडल को संभालने के लिए प्रशिक्षित किया जा रहा है। संकेत व्यावहारिक से लेकर दार्शनिक तक और विज्ञान कथा के दायरे में भी जाते हैं।

यहाँ स्केल AI दस्तावेजों में उपयोग किए गए वार्तालाप शुरुआती के कुछ उदाहरण दिए गए हैं:

यदि आप पहले मंगल बस्ती के लिए ‘संस्कृति’ डिजाइन कर रहे थे, तो आप पृथ्वी की किस परंपरा को निश्चित रूप से फिर से बनाना चाहेंगे, और आप हमेशा के लिए क्या पीछे छोड़ने के लिए उत्साहित होंगे?
आपके दैनिक जीवन में एक ‘खलनायक’ क्या है जिसे आप चाहते हैं कि एक सुपरहीरो टीम हर किसी के लिए ठीक करने के लिए झपट्टा मारे?
यदि कल ज़ोंबी सर्वनाश होता है, तो भागने से पहले आप अपने घर से सबसे पहले क्या पकड़ेंगे?
कल्पना कीजिए कि आप मंगल उपनिवेश के लिए मिशन मनोवैज्ञानिक हैं - आपको अपने साथी उपनिवेशवादियों में किस व्यक्तित्व प्रकार या विचित्र विशेषता को गुप्त रूप से खोजने की उम्मीद होगी?
एक गृहस्वामी के रूप में आपके द्वारा अनुभव की गई सबसे यादगार प्लंबिंग आपदा क्या है - और क्या आपने इसे स्वयं ठीक करने की कोशिश की या तुरंत मदद के लिए फोन किया?
क्या आपको वह पहली बार याद है जब आपको अधिक पैसे या बेहतर लाभ के लिए पूछना पड़ा था? आपके दिमाग में क्या चल रहा था?

ये संकेत ठेकेदारों से प्राकृतिक, बिना स्क्रिप्ट वाली प्रतिक्रियाओं को प्राप्त करने के लिए डिज़ाइन किए गए हैं, जिनका उपयोग तब AI मॉडल को विभिन्न प्रकार के वार्तालाप परिदृश्यों को संभालने के लिए प्रशिक्षित करने के लिए किया जा सकता है।

“अच्छी” बातचीत के निर्देश प्राकृतिक और भावनात्मक लगने के महत्व पर जोर देते हैं, जिसमें विभिन्न प्रकार के इंटोनेशन और रुकावटें होती हैं। लक्ष्य वास्तविक दुनिया की मानवीय बातचीत की सहजता और अप्रत्याशितता की नकल करना है।

घास के मैदान दृष्टिकोण: बिना स्क्रिप्ट और प्रामाणिक

संरचित “बातचीत” घटक के विपरीत, “घास के मैदान” घटक एकल श्रमिकों पर ध्यान केंद्रित करता है जो अपनी मूल भाषाओं में बिना स्क्रिप्ट वाली, स्वाभाविक रूप से रिकॉर्डिंग बनाते हैं। इन श्रमिकों को एक वार्तालाप प्रकार और उपश्रेणी दी जाती है और यहां तक कि पृष्ठभूमि शोर को भी प्रोत्साहित करते हुए, बातचीत को स्वतंत्र रूप से प्रवाहित करने के लिए प्रोत्साहित किया जाता है।

“घास के मैदान” घटक में “सुक्राती पूछताछ,” “चिंतनशील कहानी सुनाना,” “दरबारी प्रेम परिदृश्य,” “नायक-दुश्मन टकराव,” और “सहयोगी पहेली-समाधान” सहित दर्जनों उपश्रेणियां शामिल हैं। इन उपश्रेणियों में अक्सर विशिष्ट आवश्यकताएं शामिल होती हैं, जैसे कि विभिन्न उच्चारण, ध्वनि प्रभाव या आविष्कार किए गए भाषाई पैटर्न।

“घास के मैदान” दृष्टिकोण अधिक प्रामाणिक और अप्रतिबंधित तरीके से मानवीय बातचीत की बारीकियों और जटिलताओं को पकड़ने की इच्छा को दर्शाता है।

AI प्रशिक्षण का अर्थशास्त्र: मुआवजे पर एक झलक

प्रोजेक्ट जाइलोफोन में शामिल स्केल एआई ठेकेदारों को उनके योगदान के लिए मुआवजा दिया जाता है, जो एआई प्रशिक्षण के आर्थिक पहलू को उजागर करता है। रिपोर्टों के अनुसार, ठेकेदारों को उनके काम के लिए प्रति कार्य कुछ डॉलर का भुगतान किया जाता है।

“घास के मैदान” परियोजना के लिए भुगतान संरचना कथित तौर पर प्रति कार्य $3 से शुरू हुई, लेकिन बाद में इसे घटाकर $1 प्रति कार्य कर दिया गया। प्रत्येक कार्य में एक ऑडियो फ़ाइल रिकॉर्ड करना शामिल है, जिसे ठेकेदार तब एक स्केल एआई प्लेटफ़ॉर्म पर अपलोड करते हैं और मैन्युअल रूप से ट्रांसक्रिप्ट करते हैं।

भुगतान की कम दरें अक्सर अदृश्य श्रम को रेखांकित करती हैं जो एआई मॉडल बनाने और प्रशिक्षित करने में जाता है।

डेटा गुणवत्ता का महत्व: मानव भाषण की बारीकियों को कैप्चर करना

एआई आवाज मॉडल की सफलता बड़ी मात्रा में उच्च गुणवत्ता वाले डेटा की उपलब्धता पर निर्भर करती है। प्रोजेक्ट जाइलोफोन वास्तविक दुनिया के परिदृश्यों को फिर से बनाकर उपयुक्त डेटा उत्पन्न करने के प्रयास को दर्शाता है, जैसे कि लोगों के बीच स्वाभाविक रूप से होने वाली बातचीत।

“घास के मैदान” दस्तावेज़ स्पष्ट रूप से ठेकेदारों को अपने ट्रांसक्रिप्शन में “उह” जैसे भराव शब्दों को शामिल करने के लिए निर्देश देता है। विवरण पर यह ध्यान मानव भाषण की सूक्ष्म बारीकियों, जिसमें विराम, हिचकिचाहट और अन्य गैर-मौखिक संकेत शामिल हैं, को कैप्चर करने के महत्व को रेखांकित करता है।

इन तत्वों को प्रशिक्षण डेटा में शामिल करके, एआई मॉडल अधिक प्राकृतिक और आकर्षक बातचीत का उत्पादन करना सीख सकते हैं।

एआई में व्यक्तित्व इंजेक्ट करना: एक प्रतिस्पर्धी बढ़त

प्रोजेक्ट जाइलोफोन एआई कंपनियों के बीच एक व्यापक प्रवृत्ति का हिस्सा है जो अपने एआई मॉडल में व्यक्तित्व इंजेक्ट करने की कोशिश कर रहे हैं, जो तेजी से भीड़भाड़ वाले बाजार में खुद को अलग करने की कोशिश कर रहे हैं।

उदाहरण के लिए, मेटा ने कथित तौर पर स्केल एआई के माध्यम से एक परियोजना चलाई है जिसमें गीग कर्मचारियों को अपने एआई को प्रशिक्षित करने के लिए कहा गया है ताकि विभिन्न व्यक्तित्वों को अपनाया जा सके, जैसे कि “एक बुद्धिमान और रहस्यमय जादूगर” या “अति-उत्तेजित संगीत सिद्धांत छात्र।”

OpenAI के सैम ऑल्टमैन ने स्वीकार किया कि नवीनतम GPT-4o “बहुत अधिक चापलूस और कष्टप्रद” हो गया है, जिससे उसकी प्रतिक्रियाओं को और अधिक प्राकृतिक बनाने के लिए एक रीसेट हुआ।

ये प्रयास इस मान्यता को दर्शाते हैं कि एआई मॉडल को केवल बुद्धिमान होने से अधिक होने की आवश्यकता है - उन्हें पसंद करने योग्य और संबंधित होने की भी आवश्यकता है।

एआई प्रशिक्षण के नैतिक आयाम: पूर्वाग्रह के साथ सटीकता को संतुलित करना

जैसे-जैसे एआई मॉडल अधिक परिष्कृत होते जा रहे हैं, पूर्वाग्रह और नैतिक विचारों के बारे में चिंताएँ बढ़ रही हैं, जिससे जिम्मेदार एआई विकास के बारे में बहस छिड़ गई है।

xAI ने Grok को एक राजनीतिक रूप से अधिक तीखा चैटबॉट के रूप में विपणन किया है, जिसकी तुलना मस्क ने “जागृत” प्रतिद्वंद्वियों से की है, जिसमें प्रशिक्षण विधियां हैं जो कभी-कभी दक्षिणपंथी या विरोधाभासी विचारों पर बहुत अधिक झुकती हैं।

xAI ने Grok के अप्रत्याशित पक्ष को नियंत्रित करने के अपने प्रयासों को भी बढ़ाया है। नई भर्तियां Grok को “रेड टीमिंग” कर रही हैं, विशेष रूप से विवादास्पद विषयों पर और “NSFW” या “अनहिंगेड” मोड में, असुरक्षित या नीति-उल्लंघनकारी उत्तरों के लिए इसका तनाव परीक्षण कर रही हैं।

ये प्रयास एआई मॉडल बनाने की चुनौतियों को उजागर करते हैं जो जानकारीपूर्ण और नैतिक दोनों हैं, और चल रही निगरानी और मूल्यांकन की आवश्यकता है।

एआई वॉइस मॉडल का चल रहा विकास: निर्बाध बातचीत का भविष्य

प्रोजेक्ट जाइलोफोन और इसी तरह की पहल एआई वॉइस मॉडल बनाने की खोज में एक महत्वपूर्ण कदम का प्रतिनिधित्व करती हैं जो मनुष्यों के साथ निर्बाध रूप से बातचीत कर सकते हैं। जैसे-जैसे एआई तकनीक का विकास जारी है, हम भविष्य में और भी अधिक परिष्कृत और स्वाभाविक रूप से सुनने वाले एआई सहायकों को देखने की उम्मीद कर सकते हैं।

मानव जैसी एआई वॉइस मॉडल की खोज अपनी चुनौतियों के बिना नहीं है। पूर्वाग्रह, नैतिक विचारों और दुरुपयोग की संभावना के बारे में चिंताएँ बनी हुई हैं। हालांकि, इन तकनीकों के संभावित लाभ बहुत अधिक हैं, पहुंच में सुधार से लेकर संचार और सहयोग को बढ़ाने तक।

जैसे-जैसे एआई वॉइस मॉडल अधिक प्रचलित होते जाते हैं, इन चुनौतियों का सक्रिय रूप से समाधान करना और यह सुनिश्चित करना महत्वपूर्ण होगा कि इन तकनीकों का उपयोग जिम्मेदारी और नैतिक रूप से किया जाए। एआई वॉइस मॉडल का भविष्य बहुत आशाजनक है, लेकिन यह हम पर निर्भर है कि हम उस भविष्य को इस तरह से आकार दें जो पूरी मानवता को लाभ पहुंचाए।

अधिक मानवीय लगने वाले AI को बनाने का प्रयास कठिन है, जैसा कि लीक हुए दस्तावेजों में प्रमाण है। न केवल एआई सही व्याकरण के साथ धाराप्रवाह बोलता है, बल्कि इसमें एक ऐसा व्यक्तित्व भी होना चाहिए जो उससे बात करने वाले व्यक्ति को वास्तविक लगे। यह स्मारकीय कार्य वह जगह है जहाँ ये कंपनियाँ अब खुद को पाती हैं।

पर अपडेट किया गया २०२५-०६-०७

# Chatbot # Grok # xAI