মানবসদৃশ কণ্ঠের জন্য এআই-এর প্রচেষ্টা

কৃত্রিম বুদ্ধিমত্তা (AI)-এর এমন একটি রূপ তৈরি করার প্রচেষ্টা চলছে, যা মানুষের সাথে স্বাভাবিকভাবে কথা বলতে পারবে। এই উদ্দেশ্যে, বিভিন্ন কোম্পানি তাদের ভয়েস মডেলগুলোকে প্রশিক্ষণ দেওয়ার জন্য নতুন নতুন কৌশল অবলম্বন করছে। সম্প্রতি, এক্সএআই (xAI)-এর “প্রোজেক্ট জাইলোফোন” (Project Xylophone) নামের একটি উদ্যোগের মাধ্যমে এই ধরনের একটি প্রচেষ্টার কিছু গোপন তথ্য জানা গেছে।

প্রোজেক্ট জাইলোফোন: কথোপকথনমূলক এআই তৈরি

ফাঁস হওয়া নথি থেকে জানা যায়, প্রোজেক্ট জাইলোফোন হলো স্কেল এআই (Scale AI) কর্তৃক পরিচালিত একটি উদ্যোগ। এর মূল লক্ষ্য হলো এক্সএআই-এর ভয়েস মডেলগুলোকে আরও উন্নত করা। এই প্রোজেক্টের অধীনে, কন্ট্রাক্টরদের বিভিন্ন বিষয়ে স্বতঃস্ফূর্তভাবে কথোপকথন রেকর্ড করতে বলা হয়। এর প্রধান উদ্দেশ্য হলো এক্সএআই-এর মডেলগুলোকে আরও স্বাভাবিক এবং মানুষের মতো করে তোলা, যাতে এআই-এর কণ্ঠস্বর রোবটের মতো না শোনায়।

স্কেল এআই কর্তৃক নিযুক্ত এই কন্ট্রাক্টররা তাদের বন্ধুদের সাথে দৈনন্দিন জীবন থেকে শুরু করে কল্পনাবাদী বিভিন্ন বিষয়ে কথোপকথন রেকর্ড করে। এর মাধ্যমে এক্সএআই-এর ভয়েস মডেলগুলোকে আরও বাস্তবসম্মত করে তোলার চেষ্টা করা হয়। এপ্রিল মাস পর্যন্ত, স্কেল এআই এক্সএআই-এর জন্য কমপক্ষে ১০টি জেনারেটিভ এআই প্রোজেক্ট পরিচালনা করছিল, যা এই ক্ষেত্রে ব্যাপক বিনিয়োগের ইঙ্গিত দেয়।

বর্তমানে, কথোপকথনমূলক এআই-এর চাহিদা বাড়ছে, কারণ কোম্পানিগুলো চায় ব্যবহারকারীরা এই পরিষেবাগুলোর উন্নত এবং পেইড সংস্করণ ব্যবহার করুক। এআই-এর কথোপকথনগুলোকে আরও উপভোগ্য এবং স্বাভাবিক করে তোলার মাধ্যমে কোম্পানিগুলো ব্যবহারকারীদের আকৃষ্ট করতে চাইছে।

কথোপকথন প্রশিক্ষণের নীলনকশা

বিজনেস ইনসাইডার (Business Insider) স্কেল এআই-এর কিছু নথি সংগ্রহ করেছে, যা থেকে প্রোজেক্ট জাইলোফোন কীভাবে কাজ করে, সে সম্পর্কে বিস্তারিত জানা যায়। এই নথিগুলোতে প্রোজেক্টের নিয়মাবলী, পর্যালোচনার নির্দেশিকা এবং কথোপকথনের বিষয়গুলোর তালিকা রয়েছে, যা প্রোজেক্টের সামগ্রিক কর্মপদ্ধতি সম্পর্কে ধারণা দেয়।

যদিও এই নথিগুলোতে প্রশিক্ষিত এক্সএআই মডেলটির নাম প্রকাশ করা হয়নি, তবে “অডিওর গুণমান এবং স্বাভাবিক সাবলীলতা” -এর উপর জোর দেওয়া হয়েছে। এর থেকে বোঝা যায় যে, একটি মসৃণ এবং আকর্ষক ইউজার অভিজ্ঞতা তৈরি করার দিকে মনোযোগ দেওয়া হচ্ছে। কণ্ঠ অভিনয়ের অভিজ্ঞতা সম্পন্ন কন্ট্রাক্টরদের অংশগ্রহণে উৎসাহিত করা হচ্ছে, যা থেকে বোঝা যায় যে, কাঙ্ক্ষিত স্তরের বাস্তবসম্মত ভয়েস তৈরি করার ক্ষেত্রে কণ্ঠের ভূমিকা অত্যন্ত গুরুত্বপূর্ণ।

প্রোজেক্ট জাইলোফোন মূলত দুইটি উপাদানের উপর ভিত্তি করে তৈরি: “কথোপকথন” (Conversations) এবং “ তৃণভূমি “ (Grasslands)। “কথোপকথন” উপাদানে, তিনজন কন্ট্রাক্টরের একটি দল জুমের মাধ্যমে বাস্তবসম্মত কথোপকথনে অংশ নেয়। এই কথোপকথনগুলো একটি স্প্রেডশীট দ্বারা পরিচালিত হয়, যেখানে শত শত বিষয় উল্লেখ করা থাকে। বিষয়গুলোর মধ্যে রয়েছে পোস্ট-অ্যাপোক্যালিপ্টিক বিশ্বে টিকে থাকার কৌশল থেকে শুরু করে উদ্বেগ সামলানো এবং আন্তর্জাতিক ভ্রমণের পরিকল্পনা।

কথোপকথনের বিষয়বস্তু: এআই-এর কল্পনার জগতে প্রবেশ

প্রোজেক্ট জাইলোফোনে ব্যবহৃত কথোপকথনের বিষয়গুলো থেকে বোঝা যায় যে, এআই মডেলগুলোকে কী ধরনের পরিস্থিতি এবং বিষয়গুলো সামলানোর জন্য প্রশিক্ষণ দেওয়া হচ্ছে। বিষয়গুলো বাস্তববাদী, দার্শনিক এবং এমনকি বিজ্ঞান কল্পকাহিনীর জগৎকেও স্পর্শ করে।

স্কেল এআই-এর নথিতে ব্যবহৃত কিছু কথোপকথনের উদাহরণ নিচে দেওয়া হলো:

*যদি আপনি মঙ্গল গ্রহে প্রথম বসতি স্থাপনের জন্য ‘সংস্কৃতি’ তৈরি করেন, তবে পৃথিবীর কোন ঐতিহ্যটি আপনি পুনরায় তৈরি করতে চান এবং কোনটি চিরতরে ত্যাগ করতে চান?

  • আপনার দৈনন্দিন জীবনে এমন কী ‘খলনায়ক’ আছে, যাকে একটি সুপারহিরো দল এসে সবার জন্য সমাধান করে দিতে পারে?
  • যদি আগামীকাল জম্বি (Zombie) আক্রমণ হয়, তবে পালানোর আগে আপনি আপনার ঘর থেকে প্রথম কী grab করবেন?
  • ধরুন, আপনি মঙ্গল গ্রহের কলোনির মিশন সাইকোলজিস্ট—আপনার সহকর্মীদের মধ্যে আপনি কোন ব্যক্তিত্ব বা অদ্ভুত বৈশিষ্ট্য আশা করেন?
  • একজন বাড়ির মালিক হিসেবে আপনার সবচেয়ে স্মরণীয় প্লাম্বিং (Plumbing) বিপর্যয় কোনটি—এবং আপনি নিজে এটি ঠিক করার চেষ্টা করেছিলেন নাকি সরাসরি সাহায্য চেয়েছিলেন?
  • আপনার কি মনে আছে, কবে প্রথম আপনাকে বেশি বেতন বা ভালো সুবিধার জন্য জিজ্ঞাসা করতে হয়েছিল? তখন আপনার মনে কী চলছিল?

এই বিষয়গুলো কন্ট্রাক্টরদের কাছ থেকে স্বাভাবিক এবং স্বতঃস্ফূর্ত প্রতিক্রিয়া বের করে আনার জন্য তৈরি করা হয়েছে। এই প্রতিক্রিয়াগুলো এআই মডেলগুলোকে বিভিন্ন কথোপকথন পরিস্থিতিতে প্রশিক্ষণ দেওয়ার জন্য ব্যবহার করা যেতে পারে।

“ভালো” কথোপকথনের জন্য নির্দেশাবলীতে স্বতঃস্ফূর্ত এবং আবেগপূর্ণ হওয়ার উপর জোর দেওয়া হয়েছে, যেখানে বিভিন্ন স্বরভঙ্গি এবং বাধা ব্যবহার করা হয়। এর উদ্দেশ্য হলো বাস্তব জীবনের মানুষের কথোপকথনের মতো স্বাভাবিকতা এবং অপ্রত্যাশিততা ফুটিয়ে তোলা।

তৃণভূমি পদ্ধতি: অসংলগ্ন এবং খাঁটি

“কথোপকথন” উপাদানের বিপরীতে, “তৃণভূমি” উপাদানটি একক কর্মীদের উপর দৃষ্টি নিবদ্ধ করে। এখানে কর্মীরা তাদের মাতৃভাষায় অসংলগ্ন এবং স্বাভাবিক звучащие রেকর্ডিং তৈরি করে। তাদের একটি কথোপকথনের ধরন এবং উপশ্রেণি দেওয়া হয় এবং কথোপকথনটিকে অবাধে প্রবাহিত করতে উৎসাহিত করা হয়। এমনকি পটভূমির আওয়াজও উৎসাহিত করা হয়।

“তৃণভূমি” উপাদানে কয়েক ডজন উপশ্রেণি রয়েছে, যার মধ্যে রয়েছে “সক্রেটিসের প্রশ্ন,” “অনুধ্যানমূলক গল্প বলা,” “দরবারি প্রেমের পরিস্থিতি,” “নায়ক-খলনায়কের মোকাবিলা” এবং “সম্মিলিত ধাঁধা সমাধান।” এই উপশ্রেণিগুলোতে প্রায়শই বিভিন্ন উচ্চারণ, সাউন্ড এফেক্ট (sound effect) বা উদ্ভাবিত ভাষাগত প্যাটার্নের মতো নির্দিষ্ট প্রয়োজনীয়তা অন্তর্ভুক্ত থাকে।

“তৃণভূমি” পদ্ধতিটি মানুষের কথোপকথনের সূক্ষ্মতা এবং জটিলতা গুলোকে আরও খাঁটি এবং বাধাহীন ভাবে ক্যাপচার (capture) করার আকাঙ্ক্ষাকে প্রতিফলিত করে।

এআই প্রশিক্ষণের অর্থনীতি: পারিশ্রমিকের চিত্র

প্রোজেক্ট জাইলোফোনে অংশগ্রহণকারী স্কেল এআই কন্ট্রাক্টররা তাদের অবদানের জন্য পারিশ্রমিক পান, যা এআই প্রশিক্ষণের অর্থনৈতিক দিকটিকে তুলে ধরে। প্রতিবেদন অনুসারে, কন্ট্রাক্টরদের তাদের কাজের জন্য প্রতি টাস্কে (task) কয়েক ডলার দেওয়া হয়।

“তৃণভূমি” প্রোজেক্টের জন্য পারিশ্রমিকের হার প্রথমে প্রতি টাস্কে ৩ ডলার ছিল, পরে তা কমিয়ে ১ ডলার করা হয়। প্রতিটি টাস্কে একটি অডিও ফাইল রেকর্ড করা এবং সেটি ম্যানুয়ালি (manually) ট্রান্সক্রাইব (transcribe) করা অন্তর্ভুক্ত।

কম পারিশ্রমিকের হার প্রায়শই এআই মডেল তৈরি এবং প্রশিক্ষণের ক্ষেত্রে যে অদৃশ্য শ্রম থাকে, সেটির উপর জোর দেয়।

ডেটা (Data) গুণমানের গুরুত্ব: মানুষের কণ্ঠস্বরের সূক্ষ্মতা ক্যাপচার করা

এআই ভয়েস মডেলগুলোর সাফল্য প্রচুর পরিমাণে উচ্চ-গুণমান সম্পন্ন ডেটার প্রাপ্যতার উপর নির্ভরশীল। প্রোজেক্ট জাইলোফোন বাস্তব জীবনের পরিস্থিতিগুলো পুনরায় তৈরি করে উপযুক্ত ডেটা তৈরি করার প্রচেষ্টাকে প্রতিফলিত করে, যেমন মানুষের মধ্যে স্বাভাবিক звучащие কথোপকথন।

“তৃণভূমি” নথিতে কন্ট্রাক্টরদের তাদের ট্রান্সক্রিপশনে “uh” -এর মতো শব্দ অন্তর্ভুক্ত করার জন্য স্পষ্টভাবে নির্দেশ দেওয়া হয়েছে। এই ধরনের ছোটখাটো বিষয়ের প্রতি মনোযোগ মানুষের কণ্ঠস্বরের সূক্ষ্মতা, বিরতি, দ্বিধা এবং অন্যান্য অ-মৌখিক সংকেতগুলো ক্যাপচার (capture) করার গুরুত্বের উপর জোর দেয়।

প্রশিক্ষণ ডেটাতে এই উপাদানগুলোকে অন্তর্ভুক্ত করার মাধ্যমে এআই মডেলগুলো আরও স্বাভাবিক এবং আকর্ষক কথোপকথন তৈরি করতে শেখে।

এআই-এর মধ্যে ব্যক্তিত্ব প্রবেশ করানো: একটি প্রতিযোগিতামূলক সুবিধা

প্রোজেক্ট জাইলোফোন এআই কোম্পানিগুলোর মধ্যে তাদের এআই মডেলগুলোতে ব্যক্তিত্ব প্রবেশ করানোর একটি বৃহত্তর প্রবণতার অংশ। এর মাধ্যমে তারা ক্রমবর্ধমান বাজারে নিজেদের আলাদা করতে চাইছে।

উদাহরণস্বরূপ, মেটা (Meta) স্কেল এআই-এর মাধ্যমে একটি প্রোজেক্ট (project) চালিয়েছে, যেখানে গিগ (gig) কর্মীদের তাদের এআইকে প্রশিক্ষণ দেওয়ার সময় বিভিন্ন ব্যক্তিত্ব গ্রহণ করতে বলা হয়েছে, যেমন “একজন জ্ঞানী এবং রহস্যময় জাদুকর” অথবা “অত্যন্ত উত্তেজিত সংগীত তত্ত্বের ছাত্র।”

OpenAI-এর স্যাম অল্টম্যান (Sam Altman) স্বীকার করেছেন যে, তাদের সর্বশেষ GPT-4o “অতিরিক্ত চাটুকার এবং বিরক্তিকর” হয়ে গেছে, তাই এর উত্তরগুলোকে আরও স্বাভাবিক করার জন্য পুনরায় সেট (reset) করা হয়েছে।

এই প্রচেষ্টাগুলো থেকে বোঝা যায় যে, এআই মডেলগুলোকে শুধু বুদ্ধিমান হলেই চলবে না, তাদের আকর্ষণীয় এবং বন্ধুত্বপূর্ণও হতে হবে।

এআই প্রশিক্ষণের নৈতিক মাত্রা: নির্ভুলতার সঙ্গে পক্ষপাতিত্বের ভারসাম্য

এআই মডেলগুলো যত বেশি অত্যাধুনিক হচ্ছে, পক্ষপাতিত্ব এবং নৈতিক বিবেচনার বিষয়গুলো নিয়ে উদ্বেগ বাড়ছে। এর ফলে দায়িত্বশীল এআই উন্নয়ন নিয়ে বিতর্ক শুরু হয়েছে।

এক্সএআই গ্রোককে (Grok) একটি রাজনৈতিকভাবে আরও কঠিন চ্যাটবট (chatbot) হিসেবে বাজারজাত করেছে। মাস্ক (Musk) যাকে “ woke “ প্রতিদ্বন্দ্বী বলেছেন, তাদের তুলনায় গ্রোকের প্রশিক্ষণ পদ্ধতি মাঝে মাঝে ডানপন্থী বা বিরুদ্ধ মতামতের দিকে বেশি ঝুঁকে থাকে।

এক্সএআই গ্রোকের অপ্রত্যাশিত দিকটি নিয়ন্ত্রণ করার জন্য তার প্রচেষ্টা জোরদার করেছে। নতুন নিয়োগপ্রাপ্তরা গ্রোকের “ রেড টিমিং “ (red teaming) করছেন, অর্থাৎ বিতর্কিত বিষয়গুলোতে এবং “NSFW” (Not Safe For Work) বা “unhinged” মোডগুলোতে গ্রোকের অনিরাপদ বা নীতি-বহির্ভূত উত্তরের জন্য চাপ দিচ্ছেন।

এই প্রচেষ্টাগুলো এমন এআই মডেল তৈরি করার চ্যালেঞ্জগুলোকে তুলে ধরে, যা একই সাথে তথ্যপূর্ণ এবং নৈতিক। এর জন্য ক্রমাগত পর্যবেক্ষণ এবং মূল্যায়ন প্রয়োজন।

এআই ভয়েস মডেলগুলোর চলমান বিবর্তন: একটি মসৃণ মিথস্ক্রিয়ার ভবিষ্যৎ

প্রোজেক্ট জাইলোফোন এবং অনুরূপ উদ্যোগগুলো এআই ভয়েস মডেল তৈরি করার প্রচেষ্টায় একটি গুরুত্বপূর্ণ পদক্ষেপ। এই মডেলগুলো মানুষের সাথে সহজে যোগাযোগ করতে পারে। এআই প্রযুক্তি ক্রমাগত উন্নত হওয়ার সাথে সাথে আমরা ভবিষ্যতে আরও অত্যাধুনিক এবং স্বাভাবিক звучащие এআই সহকারী দেখতে পাবো।

তবে মানুষের মতো এআই ভয়েস মডেল তৈরি করার প্রচেষ্টা চ্যালেঞ্জিং। পক্ষপাতিত্ব, নৈতিক বিবেচনা এবং অপব্যবহারের সম্ভাবনা নিয়ে উদ্বেগ থেকেই যায়। তা সত্ত্বেও, এই প্রযুক্তিগুলোর সম্ভাব্য সুবিধা অনেক। এর মাধ্যমে অ্যাক্সেসযোগ্যতা উন্নত করা, যোগাযোগ বৃদ্ধি করা এবং সহযোগিতা বাড়ানো সম্ভব।

এআই ভয়েস মডেলগুলো যত বেশি প্রচলিত হবে, এই চ্যালেঞ্জগুলো মোকাবিলা করা এবং এই প্রযুক্তিগুলো যেন দায়িত্বশীল ও নৈতিকভাবে ব্যবহৃত হয়, তা নিশ্চিত করা জরুরি। এআই ভয়েস মডেলগুলোর ভবিষ্যৎ উজ্জ্বল, তবে সেই ভবিষ্যৎকে মানবজাতির কল্যাণে কাজে লাগানো আমাদের দায়িত্ব।

ফাঁস হওয়া নথিগুলোতে যেমনটা দেখা যায়, আরও মানুষের মতো звучащие এআই তৈরি করার প্রচেষ্টা কঠিন। এআইকে শুধু সাবলীলভাবে সঠিক ব্যাকরণ ব্যবহার করে কথা বলতে পারলেই হবে না, এর একটি ব্যক্তিত্বও থাকতে হবে, যা এর সাথে কথা বলা ব্যক্তির কাছে বাস্তব মনে হবে। এই কঠিন কাজটিই এখন কোম্পানিগুলোকে করতে হচ্ছে।