Suara AI Mirip Manusia: Rahasia Pelatihan xAI

Di Dalam Project Xylophone: Menciptakan AI Percakapan

Dokumen yang bocor telah mengungkap cara kerja internal Project Xylophone, sebuah inisiatif Scale AI yang dirancang untuk menyempurnakan model suara xAI. Proyek ini berputar di sekitar melibatkan kontraktor untuk merekam diri mereka mengimprovisasi percakapan tentang beragam subjek. Tujuan utamanya adalah untuk menanamkan kualitas yang lebih alami dan mirip manusia ke dalam model xAI, menjauh dari nada robotik yang sering mencirikan interaksi AI.

Para kontraktor ini, yang bersumber dari perusahaan pelabelan data Scale AI, diberi kompensasi untuk merekam percakapan dengan rekan-rekan mereka tentang topik-topik mulai dari yang duniawi hingga yang imajinatif, semuanya untuk membuat model suara xAI terdengar lebih otentik. Pada bulan April, Scale AI mengelola setidaknya 10 proyek AI generatif untuk xAI, yang mencerminkan upaya intens yang dicurahkan untuk bidang ini.

Dorongan seluruh industri untuk AI yang lebih percakapan berasal dari keinginan untuk menarik pengguna ke versi premium dan berbayar dari layanan ini. Dengan membuat interaksi AI lebih menyenangkan dan alami, perusahaan berharap untuk memikat pengguna untuk berinvestasi dalam teknologi canggih ini.

Cetak Biru untuk Pelatihan Percakapan

Business Insider memperoleh serangkaian Scale AI dokumen yang menawarkan pandangan rinci tentang bagaimana Project Xylophone beroperasi. Dokumen-dokumen ini, termasuk instruksi proyek, pedoman peninjau, dan panduan topik percakapan, memberikan ikhtisar komprehensif tentang metodologi proyek.

Meskipun model xAI spesifik yang dilatih tetap dirahasiakan dalam dokumen, fokus proyek pada "kualitas audio dan kelancaran alami" menunjukkan penekanan yang kuat pada menciptakan pengalaman pengguna yang mulus dan menarik. Kontraktor dengan pengalaman akting suara sangat dianjurkan untuk berpartisipasi, yang mencerminkan pentingnya kinerja vokal dalam mencapai tingkat realisme yang diinginkan.

Project Xylophone disusun di sekitar dua komponen utama: "Conversations" dan "Grasslands." Komponen "Conversations" melibatkan tim yang terdiri dari tiga kontraktor yang terlibat dalam percakapan realistis melalui Zoom. Percakapan ini dipandu oleh spreadsheet yang berisi ratusan petunjuk, yang mencakup berbagai topik, mulai dari taktik bertahan hidup di dunia pasca-apokaliptik hingga mengelola kecemasan dan merencanakan perjalanan internasional.

Menyelam Lebih Dalam ke dalam Petunjuk Percakapan: Sekilas ke dalam Imajinasi AI

Petunjuk percakapan yang digunakan dalam Project Xylophone menawarkan sekilas yang menarik ke dalam jenis skenario dan topik yang sedang dilatih untuk ditangani oleh model AI. Petunjuk berkisar dari praktis hingga filosofis, dan bahkan menyelidiki ke alam fiksi ilmiah.

Berikut adalah beberapa contoh starter percakapan yang digunakan dalam dokumen Scale AI:

  • Jika Anda merancang ‘budaya’ untuk pemukiman Mars pertama, tradisi Bumi apa yang pasti ingin Anda ciptakan kembali, dan apa yang ingin Anda tinggalkan selamanya?
  • Apa ‘penjahat’ dalam kehidupan sehari-hari Anda yang Anda harapkan tim pahlawan super dapat menyapu dan memperbaiki untuk semua orang?
  • Jika kiamat zombie melanda besok, apa hal pertama yang akan Anda ambil dari rumah Anda sebelum melarikan diri?
  • Bayangkan Anda adalah psikolog misi untuk koloni Mars—tipe kepribadian atau sifat unik apa yang diam-diam Anda harapkan untuk ditemukan pada sesama penjajah Anda?
  • Apa bencana pipa ledeng paling berkesan yang pernah Anda alami sebagai pemilik rumah—dan apakah Anda mencoba memperbaikinya sendiri atau segera meminta bantuan?
  • Apakah Anda ingat pertama kali Anda harus meminta lebih banyak uang atau tunjangan yang lebih baik? Apa yang ada di pikiranmu?

Petunjuk ini dirancang untuk mendapatkan respons alami dan tidak terstruktur dari para kontraktor, yang kemudian dapat digunakan untuk melatih model AI untuk menangani berbagai macam skenario percakapan.

Instruksi untuk percakapan "baik" menekankan pentingnya terdengar alami dan emosional, dengan intonasi dan gangguan yang bervariasi. Tujuannya adalah untuk meniru spontanitas dan ketidakpastian percakapan manusia di dunia nyata.

Pendekatan Grasslands: Tidak Terstruktur dan Otentik

Berbeda dengan komponen "Conversations" yang terstruktur, komponen "Grasslands" berfokus pada pekerja solo yang membuat rekaman yang tidak terstruktur dan terdengar alami dalam bahasa asli mereka. Para pekerja ini diberi jenis dan subkategori percakapan dan didorong untuk membiarkan percakapan mengalir dengan bebas, bahkan dengan kebisingan latar belakang yang didorong.

Komponen "Grasslands" mencakup lusinan subkategori, termasuk "pertanyaan Socrates," "bercerita reflektif," "skenario cinta romantis," "konfrontasi pahlawan-penjahat," dan "pemecahan teka-teki kolaboratif." Subkategori ini seringkali melibatkan persyaratan khusus, seperti aksen yang berbeda, efek suara, atau pola linguistik yang diciptakan.

Pendekatan "Grasslands" mencerminkan keinginan untuk menangkap nuansa dan kompleksitas percakapan manusia dengan cara yang lebih otentik dan tidak terbatas.

Ekonomi Pelatihan AI: Sekilas tentang Kompensasi

Para kontraktor Scale AI yang terlibat dalam Project Xylophone diberi kompensasi atas kontribusi mereka, menyoroti aspek ekonomi dari pelatihan AI. Menurut laporan, kontraktor dibayar beberapa dolar per tugas untuk pekerjaan mereka.

Struktur pembayaran untuk proyek "Grasslands" dilaporkan dimulai dari $3 per tugas tetapi kemudian dikurangi menjadi $1 per tugas. Setiap tugas melibatkan perekaman file audio, yang kemudian diunggah oleh kontraktor ke platform Scale AI dan ditranskripsikan secara manual.

Tarif pembayaran yang rendah menggarisbawahi tenaga kerja yang seringkali tidak terlihat yang masuk ke dalam pembuatan dan pelatihan model AI.

Pentingnya Kualitas Data: Menangkap Nuansa Ucapan Manusia

Keberhasilan model suara AI bergantung pada ketersediaan data berkualitas tinggi dalam jumlah besar. Project Xylophone mencerminkan upaya untuk menghasilkan data yang sesuai dengan menciptakan kembali skenario dunia nyata, seperti percakapan yang terdengar alami antar manusia.

Dokumen "Grasslands" secara eksplisit menginstruksikan kontraktor untuk memasukkan kata-kata pengisi seperti "uh" dalam transkripsi mereka. Perhatian terhadap detail ini menggarisbawahi pentingnya menangkap nuansa halus ucapan manusia, termasuk jeda, keraguan, dan isyarat nonverbal lainnya.

Dengan memasukkan elemen-elemen ini ke dalam data pelatihan, model AI dapat belajar menghasilkan percakapan yang lebih alami dan menarik.

Menyuntikkan Kepribadian ke dalam AI: Keunggulan Kompetitif

Project Xylophone adalah bagian dari tren yang lebih luas di antara perusahaan AI untuk menyuntikkan kepribadian ke dalam model AI mereka, berupaya membedakan diri di pasar yang semakin ramai.

Meta, misalnya, dilaporkan menjalankan proyek melalui Scale AI yang meminta pekerja gig melatih AI-nya untuk mengadopsi persona yang berbeda, seperti "penyihir yang bijaksana dan mistis" atau "mahasiswa teori musik yang sangat bersemangat."

Sam Altman dari OpenAI mengakui bahwa GPT-4o terbaru menjadi "terlalu menjilat dan menjengkelkan," mendorong pengaturan ulang untuk membuat balasannya lebih alami.

Upaya-upaya ini mencerminkan pengakuan bahwa model AI perlu lebih dari sekadar cerdas – mereka juga perlu disukai dan mudah dihubungi.

Dimensi Etis Pelatihan AI: Menyeimbangkan Akurasi dengan Bias

Seiring dengan semakin canggihnya model AI, kekhawatiran tentang bias dan pertimbangan etis telah meningkat, memicu perdebatan tentang pengembangan AI yang bertanggung jawab.

xAI telah memasarkan Grok sebagai chatbot yang lebih berani secara politik dibandingkan dengan apa yang disebut Musk sebagai saingan "woke", dengan metode pelatihan yang terkadang sangat condong ke pandangan sayap kanan atau kontrarian.

xAI juga telah meningkatkan upayanya untuk mengendalikan sisi Grok yang tidak terduga. Karyawan baru adalah "red teaming" Grok, menguji stres untuk jawaban yang tidak aman atau melanggar kebijakan, terutama pada topik kontroversial dan dalam mode "NSFW" atau "tidak terkendali".

Upaya-upaya ini menyoroti tantangan dalam menciptakan model AI yang informatif dan etis, dan kebutuhan akan pemantauan dan evaluasi yang berkelanjutan.

Evolusi Berkelanjutan dari Model Suara AI: Masa Depan Interaksi Tanpa Batas

Project Xylophone dan inisiatif serupa mewakili langkah maju yang signifikan dalam upaya menciptakan model suara AI yang dapat berinteraksi dengan manusia secara mulus. Seiring dengan terus berkembangnya teknologi AI, kita dapat mengharapkan untuk melihat asisten AI yang bahkan lebih canggih dan terdengar alami di masa depan.

Upaya untuk menciptakan model suara AI yang mirip manusia bukannya tanpa tantangan. Kekhawatiran tentang bias, pertimbangan etis, dan potensi penyalahgunaan tetap ada. Namun, potensi manfaat dari teknologi ini sangat besar, mulai dari meningkatkan aksesibilitas hingga meningkatkan komunikasi dan kolaborasi.

Seiring dengan semakin lazimnya model suara AI, penting untuk mengatasi tantangan ini secara proaktif dan memastikan bahwa teknologi ini digunakan secara bertanggung jawab dan etis. Masa depan model suara AI menjanjikan, tetapi terserah kita untuk membentuk masa depan itu dengan cara yang bermanfaat bagi seluruh umat manusia.

Upaya untuk menciptakan AI yang terdengar lebih manusiawi itu sulit, seperti yang terbukti dalam dokumen yang bocor. Tidak hanya AI harus berbicara dengan lancar dengan tata bahasa yang benar, tetapi juga harus memiliki kepribadian yang tampak nyata bagi orang yang berbicara dengannya. Tugas monumental inilah yang sekarang dihadapi perusahaan-perusahaan ini.