Usaha AI untuk Suara Seperti Manusia: Rahsia Latihan xAI | ms

Usaha kecerdasan buatan yang boleh meniru interaksi manusia telah membawa kepada perkembangan yang menarik, dan kadang-kadang membimbangkan. Dalam usaha untuk mewujudkan pembantu AI yang bukan sahaja cerdas tetapi juga relatable, syarikat menggunakan pelbagai teknik untuk melatih model suara mereka. Pendedahan baru-baru ini menjelaskan satu usaha sedemikian: “Project Xylophone” xAI.

Di Dalam Project Xylophone: Mencipta AI Perbualan

Dokumen yang bocor telah mendedahkan cara dalaman Project Xylophone, inisiatif Scale AI yang direka untuk memperhalusi model suara xAI. Projek ini berkisar tentang melibatkan kontraktor untuk merakam diri mereka mengimprovisasi perbualan mengenai pelbagai subjek. Matlamat utamanya adalah untuk menerapkan model xAI dengan kualiti seperti manusia yang lebih semula jadi, menjauhkan diri daripada nada robotik yang sering mencirikan interaksi AI.

Kontraktor ini, yang diperoleh oleh syarikat pelabelan data Scale AI, diberi pampasan untuk merakam perbualan dengan rakan sebaya mereka mengenai topik dari yang biasa hingga yang imaginatif, semuanya untuk membuat model suara xAI terdengar lebih sahih. Sehingga April, Scale AI menguruskan sekurang-kurangnya 10 projek AI generatif untuk xAI, mencerminkan usaha yang intensif yang dicurahkan ke dalam bidang ini.

Dorongan seluruh industri untuk AI perbualan yang lebih banyak berpunca daripada keinginan untuk menarik pengguna ke versi premium dan berbayar perkhidmatan ini. Dengan menjadikan interaksi AI lebih menyeronokkan dan semula jadi, syarikat berharap dapat menarik pengguna untuk melabur dalam teknologi canggih ini.

Rangka Tindakan untuk Latihan Perbualan

Business Insider memperoleh satu siri dokumen Scale AI yang menawarkan pandangan terperinci tentang cara Project Xylophone beroperasi. Dokumen ini, termasuk arahan projek, garis panduan pengulas dan panduan topik perbualan, memberikan gambaran keseluruhan yang komprehensif tentang metodologi projek.

Walaupun model xAI khusus yang sedang dilatih kekal tidak didedahkan dalam dokumen, fokus projek pada “kualiti audio dan kelancaran semula jadi” mencadangkan penekanan yang kuat pada mewujudkan pengalaman pengguna yang lancar dan menarik. Kontraktor yang mempunyai pengalaman lakonan suara amat digalakkan untuk mengambil bahagian, mencerminkan kepentingan persembahan vokal dalam mencapai tahap realisme yang diinginkan.

Project Xylophone distrukturkan di sekitar dua komponen utama: “Conversations” dan “Grasslands.” Komponen “Conversations” melibatkan pasukan yang terdiri daripada tiga kontraktor yang terlibat dalam perbualan realistik melalui Zoom. Perbualan ini dipandu oleh hamparan yang mengandungi beratus-ratus gesaan, meliputi pelbagai topik, daripada taktik survival di dunia pasca apokaliptik hingga menguruskan kebimbangan dan merancang perjalanan antarabangsa.

Menyelami Gesaan Perbualan: Sekilas Pandang ke Dalam Imaginasi AI

Gesaan perbualan yang digunakan dalam Project Xylophone menawarkan gambaran yang menarik tentang jenis senario dan topik yang model AI sedang dilatih untuk ditangani. Gesaan itu terdiri daripada yang praktikal hingga yang falsafah, dan juga menyelami alam fiksyen sains.

Berikut adalah beberapa contoh permulaan perbualan yang digunakan dalam dokumen Scale AI:

Jika anda mereka “budaya” untuk penempatan Mars yang pertama, tradisi Bumi mana yang pasti anda ingin cipta semula, dan apa yang anda teruja untuk tinggalkan selama-lamanya?
Apakah “penjahat” dalam kehidupan seharian anda yang anda harap pasukan superhero boleh masuk dan membetulkan untuk semua orang?
Jika kiamat zombi melanda esok, apakah perkara pertama yang akan anda ambil dari rumah anda sebelum melarikan diri?
Bayangkan anda adalah ahli psikologi misi untuk koloni Mars—jenis personaliti atau sifat pelik apa yang anda secara diam-diam berharap untuk ditemui dalam rakan-rakan penjajah anda?
Apakah bencana paip yang paling diingati yang anda alami sebagai pemilik rumah—dan adakah anda cuba membaikinya sendiri atau segera menghubungi bantuan?
Adakah anda ingat kali pertama anda perlu meminta lebih banyak wang atau faedah yang lebih baik? Apa yang bermain di fikiran anda?

Gesaan ini direka untuk mendapatkan respons semula jadi dan tidak berskrip daripada kontraktor, yang kemudiannya boleh digunakan untuk melatih model AI untuk mengendalikan pelbagai senario perbualan.

Arahan untuk perbualan “baik” menekankan kepentingan berbunyi semula jadi dan emosi, dengan intonasi dan gangguan yang pelbagai. Matlamatnya adalah untuk meniru spontan dan ketidakpastian perbualan manusia dunia sebenar.

Pendekatan Grasslands: Tidak Berskrip dan Sahih

Berbeza dengan komponen “Conversations” yang berstruktur, komponen “Grasslands” memfokuskan pada pekerja solo yang mencipta rakaman bunyi semula jadi dan tidak berskrip dalam bahasa ibunda mereka. Pekerja ini diberi jenis perbualan dan subkategori dan digalakkan untuk membiarkan perbualan mengalir dengan bebas, malah bunyi latar belakang digalakkan.

Komponen “Grasslands” merangkumi berpuluh-puluh subkategori, termasuk “soalan Socratic,” “penceritaan reflektif,” “senario cinta sopan,” “konfrontasi wira-penjahat,” dan “penyelesaian teka-teki kolaboratif.” Subkategori ini sering melibatkan keperluan khusus, seperti aksen yang berbeza, kesan bunyi atau corak linguistik yang dicipta.

Pendekatan “Grasslands” mencerminkan keinginan untuk menangkap nuansa dan kerumitan perbualan manusia dengan cara yang lebih sahih dan tidak terkekang.

Ekonomi Latihan AI: Sekilas Pandang pada Pampasan

Kontraktor Scale AI yang terlibat dalam Project Xylophone diberi pampasan untuk sumbangan mereka, menyoroti aspek ekonomi latihan AI. Menurut laporan, kontraktor dibayar beberapa dolar setiap tugas untuk kerja mereka.

Struktur pembayaran untuk projek “Grasslands” dilaporkan bermula pada $3 setiap tugas tetapi kemudian dikurangkan kepada $1 setiap tugas. Setiap tugas melibatkan merakam fail audio, yang kemudian dimuat naik oleh kontraktor ke platform Scale AI dan ditranskripsikan secara manual.

Kadar bayaran yang rendah menggariskan tenaga kerja yang sering tidak kelihatan yang digunakan untuk mencipta dan melatih model AI.

Kepentingan Kualiti Data: Menangkap Nuansa Pertuturan Manusia

Kejayaan model suara AI bergantung pada ketersediaan sejumlah besar data berkualiti tinggi. Project Xylophone mencerminkan usaha untuk menjana data yang sesuai dengan mencipta semula senario dunia sebenar, seperti perbualan bunyi semula jadi antara orang.

Dokumen “Grasslands” secara jelas mengarahkan kontraktor untuk memasukkan perkataan pengisi seperti “uh” dalam transkripsi mereka. Perhatian terhadap perincian ini menggariskan kepentingan untuk menangkap nuansa halus pertuturan manusia, termasuk jeda, teragak-agak dan isyarat bukan lisan yang lain.

Dengan memasukkan elemen ini ke dalam data latihan, model AI boleh belajar untuk menghasilkan perbualan yang lebih semula jadi dan menarik.

Menyuntik Personaliti ke Dalam AI: Kelebihan Persaingan

Project Xylophone adalah sebahagian daripada trend yang lebih luas di kalangan syarikat AI untuk menyuntik personaliti ke dalam model AI mereka, berusaha untuk membezakan diri mereka dalam pasaran yang semakin sesak.

Meta, contohnya, dilaporkan menjalankan projek melalui Scale AI yang meminta pekerja gig melatih AInya untuk mengguna pakai personaliti yang berbeza, seperti “ahli sihir yang bijak dan mistik” atau “pelajar teori muzik yang teruja.”

Sam Altman OpenAI mengakui bahawa GPT-4o terkini telah menjadi “terlalu penjilat dan menjengkelkan,” mendorong penetapan semula untuk menjadikan balasannya lebih semula jadi.

Usaha ini mencerminkan pengiktirafan bahawa model AI perlu menjadi lebih daripada sekadar pintar – mereka juga perlu disukai dan relatable.

Dimensi Etika Latihan AI: Mengimbangkan Ketepatan dengan Bias

Apabila model AI menjadi lebih canggih, kebimbangan tentang berat sebelah dan pertimbangan etika telah berkembang, mencetuskan perdebatan tentang pembangunan AI yang bertanggungjawab.

xAI telah memasarkan Grok sebagai chatbot yang lebih berani dari segi politik berbanding apa yang dipanggil Musk sebagai pesaing “woke”, dengan kaedah latihan yang kadangkala sangat bergantung pada pandangan sayap kanan atau kontrarian.

xAI juga telah meningkatkan usahanya untuk mengawal sisi Grok yang tidak dapat diramalkan. Pekerja baharu ialah “pasukan merah” Grok, menguji tekanan untuk balasan yang tidak selamat atau melanggar dasar, terutamanya pada topik kontroversi dan dalam mod “NSFW” atau “tidak terkawal”.

Usaha ini menyoroti cabaran mewujudkan model AI yang bermaklumat mahupun beretika, dan keperluan untuk pemantauan dan penilaian berterusan.

Evolusi Berterusan Model Suara AI: Masa Depan Interaksi Lancar

Project Xylophone dan inisiatif serupa mewakili langkah penting ke hadapan dalam usaha untuk mewujudkan model suara AI yang boleh berinteraksi dengan lancar dengan manusia. Apabila teknologi AI terus berkembang, kita boleh menjangkakan untuk melihat pembantu AI yang lebih canggih dan bunyi semula jadi pada masa hadapan.

Usaha untuk mewujudkan model suara AI seperti manusia bukannya tanpa cabarannya. Kebimbangan tentang berat sebelah, pertimbangan etika dan potensi penyalahgunaan kekal. Walau bagaimanapun, potensi manfaat teknologi ini adalah besar, daripada meningkatkan kebolehcapaian kepada meningkatkan komunikasi dan kerjasama.

Apabila model suara AI menjadi lebih lazim, adalah penting untuk menangani cabaran ini secara proaktif dan memastikan teknologi ini digunakan secara bertanggungjawab dan beretika. Masa depan model suara AI menjanjikan banyak, tetapi terpulang kepada kita untuk membentuk masa depan itu dengan cara yang memberi manfaat kepada seluruh umat manusia.

Usaha untuk mencipta AI yang berbunyi lebih seperti manusia adalah sukar, seperti yang dibuktikan dalam dokumen yang bocor. Bukan sahaja AI mesti bercakap dengan lancar dengan tatabahasa yang betul, ia juga mesti mempunyai personaliti yang kelihatan nyata kepada orang yang bercakap dengannya. Tugas monumental ini adalah tempat syarikat-syarikat ini kini mendapati diri mereka.

dikemaskinikan pada 2025-06-07

# Chatbot # Grok # xAI