Hantu dalam Mesin: AI OpenAI Hafal Karya Hak Cipta?

Ribut yang Mendatang: Hak Cipta dalam Zaman AI

Dunia kecerdasan buatan (AI), terutamanya model bahasa besar (LLM) yang canggih dibangunkan oleh gergasi industri seperti OpenAI, sedang menghadapi badai undang-undang dan etika yang semakin membesar. Di tengah-tengah badai ini terletak persoalan asas: data apakah yang menggerakkan mesin berkuasa ini, dan adakah hak pencipta dihormati dalam proses tersebut? Tuduhan semakin meningkat, mencadangkan bahawa sejumlah besar bahan berhak cipta – novel, artikel, kod, dan banyak lagi – mungkin telah ‘ditelan’ oleh model-model ini semasa fasa latihan mereka, tanpa kebenaran atau pampasan yang diperlukan. Ini bukan sekadar perdebatan akademik; ia dengan pantas meningkat menjadi litigasi berisiko tinggi.

OpenAI mendapati dirinya semakin terjerat dalam pertempuran undang-undang yang dimulakan oleh pengarang, pengaturcara, dan pelbagai pemegang hak. Plaintif-plaintif ini berpendapat bahawa harta intelek mereka telah digunakan secara tidak wajar untuk membina model AI yang kini menjadi tajuk utama dan mengubah industri. Hujah mereka bergantung pada penegasan bahawa undang-undang hak cipta semasa tidak secara eksplisit membenarkan penggunaan karya terlindung secara borongan sebagai bahan latihan untuk sistem AI komersial. OpenAI, sebagai tindak balas, secara konsisten menggunakan doktrin ‘fair use’, prinsip undang-undang yang kompleks yang membenarkan penggunaan terhad bahan berhak cipta tanpa kebenaran dalam keadaan tertentu. Walau bagaimanapun, kebolehgunaan ‘fair use’ pada skala dan sifat latihan AI yang belum pernah terjadi sebelumnya kekal sebagai kawasan kelabu yang hangat dipertikaikan, menetapkan pentas untuk duluan undang-undang yang penting. Ketegangan teras berkisar sama ada mengubah karya berhak cipta menjadi corak statistik dalam model merupakan ‘penggunaan transformatif’ – elemen utama ‘fair use’ – atau sekadar pengeluaran semula tanpa kebenaran secara besar-besaran. Hasil daripada tuntutan mahkamah ini boleh membentuk trajektori masa depan pembangunan AI secara mendalam, berpotensi mengenakan kekangan atau kos yang signifikan kepada pencipta model.

Meninjau ke dalam Kotak Hitam: Kaedah Baharu untuk Mengesan Hafalan

Menambah bahan api kepada perdebatan hangat ini ialah kajian terkini yang dijalankan oleh pasukan penyelidik kolaboratif dari institusi terkemuka termasuk University of Washington, University of Copenhagen, dan Stanford University. Kerja mereka memperkenalkan teknik inovatif yang direka khusus untuk mengesan kejadian di mana model AI, walaupun yang hanya diakses melalui antara muka pengaturcaraan aplikasi (API) yang terhad seperti OpenAI, kelihatan telah ‘menghafal’ bahagian tertentu data latihan mereka. Ini adalah satu kejayaan kritikal kerana mengakses kerja dalaman atau set data latihan yang tepat bagi model komersial seperti GPT-4 biasanya mustahil bagi penyiasat luar.

Memahami bagaimana model-model ini beroperasi adalah kunci untuk memahami kepentingan kajian ini. Pada terasnya, LLM adalah enjin ramalan yang sangat canggih. Mereka dilatih menggunakan jumlah teks dan kod yang benar-benar besar, mempelajari hubungan statistik yang rumit antara perkataan, frasa, dan konsep. Proses pembelajaran ini membolehkan mereka menjana teks yang koheren, menterjemah bahasa, menulis pelbagai jenis kandungan kreatif, dan menjawab soalan dengan cara yang bermaklumat. Walaupun matlamatnya adalah untuk model menggeneralisasi corak dan bukannya sekadar menyimpan maklumat secara verbatim, skala data latihan yang besar menjadikan tahap hafalan tertentu hampir tidak dapat dielakkan. Fikirkan ia seperti seorang pelajar yang mengkaji buku teks yang tidak terkira banyaknya; walaupun mereka bertujuan untuk memahami konsep, mereka mungkin secara tidak sengaja menghafal ayat atau definisi tertentu, terutamanya yang tersendiri. Pemerhatian sebelumnya telah menunjukkan model penjanaan imej menghasilkan semula elemen yang boleh dikenali daripada filem yang mereka dilatih, dan model bahasa menjana teks yang sangat serupa dengan, atau disalin terus daripada, sumber seperti artikel berita. Fenomena ini menimbulkan kebimbangan serius tentang plagiarisme dan keaslian sebenar kandungan yang dijana AI.

Metodologi yang dicadangkan oleh penyelidik adalah bijak dan mendedahkan. Ia berpusat pada mengenal pasti dan menggunakan apa yang mereka istilahkan sebagai perkataan ‘high-surprisal’ (kejutan tinggi). Ini adalah perkataan yang kelihatan luar biasa atau tidak dijangka dari segi statistik dalam konteks ayat atau petikan tertentu. Pertimbangkan frasa: “Pelaut purba itu belayar berpandukan cahaya malap sekstan.” Perkataan “sekstan” mungkin dianggap ‘high-surprisal’ kerana, dalam korpus teks umum, perkataan seperti “bintang,” “bulan,” atau “kompas” mungkin lebih berkemungkinan secara statistik dalam konteks itu. Para penyelidik berhipotesis bahawa jika model benar-benar telah menghafal petikan teks tertentu semasa latihan, ia akan menjadi sangat baik dalam meramalkan perkataan unik dan ‘high-surprisal’ ini jika ia dikeluarkan daripada petikan tersebut.

Untuk menguji hipotesis ini, pasukan penyelidik secara sistematik menyiasat beberapa model utama OpenAI, termasuk GPT-4 yang berkuasa dan pendahulunya, GPT-3.5. Mereka mengambil petikan teks daripada sumber yang diketahui, seperti novel fiksyen popular dan artikel daripada The New York Times. Secara kritikal, mereka menutup atau mengeluarkan perkataan ‘high-surprisal’ yang dikenal pasti daripada petikan ini. Model-model itu kemudiannya digesa untuk mengisi tempat kosong – pada dasarnya, untuk ‘meneka’ perkataan yang hilang dan tidak mungkin secara statistik. Logik teras kajian ini meyakinkan: jika model secara konsisten dan tepat meramalkan perkataan ‘high-surprisal’ ini, ia sangat mencadangkan bahawa model itu bukan sahaja mempelajari corak bahasa umum tetapi sebenarnya mengekalkan ingatan khusus tentang urutan teks yang tepat itu daripada data latihannya. Peluang rawak atau pemahaman bahasa umum sahaja tidak mungkin menghasilkan tekaan yang begitu tepat untuk perkataan yang tidak biasa dalam konteks tertentu.

Penemuan: Gema Teks Berhak Cipta dalam Output AI

Hasil yang diperoleh daripada ujian teliti ini memberikan bukti yang meyakinkan, walaupun awal, menyokong dakwaan pelanggaran hak cipta. Menurut penemuan kajian yang diterbitkan, GPT-4, model OpenAI yang paling maju yang tersedia untuk umum pada masa penyelidikan, menunjukkan tanda-tanda signifikan telah menghafal bahagian verbatim buku fiksyen popular. Ini termasuk teks yang terdapat dalam set data khusus yang dikenali sebagai BookMIA, yang terdiri daripada sampel yang diekstrak daripada buku elektronik berhak cipta – set data yang sering terlibat dalam perbincangan tentang sumber latihan yang berpotensi melanggar. Model itu bukan sekadar mengingat semula tema atau gaya umum; ia secara tepat membina semula urutan teks yang mengandungi perkataan unik dan ‘high-surprisal’ tersebut, menunjukkan tahap pengekalan yang lebih mendalam daripada generalisasi corak semata-mata.

Tambahan pula, siasatan mendedahkan bahawa GPT-4 juga menunjukkan bukti menghafal segmen daripada artikel New York Times. Walau bagaimanapun, para penyelidik menyatakan bahawa kadar hafalan yang jelas untuk artikel berita adalah lebih rendah berbanding dengan yang diperhatikan untuk buku fiksyen. Perbezaan ini berpotensi disebabkan oleh pelbagai faktor, seperti kekerapan atau persembahan jenis teks yang berbeza ini dalam set data latihan asal, atau mungkin variasi dalam cara model memproses prosa kewartawanan berbanding naratif. Tanpa mengira kadar yang tepat, fakta bahawa hafalan berlaku merentasi pelbagai jenis kandungan berhak cipta – kedua-dua karya sastera dan karya kewartawanan – menguatkan hujah bahawa fenomena itu tidak terpencil kepada satu genre atau sumber sahaja.

Penemuan ini membawa beban yang besar dalam perbincangan undang-undang dan etika yang sedang berlangsung. Jika model seperti GPT-4 sememangnya mampu mengeluarkan semula petikan khusus dan berhak cipta yang menjadi bahan latihannya, ia merumitkan pembelaan ‘fair use’ OpenAI. ‘Fair use’ sering memihak kepada penggunaan yang mengubah karya asal; pengeluaran semula verbatim, walaupun tidak disengajakan atau probabilistik, menjauh daripada transformasi dan menuju ke arah penyalinan semata-mata. Bukti ini berpotensi digunakan oleh plaintif dalam tuntutan mahkamah hak cipta untuk berhujah bahawa amalan latihan OpenAI mengakibatkan penciptaan karya terbitan yang melanggar atau memudahkan pelanggaran langsung oleh output model. Ia menggariskan hubungan nyata antara data yang digunakan untuk latihan dan output khusus yang dijana oleh AI, menjadikan konsep abstrak ‘mempelajari corak’ terasa lebih dekat dengan pengeluaran semula konkrit.

Keperluan Mendesak untuk Kepercayaan dan Ketelusan dalam Pembangunan AI

Abhilasha Ravichander, seorang pelajar kedoktoran di University of Washington dan salah seorang pengarang bersama kajian itu, menekankan implikasi yang lebih luas daripada penyelidikan mereka. Beliau menekankan bahawa penemuan ini memberi penerangan penting tentang potensi ‘data kontroversial’ yang mungkin menjadi asas kepada banyak model AI kontemporari. Keupayaan untuk mengenal pasti kandungan yang dihafal memberikan tingkap, walau sekecil mana pun, ke dalam set data latihan yang sebaliknya legap yang digunakan oleh syarikat seperti OpenAI.

Ravichander menyuarakan sentimen yang semakin meningkat dalam komuniti penyelidikan AI dan di kalangan orang awam: “Untuk mempunyai model bahasa besar yang boleh dipercayai, kita memerlukan model yang boleh kita siasat, audit dan periksa secara saintifik.” Kenyataan ini menggariskan cabaran kritikal yang dihadapi oleh industri AI. Apabila model-model ini menjadi lebih bersepadu ke dalam pelbagai aspek masyarakat – daripada menjana artikel berita dan menulis kod kepada membantu dalam diagnosis perubatan dan analisis kewangan – keperluan untuk kepercayaan dan akauntabiliti menjadi amat penting. Pengguna, pengawal selia, dan orang awam memerlukan jaminan bahawa sistem ini beroperasi secara adil, boleh dipercayai, dan beretika. Sifat ‘kotak hitam’ kebanyakan LLM semasa, di mana penciptanya sendiri mungkin tidak memahami sepenuhnya setiap nuansa kerja dalaman mereka atau asal usul output tertentu, menghalang pembentukan kepercayaan ini.

Metodologi yang dicadangkan oleh kajian ini mewakili lebih daripada sekadar teknik untuk mengesan hafalan hak cipta; ia berfungsi sebagai alat yang berpotensi untuk pengauditan AI yang lebih luas. Keupayaan untuk menyiasat model, walaupun yang hanya diakses melalui API, membolehkan pengesahan dan analisis bebas. Ravichander seterusnya menekankan “keperluan mendesak untuk ketelusan data yang lebih besar dalam keseluruhan ekosistem.” Tanpa mengetahui data apa yang digunakan untuk melatih model-model ini, menjadi sangat sukar untuk menilai potensi bias, mengenal pasti kelemahan keselamatan, memahami sumber output yang berbahaya atau tidak tepat, atau, seperti yang diserlahkan oleh kajian ini, menentukan tahap potensi pelanggaran hak cipta. Seruan untuk ketelusan bukan sekadar akademik; ia adalah keperluan asas untuk membina masa depan AI yang bertanggungjawab dan mampan. Ini melibatkan pertukaran yang kompleks antara melindungi maklumat proprietari dan harta intelek (termasuk model itu sendiri) dan memastikan akauntabiliti dan keselamatan awam. Pembangunan alat dan rangka kerjapengauditan yang mantap, di samping piawaian yang lebih jelas untuk pendedahan data, menjadi semakin kritikal apabila AI meneruskan kemajuannya yang pesat.

Pendirian OpenAI dan Laluan yang Belum Diterokai

Menghadapi tekanan yang semakin meningkat daripada pencipta dan penggubal undang-undang, OpenAI secara konsisten menyokong persekitaran undang-undang dan kawal selia yang membenarkan penggunaan meluas bahan berhak cipta untuk melatih model AI. Syarikat itu berhujah bahawa fleksibiliti sedemikian adalah penting untuk inovasi dan untuk AS mengekalkan kelebihan daya saing dalam perlumbaan AI global. Usaha melobi mereka telah memberi tumpuan kepada meyakinkan kerajaan di seluruh dunia untuk mentafsir atau mengkodifikasikan undang-undang hak cipta sedia ada, terutamanya konsep ‘fair use’ di Amerika Syarikat, dengan cara yang memihak kepada pembangun AI. Mereka berpendapat bahawa melatih model pada set data yang pelbagai, termasuk karya berhak cipta, adalah penggunaan transformatif yang diperlukan untuk mencipta sistem AI yang berkuasa dan bermanfaat.

Walau bagaimanapun, menyedari kebimbangan yang semakin meningkat, OpenAI juga telah mengambil beberapa langkah untuk menangani isu tersebut, walaupun langkah-langkah itu sering dianggap tidak mencukupi oleh pengkritik. Syarikat itu telah memasuki perjanjian pelesenan kandungan dengan penerbit dan pencipta kandungan tertentu, mendapatkan kebenaran eksplisit untuk menggunakan bahan mereka. Perjanjian ini, walaupun signifikan, hanya mewakili sebahagian kecil daripada data yang mungkin digunakan untuk melatih model seperti GPT-4. Tambahan pula, OpenAI telah melaksanakan mekanisme ‘opt-out’ (pilih keluar). Ini membolehkan pemegang hak cipta secara rasmi meminta agar kandungan mereka tidak digunakan untuk tujuan latihan AI masa depan. Walaupun kelihatan sebagai langkah ke arah menghormati hak pencipta, keberkesanan dan kepraktisan sistem ‘opt-out’ ini boleh diperdebatkan. Ia meletakkan beban kepada pencipta individu untuk mengetahui bahawa karya mereka mungkin digunakan dan kemudian menavigasi prosedur khusus OpenAI untuk memilih keluar. Lebih-lebih lagi, mekanisme ini biasanya tidak menangani penggunaan kandungan dalam model yang telah dilatih.

Situasi semasa mencerminkan ketegangan asas: keinginan syarikat AI untuk memanfaatkan alam semesta digital maklumat yang luas untuk inovasi berbanding hak pencipta untuk mengawal dan mendapat manfaat daripada karya asli mereka. Kajian yang menunjukkan hafalan menambah satu lagi lapisan kerumitan, mencadangkan bahawa garis antara ‘belajar daripada’ dan ‘menyalin’ data adalah lebih kabur dan mungkin lebih kerap dilintasi daripada yang diakui sebelum ini oleh pembangun model. Laluan ke hadapan masih tidak menentu. Ia mungkin melibatkan perundangan baharu yang secara khusus menangani data latihan AI, keputusan mahkamah penting yang mentafsir undang-undang hak cipta sedia ada dalam konteks baharu ini, pembangunan amalan terbaik dan rangka kerja pelesenan seluruh industri, atau penyelesaian teknologi seperti penjejakan asal usul data yang lebih baik atau teknik untuk mengurangkan hafalan model. Apa yang kelihatan jelas ialah perdebatan mengenai AI dan hak cipta masih jauh dari berakhir; malah, ia mungkin baru sahaja bermula, dengan implikasi yang mendalam untuk masa depan kecerdasan buatan dan ekonomi kreatif. Penemuan mengenai hafalan berfungsi sebagai peringatan yang jelas bahawa data digital yang menggerakkan alat berkuasa ini mempunyai asal usul, pemilik, dan hak yang tidak boleh diabaikan.