Perkembangan pesat kecerdasan buatan (AI), yang diterajui oleh gergasi seperti OpenAI, sering kali bertembung dengan prinsip harta intelek dan pemilikan data yang telah lama wujud. Pertembungan ini sekali lagi mencetuskan kontroversi, dengan dakwaan baru muncul bahawa model perdana terbaru OpenAI, GPT-4o, mungkin telah dilatih menggunakan bahan berhak cipta yang tersembunyi di sebalik ‘paywall’ (dinding berbayar), berpotensi tanpa mendapatkan kebenaran yang diperlukan. Dakwaan ini berasal daripada kumpulan pemerhati yang baru ditubuhkan, AI Disclosures Project, menambah satu lagi lapisan kerumitan kepada perdebatan yang sudah rumit mengenai sumber data yang beretika untuk melatih sistem AI yang canggih.
Salakan Badan Pemerhati: Dakwaan daripada AI Disclosures Project
Dilancarkan pada tahun 2024, AI Disclosures Project meletakkan dirinya sebagai entiti bukan untung yang berdedikasi untuk meneliti amalan yang sering kali kabur dalam industri AI. Pengasasnya termasuk tokoh terkenal seperti usahawan media Tim O’Reilly, pengasas O’Reilly Media, penerbit terkemuka buku teknikal, dan ahli ekonomi Ilan Strauss. Kaitan dengan O’Reilly Media ini amat relevan, kerana laporan awal projek yang menggemparkan itu memberi tumpuan khusus kepada dakwaan kehadiran kandungan buku O’Reilly yang dilindungi ‘paywall’ dalam set data latihan GPT-4o.
Penegasan utama kajian mereka adalah provokatif: walaupun tiada perjanjian pelesenan yang diketahui antara OpenAI dan O’Reilly Media, model GPT-4o menunjukkan tahap kebiasaan yang sangat tinggi dengan kandungan yang diperoleh secara langsung daripada buku berhak cipta O’Reilly. Kebiasaan ini, menurut laporan itu, sangat mencadangkan bahawa bahan ‘paywall’ ini telah dimasukkan ke dalam korpus data yang luas yang digunakan untuk membina keupayaan model. Kajian itu menonjolkan perbezaan yang ketara berbanding model OpenAI yang lebih lama, terutamanya GPT-3.5 Turbo, membayangkan potensi peralihan atau pengembangan dalam amalan pemerolehan data menjelang pembangunan GPT-4o.
Implikasinya adalah besar. Jika kandungan proprietari berbayar dicerna oleh model AI tanpa kebenaran atau pampasan, ia menimbulkan persoalan asas tentang undang-undang hak cipta dalam era AI generatif. Penerbit dan pengarang bergantung pada model langganan atau pembelian, yang didasarkan pada eksklusiviti kandungan mereka. Dakwaan penggunaan bahan ini untuk latihan boleh dilihat sebagai menjejaskan model perniagaan ini, berpotensi menurunkan nilai kandungan yang memerlukan pelaburan besar untuk dicipta. Tuduhan khusus ini melangkaui pengikisan laman web yang tersedia secara umum, meneroka wilayah mengakses kandungan yang secara eksplisit ditujukan untuk pelanggan berbayar.
Mengintai di dalam Kotak Hitam: Serangan ‘Membership Inference’
Untuk mengesahkan dakwaan mereka, para penyelidik di AI Disclosures Project menggunakan teknik canggih yang dikenali sebagai “serangan ‘membership inference’,” khususnya menggunakan kaedah yang mereka panggil DE-COP. Idea teras di sebalik pendekatan ini adalah untuk menguji sama ada model AI telah “menghafal” atau sekurang-kurangnya membangunkan kebiasaan yang kuat dengan cebisan teks tertentu. Pada dasarnya, serangan itu menyiasat model untuk melihat sama ada ia boleh membezakan dengan pasti antara petikan teks asal (dalam kes ini, daripada buku O’Reilly) dan versi parafrasa yang dibina dengan teliti bagi petikan yang sama, yang dijana oleh AI lain.
Logik asasnya ialah jika model secara konsisten menunjukkan keupayaan yang lebih tinggi daripada rawak untuk mengenal pasti teks asal yang ditulis oleh manusia berbanding parafrasa yang hampir sama, ia membayangkan model itu telah menemui teks asal itu sebelum ini – kemungkinan besar semasa fasa latihannya. Ia serupa dengan menguji sama ada seseorang mengenali foto tertentu yang kurang dikenali yang mereka dakwa tidak pernah dilihat; pengecaman yang konsisten mencadangkan pendedahan sebelumnya.
Skala ujian AI Disclosures Project adalah besar. Mereka menggunakan 13,962 petikan perenggan berbeza yang diambil daripada 34 buku O’Reilly Media yang berlainan. Petikan ini mewakili jenis kandungan khusus bernilai tinggi yang biasanya ditemui di sebalik ‘paywall’ penerbit. Kajian itu kemudian mengukur prestasi kedua-dua GPT-4o dan pendahulunya, GPT-3.5 Turbo, pada tugas pembezaan ini.
Hasilnya, seperti yang dibentangkan dalam laporan itu, adalah mengejutkan. GPT-4o menunjukkan keupayaan yang meningkat dengan ketara untuk mengenali kandungan O’Reilly yang dilindungi ‘paywall’. Prestasinya dikira menggunakan skor AUROC (Area Under the Receiver Operating Characteristic curve), metrik biasa untuk menilai prestasi pengelas binari. GPT-4o mencapai skor AUROC sebanyak 82%. Sebaliknya, GPT-3.5 Turbo mendapat skor hanya melebihi 50%, yang pada asasnya bersamaan dengan tekaan rawak – menunjukkan sedikit atau tiada pengecaman khusus terhadap bahan yang diuji. Perbezaan ketara ini, menurut laporan itu, memberikan bukti yang meyakinkan, walaupun tidak langsung, bahawa kandungan ‘paywall’ itu sememangnya sebahagian daripada diet latihan GPT-4o. Skor 82% mencadangkan isyarat yang kuat, jauh melebihi apa yang dijangkakan secara kebetulan atau pengetahuan umum.
Kaveat Perlu dan Persoalan Belum Terjawab
Walaupun penemuan itu menyajikan naratif yang meyakinkan, penulis bersama kajian itu, termasuk penyelidik AI Sruly Rosenblat, dengan terpuji mengakui potensi batasan yang wujud dalam metodologi mereka dan sifat kompleks latihan AI. Satu kaveat penting yang mereka bangkitkan ialah kemungkinan pengingesan data tidak langsung. Adalah mungkin, mereka perhatikan, bahawa pengguna ChatGPT (antara muka popular OpenAI) mungkin telah menyalin dan menampal petikan daripada buku O’Reilly yang dilindungi ‘paywall’ terus ke dalam antara muka sembang untuk pelbagai tujuan, seperti bertanya soalan tentang teks atau meminta ringkasan. Jika ini berlaku cukup kerap, model itu boleh mempelajari kandungan secara tidak langsung melalui interaksi pengguna, bukannya melalui kemasukan langsung dalam set data latihan awal. Membezakan pendedahan latihan langsung daripada pembelajaran tidak langsung melalui gesaan pengguna kekal sebagai cabaran penting dalam forensik AI.
Tambahan pula, skop kajian tidak meliputi lelaran model OpenAI yang paling terkini atau khusus yang mungkin telah dibangunkan atau dikeluarkan serentak atau selepas kitaran latihan utama GPT-4o. Model yang berpotensi termasuk GPT-4.5 (jika ia wujud di bawah tatanama atau tahap keupayaan khusus itu) dan model yang memfokuskan penaakulan seperti o3-mini dan o1 tidak tertakluk kepada serangan ‘membership inference’ yang sama. Ini membiarkan persoalan terbuka sama ada amalan penyumberan data mungkin telah berkembang lebih jauh, atau jika model yang lebih baru ini menunjukkan corak kebiasaan yang serupa dengan kandungan ‘paywall’. Kitaran lelaran pantas dalam pembangunan AI bermakna sebarang analisis sekilas berisiko menjadi sedikit lapuk hampir serta-merta.
Batasan ini tidak semestinya membatalkan penemuan teras kajian, tetapi ia menambah lapisan nuansa yang penting. Membuktikan secara muktamad apa yang terkandung dalam terabait data yang digunakan untuk melatih model asas adalah sangat sukar. Serangan ‘membership inference’ menawarkan bukti kebarangkalian, mencadangkan kemungkinan bukannya menawarkan kepastian mutlak. OpenAI, seperti makmal AI lain, menjaga komposisi data latihannya dengan rapi, memetik kebimbangan proprietari dan sensitiviti persaingan.
Konflik Lebih Luas: Pertarungan Hak Cipta di Arena AI
Dakwaan yang dilemparkan oleh AI Disclosures Project tidak wujud dalam vakum. Ia mewakili pertempuran terbaru dalam konflik yang lebih luas dan berterusan antara pembangun AI dan pencipta mengenai penggunaan bahan berhak cipta untuk tujuan latihan. OpenAI, bersama pemain terkemuka lain seperti Google, Meta, dan Microsoft, mendapati dirinya terlibat dalam pelbagai tuntutan mahkamah berprofil tinggi. Cabaran undang-undang ini, yang dibawa oleh pengarang, artis, organisasi berita, dan pemegang hak lain, secara amnya mendakwa pelanggaran hak cipta yang meluas berpunca daripada pengikisan dan pengingesan tanpa kebenaran sejumlah besar teks dan imej dari internet untuk melatih model AI generatif.
Pembelaan teras yang sering dikemukakan oleh syarikat AI bergantung pada doktrin penggunaan saksama (‘fair use’) (di Amerika Syarikat) atau pengecualian serupa dalam bidang kuasa lain. Mereka berhujah bahawa menggunakan karya berhak cipta untuk latihan merupakan penggunaan “transformatif” – model AI bukan sekadar menghasilkan semula karya asal tetapi menggunakan data untuk mempelajari corak, gaya, dan maklumat untuk menjana output yang sama sekali baru. Di bawah tafsiran ini, proses latihan itu sendiri, yang bertujuan untuk mencipta alat baru yang berkuasa, harus dibenarkan tanpa memerlukan lesen untuk setiap cebisan data yang dicerna.
Walau bagaimanapun, pemegang hak membantah keras pandangan ini. Mereka berhujah bahawa skala penyalinan yang terlibat, sifat komersial produk AI yang dibina, dan potensi output AI untuk bersaing secara langsung dengan dan menggantikan karya asal sangat membebankan terhadap penemuan penggunaan saksama. Pertikaiannya ialah syarikat AI membina perusahaan berbilion dolar di atas hasil kerja kreatif tanpa memberi pampasan kepada pencipta.
Berlatarbelakangkan litigasi ini, OpenAI secara proaktif telah berusaha untuk mengurangkan beberapa risiko dengan memeterai perjanjian pelesenan dengan pelbagai penyedia kandungan. Perjanjian telah diumumkan dengan penerbit berita utama (seperti Associated Press dan Axel Springer), platform media sosial (seperti Reddit), dan perpustakaan media stok (seperti Shutterstock). Tawaran ini memberikan OpenAI akses sah kepada set data tertentu sebagai pertukaran untuk pembayaran, berpotensi mengurangkan kebergantungannya pada data kikisan web yang berpotensi melanggar hak cipta. Syarikat itu juga dilaporkan telah mengupah wartawan, menugaskan mereka untuk membantu memperhalusi dan meningkatkan kualiti serta kebolehpercayaan output modelnya, mencadangkan kesedaran tentang keperluan untuk input berkualiti tinggi, yang berpotensi disusun rapi.
Kesan Riak: Kebimbangan Ekosistem Kandungan
Laporan AI Disclosures Project meluaskan kebimbangannya melangkaui implikasi undang-undang segera untuk OpenAI. Ia membingkai isu itu sebagai ancaman sistemik yang boleh memberi kesan negatif kepada kesihatan dan kepelbagaian keseluruhan ekosistem kandungan digital. Kajian itu mengemukakan gelung maklum balas yang berpotensi merosakkan: jika syarikat AI boleh menggunakan kandungan berkualiti tinggi yang dicipta secara profesional (termasuk bahan ‘paywall’) secara bebas tanpa memberi pampasan kepada pencipta, ia menghakis daya maju kewangan untuk menghasilkan kandungan sedemikian pada mulanya.
Penciptaan kandungan profesional – sama ada kewartawanan penyiasatan, manual teknikal mendalam, penulisan fiksyen, atau penyelidikan akademik – sering memerlukan masa, kepakaran, dan pelaburan kewangan yang ketara. ‘Paywall’ dan model langganan sering menjadi mekanisme penting untuk membiayai kerja ini. Jika aliran pendapatan yang menyokong usaha ini berkurangan kerana kandungan itu secara efektif digunakan untuk melatih sistem AI yang bersaing tanpa imbuhan, insentif untuk mencipta kandungan berkualiti tinggi dan pelbagai boleh menurun. Ini boleh membawa kepada orang awam yang kurang bermaklumat, pengurangan sumber pengetahuan khusus, dan berpotensi internet yang didominasi oleh kandungan berkualiti rendah atau dijana AI yang kekurangan kepakaran dan pengesahan manusia.
Akibatnya, AI Disclosures Project menyokong kuat untuk ketelusan dan akauntabiliti yang lebih besar daripada syarikat AI mengenai amalan data latihan mereka. Mereka menyeru pelaksanaan dasar yang mantap dan berpotensi rangka kerja kawal selia yang memastikan pencipta kandungan diberi pampasan yang adil apabila karya mereka menyumbang kepada pembangunan model AI komersial. Ini menggemakan seruan yang lebih luas daripada kumpulan pencipta di seluruh dunia yang mencari mekanisme – sama ada melalui perjanjian pelesenan, sistem royalti, atau perundingan kolektif – untuk memastikan mereka menerima bahagian nilai yang dijana oleh sistem AI yang dilatih pada harta intelek mereka. Perdebatan tertumpu pada mencari keseimbangan yang mampan di mana inovasi AI boleh berkembang maju di samping ekosistem yang berkembang pesat untuk kreativiti dan penjanaan pengetahuan manusia. Penyelesaian pertempuran undang-undang yang sedang berjalan dan potensi untuk perundangan baru atau piawaian industri akan menjadi kritikal dalam membentuk keseimbangan masa depan ini. Persoalan tentang cara mengesan asal usul data dan mengaitkan nilai dalam model AI yang besar dan kompleks kekal sebagai halangan teknikal dan etika yang signifikan.