GPT-4o OpenAI Dituduh Pakai Data Latihan Berbayar

Perkembangan kecerdasan buatan yang tak henti-hentinya, dipelopori oleh raksasa seperti OpenAI, sering kali berbenturan dengan prinsip-prinsip kekayaan intelektual dan kepemilikan data yang sudah lama ada. Benturan ini sekali lagi memicu kontroversi, dengan tuduhan baru yang muncul bahwa model unggulan terbaru OpenAI, GPT-4o, mungkin telah dilatih menggunakan materi berhak cipta yang tersembunyi di balik paywall, berpotensi tanpa mendapatkan izin yang diperlukan. Klaim ini berasal dari kelompok pengawas yang baru dibentuk, AI Disclosures Project, menambahkan lapisan kompleksitas lain pada perdebatan yang sudah rumit seputar sumber data yang etis untuk melatih sistem AI yang canggih.

Gonggongan Sang Pengawas: Tuduhan dari AI Disclosures Project

Diluncurkan pada tahun 2024, AI Disclosures Project memposisikan dirinya sebagai entitas nirlaba yang didedikasikan untuk meneliti praktik-praktik yang seringkali buram dalam industri AI. Pendirinya termasuk tokoh-tokoh terkenal seperti pengusaha media Tim O’Reilly, pendiri O’Reilly Media, penerbit terkemuka buku-buku teknis, dan ekonom Ilan Strauss. Kaitan dengan O’Reilly Media ini sangat relevan, karena laporan awal proyek yang mengejutkan ini berfokus secara khusus pada dugaan keberadaan konten buku O’Reilly yang berbayar dalam dataset pelatihan GPT-4o.

Pernyataan utama dari studi mereka bersifat provokatif: meskipun tidak ada perjanjian lisensi yang diketahui antara OpenAI dan O’Reilly Media, model GPT-4o menunjukkan tingkat keakraban yang sangat tinggi dengan konten yang berasal langsung dari buku-buku berhak cipta O’Reilly. Keakraban ini, menurut laporan tersebut, sangat menyarankan bahwa materi berbayar ini dimasukkan ke dalam korpus data yang luas yang digunakan untuk membangun kemampuan model. Studi ini menyoroti perbedaan signifikan dibandingkan dengan model OpenAI yang lebih lama, terutama GPT-3.5 Turbo, menyiratkan potensi pergeseran atau perluasan dalam praktik akuisisi data menjelang pengembangan GPT-4o.

Implikasinya sangat besar. Jika konten berpemilik dan berbayar dicerna oleh model AI tanpa otorisasi atau kompensasi, hal itu menimbulkan pertanyaan mendasar tentang hukum hak cipta di era AI generatif. Penerbit dan penulis mengandalkan model langganan atau pembelian, yang didasarkan pada eksklusivitas konten mereka. Dugaan penggunaan materi ini untuk pelatihan dapat dilihat sebagai merusak model bisnis ini, berpotensi menurunkan nilai konten yang membutuhkan investasi signifikan untuk dibuat. Tuduhan spesifik ini melampaui pengikisan (scraping) situs web yang tersedia untuk umum, merambah ke wilayah mengakses konten yang secara eksplisit ditujukan untuk pelanggan berbayar.

Mengintip ke dalam Kotak Hitam: Serangan Inferensi Keanggotaan (Membership Inference Attack)

Untuk mendukung klaim mereka, para peneliti di AI Disclosures Project menggunakan teknik canggih yang dikenal sebagai “membership inference attack,” secara khusus menggunakan metode yang mereka sebut DE-COP. Ide inti di balik pendekatan ini adalah untuk menguji apakah model AI telah “menghafal” atau setidaknya mengembangkan keakraban yang kuat dengan potongan teks tertentu. Intinya, serangan tersebut menyelidiki model untuk melihat apakah ia dapat secara andal membedakan antara bagian teks asli (dalam hal ini, dari buku-buku O’Reilly) dan versi parafrasa yang dibuat dengan hati-hati dari bagian yang sama, yang dihasilkan oleh AI lain.

Logika yang mendasarinya adalah jika sebuah model secara konsisten menunjukkan kemampuan yang lebih tinggi dari acak untuk mengidentifikasi teks asli yang ditulis manusia dibandingkan dengan parafrasa yang mirip, ini menyiratkan model tersebut telah menemukan teks asli itu sebelumnya – kemungkinan selama fase pelatihannya. Ini mirip dengan menguji apakah seseorang mengenali foto spesifik yang kurang dikenal yang mereka klaim belum pernah dilihat; pengenalan yang konsisten menunjukkan paparan sebelumnya.

Skala pengujian AI Disclosures Project cukup besar. Mereka menggunakan 13.962 kutipan paragraf berbeda yang diambil dari 34 buku O’Reilly Media yang berbeda. Kutipan-kutipan ini mewakili jenis konten khusus bernilai tinggi yang biasanya ditemukan di balik paywall penerbit. Studi tersebut kemudian mengukur kinerja GPT-4o dan pendahulunya, GPT-3.5 Turbo, pada tugas diferensiasi ini.

Hasilnya, seperti yang disajikan dalam laporan, sangat mencolok. GPT-4o menunjukkan kemampuan yang meningkat secara signifikan untuk mengenali konten O’Reilly yang berbayar. Kinerjanya diukur menggunakan skor AUROC (Area Under the Receiver Operating Characteristic curve), metrik umum untuk mengevaluasi kinerja pengklasifikasi biner. GPT-4o mencapai skor AUROC sebesar 82%. Sebaliknya, GPT-3.5 Turbo mencetak skor sedikit di atas 50%, yang pada dasarnya setara dengan tebakan acak – menunjukkan sedikit atau tidak ada pengenalan spesifik terhadap materi yang diuji. Perbedaan mencolok ini, menurut laporan tersebut, memberikan bukti yang meyakinkan, meskipun tidak langsung, bahwa konten berbayar tersebut memang merupakan bagian dari diet pelatihan GPT-4o. Skor 82% menunjukkan sinyal yang kuat, jauh melampaui apa yang diharapkan secara kebetulan atau pengetahuan umum.

Peringatan Penting dan Pertanyaan yang Belum Terjawab

Meskipun temuan tersebut menyajikan narasi yang meyakinkan, rekan penulis studi tersebut, termasuk peneliti AI Sruly Rosenblat, dengan terpuji mengakui potensi keterbatasan yang melekat dalam metodologi mereka dan sifat kompleks dari pelatihan AI. Salah satu peringatan signifikan yang mereka angkat adalah kemungkinan pencernaan data tidak langsung (indirect data ingestion). Mereka mencatat, mungkin saja pengguna ChatGPT (antarmuka populer OpenAI) mungkin telah menyalin dan menempelkan kutipan dari buku O’Reilly yang berbayar langsung ke antarmuka obrolan untuk berbagai tujuan, seperti mengajukan pertanyaan tentang teks atau meminta ringkasan. Jika ini terjadi cukup sering, model dapat mempelajari konten secara tidak langsung melalui interaksi pengguna, bukan melalui penyertaan langsung dalam dataset pelatihan awal. Memisahkan paparan pelatihan langsung dari pembelajaran tidak langsung melalui prompt pengguna tetap menjadi tantangan signifikan dalam forensik AI.

Lebih lanjut, cakupan studi ini tidak meluas ke iterasi model OpenAI yang paling mutakhir atau khusus yang mungkin telah dikembangkan atau dirilis bersamaan atau setelah siklus pelatihan utama GPT-4o. Model yang berpotensi mencakup GPT-4.5 (jika ada di bawah nomenklatur atau tingkat kemampuan spesifik tersebut) dan model yang berfokus pada penalaran seperti o3-mini dan o1 tidak dikenai serangan inferensi keanggotaan yang sama. Hal ini menyisakan pertanyaan terbuka tentang apakah praktik sumber data mungkin telah berkembang lebih lanjut, atau apakah model-model baru ini menunjukkan pola keakraban yang serupa dengan konten berbayar. Siklus iterasi yang cepat dalam pengembangan AI berarti bahwa setiap analisis sesaat berisiko menjadi sedikit usang hampir seketika.

Keterbatasan ini tidak serta merta membatalkan temuan inti studi, tetapi menambahkan lapisan nuansa penting. Membuktikan secara definitif apa yang ada di dalam terabyte data yang digunakan untuk melatih model dasar sangatlah sulit. Serangan inferensi keanggotaan menawarkan bukti probabilistik, menunjukkan kemungkinan daripada menawarkan kepastian mutlak. OpenAI, seperti laboratorium AI lainnya, menjaga komposisi data pelatihannya dengan ketat, dengan alasan kekhawatiran kepemilikan dan sensitivitas kompetitif.

Konflik yang Lebih Luas: Pertarungan Hak Cipta di Arena AI

Tuduhan yang dilontarkan oleh AI Disclosures Project tidak muncul dalam ruang hampa. Mereka mewakili pertempuran terbaru dalam konflik yang jauh lebih luas dan berkelanjutan antara pengembang AI dan pencipta atas penggunaan materi berhak cipta untuk tujuan pelatihan. OpenAI, bersama dengan pemain terkemuka lainnya seperti Google, Meta, dan Microsoft, mendapati dirinya terlibat dalam beberapa tuntutan hukum tingkat tinggi. Tantangan hukum ini, yang diajukan oleh penulis, seniman,organisasi berita, dan pemegang hak lainnya, umumnya menuduh pelanggaran hak cipta yang meluas yang berasal dari pengikisan dan pencernaan tanpa izin sejumlah besar teks dan gambar dari internet untuk melatih model AI generatif.

Pembelaan inti yang sering diajukan oleh perusahaan AI bergantung pada doktrin penggunaan wajar (fair use) (di Amerika Serikat) atau pengecualian serupa di yurisdiksi lain. Mereka berpendapat bahwa menggunakan karya berhak cipta untuk pelatihan merupakan penggunaan “transformatif” – model AI tidak hanya mereproduksi karya asli tetapi menggunakan data untuk mempelajari pola, gaya, dan informasi untuk menghasilkan keluaran yang sama sekali baru. Di bawah interpretasi ini, proses pelatihan itu sendiri, yang bertujuan untuk menciptakan alat baru yang kuat, harus diizinkan tanpa memerlukan lisensi untuk setiap bagian data yang dicerna.

Namun, pemegang hak dengan keras menentang pandangan ini. Mereka berpendapat bahwa skala penyalinan yang terlibat, sifat komersial dari produk AI yang sedang dibangun, dan potensi keluaran AI untuk bersaing secara langsung dengan dan menggantikan karya asli sangat memberatkan temuan penggunaan wajar. Argumennya adalah bahwa perusahaan AI membangun perusahaan bernilai miliaran dolar di atas karya kreatif tanpa memberikan kompensasi kepada pencipta.

Dengan latar belakang litigasi ini, OpenAI secara proaktif berusaha mengurangi beberapa risiko dengan membuat kesepakatan lisensi dengan berbagai penyedia konten. Perjanjian telah diumumkan dengan penerbit berita besar (seperti Associated Press dan Axel Springer), platform media sosial (seperti Reddit), dan perpustakaan media stok (seperti Shutterstock). Kesepakatan ini memberi OpenAI akses sah ke dataset spesifik dengan imbalan pembayaran, berpotensi mengurangi ketergantungannya pada data hasil kikisan web yang berpotensi melanggar. Perusahaan juga dilaporkan telah mempekerjakan jurnalis, menugaskan mereka untuk membantu menyempurnakan dan meningkatkan kualitas serta keandalan keluaran modelnya, menunjukkan kesadaran akan perlunya masukan berkualitas tinggi, yang berpotensi dikurasi.

Efek Riak: Kekhawatiran Ekosistem Konten

Laporan AI Disclosures Project memperluas kekhawatirannya melampaui implikasi hukum langsung bagi OpenAI. Ini membingkai masalah ini sebagai ancaman sistemik yang dapat berdampak negatif pada kesehatan dan keragaman seluruh ekosistem konten digital. Studi ini mengemukakan lingkaran umpan balik yang berpotensi merusak: jika perusahaan AI dapat dengan bebas menggunakan konten berkualitas tinggi yang dibuat secara profesional (termasuk materi berbayar) tanpa memberikan kompensasi kepada pencipta, hal itu mengikis kelangsungan finansial untuk memproduksi konten semacam itu.

Pembuatan konten profesional – baik itu jurnalisme investigatif, manual teknis mendalam, penulisan fiksi, atau penelitian akademis – seringkali membutuhkan waktu, keahlian, dan investasi finansial yang signifikan. Paywall dan model langganan seringkali merupakan mekanisme penting untuk mendanai pekerjaan ini. Jika aliran pendapatan yang mendukung upaya ini berkurang karena konten tersebut secara efektif digunakan untuk melatih sistem AI pesaing tanpa imbalan, insentif untuk menciptakan konten berkualitas tinggi dan beragam dapat menurun. Hal ini dapat menyebabkan publik yang kurang informasi, pengurangan sumber daya pengetahuan khusus, dan berpotensi internet didominasi oleh konten berkualitas rendah atau buatan AI yang kekurangan keahlian dan verifikasi manusia.

Akibatnya, AI Disclosures Project sangat menganjurkan transparansi dan akuntabilitas yang lebih besar dari perusahaan AI mengenai praktik data pelatihan mereka. Mereka menyerukan penerapan kebijakan yang kuat dan kerangka kerja peraturan potensial yang memastikan pencipta konten diberi kompensasi secara adil ketika karya mereka berkontribusi pada pengembangan model AI komersial. Hal ini menggemakan seruan yang lebih luas dari kelompok pencipta di seluruh dunia yang mencari mekanisme – baik melalui perjanjian lisensi, sistem royalti, atau perundingan bersama – untuk memastikan mereka menerima bagian dari nilai yang dihasilkan oleh sistem AI yang dilatih pada kekayaan intelektual mereka. Perdebatan berpusat pada penemuan keseimbangan berkelanjutan di mana inovasi AI dapat berkembang bersama ekosistem yang berkembang untuk kreativitas dan generasi pengetahuan manusia. Penyelesaian pertempuran hukum yang sedang berlangsung dan potensi undang-undang baru atau standar industri akan sangat penting dalam membentuk keseimbangan masa depan ini. Pertanyaan tentang bagaimana melacak asal data dan mengatribusikan nilai dalam model AI yang masif dan kompleks tetap menjadi rintangan teknis dan etis yang signifikan.