Reddit Saman Anthropic Isu Latihan AI

Reddit telah memulakan tindakan undang-undang terhadap Anthropic, sebuah syarikat kecerdasan buatan (AI), mendakwa penggunaan tanpa kebenaran kandungan yang dihasilkan pengguna untuk melatih chatbot AI, Claude. Saman itu, yang difailkan di Mahkamah Tinggi California di San Francisco, menuduh Anthropic “mengikis (scraping)” jutaan komen daripada platform Reddit tanpa kebenaran, melanggar syarat perkhidmatan syarikat dan terlibat dalam persaingan tidak adil.

Dakwaan Pengikisan Data

Inti saman itu adalah dakwaan Reddit bahawa Anthropic menggunakan bot automatik untuk mengakses dan mengekstrak kandungan daripada platformnya, walaupun permintaan jelas untuk menghentikan aktiviti sedemikian. Amalan ini, yang dikenali sebagai “mengikis,” melibatkan pengumpulan data secara sistematik daripada laman web, selalunya tanpa persetujuan laman web tersebut. Reddit menegaskan bahawa Anthropic menggunakan data yang dikikis ini untuk melatih chatbot Claude, dengan berkesan memanfaatkan maklumat peribadi pengguna Reddit tanpa pengetahuan atau kebenaran mereka.

Ketua Pegawai Undang-Undang Reddit, Ben Lee, menekankan pendirian syarikat mengenai penggunaan data, menyatakan bahawa “syarikat AI tidak seharusnya dibenarkan untuk mengikis maklumat dan kandungan daripada orang ramai tanpa batasan yang jelas tentang cara mereka boleh menggunakan data itu.” Kenyataan ini menggariskan kebimbangan Reddit bahawa syarikat AI mengeksploitasi kandungan yang dihasilkan pengguna tanpa menyediakan perlindungan yang mencukupi untuk privasi pengguna dan perlindungan data.

Anthropic, sebagai tindak balas kepada dakwaan Reddit, mengeluarkan kenyataan menyatakan rasa tidak setuju dengan dakwaan itu dan menegaskan niatnya untuk “membela diri dengan bersungguh-sungguh.” Pembelaan syarikat itu mungkin akan bergantung pada hujah yang berkaitan dengan penggunaan wajar (fair use), sifat data yang tersedia secara umum, dan sejauh mana amalan latihan AI mematuhi piawaian undang-undang dan etika.

Perjanjian Pelesenan Reddit

Tindakan undang-undang terhadap Anthropic hadir dalam konteks perjanjian pelesenan Reddit yang sedia ada dengan syarikat AI lain, termasuk Google dan OpenAI. Perjanjian ini membenarkan syarikat tersebut melatih sistem AI mereka pada repositori besar ulasan awam Reddit, yang dihasilkan oleh lebih daripada 100 juta pengguna harian. Sebagai pertukaran untuk akses kepada data ini, Reddit menerima pampasan dan, yang lebih penting, keupayaan untuk menguatkuasakan perlindungan pengguna.

Menurut Ben Lee, perjanjian pelesenan ini “membolehkan kami menguatkuasakan perlindungan yang bermakna untuk pengguna kami, termasuk hak untuk memadamkan kandungan anda, perlindungan privasi pengguna, dan menghalang pengguna daripada menjadi spam menggunakan kandungan ini.” Ini menonjolkan pendekatan proaktif Reddit dalam menguruskan penggunaan datanya oleh syarikat AI, memastikan hak dan privasi pengguna dihormati.

Saman terhadap Anthropic boleh dilihat sebagai usaha oleh Reddit untuk menguatkuasakan dasar penggunaan datanya dan melindungi kepentingan penggunanya. Dengan meneruskan tindakan undang-undang, Reddit menghantar mesej yang jelas kepada syarikat AI bahawa ia tidak akan bertolak ansur dengan pengikisan data tanpa kebenaran dan akan secara aktif mempertahankan haknya dan hak penggunanya.

Pembangunan AI Anthropic

Anthropic, yang diasaskan oleh bekas eksekutif OpenAI pada tahun 2021, telah muncul sebagai pemain penting dalam pasaran chatbot AI. Produk utamanya, Claude, adalah pesaing langsung kepada ChatGPT OpenAI. Walaupun OpenAI mempunyai kerjasama erat dengan Microsoft, rakan kongsi komersial utama Anthropic ialah Amazon, yang menggunakan Claude untuk meningkatkan pembantu suara Alexa.

Seperti kebanyakan syarikat AI, Anthropic bergantung pada set data besar teks dan kod untuk melatih model AI. Set data ini selalunya termasuk kandungan daripada laman web seperti Wikipedia dan Reddit, yang menyediakan banyak maklumat mengenai pelbagai topik dan mencerminkan nuansa bahasa manusia. Saman itu menonjolkan pergantungan syarikat AI pada kandungan dalam talian yang mudah didapati, menimbulkan persoalan tentang implikasi etika dan undang-undang penggunaan data tersebut untuk latihan AI.

Perdebatan “Pengikisan”

Amalan “mengikis” data daripada laman web telah menjadi isu yang dipertikaikan dalam industri AI. Syarikat AI berhujah bahawa mengikis adalah perlu untuk mengumpulkan sejumlah besar data yang diperlukan untuk melatih model AI mereka. Mereka sering memetik konsep “penggunaan wajar,” yang membenarkan penggunaan bahan berhak cipta untuk tujuan tertentu, seperti pendidikan, penyelidikan, dan ulasan.

Walau bagaimanapun, pemilik laman web dan pencipta kandungan berhujah bahawa mengikis boleh melanggar syarat perkhidmatan mereka, melanggar hak cipta mereka, dan menjejaskan model perniagaan mereka. Mereka menegaskan bahawa syarikat AI harus mendapatkan kebenaran sebelum mengikis data mereka dan harus memberi pampasan kepada mereka untuk penggunaan kandungan mereka.

Saman Reddit terhadap Anthropic hanyalah satu contoh peningkatan ketegangan antara syarikat AI dan penyedia kandungan mengenai pengikisan data. Memandangkan teknologi AI terus berkembang, kemungkinan besar perdebatan undang-undang dan etika ini akan bertambah hebat, yang membawa kepada pembangunan undang-undang dan peraturan baharu yang mengawal penggunaan data untuk latihan AI.

Kertas Kerja 2021

Kertas penyelidikan 2021 yang ditulis bersama oleh Ketua Pegawai Eksekutif Anthropic Dario Amodei dipetik dalam saman Reddit. Kertas kerja ini menjelaskan subreddit tertentu, atau forum perkara pelajaran, yang dikenal pasti oleh penyelidik Anthropic sebagai mengandungi data berkualiti tinggi untuk latihan AI. Subreddit ini merangkumi pelbagai topik, daripada berkebun dan sejarah hingga nasihat perhubungan dan pemikiran di bilik mandi.

Petikan kertas kerja ini dalam saman itu menggariskan dakwaan Reddit bahawa Anthropic sengaja menyasarkan platformnya untuk pengikisan data. Dengan mengenal pasti subreddit tertentu sebagai sumber berharga data latihan AI, Anthropic didakwa menunjukkan niatnya untuk mengekstrak kandungan daripada Reddit tanpa kebenaran.

Hujah Hak Cipta Anthropic

Dalam surat 2023 kepada Pejabat Hak Cipta A.S., Anthropic berhujah bahawa amalan latihan AI merupakan “penggunaan bahan yang sememangnya sah.” Syarikat itu menegaskan bahawa model AI membuat salinan maklumat semata-mata untuk tujuan melakukan analisis statistik pada set data yang besar, yang dipercayai termasuk dalam doktrin penggunaan wajar.

Walau bagaimanapun, hujah ini tidak diterima secara universal. Anthropic kini menghadapi saman berasingan daripada penerbit muzik utama, yang mendakwa bahawa Claude memuntahkan lirik lagu berhak cipta. Saman itu menimbulkan kebimbangan tentang potensi model AI untuk melanggar hak cipta dengan menghasilkan semula atau mengedarkan bahan berhak cipta.

Pelanggaran Syarat Penggunaan

Saman Reddit terhadap Anthropic berbeza daripada cabaran undang-undang lain yang dibawa terhadap syarikat AI kerana ia tidak mendakwa pelanggaran hak cipta. Sebaliknya, ia memberi tumpuan kepada dakwaan pelanggaran syarat penggunaan Reddit dan persaingan tidak adil yang terhasil daripada pelanggaran itu.

Reddit berhujah bahawa Anthropic melanggar syarat penggunaannya dengan mengikis kandungan daripada platform tanpa kebenaran. Ia juga menegaskan bahawa tindakan Anthropic mewujudkan persaingan tidak adil dengan membenarkannya membangunkan chatbot AI tanpa menanggung kos yang berkaitan dengan pelesenan data daripada Reddit.

Dengan memberi tumpuan kepada isu-isu ini, Reddit cuba mewujudkan duluan undang-undang yang boleh mempunyai implikasi yang ketara untuk industri AI. Jika Reddit berjaya dalam samannya, adalah lebih sukar bagi syarikat AI untuk mengikis data daripada laman web tanpa kebenaran, yang berpotensi membawa kepada perubahan dalam cara model AI dilatih.

Perjanjian AP dan OpenAI

Associated Press (AP) dan OpenAI mempunyai perjanjian pelesenan dan teknologi yang memberikan OpenAI akses kepada sebahagian daripada arkib teks AP. Perjanjian ini mencerminkan trend yang semakin meningkat penyedia kandungan bekerjasama dengan syarikat AI untuk melesenkan data mereka untuk tujuan latihan AI.

Perjanjian sedemikian menawarkan penyedia kandungan cara untuk menjana pendapatan daripada data mereka sambil juga mengekalkan kawalan ke atas cara data itu digunakan. Mereka juga menyediakan syarikat AI dengan akses kepada data berkualiti tinggi yang boleh meningkatkan prestasi model AI mereka.

Implikasi yang Lebih Luas

Saman Reddit terhadap Anthropic bukan hanya pertikaian antara dua syarikat; ia adalah penunjuk arah untuk perdebatan undang-undang dan etika yang lebih luas yang mengelilingi pembangunan AI. Hasil kes ini boleh mempunyai implikasi yang ketara untuk industri AI, yang berpotensi membentuk cara model AI dilatih dan hak penyedia kandungan.

Memandangkan teknologi AI terus berkembang, adalah penting isu-isu ini ditangani dengan cara yang bernas dan komprehensif. Ini memerlukan kerjasama antara syarikat AI, penyedia kandungan, penggubal dasar, dan orang awam untuk membangunkan rangka kerja yang mengimbangi faedah inovasi AI dengan keperluan untuk melindungi privasi pengguna, harta intelek, dan persaingan yang adil.

Mendefinisikan Pengikisan

Pengikisan, dalam konteks ini, merujuk kepada pengekstrakan data automatik daripada laman web. Alat digunakan untuk menghuraikan kod HTML dan mengeluarkan elemen khusus seperti teks, imej, atau pautan. Dalam kes Reddit, Anthropic didakwa menggunakan bot untuk mengikis komen pengguna, yang berharga untuk melatih model bahasa.

Kesahan pengikisan adalah kawasan kelabu. Laman web secara amnya mempunyai syarat perkhidmatan yang melarang aktiviti sedemikian, tetapi penguatkuasaan boleh menjadi sukar. Sesetengah berhujah bahawa data yang tersedia secara umum harus boleh diakses, sementara yang lain menekankan hak pemilik laman web untuk mengawal kandungan mereka.

Doktrin Penggunaan Wajar

Doktrin penggunaan wajar adalah prinsip undang-undang yang membenarkan penggunaan terhad bahan berhak cipta tanpa kebenaran daripada pemegang hak cipta. Doktrin ini bertujuan untuk menggalakkan kebebasan bersuara dengan membenarkan ulasan, kritikan, laporan berita, pengajaran, biasiswa, dan penyelidikan.

Walau bagaimanapun, penggunaan doktrin penggunaan wajar untuk latihan AI adalah kompleks dan kontroversi. Syarikat AI berhujah bahawa penggunaan bahan berhak cipta untuk tujuan latihan adalah transformatif dan tidak melanggar hak pemegang hak cipta. Penyedia kandungan, sebaliknya, berhujah bahawa latihan AI adalah aktiviti komersial yang memerlukan kebenaran dan pampasan.

Masa Depan Latihan AI

Saman Reddit terhadap Anthropic menonjolkan cabaran dan ketidakpastian yang mengelilingi masa depan latihan AI. Memandangkan model AI menjadi lebih canggih dan memerlukan set data yang lebih besar, permintaan untuk data hanya akan meningkat. Ini mungkin membawa kepada pertempuran undang-undang dan usaha pengawalseliaan selanjutnya untuk menangani implikasi etika dan undang-undang pengikisan data dan latihan AI.

Adalah penting bahawa pihak berkepentingan bekerjasama untuk membangunkan rangka kerja yang menggalakkan inovasi sambil juga melindungi hak penyedia kandungan dan memastikan amalan data yang bertanggungjawab. Rangka kerja ini harus menangani isu seperti privasi data, hak cipta, ketelusan, dan akauntabiliti.

Sumber Data Alternatif

Memandangkan penelitian undang-undang terhadap pengikisan web semakin meningkat, syarikat AI meneroka sumber data alternatif untuk melatih model mereka. Ini termasuk:

  • Data berlesen: Mendapatkan data melalui perjanjian pelesenan dengan penyedia kandungan seperti Reddit, AP, dan lain-lain.
  • Data sintetik: Menjana data tiruan yang meniru data dunia sebenar tetapi tidak mengandungi sebarang maklumat pengenalan peribadi atau bahan berhak cipta.
  • Data sumber terbuka: Menggunakan set data yang tersedia secara umum yang dilesenkan untuk kegunaan komersial.
  • Data dalaman: Memanfaatkan data yang dihasilkan oleh produk dan perkhidmatan syarikat sendiri.

Dengan mempelbagaikan sumber data mereka, syarikat AI boleh mengurangkan pergantungan mereka pada pengikisan web dan mengurangkan risiko yang berkaitan dengan cabaran undang-undang dan kebimbangan etika.

Perspektif Pengguna

Akhirnya, perdebatan mengenai amalan latihan AI menimbulkan soalan asas tentang hak pengguna internet. Pengguna menjana sejumlah besar kandungan pada platform seperti Reddit, selalunya tanpa memahami sepenuhnya cara kandungan itu akan digunakan.

Adalah penting bahawa pengguna dimaklumkan tentang cara data mereka dikumpul, digunakan, dan dikongsi. Mereka juga harus mempunyai keupayaan untuk mengawal data mereka dan untuk menarik diri daripada menggunakan data mereka untuk tujuan latihan AI.

Platform seperti Reddit mempunyai tanggungjawab untuk melindungi data penggunanya dan untuk memastikan bahawa data mereka digunakan dengan cara yang bertanggungjawab dan beretika. Ini termasuk menyediakan pengguna dengan dasar privasi yang jelas dan telus, serta mekanisme untuk mengawal data mereka.

Kemungkinan Hasil

Kemungkinan hasil saman Reddit terhadap Anthropic adalah pelbagai dan boleh mempunyai implikasi yang ketara untuk industri AI:

  • Penyelesaian: Kedua-dua syarikat boleh mencapai perjanjian penyelesaian yang menyelesaikan pertikaian tanpa perbicaraan.
  • Reddit menang: Mahkamah boleh membuat keputusan memihak kepada Reddit, mendapati bahawa Anthropic melanggar syarat perkhidmatannya dan terlibat dalam persaingan tidak adil.
  • Anthropic menang: Mahkamah boleh membuat keputusan memihak kepada Anthropic, mendapati bahawa amalan latihan AI adalah sah di bawah doktrin penggunaan wajar.
  • Keputusan bercampur: Mahkamah boleh mengeluarkan keputusan bercampur, memihak kepada Reddit pada beberapa tuntutan tetapi memihak kepada Anthropic pada tuntutan lain.

Hasil saman itu mungkin bergantung pada beberapa faktor, termasuk fakta khusus kes itu, duluan undang-undang yang berkaitan, dan hujah yang dikemukakan oleh kedua-dua belah pihak.

Mahkamah Pendapat Awam

Di luar prosiding undang-undang, saman Reddit terhadap Anthropic juga diperjuangkan di mahkamah pendapat awam. Kedua-dua syarikat mempunyai kepentingan yang kuat dalam membentuk naratif yang mengelilingi kes itu dan mempengaruhi persepsi awam.

Reddit mungkin menekankan kepentingan melindungi privasi pengguna dan menguatkuasakan syarat perkhidmatannya. Anthropic mungkin menonjolkan faedah inovasi AI dan kepentingan akses kepada data untuk melatih model AI.

Persepsi orang ramai terhadap kes itu boleh mempengaruhi hasil prosiding undang-undang, serta perdebatan yang lebih luas mengenai amalan latihan AI.