Reddit Saman Anthropic Isu Data Latihan AI | ms

Reddit telah memulakan tindakan undang-undang terhadap Anthropic, sebuah syarikat permulaan kecerdasan buatan yang disokong oleh Google, mendakwa penggunaan data platformnya secara tidak sah untuk melatih model AI. Saman itu, yang difailkan di Mahkamah Tinggi San Francisco, menuduh Anthropic melanggar dasar pengguna Reddit dan mengabaikan permintaan berulang untuk memasuki perjanjian pelesenan.

Dakwaan Pengikisan Data Tanpa Kebenaran

Menurut aduan itu, chatbot Claude Anthropic dilatih dalam perbualan Reddit tanpa mendapatkan persetujuan daripada platform itu sendiri atau pangkalan penggunanya. Reddit mendakwa bahawa Anthropic mengakses platformnya lebih daripada 100,000 kali sejak Julai 2024 menggunakan bot automatik, walaupun dikatakan telah disekat daripada berbuat demikian. Dakwaan pengikisan data tanpa kebenaran ini membentuk teras cabaran undang-undang Reddit.

Pendirian Reddit tentang Penggunaan Data

Ketua Pegawai Undang-undang Reddit, Ben Lee, telah menyatakan kedudukan platform itu, menyatakan bahawa walaupun Reddit menyokong konsep internet terbuka, ia menegaskan “batasan yang jelas” mengenai penggunaan kandungan yang dikikis oleh syarikat AI. Lee menekankan nilai unik "kemanusiaan" Reddit dalam dunia yang semakin dibentuk oleh AI, dan menyatakan bahawa perbualan di platform itu penting untuk melatih model bahasa AI seperti Claude.

Tuntutan Kelakuan “Bermuka Dua”

Aduan Reddit seterusnya menuduh Anthropic mengamalkan pendekatan "bermuka dua", menggambarkan dirinya sebagai peneraju beretika dalam domain AI sambil secara diam-diam terlibat dalam aktiviti yang melanggar hak cipta dan privasi pengguna. Platform media sosial itu mendakwa bahawa Anthropic secara terbuka mempromosikan penghormatan terhadap sempadan sambil serentak mengabaikan sebarang peraturan yang menghalang "percubaannya untuk terus menambah pendapatannya."

Implikasi Undang-undang dan Kewangan

Saman itu menuntut restitusi yang tidak ditentukan, ganti rugi punitif, dan perintah mahkamah untuk menghalang Anthropic daripada menggunakan kandungan Reddit untuk tujuan latihan AI komersial. Reddit mendakwa bahawa keengganan Anthropic untuk memasuki perjanjian yang serupa dengan yang ada dengan OpenAI dan Google telah membenarkan syarikat permulaan itu mengeksploitasi datanya secara komersial, yang berpotensi meraih manfaat "berpuluh bilion dolar" tanpa akauntabiliti.

Respons Anthropic

Sebagai respons kepada saman itu, jurucakap Anthropic menyatakan bahawa syarikat itu tidak bersetuju dengan dakwaan Reddit dan berhasrat untuk membela diri "dengan bersungguh-sungguh." Pertempuran undang-undang itu mungkin berlarutan dan boleh membawa implikasi penting untuk pendekatan industri AI terhadap pemerolehan dan penggunaan data.

Reaksi Media Sosial

Saman itu telah mendapat perhatian yang besar di platform media sosial. Sesetengah pengguna telah mengkritik dakwaan penggunaan data Reddit oleh Anthropic untuk melatih model AInya. Seorang pengguna di X (dahulunya Twitter) mengulas bahawa melatih model bahasa menggunakan data daripada Reddit adalah "tempat yang dahsyat untuk bermula."

Seorang lagi pengguna berkongsi tangkapan skrin gambaran keseluruhan AI carian Google yang berkaitan dengan kemurungan, yang menunjukkan pengguna Reddit mengesyorkan melompat dari Jambatan Golden Gate. Mereka berkata sinis, "Bayangkan melatih AI anda dari Reddit hanya untuk mendapatkan ini." Ini menyerlahkan potensi risiko dan kebimbangan etika yang berkaitan dengan melatih model AI pada data daripada platform dalam talian, di mana maklumat salah dan kandungan berbahaya boleh menjadi berleluasa.

Satu lagi komen di X menyatakan rasa terkejut, menyatakan, "Saya fikir Anthropic sepatutnya hebat, siapa yang mempunyai idea untuk berlatih pada data Reddit, itu gila." Sentimen ini mencerminkan kepercayaan di kalangan sesetengah pengguna bahawa Anthropic, yang terkenal dengan tumpuannya pada keselamatan dan etika AI, sepatutnya mengelak daripada menggunakan data daripada platform seperti Reddit, yang sering dikaitkan dengan kandungan yang kontroversi atau tidak boleh dipercayai.

Cabaran Undang-undang Anthropic Sebelumnya

Saman ini bukan kali pertama Anthropic menghadapi penelitian undang-undang. Syarikat itu sebelum ini disaman oleh sekumpulan pengarang yang mendakwa bahawa ia menggunakan buku berhak cipta mereka untuk melatih model AInya. Universal Music Group juga memfailkan saman terhadap Anthropic kerana didakwa melanggar hak cipta lirik lagu.

Cabaran undang-undang ini menggariskan kebimbangan yang semakin meningkat mengenai penggunaan bahan berhak cipta dalam latihan AI dan potensi liabiliti yang mungkin dihadapi oleh syarikat AI.

Trend Pertikaian Hak Cipta yang Lebih Luas dalam AI

Saman antara Reddit dan Anthropic adalah sebahagian daripada trend yang lebih luas di mana penerbit dan pencipta mengambil tindakan undang-undang terhadap syarikat AI kerana menggunakan kerja mereka tanpa kebenaran. OpenAI, pencipta ChatGPT, juga menghadapi saman yang sama daripada The New York Times, sekumpulan pengarang, dan beberapa syarikat media. Saman ini menyerlahkan isu undang-undang dan etika yang kompleks yang menyelubungi penggunaan bahan berhak cipta dalam latihan AI dan keperluan untuk garis panduan dan peraturan yang jelas dalam bidang ini.

Teras Isu

Di tengah-tengah pertikaian ini ialah persoalan penggunaan wajar. Syarikat AI berpendapat bahawa penggunaan bahan berhak cipta di bawah doktrin penggunaan wajar, yang membenarkan penggunaan bahan berhak cipta untuk tujuan seperti kritikan, ulasan, laporan berita, pengajaran, biasiswa, dan penyelidikan. Walau bagaimanapun, pemegang hak cipta berhujah bahawa syarikat AI menggunakan kerja mereka untuk tujuan komersial dan ini merupakan pelanggaran hak cipta.

Mahkamah akhirnya perlu memutuskan sama ada penggunaan bahan berhak cipta dalam latihan AI adalah penggunaan wajar atau pelanggaran hak cipta. Hasil daripada pertempuran undang-undang ini boleh memberi impak yang ketara terhadap masa depan pembangunan AI dan hak pemegang hak cipta.

Tumpuan Anthropic pada Keselamatan dan Penyelidikan AI

Anthropic tertumpu terutamanya pada keselamatan dan penyelidikan AI, bertujuan untuk membangunkan model AI yang selamat dan boleh dipercayai. Keluarga model bahasa besar (LLM) Claude bersaing dengan ChatGPT OpenAI dan Gemini Google. Walau bagaimanapun, Google telah bekerjasama dengan Anthropic untuk meningkatkan platform Vertex AInya. Gergasi e-dagang Amazon dan Microsoft juga telah melabur dalam Anthropic, menonjolkan kepentingan syarikat dalam landskap AI.

Kepentingan Pembangunan AI Beretika

Saman terhadap Anthropic menggariskan kepentingan pembangunan AI beretika. Syarikat AI mesti memastikan bahawa mereka menggunakan data secara bertanggungjawab dan sah dan bahawa mereka menghormati hak pemegang hak cipta dan privasi individu. Kegagalan berbuat demikian boleh mengakibatkan cabaran undang-undang, kerosakan reputasi, dan kehilangan kepercayaan awam.

Melangkah Maju

Memandangkan teknologi AI terus berkembang, adalah penting bahawa pembangun dan pembuat dasar bekerjasama untuk mewujudkan garis panduan dan peraturan yang jelas mengenai penggunaan data, hak cipta, dan privasi. Ini akan membantu memastikan bahawa AI dibangunkan dan digunakan dengan cara yang bermanfaat dan beretika.

Pemeriksaan Terperinci Tuntutan Reddit

Saman Reddit terhadap Anthropic adalah berdasarkan beberapa dakwaan utama:

Pengikisan Data Tanpa Kebenaran: Reddit mendakwa bahawa Anthropic mengakses platformnya lebih daripada 100,000 kali sejak Julai 2024 menggunakan bot automatik, walaupun mendakwa telah menyekat mereka. Pengikisan data tanpa kebenaran ini membentuk teras cabaran undang-undang Reddit.
Pelanggaran Dasar Pengguna: Reddit mendakwa bahawa Anthropic melanggar dasar penggunanya dengan mengikis kandungan tanpa kebenaran dan menggunakannya untuk melatih model AI.
Pecah Kontrak: Reddit mendakwa bahawa Anthropic mengabaikan permintaan berulang untuk memasuki perjanjian pelesenan, yang secara efektif melanggar kontrak tersirat.
Eksploitasi Data Secara Komersial: Reddit berhujah bahawa Anthropic telah mengeksploitasi datanya secara komersial tanpa kebenaran, yang berpotensi meraih manfaat "berpuluh bilion dolar" tanpa akauntabiliti.

Asas Undang-undang untuk Tuntutan Reddit

Tuntutan undang-undang Reddit adalah berdasarkan beberapa teori undang-undang:

Pelanggaran Hak Cipta: Reddit mungkin berhujah bahawa penggunaan kandungannya oleh Anthropic merupakan pelanggaran hak cipta, kerana Reddit memiliki hak cipta terhadap kandungan yang disiarkan di platformnya.
Pecah Kontrak: Reddit mungkin berhujah bahawa Anthropic melanggar kontrak tersirat dengan melanggar dasar penggunanya dan mengikis kandungan tanpa kebenaran.
Pengayaan Tidak Adil: Reddit mungkin berhujah bahawa Anthropic telah diperkaya secara tidak adil dengan menggunakan datanya untuk tujuan komersial tanpa membayarnya.
Pencerobohan ke atas Harta Alih: Reddit mungkin berhujah bahawa akses tanpa kebenaran Anthropic ke pelayannya merupakan pencerobohan ke atas harta alih, teori undang-undang yang melindungi harta peribadi daripada gangguan.

Potensi Pembelaan Anthropic

Anthropic mungkin akan menimbulkan beberapa pembelaan sebagai respons kepada saman Reddit:

Penggunaan Wajar: Anthropic mungkin berhujah bahawa penggunaan kandungan Reddit di bawah doktrin penggunaan wajar, yang membenarkan penggunaan bahan berhak cipta untuk tujuan seperti kritikan, ulasan, laporan berita, pengajaran, biasiswa, dan penyelidikan.
Persetujuan Tersirat: Anthropic mungkin berhujah bahawa pengguna Reddit secara tersirat bersetuju dengan penggunaan kandungan mereka untuk latihan AI dengan menyiarkannya di platform awam.
Kurangnya Kemudaratan: Anthropic mungkin berhujah bahawa Reddit tidak mengalami sebarang kemudaratan akibat penggunaannya terhadap kandungan Reddit.
Kebebasan Bersuara: Anthropic mungkin berhujah bahawa menyekat keupayaannya untuk menggunakan kandungan Reddit akan melanggar kebebasan bersuaranya.

Kepentingan Preseden Undang-undang

Hasil daripada saman Reddit boleh menetapkan preseden undang-undang yang mempunyai impak yang ketara terhadap penggunaan bahan berhak cipta dalam latihan AI. Jika Reddit menang, ia boleh menghalang syarikat AI daripada mengikis data tanpa kebenaran dan boleh membawa kepada peningkatan perjanjian pelesenan antara pencipta kandungan dan pembangun AI. Jika Anthropic menang, ia boleh menggalakkan syarikat AI untuk terus mengikis data tanpa kebenaran dan boleh menjadikannya lebih sukar bagi pencipta kandungan untuk melindungi hak mereka.

Menyelami Lebih Dalam Data Latihan Model AI

Penggunaan set data yang luas untuk melatih model AI telah menjadi amalan standard dalam bidang ini. Set data ini sering termasuk teks, imej, audio, dan video yang diperoleh daripada pelbagai platform dalam talian, termasuk tapak media sosial seperti Reddit. Kualiti dan kepelbagaian set data latihan ini adalah penting untuk prestasi dan keupayaan model AI yang terhasil. Walau bagaimanapun, implikasi etika dan undang-undang menggunakan data sedemikian, terutamanya apabila ia melibatkan bahan berhak cipta atau maklumat peribadi, semakin diteliti.

Cabaran dalam Memperoleh Data Latihan

Memperoleh data latihan yang sesuai memberikan beberapa cabaran kepada pembangun AI:

Ketersediaan Data: Mencari set data berkualiti tinggi yang besar yang relevan dengan tujuan yang dimaksudkan oleh model AI boleh menjadi sukar.
Bias Data: Set data mungkin mengandungi berat sebelah yang mencerminkan prasangka atau stereotaip yang terdapat dalam masyarakat, yang boleh membawa kepada model AI yang berat sebelah.
Hak Cipta dan Pelesenan: Menggunakan bahan berhak cipta tanpa kebenaran boleh membawa kepada cabaran undang-undang.
Kebimbangan Privasi: Set data mungkin mengandungi maklumat peribadi yang perlu dilindungi mengikut undang-undang privasi.

Strategi untuk Perolehan Data Beretika

Untuk mengurangkan cabaran ini, pembangun AI semakin mengguna pakai strategi untuk perolehan data beretika:

Mendapatkan Persetujuan: Meminta persetujuan daripada individu sebelum menggunakan data mereka untuk latihan AI.
Penganoniman dan Pseudonimisasi: Mengalih keluar atau menutup pengecam peribadi untuk melindungi privasi.
Pengauditan Data: Mengaudit set data secara berkala untuk mengenal pasti dan mengurangkan berat sebelah.
Perjanjian Pelesenan: Memasuki perjanjian pelesenan dengan pencipta kandungan untuk mendapatkan kebenaran untuk menggunakan kerja mereka.
Menggunakan Set Data Terbuka: Menggunakan set data yang tersedia secara umum yang dilesenkan untuk kegunaan komersial.

Masa Depan AI dan Penggunaan Data

Perdebatan undang-undang dan etika yang menyelubungi AI dan penggunaan data mungkin akan berterusan apabila teknologi AI menjadi lebih berleluasa. Adalah penting bagi pembangun AI, pembuat dasar, dan orang awam untuk terlibat dalam perbincangan yang bernas mengenai isu-isu ini dan untuk membangunkan penyelesaian yang mengimbangi manfaat AI dengan keperluan untuk melindungi hak individu dan mempromosikan amalan beretika.

Pertimbangan Utama untuk Masa Depan

Rangka Kerja Undang-undang yang Jelas: Mewujudkan rangka kerja undang-undang yang jelas yang menangani penggunaan bahan berhak cipta dan maklumat peribadi dalam latihan AI.
Piawaian Industri: Membangunkan piawaian industri untuk perolehan data beretika dan pembangunan AI.
Ketelusan dan Akauntabiliti: Mempromosikan ketelusan dan akauntabiliti dalam sistem AI untuk memastikan bahawa ia digunakan secara bertanggungjawab.
Pendidikan Awam: Mendidik orang awam tentang potensi manfaat dan risiko AI dan kepentingan penggunaan data beretika.

dikemaskinikan pada 2025-06-09

# Chatbot # Anthropic # Claude