Dalam teguran yang menakjubkan terhadap klaim industri teknologi tentang ketidakmungkinan, tim peneliti berdedikasi telah mencapai apa yang dianggap banyak orang tidak mungkin dicapai: penciptaan model AI yang dilatih sepenuhnya pada data yang bersumber secara etis. Pencapaian inovatif ini, dipelopori oleh para ahli dari lembaga bergengsi seperti MIT, Cornell University, dan University of Toronto, menyajikan cetak biru yang layak dan bertanggung jawab untuk masa depan pengembangan AI. Rahasia utamanya? Dataset yang dikuratori dengan cermat yang hanya terdiri dari konten berlisensi terbuka atau domain publik.
Tugas Herculean dari Sumber Data Etis
Perjalanan menuju oasis AI etis ini jauh dari sekadar jalan-jalan di taman. Seperti yang dengan mudah diakui oleh para peneliti, hambatan sebenarnya bukanlah kekuatan komputasi, tetapi upaya manusia belaka. Proses perakitan Common Pile v0.1, dataset luas yang melebihi delapan terabyte, menuntut pembersihan manual dan pemformatan ulang yang melelahkan agar sesuai untuk pelatihan AI. Bayangkan menyaring tumpukan informasi digital yang hampir tak ada habisnya, mencari segala jenis kesalahan yang dapat merusak dataset.
Tetapi tantangan sebenarnya terletak pada pemeriksaan ganda yang cermat terhadap status hak cipta. Di dunia internet yang kacau, salah lisensi yang merajalela adalah norma, mengubah verifikasi hak cipta menjadi tugas Sisyphean.
"Ini bukan hal di mana Anda dapat meningkatkan sumber daya yang Anda miliki,” kata rekan penulis studi Stella Biderman kepada WaPo. “Kami menggunakan alat otomatis, tetapi semua barang kami secara manual dianotasi pada akhirnya dan diperiksa oleh orang-orang. Dan itu sangat sulit.”
Proses penyaringan terabyte data untuk mencari masalah hak cipta tidaklah mudah. Para peneliti tidak bisa begitu saja menambahkan lebih banyak chip komputer ke proses dan berharap solusi. Sebaliknya, mereka perlu memverifikasi dan menganotasi semua data secara manual.
Kemenangan Atas Kesulitan: Lahirnya AI Etis
Terlepas dari rintangan yang menakutkan, Biderman dan timnya yang berdedikasi bertahan. Setelah tugas berat menciptakan Common Pile selesai, mereka melepaskan potensinya untuk melatih Large Language Model (LLM) tujuh miliar parameter. AI yang dihasilkan tidak hanya menahan diri terhadap tolok ukur industri seperti Meta’s Llama 1 dan Llama 2 7B, tetapi juga melakukannya dengan hati nurani etis yang bersih.
Tetapi lanskap penelitian AI berkembang secepat peluru yang melesat. Penting untuk diingat bahwa Meta merilis Llama 1 dan Llama 2 beberapa tahun lalu, keabadian relatif di dunia AI.
Fakta bahwa tim yang ramping dan bertekad dapat mencapai hasil yang sebanding dengan sumber daya yang terbatas adalah bukti kecerdikan mereka. Salah satu penemuan yang sangat menginspirasi adalah harta karun lebih dari 130.000 buku berbahasa Inggris di Library of Congress yang sebelumnya diabaikan.
Perairan Keruh AI dan Hak Cipta
Hak cipta tetap menjadi masalah etika dan hukum yang pelik di era AI. Raksasa industri seperti OpenAI dan Google telah mengumpulkan dataset yang luas dengan melahap segala sesuatu yang terlihat, dari artikel berita hingga posting media sosial pribadi. Praktik ini telah menarik kritik dari semua pihak. Penulis bahkan telah mengajukan tuntutan hukum, menuduh penggunaan ilegal buku-buku berhak cipta untuk melatih model AI.
Industri teknologi berpendapat bahwa praktik semacam itu merupakan penggunaan wajar, dengan alasan bahwa pengembangan AI akan "tidak mungkin" tanpa akses tak terbatas ke data. Penelitian terbaru ini memberikan teguran yang menyengat terhadap narasi Silicon Valley itu.
Meskipun pencapaian ini menandai langkah maju yang signifikan, itu tidak menghilangkan semua pertimbangan etis. Model bahasa yang besar, dengan potensi mereka untuk menggantikan pekerja manusia, masih menimbulkan pertanyaan mendasar tentang masa depan tenaga kerja. Selanjutnya, penggunaan karya di domain publik mungkin tidak cocok untuk semua orang, terutama mereka yang kontribusi kreatifnya sekarang dimuntahkan oleh AI.
Bahkan di masa depan hipotetis di mana perusahaan AI dipaksa untuk mencari izin atau memberikan kompensasi untuk penggunaan data, pemegang hak cipta mungkin masih menghadapi tekanan yang tidak semestinya untuk mengizinkan pelatihan AI. Sumber daya besar yang dapat digunakan saat melatih model AI berarti bahwa sebagian besar pemegang hak cipta tidak akan dapat menahan tekanan dari perusahaan AI besar untuk mengizinkan mereka menggunakan data.
Menuju Transparansi dan Akuntabilitas dalam AI
Biderman, bagaimanapun, tetap pragmatis. Dia tidak memiliki ilusi bahwa perusahaan seperti OpenAI akan tiba-tiba merangkul sumber data etis. Sebaliknya, dia berharap bahwa karyanya akan mendorong transparansi yang lebih besar dalam penggunaan data. Dataset apa yang digunakan untuk melatih produk AI mana? Mengetahui jawaban atas pertanyaan itu dapat memiliki implikasi yang signifikan bagi masa depan AI.
"Bahkan transparansi parsial memiliki sejumlah besar nilai sosial dan sejumlah nilai ilmiah yang moderat,” katanya kepada WaPo.
Saat ini dataset yang tepat yang digunakan untuk melatih AI tertentu adalah rahasia yang dijaga ketat. Satu-satunya cara untuk mereplikasi model AI adalah dengan diberi tahu persis bagaimana model AI saat ini dibuat, atau untuk merekayasa balik model AI yang dapat menghabiskan banyak waktu dan upaya.
Pergeseran Paradigma dalam Pengembangan AI
Implikasi dari penelitian ini meluas jauh melampaui ranah etika AI. Ini menandakan pergeseran mendasar dalam bagaimana AI dapat dikembangkan, menunjukkan bahwa pertimbangan etis dan kemajuan teknologi tidak harus saling eksklusif. Dengan memprioritaskan transparansi, sumber data yang bertanggung jawab, dan pengawasan manusia, kita dapat menempa masa depan di mana AI melayani umat manusia, daripada sebaliknya.
Mengatasi Kekhawatiran Etis dan Dampak Sosial
Argumen industri teknologi bahwa penggunaan data etis adalah rintangan yang tidak dapat diatasi sekarang telah ditantang dengan tegas. Keberhasilan proyek ini menggarisbawahi kelayakan membangun model AI di atas fondasi etis yang kokoh. Namun, dimensi etis dari pengembangan AI melampaui masalah hak cipta. Dampak sosio-ekonomi AI, termasuk pemindahan pekerjaan dan bias algoritmik, menuntut pertimbangan yang cermat.
Pertimbangan etis yang memengaruhi model AI lebih dari sekadar sumber. Kita juga harus memverifikasi bahwa data tidak menyebabkan model AI menjadi bias terhadap atau menentang segmen populasi mana pun.
Mempromosikan Transparansi dan Akuntabilitas
Untuk menumbuhkan kepercayaan dan memastikan inovasi yang bertanggung jawab, industri AI harus merangkul transparansi dan akuntabilitas. Perusahaan harus terbuka tentang sumber data yang digunakan untuk melatih model mereka dan metodologi yang digunakan untuk mengurangi bias. Audit independen dan pengawasan eksternal selanjutnya dapat meningkatkan akuntabilitas dan mencegah kesalahan etis.
Transparansi AI dapat diterapkan untuk memverifikasi bahwa dataset berisi distribusi yang cukup luas untuk menghindari bias dalam model AI. Akuntabilitas AI dapat diterapkan melalui audit eksternal untuk memeriksa potensi kesalahan etis.
Kolaborasi dan Solusi Sumber Terbuka
Pengembangan AI yang bersumber secara etis membutuhkan kolaborasi dan solusi sumber terbuka. Dengan berbagi dataset, metodologi, dan praktik terbaik, para peneliti dan pengembang dapat mempercepat kemajuan dan secara kolektif mengatasi tantangan pengembangan AI etis. Inisiatif sumber terbuka juga dapat memberdayakan organisasi dan individu yang lebih kecil untuk berpartisipasi dalam revolusi AI, memastikan bahwa manfaat dari teknologi ini dibagikan secara lebih adil.
Janji Masa Depan yang Lebih Cerah
Penciptaan model AI yang dilatih sepenuhnya pada data yang bersumber secara etis merupakan tonggak sejarah dalam pencarian AI yang bertanggung jawab dan bermanfaat. Pencapaian inovatif ini tidak hanya membuktikan bahwa pengembangan AI etis itu mungkin tetapi juga menyediakan peta jalan bagi orang lain untuk diikuti. Dengan merangkul transparansi, kolaborasi, dan komitmen terhadap prinsip-prinsip etika, kita dapat membuka potensi penuh AI sambil menjaga nilai-nilai manusia dan mempromosikan masa depan yang lebih adil dan setara.