AI Berasaskan Data Etika: Impian Jadi Nyata | ms

Dalam satu teguran yang menakjubkan terhadap dakwaan industri teknologi tentang ketidakmungkinan, pasukan penyelidik yang berdedikasi telah mencapai apa yang dianggap mustahil oleh ramai: penciptaan model AI yang dilatih sepenuhnya berdasarkan data bersumberkan etika. Pencapaian terobosan ini, yang dipelopori oleh pakar dari institusi berprestij seperti MIT, Cornell University, dan University of Toronto, membentangkan pelan tindakan yang berdaya maju dan bertanggungjawab untuk masa depan pembangunan AI. Rahsia di sebalik kejayaan ini? Set data yang disusun rapi yang terdiri semata-mata daripada kandungan berlesen terbuka atau domain awam.

Tugas Herculean Mendapatkan Data Beretika

Perjalanan ke oasis AI beretika ini jauh daripada mudah. Seperti yang diakui oleh para penyelidik, masalah sebenar bukanlah kuasa pengkomputeran, tetapi usaha manusia semata-mata. Proses menghimpunkan Common Pile v0.1, set data luas yang melebihi lapan terabait, memerlukan pembersihan dan pemformatan semula manual yang teliti untuk menjadikannya sesuai untuk latihan AI. Bayangkan menapis timbunan maklumat digital yang hampir tidak berkesudahan, mencari sebarang jenis ralat yang boleh merosakkan set data.

Tetapi cabaran sebenar terletak pada pemeriksaan berganda status hak cipta yang teliti. Dalam alam internet yang huru-hara, salah pelesenan yang berleluasa adalah norma, menjadikan pengesahan hak cipta menjadi tugas Sisyphean.

"Ini bukan perkara di mana anda hanya boleh meningkatkan sumber yang anda ada,\” kata rakan pengarang kajian Stella Biderman kepada WaPo. “Kami menggunakan alat automatik, tetapi semua bahan kami diannotasi secara manual pada akhirnya dan diperiksa oleh orang ramai. Dan itu sangat sukar.”

Proses menapis terabait data untuk mencari isu hak cipta bukanlah mudah. Para penyelidik tidak boleh hanya menambah lebih banyak cip komputer kepada proses tersebut dan berharap untuk penyelesaian. Sebaliknya, mereka perlu mengesahkan dan menganotasi semua data secara manual.

Kejayaan Atasi Kesukaran: Kelahiran AI Beretika

Walaupun menghadapi halangan yang menakutkan, Biderman dan pasukannya yang berdedikasi terus bertahan. Sebaik sahaja tugas sukar mencipta Common Pile selesai, mereka melepaskan potensinya untuk melatih Model Bahasa Besar (LLM) tujuh bilion parameter. AI yang terhasil bukan sahaja menandingi penanda aras industri seperti Meta Llama 1 dan Llama 2 7B, tetapi juga melakukannya dengan hati nurani etika yang bersih.

Tetapi landskap penyelidikan AI berkembang sepantas peluru. Adalah penting untuk diingat bahawa Meta mengeluarkan Llama 1 dan Llama 2 beberapa tahun lalu, satu keabadian relatif dalam dunia AI.

Hakikat bahawa pasukan yang cekap dan berazam boleh mencapai hasil yang setanding dengan sumber yang terhad adalah bukti kepada kepintaran mereka. Salah satu penemuan yang sangat memberi inspirasi ialah khazanah lebih 130,000 buku berbahasa Inggeris di Perpustakaan Kongres yang sebelum ini diabaikan.

Perairan Keruh AI dan Hak Cipta

Hak cipta kekal sebagai isu etika dan undang-undang yang berduri dalam era AI. Gergasi industri seperti OpenAI dan Google telah mengumpul set data yang luas dengan melahap segala-galanya yang dapat dilihat, daripada artikel berita hingga catatan media sosial peribadi. Amalan ini telah menarik kritikan dari semua pihak. Para penulis malah telah memfailkan saman, mendakwa penggunaan buku berhak cipta secara haram untuk melatih model AI.

Industri teknologi berpendapat bahawa amalan sedemikian merupakan penggunaan wajar, dengan alasan bahawa pembangunan AI adalah "mustahil" tanpa akses tanpa had kepada data. Penyelidikan terbaru ini menyampaikan teguran pedas kepada naratif Silicon Valley itu.

Walaupun pencapaian ini menandakan langkah penting ke hadapan, ia tidak menghapuskan semua pertimbangan etika. Model bahasa yang besar, dengan potensi mereka untuk menggantikan pekerja manusia, masih menimbulkan persoalan asas tentang masa depan tenaga kerja. Tambahan pula, penggunaan karya dalam domain awam mungkin tidak disenangi oleh semua orang, terutamanya mereka yang sumbangan kreatif mereka kini diulang semula oleh AI.

Malah dalam masa depan hipotetikal di mana firma AI terpaksa mendapatkan kebenaran atau memberikan pampasan untuk penggunaan data, pemegang hak cipta mungkin masih menghadapi tekanan yang tidak wajar untuk membenarkan latihan AI. Sumber yang besar yang boleh digunakan apabila melatih model AI bermakna bahawa kebanyakan pemegang hak cipta tidak akan dapat menahan tekanan daripada firma AI yang besar untuk membenarkan mereka menggunakan data.

Ke arah Ketelusan dan Kebertanggungjawaban dalam AI

Biderman, bagaimanapun, kekal pragmatik. Dia tidak mempunyai ilusi bahawa syarikat seperti OpenAI akan tiba-tiba menerima penyumberan data beretika. Sebaliknya, dia berharap kerjanya akan menggalakkan ketelusan yang lebih besar dalam penggunaan data. Set data manakah yang digunakan untuk melatih produk AI yang mana? Mengetahui jawapan kepada soalan itu boleh membawa implikasi yang ketara bagi masa depan AI.

"Malah ketelusan separa mempunyai nilai sosial yang besar dan nilai saintifik yang sederhana,\” katanya kepada WaPo.

Pada masa ini, set data yang tepat yang digunakan untuk melatih AI tertentu adalah rahsia yang dijaga rapi. Satu-satunya cara untuk meniru model AI adalah sama ada diberitahu dengan tepat bagaimana model AI semasa dicipta, atau untuk menjurutera balik model AI yang boleh mengambil banyak masa dan usaha.

Peralihan Paradigma dalam Pembangunan AI

Implikasi penyelidikan ini melangkaui bidang etika AI. Ia menandakan perubahan asas dalam cara AI boleh dibangunkan, menunjukkan bahawa pertimbangan etika dan kemajuan teknologi tidak semestinya saling eksklusif. Dengan mengutamakan ketelusan, penyumberan data yang bertanggungjawab dan pengawasan manusia, kita boleh menempa masa depan di mana AI berkhidmat untuk kemanusiaan, bukan sebaliknya.

Menangani Kebimbangan Etika dan Impak Sosial

Hujah industri teknologi bahawa penggunaan data beretika adalah halangan yang tidak dapat diatasi kini telah dicabar dengan tegas. Kejayaan projek ini menggariskan kemungkinan membina model AI berasaskan asas etika yang kukuh. Walau bagaimanapun, dimensi etika pembangunan AI melangkaui isu hak cipta. Impak sosio-ekonomi AI, termasuk penggantian pekerjaan dan berat sebelah algoritmik, memerlukan pertimbangan yang teliti.

Pertimbangan etika yang mempengaruhi model AI melangkaui hanya penyumberan. Kita juga mesti mengesahkan bahawa data tidak menyebabkan model AI berat sebelah terhadap atau menentang mana-mana segmen penduduk.

Menggalakkan Ketelusan dan Kebertanggungjawaban

Untuk memupuk kepercayaan dan memastikan inovasi yang bertanggungjawab, industri AI mesti menerima ketelusan dan kebertanggungjawaban. Syarikat harus terbuka tentang sumber data yang digunakan untuk melatih model mereka dan metodologi yang digunakan untuk mengurangkan berat sebelah. Audit bebas dan pengawasan luaran boleh meningkatkan lagi kebertanggungjawaban dan mencegah kesilapan etika.

Ketelusan AI boleh dilaksanakan untuk mengesahkan bahawa set data mengandungi pengedaran yang cukup luas untuk mengelakkan berat sebelah dalam model AI. Kebertanggungjawaban AI boleh dilaksanakan oleh audit luaran untuk memeriksa potensi kesilapan etika.

Kerjasama dan Penyelesaian Sumber Terbuka

Pembangunan AI bersumberkan etika memerlukan kerjasama dan penyelesaian sumber terbuka. Dengan berkongsi set data, metodologi dan amalan terbaik, penyelidik dan pembangun boleh mempercepatkan kemajuan dan menangani secara kolektif cabaran pembangunan AI etika. Inisiatif sumber terbuka juga boleh memperkasakan organisasi dan individu yang lebih kecil untuk mengambil bahagian dalam revolusi AI, memastikan bahawa faedah teknologi ini dikongsi dengan lebih saksama.

Janji Masa Depan yang Lebih Cerah

Penciptaan model AI yang dilatih sepenuhnya berdasarkan data bersumberkan etika mewakili satu peristiwa penting dalam usaha mencari AI yang bertanggungjawab dan bermanfaat. Pencapaian terobosan ini bukan sahaja membuktikan bahawa pembangunan AI beretika adalah mungkin tetapi juga menyediakan pelan tindakan untuk diikuti oleh orang lain. Dengan menerima ketelusan, kerjasama dan komitmen terhadap prinsip etika, kita boleh membuka potensi penuh AI sambil melindungi nilai manusia dan menggalakkan masa depan yang lebih adil dan saksama.

dikemaskinikan pada 2025-06-09

# AIGC # Llama # Meta