Kepura-puraan 'Sumber Terbuka' AI: Seruan Integriti Sains

Menjatuhkan Nilai Konsep Asas: Hakisan 'Sumber Terbuka'

Istilah ‘sumber terbuka’ pernah menjadi mercu tanda dalam landskap teknologi dan saintifik. Ia mewakili etos yang kuat berlandaskan ketelusan, akses tanpa halangan, penambahbaikan kolaboratif, dan prinsip asas kebolehasilan semula. Bagi generasi penyelidik dan pembangun, ia menandakan komitmen terhadap perkongsian pengetahuan dan kemajuan kolektif. Daripada alat statistik asas yang terdapat dalam persekitaran seperti R Studio, yang memperkasakan analisis yang tidak terkira banyaknya merentasi disiplin, kepada platform simulasi canggih seperti OpenFOAM, yang digunakan untuk merungkai kerumitan dinamik bendalir, perisian sumber terbuka telah menjadi pemangkin yang sangat diperlukan untuk inovasi. Ia mempercepatkan penemuan dengan membolehkan saintis di seluruh dunia memeriksa, mengesahkan, mengubah suai, dan membina berdasarkan kerja masing-masing, memastikan penemuan dapat direplikasi dan disahkan – asas utama kaedah saintifik.

Walau bagaimanapun, bayangan kini menyelubungi gelaran yang dipercayai ini, yang dilemparkan oleh bidang kecerdasan buatan (AI) yang berkembang pesat. Seperti yang diserlahkan dalam perbincangan kritikal baru-baru ini, termasuk yang dicatat oleh penerbitan seperti Nature, satu trend yang membimbangkan telah muncul di mana pembangun AI terkemuka menggunakan label ‘sumber terbuka’ untuk model mereka sambil pada masa yang sama menahan komponen penting yang diperlukan untuk keterbukaan sejati. Amalan ini berisiko mencairkan makna istilah tersebut, mengubahnya daripada simbol ketelusan menjadi slogan pemasaran yang berpotensi mengelirukan. Isu teras sering terletak pada sifat unik sistem AI moden. Tidak seperti perisian tradisional di mana kod sumber adalah paling utama, kuasa dan tingkah laku model AI yang besar berkait rapat dengan set data yang luas yang digunakan untuk latihan mereka dan seni bina rumit yang menentukannya. Apabila akses kepada data latihan ini atau maklumat terperinci tentang pembinaan dan pemberat model dihadkan, dakwaan sebagai ‘sumber terbuka’ kedengaran kosong, tidak kira sama ada sebahagian daripada kod model disediakan. Percanggahan ini menyerang jantung falsafah sumber terbuka, mewujudkan ilusi kebolehcapaian sambil mengaburkan elemen yang paling penting untuk penelitian dan replikasi bebas.

Keperluan Keterbukaan Sejati dalam AI Saintifik

Pertaruhan yang berkaitan dengan mengekalkan keterbukaan sejati dalam AI, terutamanya dalam domain saintifik, tidak mungkin lebih tinggi. Sains berkembang maju berdasarkan keupayaan untuk mengesahkan hasil secara bebas, memahami metodologi, dan membina berdasarkan kerja terdahulu. Apabila alat itu sendiri – model AI yang semakin canggih – menjadi kotak hitam, proses asas ini terjejas. Bergantung pada sistem AI yang cara kerja dalamannya, bias data latihan, atau mod kegagalan yang berpotensi adalah legap memperkenalkan tahap ketidakpastian yang tidak boleh diterima ke dalam penyelidikan. Bagaimanakah seorang saintis boleh dengan yakin mendasarkan kesimpulan pada output AI jika faktor-faktor yang membentuk output itu tidak diketahui atau tidak dapat disahkan? Bagaimanakah komuniti boleh mempercayai penemuan yang dihasilkan oleh sistem proprietari yang tidak dapat diaudit atau direplikasi secara bebas?

Kejayaan sejarah perisian sumber terbuka dalam sains memberikan kontras yang ketara dan penanda aras yang jelas. Ketelusan yang wujud dalam projek sumber terbuka tradisional memupuk kepercayaan dan membolehkan semakan rakan sebaya yang mantap. Penyelidik boleh memeriksa algoritma, memahami batasannya, dan menyesuaikannya untuk keperluan khusus. Ekosistem kolaboratif ini mempercepatkan kemajuan dalam bidang-bidang dari bioinformatik hingga astrofizik. Potensi AI untuk merevolusikan penemuan saintifik adalah sangat besar, menjanjikan untuk menganalisis set data yang kompleks, menjana hipotesis, dan mensimulasikan proses rumit pada skala yang belum pernah terjadi sebelumnya. Walau bagaimanapun, merealisasikan potensi ini bergantung pada mengekalkan prinsip ketelusan dan kebolehasilan semula yang sama yang sentiasa menyokong kemajuan saintifik. Peralihan ke arah sistem AI tertutup, proprietari, walaupun yang menyamar sebagai ‘terbuka’, mengancam untuk memecahbelahkan komuniti penyelidikan, menghalang kerjasama, dan akhirnya melambatkan kadar penemuan dengan mendirikan halangan kepada pemahaman dan pengesahan. Usaha saintifik menuntut alat yang bukan sahaja berkuasa, tetapi juga telus dan boleh dipercayai.

Konundrum Data: Cabaran Ketelusan AI

Di tengah-tengah perdebatan ‘sumber terbuka’ dalam AI terletak isu kritikal data latihan. Tidak seperti perisian konvensional yang ditakrifkan terutamanya oleh kodnya, model bahasa besar (LLM) dan sistem AI asas lain secara asasnya dibentuk oleh set data gergasi yang dicernanya semasa pembangunannya. Ciri-ciri, bias, dan asal usul data ini sangat mempengaruhi tingkah laku model, keupayaannya, dan batasan potensinya. Oleh itu, keterbukaan sejati dalam AI memerlukan tahap ketelusan mengenai data ini yang jauh melampaui sekadar melepaskan pemberat model atau kod inferens.

Banyak model yang kini dipasarkan di bawah payung ‘sumber terbuka’ jelas gagal dalam hal ini. Pertimbangkan contoh terkemuka seperti siri Llama Meta, Phi-2 Microsoft, atau Mixtral Mistral AI. Walaupun syarikat-syarikat ini mengeluarkan komponen tertentu, membolehkan pembangun menjalankan atau menala halus model, mereka sering mengenakan sekatan yang ketara atau memberikan butiran yang terhad tentang data latihan asas. Set data yang terlibat boleh jadi besar, proprietari, dikikis dari web dengan sedikit kurasi, atau tertakluk kepada kekangan pelesenan, menjadikan pelepasan awam penuh mencabar atau mustahil. Walau bagaimanapun, tanpa maklumat komprehensif tentang:

  • Sumber Data: Dari mana maklumat itu datang? Adakah ia kebanyakannya teks, imej, kod? Dari laman web, buku, atau pangkalan data mana?
  • Kurasi Data: Bagaimana data ditapis, dibersihkan, dan diproses? Apakah kriteria yang digunakan untuk memasukkan atau mengecualikan maklumat?
  • Ciri-ciri Data: Apakah bias yang diketahui dalam data (cth., demografi, budaya, linguistik)? Apakah tempoh masa yang diliputinya?
  • Langkah Prapemprosesan: Apakah transformasi yang digunakan pada data sebelum latihan?

…ia menjadi sangat sukar bagi penyelidik bebas untuk memahami sepenuhnya tingkah laku model, meniru pembangunannya, atau menilai secara kritis potensi bias dan titik kegagalannya. Kekurangan ketelusan data ini adalah sebab utama mengapa banyak keluaran AI ‘sumber terbuka’ semasa gagal memenuhi semangat, jika bukan perkataan, keterbukaan sejati yang ditubuhkan dalam dunia perisian. Sebaliknya, inisiatif seperti model OLMo Allen Institute for AI atau usaha yang didorong oleh komuniti seperti CrystalCoder LLM360 telah melakukan usaha yang lebih bersepadu untuk memberikan ketelusan yang lebih besar mengenai data dan metodologi latihan mereka, menetapkan standard yang lebih tinggi yang lebih sejajar dengan nilai sumber terbuka tradisional.

'Openwashing': Pelabelan Strategik atau Pengelakan Peraturan?

Pengambilan label ‘sumber terbuka’ oleh entiti yang tidak sepenuhnya menerima prinsipnya telah menimbulkan kebimbangan mengenai ‘openwashing’. Istilah ini menggambarkan amalan memanfaatkan konotasi positif keterbukaan untuk faedah perhubungan awam atau kelebihan strategik, tanpa komited kepada tahap ketelusan dan kebolehcapaian yang berkaitan. Mengapa syarikat mungkin terlibat dalam hal ini? Beberapa faktor mungkin berperanan. Jenama ‘sumber terbuka’ membawa muhibah yang signifikan, mencadangkan komitmen kepada komuniti dan kemajuan bersama, yang boleh menarik minat pembangun dan pelanggan.

Tambahan pula, seperti yang dicatat oleh Nature dan pemerhati lain, landskap peraturan mungkin secara tidak sengaja memberi insentif kepada tingkah laku sedemikian. Akta AI Kesatuan Eropah yang bersejarah, yang dimuktamadkan pada tahun 2024, merangkumi peruntukan yang mengenakan keperluan yang lebih ketat ke atas sistem AI berisiko tinggi dan tujuan umum. Walau bagaimanapun, ia juga mengandungi potensi pengecualian atau keperluan yang lebih ringan untuk model AI yang dikeluarkan di bawah lesen sumber terbuka. Ini mewujudkan potensi kelemahan di mana syarikat mungkin secara strategik melabelkan model mereka sebagai ‘sumber terbuka’ – walaupun komponen utama seperti data latihan kekal terhad – khusus untuk menavigasi halangan peraturan dan mengelakkan kewajipan pematuhan yang lebih ketat.

Potensi untuk arbitraj peraturan ini amat membimbangkan. Jika ‘openwashing’ membolehkan sistem AI yang berkuasa memintas penelitian yang bertujuan untuk memastikan keselamatan, keadilan, dan akauntabiliti, ia menjejaskan tujuan sebenar peraturan itu. Ia juga meletakkan komuniti saintifik dalam kedudukan yang genting. Penyelidik mungkin tertarik kepada sistem ‘terbuka’ secara nominal ini kerana kebolehcapaiannya berbanding dengan tawaran komersial yang tertutup sepenuhnya, hanya untuk mendapati diri mereka bergantung pada alat yang metodologinya kekal legap dan tidak dapat disahkan. Ketergantungan ini berisiko menjejaskan integriti saintifik, menjadikannya lebih sukar untuk memastikan penyelidikan boleh dihasilkan semula, tidak berat sebelah, dan dibina di atas asas yang kukuh dan boleh difahami. Daya tarikan label yang biasa boleh menyembunyikan sekatan asas yang menghalang pertanyaan saintifik yang tulen.

Mentakrifkan Semula Keterbukaan untuk Era AI: Rangka Kerja OSAID

Menyedari ketidakcukupan definisi sumber terbuka tradisional untuk cabaran unik yang ditimbulkan oleh AI, Open Source Initiative (OSI) – penjaga prinsip sumber terbuka yang telah lama wujud – telah memulakan usaha global yang penting. Matlamat mereka adalah untuk mewujudkan definisi yang jelas dan mantap yang disesuaikan khusus untuk kecerdasan buatan: Definisi AI Sumber Terbuka (OSAID 1.0). Inisiatif ini mewakili langkah penting ke arah menuntut semula makna ‘terbuka’ dalam konteks AI dan menetapkan standard yang jelas untuk ketelusan dan akauntabiliti.

Inovasi utama dalam rangka kerja OSAID yang dicadangkan ialah konsep ‘maklumat data’. Mengakui bahawa pelepasan penuh set data latihan yang besar mungkin sering tidak praktikal atau dilarang secara sah kerana kebimbangan privasi, sekatan hak cipta, atau skala semata-mata, OSAID memberi tumpuan kepada mewajibkan pendedahan komprehensif mengenai data tersebut. Ini termasuk keperluan bagi pembangun untuk menyediakan maklumat terperinci mengenai:

  1. Sumber dan Komposisi: Mengenal pasti dengan jelas asal usul data latihan.
  2. Ciri-ciri: Mendokumenkan ciri, batasan, dan potensi bias yang diketahui dalam data.
  3. Kaedah Penyediaan: Menerangkan proses yang digunakan untuk membersihkan, menapis, dan menyediakan data untuk latihan.

Walaupun data mentah tidak dapat dikongsi, penyediaan metadata ini membolehkan penyelidik dan juruaudit memperoleh pandangan kritikal tentang faktor-faktor yang membentuk model AI. Ia memudahkan pemahaman yang lebih baik tentang potensi bias, membolehkan penilaian risiko yang lebih termaklum, dan menyediakan asas untuk mencuba replikasi atau kajian perbandingan.

Di luar maklumat data, usaha OSI, bersama dengan advokasi daripada organisasi seperti Open Future, mempromosikan peralihan yang lebih luas ke arah model ‘data-commons’. Ini membayangkan masa depan di mana set data penting untuk latihan AI dikurasi dan disediakan secara lebih terbuka dan saksama, memupuk ekosistem yang lebih telus dan kolaboratif untuk pembangunan AI, terutamanya dalam komuniti penyelidikan. Definisi OSAID bertujuan untuk menyediakan penanda aras yang jelas untuk menilai sistem AI, bergerak melampaui label dangkal untuk menilai komitmen tulen terhadap keterbukaan.

Tanggungjawab Kolektif: Memacu Ketelusan AI Sejati

Cabaran untuk memastikan keterbukaan sejati dalam AI tidak dapat diselesaikan dengan definisi sahaja; ia menuntut tindakan bersepadu daripada pelbagai pihak berkepentingan. Komuniti saintifik, sebagai pembangun dan pengguna utama alat AI yang canggih, memegang tanggungjawab yang signifikan. Penyelidik mesti terlibat secara aktif dengan inisiatif seperti OSAID 1.0, memahami prinsipnya dan menyokong penggunaannya. Mereka perlu menilai secara kritis dakwaan ‘keterbukaan’ model AI yang mereka pertimbangkan untuk digunakan, mengutamakan model yang menawarkan ketelusan yang lebih besar mengenai data latihan dan metodologi, walaupun ia memerlukan penentangan terhadap daya tarikan sistem yang kelihatan mudah tetapi legap. Menyuarakan keperluan untuk alat AI yang boleh disahkan dan boleh dihasilkan semula dalam penerbitan, persidangan, dan perbincangan institusi adalah amat penting.

Agensi pembiayaan awam dan badan kerajaan juga mempunyai peranan kritikal untuk dimainkan. Mereka mempunyai pengaruh yang besar melalui keperluan geran dan dasar perolehan. Institusi seperti National Institutes of Health (NIH) AS, yang sudah mewajibkan pelesenan terbuka untuk data penyelidikan yang dihasilkan melalui pembiayaannya, memberikan preseden yang berharga. Begitu juga, contoh seperti keperluan Itali untuk badan pentadbiran awam mengutamakan perisian sumber terbuka menunjukkan bagaimana dasar boleh mendorong penggunaan. Prinsip-prinsip ini boleh dan harus diperluaskan ke alam AI. Kerajaan dan badan pembiayaan harus mempertimbangkan:

  • Mewajibkan pematuhan kepada standard AI Sumber Terbuka yang mantap (seperti OSAID) untuk penyelidikan dan pembangunan AI yang dibiayai oleh awam.
  • Melabur dalam penciptaan set data berkualiti tinggi yang benar-benar terbuka – ‘data commons’ – sesuai untuk melatih model AI yang berfokuskan penyelidikan.
  • Memastikan bahawa peraturan, seperti Akta AI EU, dilaksanakan dengan cara yang menghalang ‘openwashing’ dan mempertanggungjawabkan semua sistem AI yang berkuasa, tanpa mengira tuntutan pelesenan mereka.

Akhirnya, melindungi masa depan AI dalam penyelidikan memerlukan barisan bersatu. Saintis mesti menuntut ketelusan, institusi mesti melaksanakan dasar yang mengutamakan keterbukaan sejati, dan pengawal selia mesti memastikan bahawa label ‘sumber terbuka’ menandakan komitmen yang bermakna terhadap akauntabiliti, bukan jalan keluar yang mudah. Tanpa usaha kolektif ini, potensi besar AI untuk penemuan saintifik berisiko terjejas oleh landskap yang didominasi oleh sistem tertutup, proprietari, yang secara asasnya menjejaskan sifat kolaboratif dan boleh disahkan kemajuan saintifik itu sendiri. Integriti penyelidikan masa depan bergantung padanya.