Hakisan Keterbukaan: AI 'Sumber Terbuka' Selalunya Tidak

Istilah ‘open source’ membawa resonans yang kuat dalam dunia teknologi. Ia membangkitkan imej inovasi kolaboratif, perkongsian pengetahuan, dan kepercayaan asas terhadap ketelusan. Semangat ini terjelma dengan jelas setengah abad yang lalu dengan pembentukan Homebrew Computer Club di Menlo Park, California. Kumpulan peminat dan pengutak-atik ini bukan sahaja membina mesin; mereka membina budaya yang berasaskan pertukaran idea dan perisian secara bebas, meletakkan batu asas bagi pergerakan sumber terbuka yang akan merevolusikan pengkomputeran. Namun, hari ini, legasi yang diperjuangkan dengan susah payah ini dan definisi keterbukaan itu sendiri sedang menghadapi cabaran yang halus tetapi signifikan, terutamanya dalam domain artificial intelligence (kecerdasan buatan) yang berkembang pesat. Semakin banyak syarikat yang membangunkan model AI canggih dengan ghairah menjenamakan ciptaan mereka sebagai ‘open source’, tetapi penelitian yang lebih dekat mendedahkan bahawa label ini sering digunakan secara dangkal, menyembunyikan realiti yang tidak memenuhi prinsip teras pergerakan tersebut. Pencairan makna ini bukan sekadar perbalahan semantik; ia menimbulkan ancaman sebenar kepada prinsip ketelusan dan kebolehulangan yang amat penting, terutamanya dalam komuniti saintifik.

Memahami Semangat Sebenar Kolaborasi Terbuka

Untuk memahami keadaan semasa, seseorang mesti terlebih dahulu menghargai apa yang sebenarnya dimaksudkan dengan ‘open source’. Ia lebih daripada sekadar perisian percuma; ia adalah falsafah yang berakar umbi dalam kemajuan kolektif dan kepercayaan yang boleh disahkan. Asas falsafah ini terletak pada empat kebebasan penting:

  1. Kebebasan untuk menjalankan program untuk sebarang tujuan.
  2. Kebebasan untuk mengkaji cara program berfungsi dan mengubahnya supaya ia melakukan pengkomputeran seperti yang anda inginkan. Akses kepada source code adalah prasyarat untuk ini.
  3. Kebebasan untuk mengedar semula salinan supaya anda boleh membantu orang lain.
  4. Kebebasan untuk mengedarkan salinan versi anda yang telah diubah suai kepada orang lain. Dengan melakukan ini, anda boleh memberi peluang kepada seluruh komuniti untuk mendapat manfaat daripada perubahan anda. Akses kepada source code adalah prasyarat untuk ini.

Kebebasan ini, yang biasanya termaktub dalam lesen seperti GNU General Public License (GPL), MIT License, atau Apache License, secara sejarahnya tertumpu pada source code. Source code – arahan yang boleh dibaca manusia yang ditulis oleh pengaturcara – adalah pelan tindakan perisian tradisional. Menyediakan kod ini secara terbuka membolehkan sesiapa sahaja memeriksanya, memahami logiknya, mengenal pasti kelemahan yang berpotensi, menyesuaikannya dengan keperluan baharu, dan berkongsi penambahbaikan tersebut.

Model ini telah menjadi pemangkin yang luar biasa untuk inovasi dan kemajuan saintifik. Pertimbangkan impak alat yang sedia ada kepada penyelidik di seluruh dunia:

  • Analisis statistik: Perisian seperti R Studio menyediakan persekitaran yang berkuasa, telus, dan boleh diperluas untuk pengkomputeran statistik dan grafik, menjadi asas analisis data dalam bidang saintifik yang tidak terkira banyaknya. Keterbukaannya membolehkan semakan rakan sebaya terhadap kaedah dan pembangunan pakej khusus.
  • Dinamik bendalir pengiraan: OpenFOAM menawarkan perpustakaan canggih untuk mensimulasikan aliran bendalir, penting dalam bidang dari kejuruteraan aeroangkasa hingga sains alam sekitar. Sifat terbukanya membolehkan penyesuaian dan pengesahan simulasi yang kompleks.
  • Sistem pengendalian: Linux dan sistem pengendalian sumber terbuka lain membentuk tulang belakang kebanyakan infrastruktur pengkomputeran dunia, termasuk kluster pengkomputeran berprestasi tinggi saintifik, dihargai kerana kestabilan, fleksibiliti, dan ketelusannya.

Manfaatnya melangkaui penjimatan kos semata-mata. Sumber terbuka memupuk kebolehulangan (reproducibility), asas kaedah saintifik. Apabila alat dan kod yang digunakan dalam penyelidikan adalah terbuka, saintis lain boleh meniru eksperimen, mengesahkan penemuan, dan membina kerja tersebut dengan yakin. Ia menggalakkan kolaborasi global, memecahkan halangan dan membolehkan penyelidik dari pelbagai latar belakang dan institusi menyumbang kepada cabaran bersama. Ia memastikan jangka hayat dan mengelakkan keterikatan vendor (vendor lock-in), melindungi pelaburan penyelidikan daripada kehendak syarikat perisian proprietari. Ia mempercepatkan penemuan dengan membenarkan penyebaran pantas dan lelaran idea dan teknik baharu. Etos sumber terbuka secara asasnya sejajar dengan usaha saintifik mencari pengetahuan melalui ketelusan, penelitian, dan kemajuan bersama.

Artificial Intelligence: Suatu Entiti yang Berbeza Sama Sekali

Paradigma open source yang mantap, dibina dengan selamat di sekitar kebolehcapaian source code, menghadapi pergolakan yang signifikan apabila diterapkan dalam alam artificial intelligence, terutamanya model berskala besar seperti large language models (LLMs) asas. Walaupun sistem AI ini pastinya melibatkan kod, fungsi dan tingkah lakunya dibentuk oleh elemen yang jauh lebih kompleks dan sering kali legap. Sekadar mengeluarkan kod seni bina untuk neural network tidak sama dengan keterbukaan tulen seperti mana ia berlaku untuk perisian tradisional.

Model AI, terutamanya model deep learning, biasanya terdiri daripada beberapa bahan utama:

  1. Model Architecture (Seni Bina Model): Ini adalah reka bentuk struktur neural network – susunan lapisan, neuron, dan sambungan. Syarikat sering ada mengeluarkan maklumat ini, mempersembahkannya sebagai bukti keterbukaan. Ia seumpama berkongsi pelan tindakan enjin.
  2. Model Weights (Parameters) (Pemberat/Parameter Model): Ini adalah nilai berangka, selalunya berbilion-bilion, dalam rangkaian yang telah diselaraskan semasa proses latihan. Ia mewakili corak dan pengetahuan yang dipelajari yang diekstrak daripada data latihan. Mengeluarkan pemberat membolehkan orang lain menggunakan model yang telah dilatih terlebih dahulu. Ini seperti menyediakan enjin yang dipasang sepenuhnya, sedia untuk dijalankan.
  3. Training Data (Data Latihan): Ini mungkin komponen yang paling kritikal dan paling kerap dikaburkan. Model asas dilatih pada set data yang sangat besar, selalunya dikikis dari internet atau diperoleh daripada koleksi proprietari atau peribadi (seperti rekod perubatan, yang menimbulkan kebimbangan privasi yang signifikan). Komposisi, kurasi, penapisan, dan potensi bias dalam data ini sangat mempengaruhi keupayaan, batasan, dan tingkah laku etika model. Tanpa maklumat terperinci tentang data latihan, memahami mengapa model berkelakuan sedemikian, atau menilai kesesuaian dan keselamatannya untuk aplikasi tertentu, menjadi sangat sukar. Ini adalah campuran bahan api rahsia dan keadaan tepat di mana enjin itu dijalankan semasa tempoh ‘run-in’.
  4. Training Code and Process (Kod dan Proses Latihan): Ini termasuk algoritma khusus yang digunakan untuk latihan, teknik pengoptimuman, hyperparameters yang dipilih (tetapan yang mengawal proses pembelajaran), infrastruktur pengiraan yang digunakan, dantenaga signifikan yang digunakan. Variasi kecil dalam proses latihan boleh membawa kepada tingkah laku model yang berbeza, menjadikan kebolehulangan mencabar walaupun seni bina dan data diketahui. Ini mewakili spesifikasi kejuruteraan terperinci, perkakasan, dan keadaan kilang yang digunakan untuk membina dan menala enjin.

Banyak sistem yang kini dipasarkan sebagai AI ‘open source’ terutamanya menawarkan akses kepada seni bina model dan pemberat pra-latihan. Walaupun ini membolehkan pengguna menjalankan model dan mungkin menalanya semula (fine-tune) pada set data yang lebih kecil, ia secara kritikal gagal menyediakan ketelusan yang diperlukan mengenai data dan proses latihan. Ini sangat mengekang keupayaan untuk benar-benar mengkaji sifat asas model atau untuk mengubah suainya dengan cara yang mendalam yang memerlukan latihan semula atau pemahaman tentang asal-usulnya. Kebebasan untuk mengkaji dan mengubah suai, yang menjadi pusat definisi sumber terbuka, terhalang dengan ketara apabila elemen penting data dan metodologi latihan kekal tersembunyi. Meniru penciptaan model dari awal – ujian utama pemahaman dan pengesahan saintifik – menjadi hampir mustahil.

Trend ‘Openwashing’ yang Merisaukan dalam AI

Jurang antara label dan realiti ini telah menimbulkan amalan yang dikenali sebagai openwashing‘. Istilah ini menggambarkan tindakan syarikat memanfaatkan reputasi positif dan faedah yang dirasakan daripada ‘open source’ untuk pemasaran dan kelebihan strategik, sambil pada masa yang sama menahan akses kepada komponen kritikal seperti maklumat data latihan terperinci atau kod yang digunakan untuk latihan itu sendiri. Mereka menyelubungi sistem mereka dalam bahasa keterbukaan tanpa menerima sepenuhnya prinsip ketelusan dan akses komuniti yang menuntut.

Beberapa model AI terkemuka, walaupun digunakan secara meluas dan kadangkala membawa gelaran ‘terbuka’, gagal apabila diukur berbanding definisi komprehensif open source yang diperjuangkan oleh organisasi seperti Open Source Initiative (OSI). Analisis oleh OSI, yang telah bekerja keras sejak 2022 untuk menjelaskan makna open source dalam konteks AI, menyoroti kebimbangan terhadap beberapa model popular:

  • Llama 2 & Llama 3.x (Meta): Walaupun pemberat model dan seni bina tersedia, sekatan penggunaan dan ketelusan yang tidak lengkap mengenai set data latihan penuh dan proses mengehadkan penjajaran mereka dengan nilai open source tradisional.
  • Grok (X): Begitu juga, walaupun disediakan, kekurangan maklumat komprehensif tentang data latihan dan metodologinya menimbulkan persoalan tentang keterbukaan sebenarnya.
  • Phi-2 (Microsoft): Sering digambarkan sebagai ‘model terbuka’, ketelusan penuh mengenai proses penciptaan dan datanya masih terhad.
  • Mixtral (Mistral AI): Walaupun sebahagiannya dikeluarkan, ia tidak memenuhi kriteria penuh untuk open source kerana batasan dalam akses kepada semua komponen yang diperlukan untuk kajian dan pengubahsuaian.

Contoh-contoh ini berbeza dengan usaha yang berusaha untuk pematuhan yang lebih besar terhadap prinsip open source:

  • OLMo (Allen Institute for AI): Dibangunkan oleh institut penyelidikan bukan untung, OLMo secara eksplisit direka dengan mengambil kira keterbukaan, mengeluarkan bukan sahaja pemberat tetapi juga kod latihan dan butiran mengenai data yang digunakan.
  • LLM360‘s CrystalCoder: Projek yang dipacu komuniti yang bertujuan untuk ketelusan penuh merentas kitaran hayat model, termasuk data, prosedur latihan, dan metrik penilaian.

Mengapa terlibat dalam openwashing? Motivasi adalah pelbagai rupa:

  1. Pemasaran dan Persepsi: Label ‘open source’ membawa muhibah yang signifikan. Ia mencadangkan kolaborasi, amalan etika, dan komitmen kepada komuniti yang lebih luas, yang boleh menarik pengguna, pembangun, dan liputan akhbar yang positif.
  2. Pembinaan Ekosistem: Mengeluarkan pemberat model, walaupun tanpa ketelusan penuh, menggalakkan pembangun untuk membina aplikasi di atas sistem AI, berpotensi mewujudkan ekosistem yang bergantung yang memberi manfaat kepada syarikat asal.
  3. Arbitraj Peraturan: Ini adalah pemacu yang amat membimbangkan. Peraturan yang akan datang, seperti European Union's AI Act (2024), dijangka mengenakan keperluan yang lebih ketat ke atas sistem AI berisiko tinggi tertentu. Walau bagaimanapun, pengecualian atau penelitian yang lebih ringan sering dicadangkan untuk ‘perisian sumber bebas dan terbuka’. Dengan menggunakan label ‘open source’ – walaupun tidak tepat mengikut definisi yang mantap – syarikat mungkin berharap untuk menavigasi peraturan ini dengan lebih mudah, mengelakkan beban pematuhan yang berpotensi mahal yang berkaitan dengan sistem proprietari berisiko tinggi. Pelabelan strategik ini mengeksploitasi potensi kelemahan, menjejaskan niat peraturan untuk memastikan keselamatan dan ketelusan.

Amalan ini akhirnya merendahkan nilai istilah ‘open source’ dan mewujudkan kekeliruan, menjadikannya lebih sukar bagi pengguna, pembangun, dan penyelidik untuk membezakan sistem AI mana yang benar-benar menawarkan ketelusan dan kebebasan yang tersirat oleh label tersebut.

Mengapa Keterbukaan Sebenar Penting Segera untuk Sains

Bagi komuniti saintifik, pertaruhan dalam perdebatan ini sangat tinggi. Sains berkembang maju berdasarkan ketelusan, kebolehulangan, dan keupayaan untuk pengesahan bebas. Peningkatan integrasi AI ke dalam penyelidikan – daripada menganalisis data genomik dan memodelkan perubahan iklim kepada menemui bahan baharu dan memahami sistem biologi yang kompleks – menjadikan sifat alat AI ini sangat penting. Bergantung pada sistem AI ‘black box’, atau yang menyamar sebagai terbuka tanpa memberikan ketelusan tulen, memperkenalkan risiko yang mendalam:

  • Kebolehulangan Terjejas: Jika penyelidik tidak dapat mengakses atau memahami data latihan dan metodologi di sebalik model AI yang digunakan dalam kajian, meniru hasilnya menjadi mustahil. Ini secara asasnya menjejaskan tonggak teras kaedah saintifik. Bagaimana penemuan boleh dipercayai atau dibina jika ia tidak dapat disahkan secara bebas?
  • Bias dan Batasan Tersembunyi: Semua model AI mewarisi bias daripada data latihan dan pilihan reka bentuk mereka. Tanpa ketelusan, penyelidik tidak dapat menilai bias ini secukupnya atau memahami batasan model. Menggunakan model yang bias tanpa disedari boleh membawa kepada hasil yang condong, kesimpulan yang cacat, dan akibat dunia nyata yang berpotensi membahayakan, terutamanya dalam bidang sensitif seperti penyelidikan perubatan atau sains sosial.
  • Kekurangan Penelitian: Model legap mengelak semakan rakan sebaya yang teliti. Komuniti saintifik tidak dapat menyoal siasat sepenuhnya kerja dalaman model, mengenal pasti potensi ralat dalam logiknya, atau memahami ketidakpastian yang berkaitan dengan ramalannya. Ini menghalang sifat pembetulan kendiri siasatan saintifik.
  • Ketergantungan pada Sistem Korporat: Kebergantungan pada sistem AI tertutup atau separa tertutup yang dikawal oleh syarikat mewujudkan kebergantungan. Agenda penyelidikan boleh dipengaruhi secara halus oleh keupayaan dan batasan alat korporat yang tersedia, dan akses boleh dihadkan atau menjadi mahal, berpotensi membantutkan arah penyelidikan bebas dan meluaskan jurang antara institusi yang dibiayai dengan baik dan yang lain.
  • Inovasi Terbantut: Open source yang sebenar membolehkan penyelidik bukan sahaja menggunakan alat tetapi juga membedah, mengubah suai, menambah baik, dan menggunakan semula alat tersebut. Jika komponen utama model AI kekal tidak boleh diakses, laluan penting untuk inovasi ini disekat. Saintis dihalang daripada bereksperimen dengan teknik latihan baharu, meneroka kombinasi data yang berbeza, atau menyesuaikan model untuk soalan penyelidikan khusus dan bernuansa yang tidak dijangkakan oleh pembangun asal.

Komuniti saintifik tidak mampu menerima secara pasif pencairan istilah ‘open source’. Ia mesti secara aktif menyokong kejelasan dan menuntut ketelusan tulen daripada pembangun AI, terutamanya apabila alat ini digunakan dalam konteks penyelidikan. Ini melibatkan:

  • Menggalakkan Piawaian yang Jelas: Menyokong usaha, seperti yang dilakukan oleh OSI, untuk mewujudkan definisi yang jelas dan ketat untuk apa yang membentuk ‘AI sumber terbuka’, definisi yang merangkumi ketelusan mengenai seni bina, pemberat, data latihan, dan proses latihan.
  • Mengutamakan Alat yang Boleh Disahkan: Memihak kepada penggunaan model dan platform AI yang memenuhi piawaian ketelusan yang tinggi ini, walaupun pada mulanya ia kurang berprestasi atau memerlukan lebih banyak usaha daripada alternatif legap yang sedia ada.
  • Menuntut Ketelusan: Menegaskan bahawa penerbitan yang melibatkan AI termasuk pendedahan terperinci tentang model yang digunakan, termasuk maklumat komprehensif tentang asal usul data latihan, pemprosesan, dan potensi bias, serta metodologi latihan.
  • Menyokong Projek yang Benar-benar Terbuka: Menyumbang kepada dan menggunakan projek dan inisiatif yang dipacu komuniti daripada institusi yang komited kepada keterbukaan tulen dalam pembangunan AI.

Semangat Homebrew Computer Club – semangat perkongsian pengetahuan dan pembinaan kolaboratif – adalah penting untuk menavigasi kerumitan era AI secara bertanggungjawab. Menuntut semula dan mempertahankan makna sebenar ‘open source’ untuk artificial intelligence bukan hanya tentang kesucian terminologi; ia adalah tentang melindungi integriti, kebolehulangan, dan kemajuan berterusan sains itu sendiri dalam dunia yang semakin dipacu AI. Jalan ke hadapan memerlukan kewaspadaan dan komitmen kolektif untuk memastikan bahawa alat AI yang berkuasa dibangunkan dan digunakan dengan cara yang konsisten dengan prinsip siasatan terbuka yang telah berkhidmat dengan baik kepada sains selama berabad-abad.