Istilah open source
memiliki gaung yang kuat di dunia teknologi. Istilah ini membangkitkan citra inovasi kolaboratif, pengetahuan bersama, dan keyakinan mendasar pada transparansi. Semangat ini terwujud dengan jelas setengah abad yang lalu dengan terbentuknya Homebrew Computer Club
di Menlo Park
, California
. Kelompok penggemar dan perakit ini tidak hanya membangun mesin; mereka membangun budaya yang didasarkan pada pertukaran ide dan perangkat lunak secara bebas, meletakkan batu fondasi bagi gerakan open source
yang akan merevolusi komputasi. Namun, hari ini, warisan yang susah payah dibangun ini dan definisi keterbukaan itu sendiri menghadapi tantangan yang halus namun signifikan, terutama dalam domain kecerdasan buatan yang berkembang pesat. Semakin banyak perusahaan yang mengembangkan model AI canggih dengan antusias melabeli kreasi mereka sebagai open source
, tetapi penelaahan lebih dekat mengungkapkan bahwa label ini seringkali diterapkan secara dangkal, menutupi kenyataan yang jauh dari prinsip inti gerakan tersebut. Pengenceran makna ini bukan sekadar perdebatan semantik; ini menimbulkan ancaman nyata terhadap prinsip-prinsip transparansi dan replikabilitas yang sangat penting, terutama dalam komunitas ilmiah.
Memahami Semangat Sejati Kolaborasi Terbuka
Untuk memahami kesulitan saat ini, pertama-tama kita harus menghargai apa arti sebenarnya dari open source
. Ini lebih dari sekadar perangkat lunak gratis; ini adalah filosofi yang berakar pada kemajuan kolektif dan kepercayaan yang dapat diverifikasi. Landasan filosofi ini bertumpu pada empat kebebasan esensial:
- Kebebasan untuk menjalankan program untuk tujuan apa pun.
- Kebebasan untuk mempelajari cara kerja program dan mengubahnya sehingga melakukan komputasi sesuai keinginan Anda. Akses ke
source code
adalah prasyarat untuk ini. - Kebebasan untuk mendistribusikan kembali salinan sehingga Anda dapat membantu orang lain.
- Kebebasan untuk mendistribusikan salinan versi modifikasi Anda kepada orang lain. Dengan melakukan ini, Anda dapat memberikan kesempatan kepada seluruh komunitas untuk mendapat manfaat dari perubahan Anda. Akses ke
source code
adalah prasyarat untuk ini.
Kebebasan-kebebasan ini, yang biasanya diabadikan dalam lisensi seperti GNU General Public License (GPL)
, MIT License
, atau Apache License
, secara historis berpusat pada source code
. Source code
– instruksi yang dapat dibaca manusia yang ditulis oleh pemrogram – adalah cetak biru perangkat lunak tradisional. Membuat kode ini tersedia secara terbuka memungkinkan siapa saja untuk memeriksanya, memahami logikanya, mengidentifikasi potensi kelemahan, mengadaptasinya untuk kebutuhan baru, dan berbagi perbaikan tersebut.
Model ini telah menjadi katalis luar biasa untuk inovasi dan kemajuan ilmiah. Pertimbangkan dampak alat yang tersedia bagi para peneliti di seluruh dunia:
- Analisis statistik: Perangkat lunak seperti
R Studio
menyediakan lingkungan yang kuat, transparan, dan dapat diperluas untuk komputasi statistik dan grafis, menjadi landasan analisis data di berbagai bidang ilmiah. Keterbukaannya memungkinkan tinjauan sejawat terhadap metode dan pengembangan paket khusus. - Dinamika fluida komputasi:
OpenFOAM
menawarkan pustaka canggih untuk mensimulasikan aliran fluida, penting dalam bidang mulai dari teknik kedirgantaraan hingga ilmu lingkungan. Sifat terbukanya memungkinkan kustomisasi dan verifikasi simulasi kompleks. - Sistem operasi:
Linux
dan sistem operasiopen source
lainnya membentuk tulang punggung sebagian besar infrastruktur komputasi dunia, termasuk kluster komputasi kinerja tinggi ilmiah, yang dihargai karena stabilitas, fleksibilitas, dan transparansinya.
Manfaatnya jauh melampaui sekadar penghematan biaya. Open source
mendorong reproduksibilitas, landasan metode ilmiah. Ketika alat dan kode yang digunakan dalam penelitian terbuka, ilmuwan lain dapat mereplikasi eksperimen, memverifikasi temuan, dan membangun pekerjaan tersebut dengan percaya diri. Ini mempromosikan kolaborasi global, meruntuhkan hambatan dan memungkinkan peneliti dari berbagai latar belakang dan institusi untuk berkontribusi pada tantangan bersama. Ini memastikan umur panjang dan menghindari ketergantungan pada vendor, melindungi investasi penelitian dari keinginan perusahaan perangkat lunak berpemilik. Ini mempercepat penemuan dengan memungkinkan penyebaran cepat dan iterasi ide dan teknik baru. Etos open source
secara fundamental selaras dengan pengejaran pengetahuan ilmiah melalui transparansi, pengawasan, dan kemajuan bersama.
Kecerdasan Buatan: Makhluk yang Sama Sekali Berbeda
Paradigma open source
yang mapan, yang dibangun dengan aman di sekitar aksesibilitas source code
, menghadapi turbulensi signifikan ketika diterapkan pada ranah kecerdasan buatan, terutama model skala besar seperti large language models (LLMs)
dasar. Meskipun sistem AI ini tentu melibatkan kode, fungsionalitas dan perilakunya dibentuk oleh elemen yang jauh lebih kompleks dan seringkali buram. Sekadar merilis kode arsitektur untuk jaringan saraf tidak sama dengan keterbukaan sejati seperti pada perangkat lunak tradisional.
Model AI, terutama model pembelajaran mendalam, biasanya terdiri dari beberapa bahan utama:
Model Architecture
: Ini adalah desain struktural jaringan saraf – susunan lapisan, neuron, dan koneksi. Perusahaan sering memang merilis informasi ini, menyajikannya sebagai bukti keterbukaan. Ini mirip dengan berbagi cetak biru mesin.Model Weights (Parameters)
: Ini adalah nilai numerik, seringkali miliaran jumlahnya, di dalam jaringan yang telah disesuaikan selama proses pelatihan. Mereka mewakili pola dan pengetahuan yang dipelajari yang diekstraksi dari data pelatihan. Merilis bobot memungkinkan orang lain untuk menggunakan model yang telah dilatih sebelumnya. Ini seperti menyediakan mesin yang sudah dirakit sepenuhnya, siap dijalankan.Training Data
: Ini mungkin komponen yang paling kritis dan paling sering dikaburkan. Model dasar dilatih pada kumpulan data kolosal, seringkali diambil dari internet atau bersumber dari koleksi berpemilik atau pribadi (seperti catatan medis, yang menimbulkan masalah privasi yang signifikan). Komposisi, kurasi, pemfilteran, dan potensi bias dalam data ini sangat memengaruhi kemampuan, keterbatasan, dan perilaku etis model. Tanpa informasi terperinci tentang data pelatihan, memahami mengapa model berperilaku seperti itu, atau menilai kesesuaian dan keamanannya untuk aplikasi tertentu, menjadi sangat sulit. Ini adalah campuran bahan bakar rahasia dan kondisi tepat di mana mesin dijalankan.Training Code and Process
: Ini mencakup algoritma spesifik yang digunakan untuk pelatihan, teknik optimasi, hyperparameter yang dipilih (pengaturan yang mengontrol proses pembelajaran), infrastruktur komputasi yang digunakan, dan energi signifikan yang dikonsumsi. Variasi kecil dalam proses pelatihan dapat menyebabkan perilaku model yang berbeda, membuat reproduksibilitas menjadi tantangan bahkan jika arsitektur dan datanya diketahui. Ini mewakili spesifikasi teknik terperinci, perkakas, dan kondisi pabrik yang digunakan untuk membangun dan menyetel mesin.
Banyak sistem yang saat ini dipasarkan sebagai AI open source
terutama menawarkan akses ke arsitektur model dan bobot yang telah dilatih sebelumnya. Meskipun ini memungkinkan pengguna untuk menjalankan model dan mungkin menyempurnakannya pada kumpulan data yang lebih kecil, ini secara kritis gagal memberikan transparansi yang diperlukan mengenai data dan proses pelatihan. Ini sangat membatasi kemampuan untuk benar-benar mempelajari properti fundamental model atau untuk memodifikasinya dengan cara yang sangat berarti yang memerlukan pelatihan ulang atau pemahaman asal-usulnya. Kebebasan untuk mempelajari dan memodifikasi, yang merupakan inti dari definisi open source
, secara signifikan terhambat ketika elemen penting data dan metodologi pelatihan tetap tersembunyi. Mereplikasi pembuatan model dari awal – ujian utama pemahaman dan verifikasi ilmiah – menjadi hampir mustahil.
Tren Mengkhawatirkan ‘Openwashing’ dalam AI
Kesenjangan antara label dan kenyataan ini telah memunculkan praktik yang dikenal sebagai openwashing
. Istilah ini menggambarkan tindakan perusahaan yang memanfaatkan reputasi positif dan manfaat yang dirasakan dari open source
untuk keuntungan pemasaran danstrategis, sambil secara bersamaan menahan akses ke komponen penting seperti informasi data pelatihan terperinci atau kode yang digunakan untuk pelatihan itu sendiri. Mereka menyelubungi sistem mereka dalam bahasa keterbukaan tanpa sepenuhnya menganut prinsip-prinsip transparansi dan akses komunitas yang menuntut.
Beberapa model AI terkemuka, meskipun banyak digunakan dan terkadang menyandang sebutan “terbuka”, gagal memenuhi definisi komprehensif open source
yang diperjuangkan oleh organisasi seperti Open Source Initiative (OSI)
. Sebuah analisis oleh OSI
, yang telah bekerja keras sejak 2022 untuk mengklarifikasi makna open source
dalam konteks AI, menyoroti kekhawatiran dengan beberapa model populer:
Llama 2
&Llama 3.x
(Meta
): Meskipun bobot dan arsitektur model tersedia, pembatasan penggunaan dan transparansi yang tidak lengkap mengenai kumpulan data pelatihan lengkap dan prosesnya membatasi keselarasan mereka dengan nilai-nilaiopen source
tradisional.Grok
(X
): Demikian pula, meskipun tersedia, kurangnya informasi komprehensif tentang data pelatihan dan metodologinya menimbulkan pertanyaan tentang keterbukaan sebenarnya.Phi-2
(Microsoft
): Sering digambarkan sebagai “model terbuka,” transparansi penuh mengenai proses pembuatan dan datanya masih terbatas.Mixtral
(Mistral AI
): Meskipun sebagian dirilis, ia tidak memenuhi kriteria penuh untukopen source
karena keterbatasan akses ke semua komponen yang diperlukan untuk studi dan modifikasi.
Contoh-contoh ini berbeda dengan upaya yang berjuang untuk kepatuhan yang lebih besar terhadap prinsip-prinsip open source
:
OLMo
(Allen Institute for AI
): Dikembangkan oleh lembaga penelitian nirlaba,OLMo
secara eksplisit dirancang dengan mempertimbangkan keterbukaan, merilis tidak hanya bobot tetapi juga kode pelatihan dan detail tentang data yang digunakan.LLM360's CrystalCoder
: Proyek berbasis komunitas yang bertujuan untuk transparansi penuh di seluruh siklus hidup model, termasuk data, prosedur pelatihan, dan metrik evaluasi.
Mengapa terlibat dalam openwashing
? Motivasinya beragam:
- Pemasaran dan Persepsi: Label
open source
membawa niat baik yang signifikan. Ini menyarankan kolaborasi, praktik etis, dan komitmen kepada komunitas yang lebih luas, yang dapat menarik pengguna, pengembang, dan publisitas positif. - Pembangunan Ekosistem: Merilis bobot model, bahkan tanpa transparansi penuh, mendorong pengembang untuk membangun aplikasi di atas sistem AI, berpotensi menciptakan ekosistem dependen yang menguntungkan perusahaan asal.
- Arbitrase Regulasi: Ini adalah pendorong yang sangat mengkhawatirkan. Peraturan yang akan datang, seperti
European Union's AI Act (2024)
, diharapkan memberlakukan persyaratan yang lebih ketat pada sistem AI berisiko tinggi tertentu. Namun, pengecualian atau pengawasan yang lebih ringan sering diusulkan untuk “perangkat lunak bebas danopen source
.” Dengan menerapkan labelopen source
– bahkan jika tidak akurat menurut definisi yang mapan – perusahaan mungkin berharap untuk menavigasi peraturan ini dengan lebih mudah, menghindari beban kepatuhan yang berpotensi mahal yang terkait dengan sistem berpemilik dan berisiko tinggi. Pelabelan strategis ini mengeksploitasi celah potensial, merusak niat peraturan untuk memastikan keamanan dan transparansi.
Praktik ini pada akhirnya menurunkan nilai istilah open source
dan menciptakan kebingungan, membuatnya lebih sulit bagi pengguna, pengembang, dan peneliti untuk membedakan sistem AI mana yang benar-benar menawarkan transparansi dan kebebasan yang tersirat dalam label tersebut.
Mengapa Keterbukaan Sejati Penting Mendesak bagi Sains
Bagi komunitas ilmiah, taruhan dalam perdebatan ini sangat tinggi. Sains berkembang pesat dengan transparansi, reproduksibilitas, dan kemampuan untuk verifikasi independen. Peningkatan integrasi AI ke dalam penelitian – mulai dari menganalisis data genomik dan memodelkan perubahan iklim hingga menemukan material baru dan memahami sistem biologis yang kompleks – menjadikan sifat alat AI ini sangat penting. Bergantung pada sistem AI “kotak hitam”, atau yang menyamar sebagai terbuka tanpa memberikan transparansi sejati, menimbulkan risiko besar:
- Reproduksibilitas Terganggu: Jika peneliti tidak dapat mengakses atau memahami data pelatihan dan metodologi di balik model AI yang digunakan dalam penelitian, mereplikasi hasilnya menjadi tidak mungkin. Ini secara fundamental merusak pilar inti metode ilmiah. Bagaimana temuan dapat dipercaya atau dibangun jika tidak dapat diverifikasi secara independen?
- Bias dan Keterbatasan Tersembunyi: Semua model AI mewarisi bias dari data pelatihan dan pilihan desainnya. Tanpa transparansi, peneliti tidak dapat menilai bias ini secara memadai atau memahami keterbatasan model. Menggunakan model yang bias tanpa disadari dapat menyebabkan hasil yang menyimpang, kesimpulan yang cacat, dan konsekuensi dunia nyata yang berpotensi berbahaya, terutama di bidang sensitif seperti penelitian medis atau ilmu sosial.
- Kurangnya Pengawasan: Model buram menghindari tinjauan sejawat yang ketat. Komunitas ilmiah tidak dapat sepenuhnya menginterogasi cara kerja internal model, mengidentifikasi potensi kesalahan dalam logikanya, atau memahami ketidakpastian yang terkait dengan prediksinya. Ini menghambat sifat koreksi diri dari penyelidikan ilmiah.
- Ketergantungan pada Sistem Korporat: Ketergantungan pada sistem AI tertutup atau semi-tertutup yang dikendalikan oleh perusahaan menciptakan ketergantungan. Agenda penelitian dapat secara halus dipengaruhi oleh kemampuan dan keterbatasan alat perusahaan yang tersedia, dan akses dapat dibatasi atau menjadi mahal, berpotensi menghambat arah penelitian independen dan memperlebar kesenjangan antara institusi yang didanai dengan baik dan yang lain.
- Inovasi Terhambat:
Open source
sejati memungkinkan peneliti tidak hanya menggunakan alat tetapi juga membedah, memodifikasi, meningkatkan, dan menggunakan kembali alat tersebut. Jika komponen kunci model AI tetap tidak dapat diakses, jalur penting untuk inovasi ini terhalang. Ilmuwan dicegah untuk bereksperimen dengan teknik pelatihan baru, mengeksplorasi kombinasi data yang berbeda, atau mengadaptasi model untuk pertanyaan penelitian spesifik dan bernuansa yang tidak diantisipasi oleh pengembang asli.
Komunitas ilmiah tidak bisa begitu saja menerima pengenceran istilah open source
. Komunitas harus secara aktif mengadvokasi kejelasan dan menuntut transparansi sejati dari pengembang AI, terutama ketika alat ini digunakan dalam konteks penelitian. Ini melibatkan:
- Mempromosikan Standar yang Jelas: Mendukung upaya, seperti yang dilakukan oleh
OSI
, untuk menetapkan definisi yang jelas dan ketat tentang apa yang merupakan “AIopen source
,” definisi yang mencakup transparansi mengenai arsitektur, bobot, data pelatihan, dan proses pelatihan. - Memprioritaskan Alat yang Dapat Diverifikasi: Mendukung penggunaan model dan platform AI yang memenuhi standar transparansi tinggi ini, bahkan jika awalnya kurang berkinerja atau membutuhkan lebih banyak upaya daripada alternatif buram yang tersedia.
- Menuntut Transparansi: Menegaskan bahwa publikasi yang melibatkan AI menyertakan pengungkapan terperinci tentang model yang digunakan, termasuk informasi komprehensif tentang asal data pelatihan, pemrosesan, dan potensi bias, serta metodologi pelatihan.
- Mendukung Proyek yang Benar-Benar Terbuka: Berkontribusi dan memanfaatkan proyek dan inisiatif berbasis komunitas dari institusi yang berkomitmen pada keterbukaan sejati dalam pengembangan AI.
Semangat Homebrew Computer Club
– semangat berbagi pengetahuan dan membangun kolaboratif – sangat penting untuk menavigasi kompleksitas era AI secara bertanggung jawab. Mengklaim kembali dan mempertahankan makna sebenarnya dari open source
untuk kecerdasan buatan bukan hanya tentang kemurnian terminologis; ini tentang menjaga integritas, reproduksibilitas, dan kemajuan berkelanjutan sains itu sendiri di dunia yang semakin didorong oleh AI. Jalan ke depan membutuhkan kewaspadaan dan komitmen kolektif untuk memastikan bahwa alat AI yang kuat dikembangkan dan diterapkan dengan cara yang konsisten dengan prinsip-prinsip penyelidikan terbuka yang telah melayani sains dengan sangat baik selama berabad-abad.