Merendahkan Konsep Fundamental: Erosi ‘Open Source’
Istilah ‘open source’ pernah berdiri sebagai mercusuar dalam lanskap teknologi dan ilmiah. Ia mewakili etos kuat yang berlandaskan pada transparansi, akses tanpa batas, perbaikan kolaboratif, dan prinsip fundamental reproduktifitas. Bagi generasi peneliti dan pengembang, istilah ini menandakan komitmen terhadap pengetahuan bersama dan kemajuan kolektif. Mulai dari alat statistik fundamental yang ditemukan di lingkungan seperti R Studio, yang memberdayakan analisis tak terhitung jumlahnya di berbagai disiplin ilmu, hingga platform simulasi canggih seperti OpenFOAM, yang digunakan untuk mengungkap kompleksitas dinamika fluida, perangkat lunak open-source telah menjadi katalisator inovasi yang tak tergantikan. Ia mempercepat penemuan dengan memungkinkan para ilmuwan secara global untuk memeriksa, memverifikasi, memodifikasi, dan membangun di atas pekerjaan satu sama lain, memastikan bahwa temuan dapat direplikasi dan divalidasi – landasan utama metode ilmiah.
Namun, bayangan kini membayangi penunjukan tepercaya ini, yang ditimbulkan oleh bidang kecerdasan buatan (AI) yang sedang berkembang pesat. Sebagaimana disorot dalam diskusi kritis baru-baru ini, termasuk yang dicatat oleh publikasi seperti Nature, tren yang mengkhawatirkan telah muncul di mana pengembang AI terkemuka mengadopsi label ‘open source’ untuk model mereka sambil secara bersamaan menahan komponen penting yang diperlukan untuk keterbukaan sejati. Praktik ini berisiko mengencerkan makna istilah tersebut, mengubahnya dari simbol transparansi menjadi slogan pemasaran yang berpotensi menyesatkan. Masalah inti seringkali terletak pada sifat unik sistem AI modern. Tidak seperti perangkat lunak tradisional di mana kode sumber adalah yang terpenting, kekuatan dan perilaku model AI besar secara tak terpisahkan terkait dengan kumpulan data (dataset) besar yang digunakan untuk pelatihan mereka dan arsitektur rumit yang mendefinisikannya. Ketika akses ke data pelatihan ini atau informasi rinci tentang konstruksi dan pembobotan model dibatasi, klaim sebagai ‘open source’ terdengar hampa, terlepas dari apakah sebagian kode model tersedia. Kesenjangan ini menyerang jantung filosofi open-source, menciptakan ilusi aksesibilitas sambil mengaburkan elemen-elemen yang paling vital untuk pengawasan dan replikasi independen.
Imperatif Keterbukaan Sejati dalam AI Ilmiah
Taruhan yang terkait dengan mempertahankan keterbukaan sejati dalam AI, terutama dalam domain ilmiah, sangatlah tinggi. Sains berkembang pesat berkat kemampuan untuk memverifikasi hasil secara independen, memahami metodologi, dan membangun di atas pekerjaan sebelumnya. Ketika alat itu sendiri – model AI yang semakin canggih – menjadi kotak hitam (black box), proses fundamental ini terancam. Bergantung pada sistem AI yang cara kerja internalnya, bias data pelatihannya, atau potensi mode kegagalannya tidak jelas memperkenalkan tingkat ketidakpastian yang tidak dapat diterima ke dalam penelitian. Bagaimana seorang ilmuwan dapat dengan percaya diri mendasarkan kesimpulan pada output AI jika faktor-faktor yang membentuk output tersebut tidak diketahui atau tidak dapat diverifikasi? Bagaimana komunitas dapat mempercayai temuan yang dihasilkan oleh sistem kepemilikan (proprietary) yang tidak dapat diaudit atau direplikasi secara independen?
Keberhasilan historis perangkat lunak open-source dalam sains memberikan kontras yang tajam dan tolok ukur yang jelas. Transparansi yang melekat dalam proyek open-source tradisional menumbuhkan kepercayaan dan memungkinkan tinjauan sejawat (peer review) yang kuat. Peneliti dapat memeriksa algoritma, memahami keterbatasannya, dan mengadaptasinya untuk kebutuhan spesifik. Ekosistem kolaboratif ini mempercepat kemajuan di berbagai bidang mulai dari bioinformatika hingga astrofisika. Potensi AI untuk merevolusi penemuan ilmiah sangat besar, menjanjikan analisis dataset kompleks, menghasilkan hipotesis, dan mensimulasikan proses rumit pada skala yang belum pernah terjadi sebelumnya. Namun, mewujudkan potensi ini bergantung pada pemeliharaan prinsip transparansi dan reproduktifitas yang sama yang selalu menopang kemajuan ilmiah. Pergeseran menuju sistem AI tertutup dan kepemilikan, bahkan yang menyamar sebagai ‘terbuka’, mengancam untuk memecah belah komunitas riset, menghambat kolaborasi, dan pada akhirnya memperlambat laju penemuan dengan mendirikan penghalang untuk pemahaman dan validasi. Upaya ilmiah menuntut alat yang tidak hanya kuat, tetapi juga transparan dan dapat dipercaya.
Teka-teki Data: Tantangan Transparansi AI
Di jantung perdebatan ‘open source’ dalam AI terletak isu kritis data pelatihan. Tidak seperti perangkat lunak konvensional yang utamanya ditentukan oleh kodenya, model bahasa besar (LLM) dan sistem AI fundamental lainnya secara mendasar dibentuk oleh dataset kolosal yang mereka serap selama pengembangannya. Karakteristik, bias, dan asal-usul data ini sangat memengaruhi perilaku model, kemampuannya, dan potensi keterbatasannya. Oleh karena itu, keterbukaan sejati dalam AI memerlukan tingkat transparansi mengenai data ini yang jauh melampaui sekadar merilis bobot model atau kode inferensi.
Banyak model yang saat ini dipasarkan di bawah payung ‘open source’ secara mencolok gagal dalam hal ini. Pertimbangkan contoh-contoh terkemuka seperti seri Llama dari Meta, Phi-2 dari Microsoft, atau Mixtral dari Mistral AI. Meskipun perusahaan-perusahaan ini merilis komponen tertentu, memungkinkan pengembang untuk menjalankan atau menyempurnakan (fine-tune) model, mereka sering kali memberlakukan pembatasan signifikan atau memberikan detail yang minim tentang data pelatihan yang mendasarinya. Dataset yang terlibat bisa sangat besar, bersifat kepemilikan, diambil (scraped) dari web dengan sedikit kurasi, atau tunduk pada batasan lisensi, membuat rilis publik penuh menjadi menantang atau tidak mungkin. Namun, tanpa informasi komprehensif tentang:
- Sumber Data: Dari mana informasi berasal? Apakah dominan teks, gambar, kode? Dari situs web, buku, atau basis data mana?
- Kurasi Data: Bagaimana data disaring, dibersihkan, dan diproses? Kriteria apa yang digunakan untuk memasukkan atau mengecualikan informasi?
- Karakteristik Data: Apa bias yang diketahui dalam data (misalnya, demografis, budaya, linguistik)? Periode waktu apa yang dicakupnya?
- Langkah Pra-pemrosesan: Transformasi apa yang diterapkan pada data sebelum pelatihan?
…menjadi sangat sulit bagi peneliti independen untuk sepenuhnya memahami perilaku model, mereplikasi pengembangannya, atau secara kritis menilai potensi bias dan titik kegagalannya. Kurangnya transparansi data ini adalah alasan utama mengapa banyak rilis AI ‘open source’ saat ini gagal memenuhi semangat, jika bukan bunyi harfiah, dari keterbukaan sejati yang telah mapan di dunia perangkat lunak. Sebaliknya, inisiatif seperti model OLMo dari Allen Institute for AI atau upaya berbasis komunitas seperti CrystalCoder dari LLM360 telah melakukan upaya yang lebih terpadu untuk memberikan transparansi yang lebih besar mengenai data dan metodologi pelatihan mereka, menetapkan standar yang lebih tinggi yang lebih selaras dengan nilai-nilai open-source tradisional.
‘Openwashing’: Pelabelan Strategis atau Penghindaran Regulasi?
Apropriasi label ‘open source’ oleh entitas yang tidak sepenuhnya menganut prinsip-prinsipnya telah menimbulkan kekhawatiran tentang ‘openwashing’. Istilah ini menggambarkan praktik memanfaatkan konotasi positif keterbukaan untuk keuntungan hubungan masyarakat atau keunggulan strategis, tanpa berkomitmen pada tingkat transparansi dan aksesibilitas yang terkait. Mengapa perusahaan mungkin terlibat dalam hal ini? Beberapa faktor bisa berperan. Merek ‘open source’ membawa niat baik yang signifikan, menyarankan komitmen terhadap komunitas dan kemajuan bersama, yang dapat menarik bagi pengembang dan pelanggan.
Lebih lanjut, seperti dicatat oleh Nature dan pengamat lainnya, lanskap peraturan mungkin secara tidak sengaja mendorong perilaku semacam itu. Undang-Undang AI (AI Act) Uni Eropa yang penting, yang diselesaikan pada tahun 2024, mencakup ketentuan yang memberlakukan persyaratan yang lebih ketat pada sistem AI berisiko tinggi dan bertujuan umum. Namun, undang-undang tersebut juga berisi potensi pengecualian atau persyaratan yang lebih ringan untuk model AI yang dirilis di bawah lisensi open-source. Ini menciptakan celah potensial di mana perusahaan mungkin secara strategis melabeli model mereka sebagai ‘open source’ – bahkan jika komponen kunci seperti data pelatihan tetap dibatasi – secara khusus untuk menavigasi rintangan peraturan dan menghindari kewajiban kepatuhan yang lebih ketat.
Potensi arbitrase peraturan ini sangat mengkhawatirkan. Jika ‘openwashing’ memungkinkan sistem AI yang kuat untuk melewati pengawasan yang dimaksudkan untuk memastikan keamanan, keadilan, dan akuntabilitas, itu merusak tujuan dari peraturan itu sendiri. Ini juga menempatkan komunitas ilmiah dalam posisi genting. Peneliti mungkin tertarik pada sistem yang secara nominal ‘terbuka’ ini karena aksesibilitasnya dibandingkan dengan penawaran komersial yang sepenuhnya tertutup, hanya untuk menemukan diri mereka bergantung pada alat yang metodologinya tetap buram dan tidak dapat diverifikasi. Ketergantungan ini berisiko mengkompromikan integritas ilmiah, membuatnya lebih sulit untuk memastikan penelitian dapat direproduksi, tidak bias, dan dibangun di atas fondasi yang kokoh dan dapat dipahami. Daya pikat label yang akrab dapat menutupi pembatasan mendasar yang menghambat penyelidikan ilmiah sejati.
Mendefinisikan Ulang Keterbukaan untuk Era AI: Kerangka Kerja OSAID
Menyadari ketidakcukupan definisi open-source tradisional untuk tantangan unik yang ditimbulkan oleh AI, Open Source Initiative (OSI) – pengelola prinsip-prinsip open-source yang sudah lama berdiri – telah memulai upaya global yang krusial. Tujuan mereka adalah untuk menetapkan definisi yang jelas dan kuat yang secara khusus disesuaikan untuk kecerdasan buatan: Definisi Open Source AI (OSAID 1.0). Inisiatif ini merupakan langkah vital menuju reklamasi makna ‘terbuka’ dalam konteks AI dan menetapkan standar yang tidak ambigu untuk transparansi dan akuntabilitas.
Inovasi kunci dalam kerangka kerja OSAID yang diusulkan adalah konsep ‘informasi data’. Mengakui bahwa rilis penuh dataset pelatihan masif mungkin seringkali tidak praktis atau dilarang secara hukum karena masalah privasi, pembatasan hak cipta, atau skala semata, OSAID berfokus pada mewajibkan pengungkapan komprehensif tentang data tersebut. Ini mencakup persyaratan bagi pengembang untuk memberikan informasi rinci mengenai:
- Sumber dan Komposisi: Mengidentifikasi dengan jelas asal-usul data pelatihan.
- Karakteristik: Mendokumentasikan fitur, keterbatasan, dan potensi bias yang diketahui dalam data.
- Metode Persiapan: Menjelaskan proses yang digunakan untuk membersihkan, menyaring, dan menyiapkan data untuk pelatihan.
Bahkan jika data mentah tidak dapat dibagikan, penyediaan metadata ini memungkinkan peneliti dan auditor untuk mendapatkan wawasan kritis tentang faktor-faktor yang membentuk model AI. Ini memfasilitasi pemahaman yang lebih baik tentang potensi bias, memungkinkan penilaian risiko yang lebih terinformasi, dan memberikan dasar untuk mencoba replikasi atau studi komparatif.
Di luar informasi data, upaya OSI, bersama dengan advokasi dari organisasi seperti Open Future, mempromosikan pergeseran yang lebih luas menuju model ‘data-commons’. Ini membayangkan masa depan di mana dataset penting untuk pelatihan AI dikurasi dan disediakan secara lebih terbuka dan adil, membina ekosistem yang lebih transparan dan kolaboratif untuk pengembangan AI, terutama dalam komunitas riset. Definisi OSAID bertujuan untuk memberikan tolok ukur yang jelas yang dapat digunakan untuk mengevaluasi sistem AI, bergerak melampaui label superfisial untuk menilai komitmen sejati terhadap keterbukaan.
Tanggung Jawab Kolektif: Mendorong Transparansi AI Sejati
Tantangan untuk memastikan keterbukaan sejati dalam AI tidak dapat diselesaikan hanya dengan definisi; ia menuntut tindakan bersama dari berbagai pemangku kepentingan. Komunitas ilmiah, sebagai pengembang sekaligus pengguna utama alat AI canggih, memegang tanggung jawab yang signifikan. Peneliti harus secara aktif terlibat dengan inisiatif seperti OSAID 1.0, memahami prinsip-prinsipnya dan mengadvokasi adopsi mereka. Mereka perlu secara kritis mengevaluasi klaim ‘keterbukaan’ model AI yang mereka pertimbangkan untuk digunakan, memprioritaskan model yang menawarkan transparansi lebih besar mengenai data pelatihan dan metodologi, bahkan jika itu membutuhkan penolakan terhadap daya pikat sistem yang tampaknya nyaman tetapi buram. Menyuarakan kebutuhan akan alat AI yang dapat diverifikasi dan direproduksi dalam publikasi, konferensi, dan diskusi institusional adalah hal yang terpenting.
Lembaga pendanaan publik dan badan pemerintah juga memiliki peran penting untuk dimainkan. Mereka memiliki pengaruh yang cukup besar melalui persyaratan hibah dan kebijakan pengadaan. Institusi seperti National Institutes of Health (NIH) AS, yang sudah mewajibkan lisensi terbuka untuk data penelitian yang dihasilkan melalui pendanaannya, memberikan preseden yang berharga. Demikian pula, contoh seperti persyaratan Italia bagi badan administrasi publik untuk memprioritaskan perangkat lunak open-source menunjukkan bagaimana kebijakan dapat mendorong adopsi. Prinsip-prinsip ini dapat dan harus diperluas ke ranah AI. Pemerintah dan badan pendanaan harus mempertimbangkan:
- Mewajibkan kepatuhan terhadap standar Open Source AI yang kuat (seperti OSAID) untuk penelitian dan pengembangan AI yang didanai publik.
- Berinvestasi dalam penciptaan dataset berkualitas tinggi yang benar-benar terbuka – sebuah ‘data commons’ – yang cocok untuk melatih model AI yang berfokus pada penelitian.
- Memastikan bahwa peraturan, seperti EU AI Act, diterapkan dengan cara yang mencegah ‘openwashing’ dan meminta pertanggungjawaban semua sistem AI yang kuat, terlepas dari klaim lisensi mereka.
Pada akhirnya, menjaga masa depan AI dalam penelitian membutuhkan front persatuan. Ilmuwan harus menuntut transparansi, institusi harus menerapkan kebijakan yang memprioritaskan keterbukaan sejati, dan regulator harus memastikan bahwa label ‘open source’ menandakan komitmen yang berarti terhadap akuntabilitas, bukan jalan keluar yang nyaman. Tanpa upaya kolektif ini, potensi besar AI untuk penemuan ilmiah berisiko dikompromikan oleh lanskap yang didominasi oleh sistem tertutup dan kepemilikan, yang secara fundamental merusak sifat kolaboratif dan dapat diverifikasi dari kemajuan ilmiah itu sendiri. Integritas penelitian masa depan bergantung pada keseimbangan ini.