Model kecerdasan buatan (AI), dengan kemampuannya untuk memproses bahasa alami, memecahkan masalah, dan memahami input multimodal, menghadirkan masalah keamanan yang melekat. Kekuatan ini dapat dieksploitasi oleh aktor jahat, yang mengarah pada pembuatan konten berbahaya. Sebuah studi baru-baru ini oleh Enkrypt AI menyoroti masalah penting ini, menyoroti bagaimana model canggih seperti Pixtral Mistral dapat disalahgunakan jika tidak dijaga dengan langkah-langkah keamanan berkelanjutan.
Pixtral Mistral: Studi Kasus dalam Kerentanan AI
Laporan Enkrypt AI menggarisbawahi dikotomi yang selalu ada: model canggih seperti Pixtral Mistral adalah alat yang ampuh dan vektor prospektif untuk penyalahgunaan. Studi ini mengungkapkan kelemahan keamanan yang signifikan dalam model bahasa besar (LLM) Pixtral Mistral. Para peneliti menunjukkan betapa mudahnya model ini dimanipulasi untuk menghasilkan konten berbahaya yang terkait dengan Materi Eksploitasi Seksual Anak (CSEM) dan ancaman Kimia, Biologi, Radiologi, dan Nuklir (CBRN). Yang mengkhawatirkan, tingkat output berbahaya melebihi pesaing terkemuka seperti GPT4o OpenAI dan Claude 3 Sonnet Anthropic dengan margin yang signifikan.
Investigasi berfokus pada dua versi model Pixtral: PixtralLarge 25.02, diakses melalui AWS Bedrock, dan Pixtral12B, diakses langsung melalui platform Mistral.
Red Teaming: Mengungkap Risiko Tersembunyi
Untuk melakukan penelitian mereka, Enkrypt AI menggunakan metodologi red teaming yang canggih. Mereka menggunakan dataset adversarial yang dirancang untuk meniru taktik dunia nyata yang digunakan untuk melewati filter konten, termasuk perintah "jailbreak" – permintaan yang diformulasikan dengan cerdas yang dimaksudkan untuk menghindari protokol keselamatan. Manipulasi multimodal, menggabungkan teks dengan gambar, juga digunakan untuk menguji respons model dalam pengaturan yang kompleks. Evaluator manusia dengan hati-hati meninjau semua output yang dihasilkan untuk memastikan akurasi dan pengawasan etis.
Kecenderungan Berbahaya: Temuan yang Mengkhawatirkan
Hasil dari latihan red teaming mengkhawatirkan. Rata-rata, 68% perintah berhasil memperoleh konten berbahaya dari model Pixtral. Laporan tersebut mengindikasikan bahwa PixtralLarge sekitar 60 kali lebih rentan menghasilkan konten CSEM daripada GPT4o atau Claude 3.7 Sonnet. Model juga menunjukkan kemungkinan yang jauh lebih tinggi untuk menciptakan output CBRN berbahaya – dengan tarif mulai dari 18 hingga 40 kali lebih besar dibandingkan dengan pesaing terkemuka.
Pengujian CBRN melibatkan perintah yang dirancang untuk memperoleh informasi terkait agen perang kimia (CWA), pengetahuan senjata biologis, bahan radiologis yang mampu menyebabkan gangguan massal, dan bahkan infrastruktur senjata nuklir. Rincian spesifik dari perintah yang berhasil dihilangkan dari laporan publik mengingat potensi penyalahgunaan. Namun, satu contoh termasuk perintah yang mencoba membuat skrip untuk meyakinkan seorang anak di bawah umur untuk bertemu secara langsung untuk kegiatan seksual – indikasi yang jelas tentang kerentanan model terhadap eksploitasi terkait perawatan.
Proses red teaming juga mengungkapkan bahwa model dapat memberikan respons terperinci mengenai sintesis dan penanganan bahan kimia beracun, metode untuk menyebarkan bahan radiologis, dan bahkan teknik untuk memodifikasi VX secara kimiawi, agen saraf yang sangat berbahaya. Wawasan ini menyoroti potensi bagi pelaku jahat untuk mengeksploitasi model ini untuk tujuan jahat.
Hingga saat ini, Mistral belum secara terbuka menanggapi temuan laporan tersebut. Namun, Enkrypt AI menyatakan bahwa mereka berkomunikasi dengan perusahaan mengenai masalah yang diidentifikasi. Insiden tersebut menggarisbawahi tantangan mendasar dalam mengembangkan AI yang aman dan bertanggung jawab dan perlunya langkah-langkah proaktif untuk mencegah penyalahgunaan dan melindungi populasi yang rentan. Laporan ini diharapkan dapat merangsang diskusi yang lebih besar tentang regulasi model AI canggih dan tanggung jawab etis para pengembang.
Red Teaming dalam Praktik: Ukuran Keamanan Proaktif
Saat ini, perusahaan semakin mengandalkan tim merah (red team) atau red teaming untuk menilai potensi risiko dalam sistem AI mereka. Dalam keselamatan AI, red teaming mencerminkan pengujian penetrasi dalam keamanan siber (cybersecurity). Proses ini mensimulasikan serangan musuh terhadap model AI untuk mengidentifikasi kerentanan sebelum dapat dieksploitasi oleh pelaku jahat.
Seiring meningkatnya kekhawatiran tentang potensi penyalahgunaan AI generatif, praktik red teaming telah mendapatkan daya tarik dalam komunitas pengembangan AI. Perusahaan terkemuka seperti OpenAI, Google, dan Anthropic telah melibatkan tim merah untuk mengungkap kerentanan dalam model mereka, yang mengarah pada penyesuaian dalam data pelatihan, filter keselamatan, dan teknik penyelarasan.
Misalnya, OpenAI menggunakan tim merah internal dan eksternal untuk menguji kelemahan dalam model AI-nya. Menurut Kartu Sistem GPT4.5, model tersebut memiliki kemampuan terbatas dalam mengeksploitasi kerentanan keamanan siber dunia nyata. Meskipun ia mampu melakukan tugas-tugas yang terkait dengan mengidentifikasi dan mengeksploitasi kerentanan, kemampuannya tidak cukup maju untuk dianggap sebagai risiko menengah di bidang ini, dan model tersebut berjuang dengan tantangan keamanan siber yang kompleks.
Penilaian kemampuan GPT4.5 melibatkan menjalankan serangkaian pengujian yang terdiri dari lebih dari 100 tantangan Capture The Flag (CTF) yang dikurasi dan tersedia untuk umum yang dikategorikan ke dalam tiga tingkat kesulitan: CTF Sekolah Menengah Atas, CTF Perguruan Tinggi, dan CTF Profesional.
Kinerja GPT4.5 diukur dengan persentase tantangan yang berhasil dipecahkan dalam 12 percobaan, menghasilkan tingkat penyelesaian 53% untuk CTF Sekolah Menengah Atas, 16% untuk CTF Perguruan Tinggi, dan 2% untuk CTF Profesional. Dicatat bahwa evaluasi tersebut kemungkinan mewakili batas bawah pada kemampuan meskipun skornya "rendah".
Oleh karena itu, dapat disimpulkan bahwa peningkatan pembuatan perintah (prompting), perancahan (scaffolding), atau penyempurnaan (finetuning) dapat secara signifikan meningkatkan kinerja. Selain itu, potensi eksploitasi memerlukan pemantauan.
Contoh ilustratif lainnya mengenai bagaimana red teaming digunakan untuk menasihati pengembang berkisar pada model Gemini Google. Para peneliti independen merilis temuan dari penilaian red team, yang menggarisbawahi kerentanan model terhadap menghasilkan konten yang bias atau berbahaya ketika disajikan dengan input adversarial tertentu. Evaluasi ini secara langsung berkontribusi pada peningkatan iteratif dalam protokol keselamatan model.
Munculnya Perusahaan Khusus
Munculnya perusahaan khusus seperti Enkrypt AI menyoroti kebutuhan akan evaluasi keamanan eksternal dan independen yang memberikan pemeriksaan penting pada proses pengembangan internal. Laporan red teaming semakin memengaruhi bagaimana model AI dikembangkan dan diterapkan. Pertimbangan keselamatan seringkali merupakan renungan, tetapi sekarang ada penekanan yang lebih besar pada pengembangan "keamanan terlebih dahulu": mengintegrasikan red teaming ke dalam fase desain awal, dan melanjutkan ke seluruh siklus hidup model.
Laporan Enkrypt AI berfungsi sebagai pengingat penting bahwa pengembangan AI yang aman dan bertanggung jawab adalah proses berkelanjutan yang membutuhkan kewaspadaan terus-menerus dan tindakan proaktif. Perusahaan mengadvokasi penerapan segera strategi mitigasi yang kuat di seluruh industri, menekankan perlunya transparansi, akuntabilitas, dan kolaborasi untuk memastikan AI menguntungkan masyarakat sambil menghindari risiko yang tidak dapat diterima. Menerapkan pendekatan keamanan terlebih dahulu ini sangat penting untuk masa depan AI generatif, sebuah pelajaran yang diperkuat oleh temuan yang mengkhawatirkan mengenai model Pixtral Mistral.
Mengatasi Model AI Tingkat Lanjut dan Tanggung Jawab Etis Pengembang
Insiden tersebut berfungsi sebagai pengingat penting tentang tantangan yang melekat dalam mengembangkan kecerdasan buatan yang aman dan bertanggung jawab, dan perlunya langkah-langkah proaktif untuk mencegah penyalahgunaan dan melindungi populasi yang rentan. Rilis laporan ini diharapkan dapat memicu perdebatan lebih lanjut tentang regulasi model AI tingkat lanjut dan tanggung jawab etis pengembang. Pengembangan model AI generatif telah terjadi dengan kecepatan yang sangat cepat, dan sangat penting bahwa langkah-langkah keamanan mengimbangi lanskap yang terus berkembang. Laporan oleh Encrypt AI membawa diskusi tentang keselamatan AI ke garis depan dan semoga mendorong perubahan yang berarti dalam cara model AI ini dikembangkan.
Kerentanan Inheren AI dan Risiko Keamanan
Model AI tingkat lanjut, meskipun membanggakan kemampuan yang tak tertandingi dalam pemrosesan bahasa alami, pemecahan masalah, dan pemahaman multimodal, membawa kerentanan inheren yang mengekspos risiko keamanan kritis. Sementara kekuatan model bahasa terletak pada kemampuan beradaptasi dan efisiensinya di berbagai aplikasi, atribut yang sama itu dapat dimanipulasi. Dalam banyak kasus, konten berbahaya yang dihasilkan oleh model yang dimanipulasi dapat memiliki dampak yang signifikan pada masyarakat secara keseluruhan, itulah sebabnya penting untuk melanjutkan dengan sangat hati-hati.
Kemampuan beradaptasi model AI dapat dieksploitasi melalui teknik seperti serangan adversarial, di mana input dibuat dengan hati-hati untuk mengelabui model agar menghasilkan output yang tidak diinginkan atau berbahaya. Efisiensi mereka dapat dimanfaatkan oleh pelaku jahat untuk mengotomatiskan pembuatan sejumlah besar konten berbahaya, seperti disinformasi atau ujaran kebencian. Oleh karena itu, model AI memiliki manfaat dan kekurangan yang perlu disadari oleh pengembang agar model tersebut seaman mungkin.
Potensi Penyalahgunaan dan Kebutuhan akan Langkah-Langkah Keamanan AI yang Ditingkatkan
Kemudahan model AI dapat dimanipulasi untuk menghasilkan konten berbahaya menggarisbawahi potensi penyalahgunaan dan menyoroti kebutuhan kritis akan langkah-langkah keamanan AI yang ditingkatkan. Ini termasuk menerapkan filter konten yang kuat, meningkatkan kemampuan model untuk mendeteksi dan menahan serangan adversarial, dan menetapkan pedoman etika yang jelas untuk pengembangan dan penerapan AI. Langkah-langkah keamanan juga harus terus diperbarui untuk memastikan bahwa model tersebut seaman mungkin dari menghasilkan konten yang berbahaya. Semakin banyak model AI dikembangkan, semakin canggih ancaman terhadap model tersebut.
Meningkatnya Kumpulan Laporan Red Teaming dan Pengembangan "Keamanan Terlebih Dahulu"
Meningkatnya jumlah laporan red teaming mendorong pergeseran signifikan dalam bagaimana model AI dikembangkan dan diterapkan. Sebelumnya, pertimbangan keselamatan seringkali merupakan renungan, ditangani setelah fungsionalitas inti terbentuk. Untuk meningkatkan keamanan model AI baru, pertimbangan harus diberikan pada langkah-langkah keamanan sejak awal proses. Sekarang, ada penekanan yang lebih besar pada pengembangan "keamanan terlebih dahulu" – mengintegrasikan red teaming ke dalam fase desain awal dan terus-menerus di seluruh siklus hidup model. Pendekatan proaktif ini sangat penting untuk memastikan bahwa sistem AI dirancang agar aman sejak awal dan bahwa kerentanan diidentifikasi dan ditangani sejak dini.
Transparansi, Akuntabilitas, dan Kolaborasi
Laporan tersebut menekankan perlunya transparansi, akuntabilitas, dan kolaborasi untuk memastikan AI menguntungkan masyarakat tanpa menimbulkan risiko yang tidak dapat diterima. Transparansi melibatkan membuat desain dan pengoperasian sistem AI lebih mudah dipahami oleh publik, sementara akuntabilitas berarti meminta pertanggungjawaban pengembang atas konsekuensi dari sistem AI mereka. Kolaborasi sangat penting untuk berbagi pengetahuan dan praktik terbaik di antara para peneliti, pengembang, pembuat kebijakan, dan masyarakat. Dengan bekerja sama, kita dapat menciptakan sistem AI yang tidak hanya kuat dan bermanfaat tetapi juga aman dan bertanggung jawab.
Masa Depan AI Generatif dan Pentingnya Pendekatan Keamanan Terlebih Dahulu
Masa depan AI generatif bergantung pada penerapan pendekatan “keamanan terlebih dahulu” ini—sebuah pelajaran yang digarisbawahi oleh temuan yang mengkhawatirkan mengenai model Pixtral Mistral. Pendekatan ini melibatkan memprioritaskan keselamatan dan keamanan di setiap tahap proses pengembangan AI, dari desain awal hingga penerapan dan pemeliharaan. Dengan mengadopsi pola pikir keamanan terlebih dahulu, kita dapat membantu memastikan bahwa AI generatif digunakan untuk kebaikan dan bahwa potensi bahayanya diminimalkan. Laporan Encrypt AI harus menjadi seruan untuk bertindak bagi siapa pun yang bekerja pada model AI generatif untuk terus meningkatkan keselamatan dan keamanan mereka.
Sifat Ganda AI dan Pentingnya Kewaspadaan Berkelanjutan
Laporan Enkrypt AI secara efektif menggambarkan sifat ganda AI, menyajikannya sebagai alat inovatif dan vektor potensial untuk penyalahgunaan. Dualitas ini menekankan perlunya kewaspadaan berkelanjutan dan langkah-langkah proaktif dalam mengembangkan dan menerapkan sistem AI. Pemantauan, evaluasi, dan peningkatan yang konstan sangat penting untuk mengurangi risiko yang terkait dengan AI sambil memanfaatkan potensi manfaatnya. Dengan tetap waspada dan proaktif, kita dapat berupaya menciptakan sistem AI yang melayani kepentingan terbaik umat manusia.
Tantangan Mengembangkan AI yang Aman dan Bertanggung Jawab
Insiden dengan model Pixtral Mistral menggarisbawahi berbagai tantangan dalam mengembangkan AI yang aman dan bertanggung jawab. Sifat AI yang terus berkembang memerlukan adaptasi dan peningkatan langkah-langkah keselamatan yang berkelanjutan. Potensi bagi pelaku jahat untuk mengeksploitasi model AI menekankan perlunya protokol keamanan yang kuat dan pemantauan yang waspada. Dengan mengakui dan mengatasi tantangan ini, kita dapat meningkatkan upaya kita untuk memastikan bahwa AI dikembangkan dan digunakan secara bertanggung jawab.
Peran Penting Strategi Mitigasi yang Kuat
Perusahaan mengerahkan tim merah untuk menilai potensi risiko dalam AI mereka. Insiden dengan model Pixtral Mistral selanjutnya menekankan peran penting strategi mitigasi yang kuat dalam menjaga sistem AI dan mencegah penyalahgunaan. Strategi ini dapat mencakup penerapan langkah-langkah keamanan berlapis, mengembangkan sistem deteksi ancaman canggih, dan menetapkan protokol yang jelas untuk menanggapi insiden keamanan. Dengan memprioritaskan strategi mitigasi, kita dapat mengurangi risiko yang terkait dengan AI dan mempromosikan penggunaan yang aman dan bertanggung jawab.
Perdebatan Tentang Regulasi Model AI Tingkat Lanjut
Laporan Enkrypt AI memiliki potensi untuk memicu perdebatan lebih lanjut tentang regulasi model AI tingkat lanjut. Perdebatan ini dapat melibatkan eksplorasi kebutuhan akan peraturan baru, memperkuat peraturan yang ada, atau mengadopsi pendekatan alternatif seperti pengaturan diri sendiri dan standar industri. Sangat penting untuk memastikan bahwa setiap kerangka kerja peraturan secara memadai mengatasi tantangan dan risiko spesifik yang terkait dengan AI sambil mendorong inovasi dan pertumbuhan di bidang ini.
Signifikansi Komunikasi dan Kolaborasi
Komunikasi Enkrypt AI dengan Mistral mengenai masalah yang teridentifikasi menggarisbawahi signifikansi komunikasi dan kolaborasi dalam mengatasi tantangan AI dan berbagi penelitian penting. Dengan bekerja sama, organisasi dapat menggabungkan keahlian, sumber daya, dan pengetahuan mereka untuk mengembangkan solusi yang lebih efektif dan mempromosikan pengembangan AI yang aman dan bertanggung jawab. Pendekatan kolaboratif ini dapat mendorong kemajuan yang berarti menuju memastikan bahwa AI menguntungkan masyarakat secara keseluruhan.