Perang Data di Era LLM Sumber Terbuka

Gelombang Pelanggaran Mengekspos Kerentanan

Adopsi pesat model bahasa besar (LLM) sumber terbuka seperti DeepSeek dan Ollama telah menjadi pedang bermata dua. Sementara bisnis memanfaatkan alat-alat canggih ini untuk meningkatkan efisiensi, keterbukaan yang mendorong pertumbuhan mereka menciptakan lonjakan paralel dalam risiko keamanan data. Sebuah laporan baru-baru ini yang disusun oleh NSFOCUS Xingyun Lab memberikan gambaran yang jelas: hanya dalam dua bulan pertama tahun 2025, dunia menyaksikan lima pelanggaran data signifikan yang secara langsung terkait dengan LLM. Insiden ini mengakibatkan terungkapnya sejumlah besar informasi sensitif, mulai dari riwayat obrolan rahasia dan kunci API hingga kredensial pengguna yang penting. Peristiwa ini adalah peringatan, menyoroti kerentanan keamanan yang sering diabaikan yang mengintai di bawah permukaan teknologi AI mutakhir. Eksplorasi ini akan membedah lima insiden ini, membedah metode serangan, memetakannya ke kerangka kerja MITRE ATT&CK yang mapan, dan mengekspos titik buta keamanan yang harus segera diatasi oleh organisasi.

Insiden 1: Database DeepSeek yang Salah Konfigurasi – Jendela ke Percakapan Pribadi

Timeline: 29 Januari 2025

Skala Kebocoran: Jutaan baris data log, termasuk riwayat obrolan sensitif dan kunci akses.

Mengungkap Peristiwa:

Tim peneliti keamanan di Wiz memulai penemuan ini. Mereka mengidentifikasi layanan ClickHouse yang terekspos dan dapat diakses di internet publik. Investigasi lebih lanjut mengkonfirmasi bahwa layanan ini milik startup AI Tiongkok, DeepSeek. ClickHouse, yang dirancang untuk penanganan kumpulan data besar yang efisien dalam pemrosesan analitik, sayangnya menjadi pintu gerbang ke data internal DeepSeek. Para peneliti mengakses sekitar satu juta baris aliran log DeepSeek, mengungkapkan harta karun informasi sensitif, termasuk log obrolan historis dan kunci akses penting.

Wiz segera memberi tahu DeepSeek tentang kerentanan tersebut, yang mengarah pada tindakan segera dan pembuangan aman layanan ClickHouse yang terekspos.

Membedah Serangan:

Masalah inti terletak pada kerentanan ClickHouse terhadap akses yang tidak sah. ClickHouse, sistem manajemen basis data berorientasi kolom sumber terbuka, unggul dalam kueri real-time dan analisis kumpulan data besar, sering digunakan untuk analisis log dan perilaku pengguna. Namun, ketika digunakan tanpa kontrol akses yang tepat, antarmuka API yang terekspos memungkinkan siapa pun untuk mengeksekusi perintah seperti SQL.

Pendekatan tim keamanan Wiz melibatkan pemindaian metodis subdomain DeepSeek yang menghadap internet. Awalnya berfokus pada port standar 80 dan 443, mereka menemukan sumber daya web tipikal seperti antarmuka chatbot dan dokumentasi API. Untuk memperluas pencarian mereka, mereka memperluas ke port yang kurang umum seperti 8123 dan 9000, yang pada akhirnya mengungkap layanan yang terekspos di beberapa subdomain.

Data log yang disusupi, sejak 6 Januari 2025, berisi banyak informasi sensitif: log panggilan, log teks untuk titik akhir API DeepSeek internal, riwayat obrolan terperinci, kunci API, detail sistem backend, dan metadata operasional.

Klasifikasi Peristiwa VERIZON: Miscellaneous Errors

Pemetaan Kerangka Kerja MITRE ATT&CK:

  • T1590.002 (Collect Victim Network Information - Domain Name Resolution): Penyerang kemungkinan menggunakan nama domain utama untuk melakukan enumerasi subdomain.
  • T1046 (Web Service Discovery): Penyerang mengidentifikasi port dan layanan terbuka yang terkait dengan domain target.
  • T1106 (Native Interface): Penyerang memanfaatkan API ClickHouse untuk berinteraksi dengan database.
  • T1567 (Data Exfiltration via Web Service): Penyerang menggunakan API ClickHouse untuk mencuri data.

Insiden 2: Serangan Rantai Pasokan DeepSeek – Kuda Troya dalam Kode

Timeline: 3 Februari 2025

Skala Kebocoran: Kredensial pengguna dan variabel lingkungan.

Mengungkap Peristiwa:

Serangan dimulai pada 19 Januari 2025, ketika pengguna jahat, yang diidentifikasi sebagai ‘bvk,’ mengunggah dua paket Python jahat bernama ‘deepseek’ dan ‘deepseekai’ ke repositori PyPI (Python Package Index) yang populer.

Tim intelijen ancaman di Positive Technologies Expert Security Center (PT ESC) mendeteksi aktivitas mencurigakan ini pada hari yang sama. Analisis mereka mengkonfirmasi sifat jahat dari paket-paket tersebut, dan mereka segera memberi tahu administrator PyPI.

Administrator PyPI dengan cepat menghapus paket-paket jahat dan memberi tahu PT ESC. Meskipun responsnya cepat, statistik mengungkapkan bahwa malware telah diunduh lebih dari 200 kali di 17 negara melalui berbagai saluran. Paket-paket jahat itu kemudian diisolasi.

Membedah Serangan:

Paket-paket jahat yang diunggah oleh ‘bvk’ berfokus pada dua tujuan utama: pengumpulan informasi dan pencurian variabel lingkungan. Data yang dicuri termasuk informasi sensitif seperti kredensial database, kunci API, dan kredensial akses untuk penyimpanan objek S3. Muatan jahat dipicu setiap kali pengguna mengeksekusi DeepSeek atau Deepseekai dari baris perintah.

Penyerang menggunakan PipeDream sebagai server command-and-control untuk menerima data yang dicuri. Insiden tersebut menyoroti beberapa faktor yang berkontribusi:

  • Serangan Dependency Confusion: Penyerang mengeksploitasi perbedaan prioritas antara paket pribadi organisasi dan paket publik dengan nama yang sama.
  • Peniruan Nama Paket: Paket-paket jahat meniru nama merek DeepSeek, perusahaan AI terkenal, untuk menipu pengguna.
  • Kelemahan Pendaftaran PyPI: Proses pendaftaran PyPI tidak memiliki verifikasi identitas pengembang dan legitimasi nama paket yang efektif.
  • Kesadaran Keamanan Pengembang: Pengembang mungkin secara keliru menginstal paket jahat yang bernama serupa.

Klasifikasi Peristiwa VERIZON: Social Engineering

Pemetaan Kerangka Kerja MITRE ATT&CK:

  • T1593.003 (Search Open Websites/Domains - Search Publicly Available Dependency Repository): Penyerang mencari informasi di PyPI.
  • T1195.002 (Supply Chain Compromise - Compromise Software Supply Chain): Penyerang menggunakan malware yang disamarkan sebagai dependensi Python dan mengunggahnya ke PyPI.
  • T1059.006 (Command and Scripting Interpreter - Python): Penyerang menanamkan kode jahat dalam paket, yang, setelah dieksekusi, membocorkan data sensitif.
  • T1041 (Exfiltration Over C2 Channel): Penyerang mengeksfiltrasi informasi sensitif melalui saluran C2 PipeDream.

Insiden 3: Pembajakan LLM – DeepSeek Ditargetkan untuk Pencurian Sumber Daya

Timeline: 7 Februari 2025

Skala Kebocoran: Sekitar 2 miliar token model digunakan secara ilegal.

Mengungkap Peristiwa:

Tim peneliti ancaman Sysdig awalnya menemukan serangan baru yang menargetkan LLM, yang dijuluki ‘LLM jacking’ atau ‘pembajakan LLM,’ pada Mei 2024.

Pada September 2024, Sysdig melaporkan peningkatan frekuensi dan prevalensi serangan ini, dengan DeepSeek semakin menjadi target.

Pada 26 Desember 2024, DeepSeek merilis model lanjutan, DeepSeek-V3. Tak lama setelah itu, tim Sysdig menemukan bahwa DeepSeek-V3 telah diimplementasikan dalam proyek proxy balik OpenAI (ORP) yang dihosting di Hugging Face.

Pada 20 Januari 2025, DeepSeek merilis model inferensi yang disebut DeepSeek-R1. Keesokan harinya, proyek ORP yang mendukung DeepSeek-R1 muncul, dan penyerang mulai mengeksploitasinya, mengisi beberapa ORP dengan kunci API DeepSeek.

Penelitian Sysdig menunjukkan bahwa jumlah total token model besar yang digunakan secara ilegal melalui ORP telah melampaui 2 miliar.

Membedah Serangan:

Pembajakan LLM melibatkan penyerang yang mengeksploitasi kredensial cloud yang dicuri untuk menargetkan layanan LLM yang dihosting di cloud. Penyerang memanfaatkan proxy balik OAI (OpenAI) dan kredensial yang dicuri untuk menjual akses ke layanan LLM yang dilanggan korban. Hal ini mengakibatkan biaya layanan cloud yang signifikan bagi korban.

Proxy balik OAI bertindak sebagai titik manajemen pusat untuk akses ke beberapa akun LLM, menutupi kredensial dan kumpulan sumber daya yang mendasarinya. Penyerang dapat menggunakan LLM mahal seperti DeepSeek tanpa membayarnya, mengarahkan permintaan melalui proxy balik, mengkonsumsi sumber daya, dan melewati biaya layanan yang sah. Mekanisme proxy menyembunyikan identitas penyerang, memungkinkan mereka untuk menyalahgunakan sumber daya cloud tanpa terdeteksi.

Sementara proxy balik OAI adalah komponen yang diperlukan untuk pembajakan LLM, elemen krusialnya adalah pencurian kredensial dan kunci untuk berbagai layanan LLM. Penyerang sering mengeksploitasi kerentanan layanan web tradisional dan kesalahan konfigurasi (seperti kerentanan CVE-2021-3129 dalam kerangka kerja Laravel) untuk mencuri kredensial ini. Setelah diperoleh, kredensial ini memberikan akses ke layanan LLM berbasis cloud seperti Amazon Bedrock, Google Cloud Vertex AI, dan lainnya.

Penelitian Sysdig mengungkapkan bahwa penyerang dapat dengan cepat meningkatkan biaya konsumsi korban hingga puluhan ribu dolar dalam beberapa jam, dan dalam beberapa kasus, hingga $100.000 per hari. Motivasi penyerang melampaui akuisisi data; mereka juga mendapat untung dengan menjual hak akses.

Klasifikasi Peristiwa VERIZON: Basic Web Application Attacks

Pemetaan Kerangka Kerja MITRE ATT&CK:

  • T1593 (Search Open Websites/Domains): Penyerang menggunakan metode OSINT (Open-Source Intelligence) untuk mengumpulkan informasi tentang layanan yang terekspos.
  • T1133 (External Remote Services): Penyerang mengidentifikasi kerentanan dalam layanan yang terekspos.
  • T1586.003 (Compromise Accounts - Cloud Accounts): Penyerang mengeksploitasi kerentanan untuk mencuri layanan LLM atau kredensial layanan cloud.
  • T1588.002 (Obtain Capabilities - Tool): Penyerang menggunakan alat proxy balik OAI sumber terbuka.
  • T1090.002 (Proxy - External Proxy): Penyerang menggunakan perangkat lunak proxy balik OAI untuk mengelola akses ke beberapa akun LLM.
  • T1496 (Resource Hijacking): Penyerang meluncurkan serangan injeksi LLM untuk membajak sumber daya LLM.

Insiden 4: Pelanggaran Data OmniGPT – Data Pengguna Dijual di Dark Web

Timeline: 12 Februari 2025

Skala Kebocoran: Informasi pribadi lebih dari 30.000 pengguna, termasuk email, nomor telepon, kunci API, kunci enkripsi, kredensial, dan informasi penagihan.

Mengungkap Peristiwa:

Pada 12 Februari 2025, seorang pengguna bernama ‘SyntheticEmotions’ memposting di BreachForums, mengklaim telah mencuri data sensitif dari platform OmniGPT dan menawarkannya untuk dijual. Data yang bocor dilaporkan termasuk email, nomor telepon, kunci API, kunci enkripsi, kredensial, dan informasi penagihan untuk lebih dari 30.000 pengguna OmniGPT, bersama dengan lebih dari 34 juta baris percakapan mereka dengan chatbot. Selain itu, tautan ke file yang diunggah ke platform disusupi, beberapa di antaranya berisi informasi sensitif seperti voucher dan data penagihan.

Membedah Serangan:

Meskipun vektor serangan yang tepat masih dirahasiakan, jenis dan ruang lingkup data yang bocor menunjukkan beberapa kemungkinan: injeksi SQL, penyalahgunaan API, atau serangan rekayasa sosial mungkin telah memberi penyerang akses ke database backend. Mungkin juga platform OmniGPT memiliki kesalahan konfigurasi atau kerentanan yang memungkinkan penyerang untuk melewati otentikasi dan langsung mengakses database yang berisi informasi pengguna.

File ‘Messages.txt’ yang terlibat dalam kebocoran sekunder berisi kunci API, kredensial database, dan informasi kartu pembayaran, yang berpotensi memungkinkan intrusi lebih lanjut ke sistem lain atau perusakan data. Beberapa dokumen yang diunggah oleh pengguna platform berisi rahasia bisnis sensitif dan data proyek, yang menimbulkan risiko bagi operasi bisnis jika disalahgunakan. Insiden ini berfungsi sebagai pengingat yang jelas tentang perlunya peningkatan keamanan data dan perlindungan privasi dalam sektor AI dan big data. Pengguna harus sangat berhati-hati saat menggunakan platform ini, dan organisasi harus menetapkan kebijakan penggunaan data yang ketat, menerapkan langkah-langkah seperti enkripsi, minimalisasi data, dan anonimisasi untuk data sensitif. Kegagalan untuk melakukannya dapat menyebabkan konsekuensi hukum, reputasi, dan ekonomi yang signifikan.

Klasifikasi Peristiwa VERIZON: Miscellaneous Errors

Pemetaan Kerangka Kerja MITRE ATT&CK:

  • T1071.001 (Application Layer Protocol - Web Protocols): Penyerang mungkin telah mengakses informasi pengguna yang bocor dan data sensitif melalui antarmuka web OmniGPT.
  • T1071.002 (Application Layer Protocol - Application Programming Interfaces): Kunci API dan kredensial database yang bocor dapat memungkinkan penyerang untuk mengakses sistem melalui API platform dan melakukan tindakan yang tidak sah.
  • T1071.002 (Application Layer Protocol - Service Execution): Penyerang mungkin menyalahgunakan layanan sistem atau daemon untuk mengeksekusi perintah atau program.
  • T1020.003 (Automated Exfiltration - File Transfer): Tautan file yang bocor dan file sensitif yang diunggah pengguna dapat menjadi target bagi penyerang untuk diunduh, mendapatkan lebih banyak data sensitif untuk serangan berikutnya.
  • T1083 (File and Directory Discovery): Penyerang dapat menggunakan informasi yang bocor untuk lebih lanjut mendapatkan informasi bisnis utama.

Insiden 5: Kredensial DeepSeek Bocor di Common Crawl – Bahaya Hard-Coding

Timeline: 28 Februari 2025

Skala Kebocoran: Sekitar 11.908 kunci API, kredensial, dan token otentikasi DeepSeek yang valid.

Mengungkap Peristiwa:

Tim keamanan Truffle menggunakan alat sumber terbuka TruffleHog untuk memindai 400 TB data dari Desember 2024 di Common Crawl, database perayap yang mencakup 2,67 miliar halaman web dari 47,5 juta host. Pemindaian tersebut mengungkapkan temuan yang mengejutkan: sekitar 11.908 kunci API, kredensial, dan token otentikasi DeepSeek yang valid di-hardcode langsung ke banyak halaman web.

Studi ini juga menyoroti kebocoran kunci API Mailchimp, dengan sekitar 1.500 kunci ditemukan di-hardcode dalam kode JavaScript. Kunci API Mailchimp sering dieksploitasi untuk serangan phishing dan pencurian data.

Membedah Serangan:

Common Crawl, database perayap web nirlaba, secara teratur menangkap dan mempublikasikan data dari halaman internet. Ia menyimpan data ini dalam file WARC (Web ARChive), mempertahankan HTML asli, kode JavaScript, dan respons server. Kumpulan data ini sering digunakan untuk melatih model AI. Penelitian Truffle mengungkap masalah kritis: melatih model pada korpora yang mengandung kerentanan keamanan dapat menyebabkan model mewarisi kerentanan tersebut. Bahkan jika LLM seperti DeepSeek menggunakan langkah-langkah keamanan tambahan selama pelatihan dan penerapan, keberadaan kerentanan yang di-hardcode secara luas dalam data pelatihan dapat menormalkan praktik ‘tidak aman’ tersebut untuk model.

Hard-coding, praktik pengkodean yang umum tetapi tidak aman, adalah masalah yang meresap. Sementara akar penyebabnya sederhana, risikonya parah: pelanggaran data, gangguan layanan, serangan rantai pasokan, dan, dengan munculnya LLM, ancaman baru – pembajakan LLM. Seperti yang telah dibahas sebelumnya, pembajakan LLM melibatkan penyerang yang menggunakan kredensial yang dicuri untuk mengeksploitasi layanan LLM yang dihosting di cloud, yang mengakibatkan kerugian finansial yang substansial bagi korban.

Klasifikasi Peristiwa VERIZON: Miscellaneous Errors

Pemetaan Kerangka Kerja MITRE ATT&CK:

  • T1596.005 (Search Open Technical Database - Scan Databases): Penyerang mengumpulkan informasi dari database perayap publik.
  • T1588.002 (Obtain Capabilities - Tool): Penyerang menggunakan alat penemuan informasi sensitif.
  • T1586.003 (Compromise Accounts - Cloud Accounts): Penyerang menggunakan alat penemuan informasi sensitif untuk menemukan kredensial sensitif di database publik.
  • T1090.002 (Proxy - External Proxy): Penyerang menggunakan perangkat lunak proxy balik OAI untuk mengelola akses ke beberapa akun LLM.
  • T1496 (Resource Hijacking): Penyerang meluncurkan serangan injeksi LLM untuk membajak sumber daya LLM.

Mencegah Kebocoran Data LLM: Pendekatan Multi-Aspek

Insiden yang dianalisis menyoroti kebutuhan mendesak akan langkah-langkah keamanan yang kuat untuk melindungi dari pelanggaran data terkait LLM. Berikut adalah rincian strategi pencegahan, yang dikategorikan berdasarkan insiden yang relevan:

Memperkuat Rantai Pasokan:

Berlaku untuk Insiden II (serangan paket dependensi jahat) dan Insiden V (pelanggaran data publik):

  1. Verifikasi Terpercaya Paket Dependensi:

    • Gunakan alat seperti PyPI/Sonatype Nexus Firewall untuk mencegat paket dependensi yang tidak ditandatangani atau bersumber dari sumber yang mencurigakan.
    • Larang pengambilan dependensi langsung dari repositori publik di lingkungan pengembangan. Wajibkan penggunaan proxy repositori pribadi perusahaan (misalnya, Artifactory).
  2. Pemantauan Ancaman Rantai Pasokan:

    • Integrasikan alat seperti Dependabot/Snyk untuk secara otomatis memindai kerentanan dependensi dan memblokir pengenalan komponen berisiko tinggi.
    • Verifikasi tanda tangan kode paket sumber terbuka untuk memastikan nilai hash cocok dengan yang resmi.
  3. Pembersihan Sumber Data:

    • Selama pengumpulan data pelatihan, filter informasi sensitif dari kumpulan data publik (seperti Common Crawl) menggunakan ekspresi reguler dan alat redaksi berbasis AI untuk verifikasi ganda.

Menerapkan Hak Istimewa Terkecil dan Kontrol Akses:

Berlaku untuk Insiden I (kesalahan konfigurasi database) dan Insiden IV (pelanggaran data alat pihak ketiga):

  • Aktifkan otentikasi TLS dua arah secara default untuk database (seperti ClickHouse) dan cegah paparan port manajemen di jaringan publik.
  • Gunakan solusi seperti Vault/Boundary untuk mendistribusikan kredensial sementara secara dinamis, menghindari retensi kunci statis jangka panjang.
  • Patuhi prinsip hak istimewa terkecil, batasi akses pengguna hanya ke sumber daya yang diperlukan melalui RBAC (Role-Based Access Control).
  • Terapkan daftar putih IP dan pembatasan tarif untuk panggilan API ke alat pihak ketiga (seperti OmniGPT).

Memastikan Perlindungan Siklus Hidup Penuh Data Sensitif:

Berlaku untuk Insiden III (pembajakan LLM):

  • Redaksi dan Enkripsi Data: Terapkan enkripsi tingkat bidang (misalnya, AES-GCM) untuk data input dan output pengguna. Samarkan bidang sensitif dalam log.
  • Aktifkan redaksi real-time untuk konten interaktif LLM (misalnya, mengganti nomor kartu kredit dan nomor telepon dengan placeholder).

Langkah-langkah pencegahan ini, dikombinasikan dengan pemantauan keamanan berkelanjutan dan perencanaan respons insiden, sangat penting untuk mengurangi risiko yang terkait dengan meningkatnya penggunaan LLM. ‘Medan perang tak terlihat’ dari keamanan LLM menuntut kewaspadaan konstan dan pendekatan proaktif untuk melindungi data sensitif dalam lanskap teknologi yang berkembang pesat ini.