Perang Data Era LLM Sumber Terbuka

Gelombang Pelanggaran Mendedahkan Kerentanan

Penggunaan pesat model bahasa besar (LLM) sumber terbuka seperti DeepSeek dan Ollama telah menjadi pedang bermata dua. Walaupun perniagaan memanfaatkan alat-alat berkuasa ini untuk meningkatkan kecekapan, keterbukaan yang memacu pertumbuhan mereka mewujudkan lonjakan selari dalam risiko keselamatan data. Laporan terbaru yang disusun oleh NSFOCUS Xingyun Lab memberikan gambaran yang jelas: dalam hanya dua bulan pertama tahun 2025, dunia menyaksikan lima pelanggaran data penting yang dikaitkan secara langsung dengan LLM. Insiden-insiden ini mengakibatkan pendedahan sejumlah besar maklumat sensitif, daripada sejarah sembang sulit dan kunci API hingga kelayakan pengguna yang kritikal. Peristiwa-peristiwa ini adalah satu amaran, menyoroti kelemahan keselamatan yang sering diabaikan yang bersembunyi di bawah permukaan teknologi AI yang canggih. Penerokaan ini akan membedah lima insiden ini, membedah kaedah serangan, memetakannya ke rangka kerja MITRE ATT&CK yang telah ditetapkan, dan mendedahkan titik buta keselamatan yang mesti ditangani oleh organisasi dengan segera.

Insiden 1: Pangkalan Data DeepSeek yang Salah Konfigurasi – Tingkap ke dalam Perbualan Peribadi

Garis Masa: 29 Januari 2025

Skala Kebocoran: Berjuta-juta baris data log, termasuk sejarah sembang sensitif dan kunci akses.

Membongkar Peristiwa:

Pasukan penyelidikan keselamatan di Wiz memulakan penemuan ini. Mereka mengenal pasti perkhidmatan ClickHouse terdedah yang boleh diakses di internet awam. Siasatan lanjut mengesahkan bahawa perkhidmatan ini adalah milik syarikat permulaan AI China, DeepSeek. ClickHouse, yang direka untuk pengendalian set data besar yang cekap dalam pemprosesan analitik, malangnya menjadi pintu masuk ke data dalaman DeepSeek. Para penyelidik mengakses kira-kira satu juta baris aliran log DeepSeek, mendedahkan khazanah maklumat sensitif, termasuk log sembang sejarah dan kunci akses penting.

Wiz segera memaklumkan DeepSeek tentang kelemahan itu, yang membawa kepada tindakan segera dan pelupusan selamat perkhidmatan ClickHouse yang terdedah.

Membedah Serangan:

Isu teras terletak pada kerentanan ClickHouse terhadap akses tanpa kebenaran. ClickHouse, sistem pengurusan pangkalan data berorientasikan lajur sumber terbuka, cemerlang dalam pertanyaan masa nyata dan analisis set data besar-besaran, sering digunakan untuk analisis log dan tingkah laku pengguna. Walau bagaimanapun, apabila digunakan tanpa kawalan akses yang betul, antara muka API yang terdedah membolehkan sesiapa sahaja melaksanakan arahan seperti SQL.

Pendekatan pasukan keselamatan Wiz melibatkan imbasan teratur subdomain yang menghadap internet DeepSeek. Pada mulanya memfokuskan pada port standard 80 dan 443, mereka menemui sumber web biasa seperti antara muka chatbot dan dokumentasi API. Untuk meluaskan carian mereka, mereka berkembang ke port yang kurang biasa seperti 8123 dan 9000, akhirnya menemui perkhidmatan terdedah pada berbilang subdomain.

Data log yang terjejas, sejak 6 Januari 2025, mengandungi banyak maklumat sensitif: log panggilan, log teks untuk titik akhir API DeepSeek dalaman, sejarah sembang terperinci, kunci API, butiran sistem backend dan metadata operasi.

Klasifikasi Peristiwa VERIZON: Ralat Pelbagai

Pemetaan Rangka Kerja MITRE ATT&CK:

  • T1590.002 (Collect Victim Network Information - Domain Name Resolution): Penyerang mungkin menggunakan nama domain utama untuk melakukan penghitungan subdomain.
  • T1046 (Web Service Discovery): Penyerang mengenal pasti port dan perkhidmatan terbuka yang berkaitan dengan domain sasaran.
  • T1106 (Native Interface): Penyerang memanfaatkan API ClickHouse untuk berinteraksi dengan pangkalan data.
  • T1567 (Data Exfiltration via Web Service): Penyerang menggunakan API ClickHouse untuk mencuri data.

Insiden 2: Serangan Rantaian Bekalan DeepSeek – Kuda Trojan dalam Kod

Garis Masa: 3 Februari 2025

Skala Kebocoran: Kelayakan pengguna dan pembolehubah persekitaran.

Membongkar Peristiwa:

Serangan itu bermula pada 19 Januari 2025, apabila pengguna berniat jahat, yang dikenali sebagai ‘bvk,’ memuat naik dua pakej Python berniat jahat bernama ‘deepseek’ dan ‘deepseekai’ ke repositori PyPI (Python Package Index) yang popular.

Pasukan risikan ancaman di Pusat Keselamatan Pakar Teknologi Positif (PT ESC) mengesan aktiviti mencurigakan ini pada hari yang sama. Analisis mereka mengesahkan sifat berniat jahat pakej tersebut, dan mereka segera memberitahu pentadbir PyPI.

Pentadbir PyPI segera mengalih keluar pakej berniat jahat dan memaklumkan PT ESC. Walaupun tindak balas pantas, statistik mendedahkan bahawa perisian hasad telah dimuat turun lebih 200 kali di 17 negara melalui pelbagai saluran. Pakej berniat jahat kemudiannya diasingkan.

Membedah Serangan:

Pakej berniat jahat yang dimuat naik oleh ‘bvk’ memfokuskan pada dua objektif utama: pengumpulan maklumat dan mencuri pembolehubah persekitaran. Data yang dicuri termasuk maklumat sensitif seperti kelayakan pangkalan data, kunci API dan kelayakan akses untuk storan objek S3. Muatan berniat jahat dicetuskan apabila pengguna melaksanakan DeepSeek atau Deepseekai dari baris arahan.

Penyerang menggunakan PipeDream sebagai pelayan arahan dan kawalan untuk menerima data yang dicuri. Insiden itu menyerlahkan beberapa faktor penyumbang:

  • Serangan Kekeliruan Kebergantungan: Penyerang mengeksploitasi perbezaan keutamaan antara pakej peribadi organisasi dan pakej awam dengan nama yang sama.
  • Penyamaran Nama Pakej: Pakej berniat jahat meniru nama jenama DeepSeek, sebuah syarikat AI yang terkenal, untuk menipu pengguna.
  • Kelemahan Pendaftaran PyPI: Proses pendaftaran PyPI tidak mempunyai pengesahan identiti pembangun dan kesahihan nama pakej yang berkesan.
  • Kesedaran Keselamatan Pembangun: Pembangun mungkin tersilap memasang pakej berniat jahat yang dinamakan sama.

Klasifikasi Peristiwa VERIZON: Kejuruteraan Sosial

Pemetaan Rangka Kerja MITRE ATT&CK:

  • T1593.003 (Search Open Websites/Domains - Search Publicly Available Dependency Repository): Penyerang mencari maklumat di PyPI.
  • T1195.002 (Supply Chain Compromise - Compromise Software Supply Chain): Penyerang menggunakan perisian hasad yang menyamar sebagai kebergantungan Python dan memuat naiknya ke PyPI.
  • T1059.006 (Command and Scripting Interpreter - Python): Penyerang menanam kod berniat jahat dalam pakej, yang, apabila dilaksanakan, membocorkan data sensitif.
  • T1041 (Exfiltration Over C2 Channel): Penyerang mengeksfiltrasi maklumat sensitif melalui saluran C2 PipeDream.

Insiden 3: LLM Hijacking – DeepSeek Disasarkan untuk Kecurian Sumber

Garis Masa: 7 Februari 2025

Skala Kebocoran: Kira-kira 2 bilion token model digunakan secara haram.

Membongkar Peristiwa:

Pasukan penyelidikan ancaman Sysdig pada mulanya menemui serangan novel yang menyasarkan LLM, yang digelar ‘LLM jacking’ atau ‘LLM hijacking,’ pada Mei 2024.

Menjelang September 2024, Sysdig melaporkan kekerapan dan kelaziman serangan ini yang semakin meningkat, dengan DeepSeek semakin menjadi sasaran.

Pada 26 Disember 2024, DeepSeek mengeluarkan model lanjutan, DeepSeek-V3. Tidak lama selepas itu, pasukan Sysdig mendapati bahawa DeepSeek-V3 telah dilaksanakan dalam projek proksi terbalik OpenAI (ORP) yang dihoskan di Hugging Face.

Pada 20 Januari 2025, DeepSeek mengeluarkan model inferens yang dipanggil DeepSeek-R1. Keesokan harinya, projek ORP yang menyokong DeepSeek-R1 muncul, dan penyerang mula mengeksploitasinya, mengisi berbilang ORP dengan kunci API DeepSeek.

Penyelidikan Sysdig menunjukkan bahawa jumlah token model besar yang digunakan secara haram melalui ORP telah melepasi 2 bilion.

Membedah Serangan:

LLM hijacking melibatkan penyerang mengeksploitasi kelayakan awan yang dicuri untuk menyasarkan perkhidmatan LLM yang dihoskan di awan. Penyerang memanfaatkan proksi terbalik OAI (OpenAI) dan kelayakan yang dicuri untuk menjual akses kepada perkhidmatan LLM yang dilanggan oleh mangsa. Ini mengakibatkan kos perkhidmatan awan yang ketara untuk mangsa.

Proksi terbalik OAI bertindak sebagai titik pengurusan pusat untuk akses kepada berbilang akaun LLM, menutup kelayakan asas dan kumpulan sumber. Penyerang boleh menggunakan LLM mahal seperti DeepSeek tanpa membayarnya, mengarahkan permintaan melalui proksi terbalik, menggunakan sumber dan memintas caj perkhidmatan yang sah. Mekanisme proksi menyembunyikan identiti penyerang, membolehkan mereka menyalahgunakan sumber awan tanpa dikesan.

Walaupun proksi terbalik OAI adalah komponen yang diperlukan untuk LLM hijacking, elemen penting ialah kecurian kelayakan dan kunci untuk pelbagai perkhidmatan LLM. Penyerang sering mengeksploitasi kelemahan perkhidmatan web tradisional dan ralat konfigurasi (seperti kelemahan CVE-2021-3129 dalam rangka kerja Laravel) untuk mencuri kelayakan ini. Setelah diperoleh, kelayakan ini memberikan akses kepada perkhidmatan LLM berasaskan awan seperti Amazon Bedrock, Google Cloud Vertex AI dan lain-lain.

Penyelidikan Sysdig mendedahkan bahawa penyerang boleh dengan cepat meningkatkan kos penggunaan mangsa kepada puluhan ribu dolar dalam masa beberapa jam, dan dalam beberapa kes, sehingga $100,000 sehari. Motivasi penyerang melangkaui pemerolehan data; mereka juga mendapat keuntungan dengan menjual hak akses.

Klasifikasi Peristiwa VERIZON: Serangan Aplikasi Web Asas

Pemetaan Rangka Kerja MITRE ATT&CK:

  • T1593 (Search Open Websites/Domains): Penyerang menggunakan kaedah OSINT (Open-Source Intelligence) untuk mengumpulkan maklumat mengenai perkhidmatan yang terdedah.
  • T1133 (External Remote Services): Penyerang mengenal pasti kelemahan dalam perkhidmatan yang terdedah.
  • T1586.003 (Compromise Accounts - Cloud Accounts): Penyerang mengeksploitasi kelemahan untuk mencuri perkhidmatan LLM atau kelayakan perkhidmatan awan.
  • T1588.002 (Obtain Capabilities - Tool): Penyerang menggunakan alat proksi terbalik OAI sumber terbuka.
  • T1090.002 (Proxy - External Proxy): Penyerang menggunakan perisian proksi terbalik OAI untuk menguruskan akses kepada berbilang akaun LLM.
  • T1496 (Resource Hijacking): Penyerang melancarkan serangan suntikan LLM untuk merampas sumber LLM.

Insiden 4: Pelanggaran Data OmniGPT – Data Pengguna Dijual di Web Gelap

Garis Masa: 12 Februari 2025

Skala Kebocoran: Maklumat peribadi lebih 30,000 pengguna, termasuk e-mel, nombor telefon, kunci API, kunci penyulitan, kelayakan dan maklumat pengebilan.

Membongkar Peristiwa:

Pada 12 Februari 2025, seorang pengguna bernama ‘SyntheticEmotions’ menyiarkan di BreachForums, mendakwa telah mencuri data sensitif daripada platform OmniGPT dan menawarkannya untuk dijual. Data yang bocor dilaporkan termasuk e-mel, nombor telefon, kunci API, kunci penyulitan, kelayakan dan maklumat pengebilan untuk lebih 30,000 pengguna OmniGPT, bersama-sama dengan lebih 34 juta baris perbualan mereka dengan chatbot. Selain itu, pautan ke fail yang dimuat naik ke platform telah terjejas, sesetengahnya mengandungi maklumat sensitif seperti baucar dan data pengebilan.

Membedah Serangan:

Walaupun vektor serangan yang tepat kekal tidak didedahkan, jenis dan skop data yang bocor mencadangkan beberapa kemungkinan: suntikan SQL, penyalahgunaan API, atau serangan kejuruteraan sosial mungkin telah memberikan penyerang akses kepada pangkalan data backend. Ia juga mungkin bahawa platform OmniGPT mempunyai salah konfigurasi atau kelemahan yang membolehkan penyerang memintas pengesahan dan terus mengakses pangkalan data yang mengandungi maklumat pengguna.

Fail ‘Messages.txt’ yang terlibat dalam kebocoran sekunder mengandungi kunci API, kelayakan pangkalan data dan maklumat kad pembayaran, yang berpotensi membolehkan pencerobohan lanjut ke dalam sistem lain atau gangguan data. Sesetengah dokumen yang dimuat naik oleh pengguna platform mengandungi rahsia perniagaan sensitif dan data projek, menimbulkan risiko kepada operasi perniagaan jika disalahgunakan. Insiden ini berfungsi sebagai peringatan yang jelas tentang keperluan untuk keselamatan data dan perlindungan privasi yang dipertingkatkan dalam sektor AI dan data besar. Pengguna harus berhati-hati apabila menggunakan platform ini, dan organisasi mesti mewujudkan dasar penggunaan data yang ketat, melaksanakan langkah-langkah seperti penyulitan, peminimuman data dan penganoniman untuk data sensitif. Kegagalan berbuat demikian boleh membawa kepada akibat undang-undang, reputasi dan ekonomi yang ketara.

Klasifikasi Peristiwa VERIZON: Ralat Pelbagai

Pemetaan Rangka Kerja MITRE ATT&CK:

  • T1071.001 (Application Layer Protocol - Web Protocols): Penyerang mungkin telah mengakses maklumat pengguna yang bocor dan data sensitif melalui antara muka web OmniGPT.
  • T1071.002 (Application Layer Protocol - Application Programming Interfaces): Kunci API yang bocor dan kelayakan pangkalan data boleh membenarkan penyerang mengakses sistem melalui API platform dan melakukan tindakan yang tidak dibenarkan.
  • T1071.002 (Application Layer Protocol - Service Execution): Penyerang mungkin menyalahgunakan perkhidmatan sistem atau daemon untuk melaksanakan arahan atau program.
  • T1020.003 (Automated Exfiltration - File Transfer): Pautan fail yang bocor dan fail sensitif yang dimuat naik pengguna boleh menjadi sasaran untuk penyerang memuat turun, mendapatkan lebih banyak data sensitif untuk serangan seterusnya.
  • T1083 (File and Directory Discovery): Penyerang boleh menggunakan maklumat yang bocor untuk mendapatkan maklumat perniagaan utama.

Insiden 5: Kelayakan DeepSeek Terbocor dalam Common Crawl – Bahaya Pengekodan Keras

Garis Masa: 28 Februari 2025

Skala Kebocoran: Kira-kira 11,908 kunci API DeepSeek, kelayakan dan token pengesahan yang sah.

Membongkar Peristiwa:

Pasukan keselamatan Truffle menggunakan alat sumber terbuka TruffleHog untuk mengimbas 400 TB data dari Disember 2024 dalam Common Crawl, pangkalan data perangkak yang merangkumi 2.67 bilion halaman web daripada 47.5 juta hos. Imbasan itu mendedahkan penemuan yang mengejutkan: kira-kira 11,908 kunci API DeepSeek, kelayakan dan token pengesahan yang sah telah dikodkan secara keras terus ke dalam banyak halaman web.

Kajian itu juga menyerlahkan kebocoran kunci API Mailchimp, dengan sekitar 1,500 kunci ditemui dikodkan secara keras dalam kod JavaScript. Kunci API Mailchimp sering dieksploitasi untuk serangan pancingan data dan kecurian data.

Membedah Serangan:

Common Crawl, pangkalan data perangkak web bukan untung, kerap menangkap dan menerbitkan data daripada halaman internet. Ia menyimpan data ini dalam fail WARC (Web ARChive), mengekalkan HTML asal, kod JavaScript dan respons pelayan. Set data ini sering digunakan untuk melatih model AI. Penyelidikan Truffle mendedahkan isu kritikal: model latihan pada korpora yang mengandungi kelemahan keselamatan boleh membawa kepada model mewarisi kelemahan tersebut. Walaupun LLM seperti DeepSeek menggunakan langkah keselamatan tambahan semasa latihan dan penggunaan, kehadiran meluas kelemahan yang dikodkan secara keras dalam data latihan boleh menormalkan amalan ‘tidak selamat’ sedemikian untuk model.

Pengekodan keras, amalan pengekodan yang biasa tetapi tidak selamat, adalah masalah yang berleluasa. Walaupun punca utama adalah mudah, risikonya adalah teruk: pelanggaran data, gangguan perkhidmatan, serangan rantaian bekalan, dan, dengan kebangkitan LLM, ancaman baharu – LLM hijacking. Seperti yang dibincangkan sebelum ini, LLM hijacking melibatkan penyerang menggunakan kelayakan yang dicuri untuk mengeksploitasi perkhidmatan LLM yang dihoskan di awan, mengakibatkan kerugian kewangan yang besar untuk mangsa.

Klasifikasi Peristiwa VERIZON: Ralat Pelbagai

Pemetaan Rangka Kerja MITRE ATT&CK:

  • T1596.005 (Search Open Technical Database - Scan Databases): Penyerang mengumpulkan maklumat daripada pangkalan data perangkak awam.
  • T1588.002 (Obtain Capabilities - Tool): Penyerang menggunakan alat penemuan maklumat sensitif.
  • T1586.003 (Compromise Accounts - Cloud Accounts): Penyerang menggunakan alat penemuan maklumat sensitif untuk mencari kelayakan sensitif dalam pangkalan data awam.
  • T1090.002 (Proxy - External Proxy): Penyerang menggunakan perisian proksi terbalik OAI untuk menguruskan akses kepada berbilang akaun LLM.
  • T1496 (Resource Hijacking): Penyerang melancarkan serangan suntikan LLM untuk merampas sumber LLM.

Mencegah Kebocoran Data LLM: Pendekatan Pelbagai Aspek

Insiden yang dianalisis menyerlahkan keperluan mendesak untuk langkah keselamatan yang teguh untuk melindungi daripada pelanggaran data berkaitan LLM. Berikut ialah pecahan strategi pencegahan, dikategorikan mengikut insiden yang berkaitan:

Mengukuhkan Rantaian Bekalan:

Berkenaan dengan Insiden II (serangan pakej kebergantungan berniat jahat) dan Insiden V (pelanggaran data awam):

  1. Pengesahan Pakej Kebergantungan yang Dipercayai:

    • Gunakan alat seperti PyPI/Sonatype Nexus Firewall untuk memintas pakej kebergantungan yang tidak ditandatangani atau diperoleh secara mencurigakan.
    • Larang pengambilan terus kebergantungan daripada repositori awam dalam persekitaran pembangunan. Wajibkan penggunaan proksi repositori peribadi korporat (cth., Artifactory).
  2. Pemantauan Ancaman Rantaian Bekalan:

    • Sepadukan alat seperti Dependabot/Snyk untuk mengimbas secara automatik kelemahan kebergantungan dan menyekat pengenalan komponen berisiko tinggi.
    • Sahkan tandatangan kod pakej sumber terbuka untuk memastikan nilai cincangan sepadan dengan yang rasmi.
  3. Pembersihan Sumber Data:

    • Semasa pengumpulan data latihan, tapis maklumat sensitif daripada set data awam (seperti Common Crawl) menggunakan ungkapan biasa dan alat redaksi berasaskan AI untuk pengesahan berganda.

Melaksanakan Keistimewaan Terkurang dan Kawalan Akses:

Berkenaan dengan Insiden I (ralat konfigurasi pangkalan data) dan Insiden IV (pelanggaran data alat pihak ketiga):

  • Dayakan pengesahan TLS dwiarah secara lalai untuk pangkalan data (seperti ClickHouse) dan cegah pendedahan port pengurusan pada rangkaian awam.
  • Gunakan penyelesaian seperti Vault/Boundary untuk mengedarkan kelayakan sementara secara dinamik, mengelakkan pengekalan kunci statik jangka panjang.
  • Patuhi prinsip keistimewaan terkurang, mengehadkan akses pengguna kepada sumber yang diperlukan sahaja melalui RBAC (Role-Based Access Control).
  • Laksanakan penyenaraian putih IP dan pengehadan kadar untuk panggilan API ke alat pihak ketiga (seperti OmniGPT).

Memastikan Perlindungan Kitaran Hayat Penuh Data Sensitif:

Berkenaan dengan Insiden III (LLM hijacking):

  • Redaksi dan Penyulitan Data: Kuatkuasakan penyulitan peringkat medan (cth., AES-GCM) untuk data input dan output pengguna. Topeng medan sensitif dalam log.
  • Dayakan redaksi masa nyata untuk kandungan interaktif LLM (cth., menggantikan nombor kad kredit dan nombor telefon dengan pemegang tempat).

Langkah-langkah pencegahan ini, digabungkan dengan pemantauan keselamatan berterusan dan perancangan tindak balas insiden, adalah penting untuk mengurangkan risiko yang berkaitan dengan penggunaan LLM yang semakin meningkat. ‘Medan perang yang tidak kelihatan’ keselamatan LLM menuntut kewaspadaan berterusan dan pendekatan proaktif untuk melindungi data sensitif dalam landskap teknologi yang berkembang pesat ini.