מלחמת הצללים על נתונים בעידן LLM | he | בית

גל של פריצות חושף פגיעויות

האימוץ המהיר של מודלי שפה גדולים (LLMs) בקוד פתוח כמו DeepSeek ו-Ollama הפך לחרב פיפיות. בעוד שעסקים ממנפים את הכלים העוצמתיים הללו כדי להגביר את היעילות, עצם הפתיחות שמזינה את צמיחתם יוצרת עלייה מקבילה בסיכוני אבטחת מידע. דו”ח שנערך לאחרונה על ידי NSFOCUS Xingyun Lab מצייר תמונה קשה: בחודשיים הראשונים של 2025 בלבד, העולם היה עד לחמש פרצות נתונים משמעותיות הקשורות ישירות ל-LLMs. תקריות אלו הביאו לחשיפה של מצבורים עצומים של מידע רגיש, החל מהיסטוריות צ’אט סודיות ומפתחות API ועד לאישורי משתמש קריטיים. אירועים אלה הם קריאת השכמה, המדגישה את פגיעויות האבטחה שלעתים קרובות מתעלמים מהן, האורבות מתחת לפני השטח של טכנולוגיית AI חדשנית. חקירה זו תנתח את חמש התקריות הללו, תנתח את שיטות ההתקפה, תמפה אותן למסגרת MITRE ATT&CK המבוססת, ותחשוף את נקודות התורפה האבטחה שארגונים חייבים לטפל בהן בדחיפות.

תקרית 1: מסד הנתונים שהוגדר בצורה שגויה של DeepSeek – חלון לשיחות פרטיות

ציר זמן: 29 בינואר 2025

היקף הדליפה: מיליוני שורות של נתוני יומן, כולל היסטוריות צ’אט רגישות ומפתחות גישה.

פתיחת האירועים:

צוות מחקר האבטחה ב-Wiz יזם את הגילוי הזה. הם זיהו שירות ClickHouse חשוף הנגיש באינטרנט הציבורי. חקירה נוספת אישרה ששירות זה שייך לסטארט-אפ הבינה המלאכותית הסיני, DeepSeek. ClickHouse, המיועד לטיפול יעיל במערכי נתונים גדולים בעיבוד אנליטי, הפך למרבה הצער לשער לנתונים הפנימיים של DeepSeek. החוקרים ניגשו לכמיליון שורות של זרם היומן של DeepSeek, וחשפו אוצר של מידע רגיש, כולל יומני צ’אט היסטוריים ומפתחות גישה חיוניים.

Wiz התריעה מיד בפני DeepSeek על הפגיעות, מה שהוביל לפעולה מיידית ולסילוק מאובטח של שירות ClickHouse החשוף.

ניתוח ההתקפה:

הבעיה המרכזית הייתה בפגיעות של ClickHouse לגישה לא מורשית. ClickHouse, מערכת ניהול מסדי נתונים מונחית עמודות בקוד פתוח, מצטיינת בשאילתות וניתוח בזמן אמת של מערכי נתונים מסיביים, המשמשים לעתים קרובות לניתוח יומנים והתנהגות משתמשים. עם זאת, כאשר הוא נפרס ללא בקרות גישה מתאימות, ממשק ה-API החשוף שלו מאפשר לכל אחד לבצע פקודות דמויות SQL.

הגישה של צוות האבטחה של Wiz כללה סריקה שיטתית של תת-הדומיינים של DeepSeek הפונים לאינטרנט. בתחילה התמקדו ביציאות סטנדרטיות 80 ו-443, הם מצאו משאבי אינטרנט טיפוסיים כמו ממשקי צ’אטבוט ותיעוד API. כדי להרחיב את החיפוש שלהם, הם התרחבו ליציאות פחות נפוצות כמו 8123 ו-9000, ובסופו של דבר חשפו שירותים חשופים במספר תת-דומיינים.

נתוני היומן שנפרצו, החל מה-6 בינואר 2025, הכילו שפע של מידע רגיש: יומני שיחות, יומני טקסט עבור נקודות קצה פנימיות של DeepSeek API, היסטוריות צ’אט מפורטות, מפתחות API, פרטי מערכת אחורית ומטא נתונים תפעוליים.

סיווג אירועים של VERIZON: שגיאות שונות

מיפוי מסגרת MITRE ATT&CK:

T1590.002 (Collect Victim Network Information - Domain Name Resolution): סביר להניח שהתוקפים השתמשו בשם הדומיין הראשי כדי לבצע ספירת תת-דומיינים.
T1046 (Web Service Discovery): התוקפים זיהו יציאות ושירותים פתוחים המשויכים לדומיין היעד.
T1106 (Native Interface): התוקפים מינפו את ה-API של ClickHouse כדי ליצור אינטראקציה עם מסד הנתונים.
T1567 (Data Exfiltration via Web Service): התוקפים השתמשו ב-API של ClickHouse כדי לגנוב נתונים.

תקרית 2: מתקפת שרשרת האספקה של DeepSeek – סוס טרויאני בקוד

ציר זמן: 3 בפברואר 2025

היקף הדליפה: אישורי משתמש ומשתני סביבה.

פתיחת האירועים:

ההתקפה החלה ב-19 בינואר 2025, כאשר משתמש זדוני, שזוהה כ-“bvk”, העלה שתי חבילות Python זדוניות בשם “deepseek” ו-“deepseekai” למאגר PyPI (Python Package Index) הפופולרי.

צוות מודיעין האיומים במרכז האבטחה המומחה של Positive Technologies (PT ESC) זיהה פעילות חשודה זו באותו יום. הניתוח שלהם אישר את האופי הזדוני של החבילות, והם הודיעו מיד למנהלי PyPI.

מנהלי PyPI הסירו במהירות את החבילות הזדוניות והודיעו ל-PT ESC. למרות התגובה המהירה, הסטטיסטיקה חשפה שהתוכנה הזדונית הורדה למעלה מ-200 פעמים ב-17 מדינות דרך ערוצים שונים. החבילות הזדוניות בודדו לאחר מכן.

ניתוח ההתקפה:

החבילות הזדוניות שהועלו על ידי “bvk” התמקדו בשתי מטרות עיקריות: איסוף מידע וגניבת משתני סביבה. הנתונים שנגנבו כללו מידע רגיש כגון אישורי מסד נתונים, מפתחות API ואישורי גישה לאחסון אובייקטים S3. המטען הזדוני הופעל בכל פעם שמשתמש הפעיל את DeepSeek או Deepseekai משורת הפקודה.

התוקף השתמש ב-PipeDream כשרת פיקוד ובקרה כדי לקבל את הנתונים שנגנבו. התקרית מדגישה מספר גורמים תורמים:

מתקפת בלבול תלות (Dependency Confusion Attack): התוקפים ניצלו את ההבדל בעדיפות בין החבילות הפרטיות של ארגון לבין חבילות ציבוריות באותו שם.
התחזות לשם חבילה: החבילות הזדוניות חיקו את שם המותג של DeepSeek, חברת AI ידועה, כדי להטעות משתמשים.
חולשת רישום PyPI: תהליך הרישום של PyPI חסר אימות יעיל של זהות המפתח ולגיטימיות שם החבילה.
מודעות אבטחה למפתחים: ייתכן שמפתחים התקינו בטעות את החבילות הזדוניות בעלות השם הדומה.

סיווג אירועים של VERIZON: הנדסה חברתית

מיפוי מסגרת MITRE ATT&CK:

T1593.003 (Search Open Websites/Domains - Search Publicly Available Dependency Repository): התוקפים חיפשו מידע ב-PyPI.
T1195.002 (Supply Chain Compromise - Compromise Software Supply Chain): התוקפים השתמשו בתוכנה זדונית שהתחזתה לתלות Python והעלו אותה ל-PyPI.
T1059.006 (Command and Scripting Interpreter - Python): התוקפים שתלו קוד זדוני בחבילה, אשר, עם הפעלתו, הדליף נתונים רגישים.
T1041 (Exfiltration Over C2 Channel): התוקפים סיננו מידע רגיש דרך ערוץ PipeDream C2.

תקרית 3: חטיפת LLM – DeepSeek ממוקדת לגניבת משאבים

ציר זמן: 7 בפברואר 2025

היקף הדליפה: כ-2 מיליארד אסימוני מודל שנעשה בהם שימוש בלתי חוקי.

פתיחת האירועים:

צוות מחקר האיומים של Sysdig גילה בתחילה מתקפה חדשה המכוונת ל-LLMs, שזכתה לכינוי “LLM jacking” או “LLM hijacking”, במאי 2024.

עד ספטמבר 2024, Sysdig דיווחה על תדירות ועל שכיחות גוברת של התקפות אלו, כאשר DeepSeek הופכת יותר ויותר למטרה.

ב-26 בדצמבר 2024, DeepSeek פרסמה מודל מתקדם, DeepSeek-V3. זמן קצר לאחר מכן, צוות Sysdig מצא ש-DeepSeek-V3 יושם בפרויקט OpenAI reverse proxy (ORP) המתארח ב-Hugging Face.

ב-20 בינואר 2025, DeepSeek פרסמה מודל הסקה בשם DeepSeek-R1. למחרת הופיע פרויקט ORP התומך ב-DeepSeek-R1, ותוקפים החלו לנצל אותו, ואכלסו מספר ORPs במפתחות DeepSeek API.

המחקר של Sysdig הצביע על כך שהמספר הכולל של אסימוני מודל גדולים שנעשה בהם שימוש בלתי חוקי באמצעות ORPs עלה על 2 מיליארד.

ניתוח ההתקפה:

חטיפת LLM כוללת תוקפים המנצלים אישורי ענן גנובים כדי למקד שירותי LLM המתארחים בענן. התוקפים ממנפים פרוקסי הפוך של OAI (OpenAI) ואישורים גנובים כדי למכור גישה לשירותי LLM המנויים של הקורבן. זה גורם לעלויות שירות ענן משמעותיות עבור הקורבן.

הפרוקסי ההפוך של OAI פועל כנקודת ניהול מרכזית לגישה למספר חשבונות LLM, תוך הסתרת האישורים הבסיסיים ומאגרי המשאבים. תוקפים יכולים להשתמש ב-LLMs יקרים כמו DeepSeek מבלי לשלם עבורם, להפנות בקשות דרך הפרוקסי ההפוך, לצרוך משאבים ולעקוף חיובי שירות לגיטימיים. מנגנון הפרוקסי מסתיר את זהות התוקף, ומאפשר לו לנצל לרעה משאבי ענן מבלי להתגלות.

בעוד שהפרוקסי ההפוך של OAI הוא מרכיב הכרחי לחטיפת LLM, המרכיב המכריע הוא גניבת אישורים ומפתחות עבור שירותי LLM שונים. תוקפים מנצלים לעתים קרובות פגיעויות שירותי אינטרנט מסורתיות ושגיאות תצורה (כמו פגיעות CVE-2021-3129 במסגרת Laravel) כדי לגנוב אישורים אלה. לאחר השגתם, אישורים אלה מעניקים גישה לשירותי LLM מבוססי ענן כמו Amazon Bedrock, Google Cloud Vertex AI ואחרים.

המחקר של Sysdig חשף שתוקפים יכולים לנפח במהירות את עלויות הצריכה של הקורבנות לעשרות אלפי דולרים תוך שעות, ובמקרים מסוימים, עד 100,000 דולר ליום. המוטיבציה של התוקפים חורגת מרכישת נתונים; הם גם מרוויחים ממכירת זכויות גישה.

סיווג אירועים של VERIZON: התקפות בסיסיות על יישומי אינטרנט

מיפוי מסגרת MITRE ATT&CK:

T1593 (Search Open Websites/Domains): תוקפים השתמשו בשיטות OSINT (Open-Source Intelligence) כדי לאסוף מידע על שירותים חשופים.
T1133 (External Remote Services): התוקפים זיהו פגיעויות בשירותים חשופים.
T1586.003 (Compromise Accounts - Cloud Accounts): תוקפים ניצלו פגיעויות כדי לגנוב שירות LLM או אישורי שירות ענן.
T1588.002 (Obtain Capabilities - Tool): התוקפים פרסו כלי פרוקסי הפוך OAI בקוד פתוח.
T1090.002 (Proxy - External Proxy): תוקפים השתמשו בתוכנת פרוקסי הפוך OAI כדי לנהל גישה למספר חשבונות LLM.
T1496 (Resource Hijacking): תוקפים פתחו במתקפת הזרקת LLM כדי לחטוף משאבי LLM.

תקרית 4: פריצת נתונים של OmniGPT – נתוני משתמשים נמכרים ברשת האפלה

ציר זמן: 12 בפברואר 2025

היקף הדליפה: מידע אישי של למעלה מ-30,000 משתמשים, כולל כתובות דוא”ל, מספרי טלפון, מפתחות API, מפתחות הצפנה, אישורים ופרטי חיוב.

פתיחת האירועים:

ב-12 בפברואר 2025, משתמש בשם “SyntheticEmotions” פרסם ב-BreachForums, בטענה שגנב נתונים רגישים מפלטפורמת OmniGPT והציע אותם למכירה. הנתונים שדלפו כללו על פי הדיווחים כתובות דוא”ל, מספרי טלפון, מפתחות API, מפתחות הצפנה, אישורים ופרטי חיוב עבור למעלה מ-30,000 משתמשי OmniGPT, יחד עם למעלה מ-34 מיליון שורות של השיחות שלהם עם צ’אטבוטים. בנוסף, קישורים לקבצים שהועלו לפלטפורמה נפרצו, וחלקם הכילו מידע רגיש כמו שוברים ונתוני חיוב.

ניתוח ההתקפה:

בעוד שווקטור ההתקפה המדויק נותר חסוי, סוג והיקף הנתונים שדלפו מצביעים על מספר אפשרויות: הזרקת SQL, ניצול לרעה של API או התקפות הנדסה חברתית עשויים להעניק לתוקף גישה למסד הנתונים האחורי. ייתכן גם שלפלטפורמת OmniGPT היו תצורות שגויות או פגיעויות שאפשרו לתוקף לעקוף אימות ולגשת ישירות למסד הנתונים המכיל מידע משתמש.

הקובץ “Messages.txt” המעורב בדליפה משנית הכיל מפתחות API, אישורי מסד נתונים ופרטי כרטיסי תשלום, מה שעלול לאפשר חדירה נוספת למערכות אחרות או שיבוש נתונים. מסמכים מסוימים שהועלו על ידי משתמשי הפלטפורמה הכילו סודות עסקיים רגישים ונתוני פרויקטים, מהווים סיכון לפעילות העסקית אם נעשה בהם שימוש לרעה. תקרית זו משמשת תזכורת בולטת לצורך באבטחת נתונים משופרת והגנה על הפרטיות במגזרי הבינה המלאכותית והביג דאטה. על המשתמשים לנקוט משנה זהירות בעת השימוש בפלטפורמות אלו, ועל ארגונים לקבוע מדיניות שימוש קפדנית בנתונים, תוך יישום אמצעים כגון הצפנה, מזעור נתונים ואנונימיזציה עבור נתונים רגישים. אי ביצוע זה עלול להוביל להשלכות משפטיות, מוניטין וכלכליות משמעותיות.

סיווג אירועים של VERIZON: שגיאות שונות

מיפוי מסגרת MITRE ATT&CK:

T1071.001 (Application Layer Protocol - Web Protocols): תוקפים עשויים לגשת למידע משתמש שדלף ולנתונים רגישים דרך ממשק האינטרנט של OmniGPT.
T1071.002 (Application Layer Protocol - Application Programming Interfaces): מפתחות API שדלפו ואישורי מסד נתונים עלולים לאפשר לתוקפים לגשת למערכת דרך ה-API של הפלטפורמה ולבצע פעולות לא מורשות.
T1071.002 (Application Layer Protocol - Service Execution): תוקפים עשויים לנצל לרעה שירותי מערכת או דמונים כדי לבצע פקודות או תוכניות.
T1020.003 (Automated Exfiltration - File Transfer): קישורי קבצים שדלפו וקבצים רגישים שהועלו על ידי משתמשים עשויים להיות מטרות לתוקפים להורדה, תוך השגת נתונים רגישים יותר להתקפות עוקבות.
T1083 (File and Directory Discovery): תוקפים יכלו להשתמש במידע שדלף כדי להשיג מידע עסקי מרכזי נוסף.

תקרית 5: אישורי DeepSeek דלפו ב-Common Crawl – הסכנות של קידוד קשיח

ציר זמן: 28 בפברואר 2025

היקף הדליפה: כ-11,908 מפתחות API, אישורים ואסימוני אימות חוקיים של DeepSeek.

פתיחת האירועים:

צוות האבטחה של Truffle השתמש בכלי הקוד הפתוח TruffleHog כדי לסרוק 400 TB של נתונים מדצמבר 2024 ב-Common Crawl, מסד נתונים של סורקים המקיף 2.67 מיליארד דפי אינטרנט מ-47.5 מיליון מארחים. הסריקה חשפה ממצא מזעזע: כ-11,908 מפתחות API, אישורים ואסימוני אימות חוקיים של DeepSeek קודדו ישירות בדפי אינטרנט רבים.

המחקר גם הדגיש את הדליפה של מפתחות Mailchimp API, כאשר כ-1,500 מפתחות נמצאו מקודדים קשיח בקוד JavaScript. מפתחות Mailchimp API מנוצלים לעתים קרובות להתקפות דיוג וגניבת נתונים.

ניתוח ההתקפה:

Common Crawl, מסד נתונים של סורק אינטרנט ללא מטרות רווח, לוכד ומפרסם באופן קבוע נתונים מדפי אינטרנט. הוא מאחסן נתונים אלה בקובצי WARC (Web ARChive), תוך שמירה על HTML המקורי, קוד JavaScript ותגובות שרת. מערכי נתונים אלה משמשים לעתים קרובות לאימון מודלי AI. המחקר של Truffle חושף בעיה קריטית: אימון מודלים על קורפוסים המכילים פגיעויות אבטחה עלול להוביל לכך שמודלים יירשו פגיעויות אלו. גם אם LLMs כמו DeepSeek משתמשים באמצעי אבטחה נוספים במהלך האימון והפריסה, הנוכחות הנרחבת של פגיעויות מקודדות קשיח בנתוני האימון עלולה לנרמל פרקטיקות “לא בטוחות” כאלה עבור המודלים.

קידוד קשיח, נוהג קידוד נפוץ אך לא מאובטח, הוא בעיה נפוצה. בעוד שסיבת השורש פשוטה, הסיכונים חמורים: פריצות נתונים, הפרעות בשירות, התקפות שרשרת אספקה, ועם עליית ה-LLMs, איום חדש – חטיפת LLM. כפי שנדון קודם לכן, חטיפת LLM כוללת תוקפים המשתמשים באישורים גנובים כדי לנצל שירותי LLM המתארחים בענן, וכתוצאה מכך הפסדים כספיים משמעותיים לקורבנות.

סיווג אירועים של VERIZON: שגיאות שונות

מיפוי מסגרת MITRE ATT&CK:

T1596.005 (Search Open Technical Database - Scan Databases): התוקפים אספו מידע ממסד הנתונים הציבורי של הסורק.
T1588.002 (Obtain Capabilities - Tool): התוקפים פרסו כלי לגילוי מידע רגיש.
T1586.003 (Compromise Accounts - Cloud Accounts): תוקפים השתמשו בכלים לגילוי מידע רגיש כדי למצוא אישורים רגישים במסדי נתונים ציבוריים.
T1090.002 (Proxy - External Proxy): תוקפים השתמשו בתוכנת פרוקסי הפוך OAI כדי לנהל גישה למספר חשבונות LLM.
T1496 (Resource Hijacking): תוקפים פתחו במתקפת הזרקת LLM כדי לחטוף משאבי LLM.

מניעת דליפת נתונים של LLM: גישה רב-גונית

התקריות שנותחו מדגישות את הצורך הדחוף באמצעי אבטחה חזקים כדי להגן מפני פריצות נתונים הקשורות ל-LLM. להלן פירוט של אסטרטגיות מניעה, המסווגות לפי התקריות הרלוונטיות:

חיזוק שרשרת האספקה:

ישים לתקרית II (מתקפת חבילת תלות זדונית) ותקרית V (פריצת נתונים ציבורית):

אימות מהימן של חבילות תלות:
- השתמש בכלים כמו PyPI/Sonatype Nexus Firewall כדי ליירט חבילות תלות לא חתומות או ממקור חשוד.
- אסור להביא ישירות תלויות ממאגרים ציבוריים בסביבות פיתוח. חייב להשתמש בפרוקסי של מאגר פרטי ארגוני (למשל, Artifactory).
ניטור איומי שרשרת אספקה:
- שלב כלים כמו Dependabot/Snyk כדי לסרוק אוטומטית פגיעויות תלות ולחסום הכנסת רכיבים בסיכון גבוה.
- אמת את חתימת הקוד של חבילות קוד פתוח כדי להבטיח שערך ה-hash תואם לערך הרשמי.
ניקוי מקורות נתונים:
- במהלך איסוף נתוני אימון, סנן מידע רגיש ממערכי נתונים ציבוריים (כמו Common Crawl) באמצעות ביטויים רגולריים וכליעריכה מבוססי AI לאימות כפול.

יישום הרשאה מינימלית ובקרת גישה:

ישים לתקרית I (שגיאת תצורת מסד נתונים) ותקרית IV (פריצת נתונים של כלי צד שלישי):

הפעל אימות TLS דו-כיווני כברירת מחדל עבור מסדי נתונים (כמו ClickHouse) ומנע חשיפה של יציאות ניהול ברשתות ציבוריות.
השתמש בפתרונות כמו Vault/Boundary כדי להפיץ באופן דינמי אישורים זמניים, תוך הימנעות משמירת מפתח סטטי לטווח ארוך.
דבק בעקרון ההרשאה המינימלית, הגבלת גישת משתמשים למשאבים הכרחיים בלבד באמצעות RBAC (Role-Based Access Control).
הטמע רשימת היתרים של IP והגבלת קצב עבור קריאות API לכלי צד שלישי (כמו OmniGPT).

הבטחת הגנה על מחזור החיים המלא של נתונים רגישים:

ישים לתקרית III (חטיפת LLM):

עריכה והצפנה של נתונים: אכוף הצפנה ברמת שדה (למשל, AES-GCM) עבור נתוני קלט ופלט של משתמשים. הסתר שדות רגישים ביומנים.
הפעל עריכה בזמן אמת עבור התוכן האינטראקטיבי של LLMs (למשל, החלפת מספרי כרטיסי אשראי ומספרי טלפון במחזיקי מקום).

אמצעי מניעה אלה, בשילוב עם ניטור אבטחה רציף ותכנון תגובה לאירועים, חיוניים להפחתת הסיכונים הקשורים לשימוש הגובר ב-LLMs. “שדה הקרב הבלתי נראה” של אבטחת LLM דורש ערנות מתמדת וגישה פרואקטיבית כדי להגן על נתונים רגישים בנוף טכנולוגי זה המתפתח במהירות.

עודכן ב- 2025-03-11

# LLM # AIGC # DeepSeek