Неотдавна се появиха спекулации, че DeepSeek, китайска AI лаборатория, може да е използвала данни от AI модела Gemini на Google, за да обучи последната си версия, AI модела R1, способен на разсъждения. Този модел демонстрира силна производителност в математически и кодинг бенчмаркове. Въпреки че DeepSeek запазва мълчание относно източниците на данни, използвани за обучение на R1, няколко AI изследователи предположиха, че Gemini, или поне части от Gemini, е изиграл роля.
Доказателства и обвинения
Сам Паеч, разработчик, базиран в Мелбърн, който е специализиран в създаването на оценки за “емоционална интелигентност” за AI, представи това, което той вярва, че е доказателство, че моделът DeepSeek е обучен с помощта на резултати, генерирани от Gemini. Паеч отбеляза в публикация в X (бивш Twitter), че моделът на DeepSeek, по-специално версията R1-0528, проявява предпочитание към език и изрази, подобни на тези, предпочитани от Gemini 2.5 Pro на Google.
Освен това, друг разработчик, опериращ под псевдонима на създателя на SpeechMap, “оценка за свобода на словото” за AI, е забелязал, че “мислите”, генерирани от модела DeepSeek, докато работи за постигане на заключения, много наподобяват следи от Gemini. Това наблюдение добавя още един слой интрига към твърденията.
Това не е първият път, когато DeepSeek е изправен пред твърдения за използване на данни от конкурентни AI модели. Още през декември разработчиците забелязаха, че моделът V3 на DeepSeek често се идентифицира като ChatGPT, популярната платформа за чатботове на OpenAI. Това предполага, че моделът е бил обучен на чат логове на ChatGPT, което поражда опасения относно практиките за използване на данни.
По-дълбоки обвинения: Дестилация и екстракция на данни
По-рано тази година OpenAI сподели пред Financial Times, че са открили доказателства, свързващи DeepSeek с използването на техника, наречена дестилация. Дестилацията включва обучение на AI модели чрез извличане на данни от по-големи, по-усъвършенствани модели. Bloomberg съобщи, че Microsoft, ключов сътрудник и инвеститор в OpenAI, е засякъл значителна екстракция на данни чрез акаунти на разработчици на OpenAI в края на 2024 г. OpenAI вярва, че тези акаунти са свързани с DeepSeek.
Дестилацията, макар и не непременно неетична, става проблематична, когато нарушава условията за ползване. Условията на OpenAI изрично забраняват на клиентите да използват резултатите от модела на компанията за разработване на конкурентни AI системи. Това повдига сериозни въпроси относно придържането на DeepSeek към тези условия.
Мътните води на данните за обучение на AI
Важно е да признаем, че AI моделите често се идентифицират погрешно и се фокусират върху подобни думи и фрази. Това се дължи на естеството на отворения уеб, който служи като основен източник на данни за обучение за много AI компании. Уебът все повече е наситен със съдържание, генерирано от AI. Ферми за съдържание използват AI, за да произвеждат кликбейт, а ботове заливат платформи като Reddit и X с публикации, генерирани от AI.
Това “замърсяване” прави невероятно трудно ефективно да се филтрират AI резултатите от наборите от данни за обучение, което допълнително усложнява въпроса дали DeepSeek умишлено е използвал данни от Gemini.
Експертни мнения иперспективи
Въпреки предизвикателствата при окончателното доказване на твърденията, някои AI експерти смятат, че е правдоподобно DeepSeek да е обучен на данни от Gemini на Google. Нейтън Ламбърт, изследовател в неправителствения AI изследователски институт AI2, заяви в X: “Ако бях DeepSeek, определено бих създал тон синтетични данни от най-добрия API модел на пазара. [DeepSeek] има недостиг на GPU и много пари. Буквално е ефективно повече изчислителна мощ за тях.”
Перспективата на Ламбърт подчертава потенциалните икономически стимули за DeepSeek да използва съществуващи AI модели, за да подобри собствените си възможности, особено предвид ограниченията на ресурсите.
Мерки за сигурност и контрамерки
AI компаниите засилиха мерките за сигурност, отчасти за да предотвратят практики като дестилацията. През април OpenAI започна да изисква от организациите да завършат процес на проверка на самоличността, за да получат достъп до определени усъвършенствани модели. Този процес включва подаване на лична карта, издадена от правителството, от държава, поддържана от API на OpenAI. Китай отсъства значително от този списък.
В друг ход, Google наскоро започна да “обобщава” следите, генерирани от модели, налични чрез своята платформа за разработчици AI Studio. Това действие затруднява обучението на съперничещи си модели ефективно върху следи от Gemini. По същия начин Anthropic обяви през май, че ще започне да обобщава следите на собствения си модел, позовавайки се на необходимостта да защити своите “конкурентни предимства”. Тези мерки показват нарастваща осведоменост за потенциала за злоупотреба с резултатите от AI модела и проактивно усилие за смекчаване на подобни рискове.
Последици
Обвиненията срещу DeepSeek повдигат значителни въпроси относно етиката и законността на практиките за обучение на AI. Ако DeepSeek наистина е използвал данни от Gemini, за да обучи своя модел R1, той може да се изправи пред правни последици и репутационни щети. Тази ситуация също така подчертава необходимостта от по-голяма прозрачност и регулация в AI индустрията, особено по отношение на източниците на данни и използването им.
Обвиненията срещу DeepSeek подчертават критична дилема: как да се балансира желанието за иновации и напредък в AI с необходимостта да се защити интелектуалната собственост и да се осигури честна конкуренция. AI индустрията се развива бързо и ясни насоки и етични рамки са от съществено значение за навигиране в сложния правен и етичен пейзаж. Компаниите трябва да бъдат прозрачни относно източниците си на данни и да се придържат към споразуменията за условията за ползване, за да поддържат доверие и да избегнат потенциални правни задължения.
Освен това, проблемът със замърсяването на наборите от данни за обучение със съдържание, генерирано от AI, представлява голямо предизвикателство за цялата AI общност. Тъй като AI моделите стават по-умели в генерирането на убедителен текст, изображения и други форми на съдържание, става все по-трудно да се прави разлика между генерирани от човек и генерирани от AI данни. Това “замърсяване” може да доведе до хомогенизация на AI моделите, където всички те започват да показват подобни пристрастия и ограничения.
За да се справи с това предизвикателство, AI компаниите трябва да инвестират в по-усъвършенствани техники за филтриране на данни и да проучат алтернативни източници на данни за обучение. Те също трябва да бъдат по-прозрачни относно състава на своите набори от данни за обучение и методите, използвани за филтриране на съдържание, генерирано от AI.
Навигиране в бъдещето на AI обучението
Противоречията около DeepSeek подчертават спешната необходимост от по-нюансирана дискусия за бъдещето на AI обучението. Тъй като AI моделите стават по-мощни и данните стават по-оскъдни, компаниите може да бъдат изкушени да заобиколят правилата и да се ангажират с неетични или незаконни практики. Въпреки това, подобни практики в крайна сметка подкопават дългосрочната устойчивост и надеждност на AI индустрията.
Необходими са съвместни усилия, включващи изследователи, политици и лидери в индустрията, за да се разработят етични насоки и правни рамки, които насърчават отговорното AI развитие. Тези насоки трябва да разглеждат въпроси като източниците на данни, прозрачността и отговорността. Те също трябва да стимулират компаниите да инвестират в етични и устойчиви практики за обучение на AI.
Основни съображения за бъдещето на AI обучението:
- Прозрачност: Компаниите трябва да бъдат прозрачни относно източниците на данни, използвани за обучение на техните AI модели, и методите, използвани за филтриране на съдържание, генерирано от AI.
- Етика: AI развитието трябва да се придържа към етични принципи, които насърчават справедливост, отговорност и уважение към интелектуалната собственост.
- Регулация: Политиците трябва да създадат ясни правни рамки, които да отчитат уникалните предизвикателства, породени от AI обучението.
- Сътрудничество: Изследователи, политици и лидери в индустрията трябва да си сътрудничат, за да разработят етични насоки и най-добри практики за AI развитие.
- Разнообразие на данните: AI обучението трябва да дава приоритет на разнообразието на данните, за да намали пристрастията и да подобри общата производителност на AI моделите.
- Устойчивост: AI обучението трябва да се провежда по устойчив начин, минимизирайки въздействието му върху околната среда.
- Сигурност: Мерките за сигурност трябва да защитават AI моделите и данните за обучение от неоторизиран достъп и употреба.
Чрез разглеждане на тези ключови съображения, AI индустрията може да гарантира, че AI развитието се провежда по отговорен и етичен начин, насърчавайки иновациите, като същевременно смекчава потенциалните рискове.
Пътят напред
Обвиненията срещу DeepSeek служат като сигнал за събуждане за AI общността. Те подчертават решаващата необходимост от по-голяма прозрачност, етично поведение и стабилни предпазни мерки в AI развитието. Тъй като AI продължава да прониква в различни аспекти от нашия живот, е наложително да установим ясни граници и етични насоки, за да осигурим отговорното и полезно използване на AI.
Случаят DeepSeek, независимо от крайния си изход, несъмнено ще оформи текущия дискурс около AI етиката и ще повлияе на бъдещата траектория на AI развитието. Той служи като напомняне, че стремежът към иновации трябва да бъде смекчен с ангажимент към етичните принципи и признаване на потенциалните последици от нашите действия. Бъдещето на AI зависи от способността ни да навигираме в тези сложни предизвикателства с мъдрост и далновидност.