Светът на изкуствения интелект (Artificial Intelligence - AI) не е чужд на противоречията и последните развития включват китайската AI лаборатория DeepSeek. Наскоро DeepSeek представи актуализирана версия на своя R1 модел за разсъждения, демонстрирайки впечатляващи способности при решаването на математически и кодиращи задачи. Източникът на данните, използвани за обучението на този модел, обаче предизвика значителни дебати сред AI изследователите, като някои спекулират, че той може да е произлязъл, поне отчасти, от семейството AI модели Gemini на Google. Това подозрение повдига значителни въпроси относно етичните практики, източниците на данни и конкурентната среда в рамките на AI индустрията.
Представените доказателства
Противоречието започна, когато Сам Паеч (Sam Paech), програмист от Мелбърн, специализиран в създаването на оценки за “емоционална интелигентност” за AI системи, представи това, което той твърди, че са доказателства, че последният модел на DeepSeek е бил обучен с резултати, генерирани от Gemini. Според Паеч, моделът на DeepSeek, идентифициран като R1-0528, проявява предпочитание към специфични думи и изрази, които са забележително сходни с тези, предпочитани от Gemini 2.5 Pro на Google. Макар че това наблюдение само по себе си може да не е окончателно, то повдига червен флаг и налага по-нататъшно разследване.
Засилвайки интригата, друг програмист, работещ под псевдонима SpeechMap и известен със създаването на “eval за свобода на словото” за AI, посочи, че следите на модела на DeepSeek - “мислите”, които генерира, докато работи за постигане на заключение - “изглеждат като Gemini следи”. Това сближаване на езикови модели и мисловни процеси допълнително подхранва подозрението, че DeepSeek може да е използвал резултатите на Gemini по време на процеса на обучение.
Минали обвинения срещу DeepSeek
Това не е първият път, когато DeepSeek се изправя пред обвинения, че е обучил своите AI модели с данни от конкурентни AI системи. Още през декември програмистите забелязаха, че V3 моделът на DeepSeek често се идентифицира като ChatGPT, AI платформата за чатботове на OpenAI. Това странно поведение предполага, че моделът може да е бил обучен с чат логове на ChatGPT, което повдига опасения относно етичните последици от подобна практика.
По-рано тази година OpenAI информира Financial Times, че е открила доказателства, свързващи DeepSeek с използването на дестилация, техника, която включва обучение на AI модели чрез извличане на данни от по-големи, по-способни модели. Освен това, Microsoft, ключов сътрудник и инвеститор в OpenAI, откри значително количество данни, които са били извлечени чрез разработчикови акаунти на OpenAI в края на 2024 г. OpenAI вярва, че тези акаунти са свързани с DeepSeek, което допълнително затвърждава подозрението за неразрешено извличане на данни.
Макар че дестилацията не е по същество неетична, условията за ползване на OpenAI изрично забраняват на клиентите да използват резултатите от моделите на компанията за изграждане на конкурентни AI системи. Тази рестрикция има за цел да защити интелектуалната собственост на OpenAI и да поддържа честна конкурентна среда в рамките на AI индустрията. Ако DeepSeek действително е използвал дестилация, за да обучи своя R1 модел с резултатите на Gemini, това би представлявало нарушение на условията за ползване на OpenAI и би повдигнало сериозни етични въпроси.
Предизвикателствата на замърсяването на данните
Важно е да се признае, че много AI модели проявяват тенденция да се идентифицират погрешно и да се сближават в сходни думи и фрази. Това явление може да се отдаде на нарастващото присъствие на генерирано от AI съдържание в отворения уеб, който служи като основен източник на данни за обучение за AI компаниите. Content farms използват AI за създаване на статии за привличане на кликове, а ботове наводняват платформи като Reddit и X с генерирани от AI публикации.
Това “замърсяване” на уеб пространството с генерирано от AI съдържание представлява значително предизвикателство за AI компаниите, което прави изключително трудно задълбоченото филтриране на AI резултатите от наборите от данни за обучение. В резултат на това AI моделите могат неволно да се учат един от друг, което води до наблюдаваните сходства в езика и мисловните процеси.
Експертни мнения и перспективи
Въпреки предизвикателствата на замърсяването на данните, AI експерти като Нейтън Ламбърт (Nathan Lambert), изследовател в неправителствения AI изследователски институт AI2, вярват, че не е неправдоподобно DeepSeek да е обучил модел с данни от Gemini на Google. Ламбърт предполага, че DeepSeek, изправена пред недостиг на GPU, но притежаваща достатъчно финансови ресурси, може да е избрала да генерира синтетични данни от най-добрия наличен API модел. Според него този подход може да бъде по-изчислително ефективен за DeepSeek.
Перспективата на Ламбърт подчертава практическите съображения, които могат да подтикнат AI компаниите да проучат алтернативни стратегии за получаване на данни. Макар че използването на синтетични данни може да бъде легитимна и ефективна техника, от решаващо значение е да се гарантира, че данните са генерирани етично и не нарушават никакви условия за ползване или етични насоки.
Мерки за сигурност и превантивни усилия
В отговор на опасенията около дестилацията и замърсяването на данните, AI компаниите засилват своите мерки за сигурност. OpenAI, например, е внедрила изискване организациите да завършат процес на проверка на самоличността, за да получат достъп до определени разширени модели. Този процес изисква издаден от правителството документ за самоличност от една от държавите, поддържани от API на OpenAI, като Китай е изключен от списъка.
Google също е предприела стъпки за смекчаване на риска от дестилация чрез “резюмиране” на следите, генерирани от модели, достъпни чрез нейната платформа за разработчици AI Studio. Този процес на резюмиране прави по-трудно обучението на модели на конкуренти с висока производителност върху Gemini следи. По същия начин Anthropic обяви през май, че ще започне да резюмира следите на собствения си модел, позовавайки се на необходимостта да защитава своите “конкурентни предимства”.
Тези мерки за сигурност представляват съгласувани усилия от страна на AI компаниите за защита на тяхната интелектуална собственост и предотвратяване на неразрешено извличане на данни. Чрез прилагане на по-строг контрол на достъпа и замъгляване на следите на моделите, те се стремят да възпрат неетични практики и да поддържат равни начала в рамките на AI индустрията.
Отговорът на Google
Когато бяха потърсени за коментар, Google все още не са отговорили на обвиненията. Това мълчание оставя място за спекулации и допълнително засилва противоречието. Докато AI общността очаква официално изявление от Google, въпросите около практиките на DeepSeek за снабдяване с данни продължават да витаят.
Последиците за AI индустрията
Противоречието с DeepSeek повдига основни въпроси относно етичните граници на AI развитието и важността на отговорното снабдяване с данни. Тъй като AI моделите стават все по-усъвършенствани и способни, изкушението да се заобиколят правилата и да се използват неразрешени данни може да стане по-силно. Подобни практики обаче могат да имат пагубни последици, подкопавайки целостта на AI индустрията и подкопавайки общественото доверие.
За да се гарантира дългосрочната устойчивост и етичното развитие на AI, е наложително AI компаниите да се придържат към строги етични насоки и да дават приоритет на отговорните практики за снабдяване с данни. Това включва получаване на изрично съгласие от доставчиците на данни, зачитане на правата на интелектуална собственост и избягване на използването на неразрешени или пристрастни данни.
Освен това е необходима по-голяма прозрачност и отчетност в рамките на AI индустрията. AI компаниите трябва да бъдат по-откровени относно своите практики за снабдяване с данни и методите, използвани за обучение на техните модели. Тази повишена прозрачност ще помогне за насърчаване на доверието и увереността в AI системите и ще насърчи по-етична и отговорна AI екосистема.
Противоречието с DeepSeek служи като навременно напомняне за предизвикателствата и етичните съображения, които трябва да бъдат разгледани, докато AI технологията продължава да напредва. Чрез спазване на етичните принципи, насърчаване на прозрачността и насърчаване на сътрудничеството, AI общността може да гарантира, че AI се използва в полза на обществото, а не за сметка на етичните ценности.
Дълбоко гмуркане в техническите аспекти
За да разберем по-добре нюансите на този въпрос, е от решаващо значение да се задълбочим в техническите аспекти на това как се обучават AI моделите и специфичните техники, за които става въпрос, а именно дестилацията и генерирането на синтетични данни.
Дестилация: Клониране на интелигентност?
Дестилацията, в контекста на AI, се отнася до техника за компресиране на модели, при която по-малък, по-ефективен “студентски” модел се обучава да имитира поведението на по-голям, по-сложен “учителски” модел. Студентският модел се учи, като наблюдава резултатите на учителския модел, като ефективно извлича знания и ги прехвърля към по-малка архитектура. Макар че дестилацията може да бъде полезна за разгръщане на AI модели на устройства с ограничени ресурси, тя повдига етични опасения, когато данните или архитектурата на учителския модел са собственост.
Ако DeepSeek е използвал резултатите на Gemini, за да обучи своя R1 модел чрез дестилация без разрешение, това би било подобно на клониране на интелигентността на Gemini и потенциално нарушение на правата на интелектуална собственост на Google. Ключовото тук е неразрешеното използване на резултатите на Gemini, които са защитени от авторско право и други правни механизми.
Генериране на синтетични данни: Нож с две остриета
Генерирането на синтетични данни включва създаване на изкуствени точки от данни, които наподобяват данни от реалния свят. Тази техника често се използва за увеличаване на наборите от данни за обучение, особено когато реалните данни са оскъдни или скъпи за получаване. Качеството и етичните последици от синтетичните данни обаче зависят до голяма степен от това как са генерирани.
Ако DeepSeek е използвал API на Gemini, за да генерира синтетични данни, въпросът става: доколко отблизо тези данни наподобяват действителните резултати на Gemini и нарушават ли те интелектуалната собственост на Google? Ако синтетичните данни са просто вдъхновени от Gemini, но не копират директно неговите резултати, може да се счита за честно използване. Ако обаче синтетичните данни практически не се различават от резултатите на Gemini, това може да повдигне подобни опасения като дестилацията.
Последици от прекаленото приспособяване на модела
Друго свързано безпокойство е прекаленото приспособяване на модела (model overfitting). Прекаленото приспособяване възниква, когато даден модел научи данните за обучение твърде добре, до степен, че се представя лошо на нови, непознати данни. Ако DeepSeek е обучил своя R1 модел прекомерно с резултатите на Gemini, това може да е довело до прекалено приспособяване, където моделът по същество запомня отговорите на Gemini, вместо да обобщава нови ситуации.
Този вид прекалено приспособяване не само би ограничило приложимостта на R1 модела, но и би улеснило откриването на зависимостта му от данните на Gemini. “Следите”, които SpeechMap отбеляза, могат да бъдат доказателство за това прекалено приспособяване, където R1 моделът по същество преповтаря модели, научени от резултатите на Gemini.
Етични съображения и най-добри практики в индустрията
Отвъд техническите аспекти, този спор подчертава необходимостта от ясни етични насоки и най-добри практики в индустрията за AI развитие. Някои ключови принципи включват:
- Прозрачност: AI компаниите трябва да бъдат прозрачни относно своите източници на данни и методологии за обучение. Това позволява независим одит и проверка.
- Съгласие: AI компаниите трябва да получат изрично съгласие от доставчиците на данни, преди да използват техните данни за обучение. Това включва зачитане на правата на интелектуална собственост и избягване на неразрешено извличане на данни.
- Справедливост: AI моделите трябва да бъдат справедливи и безпристрастни. Това изисква внимателно внимание към разнообразието на данните и смекчаване на алгоритмичните отклонения.
- Отчетност: AI компаниите трябва да бъдат отговорни за действията на своите AI модели. Това включва установяване на ясни рамки за отговорност и справяне с вредите, причинени от AI системите.
- Сигурност: AI компаниите трябва да дадат приоритет на сигурността на своите AI модели и данни. Това включва защита срещу неразрешен достъп и предотвратяване на пробиви в данните.
Ролята на регулирането
В допълнение към етичните насоки и най-добрите практики в индустрията може да е необходимо регулиране, за да се справят с предизвикателствата, породени от AI развитието. Някои потенциални регулаторни мерки включват:
- Закони за защита на данните: Закони, които защитават данните на физическите лица и ограничават използването на лична информация за AI обучение.
- Закони за интелектуална собственост: Закони, които защитават AI модели и данни от неразрешено копиране и разпространение.
- Закони за конкуренцията: Закони, които предотвратяват антиконкурентно поведение в AI индустрията, като натрупване на данни и нечестен достъп до ресурси.
- Правила за безопасност: Регламенти, които гарантират безопасността и надеждността на AI системите, използвани в критични приложения.
Чрез комбиниране на етични насоки, най-добри практики в индустрията и подходящо регулиране можем да създадем по-отговорна и устойчива AI екосистема, която е от полза за обществото като цяло. Противоречието с DeepSeek служи като сигнал за събуждане, призоваващ ни да се справим с тези предизвикателства проактивно и да гарантираме, че AI се развива по начин, който е в съответствие с нашите ценности и принципи.