DeepSeek и Gemini: Спор за AI данни

Светът на изкуствения интелект (AI) е развълнуван от спекулации след неотдавнашното пускане на подобрена версия на R1 модела за разсъждения на DeepSeek. Тази китайска лаборатория за AI представи модел, който демонстрира впечатляващи възможности в математически и кодови тестове. Произходът на данните, използвани за обучението на този модел, обаче се превърна във фокусна точка на дискусии, като някои AI изследователи предполагат възможна връзка с AI семейството Gemini на Google.

R1 Моделът на DeepSeek: По-отблизо

R1 моделът за разсъждения на DeepSeek привлече вниманието заради представянето си в области като решаване на математически проблеми и задачи за програмиране. Нежеланието на компанията да разкрие конкретните източници на данни, използвани при обучението на модела, подхрани спекулации в рамките на AI изследователската общност.

Твърдения за влияние на Gemini

Същността на дебата се върти около възможността DeepSeek да е използвала резултати от Gemini на Google, за да подобри своя модел. Сам Паеч, AI разработчик, специализиран в оценки на "емоционална интелигентност", представи доказателства, които предполагат, че R1-0528 моделът на DeepSeek проявява предпочитания към език и изрази, подобни на тези, предпочитани от Gemini 2.5 Pro на Google. Въпреки че само това наблюдение не представлява окончателно доказателство, то допринесе за текущата дискусия.

Като добавка към дискусията, анонимният създател на "SpeechMap", инструмент за AI оценка, фокусиран върху свободата на словото, отбеляза, че "мислите", генерирани от модела DeepSeek – вътрешните процеси на разсъждения, които той използва, за да стигне до заключения – имат прилика с моделите на Gemini. Това допълнително засилва въпроса дали DeepSeek е използвала данни от AI семейството Gemini на Google.

Предишни обвинения и опасения на OpenAI

Това не е първият път, когато DeepSeek се сблъсква с обвинения в използване на данни от конкурентни AI модели. През декември беше отбелязано, че V3 моделът на DeepSeek често се идентифицира като ChatGPT, широко използваният AI чатбот на OpenAI. Това доведе до подозрения, че моделът може да е бил обучен върху чат логове на ChatGPT.

Като добавка към интригата, OpenAI съобщи, че по-рано тази година е открила доказателства, свързващи DeepSeek с използването на дестилация, техника, която включва извличане на данни от по-големи, по-мощни AI модели, за да се обучат по-малки. Според докладите, Microsoft, ключов сътрудник и инвеститор в OpenAI, е открила значителна екскреция на данни чрез разработчиците акаунти на OpenAI в края на 2024 г. OpenAI смята, че тези акаунти са свързани с DeepSeek.

Въпреки че дестилацията е често срещана практика в света на AI, условията за ползване на OpenAI изрично забраняват на потребителите да използват резултатите от модела на компанията за създаване на конкурентни AI системи. Това поражда опасения относно потенциални нарушения на политиките на OpenAI.

Предизвикателството на AI "Замърсяването"

Важно е да се има предвид, че AI моделите, по време на обучение, могат да се сближат върху подобен речник и фразировка. Това е главно защото отворената мрежа, основният източник на данни за обучение за AI компаниите, е все повече наситена с AI-генерирано съдържание. Съдържателните ферми използват AI за производство на статии за привличане на кликвания, а ботовете заливат платформи като Reddit и X с AI-генерирани публикации.

Това "замърсяване" на пейзажа от данни затруднява ефективното филтриране на AI-генерирано съдържание от наборите от данни за обучение. В резултат на това може да бъде трудно да се разбере дали резултатът на модела е действително получен от данните на друг модел или просто отразява вездесъщото присъствие на AI-генерирано съдържание в мрежата.

Експертни перспективи по въпроса

Въпреки предизвикателствата при окончателното доказване на връзката, AI експерти като Нейтън Ламбърт, изследовател в AI изследователския институт AI2, смятат, че възможността DeepSeek да се обучава върху данни от Gemini на Google е правдоподобна. Ламбърт предполага, че DeepSeek, изправена пред ограничения в наличието на GPU, но притежаваща достатъчно финансови ресурси, може да сметне за по-ефективно да използва синтетични данни, генерирани от най-добрия наличен API модел.

AI Компании Увеличават Мерките за Сигурност

Опасенията относно дестилацията и неразрешеното използване на данни карат AI компаниите да засилят мерките си за сигурност. OpenAI, например, сега изисква организациите да завършат процес на проверка на самоличността, за да имат достъп до определени разширени модели. Този процес изисква издаден от правителството документ за самоличност от държава, поддържана от API на OpenAI, с изключение на Китай.

Google също предприе стъпки за смекчаване на потенциала за дестилация. Наскоро те започнаха да "обобщават" следите, генерирани от модели, достъпни чрез разработчиковата платформа AI Studio. Това затруднява обучението на конкурентни модели чрез извличане на подробна информация от следите на Gemini. По същия начин, Anthropic обяви планове за обобщаване на следите на собствения си модел, като посочи необходимостта да се защитят "конкурентните предимства".

Последиците за AI Пейзажа

Противоречието около DeepSeek и потенциалното използване на данни от Gemini на Google подчертава няколко важни въпроса в AI пейзажа:

  • Етика на данните и отговорно AI развитие: Тъй като AI моделите стават все по-усъвършенствани, етичните съображения, свързани с извличането и използването на данни, стават от първостепенно значение. AI компаниите трябва да гарантират, че спазват етичните насоки и уважават правата на интелектуална собственост на другите.
  • Въздействието на AI-генерирано съдържание: Разпространението на AI-генерирано съдържание в мрежата представлява предизвикателство за AI обучението. Тъй като данните стават все повече "замърсени", става по-трудно да се гарантира качеството и целостта на AI моделите.
  • Необходимостта от прозрачност и отчетност: AI компаниите трябва да бъдат прозрачни относно източниците си на данни и методите на обучение. Това ще помогне да се изгради доверие и да се гарантира, че AI се разработва и използва отговорно.
  • Важността на стабилни мерки за сигурност: Тъй като AI индустрията става все по-конкурентна, AI компаниите трябва да въведат стабилни мерки за сигурност, за да предотвратят неоторизиран достъп до техните данни и модели.

Бъдещето на AI Развитието

Противоречието DeepSeek служи като напомняне за сложните етични и технически предизвикателства, пред които е изправена AI индустрията. Тъй като AI продължава да се развива, от решаващо значение е AI компаниите, изследователите и политиците да работят заедно, за да гарантират, че AI се разработва и използва по начин, който е от полза за обществото. Това включва насърчаване на прозрачността, отчетността и етични практики за данни.

Продължаващият дебат: Обвиненията срещу DeepSeek подчертават нарастващите опасения относно поверителността на данните, сигурността и етичното развитие на AI. Липсата на прозрачност в извличането на данни и все по-размитите линии между законното събиране на данни и неоторизираното извличане на данни изискват ясни разпоредби и отговорни практики в рамките на AI общността. С напредването на технологията индустрията трябва да се справи с въпроси като правата на интелектуална собственост, риска от "AI замърсяване" и потенциала за непредвидени последици.

Етиката на данните за обучение на AI: Противоречието около DeepSeek също подчертава етичните съображения, които влизат в сила при натрупването на данни за обучение на AI модели. С нарастващата зависимост от огромни набори от данни, извлечени от интернет, въпроси като кой притежава данните, как се получава съгласие (или се пренебрегва) и дали данните се използват честно и отговорно, стават все по-спешни. AI общността трябва да установи ясни насоки за извличане на данни, които да зачитат законите за авторското право, да защитават личната информация и да смекчават пристрастията.

Надпреварата за AI Доминиране: Обвиненията срещу DeepSeek могат също да бъдат интерпретирани като отражение на интензивната надпревара за AI доминиране между Съединените щати и Китай. И двете страни изливат милиарди долари в AI изследвания и развитие, а натискът за постигане на пробиви подхранва конкуренцията и потенциално намалява ъглите. Ако DeepSeek наистина използва данни на OpenAI или Google без разрешение, това може да се тълкува като пример за агресивната тактика и кражбата на интелектуална собственост, които отдавна измъчват технологичните отношения между САЩ и Китай.

По-широките последици за AI екосистемата: Въпреки че фокусът в момента е върху DeepSeek, този случай може да има по-широки последици за цялата AI екосистема. Ако се докаже, че DeepSeek е използвала незаконно данни от ChatGPT или Gemini, това може да накара други компании стриктно да одитират собствените си данни за извличане, което потенциално да забави темпа на развитие и да увеличи разходите. Също така може да доведе до по-строги разпоредби относно събирането и използването на данни, не само в САЩ и Китай, но и в световен мащаб.

Въздействието на синтетично генерираните данни: Появата на синтетични данни, предложена от Ламбърт, като осъществима алтернатива на обучението на модели, повдига основни въпроси относно бъдещето на AI развитието. Въпреки че синтетичните набори от данни заобикалят някои от етичните и авторските опасения, свързани с реалните данни, ефективността и стабилността на моделите, обучени върху синтетични данни, често не съответстват на тези, обучени върху оригинални данни. AI общността трябва да намери иновативни подходи за генериране на сложни синтетични набори от данни, които да отговарят на нуждите на индустрията, без да компрометират точността и надеждността.

Обобщаването на моделите като форма на управление на данните: Неотдавнашното решение на Google и Anthropic да започнат да "обобщават" следите, генерирани от техните модели, показва нарастващата важност на управлението на данните в AI индустрията. Чрез замъгляване на подробната информация в процесите на вземане на решения на моделите компаниите затрудняват обратния инженеринг на своите технологии от други. Този подход може да помогне за защита на търговските тайни и за поддържане на етичните практики за извличане на данни, но също така повдига въпроси относно прозрачността и обяснимостта на AI системите.

Балансиране на иновациите с етични и правни съображения: Противоречието DeepSeek подчертава необходимостта от постигане на внимателен баланс между насърчаването на AI иновациите и защитата на правата на интелектуална собственост и осигуряването на спазване на етичните принципи. Тъй като AI моделите продължават да нарастват по сложност, етичните и правните предизвикателства, пред които е изправена индустрията, само ще стават по-ясно изразени. Намирането на правилния баланс между тези опасения ще бъде от решаващо значение за насърчаването на отговорното и устойчиво развитие на AI.