Разкриване на произхода на обучението на DeepSeek-R1
Неотдавнашно проучване, проведено от Copyleaks, фирма, специализирана в откриването и управлението на AI, посочи категоричен отговор на въпроса дали DeepSeek-R1 е обучен върху модела на OpenAI: да. DeepSeek, chatbot, задвижван от AI, достъпен безплатно, поразително прилича на ChatGPT по своя външен вид, усещане и функционалност.
Техниката за пръстови отпечатъци: Идентифициране на автора на AI
За да хвърлят светлина върху произхода на генерирания от AI текст, изследователите разработиха иновативен инструмент за текстови пръстови отпечатъци. Този инструмент е предназначен да определи конкретния AI модел, отговорен за генерирането на даден текст. Изследователите щателно обучиха инструмента, използвайки огромен набор от данни от хиляди генерирани от AI проби. Впоследствие те го подложиха на тест, използвайки известни AI модели, и резултатите бяха недвусмислени.
Стряскаща прилика: DeepSeek-R1 и OpenAI
Тестването разкри убедителна статистика: значителните 74,2% от текстовете, произведени от DeepSeek-R1, показват стилистично съвпадение с продукцията на OpenAI. Тази силна корелация категорично предполага, че DeepSeek е включил модела на OpenAI по време на своята фаза на обучение.
Контраст в подхода: Phi-4 на Microsoft
За да се предостави контрастна перспектива, да разгледаме модела Phi-4 на Microsoft. В същото тестване Phi-4 демонстрира забележителните 99,3% “несъгласие” с всеки известен модел. Този резултат служи като убедително доказателство за независимо обучение, което означава, че Phi-4 е разработен, без да се разчита на съществуващи модели. Яркият контраст между независимия характер на Phi-4 и поразителното сходство на DeepSeek с OpenAI подчертава очевидното повторение или копиране на последния.
Етични и интелектуални опасения
Това разкритие повдига сериозни опасения относно близката прилика на DeepSeek-R1 с модела на OpenAI. Тези опасения обхващат няколко критични области, включително:
- Източник на данни: Произходът на данните, използвани за обучение на DeepSeek-R1, се превръща в решаващ въпрос.
- Права върху интелектуалната собственост: Потенциалното нарушение на правата върху интелектуалната собственост на OpenAI е значителен проблем.
- Прозрачност: Липсата на прозрачност по отношение на методологията на обучение на DeepSeek повдига етични въпроси.
Изследователският екип и методология
Екипът за наука за данните на Copyleaks, ръководен от Йехонатан Битон, Шай Нисан и Елад Битон, проведе това новаторско изследване. Тяхната методология се съсредоточи върху подхода на “единодушно жури”. Този подход включваше три отделни системи за откриване, всяка от които имаше за задача да класифицира генерирани от AI текстове. Окончателна преценка се достигаше само когато и трите системи бяха в съгласие.
Оперативни и пазарни последици
Освен етичните и интелектуалните опасения, има и практически оперативни последици, които трябва да се вземат предвид. Неразкритото разчитане на съществуващи модели може да доведе до няколко проблема:
- Засилване на пристрастията: Съществуващите пристрастия в рамките на оригиналния модел могат да бъдат увековечени.
- Ограничено разнообразие: Разнообразието от резултати може да бъде ограничено, което да възпрепятства иновациите.
- Правни и етични рискове: Могат да възникнат непредвидени правни или етични последици.
Освен това, твърденията на DeepSeek за революционен, рентабилен метод на обучение, ако се установи, че се основават на неразрешено дестилиране на технологията на OpenAI, биха могли да имат значителни пазарни последици. Това може да е допринесло за значителната еднодневна загуба на NVIDIA от 593 милиарда долара и потенциално да е предоставило на DeepSeek несправедливо конкурентно предимство.
Строг подход: Комбиниране на множество класификатори
Изследователската методология използва изключително строг подход, интегрирайки три усъвършенствани AI класификатора. Всеки от тези класификатори беше щателно обучен върху текстови проби от четири известни AI модела:
- Claude
- Gemini
- Llama
- OpenAI
Тези класификатори бяха проектирани да идентифицират фини стилистични нюанси, включително:
- Структура на изречението: Подреждането на думи и фрази в изреченията.
- Речник: Изборът на думи и тяхната честота.
- Фразиране: Цялостният стил и тон на изразяване.
Системата “Единодушно жури”: Гарантиране на точност
Системата “единодушно жури” беше ключов елемент от методологията, осигуряващ надеждна проверка срещу фалшиви положителни резултати. Тази система изискваше и трите класификатора да се съгласят независимо за класификация, преди тя да се счита за окончателна. Този строг критерий доведе до изключителна степен на прецизност от 99,88% и забележително нисък процент на фалшиви положителни резултати от само 0,04%. Системата демонстрира способността си да идентифицира точно текстове както от известни, така и от неизвестни AI модели.
Отвъд откриването на AI: Приписване, специфично за модела
“С това изследване преминахме отвъд общото откриване на AI, както го познавахме, и навлязохме в приписване, специфично за модела, пробив, който фундаментално променя начина, по който подхождаме към AI съдържанието”, заяви Шай Нисан, главен учен по данни в Copyleaks.
Значението на приписването на модела
Нисан допълнително подчерта значението на тази способност: “Тази способност е от решаващо значение по множество причини, включително подобряване на общата прозрачност, осигуряване на етични практики за обучение на AI и, най-важното, защита на правата върху интелектуалната собственост на AI технологиите и, надяваме се, предотвратяване на потенциалната им злоупотреба.”
Задълбочаване: Последиците от подхода на DeepSeek
Резултатите от това изследване имат широкообхватни последици, които се простират отвъд непосредствения въпрос дали DeepSeek е копирал модела на OpenAI. Нека разгледаме някои от тези последици по-подробно:
Илюзията за иновация
Ако обучението на DeepSeek е разчитало в голяма степен на модела на OpenAI, това повдига въпроси относно истинската степен на неговата иновация. Въпреки че DeepSeek може да е представил своя chatbot като ново творение, основната технология може да е по-малко новаторска, отколкото първоначално се твърди. Това може да подведе потребителите и инвеститорите, които вярват, че взаимодействат с наистина уникална AI система.
Въздействието върху AI пейзажа
Широкото приемане на AI модели, обучени върху други модели, може да има хомогенизиращ ефект върху AI пейзажа. Ако много AI системи в крайна сметка са получени от няколко основни модела, това може да ограничи разнообразието от подходи и гледни точки в областта. Това може да задуши иновациите и да доведе до по-малко динамична и конкурентна AI екосистема.
Необходимостта от по-голяма прозрачност
Този случай подчертава спешната необходимост от по-голяма прозрачност при разработването и внедряването на AI модели. Потребителите и заинтересованите страни заслужават да знаят как се обучават AI системите и какви източници на данни се използват. Тази информация е от решаващо значение за оценката на потенциалните пристрастия, ограничения и етични последици от тези системи.
Ролята на регулирането
Случаят с DeepSeek може също така да подхрани дебата за необходимостта от по-голямо регулиране на AI индустрията. Правителствата и регулаторните органи може да се наложи да обмислят мерки, за да гарантират, че разработчиците на AI се придържат към етичните насоки, защитават правата върху интелектуалната собственост и насърчават прозрачността.
Бъдещето на развитието на AI
Противоречието около методите на обучение на DeepSeek може да послужи като катализатор за по-широка дискусия относно бъдещето на развитието на AI. Това може да предизвика преоценка на най-добрите практики, етичните съображения и значението на оригиналността при създаването на AI системи.
Призив за отговорно развитие на AI
Случаят с DeepSeek служи като напомняне за значението на отговорното развитие на AI. Той подчертава необходимостта от:
- Оригиналност: Разработчиците на AI трябва да се стремят да създават наистина нови модели, вместо да разчитат в голяма степен на съществуващи такива.
- Прозрачност: Данните за обучение и методологиите, използвани за разработване на AI системи, трябва да бъдат разкривани на потребителите и заинтересованите страни.
- Етични съображения: Развитието на AI трябва да се ръководи от етични принципи, включително справедливост, отчетност и зачитане на правата върху интелектуалната собственост.
- Сътрудничество: Отвореното сътрудничество и споделянето на знания в рамките на AI общността може да помогне за насърчаване на иновациите и предотвратяване на възпроизвеждането на съществуващи пристрастия.
Пътят напред: Осигуряване на разнообразно и етично AI бъдеще
Крайната цел трябва да бъде да се създаде разнообразна и етична AI екосистема, където иновациите процъфтяват и потребителите могат да се доверят на системите, с които взаимодействат. Това изисква ангажимент към отговорни практики за развитие на AI, прозрачност и непрекъснат диалог относно етичните последици от тази бързо развиваща се технология. Случаят с DeepSeek служи като ценен урок, подчертавайки потенциалните клопки на прекомерното разчитане на съществуващи модели и подчертавайки значението на оригиналността и етичните съображения в стремежа към напредък в AI. Бъдещето на AI зависи от изборите, които правим днес, и е от решаващо значение да дадем приоритет на отговорното развитие, за да осигурим ползотворно и справедливо бъдеще за всички.
Резултатите от разследването на Copyleaks хвърлиха светлина върху решаващ аспект от развитието на AI и е наложително индустрията като цяло да се поучи от този опит, за да насърчи по-прозрачно, етично и иновативно бъдеще.