Раскрытие происхождения обучения DeepSeek-R1
Недавнее исследование, проведенное Copyleaks, фирмой, специализирующейся на обнаружении и управлении ИИ, дало определенный ответ на вопрос, обучался ли DeepSeek-R1 на модели OpenAI: да. DeepSeek, чат-бот с искусственным интеллектом, доступный бесплатно, поразительно похож на ChatGPT по внешнему виду, ощущениям и функциональности.
Техника ‘снятия отпечатков пальцев’: идентификация ИИ-автора
Чтобы пролить свет на происхождение текста, сгенерированного ИИ, исследователи разработали инновационный инструмент для снятия текстовых отпечатков. Этот инструмент предназначен для определения конкретной модели ИИ, ответственной за создание данного фрагмента текста. Исследователи тщательно обучили инструмент, используя обширный набор данных, состоящий из тысяч образцов, сгенерированных ИИ. Впоследствии они протестировали его с использованием известных моделей ИИ, и результаты были однозначными.
Поразительное сходство: DeepSeek-R1 и OpenAI
Тестирование выявило убедительную статистику: значительные 74,2% текстов, созданных DeepSeek-R1, продемонстрировали стилистическое соответствие результатам OpenAI. Эта сильная корреляция убедительно свидетельствует о том, что DeepSeek использовал модель OpenAI на этапе обучения.
Контрастный подход: Phi-4 от Microsoft
Для сравнения рассмотрим модель Phi-4 от Microsoft. В том же тестировании Phi-4 продемонстрировала поразительное ‘несогласие’ на 99,3% с любой известной моделью. Этот результат служит убедительным доказательством независимого обучения, означающим, что Phi-4 была разработана без опоры на существующие модели. Резкий контраст между независимой природой Phi-4 и подавляющим сходством DeepSeek с OpenAI подчеркивает очевидную репликацию или копирование последней.
Этические проблемы и вопросы интеллектуальной собственности
Это открытие вызывает серьезные опасения по поводу близкого сходства DeepSeek-R1 с моделью OpenAI. Эти опасения охватывают несколько критических областей, в том числе:
- Источник данных: Происхождение данных, использованных для обучения DeepSeek-R1, становится решающим вопросом.
- Права интеллектуальной собственности: Потенциальное нарушение прав интеллектуальной собственности OpenAI вызывает серьезную озабоченность.
- Прозрачность: Отсутствие прозрачности в отношении методологии обучения DeepSeek поднимает этические вопросы.
Исследовательская группа и методология
Команда Copyleaks Data Science, возглавляемая Йехонатаном Биттоном, Шаем Нисаном и Эладом Биттоном, провела это новаторское исследование. Их методология была основана на подходе ‘единогласного жюри’. Этот подход включал три различные системы обнаружения, каждой из которых было поручено классифицировать тексты, сгенерированные ИИ. Окончательное решение принималось только тогда, когда все три системы были согласны.
Операционные и рыночные последствия
Помимо этических проблем и вопросов интеллектуальной собственности, необходимо учитывать практические операционные последствия. Нераскрытая зависимость от существующих моделей может привести к нескольким проблемам:
- Усиление предвзятостей: Существующие предвзятости в исходной модели могут быть увековечены.
- Ограниченное разнообразие: Разнообразие результатов может быть ограничено, что препятствует инновациям.
- Юридические и этические риски: Могут возникнуть непредвиденные юридические или этические последствия.
Более того, заявления DeepSeek о революционном, экономичном методе обучения, если выяснится, что они основаны на несанкционированной дистилляции технологии OpenAI, могут иметь значительные рыночные последствия. Это могло способствовать существенной однодневной потере NVIDIA в размере 593 миллиардов долларов и потенциально предоставить DeepSeek несправедливое конкурентное преимущество.
Строгий подход: объединение нескольких классификаторов
В методологии исследования использовался очень строгий подход, объединяющий три продвинутых классификатора ИИ. Каждый из этих классификаторов был тщательно обучен на образцах текста из четырех известных моделей ИИ:
- Claude
- Gemini
- Llama
- OpenAI
Эти классификаторы были разработаны для выявления тонких стилистических нюансов, в том числе:
- Структура предложения: Расположение слов и фраз в предложениях.
- Словарный запас: Выбор слов и их частота.
- Фразировка: Общий стиль и тон выражения.
Система ‘единогласного жюри’: обеспечение точности
Система ‘единогласного жюри’ была ключевым элементом методологии, обеспечивающим надежную защиту от ложных срабатываний. Эта система требовала, чтобы все три классификатора независимо согласились с классификацией, прежде чем она считалась окончательной. Этот строгий критерий привел к исключительному уровню точности 99,88% и удивительно низкому уровню ложных срабатываний - всего 0,04%. Система продемонстрировала свою способность точно идентифицировать тексты как от известных, так и от неизвестных моделей ИИ.
За пределами обнаружения ИИ: атрибуция, специфичная для модели
‘Благодаря этому исследованию мы вышли за рамки общего обнаружения ИИ, каким мы его знали, и перешли к атрибуции, специфичной для модели, - прорыву, который коренным образом меняет наш подход к контенту ИИ’, - заявил Шай Нисан, главный специалист по данным в Copyleaks.
Важность атрибуции модели
Нисан далее подчеркнул важность этой возможности: ‘Эта возможность имеет решающее значение по нескольким причинам, включая повышение общей прозрачности, обеспечение этических методов обучения ИИ и, самое главное, защиту прав интеллектуальной собственности на технологии ИИ и, надеюсь, предотвращение их потенциального неправомерного использования’.
Углубляясь: последствия подхода DeepSeek
Результаты этого исследования имеют далеко идущие последствия, выходящие за рамки непосредственного вопроса о том, копировал ли DeepSeek модель OpenAI. Давайте рассмотрим некоторые из этих последствий более подробно:
Иллюзия инноваций
Если обучение DeepSeek в значительной степени опиралось на модель OpenAI, это ставит под сомнение истинную степень его инновационности. Хотя DeepSeek, возможно, представил свой чат-бот как новое творение, базовая технология может быть менее новаторской, чем первоначально утверждалось. Это может ввести в заблуждение пользователей и инвесторов, которые считают, что они взаимодействуют с действительно уникальной системой ИИ.
Влияние на ландшафт ИИ
Широкое распространение моделей ИИ, обученных на других моделях, может оказать гомогенизирующее влияние на ландшафт ИИ. Если многие системы ИИ в конечном итоге будут получены из нескольких базовых моделей, это может ограничить разнообразие подходов и перспектив в этой области. Это может задушить инновации и привести к менее динамичной и конкурентоспособной экосистеме ИИ.
Необходимость большей прозрачности
Этот случай подчеркивает острую необходимость в большей прозрачности при разработке и развертывании моделей ИИ. Пользователи и заинтересованные стороны заслуживают знать, как обучаются системы ИИ и какие источники данных используются. Эта информация имеет решающее значение для оценки потенциальных предубеждений, ограничений и этических последствий этих систем.
Роль регулирования
Случай с DeepSeek может также подстегнуть дебаты о необходимости более строгого регулирования индустрии ИИ. Правительствам и регулирующим органам, возможно, потребуется рассмотреть меры, обеспечивающие соблюдение разработчиками ИИ этических норм, защиту прав интеллектуальной собственности и содействие прозрачности.
Будущее развития ИИ
Споры вокруг методов обучения DeepSeek могут послужить катализатором для более широкого обсуждения будущего развития ИИ. Это может побудить к переоценке передового опыта, этических соображений и важности оригинальности при создании систем ИИ.
Призыв к ответственному развитию ИИ
Случай с DeepSeek служит напоминанием о важности ответственного развития ИИ. Он подчеркивает необходимость:
- Оригинальность: Разработчики ИИ должны стремиться создавать действительно новые модели, а не полагаться в значительной степени на существующие.
- Прозрачность: Данные обучения и методологии, используемые для разработки систем ИИ, должны быть раскрыты пользователям и заинтересованным сторонам.
- Этические соображения: Разработка ИИ должна руководствоваться этическими принципами, включая справедливость, подотчетность и уважение прав интеллектуальной собственности.
- Сотрудничество: Открытое сотрудничество и обмен знаниями в сообществе ИИ могут способствовать инновациям и предотвращать воспроизведение существующих предубеждений.
Путь вперед: обеспечение разнообразного и этичного будущего ИИ
Конечная цель должна заключаться в создании разнообразной и этичной экосистемы ИИ, в которой процветают инновации, а пользователи могут доверять системам, с которыми они взаимодействуют. Это требует приверженности ответственным методам разработки ИИ, прозрачности и постоянному диалогу об этических последствиях этой быстро развивающейся технологии. Случай с DeepSeek служит ценным уроком, подчеркивая потенциальные ловушки чрезмерной зависимости от существующих моделей и подчеркивая важность оригинальности и этических соображений в стремлении к развитию ИИ. Будущее ИИ зависит от выбора, который мы делаем сегодня, и крайне важно, чтобы мы уделяли первоочередное внимание ответственному развитию, чтобы обеспечить благополучное и справедливое будущее для всех.
Результаты расследования Copyleaks пролили свет на важнейший аспект развития ИИ, и крайне важно, чтобы отрасль в целом извлекла уроки из этого опыта, чтобы способствовать более прозрачному, этичному и инновационному будущему.