DeepSeek под прицелом: след Gemini?

Недавние предположения указывают на то, что китайская AI-лаборатория DeepSeek, возможно, использовала данные AI-модели Gemini от Google для обучения своей последней итерации - AI-модели рассуждений R1. Эта модель продемонстрировала высокие результаты в тестах по математике и программированию. DeepSeek хранит молчание об источниках данных, используемых для обучения R1, однако несколько исследователей в области AI предположили, что Gemini, или, по крайней мере, его части, сыграли в этом роль.

Доказательства и обвинения

Сэм Пейч, разработчик из Мельбурна, специализирующийся на создании оценок "эмоционального интеллекта" для AI, представил то, что он считает доказательством того, что модель DeepSeek была обучена с использованием выходных данных, сгенерированных Gemini. Пейч отметил в посте на X (ранее Twitter), что модель DeepSeek, особенно версия R1-0528, демонстрирует предпочтение языку и выражениям, аналогичным тем, которые предпочитает Gemini 2.5 Pro от Google.

Кроме того, другой разработчик, работающий под псевдонимом создателя SpeechMap, "оценки свободы слова" для AI, отметил, что "мысли", генерируемые моделью DeepSeek в процессе достижения выводов, очень похожи на следы Gemini. Это наблюдение добавляет еще один уровень интриги к этим утверждениям.

Это не первый случай, когда DeepSeek сталкивается с обвинениями в использовании данных от конкурирующих AI-моделей. Еще в декабре разработчики заметили, что модель V3 от DeepSeek часто идентифицировала себя как ChatGPT, популярную платформу чат-ботов от OpenAI. Это предполагало, что модель была обучена на журналах чатов ChatGPT, что вызвало опасения по поводу практики использования данных.

Более глубокие обвинения: дистилляция и эксфильтрация данных

Ранее в этом году OpenAI поделилась с Financial Times информацией о том, что обнаружила доказательства, связывающие DeepSeek с использованием техники, называемой дистилляцией. Дистилляция включает в себя обучение AI-моделей путем извлечения данных из более крупных и сложных моделей. Bloomberg сообщило, что Microsoft, ключевой партнер и инвестор OpenAI, обнаружила значительную эксфильтрацию данных через учетные записи разработчиков OpenAI в конце 2024 года. OpenAI полагает, что эти учетные записи связаны с DeepSeek.

Дистилляция, хотя и не является по своей сути неэтичной, становится проблематичной, когда она нарушает условия обслуживания. Условия OpenAI явно запрещают клиентам использовать выходные данные модели компании для разработки конкурирующих AI-систем. Это вызывает серьезные вопросы о соблюдении DeepSeek этих условий.

Мутные воды данных для обучения ИИ

Важно признать, что AI-модели часто неправильно идентифицируют себя и сходятся в схожих словах и фразах. Это связано с природой открытой сети, которая служит основным источником обучающих данных для многих AI-компаний. Веб становится все более насыщенным контентом, сгенерированным AI. Контент-фермы используют AI для создания "кликбейта", а боты наводняют такие платформы, как Reddit и X, постами, сгенерированными AI.

Эта "загрязненность" делает невероятно сложным эффективную фильтрацию выходных данных AI из наборов обучающих данных, что еще больше усложняет вопрос о том, намеренно ли DeepSeek использовала данные Gemini.

Мнения и перспективы экспертов

Несмотря на трудности, связанные с окончательным доказательством этих утверждений, некоторые AI-эксперты считают правдоподобным, что DeepSeek обучалась на данных от Gemini от Google. Натан Ламберт, исследователь из некоммерческого научно-исследовательского института AI AI2, заявил в X: "Если бы я был DeepSeek, я бы определенно создал тонны синтетических данных из лучшей модели API. [DeepSeek] испытывает нехватку графических процессоров и завалена деньгами. Для них это буквально фактически больше вычислительных мощностей".

Перспектива Ламберта подчеркивает потенциальные экономические стимулы для DeepSeek использовать существующие AI-модели для расширения своих собственных возможностей, особенно учитывая ее ресурсные ограничения.

Меры безопасности и противодействия

AI-компании усиливают меры безопасности, отчасти для предотвращения таких практик, как дистилляция. В апреле OpenAI начала требовать от организаций завершения процесса проверки личности для доступа к определенным продвинутым моделям. Этот процесс включает в себя отправку удостоверения личности, выданного правительством страны, поддерживаемой API OpenAI. Китай заметно отсутствует в этом списке.

В другом шаге Google недавно начала "суммировать" трассировки, сгенерированные моделями, доступными через свою платформу разработчиков AI Studio. Это действие затрудняет обучение конкурирующих моделей на трассировках Gemini. Аналогичным образом, Anthropic объявила в мае, что начнет суммировать собственные трассировки моделей, ссылаясь на необходимость защиты своих "конкурентных преимуществ". Эти меры указывают на растущее осознание потенциального неправильного использования выходных данных AI-моделей и на активные усилия по смягчению таких рисков.

Последствия и результаты

Обвинения против DeepSeek поднимают важные вопросы об этике и законности практики обучения ИИ. Если DeepSeek действительно использовали данные Gemini для обучения своей модели R1, им могут грозить юридические последствия и репутационный ущерб. Эта ситуация также подчеркивает необходимость большей прозрачности и регулирования в индустрии ИИ, особенно в отношении источников и использования данных.

Обвинения в адрес DeepSeek подчеркивают критическую дилемму: как сбалансировать стремление к инновациям и прогрессу в ИИ с необходимостью защиты интеллектуальной собственности и обеспечения честной конкуренции. Индустрия ИИ быстро развивается, и четкие руководящие принципы и этические рамки необходимы для навигации по сложному правовому и этическому ландшафту. Компании должны быть прозрачными в отношении своих источников данных и соблюдать условия соглашений об обслуживании, чтобы поддерживать доверие и избегать потенциальных юридических обязательств.

Кроме того, проблема загрязнения учебных наборов данных контентом, сгенерированным ИИ, представляет собой серьезную проблему для всего сообщества ИИ. Поскольку модели ИИ становятся все более искусными в создании убедительного текста, изображений и других форм контента, становится все труднее отличить данные, сгенерированные человеком, от данных, сгенерированных ИИ. Это «загрязнение» может привести к гомогенизации моделей ИИ, когда все они начнут демонстрировать схожие предубеждения и ограничения.

Чтобы решить эту проблему, компаниям, занимающимся ИИ, необходимо инвестировать в более сложные методы фильтрации данных и изучать альтернативные источники данных для обучения. Им также необходимо быть более прозрачными в отношении состава своих учебных наборов данных и методов, используемых для фильтрации контента, сгенерированного ИИ.

Навигация в будущем обучения ИИ

Споры вокруг DeepSeek подчеркивают острую необходимость в более нюансированном обсуждении будущего обучения ИИ. Поскольку модели ИИ становятся все более мощными, а данных становится все меньше, компании могут быть склонны срезать углы и заниматься неэтичными или незаконными действиями. Однако такие действия в конечном итоге подрывают долгосрочную устойчивость и надежность индустрии ИИ.

Необходимы совместные усилия с участием исследователей, политиков и лидеров отрасли для разработки этических принципов и правовых рамок, которые способствуют ответственному развитию ИИ. Эти руководящие принципы должны охватывать такие вопросы, как поиск данных, прозрачность и подотчетность. Они также должны стимулировать компании инвестировать в этичные и устойчивые методы обучения ИИ.

Ключевые соображения для будущего обучения ИИ:

  • Прозрачность: Компании должны быть прозрачными в отношении источников данных, используемых для обучения их моделей ИИ, и методов, используемых для фильтрации контента, сгенерированного ИИ.
  • Этика: Разработка ИИ должна соответствовать этическим принципам, которые способствуют справедливости, подотчетности и уважению интеллектуальной собственности.
  • Регулирование: Политики должны создавать четкие правовые рамки, которые решают уникальные проблемы, связанные с обучением ИИ.
  • Сотрудничество: Исследователи, политики и лидеры отрасли должны сотрудничать для разработки этических принципов и передовых методов разработки ИИ.
  • Разнообразие данных: Обучение ИИ должно отдавать приоритет разнообразию данных, чтобы уменьшить предвзятость и улучшить общую производительность моделей ИИ.
  • Устойчивость: Обучение ИИ должно проводиться устойчивым образом, сводя к минимуму его воздействие на окружающую среду.
  • Безопасность: Меры безопасности должны защищать модели ИИ и данные обучения от несанкционированного доступа и использования.

Решив эти ключевые соображения, индустрия ИИ может гарантировать, что разработка ИИ осуществляется ответственным и этичным образом, способствуя инновациям и смягчая потенциальные риски.

Путь вперед

Обвинения, выдвинутые против DeepSeek, служат тревожным сигналом для сообщества ИИ. Они подчеркивают насущную необходимость в большей прозрачности, этическом поведении и надежных гарантиях в разработке ИИ. Поскольку ИИ продолжает проникать в различные аспекты нашей жизни, крайне важно, чтобы мы установили четкие границы и этические ориентиры, чтобы обеспечить его ответственное и взаимовыгодное использование.

Дело DeepSeek, независимо от его окончательного исхода, несомненно, сформирует продолжающийся дискурс об этике ИИ и повлияет на будущую траекторию развития ИИ. Это служит напоминанием о том, что стремление к инновациям должно быть смягчено приверженностью этическим принципам и признанием потенциальных последствий наших действий. Будущее ИИ зависит от нашей способности ориентироваться в этих сложных проблемах с мудростью и дальновидностью.