DeepSeek и Gemini: Спор об обучении ИИ

Мир искусственного интеллекта не чужд спорам, и последнее развитие событий связано с китайской ИИ-лабораторией DeepSeek. Недавно DeepSeek представила обновленную версию своей модели рассуждений R1, демонстрирующую впечатляющие возможности в решении математических и кодировочных задач. Однако источник данных, использованных для обучения этой модели, вызвал значительные дебаты среди исследователей ИИ, и некоторые предполагают, что он мог быть получен, по крайней мере частично, из семейства ИИ-моделей Gemini от Google. Это подозрение поднимает важные вопросы об этических нормах, источниках данных и конкурентной среде в индустрии ИИ.

Представленные доказательства

Спор начался, когда Сэм Пех, разработчик из Мельбурна, специализирующийся на создании оценок “эмоционального интеллекта” для ИИ-систем, представил то, что он утверждает, является доказательством того, что последняя модель DeepSeek была обучена на результатах, сгенерированных Gemini. По словам Пеха, модель DeepSeek, идентифицированная как R1-0528, демонстрирует предпочтение определенным словам и выражениям, которые поразительно похожи на те, которые предпочитает Google Gemini 2.5 Pro. Хотя это наблюдение само по себе может быть не окончательным, оно поднимает красный флаг и требует дальнейшего расследования.

Добавляя интриги, другой разработчик, действующий под псевдонимом SpeechMap и известный созданием “оценки свободы слова” для ИИ, отметил, что следы модели DeepSeek - “мысли”, которые она генерирует по мере продвижения к выводу - “читаются как следы Gemini”. Это совпадение лингвистических паттернов и мыслительных процессов еще больше подпитывает подозрения, что DeepSeek могла использовать результаты Gemini в процессе обучения.

Предыдущие обвинения в адрес DeepSeek

Это не первый раз, когда DeepSeek сталкивается с обвинениями в обучении своих ИИ-моделей на данных из конкурирующих ИИ-систем. Еще в декабре разработчики заметили, что модель V3 от DeepSeek часто идентифицирует себя как ChatGPT, ИИ-платформа для чат-ботов от OpenAI. Это странное поведение предполагает, что модель могла быть обучена на журналах чатов ChatGPT, что вызывает опасения по поводу этических последствий такой практики.

Ранее в этом году OpenAI сообщила Financial Times, что обнаружила доказательства, связывающие DeepSeek с использованием дистилляции, техники, которая включает в себя обучение ИИ-моделей путем извлечения данных из более крупных и мощных моделей. Более того, Microsoft, ключевой партнер и инвестор OpenAI, обнаружила значительное количество данных, извлекаемых через учетные записи разработчиков OpenAI в конце 2024 года. OpenAI считает, что эти учетные записи связаны с DeepSeek, что еще больше укрепляет подозрения в несанкционированном извлечении данных.

Хотя дистилляция сама по себе не является неэтичной, условия обслуживания OpenAI явно запрещают клиентам использовать результаты модели компании для создания конкурирующих ИИ-систем. Это ограничение направлено на защиту интеллектуальной собственности OpenAI и поддержание справедливой конкурентной среды в индустрии ИИ. Если DeepSeek действительно использовала дистилляцию для обучения своей модели R1 на результатах Gemini, это будет являться нарушением условий обслуживания OpenAI и вызовет серьезные этические опасения.

Проблемы загрязнения данных

Важно признать, что многие ИИ-модели проявляют тенденцию к неправильной идентификации себя и сходятся в схожих словах и фразах. Это явление можно объяснить растущим присутствием контента, сгенерированного ИИ, в открытой сети, которая служит основным источником данных для обучения ИИ-компаний. Контентные фермы используют ИИ для создания кликбейтных статей, а боты наводняют платформы, такие как Reddit и X, сообщениями, сгенерированными ИИ.

Это “загрязнение” Интернета контентом, сгенерированным ИИ, представляет собой серьезную проблему для ИИ-компаний, что делает чрезвычайно трудным тщательное фильтрование результатов ИИ из наборов данных для обучения. В результате ИИ-модели могут непреднамеренно учиться друг у друга, что приводит к наблюдаемым сходствам в языке и мыслительных процессах.

Мнения и перспективы экспертов

Несмотря на проблемы загрязнения данных, эксперты по ИИ, такие как Натан Ламберт, исследователь из некоммерческого исследовательского института ИИ AI2, считают, что не исключено, что DeepSeek обучалась на данных из Google Gemini. Ламберт предполагает, что DeepSeek, столкнувшись с нехваткой графических процессоров, но обладая достаточными финансовыми ресурсами, могла выбрать генерацию синтетических данных из лучшей доступной модели API. По его мнению, этот подход может быть более вычислительно эффективным для DeepSeek.

Перспектива Ламберта подчеркивает практические соображения, которые могут побудить ИИ-компании изучать альтернативные стратегии получения данных. Хотя использование синтетических данных может быть законным и эффективным методом, крайне важно обеспечить, чтобы данные генерировались этично и не нарушали какие-либо условия обслуживания или этические принципы.

Меры безопасности и профилактики

В ответ на опасения, связанные с дистилляцией и загрязнением данных, компании, занимающиеся развитием ИИ, наращивают свои меры безопасности. OpenAI, например, ввела требование для организаций проходить процесс проверки личности, чтобы получить доступ к определенным передовым моделям. Этот процесс требует удостоверения личности, выданного правительством одной из стран, поддерживаемых API OpenAI, за исключением Китая из списка.

Google также предприняла шаги для снижения риска дистилляции путем “суммирования” следов, генерируемых моделями, доступными через ее платформу для разработчиков AI Studio. Этот процесс суммирования усложняет обучение производительных конкурирующих моделей на следах Gemini. Аналогичным образом, Anthropic объявила в мае, что начнет суммировать следы своей собственной модели, ссылаясь на необходимость защиты своих “конкурентных преимуществ”.

Эти меры безопасности представляют собой согласованные усилия ИИ-компаний по защите своей интеллектуальной собственности и предотвращению несанкционированного извлечения данных. Вводя более строгий контроль доступа и запутывая следы моделей, они стремятся сдерживать неэтичные практики и поддерживать равные условия игры в индустрии ИИ.

Реакция Google

При обращении за комментарием Google еще не ответила на обвинения. Это молчание оставляет место для спекуляций и еще больше усиливает спор. Пока ИИ-сообщество ожидает официального заявления от Google, вопросы, касающиеся практики получения данных DeepSeek, продолжают оставаться открытыми.

Последствия для индустрии ИИ

Спор вокруг DeepSeek поднимает фундаментальные вопросы об этических границах разработки ИИ и важности ответственного получения данных. По мере того, как ИИ-модели становятся все более сложными и мощными, искушение срезать углы и использовать несанкционированные данные может усилиться. Однако такая практика может иметь пагубные последствия, подрывая целостность индустрии ИИ и подрывая доверие общественности.

Чтобы обеспечить долгосрочную устойчивость и этичное развитие ИИ, крайне важно, чтобы ИИ-компании придерживались строгих этических правил и уделяли приоритетное внимание ответственной практике получения данных. Это включает в себя получение явного согласия от поставщиков данных, уважение прав интеллектуальной собственности и избежание использования несанкционированных или предвзятых данных.

Кроме того, в индустрии ИИ необходимы большая прозрачность и подотчетность. ИИ-компании должны быть более откровенными в отношении своей практики получения данных и методов, используемых для обучения своих моделей. Эта повышенная прозрачность поможет укрепить доверие к ИИ-системам и способствовать созданию более этичной и ответственной экосистемы ИИ.

Спор вокруг DeepSeek служит своевременным напоминанием о проблемах и этических соображениях, которые необходимо решать по мере дальнейшего развития технологий ИИ. Поддерживая этические принципы, продвигая прозрачность и содействуя сотрудничеству, ИИ-сообщество может гарантировать, что ИИ используется на благо общества, а не за счет этических ценностей.

Глубокое погружение в технические аспекты

Для дальнейшего понимания нюансов этого вопроса крайне важно углубиться в технические аспекты того, как обучаются модели ИИ, и конкретные методы, о которых идет речь, а именно дистилляцию и генерацию синтетических данных.

Дистилляция: Клонирование интеллекта?

Дистилляция, в контексте ИИ, относится к технике сжатия модели, когда меньшая, более эффективная “студенческая” модель обучается имитировать поведение большей, более сложной “учительской” модели. Студенческая модель учится, наблюдая за результатами учительской модели, эффективно извлекая знания и перенося их в меньшую архитектуру. Хотя дистилляция может быть полезна для развертывания моделей ИИ на устройствах с ограниченными ресурсами, она вызывает этические опасения, когда данные или архитектура учительской модели являются частной собственностью.

Если DeepSeek использовала результаты Gemini для обучения своей модели R1 посредством дистилляции без разрешения, это было бы сродни клонированию интеллекта Gemini и потенциально нарушало бы права интеллектуальной собственности Google. Ключевым моментом здесь является несанкционированное использование результатов Gemini, которые защищены авторским правом и другими правовыми механизмами.

Генерация синтетических данных: Палка о двух концах

Генерация синтетических данных включает в себя создание искусственных точек данных, которые напоминают реальные данные. Этот метод часто используется для расширения наборов данных для обучения, особенно когда реальных данных мало или их дорого получить. Однако качество и этические последствия синтетических данных сильно зависят от того, как они генерируются.

Если DeepSeek использовала API Gemini для генерации синтетических данных, возникает вопрос: насколько близко эти данные напоминают фактические результаты Gemini и нарушают ли они права интеллектуальной собственности Google? Если синтетические данные просто вдохновлены Gemini, но напрямую не воспроизводят ее результаты, это может считаться добросовестным использованием. Однако, если синтетические данные практически неотличимы от результатов Gemini, это может вызвать те же опасения, что и дистилляция.

Последствия переобучения модели

Еще одна связанная проблема - переобучение модели. Переобучение происходит, когда модель слишком хорошо изучает данные для обучения, до такой степени, что она плохо работает на новых, невидимых данных. Если DeepSeek чрезмерно обучала свою модель R1 на результатах Gemini, это могло привести к переобучению, когда модель, по сути, запоминает ответы Gemini вместо того, чтобы обобщать на новые ситуации.

Этот вид переобучения не только ограничил бы применимость модели R1, но и облегчил бы обнаружение ее зависимости от данных Gemini. “Следы”, которые отметил SpeechMap, могут быть доказательством этого переобучения, когда модель R1, по сути, повторяет закономерности, усвоенные из результатов Gemini.

Этические соображения и передовые отраслевые практики

Помимо технических аспектов, этот спор подчеркивает необходимость четких этических руководств и передовых отраслевых практик для разработки ИИ. Некоторые ключевые принципы включают в себя:

  • Прозрачность: Компании, занимающиеся ИИ, должны быть прозрачными в отношении своих источников данных и методологий обучения. Это позволяет проводить независимый аудит и проверку.
  • Согласие: Компании, занимающиеся ИИ, должны получать явное согласие от поставщиков данных перед использованием их данных для обучения. Это включает в себя уважение прав интеллектуальной собственности и избежание несанкционированного сбора данных.
  • Справедливость: Модели ИИ должны быть справедливыми и непредвзятыми. Это требует пристального внимания к разнообразию данных и снижению алгоритмической предвзятости.
  • Подотчетность: Компании, занимающиеся ИИ, должны нести ответственность за действия своих моделей ИИ. Это включает в себя создание четких рамок ответственности и устранение вреда, причиненного системами ИИ.
  • Безопасность: Компании, занимающиеся ИИ, должны уделять приоритетное внимание безопасности своих моделей ИИ и данных. Это включает в себя защиту от несанкционированного доступа и предотвращение утечек данных.

Роль регулирования

В дополнение к этическим принципам и передовым отраслевым практикам, регулирование может быть необходимо для решения проблем, связанных с разработкой ИИ. Некоторые потенциальные регулирующие меры включают в себя:

  • Законы о конфиденциальности данных: Законы, которые защищают данные людей и ограничивают использование личной информации для обучения ИИ.
  • Законы об интеллектуальной собственности: Законы, которые защищают модели ИИ и данные от несанкционированного копирования и распространения.
  • Законы о конкуренции: Законы, которые предотвращают антиконкурентное поведение в индустрии ИИ, такое как накопление данных и несправедливый доступ к ресурсам.
  • Правила безопасности: Правила, которые обеспечивают безопасность и надежность систем ИИ, используемых в критических приложениях.

Сочетая этические принципы, передовые отраслевые практики и надлежащее регулирование, мы можем создать более ответственную и устойчивую экосистему ИИ, которая приносит пользу обществу в целом. Спор вокруг DeepSeek служит тревожным звонком, призывая нас активно решать эти проблемы и обеспечить, чтобы ИИ разрабатывался таким образом, чтобы он соответствовал нашим ценностям и принципам.