DeepSeek под пристальным вниманием: обвинения в обучении ИИ с использованием данных Google Gemini
Мир искусственного интеллекта бурлит от споров, поскольку компания DeepSeek, известный разработчик моделей ИИ, вновь сталкивается с обвинениями в использовании данных конкурентов для обучения своих последних разработок. На этот раз в центре внимания оказалась модель Google Gemini, и выдвигаются предположения, что DeepSeek-R1-0528, новейшая модель ИИ от DeepSeek, могла быть обучена с использованием производной модели Gemini.
Обвинения исходят от Сэма Пэча, аналитика ИИ, который тщательно изучал сервис искусственного интеллекта DeepSeek, используя сложные инструменты биоинформатики. Анализ Пэча привел его к выводу о наличии заметных сходств между ответами DeepSeek и Gemini, что указывает на потенциальную связь между ними.
Детективная работа в области ИИ: раскрытие потенциального влияния Gemini
Расследование Пэча не ограничилось простым наблюдением за поведением ИИ. Он углубился в сайт сообщества разработчиков HuggingFace, популярную платформу с открытым исходным кодом для разработки ИИ, и запустил свой анализ через свою учетную запись разработчика кода GitHub. Этот строгий подход позволил ему изучить внутреннюю работу модели ИИ и выявить потенциальные шаблоны или сегменты кода, которые могли бы указывать на использование данных Gemini.
В одном из своих твитов Пэч резюмировал свои выводы, заявив: “Если вам интересно, почему DeepSeek R1 звучит немного иначе, я думаю, что они, вероятно, перешли от обучения на синтетических данных OpenAI к синтетическим результатам Gemini”. Это заявление предполагает, что DeepSeek, возможно, перешла от использования синтетических данных, сгенерированных моделями OpenAI, к использованию данных, полученных из Gemini, в процессе обучения.
Последствия такого перехода значительны. Если DeepSeek действительно использовала данные, полученные из Gemini, это может поднять вопросы о правах интеллектуальной собственности, честной конкуренции и этических соображениях, связанных с разработкой ИИ.
Ответ DeepSeek: расширенные возможности и производительность
В мае 2025 года DeepSeek выпустила обновленную версию своей модели DeepSeek-R1 под названием DeepSeek-R1-0528 через HuggingFace. Компания утверждает, что эта обновленная модель обладает улучшенными возможностями логического вывода, что предполагает более глубокое понимание и обработку информации. DeepSeek также подчеркивает, что обновленная модель использует увеличенные вычислительные ресурсы и включает механизмы алгоритмической оптимизации в процессе постобработки.
По данным DeepSeek, эти улучшения привели к выдающейся производительности по различным оценочным показателям, включая математику, программирование и общую логику. Компания заявила на HuggingFace, что общая производительность модели теперь приближается к производительности ведущих моделей, таких как O3 и Gemini 2.5 Pro.
В то время как DeepSeek рекламирует улучшенную производительность и возможности своей последней модели, обвинения в использовании данных Gemini бросают тень на эти достижения. Если обвинения окажутсяправдой, это поднимет вопросы о том, в какой степени улучшения производительности DeepSeek объясняются ее собственными инновациями, а не использованием данных конкурентов.
Доказательство EQ-Bench: взгляд на арсенал ИИ Google
Подливая масла в огонь, Сэм Пэч представил скриншот EQ-Bench, платформы, используемой для оценки производительности моделей ИИ. На скриншоте были показаны результаты оценки нескольких моделей разработки Google, включая Gemini 2.5 Pro, Gemini 2.5 Flash и Gemma 3.
Присутствие этих моделей Google на платформе EQ-Bench предполагает, что они активно разрабатываются и тестируются, потенциально предоставляя источник данных или вдохновения для других разработчиков ИИ. Хотя сам скриншот напрямую не доказывает, что DeepSeek использовала данные Gemini, он подчеркивает доступность таких данных и потенциал их доступа и использования другими сторонами.
Сомнения и подтверждения: мутные воды происхождения ИИ
Хотя анализ Пэча поднял серьезные вопросы о методах обучения DeepSeek, важно отметить, что доказательства не являются окончательными. Как отмечает TechCrunch, доказательства обучения с помощью Gemini не являются убедительными, хотя некоторые другие разработчики также утверждают, что обнаружили следы Gemini в модели DeepSeek.
Неоднозначность, окружающая доказательства, подчеркивает проблемы отслеживания происхождения моделей ИИ и определения того, были ли они обучены с использованием данных конкурентов. Сложная природа алгоритмов ИИ и огромные объемы данных, используемых для обучения, затрудняют точное определение источников влияния.
Повторяющаяся тема: история DeepSeek с OpenAI
Это не первый случай, когда DeepSeek сталкивается с обвинениями в использовании данных конкурентов. В декабре 2024 года несколько разработчиков приложений заметили, что модель V3 от DeepSeek часто идентифицирует себя как ChatGPT, популярный чат-бот OpenAI. Это наблюдение привело к обвинениям в том, что DeepSeek обучила свою модель с использованием данных, собранных из ChatGPT, что потенциально нарушает условия обслуживания OpenAI.
Повторяющийся характер этих обвинений вызывает опасения по поводу практики поиска данных DeepSeek. Хотя возможно, что сходство между моделями DeepSeek и моделями ее конкурентов является чисто случайным, повторные обвинения предполагают модель поведения, которая требует дальнейшего изучения.
Этические последствия практики обучения ИИ
Обвинения в адрес DeepSeek подчеркивают этические последствия практики обучения ИИ. В быстро развивающейся области, где инновации имеют первостепенное значение, крайне важно обеспечить, чтобы модели ИИ разрабатывались справедливым и этичным образом.
Использование данных конкурентов без разрешения или надлежащего указания авторства поднимает вопросы о правах интеллектуальной собственности и честной конкуренции. Это также подрывает целостность процесса разработки ИИ и может потенциально привести к юридическим проблемам.
Более того, использование синтетических данных, даже если они получены из общедоступных источников, может внести предвзятости и неточности в модели ИИ. Разработчикам ИИ важно тщательно оценивать качество и репрезентативность своих обучающих данных, чтобы гарантировать, что их модели являются справедливыми, точными и надежными.
Призыв к прозрачности и подотчетности
Споры вокруг DeepSeek подчеркивают необходимость большей прозрачности и подотчетности в индустрии ИИ. Разработчики ИИ должны быть прозрачными в отношении своей практики поиска данных и методов, которые они используют для обучения своих моделей. Они также должны нести ответственность за любые нарушения прав интеллектуальной собственности или этических принципов.
Одним из потенциальных решений является установление общеотраслевых стандартов для поиска данных и обучения ИИ. Эти стандарты могут определять передовые методы получения и использования данных, а также механизмы аудита и обеспечения соблюдения требований.
Другой подход заключается в разработке инструментов и методов для отслеживания происхождения моделей ИИ. Эти инструменты могут помочь выявить потенциальные источники влияния и определить, была ли модель обучена с использованием данных конкурентов.
В конечном счете, обеспечение этичной разработки ИИ требует совместных усилий с участием разработчиков ИИ, исследователей, политиков и общественности. Работая вместе, мы можем создать структуру, которая способствует инновациям, защищая при этом права интеллектуальной собственности и обеспечивая справедливость и подотчетность.
Поиск истины в обучении моделей ИИ
Ситуация с DeepSeek привлекает внимание к растущей озабоченности по поводу того, как обучаются модели ИИ. Хотя соблазн быстрого улучшения возможностей ИИ велик, методы, используемые для достижения этой цели, должны быть подвергнуты серьезным этическим соображениям. Суть проблемы заключается в данных, используемых для обучения. Получены ли они этичным путем? Соблюдаются ли авторские права и интеллектуальная собственность? Эти вопросы становятся все более важными по мере того, как ИИ все больше переплетается с повседневной жизнью.
Проблемы в определении точных источников данных для моделей ИИ высвечивают сложную проблему. Сложность алгоритмов и огромный объем необходимых данных означают, что раскрытие происхождения возможностей конкретной модели может быть сложной задачей, почти как судебная экспертиза для ИИ. Это требует разработки сложных инструментов, способных анализировать модели ИИ, чтобы раскрыть происхождение их обучающих данных, а также более прозрачных процедур в разработке ИИ.
Влияние обучающих данных на этику ИИ
Влияние обучающих данных на этику ИИ существенно. Модели ИИ настолько же непредвзяты, насколько и данные, на которых они обучены. Использование данных, полученных от конкурентов, или данных, содержащих присущие им предвзятости, может привести к искаженным результатам, несправедливой дискриминации и подрыву целостности приложений ИИ. Поэтому этическая разработка ИИ нуждается в твердой приверженности использованию разнообразных, репрезентативных и этически полученных данных.
Проблемы, связанные с DeepSeek, также подчеркивают более широкий разговор о ценности действительно оригинальной разработки ИИ по сравнению с простым улучшением моделей с помощью существующих данных. Хотя точная настройка и перенос обучения являются законными стратегиями, сообщество ИИ должно признавать и вознаграждать разработчиков, которые обязуются создавать оригинальные архитектуры и методологии обучения. Это гарантирует, что прогресс ИИ основан на подлинных инновациях, а не на воспроизведении существующей работы.
Создание основы для ответственности в ИИ
Забегая вперед, создание основы для ответственности в ИИ требует нескольких ключевых шагов. Первым является установление четких, подлежащих исполнению руководств по поиску, использованию данных и правам интеллектуальной собственности. Эти руководства должны быть общеотраслевыми и способствовать открытости и сотрудничеству, защищая при этом права создателей данных.
Во-вторых, прозрачность в разработке ИИ имеет важное значение. Разработчики должны быть открыты в отношении данных, используемых для обучения их моделей, используемых методов, а также потенциальных ограничений и предвзятостей ИИ. Эта прозрачность укрепляет доверие и обеспечивает ответственное использование технологий ИИ.
Кроме того, существует необходимость в постоянном мониторинге и аудите систем ИИ. Саморегулирование и независимые аудиты могут помочь выявить и исправить потенциальные предвзятости, этические проблемы и проблемы соответствия. Этот постоянный надзор необходим для обеспечения того, чтобы системы ИИ оставались в соответствии с этическими стандартами и общественными ценностями.
Наконец, необходимы программы обучения и повышения осведомленности, чтобы дать разработчикам ИИ, пользователям и политикам возможность понять этические последствия ИИ. Эти программы должны охватывать такие темы, как конфиденциальность данных, предвзятость алгоритмов и ответственный дизайн ИИ, способствуя культуре этической осведомленности и подотчетности во всем сообществе ИИ.
Изучение технической стороны: обратная разработка моделей ИИ
Одним из увлекательных аспектов обвинений DeepSeek является техническая задача обратной разработки моделей ИИ для определения их обучающих данных. Это включает в себя использование инструментов и методов для анализа поведения и результатов модели, пытаясь вывести данные, на которых она была обучена. Это похоже на биоинформатику, как это делал Пэч, где вы анализируете сложные биологические данные, чтобы понять их происхождение и функцию.
Исследователи активно разрабатывают передовые методы обнаружения наличия конкретных данных или шаблонов в моделях ИИ. Эти методы используют статистический анализ, распознавание образов и методы машинного обучения для поиска сходств между поведением модели и известными наборами данных. Хотя эта область находится в зачаточном состоянии, она обещает предоставить более убедительные доказательства в случаях предполагаемого неправомерного использования данных.
Социальное воздействие скандалов с ИИ
Скандалы с ИИ, такие как дело DeepSeek, имеют более широкие социальные последствия. Они подрывают общественное доверие к технологиям ИИ, вызывают опасения по поводу конфиденциальности и безопасности и стимулируют дебаты о роли ИИ в обществе. Эти скандалы необходимо решать быстро и прозрачно, чтобы сохранить доверие и предотвратить широко распространенный скептицизм.
Поскольку ИИ все больше интегрируется в важные области, такие как здравоохранение, финансы и управление, ставки становятся выше. Этические нарушения и утечки данных могут иметь серьезные последствия для отдельных лиц и сообществ, что подчеркивает необходимость в строгих нормативных рамках и ответственной практике разработки ИИ.
Переосмысление обучения ИИ: новые подходы
Споры, окружающие обучение ИИ, подталкивают исследователей к изучению новых стратегий, которые являются более этичными, эффективными и устойчивыми. Одним из перспективных подходов является использование синтетических данных, созданных с нуля, что устраняет необходимость полагаться на существующие наборы данных. Синтетические данные могут быть разработаны для удовлетворения конкретных требований, избегая предвзятостей и обеспечивая конфиденциальность данных.
Другим методом является федеративное обучение, когда модели ИИ обучаются на децентрализованных источниках данных без прямого доступа или обмена базовыми данными. Этот метод позволяет осуществлять совместное обучение, защищая при этом конфиденциальность данных, открывая новые возможности для разработки ИИ в областях, где доступ к данным ограничен.
Кроме того, исследователи изучают способы обучения моделей ИИ с меньшим количеством данных, используя такие стратегии, как перенос обучения и метаобучение. Эти стратегии позволяют моделям обобщать данные из ограниченного количества данных, снижая зависимость от больших наборов данных и делая процесс обучения более экономичным и устойчивым.
Заключение: определение курса на этичный ИИ
Обвинения в адрес DeepSeek служат тревожным сигналом для сообщества ИИ. По мере развития технологий ИИ важно следовать этическим принципам и уделять первоочередное внимание прозрачности, ответственности и