GPT-4o OpenAI под подозрением: платные данные для обучения?

Неустанное развитие искусственного интеллекта, возглавляемое такими гигантами, как OpenAI, часто вступает в противоречие с давно устоявшимися принципами интеллектуальной собственности и владения данными. Это столкновение вновь вызвало споры: появились новые обвинения в том, что новейшая флагманская модель OpenAI, GPT-4o, могла обучаться с использованием материалов, защищенных авторским правом и доступных только по подписке (paywall), потенциально без получения необходимых разрешений. Эти утверждения исходят от недавно созданной наблюдательной группы, AI Disclosures Project, добавляя еще один уровень сложности к уже запутанной дискуссии об этичности источников данных для обучения сложных систем ИИ.

Голос наблюдателя: Обвинения от AI Disclosures Project

Запущенный в 2024 году, AI Disclosures Project позиционирует себя как некоммерческая организация, посвященная тщательному изучению часто непрозрачных практик в индустрии ИИ. Среди ее основателей — такие заметные фигуры, как медиа-предприниматель Tim O’Reilly, основатель O’Reilly Media, известного издательства технической литературы, и экономист Ilan Strauss. Эта связь с O’Reilly Media особенно актуальна, поскольку первый сенсационный отчет проекта фокусируется именно на предполагаемом наличии контента из платных книг O’Reilly в обучающем наборе данных GPT-4o.

Центральное утверждение их исследования провокационно: несмотря на отсутствие какого-либо известного лицензионного соглашения между OpenAI и O’Reilly Media, модель GPT-4o демонстрирует заметно высокий уровень знакомства с контентом, взятым непосредственно из защищенных авторским правом книг O’Reilly. Это знакомство, как утверждается в отчете, убедительно свидетельствует о том, что эти платные материалы были включены в обширный корпус данных, использованный для формирования возможностей модели. Исследование подчеркивает значительное отличие по сравнению со старыми моделями OpenAI, в частности GPT-3.5 Turbo, подразумевая потенциальное изменение или расширение практик сбора данных в преддверии разработки GPT-4o.

Последствия существенны. Если проприетарный, платный контент поглощается моделями ИИ без разрешения или компенсации, это поднимает фундаментальные вопросы об авторском праве в эпоху генеративного ИИ. Издатели и авторы полагаются на модели подписки или покупки, основанные на эксклюзивности их контента. Предполагаемое использование этого материала для обучения можно рассматривать как подрыв этих бизнес-моделей, потенциально обесценивающий сам контент, создание которого требует значительных инвестиций. Это конкретное обвинение выходит за рамки парсинга общедоступных веб-сайтов, вторгаясь на территорию доступа к контенту, явно предназначенному для платящих клиентов.

Заглядывая в ‘черный ящик’: Атака на определение принадлежности к обучающей выборке (Membership Inference Attack)

Для обоснования своих утверждений исследователи из AI Disclosures Project применили сложную технику, известную как ‘атака на определение принадлежности к обучающей выборке’ (‘membership inference attack’), в частности, используя метод, который они называют DE-COP. Основная идея этого подхода заключается в проверке того, ‘запомнила’ ли модель ИИ или, по крайней мере, развила сильное знакомство с конкретными фрагментами текста. По сути, атака зондирует модель, чтобы увидеть, может ли она надежно различать оригинальные текстовые отрывки (в данном случае, из книг O’Reilly) и тщательно сконструированные перефразированные версии тех же отрывков, сгенерированные другим ИИ.

Основная логика заключается в том, что если модель последовательно демонстрирует способность идентифицировать оригинальный текст, написанный человеком, с точностью выше случайной по сравнению с близким перефразированием, это подразумевает, что модель сталкивалась с этим оригинальным текстом ранее – вероятно, на этапе обучения. Это сродни проверке, узнает ли кто-то конкретную, малоизвестную фотографию, которую он утверждает, что никогда не видел; последовательное узнавание предполагает предварительное знакомство.

Масштаб теста AI Disclosures Project был значительным. Они использовали 13 962 различных отрывка абзацев, взятых из 34 разных книг O’Reilly Media. Эти отрывки представляли собой тот вид специализированного, ценного контента, который обычно находится за ‘пейволлом’ издателя. Затем исследование измерило производительность как GPT-4o, так и его предшественника, GPT-3.5 Turbo, в этой задаче дифференциации.

Результаты, представленные в отчете, были поразительными. GPT-4o продемонстрировал значительно повышенную способность распознавать платный контент O’Reilly. Его производительность была количественно оценена с использованием показателя AUROC (Area Under the Receiver Operating Characteristic curve — Площадь под ROC-кривой), общепринятой метрики для оценки производительности бинарных классификаторов. GPT-4o достиг показателя AUROC 82%. В отличие от этого, GPT-3.5 Turbo набрал чуть более 50%, что по сути эквивалентно случайному угадыванию – указывая на практически полное отсутствие специфического распознавания тестируемого материала. Эта резкая разница, как утверждается в отчете, предоставляет убедительные, хотя и косвенные, доказательства того, что платный контент действительно был частью ‘диеты’ обучения GPT-4o. Показатель 82% предполагает сильный сигнал, значительно превышающий то, что можно было бы ожидать случайно или на основе обобщенных знаний.

Необходимые оговорки и нерешенные вопросы

Хотя выводы представляют убедительную картину, соавторы исследования, включая исследователя ИИ Sruly Rosenblat, похвально признают потенциальные ограничения, присущие их методологии и сложной природе обучения ИИ. Одной из существенных оговорок, которую они поднимают, является возможность косвенного поглощения данных. Возможно, отмечают они, что пользователи ChatGPT (популярного интерфейса OpenAI) могли копировать и вставлять отрывки из платных книг O’Reilly непосредственно в интерфейс чата для различных целей, таких как задание вопросов по тексту или запрос резюме. Если это происходило достаточно часто, модель могла изучить контент косвенно через взаимодействия с пользователями, а не через прямое включение в исходный обучающий набор данных. Разделение прямого воздействия обучения от косвенного обучения через пользовательские запросы остается серьезной проблемой в криминалистике ИИ.

Кроме того, исследование не охватывало самые последние или специализированные итерации моделей OpenAI, которые могли быть разработаны или выпущены одновременно или после основного цикла обучения GPT-4o. Модели, потенциально включающие GPT-4.5 (если она существует под этим конкретным наименованием или уровнем возможностей) и модели, ориентированные на рассуждения, такие как o3-mini и o1, не подвергались тем же атакам на определение принадлежности к обучающей выборке. Это оставляет открытым вопрос о том, могли ли практики поиска данных измениться в дальнейшем, или демонстрируют ли эти новые модели аналогичные паттерны знакомства с платным контентом. Быстрые циклы итераций в разработке ИИ означают, что любой моментальный анализ рискует почти сразу устареть.

Эти ограничения не обязательно опровергают основные выводы исследования, но они добавляют важные уровни нюансов. Окончательно доказать, что находится внутри терабайтов данных, используемых для обучения базовой модели, notoriamente сложно. Атаки на определение принадлежности к обучающей выборке предлагают вероятностные доказательства, предполагая вероятность, а не предлагая абсолютную уверенность. OpenAI, как и другие лаборатории ИИ, тщательно охраняет состав своих обучающих данных, ссылаясь на соображения конфиденциальности и конкурентные преимущества.

Более широкий конфликт: Битвы за авторское право на арене ИИ

Обвинения, выдвинутые AI Disclosures Project, не существуют в вакууме. Они представляют собой последнюю стычку в гораздо более широком, продолжающемся конфликте между разработчиками ИИ и создателями контента по поводу использования материалов, защищенных авторским правом, в целях обучения. OpenAI, наряду с другими видными игроками, такими как Google, Meta и Microsoft, оказывается втянутой в многочисленные громкие судебные процессы. Эти юридические вызовы, инициированные авторами, художниками, новостными организациями и другими правообладателями, как правило, утверждают о широкомасштабном нарушении авторских прав, вытекающем из несанкционированного парсинга и поглощения огромных объемов текста и изображений из интернета для обучения генеративных моделей ИИ.

Основная защита, часто выдвигаемая компаниями ИИ, опирается на доктрину добросовестного использования (‘fair use’) (в Соединенных Штатах) или аналогичные исключения в других юрисдикциях. Они утверждают, что использование защищенных авторским правом произведений для обучения представляет собой ‘преобразующее’ (‘transformative’) использование – модели ИИ не просто воспроизводят оригинальные произведения, а используют данные для изучения паттернов, стилей и информации для генерации совершенно новых результатов. Согласно этой интерпретации, сам процесс обучения, направленный на создание мощного нового инструмента, должен быть допустимым без требования лицензий на каждый фрагмент поглощенных данных.

Однако правообладатели яростно оспаривают эту точку зрения. Они утверждают, что сам масштаб копирования, коммерческий характер создаваемых продуктов ИИ и потенциал результатов ИИ напрямую конкурировать с оригинальными произведениями и вытеснять их, сильно перевешивают в пользу отказа в признании добросовестного использования. Утверждается, что компании ИИ строят многомиллиардные предприятия за счет творческой работы, не компенсируя создателей.

На фоне этой судебной тяжбы OpenAI предприняла проактивные шаги для снижения некоторых рисков, заключая лицензионные сделки с различными поставщиками контента. Были объявлены соглашения с крупными новостными издательствами (такими как Associated Press и Axel Springer), платформами социальных сетей (например, Reddit) и библиотеками стоковых медиа (например, Shutterstock). Эти сделки предоставляют OpenAI законный доступ к определенным наборам данных в обмен на оплату, потенциально снижая ее зависимость от данных, полученных путем веб-скрейпинга, который может нарушать авторские права. Компания также, по сообщениям, наняла журналистов, поручив им помочь в уточнении и улучшении качества и надежности выходных данных своих моделей, что свидетельствует об осознании необходимости высококачественного, потенциально курируемого, входного материала.

Эффект домино: Опасения за экосистему контента

Отчет AI Disclosures Project расширяет свои опасения за пределы непосредственных юридических последствий для OpenAI. Он рассматривает проблему как системную угрозу, которая может негативно повлиять на здоровье и разнообразие всей экосистемы цифрового контента. Исследование постулирует потенциально разрушительную петлю обратной связи: если компании ИИ могут свободно использовать высококачественный, профессионально созданный контент (включая платный материал) без компенсации создателям, это подрывает финансовую жизнеспособность производства такого контента в первую очередь.

Создание профессионального контента – будь то журналистские расследования, подробные технические руководства, художественная литература или академические исследования – часто требует значительного времени, опыта и финансовых вложений. Платные доступы и модели подписки часто являются важными механизмами финансирования этой работы. Если потоки доходов, поддерживающие эти усилия, уменьшаются из-за того, что контент фактически используется для обучения конкурирующих систем ИИ без вознаграждения, стимул к созданию высококачественного, разнообразного контента может снизиться. Это может привести к менее информированной общественности, сокращению специализированных информационных ресурсов и, потенциально, к интернету, в котором доминирует контент более низкого качества или сгенерированный ИИ, лишенный человеческого опыта и проверки.

Следовательно, AI Disclosures Project настоятельно выступает за большую прозрачность и подотчетность со стороны компаний ИИ в отношении их практик использования обучающих данных. Они призывают к внедрению надежных политик и, возможно, нормативных рамок, которые гарантируют справедливую компенсацию создателям контента, когда их работа способствует разработке коммерческих моделей ИИ. Это перекликается с более широкими призывами групп создателей по всему миру, которые ищут механизмы – будь то через лицензионные соглашения, системы роялти или коллективные переговоры – для обеспечения получения ими доли стоимости, генерируемой системами ИИ, обученными на их интеллектуальной собственности. Дискуссия сосредоточена на поиске устойчивого равновесия, при котором инновации в области ИИ могут процветать наряду с процветающей экосистемой для человеческого творчества и генерации знаний. Разрешение текущих юридических баталий и потенциал для нового законодательства или отраслевых стандартов будут иметь решающее значение в формировании этого будущего баланса. Вопрос о том, как отслеживать происхождение данных и атрибутировать ценность в массивных, сложных моделях ИИ, остается значительным техническим и этическим препятствием.