В ошеломляющем опровержении заявлений технологической индустрии о невозможности, преданная команда исследователей достигла того, что многие считали недостижимым: создания модели AI, обученной исключительно на этично полученных данных. Это новаторское достижение, возглавляемое экспертами из престижных учреждений, таких как MIT, Cornell University и University of Toronto, представляет собой жизнеспособный и ответственный план будущего развития AI. Секретный ингредиент? Тщательно отобранный набор данных, состоящий исключительно из контента с открытой лицензией или находящегося в общественном достоянии.
Геркулесова задача этичного поиска данных
Путь к этому этичному оазису AI был далеко не легкой прогулкой. Как охотно признают исследователи, настоящим узким местом была не вычислительная мощность, а чистые человеческие усилия. Процесс сборки Common Pile v0.1, обширного набора данных, превышающего восемь терабайт, потребовал кропотливой ручной очистки и переформатирования, чтобы сделать его пригодным для обучения ИИ. Представьте себе, что вам приходится просеивать практически бесконечные кучи цифровой информации в поисках любого рода ошибок, которые могут повредить набор данных.
Но настоящая проблема заключалась в тщательной перепроверке статуса авторских прав. В хаотичном царстве Интернета широко распространено неправомерное лицензирование, что превращает проверку авторских прав в сизифов труд.
"Это не то, где вы можете просто масштабировать ресурсы, которые у вас есть в наличии", - сказала соавтор исследования Stella Biderman WaPo. "Мы используем автоматизированные инструменты, но все наши материалы были аннотированы вручную в конце дня и проверены людьми. И это действительно сложно".
Процесс просеивания терабайтов данных в поисках проблем с авторскими правами - непростая задача. Исследователи не могли просто добавить больше компьютерных чипов в процесс и надеяться на решение. Вместо этого им нужно было вручную проверять и аннотировать все данные.
Триумф над невзгодами: Рождение этичного AI
Несмотря на пугающие препятствия, Biderman и ее преданная команда упорно продолжали работу. Как только утомительная задача создания Common Pile была завершена, они раскрыли ее потенциал для обучения семимиллиардной Large Language Model (LLM). Получившийся AI не только выдержал сравнение с отраслевыми эталонами, такими как Meta’s Llama 1 и Llama 2 7B, но и сделал это с чистой этической совестью.
Но исследовательский ландшафт AI развивается так же быстро, как летящая пуля. Важно помнить, что Meta выпустила Llama 1 и Llama 2 пару лет назад, что является относительной вечностью в мире AI.
Тот факт, что небольшая, полная решимости команда смогла достичь сопоставимых результатов с ограниченными ресурсами, является свидетельством их изобретательности. Особенно вдохновляющей находкой стала сокровищница из более чем 130 000 книг на английском языке в Library of Congress, которые ранее были упущены из виду.
Мутные воды AI и авторского права
Авторское право остается сложной этической и юридической проблемой в эпоху AI. Промышленные гиганты, такие как OpenAI и Google, накопили огромные наборы данных, поглощая все подряд, от новостных статей до личных сообщений в социальных сетях. Эта практика вызвала критику со всех сторон. Авторы даже подали иски, утверждая, что незаконно использовали защищенные авторским правом книги для обучения моделей AI.
Технологическая индустрия утверждает, что такая практика представляет собой добросовестное использование, утверждая, что разработка AI была бы "невозможной" без неограниченного доступа к данным. Это последнее исследование является резким опровержением этого нарратива Silicon Valley.
Хотя это достижение знаменует собой значительный шаг вперед, оно не устраняет все этические соображения. Large language models, с их потенциалом вытеснять человеческих работников, по-прежнему поднимают фундаментальные вопросы о будущем труда. Кроме того, использование работ, находящихся в общественном достоянии, может понравиться не всем, особенно тем, чей творческий вклад теперь пережевывается AI.
Даже в гипотетическом будущем, где фирмы AI будут вынуждены запрашивать разрешение или предоставлять компенсацию за использование данных, правообладатели все равно могут столкнуться с чрезмерным давлением, чтобы разрешить обучение AI. Огромные ресурсы, которые могут быть задействованы при обучении моделей AI, означают, что большинство правообладателей не смогут противостоять давлению со стороны крупных фирм AI, чтобы позволить им использовать данные.
На пути к прозрачности и подотчетности в AI
Biderman, однако, остается прагматичной. Она не питает иллюзий, что такие компании, как OpenAI, внезапно примут этичный поиск данных. Вместо этого она надеется, что ее работа будет способствовать повышению прозрачности в использовании данных. Какие наборы данных использовались для обучения каких продуктов AI? Знание ответа на этот вопрос может иметь значительные последствия для будущего AI.
"Даже частичная прозрачность имеет огромное социальное значение и умеренное научное значение", - сказала она WaPo.
В настоящее время точные наборы данных, используемые для обучения данного AI, являются строго охраняемыми секретами. Единственный способ воспроизвести модель AI - это либо получить точную информацию о том, как была создана текущая модель AI, либо подвергнуть модель AI обратному инжинирингу, что может занять много времени и усилий.
Смена парадигмы в разработке AI
Последствия этого исследования выходят далеко за рамки этики AI. Это означает фундаментальный сдвиг в том, как можно разрабатывать AI, демонстрируя, что этические соображения и технологический прогресс не обязательно должны быть взаимоисключающими. Отдавая приоритет прозрачности, ответственному поиску данных и надзору со стороны человека, мы можем создать будущее, в котором AI служит человечеству, а не наоборот.
Решение этических проблем и социальных последствий
Аргумент технологической индустрии о том, что этичное использование данных является непреодолимым препятствием, теперь решительно оспорен. Успех этого проекта подчеркивает возможность создания моделей AI на прочной этической основе. Однако этические аспекты разработки AI выходят за рамки вопросов авторского права. Социально-экономические последствия AI, включая вытеснение рабочих мест и алгоритмическую предвзятость, требуют тщательного рассмотрения.
Этические соображения, которые влияют на модели AI, выходят за рамки простого поиска. Мы также должны убедиться, что данные не приводят к тому, что модели AI будут предвзято относиться к какому-либо сегменту населения или против него.
Содействие прозрачности и подотчетности
Чтобы укрепить доверие и обеспечить ответственные инновации, индустрия AI должна принять прозрачность и подотчетность. Компании должны быть открыты в отношении источников данных, используемых для обучения их моделей, и методологий, используемых для смягчения предвзятости. Независимые аудиты и внешний надзор могут еще больше повысить подотчетность и предотвратить этические срывы.
Прозрачность AI может быть реализована для проверки того, что наборы данных содержат достаточно широкое распространение, чтобы избежать предвзятости в модели AI. Подотчетность AI может быть реализована посредством внешних аудитов для проверки на наличие потенциальных нарушений этики.
Сотрудничество и решения с открытым исходным кодом
Разработка AI с этичными источниками требует сотрудничества и решений с открытым исходным кодом. Обмениваясь наборами данных, методологиями и передовым опытом, исследователи и разработчики могут ускорить прогресс и коллективно решать задачи этичной разработки AI. Инициативы с открытым исходным кодом также могут дать возможность небольшим организациям и отдельным лицам участвовать в революции AI, гарантируя, что преимущества этой технологии будут распределены более справедливо.
Обещание светлого будущего
Создание модели AI, обученной исключительно на этично полученных данных, представляет собой важную веху в стремлении к ответственному и выгодному AI. Это новаторское достижение не только доказывает, что этичная разработка AI возможна, но и предоставляет дорожную карту для других. Принимая прозрачность, сотрудничество и приверженность этическим принципам, мы можем раскрыть весь потенциал AI, защищая при этом человеческие ценности и продвигая более справедливое и равноправное будущее.