Голоса как у людей: секреты обучения xAI | ru

Стремление ИИ к человеческим голосам: раскрытие секретов обучения xAI

Стремление к созданию искусственного интеллекта, способного имитировать человеческое взаимодействие, привело к некоторым увлекательным, а иногда и тревожным разработкам. В поисках создания ИИ-помощников, которые были бы не только интеллектуальными, но и располагающими к себе, компании используют различные методы для обучения своих голосовых моделей. Недавние откровения пролили свет на одну из таких попыток: "Проект Ксилофон (Project Xylophone)" от xAI.

Внутри Проекта Ксилофон: создание разговорного ИИ

Просочившиеся документы раскрыли внутреннюю работу проекта Ксилофон, инициативы Scale AI, разработанной для совершенствования голосовых моделей xAI. Проект основан на привлечении подрядчиков к записи импровизированных разговоров на разнообразные темы. Общая цель состоит в том, чтобы наделить модели xAI более естественным, человеческим качеством, отказавшись от роботизированного тона, который часто характеризует взаимодействие с ИИ.

Эти подрядчики, нанятые компанией Scale AI, занимающейся маркировкой данных, получают компенсацию за запись разговоров со своими коллегами на темы от мирских до творческих, и все это для того, чтобы голосовые модели xAI звучали более аутентично. По состоянию на апрель Scale AI управляла по крайней мере 10 проектами генеративного ИИ для xAI, что отражает интенсивные усилия, вкладываемые в эту область.

Общеотраслевое стремление к более разговорному ИИ проистекает из желания привлечь пользователей к премиальным, платным версиям этих сервисов. Сделав взаимодействие с ИИ более приятным и естественным, компании надеются побудить пользователей инвестировать в эти передовые технологии.

План для разговорного обучения

Business Insider получил серию документов Scale AI, которые предлагают подробный взгляд на то, как работает проект Ксилофон. Эти документы, включая инструкции по проекту, руководства для рецензентов и руководства по темам разговоров, дают всесторонний обзор методологии проекта.

Хотя конкретная модель xAI, которая в настоящее время обучается, в документах не раскрывается, ориентация проекта на "качество звука и естественную беглость речи" предполагает сильный акцент на создании беспроигрышного и привлекательного пользовательского опыта. К участию особенно поощряются подрядчики с опытом озвучивания, что отражает важность вокального исполнения для достижения желаемого уровня реализма.

Проект Ксилофон построен на двух основных компонентах: "Разговоры (Conversations)" и "Луга (Grasslands)." Компонент "Разговоры" включает в себя команды из трех подрядчиков, участвующих в реалистичных разговорах в Zoom. Эти разговоры направляются электронной таблицей, содержащей сотни подсказок, охватывающих широкий круг тем, от тактики выживания в постапокалиптическом мире до управления тревогой и планирования международных поездок.

Погружение в подсказки к разговору: взгляд на воображение ИИ

Подсказки к разговору, используемые в проекте Ксилофон, предлагают увлекательный взгляд на типы сценариев и тем, которым обучают модели ИИ. Подсказки варьируются от практических до философских и даже углубляются в область научной фантастики.

Вот несколько примеров начал разговоров, используемых в документах Scale AI:

Если бы вы проектировали "культуру" для первого поселения на Марсе, какую земную традицию вы бы определенно хотели воссоздать, а что бы вы с радостью оставили позади навсегда?
Кто такой "злодей" в вашей повседневной жизни, которого вы хотели бы, чтобы команда супергероев набросилась и исправила для всех?
Если зомби-апокалипсис наступит завтра, что первое вы схватите из своего дома, прежде чем убежать?
Представьте, что вы миссионерский психолог для марсианской колонии - какой тип личности или причудливую черту вы бы втайне надеялись найти у своих коллег-колонистов?
Какая самая запоминающаяся авария с сантехникой произошла с вами как с домовладельцем - и пытались ли вы исправить ее самостоятельно или сразу же вызвали помощь?
Помните ли вы, когда впервые вам пришлось просить больше денег или лучших льгот? Что у вас было в голове?

Эти подсказки призваны вызвать естественные, нескриптованные ответы от подрядчиков, которые затем можно использовать для обучения моделей ИИ для обработки широкого спектра сценариев разговоров.

Инструкции для "хороших" разговоров подчеркивают важность звучания естественно и эмоционально, с различными интонациями и перебиваниями. Цель состоит в том, чтобы имитировать спонтанность и непредсказуемость реального человеческого разговора.

Подход Луга: нескриптованный и аутентичный

В отличие от структурированного компонента "Разговоры", компонент "Луга" фокусируется на том, чтобы одиночки создавали нескриптованные, естественно звучащие записи на своих родных языках. Этим работникам дается тип разговора и подкатегория, и им рекомендуется дать волю разговору, при этом даже поощряется фоновый шум.

Компонент "Луга" охватывает десятки подкатегорий, включая "Сократовские вопросы", "Рефлексивное повествование", "Сценарии куртуазной любви", "Противостояния героя и злодея" и "Совместное решение головоломок." Эти подкатегории часто включают в себя определенные требования, такие как различные акценты, звуковые эффекты или придуманные лингвистические шаблоны.

Подход "Луга" отражает желание запечатлеть нюансы и сложности человеческого разговора более аутентичным и неограниченным образом.

Экономика обучения ИИ: взгляд на компенсацию

Подрядчики Scale AI, участвующие в проекте Ксилофон, получают компенсацию за свой вклад, что подчеркивает экономический аспект обучения ИИ. Согласно сообщениям, подрядчикам платят несколько долларов за задачу за их работу.

Сообщается, что структура оплаты за проект "Луга" начиналась с 3 долларов за задачу, но позже была снижена до 1 доллара за задачу. Каждая задача включает в себя запись аудиофайла, который подрядчики затем загружают на платформу Scale AI и расшифровывают вручную.

Низкие ставки оплаты подчеркивают часто невидимый труд, который идет на создание и обучение моделей ИИ.

Важность качества данных: захват нюансов человеческой речи

Успех голосовых моделей ИИ зависит от доступности огромного количества высококачественных данных. Проект Ксилофон отражает усилия по созданию подходящих данных путем воссоздания реальных сценариев, таких как естественно звучащие разговоры между людьми.

В документе "Луга" прямо предписывается подрядчикам включать в стенограммы слова-паразиты, такие как "э." Это внимание к деталям подчеркивает важность захвата тонких нюансов человеческой речи, включая паузы, колебания и другие невербальные сигналы.

Включив эти элементы в обучающие данные, модели ИИ могут научиться создавать более естественные и увлекательные разговоры.

Внедрение личности в ИИ: конкурентное преимущество

Проект Ксилофон - часть более широкой тенденции среди ИИ-компаний по внедрению личности в свои модели ИИ, стремясь выделиться на все более переполненном рынке.

Meta, например, как сообщается, запустила через Scale AI проект, в котором просила фрилансеров, обучающих ее ИИ, принять разные образы, такие как "мудрый и мистический волшебник" или "сверхвозбужденный студент теории музыки."

Сэм Альтман (Sam Altman) из OpenAI признал, что последняя версия GPT-4o стала "слишком льстивой и раздражающей," что привело к сбросу, чтобы сделать ее ответы более естественными.

Эти усилия отражают признание того, что модели ИИ должны быть больше, чем просто интеллектуальными - они также должны быть симпатичными и близкими.

Этические аспекты обучения ИИ: баланс между точностью и предвзятостью

По мере того, как модели ИИ становятся все более сложными, опасения по поводу предвзятости и этических соображений растут, вызывая споры об ответственном развитии ИИ.

xAI продвигала Grok как политически более резкого чат-бота по сравнению с тем, что Маск назвал "пробужденными" соперниками, с методами обучения, которые иногда сильно опираются на правые или противоречивые взгляды.

xAI также активизировала свои усилия по контролю над непредсказуемой стороной Grok. Новые сотрудники "красной команды" Grok, стресс-тестируют ее на небезопасные или нарушающие политику ответы, особенно на спорные темы и в режимах "NSFW" или "ненормальных."

Эти усилия подчеркивают проблемы создания моделей ИИ, которые являются одновременно информативными и этичными, и необходимость постоянного мониторинга и оценки.

Непрерывная эволюция голосовых моделей ИИ: будущее бесшовного взаимодействия

Проект Ксилофон и аналогичные инициативы представляют собой значительный шаг вперед в стремлении создать голосовые модели ИИ, которые могут беспрепятственно взаимодействовать с людьми. По мере того, как технология ИИ продолжает развиваться, мы можем ожидать увидеть еще более сложные и естественно звучащие ИИ-помощники в будущем.

Стремление к созданию похожих на человека голосовых моделей ИИ не лишено своих проблем. Сохраняются опасения по поводу предвзятости, этических соображений и возможности злоупотреблений. Однако потенциальные выгоды этих технологий огромны, от улучшения доступности до улучшения коммуникации и сотрудничества.

По мере того, как голосовые модели ИИ становятся все более распространенными, важно активно решать эти проблемы и обеспечивать ответственное и этичное использование этих технологий. Будущее голосовых моделей ИИ таит в себе большие перспективы, но только от нас зависит, как сформировать это будущее таким образом, чтобы оно принесло пользу всему человечеству.

Усилия по созданию более похожего на человека ИИ трудны, о чем свидетельствуют просочившиеся документы. ИИ не только должен бегло говорить с правильной грамматикой, но и должен иметь личность, которая кажется реальной человеку, говорящему с ним. Именно в этой монументальной задаче сейчас оказываются эти компании.

обновлено 2025-06-07

# Chatbot # Grok # xAI