В Project Xylophone: Създаване на разговорен AI
Изтекли документи разкриха вътрешната работа на Project Xylophone, инициатива на Scale AI, предназначена да усъвършенства гласовите модели на xAI. Проектът се върти около ангажирането на изпълнители да записват себе си да импровизират разговори по разнообразни теми. Основната цел е да се влее в моделите на xAI по-естествено, човешко качество, отдалечавайки се от роботизирания тон, който често характеризира AI взаимодействията.
Тези изпълнители, снабдени от компанията за етикетиране на данни Scale AI, биват компенсирани за записване на разговори с техните колеги по теми, вариращи от прозаични до въображаеми, всичко това в услуга на това гласовите модели на xAI да звучат по-автентично. Към април Scale AI управляваше поне 10 генеративни AI проекта за xAI, отразявайки интензивните усилия, полагани в тази област.
Индустриалният стремеж към повече разговорен AI произтича от желанието да се привлекат потребители към премиум, платени версии на тези услуги. Правейки AI взаимодействията по-приятни и естествени, компаниите се надяват да привлекат потребителите да инвестират в тези напреднали технологии.
План за обучение в разговор
Business Insider получи серия от Scale AI документи, които предлагат подробен поглед върху това как работи Project Xylophone. Тези документи, включително проектни инструкции, указания за рецензенти и ръководства за теми на разговор, предоставят изчерпателен преглед на методологията на проекта.
Докато конкретният xAI модел, който се обучава, остава неразкрит в документите, фокусът на проекта върху "аудио качество и естествена плавност" предполага силен акцент върху създаването на безпроблемно и ангажиращо изживяване на потребителя. Изпълнителите с опит в гласова актьорска игра са особено насърчавани да участват, отразявайки важността на вокалното изпълнение за постигане на желаното ниво на реализъм.
Project Xylophone е структуриран около два основни компонента: "Разговори" и "Пасища". Компонентът "Разговори" включва екипи от трима изпълнители, участващи в реалистични разговори по Zoom. Тези разговори се ръководят от електронна таблица, съдържаща стотици подкани, покриващи широк кръг от теми, от тактики за оцеляване в постапокалиптичен свят до управление на тревожност и планиране на международни пътувания.
Гмуркане надълбоко в подканите за разговор: Поглед към въображението на AI
Подканите за разговор, използвани в Project Xylophone, предлагат завладяващ поглед към вида сценарии и теми, които AI моделите биват обучени да обработват. Подканите варират от практически до философски и дори се задълбават в сферата на научната фантастика.
Ето няколко примера за отправни точки на разговор, използвани в Scale AI документите:
- Ако проектирахте "културата" за първото селище на Марс, коя земна традиция категорично бихте искали да пресъздадете и какво с вълнение бихте оставили завинаги?
- Кой е "злодей" в ежедневието ви, който бихте искали екип супергерои да може да се намеси и да поправи за всички?
- Ако зомби апокалипсисът удари утре, какво е първото нещо, което бихте взели от дома си, преди да поемете натам?
- Представете си, че сте мисионен психолог за колония на Марс - какъв тип личност или особена черта тайно бихте се надявали да намерите в своите колеги колонисти?
- Каква е най-запомнящата се водопроводна катастрофа, която сте преживели като собственик на жилище - и опитахте ли се да я поправите сами или веднага се обадихте за помощ?
- Спомняте ли си първия път, когато трябваше да поискате повече пари или по-добри социални придобивки? Какво се въртеше в главата ви?
Тези подкани са предназначени да предизвикат естествени, нерепетирани отговори от изпълнителите, които след това могат да бъдат използвани за обучение на AI моделите да обработват широк спектър от сценарии на разговор.
Инструкциите за "добри" разговори наблягат на важността да се звучи естествено и емоционално, с разнообразни интонации и прекъсвания. Целта е да се имитира спонтанността и непредсказуемостта на реалния човешки разговор.
Подходът "Пасища": Нерепетиран и автентичен
За разлика от структурирания компонент "Разговори", компонентът "Пасища" се фокусира върху самостоятелни работници, създаващи нерепетирани, естествено звучащи записи на техните родни езици. На тези работници се дават тип разговор и подкатегория и се насърчават да оставят разговора да тече свободно, като дори се насърчава фонов шум.
Компонентът "Пасища" обхваща десетки подкатегории, включително "сократически въпроси", "отразително разказване на истории", "сценарии на куртоазна любов", "конфронтации между герой и злодей" и "съвместно решаване на пъзели". Тези подкатегории често включват специфични изисквания, като например различни акценти, звукови ефекти или измислени лингвистични модели.
Подходът "Пасища" отразява желанието да се уловят нюансите и сложностите на човешкия разговор по по-автентичен и необременен начин.
Икономиката на AI обучението: Поглед към компенсацията
Scale AI изпълнителите, участващи в Project Xylophone, биват компенсирани за техния принос, подчертавайки икономическия аспект на AI обучението. Според доклади на изпълнителите се плащат няколко долара на задача за тяхната работа.
Структурата на плащане за проекта "Пасища" съобщава се, че е започнала от $3 на задача, но по-късно е била намалена до $1 на задача. Всяка задача включва записване на аудио файл, който изпълнителите след това качват на платформа на Scale AI и го транскрибират ръчно.
Ниските ставки на заплащане подчертават често невидимия труд, който се полага за създаването и обучението на AI модели.
Важността на качеството на данните: Улавяне на нюансите на човешката реч
Успехът на AI гласовите модели зависи от наличието на огромни количества висококачествени данни. Project Xylophone отразява усилието да се генерират подходящи данни чрез пресъздаване на реални сценарии, като например естествено звучащи разговори между хора.
Документът "Пасища" изрично инструктира изпълнителите да включват думи за запълване като "ъ" в техните транскрипции. Това внимание към детайлите подчертава важността да се уловят фините нюанси на човешката реч, включително паузи, колебания и други невербални знаци.
Включвайки тези елементи в данните за обучение, AI моделите могат да се научат да произвеждат по-естествени и ангажиращи разговори.
Вкарване на личност в AI: Конкурентно предимство
Project Xylophone е част от по-широка тенденция сред AI компаниите да вкарват личност в своите AI модели, стремейки се да се отличат на все по-пренаселен пазар.
Meta, например, съобщава се, че е провела проект чрез Scale AI, който е помолил гиг работници, обучаващи нейния AI, да приемат различни личности, като например "мъдър и мистичен магьосник" или "хипер-възбуден студент по теория на музиката".
Сам Алтман от OpenAI призна, че последният GPT-4o е станал "твърде сервилен и досаден", което е довело до нулиране, за да се направят отговорите му по-естествени.
Тези усилия отразяват признанието, че AI моделите трябва да бъдат повече от просто интелигентни - те също трябва да бъдат приятни и близки.
Етичните измерения на AI обучението: Балансиране на точността с пристрастия
Тъй като AI моделите стават по-усъвършенствани, опасенията относно пристрастията и етичните съображения нараснаха, предизвиквайки дебати относно отговорното развитие на AI.
xAI е рекламирал Grok като политически по-остър чатбот в сравнение с това, което Мъск нарече "пробудени" съперници, с методи на обучение, които понякога се опират силно на десни или контрастни възгледи.
xAI също така засили усилията си да контролира непредсказуемата страна на Grok. Новите служители "тестват" Grok, стресирайки го за опасни или нарушаващи политиката отговори, особено по противоречиви теми и в "NSFW" или "небалансирани" режими.
Тези усилия подчертават предизвикателствата на създаването на AI модели, които са едновременно информативни и етични, и необходимостта от постоянен мониторинг и оценка.
Продължаващата еволюция на AI гласовите модели: Бъдеще на безпроблемно взаимодействие
Project Xylophone и подобни инициативи представляват значителна стъпка напред в стремежа да се създадат AI гласови модели, които могат безпроблемно да взаимодействат с хората. Тъй като AI технологията продължава да се развива, можем да очакваме да видим още по-усъвършенствани и естествено звучащи AI асистенти в бъдеще.
Стремежът към човешки AI гласови модели не е без своите предизвикателства. Опасенията относно пристрастията, етичните съображения и потенциала за злоупотреби остават. Въпреки това, потенциалните ползи от тези технологии са огромни, от подобряване на достъпността до подобряване на комуникацията и сътрудничеството.
Тъй като AI гласовите модели стават по-разпространени, ще бъде важно да се справяме с тези предизвикателства проактивно и да гарантираме, че тези технологии се използват отговорно и етично. Бъдещето на AI гласовите модели е многообещаващо, но от нас зависи да оформим това бъдеще по начин, който е от полза за цялото човечество.
Усилието да се създаде AI, който звучи по-човешки, е трудно, както се вижда от изтеклите документи. Не само AI трябва да говори плавно с правилна граматика, но също така трябва да има личност, която изглежда реална на човека, разговарящ с него. Точно в тази монументална задача се намират сега тези компании.