Projekt Xylophone: Tworzenie konwersacyjnej AI
Ujawnione dokumenty rzucają światło na wewnętrzne działanie Project Xylophone, inicjatywy Scale AI mającej na celu udoskonalenie modeli głosowych xAI. Projekt polega na angażowaniu kontraktorów do nagrywania improwizowanych rozmów na różnorodne tematy. Nadrzędnym celem jest nasycenie modeli xAI bardziej naturalną, ludzką jakością, odchodząc od robotycznego tonu, który często charakteryzuje interakcje z AI.
Kontraktorzy ci, pozyskiwani przez firmę zajmującą się etykietowaniem danych Scale AI, otrzymują wynagrodzenie za nagrywanie rozmów ze swoimi rówieśnikami na tematy od przyziemnych po pomysłowe, a wszystko to w celu uczynienia modeli głosowych xAI bardziej autentycznymi. W kwietniu Scale AI zarządzało co najmniej 10 projektami generatywnej AI dla xAI, co odzwierciedla intensywny wysiłek wkładany w ten obszar.
Branżowy nacisk na bardziej konwersacyjną AI wynika z pragnienia przyciągnięcia użytkowników do płatnych wersji premium tych usług. Uczyniając interakcje z AI przyjemniejszymi i naturalnymi, firmy mają nadzieję zachęcić użytkowników do inwestowania w te zaawansowane technologie.
Plan szkoleń konwersacyjnych
Business Insider uzyskał serię dokumentów Scale AI, które oferują szczegółowy wgląd w to, jak działa Project Xylophone. Dokumenty te, w tym instrukcje projektowe, wytyczne dla recenzentów i przewodniki po tematach rozmów, zapewniają kompleksowy przegląd metodologii projektu.
Chociaż konkretny model xAI poddawany szkoleniu pozostaje w dokumentach nieujawniony, nacisk projektu na "jakość dźwięku i naturalną płynność" sugeruje silny nacisk na tworzenie bezproblemowego i angażującego doświadczenia użytkownika. Szczególnie zachęca się do udziału kontraktorów z doświadczeniem w aktorstwie głosowym, co odzwierciedla znaczenie występu wokalnego w osiągnięciu pożądanego poziomu realizmu.
Project Xylophone jest zbudowany wokół dwóch głównych komponentów: "Rozmowy" i "Tereny trawiaste". Komponent "Rozmowy" obejmuje zespoły trzech kontraktorów prowadzących realistyczne rozmowy przez Zoom. Rozmowy te są prowadzone za pomocą arkusza kalkulacyjnego zawierającego setki podpowiedzi, obejmujących szeroki zakres tematów, od taktyki przetrwania w postapokaliptycznym świecie po radzenie sobie z lękiem i planowanie międzynarodowych podróży.
Zanurzanie się głęboko w podpowiedziach do rozmów: Rzut oka na wyobraźnię AI
Podpowiedzi do rozmów używane w Project Xylophone oferują fascynujący wgląd w rodzaj scenariuszy i tematów, które modele AI są szkolone do obsługi. Podpowiedzi wahają się od praktycznych po filozoficzne, a nawet zagłębiają się w świat science fiction.
Oto kilka przykładów starterów rozmów użytych w dokumentach Scale AI:
- Gdybyś projektował ‘kulturę’ dla pierwszej osady na Marsie, którą ziemską tradycję na pewno chciałbyś odtworzyć, a co chciałbyś na zawsze zostawić za sobą?
- Jaki jest ‘złoczyńca’ w twoim życiu codziennym, którego chciałbyś, aby drużyna superbohaterów wpadła i naprawiła dla wszystkich?
- Jeśli apokalipsa zombie uderzy jutro, co pierwszego zabrałbyś ze swojego domu przed ucieczką?
- Wyobraź sobie, że jesteś psychologiem misji dla kolonii na Marsie - jaki typ osobowości lub dziwaczna cecha chciałbyś potajemnie znaleźć u swoich kolegów kolonistów?
- Jakie jest najbardziej pamiętne nieszczęście hydrauliczne, którego doświadczyłeś jako właściciel domu - i czy próbowałeś naprawić to sam, czy od razu wezwałeś pomoc?
- Czy pamiętasz, kiedy pierwszy raz musiałeś poprosić o więcej pieniędzy lub lepsze korzyści? Co ci chodziło po głowie?
Podpowiedzi te mają na celu wywołanie naturalnych, nienapisanych odpowiedzi od kontraktorów, które następnie można wykorzystać do szkolenia modeli AI w zakresie obsługi szerokiej gamy scenariuszy rozmów.
Instrukcje dotyczące "dobrych" rozmów podkreślają znaczenie brzmienia naturalnego i emocjonalnego, z różnymi intonacjami i przerwaniami. Celem jest naśladowanie spontaniczności i nieprzewidywalności prawdziwej ludzkiej rozmowy.
Podejście "Terenów trawiastych": Nienapisane i autentyczne
W przeciwieństwie do uporządkowanego komponentu "Rozmowy", komponent "Tereny trawiaste" koncentruje się na samotnych pracownikach tworzących nienapisane, naturalnie brzmiące nagrania w ich językach ojczystych. Pracownicy ci otrzymują typ i podkategorię rozmowy i są zachęcani do swobodnego prowadzenia rozmowy, przy czym nawet szumy tła są mile widziane.
Komponent "Tereny trawiaste" obejmuje dziesiątki podkategorii, w tym "pytania sokratejskie", "refleksyjne opowiadanie historii", "scenariusze miłości dworskiej", "konfrontacje bohater-złoczyńca" i "wspólne rozwiązywanie zagadek". Podkategorie te często wiążą się z określonymi wymaganiami, takimi jak różne akcenty, efekty dźwiękowe lub wymyślone wzorce językowe.
Podejście "Terenów trawiastych" odzwierciedla pragnienie uchwycenia niuansów i złożoności ludzkiej rozmowy w bardziej autentyczny i nieograniczony sposób.
Ekonomia szkoleń AI: Rzut oka na wynagrodzenie
Kontraktorzy Scale AI zaangażowani w Project Xylophone otrzymują wynagrodzenie za swój wkład, co podkreśla ekonomiczny aspekt szkoleń AI. Według doniesień kontraktorzy otrzymują kilka dolarów za zadanie za swoją pracę.
Struktura płatności za projekt "Tereny trawiaste" podobno zaczynała się od 3 dolarów za zadanie, ale później została obniżona do 1 dolara za zadanie. Każde zadanie polega na nagraniu pliku audio, który kontraktorzy następnie przesyłają na platformę Scale AI i ręcznie przepisują.
Niskie stawki płac podkreślają często niewidoczną pracę, która jest wkładana w tworzenie i szkolenie modeli AI.
Znaczenie jakości danych: Uchwycenie niuansów ludzkiej mowy
Sukces modeli głosowych AI zależy od dostępności ogromnych ilości wysokiej jakości danych. Project Xylophone odzwierciedla wysiłek włożony w generowanie odpowiednich danych poprzez odtwarzanie rzeczywistych scenariuszy, takich jak naturalnie brzmiące rozmowy między ludźmi.
Dokument "Tereny trawiaste" wyraźnie instruuje kontraktorów, aby uwzględnili w swoich transkrypcjach słowa wypełniające, takie jak "yyy". Ta dbałość o szczegóły podkreśla znaczenie uchwycenia subtelnych niuansów ludzkiej mowy, w tym pauz, wahań i innych niewerbalnych wskazówek.
Dzięki włączeniu tych elementów do danych szkoleniowych modele AI mogą nauczyć się tworzyć bardziej naturalne i angażujące rozmowy.
Wstrzykiwanie osobowości do AI: Przewaga konkurencyjna
Project Xylophone jest częścią szerszego trendu wśród firm zajmujących się AI, polegającego na wstrzykiwaniu osobowości do swoich modeli AI, starając się wyróżnić na coraz bardziej zatłoczonym rynku.
Meta, na przykład, podobno prowadzi projekt za pośrednictwem Scale AI, prosząc pracowników gigantów szkolących swoją AI o przyjęcie różnych person, takich jak "mądry i mistyczny czarodziej" lub "hiperekscytowany student teorii muzyki".
Sam Altman z OpenAI przyznał, że najnowszy GPT-4o stał się "zbyt służalczy i irytujący", co skłoniło do resetu, aby jego odpowiedzi były bardziej naturalne.
Wysiłki te odzwierciedlają uznanie, że modele AI muszą być czymś więcej niż tylko inteligentne – muszą być również lubiane i łatwe do zrozumienia.
Etyczne wymiary szkoleń AI: Równoważenie dokładności z uprzedzeniami
W miarę jak modele AI stają się bardziej wyrafinowane, rosną obawy dotyczące uprzedzeń i kwestii etycznych, wywołując debaty na temat odpowiedzialnego rozwoju AI.
xAI reklamuje Grok jako politycznie ostrzejszego chatbota w porównaniu z tym, co Musk nazwał "przebudzonymi" rywalami, z metodami szkoleniowymi, które czasami w dużym stopniu opierają się na prawicowych lub kontrariańskich poglądach.
xAI również zintensyfikowało swoje wysiłki, aby kontrolować nieprzewidywalną stronę Groka. Nowi pracownicy "współpracują w czerwieni" z Grokiem, testując go pod kątem niebezpiecznych lub naruszających zasady odpowiedzi, zwłaszcza na kontrowersyjne tematy oraz w trybach "NSFW" lub "rozhamowanych".
Wysiłki te podkreślają wyzwania związane z tworzeniem modeli AI, które są zarówno informacyjne, jak i etyczne, oraz potrzebę ciągłego monitorowania i oceny.
Trwająca ewolucja modeli głosowych AI: Przyszłość bezproblemowej interakcji
Project Xylophone i podobne inicjatywy stanowią znaczący krok naprzód w dążeniu do stworzenia modeli głosowych AI, które mogą bezproblemowo współdziałać z ludźmi. W miarę jak technologia AI będzie ewoluować, możemy spodziewać się jeszcze bardziej wyrafinowanych i naturalnie brzmiących asystentów AI w przyszłości.
Dążenie do tworzenia modeli głosowych AI zbliżonych do ludzkich nie jest pozbawione wyzwań. Pozostają obawy dotyczące uprzedzeń, kwestii etycznych i potencjalnego niewłaściwego wykorzystania. Jednak potencjalne korzyści z tych technologii są ogromne, od poprawy dostępności po wzmocnienie komunikacji i współpracy.
W miarę jak modele głosowe AI stają się coraz bardziej powszechne, ważne będzie proaktywne rozwiązywanie tych wyzwań i zapewnienie, że technologie te są wykorzystywane w sposób odpowiedzialny i etyczny. Przyszłość modeli głosowych AI jest obiecująca, ale to od nas zależy, czy ukształtujemy tę przyszłość w sposób, który przyniesie korzyści całej ludzkości.
Wysiłek, aby stworzyć AI brzmiącą bardziej ludzko jest trudny, co widać w wyciekłych dokumentach. AI nie tylko musi mówić płynnie z poprawną gramatyką, musi mieć również osobowość, która wydaje się realna osobie, która z nią rozmawia. To monumentalne zadanie jest tym, w czym te firmy się teraz znajdują.