xAI의 인간 같은 목소리 만들기 비밀

AI의 인간 같은 목소리 추구: xAI의 훈련 비밀 공개

인간 상호 작용을 모방할 수 있는 인공 지능을 추구하는 것은 매혹적이고 때로는 불안한 발전으로 이어졌습니다. 지능적일 뿐만 아니라 공감할 수 있는 AI 어시스턴트를 만들기 위해 회사는 다양한 기술을 사용하여 음성 모델을 훈련하고 있습니다. 최근 공개된 내용에 따르면 xAI의 “Project Xylophone”이라는 노력이 있었습니다.

Project Xylophone 내부: 대화형 AI 제작

유출된 문서에 따르면 xAI의 음성 모델을 개선하기 위해 설계된 Scale AI 이니셔티브인 Project Xylophone의 내부 작동 방식이 드러났습니다. 이 프로젝트는 다양한 주제에 대해 즉흥적인 대화를 녹음하기 위해 계약자를 참여시키는 데 중점을 둡니다. 전체적인 목표는 xAI의 모델에 보다 자연스럽고 인간과 같은 품질을 부여하여 AI 상호 작용을 특징짓는 로봇적인 어조에서 벗어나는 것입니다.

데이터 라벨링 회사 Scale AI에서 제공하는 이 계약자들은 xAI의 음성 모델을 더욱 실제처럼 보이도록 하기 위해 평범한 것부터 상상력이 풍부한 것까지 다양한 주제에 대해 동료와 대화를 녹음하는 것에 대한 보상을 받습니다. 4월 현재 Scale AI는 xAI를 위해 최소 10개의 생성 AI 프로젝트를 관리하고 있으며 이는 이 분야에 쏟아지는 강렬한 노력을 반영합니다.

보다 대화적인 AI에 대한 업계 전반의 추진은 이러한 서비스의 프리미엄 유료 버전에 사용자를 유치하려는 욕구에서 비롯됩니다. AI 상호 작용을 더욱 즐겁고 자연스럽게 만들면 회사는 사용자가 이러한 고급 기술에 투자하도록 유도할 수 있습니다.

대화식 교육을 위한 청사진

Business Insider는 Project Xylophone이 어떻게 작동하는지에 대한 자세한 정보를 제공하는 일련의 Scale AI 문서를 입수했습니다. 프로젝트 지침, 검토자 지침, 대화 주제 가이드와 같은 이러한 문서는 프로젝트 방법론에 대한 포괄적인 개요를 제공합니다.

훈련 중인 특정 xAI 모델은 문서에 공개되지 않았지만 “오디오 품질 및 자연스러운 유창성”에 대한 프로젝트의 중점은 원활하고 매력적인 사용자 경험을 만드는 데 중점을 두고 있음을 시사합니다. 원하는 수준의 리얼리즘을 달성하는 데 있어 보컬 연기의 중요성을 반영하여 음성 연기 경험이 있는 계약자는 특히 참여하도록 권장됩니다.

Project Xylophone은 “대화”와 “초원”이라는 두 가지 주요 구성 요소로 구성됩니다. “대화” 구성 요소에는 Zoom을 통해 실제 대화에 참여하는 3명의 계약자 팀이 참여합니다. 이러한 대화는 종말 이후 세계에서 생존 전술을 사용하는 것부터 불안감을 관리하고 국제 여행을 계획하는 것까지 광범위한 주제를 다루는 수백 개의 프롬프트가 포함된 스프레드시트의 안내를 받습니다.

대화 프롬프트에 대한 심층 분석: AI의 상상력 엿보기

Project Xylophone에서 사용된 대화 프롬프트를 통해 AI 모델이 처리하도록 훈련받고 있는 시나리오와 주제의 종류를 엿볼 수 있습니다. 프롬프트는 실용적인 것부터 철학적인 것까지 다양하며 심지어 공상 과학의 영역까지 탐구합니다.

다음은 Scale AI 문서에서 사용된 대화 시작의 몇 가지 예입니다.

  • 첫 번째 화성 정착지를 위한 ‘문화’를 설계한다면 어떤 지구 전통을 반드시 재현하고 싶고 무엇을 영원히 버리고 싶습니까?
  • 슈퍼히어로 팀이 나타나 모든 사람을 위해 해결해 주기를 바라는 일상 생활의 ‘악당’은 무엇입니까?
  • 내일 좀비 종말이 닥친다면 집에서 달려가기 전에 가장 먼저 잡을 물건은 무엇입니까?
  • 당신이 화성 식민지의 임무 심리학자라고 상상해 보세요. 동료 이민자에게서 어떤 성격 유형이나 특이한 특징을 은밀히 찾고 싶으신가요?
  • 주인으로서 경험한 가장 기억에 남는 배관 재해는 무엇입니까? 직접 수리하려고 했는지 아니면 즉시 도움을 요청했습니까?
  • 처음으로 돈이나 더 나은 혜택을 요구해야 했을 때가 기억나십니까? 머릿속에 무엇이 떠올랐나요?

이러한 프롬프트는 계약자로부터 자연스럽고 스크립트가 없는 응답을 유도하도록 설계되었으며, 이는 AI 모델이 다양한 대화 시나리오를 처리하도록 훈련하는 데 사용될 수 있습니다.

“좋은” 대화를 위한 지침은 다양한 어조와 중단을 통해 자연스럽고 감정적으로 들리는 것의 중요성을 강조합니다. 목표는 실제 인간 대화의 자발성과 예측 불가능성을 모방하는 것입니다.

풀밭 접근 방식: 스크립트 없이 실제와 같이

구조화된 “대화” 구성 요소와 달리 “풀밭” 구성 요소는 혼자 작업하는 작업자가 모국어로 스크립트 없이 자연스럽게 들리는 녹음을 만드는 데 중점을 둡니다. 이러한 작업자에게는 대화 유형과 하위 범주가 주어지며 배경 소음이 있더라도 대화를 자유롭게 진행하도록 권장됩니다.

“풀밭” 구성 요소는 “소크라테스식 질문,” “성찰적 스토리텔링,” “궁정식 사랑 시나리오,” “영웅-악당 대결,” “협업 퍼즐 해결”을 포함하여 수십 개의 하위 범주를 포함합니다. 이러한 하위 범주에는 종종 다른 억양, 음향 효과 또는 발명된 언어 패턴과 같은 특정 요구 사항이 포함됩니다.

“풀밭” 접근 방식은 보다 진실하고 제약 없는 방식으로 인간 대화의 뉘앙스와 복잡성을 포착하려는 욕구를 반영합니다.

AI 교육의 경제학: 보상 엿보기

Project Xylophone에 참여한 Scale AI 계약자는 자신의 기여에 대해 보상을 받으며 이는 AI 교육의 경제적 측면을 강조합니다. 보고서에 따르면 계약자는 작업당 몇 달러를 지불받습니다.

“풀밭” 프로젝트의 지불 구조는 작업당 3달러로 시작되었지만 나중에 작업당 1달러로 줄었습니다. 각 작업에는 오디오 파일을 녹음하는 작업이 포함되며 계약자는 그런 다음 Scale AI 플랫폼에 업로드하고 수동으로 필기합니다.

낮은 급여는 AI 모델을 만들고 훈련하는 데 필요한 보이지 않는 노동을 강조합니다.

데이터 품질의 중요성: 인간 음성의 뉘앙스 포착

AI 음성 모델의 성공은 막대한 양의 고품질 데이터의 가용성에 달려 있습니다. Project Xylophone은 사람 사이의 자연스러운 대화와 같이 실제 시나리오를 재현하여 적합한 데이터를 생성하려는 노력을 반영합니다.

“풀밭” 문서는 계약자가 “어”와 같은 채움재를 필기에 포함하도록 명시적으로 지시합니다. 이러한 세부 사항에 대한 관심은 일시 중지, 망설임 및 기타 비언어적 신호를 포함하여 인간 음성의 미묘한 뉘앙스를 포착하는 것의 중요성을 강조합니다.

이러한 요소를 교육 데이터에 통합함으로써 AI 모델은 보다 자연스럽고 매력적인 대화를 생성하는 법을 배울 수 있습니다.

AI에 개성 주입: 경쟁 우위

Project Xylophone은 점점 더 혼잡해지는 시장에서 차별화를 추구하여 AI 모델에 개성을 주입하려는 AI 회사 간의 광범위한 추세의 일부입니다.

예를 들어 Meta는 Scale AI를 통해 AI 교육을 받는 긱 작업자에게 “현명하고 신비로운 마법사” 또는 “과도하게 흥분한 음악 이론 학생”과 같은 다른 페르소나를 채택하도록 요청하는 프로젝트를 실행한 것으로 알려졌습니다.

OpenAI의 Sam Altman은 최신 GPT-4o가 “너무 아첨하고 짜증나게”되어서 응답을 더 자연스럽게 만들기 위해 재설정해야 한다고 인정했습니다.

이러한 노력은 AI 모델이 지능적일 뿐만 아니라 호감이가고 공감할 수 있어야 한다는 인식을 반영합니다.

AI 교육의 윤리적 차원: 정확성과 편견의 균형

AI 모델이 더욱 정교해짐에 따라 편견과 윤리적 고려 사항에 대한 우려가 커지고 있으며 책임감 있는 AI 개발에 대한 논쟁이 촉발되었습니다.

xAI는 Grok를 머스크가 “깨어 있는” 라이벌이라고 부르는 것과 비교하여 정치적으로 더 공격적인 챗봇으로 마케팅했으며 때로는 우익 또는 반대 견해에 크게 의존하는 훈련 방법을 사용합니다.

xAI는 또한 Grok의 예측할 수 없는 측면을 제어하기 위한 노력을 강화했습니다. 신규 채용은 특히 논란이 되는 주제와 “NSFW” 또는 “억제되지 않은” 모드에서 안전하지 않거나 정책을 위반하는 답변에 대해 스트레스 테스트를 통해 Grok를 “레드 팀” 작업을 수행합니다.

이러한 노력은 유익하고 윤리적인 AI 모델을 만드는 데 대한 과제와 지속적인 모니터링 및 평가의 필요성을 강조합니다.

AI 음성 모델의 지속적인 진화: 원활한 상호 작용의 미래

Project Xylophone과 유사한 이니셔티브는 인간과 원활하게 상호 작용할 수 있는 AI 음성 모델을 만드는 데 있어 중요한 진전을 나타냅니다. AI 기술이 계속 발전함에 따라 미래에는 더욱 정교하고 자연스럽게 들리는 AI 어시스턴트를 기대할 수 있습니다.

인간과 같은 AI 음성 모델을 추구하는 것은 어려움이 없는 것은 아닙니다. 편견, 윤리적 고려 사항 및 오용 가능성에 대한 우려가 남아 있습니다. 그러나 이러한 기술의 잠재적 이점은 접근성 개선부터 통신 및 협업 향상에 이르기까지 막대합니다.

AI 음성 모델이 더욱 보편화됨에 따라 이러한 문제를 사전에 해결하고 이러한 기술이 책임감 있고 윤리적으로 사용되도록 하는 것이 중요합니다. AI 음성 모델의 미래는 큰 가능성을 지니고 있지만 모든 인류에게 이익이 되도록 그 미래를 만드는 것은 우리에게 달려 있습니다.

더욱 인간과 같은 소리를 내는 AI를 만들려는 노력은 유출된 문서에서 알 수 있듯이 어렵습니다. AI는 정확한 문법으로 유창하게 말해야 할 뿐만 아니라, 그와 대화하는 사람에게 현실적으로 보이는 개성도 있어야 합니다. 이 기념비적인 과제가 바로 이러한 회사들이 현재 직면하고 있는 문제입니다.