AIが目指す人間のような声:xAIのトレーニング秘話
人間との自然な対話を模倣できる人工知能の開発は、魅力的でありながら、時に不安を覚えるような進展を見せています。知的であるだけでなく、親しみやすいAIアシスタントを作るために、企業は様々な手法を用いて音声モデルをトレーニングしています。最近の暴露は、そのような取り組みの一つであるxAIの「Project Xylophone」に光を当てています。
Project Xylophoneの内側:会話型AIの創造
リークされた文書は、xAIの音声モデルを改良するために設計されたScale AIのイニシアチブであるProject Xylophoneの内部構造を明らかにしました。プロジェクトは、コントラクターが多様なテーマで会話を即興で録音することを中心に展開されます。全体的な目標は、xAIのモデルに、AIの相互作用を特徴付けるロボットのようなトーンから脱却し、より自然で人間らしい品質を吹き込むことです。
データラベリング会社Scale AIによって調達されたこれらのコントラクターは、xAIの音声モデルをより本物らしくするために、日常的なものから想像力豊かなものまで、さまざまなトピックに関する会話を同僚と録音することに対して報酬を受け取ります。少なくとも4月の時点で、Scale AIはxAIのために少なくとも10の生成AIプロジェクトを管理しており、この分野に注がれる集中的な努力を反映しています。
より会話型のAIに対する業界全体の推進力は、これらのサービスのプレミアムな有料バージョンにユーザーを引き付けるという願望から生まれています。AIのインタラクションをより楽しく自然にすることで、企業はユーザーにこれらの高度なテクノロジーへの投資を促したいと考えています。
会話型トレーニングの設計図
Business Insiderは、Project Xylophoneの動作方法の詳細な概要を提供する一連のScale AIドキュメントを入手しました。プロジェクトの指示、レビューアのガイドライン、会話のトピックガイドなど、これらのドキュメントは、プロジェクトの方法論の包括的な概要を提供します。
トレーニングされている特定のxAIモデルはドキュメントでは明らかにされていませんが、プロジェクトが「オーディオ品質と自然な流暢さ」に焦点を当てていることは、シームレスで魅力的なユーザーエクスペリエンスの作成に重点が置かれていることを示唆しています。望ましいレベルのリアリズムを達成する上で音声パフォーマンスの重要性を反映して、声優の経験を持つコントラクターは特に参加を推奨されています。
Project Xylophoneは、「Conversations」と「Grasslands」の2つの主要なコンポーネントを中心に構成されています。「Conversations」コンポーネントは、Zoomで現実的な会話を行う3人の契約者のチームで構成されています。これらの会話は、終末後の世界でのサバイバル戦術から、不安の管理、国際旅行の計画まで、幅広いトピックを網羅した数百のプロンプトを含むスプレッドシートによってガイドされます。
会話のプロンプトを深く掘り下げる:AIの想像力への一瞥
Project Xylophoneで使用されている会話のプロンプトは、AIモデルが処理するようにトレーニングされているシナリオとトピックの種類を垣間見ることができます。プロンプトは、実用的なものから哲学的なものまで、さらにはサイエンスフィクションの領域まで及びます。
以下に、Scale AIドキュメントで使用されている会話の開始例をいくつか示します。
- もしあなたが最初の火星居住地の「文化」を設計するとしたら、地球のどの伝統を確実に再現したいですか?そして、永遠に置いていきたいものは何ですか?
- あなたの日常生活の中で、「スーパーヒーローチームが急襲して皆のために修正してくれることを願う「悪役」は何ですか?
- 明日ゾンビの黙示録が襲ってきたら、逃げる前に家から最初に何をつかみますか?
- あなたが火星コロニーのミッション心理学者だと想像してください - あなたは仲間の入植者の中にどんな性格タイプや風変わりな特徴を見つけたいですか?
- 住宅所有者として経験した最も記憶に残る配管の災害は何ですか?そして、自分で修正しようとしましたか、すぐに助けを求めましたか?
- 初めてお金やより良い給付金を求める必要があったときのことを覚えていますか?あなたの頭の中には何が浮かんでいましたか?
これらのプロンプトは、契約者から自然でスクリプト化されていない回答を引き出すことを目的としており、それをAIモデルをトレーニングして、多種多様な会話シナリオを処理するために使用できます。
「良い」会話のための指示は、自然で感情的に聞こえることの重要性を強調しており、さまざまなイントネーションと中断があります。目標は、現実世界の人間との会話の自発性と予測不可能性を模倣することです。
グラスランドアプローチ:スクリプト化されていない、本物
構造化された「会話」コンポーネントとは対照的に、「グラスランド」コンポーネントは、ソロワーカーが母語でスクリプト化されていない、自然なサウンドの録音を作成することに焦点を当てています。これらのワーカーには会話の種類とサブカテゴリが与えられ、背景ノイズでさえ奨励されて、会話を自由に流れます。
「グラスランド」コンポーネントには、「ソクラテス式質問」、「反省的なストーリーテリング」、「宮廷愛のシナリオ」、「ヒーローと悪役の対立」、「共同パズル解決」など、数十のサブカテゴリが含まれています。これらのサブカテゴリには、異なるアクセント、効果音、または発明された言語パターンなどの特定の要件が含まれている場合がよくあります。
「グラスランド」アプローチは、より本物で制約のない方法で、人間の会話のニュアンスと複雑さを捉えたいという願望を反映しています。
AIトレーニングの経済学:報酬への一瞥
Project Xylophoneに関与するScale AIコントラクターは、彼らの貢献に対して報酬が支払われ、AIトレーニングの経済的側面が強調されています。報告によると、コントラクターは彼らの仕事に対してタスクごとに数ドル支払われます。
「グラスランド」プロジェクトの支払い構造は、タスクあたり3ドルで始まったと報告されていますが、その後タスクあたり1ドルに減額されました。各タスクにはオーディオファイルの録音が含まれており、コントラクターはScale AIプラットフォームにアップロードして手動で転記します。
低い賃金率は、AIモデルの作成とトレーニングに費やされる見えない労働を強調しています。
データ品質の重要性:人間のスピーチのニュアンスを捉える
AI音声モデルの成功は、膨大な量の高品質データの入手可能性にかかっています。Project Xylophoneは、人々の間の自然な会話など、現実世界のシナリオを再現することにより、適切なデータを生成する取り組みを反映しています。
「グラスランド」ドキュメントは、契約者に転写で””えー””などのフィラーワードを含めるように明示的に指示しています。この細部へのこだわりは、ポーズ、ためらい、その他のノンバーバルキューなど、人間のスピーチの微妙なニュアンスを捉えることの重要性を強調しています。
これらの要素をトレーニングデータに組み込むことにより、AIモデルはより自然で魅力的な会話を生成することを学ぶことができます。
AIへの個性の注入:競争上の優位性
Project Xylophoneは、ますます混雑する市場で差別化を図るために、AIモデルに個性を注入するAI企業の広範なトレンドの一部です。
たとえば、MetaはScale AIを介して、AIをトレーニングするギグワーカーに””賢くて神秘的な魔法使い””や””超興奮した音楽理論の学生””など、異なるペルソナを採用するように依頼するプロジェクトを実行したと報告されています。
OpenAIのSam Altmanは、最新のGPT-4oが””おべっか使いで迷惑になった””ことを認め、その返信をより自然にするためにリセットを促しました。
これらの取り組みは、AIモデルは単にインテリジェントであるだけでなく、好感が持てて共感できる必要があるという認識を反映しています。
AIトレーニングの倫理的側面:正確さと偏見のバランス
AIモデルがより洗練されるにつれて、偏見と倫理的考慮事項に関する懸念が高まり、責任あるAI開発に関する議論が巻き起こっています。
xAIは、Grokを、Muskが「目覚めている」ライバルと呼ぶものと比較して、政治的にエッジの効いたチャットボットとして販売しており、トレーニング方法は右翼または反体制的な見解に大きく依存することがあります。
xAIはまた、Grokの予測不可能な側面を制御するための取り組みを強化しました。新しい採用者はGrokを「レッドチーム化」し、特に物議を醸すトピックや「NSFW」または「支離滅裂」なモードで、安全でない、またはポリシーに違反する返信がないかストレスチェックを行っています。
これらの取り組みは、有益で倫理的なAIモデルを作成する課題と、継続的な監視と評価の必要性を強調しています。
AI音声モデルの継続的な進化:シームレスなインタラクションの未来
Project Xylophoneおよび同様のイニシアチブは、人間とシームレスに対話できるAI音声モデルを作成する探求における重要な一歩を表しています。AIテクノロジーが進化し続けるにつれて、将来的にはさらに洗練された自然なサウンドのAIアシスタントが見られると期待できます。
人間のようなAI音声モデルの追求には、課題がないわけではありません。偏見、倫理的考慮事項、悪用の可能性に関する懸念が残っています。ただし、これらのテクノロジーの潜在的な利点は、アクセシビリティの向上からコミュニケーションとコラボレーションの強化まで、計り知れません。
AI音声モデルがより普及するにつれて、これらの課題に積極的に対処し、これらのテクノロジーが責任を持って倫理的に使用されるようにすることが重要になります。AI音声モデルの未来には大きな可能性がありますが、すべての人類に利益をもたらす方法でその未来を形作るかどうかは私たち次第です。
リークされたドキュメントに見られるように、より人間らしいAIを作成する取り組みは困難です。AIは正しい文法で流暢に話すだけでなく、それと話す人にとって本物のように見える個性も持たなければなりません。この記念碑的なタスクが、これらの企業が今いる場所です。