人工智慧 (AI) 追求模仿人類互動,促成了許多引人入勝,偶爾也令人不安的發展。為了創造不僅聰明,而且更具親和力的人工智慧助理,各家公司正在採用各種技術來訓練其語音模型。最近的揭露闡明了其中一項努力:xAI 的「Project Xylophone」。
Project Xylophone 揭秘:打造對話式 AI
洩漏的文件揭露了 Project Xylophone 的內部運作,這是一個 Scale AI 的倡議,旨在改進 xAI 的語音模型。該專案的核心是讓承包商錄製自己即興創作的各種主題的對話。總體目標是使 xAI 的模型具有更自然、更像人類的品質,擺脫通常 AI 互動中出現的機械式語氣。
這些由資料標記公司 Scale AI 尋找的承包商,會因錄製與同儕就各種主題進行的對話而獲得報酬,這些主題從平凡到充滿想像力,都是為了使 xAI 的語音模型聽起來更真實。截至四月,Scale AI 至少為 xAI 管理了 10 個生成式 AI 專案,反映了對該領域的投入。
全產業對更具對話性的 AI 的推動,源於吸引使用者使用這些服務的優質、付費版本的渴望。 透過使 AI 互動更加愉快和自然,公司希望吸引使用者投資這些先進技術。
對話式訓練的藍圖
Business Insider 取得了一系列 Scale AI 文件,這些文件詳細介紹了 Project Xylophone 的運作方式。這些文件,包括專案說明、審閱者指南和對話主題指南,提供了對專案方法的全面概述。
雖然文件中未公開正在訓練的特定 xAI 模型,但該專案對「音訊品質和自然流暢度」的關注表明,它非常重視創造無縫且引人入勝的使用者體驗。特別鼓勵具有配音經驗的承包商參與,這反映了聲音表現對於達到所需真實感的重要性。
Project Xylophone 的結構圍繞兩個主要組成部分:「Conversations」和「Grasslands」。「Conversations」部分涉及由三名承包商組成的團隊,透過 Zoom 進行逼真的對話。 這些對話由包含數百個提示的試算表引導,涵蓋廣泛的主題,從後世界末日世界的生存策略到管理焦慮和規劃國際旅行。
深入了解對話提示:一窺 AI 的想像力
Project Xylophone 中使用的對話提示,讓您可以一窺 AI 模型正在接受訓練以處理的場景和主題。 這些提示範圍從實用到哲學,甚至深入到科幻領域。
以下是 Scale AI 文件中使用的一些對話起點範例:
- 如果您要為第一個火星殖民地設計"文化",您絕對想重現什麼地球傳統,以及您會很高興永遠拋下什麼?
- 您日常生活中,希望超級英雄團隊可以衝進來為大家解決的"惡棍"是什麼?
- 如果殭屍末日明天降臨,在逃跑之前,您會從家裡拿走的第一件事是什麼?
- 想像您是火星殖民地的任務心理學家 - 您會暗中希望在您的殖民者同伴中找到什麼樣的性格類型或古怪特徵?
- 作為房主,您經歷過最難忘的管道災難是什麼 - 您是嘗試自己修理還是立即打電話求助?
- 您還記得第一次不得不要求更多錢或更好的福利嗎? 當時您在想什麼?
這些提示旨在引出承包商自然、非腳本的回應,然後可用於訓練 AI 模型以處理各種對話場景。
「好的」對話的說明強調了聽起來自然和充滿情感的重要性,具有不同的語調和中斷。 目標是模仿真實世界人類對話的自發性和不可預測性。
草原方法:無腳本且真實
與結構化的「Conversations」部分相反,「Grasslands」部分側重於單獨工作者以其母語創建無腳本、聽起來自然的錄音。 這些工作者會獲得對話類型和子類別,並鼓勵讓對話自由流動,甚至鼓勵背景噪音。
「Grasslands」部分包含數十個子類別,包括「蘇格拉底式提問」、「反思性講故事」、「宮廷愛情場景」、「英雄 - 惡棍對峙」和「協作解謎」。 這些子類別通常涉及特定要求,例如不同的口音、音效或發明的語言模式。
「Grasslands」方法反映了以更真實和無約束的方式捕捉人類對話的細微差別和複雜性的渴望。
AI 訓練的經濟學:一窺薪酬
參與 Project Xylophone 的 Scale AI 承包商會因其貢獻而獲得報酬,這突顯了 AI 訓練的經濟層面。 據報導,承包商因其工作而獲得每項任務幾美元的報酬。
據報導,「Grasslands」專案的支付結構最初為每項任務 3 美元,但後來降至每項任務 1 美元。每項任務都涉及錄製音訊檔案,然後承包商將其上傳到 Scale AI 平台並手動轉錄。
低工資凸顯了創建和訓練 AI 模型過程中常常看不見的勞動。
資料品質的重要性:捕捉人類語音的細微差別
AI 語音模型的成功取決於大量高品質資料的可用性。 Project Xylophone 反映了透過重建真實世界場景(例如人與人之間聽起來自然的對話)來產生合適資料的努力。
「Grasslands」文件明確指示承包商在其轉錄中包含諸如「呃」之類的填充詞。 這種對細節的關注突顯了捕捉人類語音的微妙細微差別的重要性,包括停頓、猶豫和其他非語言線索。
透過將這些元素納入訓練資料,AI 模型可以學習產生更自然和引人入勝的對話。
將個性注入 AI:競爭優勢
Project Xylophone 是 AI 公司在不斷擠迫的市場中,將個性注入其 AI 模型,以尋求差異化的更廣泛趨勢的一部分。
例如,據報導,Meta 透過 Scale AI 執行了一個專案,要求 gig 工作者訓練其 AI 採用不同的角色,例如「一位聰明而神秘的巫師」或「一位過度興奮的音樂理論學生」。
OpenAI 的 Sam Altman 承認,最新的 GPT-4o 變得「太過逢迎和煩人」,促使重置以使其回覆更自然。
這些努力反映了一種認識,即 AI 模型不能僅僅是智能的 - 它們還需要令人喜愛和產生共鳴。
AI 訓練的倫理層面:平衡準確性與偏差
隨著 AI 模型變得越來越複雜,對偏差和倫理考量的擔憂日益增加,引發了關於負責任的 AI 開發的辯論。
與馬斯克所說的「覺醒」競爭對手相比,xAI 一直將 Grok 行銷為在政治上更前衛的聊天机器人,其训练方法有时严重倾向于右翼或反对观点。
xAI 也加大了控制 Grok 不可預測性一面的力度。 新員工正在對 Grok 進行「紅隊演練」,壓力測試它是否存在不安全或違反政策的回覆,尤其是在有爭議的主題以及「NSFW」或「失控」模式下。
這些努力凸顯了創建既信息豐富又合乎倫理的 AI 模型所面臨的挑戰,以及持續監控和評估的必要性。
AI 語音模型的持續演進:無縫互動的未來
Project Xylophone 和類似的倡議代表了在創建可以與人類無縫互動的 AI 語音模型的努力中,邁出了重要的一步。 隨著 AI 技術的不斷發展,我們可以預期在未來會看到更加複雜和聽起來自然的人工智慧助理。
追求像人類一樣的 AI 語音模型並非沒有挑戰。 對偏差、倫理考量和潛在濫用的擔憂依然存在。然而,這些技術的潛在好處是巨大的,從改善可訪問性到增強溝通和協作。
隨著 AI 語音模型變得越來越普遍,重要的是主動解決這些挑戰,並確保這些技術得到負責任和合乎道德的使用。 AI 語音模型的未來充滿希望,但由我們來塑造那樣的未來,造福全人類。
正如洩漏的文件所證明的那樣,創造更像人類的 AI 是一項艱鉅的任務。 AI 不僅必須以正確的語法流利地說話,而且還必須具有對與之交談的人來說似乎真實的人格。 這些公司現在發現自己面臨著這項巨大的任務。