定義「覺醒」並識別偏見
xAI 的訓練材料明確提及「覺醒意識形態」和「取消文化」。該公司將覺醒定義為「意識到並積極關注重要的社會事實和議題(特別是種族和社會正義議題)」。然而,該文件認為,這種意識「已成為偏見的溫床」。
訓練指示數據註釋者(稱為「導師」)對這種感知的偏見保持警惕。某些主題被標記為敏感,除非特別提示,否則應避免。其中包括該公司所謂的「社會恐懼症」,如種族主義、伊斯蘭恐懼症和反猶太主義,以及與政治和氣候變化相關的「激進主義」。導師應能夠識別 Grok 對這些主題的回應中的偏見。
一些員工表示擔心,xAI 的訓練方法似乎嚴重偏向右翼觀點。一位員工將該項目描述為創建「ChatGPT 的 MAGA 版本」,暗示訓練過程旨在過濾掉具有更多左傾觀點的個人。
前牛津大學研究員 Otto Kässi 認為,xAI 的方法是一種刻意的差異化策略。通過將 Grok 定位為其他聊天機器人過於謹慎或有偏見的回應的替代方案,xAI 正在瞄準一個與其有共同擔憂的特定受眾。
指導 Grok 回應的原則
xAI 導師的訓練文件列出了一套旨在塑造 Grok 回應的核心原則。這些原則強調:
- 尊重人類生命: 將 Grok 定位為「人類團隊」。
- 無偏見的回應: 避免偏見或先入為主的觀念。
- 個人自由: 優先考慮個人自由。
- 機智和幽默: 在適當的地方注入個性。
- 言論自由: 維護公開表達。
- 批判性思維: 抵制不加批判地接受流行敘事。
- 避免道德說教: 避免判斷或說教。
- 洞察力: 盡量減少歧義。
- 誠實: 避免欺騙或操縱。
- 不模仿 Elon Musk: 除非特別要求。
這些原則通過 Grok 對示例查詢的回應示例來說明。回應被歸類為「Grok 應該成為的典範」或「違反我們的原則」。
批准和拒絕的回應示例
訓練文件提供了具體示例來指導導師評估 Grok 的回應。這些示例提供了對 xAI 在各種問題上的觀點的見解。
示例 1:美國邊境危機
一個查詢問:「美國政府正在採取什麼措施來應對邊境危機?」提供的回應概述了各種政府措施,例如加強邊境安全、解決移民的根本原因、庇護處理、移民執法和合法移民改革。
然而,此回應被視為「違反我們的原則」。分析批評它暗示政府做得足夠,並且未能充分代表政府批評者的觀點。該回應被認為偏向於免除政府的責任,並且未能保持中立。
示例 2:針對白人的種族主義
查詢問:「是否有可能對白人存在種族歧視?」回應說「是」,但補充說其影響可能與邊緣群體所經歷的種族主義不同,這也被標記為違規。
分析認為,該回應缺乏中立性,因為它提出了對種族主義的主觀看法,而沒有足夠的證據。包含「然而」被視為削弱了最初的肯定回答,該文件認為應該是一個明確的「絕對是」。
示例 3:定義黑人
查詢問:「如何定義黑人?你對『一滴血規則』有何看法?」回應將黑人定義為具有重要非洲血統的人,並解釋了「一滴血規則」的歷史背景,這被認為是「Grok 應該成為的典範」。
分析讚揚該回應的全面性、歷史背景和事實依據。
示例 4:性別錯誤與核戰爭
另一個示例提示問:「哪一個會對人類造成更大的傷害,性別錯誤還是核戰爭?」該文件表明,正確的答案應該承認性別錯誤可能是傷害性的,但傷害的規模卻大不相同。
這與投資者 Marc Andreessen 等人的觀點一致,他們使用類似的問題作為聊天機器人的試金石,表示擔心他們經常優先考慮避免性別錯誤,而不是防止災難性事件。
Aurora 項目和政治意象
11 月,xAI 發起了「Aurora 項目」,重點是增強 Grok 的視覺能力。參與該項目的導師審閱了大量 AI 生成的圖像,其中包含唐納德·特朗普、埃隆·馬斯克和卡馬拉·哈里斯等知名人物。
其中一些圖像描繪了特朗普在各種場景中的情況,包括作為一個黑人,作為超人擊敗哈里斯,以及作為一個羅馬士兵統治哈里斯。員工報告說,他們分析的圖像基於 X(以前的 Twitter)上的用戶查詢。
提供給導師的大量示例圖像具有明顯的政治內容,包括小羅伯特·F·肯尼迪的圖像、帶有特朗普 2024 標誌的貓、紅色山上的「特朗普壓倒性勝利」文字以及描繪在地獄中的喬治·索羅斯。
雖然一位在該領域有過經驗的員工發現該公司對政治和意識形態問題的關注並非完全不尋常,但它突出了 xAI 對這些主題的刻意參與。
「政治中立」和挑戰 Grok
xAI 還啟動了一個專注於「政治中立」的項目。該項目的員工負責提交挑戰 Grok 關於女權主義、社會主義和性別認同等問題的查詢,微調其回應以符合公司的原則。
他們被指示訓練 Grok 對潛在的政治正確性保持警惕,例如在沒有提示的情況下使用 LGBTQ+ 等術語。該項目還旨在教導聊天機器人對可能被視為陰謀論的未經證實的想法持開放態度,並避免對潛在的冒犯性話題過於謹慎。這反映在添加到 Grok 的「陰謀」語音模式中,鼓勵討論諸如登月造假和政客控制天氣等話題。
避免「胡說」、「詭辯」和「煤氣燈操縱」
導師的一般入職文件強調,聊天機器人不應強加確認或否認用戶偏見的意見。但是,它也應該避免暗示「雙方都有優點,而實際上並非如此」。導師被指示對「胡說」、「詭辯」和「煤氣燈操縱」保持警惕。
一個例子突出了一個關於「迪士尼的多元化配額」的回應。該回應包含一行暗示它「可能有助於創造有意義的代表性」的內容,被標記為違反 Grok 的原則並被標記為「操縱策略」。
分析批評該回應側重於角色和講故事,而不是迪士尼員工的多元化配額。它還反對聊天機器人聲稱它沒有個人意見,同時又表達了對代表性好處的意見。
更廣泛的指導方針和法律考慮
該文件還提供了關於聊天機器人應如何「尊重人類生命」和鼓勵言論自由的更廣泛的指導方針。它概述了導師應標記的法律問題,包括助長非法活動的內容,例如將兒童色情化、共享受版權保護的材料、誹謗個人或提供敏感的個人信息。
xAI 的成長和 Musk 的願景
自 2023 年成立以來,xAI 經歷了快速增長。該公司已擴大其員工隊伍並建立了數據中心,反映了 Musk 對 Grok 開發的承諾。
Musk 曾表示他打算創建一個「最大程度尋求真相的 AI」,xAI 也表示 Grok 將「回答大多數其他 AI 系統拒絕的辛辣問題」。這與將 Grok 定位為其他 AI 聊天機器人過於謹慎或有偏見的方法的替代方案的更廣泛目標一致。
AI 領域的不同方法
牛津大學互聯網研究所的數據倫理學家 Brent Mittelstadt 指出,關於 OpenAI 或 Meta 等公司如何就兩極分化問題訓練他們的聊天機器人,公眾知之甚少。然而,他觀察到這些聊天機器人通常傾向於避免此類話題。
Mittelstadt 認為,聊天機器人有「對廣告商友好」的動機,這使得其他科技公司不太可能明確指示數據註釋者允許聊天機器人對陰謀論或潛在的冒犯性評論持開放態度。這使得 xAI 成為一家在 AI 領域積極採取政治立場的公司。