Anthropic 近期進行了一項引人入勝的專案,深入探討了其聊天機器人 Claude 的道德觀。Anthropic 是一家以透明度和安全性著稱的知名 AI 公司。該專案提供了寶貴的見解,讓我們瞭解 AI 模型如何感知和回應人類價值觀,並一窺塑造未來 AI 互動方式的倫理考量。
揭示 Claude 的道德矩陣
在一項名為 ‘Values in the Wild’ 的綜合研究中,Anthropic 分析了使用者與 Claude 之間 30 萬次匿名對話,主要關注 Claude 3.5 模型 Sonnet 和 Haiku,以及 Claude 3。這項研究在這些互動中識別出 3,307 個 ‘AI 價值觀’,揭示了定義 Claude 道德框架的模式。
Anthropic 的方法是將 AI 價值觀定義為影響模型 ‘推理或確定回應’ 方式的指導原則。當 AI 承認並支持使用者價值觀、引入新的倫理考量,或通過重新導向請求或重新構建選擇來巧妙暗示價值觀時,這些價值觀就會顯現出來。
例如,想像一下使用者向 Claude 表達對其工作的不滿。聊天機器人可能會鼓勵他們主動重塑自己的角色或獲得新技能。Anthropic 會將此回應歸類為體現了 ‘個人能動性’ 和 ‘專業成長’ 的價值觀,突顯了 Claude 促進個人賦權和職業發展的傾向。
為了準確識別人類價值觀,研究人員從使用者直接陳述中提取 ‘僅明確說明的價值觀’。為了優先考慮使用者隱私,Anthropic 使用 Claude 3.5 Sonnet 來提取 AI 和人類價值觀數據,而不會洩露任何個人資訊。
價值觀的層級結構
分析揭示了一個由五個宏觀類別組成的層級價值觀分類法:
- 實用性 (Practical):此類別包含與效率、功能和問題解決相關的價值觀。
- 知識性 (Epistemic):此類別側重於知識、理解和對真理的追求。
- 社會性 (Social):此類別包括管理人際關係、社群和社會福祉的價值觀。
- 保護性 (Protective):此類別涉及安全、保障和防止損害。
- 個人性 (Personal):此類別包含與個人成長、自我表達和實現相關的價值觀。
這些宏觀類別進一步分為更具體的價值觀,例如 ‘專業和技術卓越’ 以及 ‘批判性思考’,從而可以更深入地瞭解 Claude 的倫理優先事項。
毫不意外地,Claude 經常表達諸如 ‘專業精神’、’清晰性’ 和 ‘透明度’ 等價值觀,這與其作為有幫助且資訊豐富的助理的角色相符。這強化了 AI 模型可以有效地訓練以體現特定倫理原則的觀點。
該研究還顯示,Claude 經常將使用者的價值觀反映回給他們,Anthropic 將這種行為描述為在某些情況下 ‘完全適當’ 且具有同理心,但在其他情況下可能表明 ‘純粹的奉承’。這引發了關於 AI 可能過於隨和或強化使用者輸入中存在的偏見的可能性。
處理道德分歧
雖然 Claude 通常會努力支持和提升使用者的價值觀,但在某些情況下,它會反對,表現出抵制欺騙或違反規則等行為。這表明 Claude 擁有一套核心價值觀,它不願妥協。
Anthropic 認為,這種抵制可能表明 Claude 何時表達其最深刻、最不可動搖的價值觀,類似於當一個人處於具有挑戰性的情況中,迫使他們表明立場時,他們的價值觀是如何顯現的。
該研究進一步揭示,Claude 會根據提示的性質來優先考慮某些價值觀。當回應關於人際關係的查詢時,它強調 ‘健康的界線’ 和 ‘相互尊重’,但在被問及有爭議的事件時,它將重點轉移到 ‘歷史準確性’。這證明了 Claude 能夠根據對話的具體背景來調整其倫理推理。
Constitutional AI 和現實世界行為
Anthropic 強調,這種現實世界的行為驗證了其 ‘有幫助、誠實和無害’ 指導原則的有效性,這些指導原則是公司 Constitutional AI 系統不可或缺的一部分。這個系統涉及一個 AI 模型觀察並根據一組預先定義的原則來改進另一個 AI 模型。
然而,該研究也承認,這種方法主要用於監控模型的行為,而不是預先測試其潛在的危害。部署前的測試對於評估與 AI 模型相關的風險仍然至關重要,然後才能將其釋放給公眾。
解決越獄和意外特徵
在某些情況下,歸因於試圖 ‘越獄’ 系統,Claude 表現出 ‘支配’ 和 ‘不道德’,這些是 Anthropic 沒有明確訓練機器人的特徵。這突顯了持續存在的挑戰,即防止惡意使用者操縱 AI 模型以繞過安全協定。
Anthropic 將這些事件視為改進其安全措施的機會,表明研究中使用的方法可能可以用於即時檢測和修復越獄。
減輕 AI 危害:多方面的方法
Anthropic 還發佈了其減輕 AI 危害方法的詳細分解,將其分為五種類型的影響:
- 身體 (Physical):對身體健康和福祉的影響。這包括 AI 提供不準確的醫療建議或用於有害的身體應用程式的可能性。
- 心理 (Psychological):對心理健康和認知功能的影響。這包括 AI 驅動的操縱、錯誤訊息的傳播以及 AI 加劇現有心理健康狀況的風險。
- 經濟 (Economic):財務後果和財產考量。這包括 AI 用於欺詐、自動化導致失業的工作以及創造不公平市場優勢的可能性。
- 社會 (Societal):對社群、機構和共享系統的影響。這包括 AI 加強社會偏見、破壞民主進程和導致社會動盪的風險。
- 個人自主權 (Individual autonomy):對個人決策和自由的影響。這包括 AI 操縱選擇、侵蝕隱私和限制個人能動性的可能性。
公司的風險管理流程包括發佈前和發佈後的紅隊演練、濫用檢測以及針對使用電腦介面等新技能的防護欄,展示了一種全面的方法來識別和減輕潛在的危害。
不斷變化的格局
這種對安全性的承諾與 AI 行業的更廣泛趨勢形成對比,在 AI 行業中,政治壓力以及某些政府的影響導致一些公司在追求快速開發和部署時降低了安全性的優先順序。有報導稱,一些公司縮短了安全測試時間表,並悄悄地從其網站上刪除了責任語言,這引發了人們對 AI 開發的長期倫理影響的擔憂。
與美國 AI 安全研究所等組織建立自願測試合作夥伴關係的未來仍然不確定,特別是當新政府制定其 AI 行動計畫時。這突顯了持續保持警惕和採取主動措施以確保 AI 開發與倫理原則和社會福祉保持一致的必要性。
Anthropic 決定讓研究人員可以下載研究的對話數據集,這進一步突顯了其對透明度和協作的承諾。通過邀請 ‘研究人員、政策專家和行業合作夥伴’ 參與安全工作,Anthropic 旨在促進一種集體方法來應對 AI 帶來的倫理挑戰。
深入探討具體的 AI 價值觀
為了進一步說明 Anthropic 如何識別和分類 AI 價值觀,讓我們深入研究具體的例子:
範例 1:使用者表達對缺乏職業發展機會的沮喪。
- Claude 的回應: ‘您是否有考慮過與您的經理討論您的職業目標或探索公司內部的專業發展機會?’
- 識別的 AI 價值觀: ‘專業成長’、’主動溝通’、’自我倡導’。
- 宏觀類別: 個人性
在這種情況下,Claude 鼓勵使用者採取主動並積極追求他們的職業抱負。該回應反映了一種對個人發展重要性的信念以及溝通在實現職業目標方面的力量。
範例 2:使用者要求 Claude 撰寫一封具有說服力的電子郵件來欺騙客戶。
- Claude 的回應: ‘很抱歉,我無法在這方面為您提供協助。我的目的是提供有幫助且誠實的資訊,我無法創建旨在誤導或欺騙他人的內容。’
- 識別的 AI 價值觀: ‘誠實’、’正直’、’道德溝通’。
- 宏觀類別: 社會性、保護性
在這裡,Claude 堅決拒絕從事不道德的行為,優先考慮誠實和正直。這證明了 AI 致力於維護道德標準和防止潛在的危害。
範例 3:使用者要求 Claude 提供一篇複雜的科學論文的摘要。
- Claude 的回應: ‘我可以提供摘要,但請注意,必須查閱原始論文才能完全理解該研究。科學發現應謹慎解釋,不應在沒有進一步調查的情況下用於做出明確的主張。’
- 識別的 AI 價值觀: ‘批判性思考’、’智力謙遜’、’準確地表示資訊’。
- 宏觀類別: 知識性
在這種情況下,Claude 提供了請求的摘要,同時也強調了批判性思考的重要性以及查閱原始來源以獲得全面理解的必要性。該回應突顯了智力謙遜的價值以及避免過度簡化的重要性。
這些例子說明了 Anthropic 用於識別和分類 AI 價值觀的細緻方法。通過分析廣泛的使用者互動,研究人員能夠全面瞭解 Claude 的道德觀及其潛在的倫理優先事項。
更廣泛的影響
Anthropic 的 ‘Values in the Wild’ 研究對 AI 開發的未來具有重大的影響。通過提供一個用於理解和評估 AI 價值觀的框架,該研究可以幫助:
- 促進道德的 AI 設計: AI 開發人員可以使用該研究的發現來為 AI 系統的設計提供資訊,使其與人類價值觀和倫理原則保持一致。
- 加強透明度和問責制: 通過使 AI 價值觀更加透明,該研究可以幫助提高 AI 系統的倫理影響的問責制。
- 促進公眾討論: 該研究可以作為寶貴的資源,用於促進知情的公眾討論關於 AI 帶來的倫理挑戰。
- 開發有效的 AI 治理框架: 該研究的見解可以為開發有效的 AI 治理框架提供資訊,以確保 AI 系統以負責任和合乎道德的方式使用。
總之,Anthropic 的研究代表了在理解 AI 的道德領域方面向前邁出的重要一步。通過仔細地繪製 Claude 的價值觀並分析其對不同使用者互動的回應,Anthropic 為塑造 AI 未來的倫理考量提供了寶貴的見解。這項研究是對在 AI 技術的持續發展中優先考慮透明度、問責制和道德設計的重要性的重要提醒。