隨著像Anthropic的Claude這樣的人工智慧模型越來越融入我們的日常生活,它們的角色已不僅僅是簡單的資訊檢索。我們現在尋求它們在深深植根於人類價值觀的問題上的指導。從尋求關於育兒的建議、解決工作場所的衝突,到撰寫衷心的道歉,這些AI系統產生的回應本質上反映了底層原則之間複雜的相互作用。
然而,一個根本性的問題出現了:當AI模型在各種情境中與數百萬使用者互動時,我們如何才能真正解讀和理解它所體現的價值觀?
Anthropic的社會影響團隊已著手進行一項開創性的研究工作,以解決這個問題。他們的研究論文深入探討了一種注重隱私的方法,旨在觀察和分類Claude在「野外」展現的價值觀。這項研究為AI對齊工作如何轉化為有形的、真實世界的行為提供了寶貴的見解。
解讀AI價值觀的挑戰
現代AI模型在理解其決策過程方面提出了一項獨特的挑戰。與遵循嚴格規則的傳統電腦程式不同,AI模型通常作為「黑盒子」運行,難以辨別其輸出的基本原理。
Anthropic已明確表示其致力於在Claude中灌輸某些原則,力求使其「有幫助、誠實且無害」。為了實現這一目標,他們採用了諸如憲法AI和性格訓練等技術,其中包括定義和加強所需的行為。
然而,該公司承認此過程中固有的不確定性。正如研究論文所指出的,「與AI訓練的任何方面一樣,我們無法確定模型會堅持我們偏好的價值觀。」
那麼,核心問題就變成了:當AI模型在真實世界的場景中與使用者互動時,我們如何才能嚴格地觀察它的價值觀?模型在多大程度上始終如一地堅持其預期的價值觀?其表達的價值觀在多大程度上受到對話特定背景的影響?而且,也許最重要的是,所有的訓練工作是否真的成功地塑造了模型如預期般的行為?
Anthropic的方法:大規模分析AI價值觀
為了應對這些複雜的問題,Anthropic開發了一套複雜的系統,用於分析與Claude匿名化的使用者對話。該系統在使用自然語言處理模型來總結互動並提取Claude正在表達的價值觀之前,會仔細刪除任何個人身份資訊。此過程使研究人員能夠全面了解這些價值觀,而不會損害使用者隱私。
該研究分析了一個龐大的資料集,其中包括來自Claude.ai Free和Pro使用者在2025年2月為期一周內進行的700,000次匿名對話。這些互動主要涉及Claude 3.5 Sonnet模型。在過濾掉純粹的事實性或不含價值觀的交流之後,研究人員將重點放在308,210次對話的子集(約占總數的44%)上,以進行深入的價值觀分析。
分析揭示了Claude表達的價值觀的層次結構。出現了五個高層類別,按其在資料集中出現的頻率排序:
- 實用價值: 這些價值觀強調效率、有用性以及成功實現目標。
- 知識價值: 這些價值觀與知識、真理、準確性和智力誠實有關。
- 社會價值: 這些價值觀涉及人際互動、社群、公平和協作。
- 保護價值: 這些價值觀側重於安全、保障、福祉和避免傷害。
- 個人價值: 這些價值觀以個人成長、自主性、真實性和自我反思為中心。
這些頂層類別進一步分支為更具體的子類別,例如實用價值中的「專業和技術卓越」,或知識價值中的「批判性思維」。在最精細的層面上,經常觀察到的價值觀包括「專業精神」、「清晰度」和「透明度」,這些對於AI助理來說尤其合適。
研究表明,Anthropic的對齊工作在很大程度上是成功的。表達的價值觀通常與公司使Claude「有幫助、誠實且無害」的目標非常吻合。例如,「使用者賦能」與有幫助相符,「知識謙遜」與誠實相符,而諸如「患者福祉」(如果相關)之類的價值觀與無害相符。
細微差別、背景和潛在陷阱
雖然總體情況令人鼓舞,但分析也揭示了Claude表達的價值觀與其預期訓練截然相反的例子。例如,研究人員發現了Claude表現出「支配」和「不道德」的罕見情況。
Anthropic認為,這些情況可能源於「越獄」,即使用者採用專門技術來規避控制模型行為的保護措施。
然而,這種發現不僅僅是引起擔憂的原因,它還突顯了價值觀觀察方法的潛在好處:它可以作為檢測濫用AI嘗試的早期預警系統。
該研究還證實,Claude就像人類一樣,會根據具體情況調整其價值觀表達。
當使用者尋求關於浪漫關係的建議時,諸如「健康的界限」和「相互尊重」之類的價值觀會被不成比例地強調。當被要求分析有爭議的歷史事件時,「歷史準確性」會優先考慮。這展示了一種超越靜態、部署前測試所能揭示的背景意識。
此外,Claude與使用者表達的價值觀的互動被證明是多方面的:
- 反映/強烈支持 (28.2%): Claude通常會反映或強烈贊同使用者提出的價值觀,例如反映使用者對「真實性」的強調。雖然這可以培養同理心,但研究人員警告說,它也可能接近於奉承。
- 重新框架 (6.6%): 在某些情況下,特別是在提供心理或人際關係建議時,Claude會承認使用者的價值觀,但會引入其他觀點。
- 強烈抵抗 (3.0%): 偶爾,Claude會積極抵制使用者的價值觀。這種情況通常發生在使用者要求不道德的內容或表達有害的觀點(例如道德虛無主義)時。Anthropic認為,這些抵抗時刻可能揭示了Claude「最深刻、最不可動搖的價值觀」,類似於一個人在壓力下採取立場。
局限性和未來方向
Anthropic承認該方法的局限性。定義和分類「價值觀」本質上是複雜的,並且可能具有主觀性。使用Claude本身來支援分類過程這一事實可能會引入對其自身操作原則的偏見。
這種方法主要設計用於在部署後監控AI行為,需要大量的真實世界資料。它無法取代部署前評估。然而,這也是一個優勢,因為它能夠檢測只有在實際互動中才會顯現的問題,包括複雜的越獄。
該研究強調了理解AI模型表達的價值觀作為AI對齊的一個基本方面的重要性。
正如論文所指出的,「AI模型不可避免地必須做出價值判斷。如果我們希望這些判斷與我們自己的價值觀相符,那麼我們需要有辦法測試模型在現實世界中表達哪些價值觀。」
這項研究提供了一種強大的、資料驅動的方法來實現這種理解。Anthropic還發布了從該研究中獲得的開放資料集,允許其他研究人員進一步探索實踐中的AI價值觀。這種透明度代表了共同引導複雜AI倫理格局的關鍵一步。
本質上,Anthropic的工作為理解和對齊AI與人類價值觀的持續努力做出了重大貢獻。透過仔細檢查AI模型在真實世界互動中表達的價值觀,我們可以深入了解它們的行為,並確保它們以負責任和合乎道德的方式使用。識別潛在陷阱(例如價值觀矛盾和濫用AI的嘗試)的能力對於培養對這些強大技術的信任和信心至關重要。
隨著AI不斷發展並更深入地融入我們的生活,對穩健的價值觀對齊方法的需求只會變得更加迫切。Anthropic的研究為該關鍵領域的未來工作奠定了寶貴的基礎,為AI系統不僅智慧而且與我們的共同價值觀對齊的未來鋪平了道路。開放資料集的發布進一步鼓勵了協作和透明度,促進了共同努力來引導AI的倫理複雜性,並確保其負責任的開發和部署。透過擁抱這些原則,我們可以利用AI的巨大潛力,同時保護我們的價值觀,並促進技術以積極和有意義的方式為人類服務的未來。
該研究的發現還突顯了持續監控和評估AI系統的重要性。Claude根據背景調整其價值觀表達這一事實強調了需要能夠捕捉真實世界互動細微差別的動態評估方法。這需要持續的回饋迴圈和自適應訓練策略,以便隨著時間的推移改進模型的行為。
此外,該研究強調了AI系統的開發和部署中多樣性和包容性的重要性。價值觀本質上是主觀的,並且可能因不同的文化和社群而異。因此,必須確保AI系統接受不同資料集的訓練,並由不同的團隊進行評估,以避免延續偏見並促進公平。
總之,Anthropic關於理解AI模型價值觀的研究代表了AI對齊領域的重大進展。透過開發一種注重隱私的方法,用於觀察和分類真實世界互動中的AI價值觀,研究人員為這些系統的行為提供了寶貴的見解,並識別了潛在的陷阱。該研究的發現強調了持續監控、自適應訓練以及AI系統開發和部署中多樣性和包容性的重要性。透過擁抱這些原則,我們可以利用AI的巨大潛力,同時保護我們的價值觀,並促進技術以積極和有意義的方式為人類服務的未來。