揭秘內心迷宮:Anthropic 解碼大型語言模型運作的探索

人工認知的謎團:超越計算

將我們稱為大型語言模型 (Large Language Models, LLMs) 的複雜系統擬人化,是誘人且幾乎無法抗拒的。我們透過自然語言與它們互動,它們能生成連貫的文本、翻譯語言,甚至從事看似具有創造性的工作。觀察它們的輸出,人們可能會隨口評論說它們在「思考」。然而,剝開層層外衣,揭示的現實卻與人類意識或生物推理相去甚遠。在其核心,LLMs 是複雜的統計引擎,是從龐大數據集中提取模式的高超操縱者。它們的運作並非透過理解或感知,而是透過錯綜複雜的機率計算。

這些模型透過將語言分解為基本單位(通常稱為 ‘tokens’)來運作。這些 tokens 可以是單詞、詞的一部分,甚至是標點符號。透過稱為嵌入 (embedding) 的過程,每個 token 被映射到一個高維向量,這是一個捕捉其意義和與其他 tokens 關係的數值表示。魔法發生在複雜的架構中,通常涉及 transformers,其中的注意力機制 (attention mechanisms) 在生成回應時,權衡不同 tokens 相對於彼此的重要性。數十億,有時甚至數萬億的參數——本質上是人工神經元之間的連接強度——在計算密集型的訓練階段進行調整。其結果是一個擅長預測序列中下一個最可能出現的 token 的系統,前提是給定了前面的 tokens 和初始提示 (prompt)。這種預測能力,在海量的文本和程式碼中磨練而成,使得 LLMs 能夠生成極其像人類的語言。然而,這個過程基本上是預測性的,而非認知性的。沒有內在世界,沒有主觀經驗,僅僅是從輸入到可能輸出的極其複雜的映射。在我們深入探討它們的能力與局限性時,理解這種區別至關重要。

面對黑盒子:可解釋性的迫切需求

儘管它們擁有令人印象深刻的能力,一個重大的挑戰仍然困擾著人工智能 (artificial intelligence, AI) 領域:「黑盒子」問題。雖然我們可以觀察這些龐大神經網路的輸入和輸出,但數據在模型內部的複雜旅程——跨越數十億參數的精確計算和轉換序列——在很大程度上仍然是不透明的。我們建造它們,我們訓練它們,但我們並不完全理解它們發展出的內在邏輯。這不是傳統意義上的程式設計,其中每一步都由人類工程師明確定義。相反,它類似於天文尺度的園藝;我們提供種子(數據)和環境(架構和訓練過程),但確切的生長模式(內部表示和策略)是有機地,有時是不可預測地,從數據和演算法的相互作用中產生。

這種缺乏透明度不僅僅是學術上的好奇心;它對 AI 的安全可靠部署具有深遠的影響。我們如何能真正信任一個我們無法審查其決策過程的系統?諸如演算法偏見 (algorithmic bias) 的問題,即模型延續甚至放大其訓練數據中存在的社會偏見,在不了解偏見如何被編碼和激活的情況下,變得更難診斷和糾正。同樣地,「幻覺」(hallucinations) 現象——模型生成自信但事實上不正確或荒謬的陳述——也突顯了深入洞察的需求。如果一個模型產生有害、誤導或僅僅是不準確的資訊,理解內部的失敗點對於防止再次發生至關重要。隨著 AI 系統越來越多地融入醫療保健、金融和自動駕駛系統等高風險領域,對可解釋性 (explainability) 和可信賴性 (trustworthiness) 的需求日益加劇。建立健全的安全協議並保證可靠的性能,取決於我們是否有能力超越將這些模型視為難以理解的黑盒子,並更清晰地了解它們的內部機制。因此,追求可解釋性不僅僅是為了滿足科學好奇心,而是為了建立一個 AI 成為可靠且有益夥伴的未來。

Anthropic 的創新:繪製神經通路圖

為了應對這種對透明度的關鍵需求,AI 安全與研究公司 Anthropic 的研究人員開創了一種新穎的技術,旨在揭示 LLMs 隱藏的運作方式。他們將其方法概念化為在模型的神經網路內執行「電路追蹤」(circuit trace)。這種方法提供了一種剖析和追蹤模型在處理資訊時所利用的特定激活路徑的方式,從初始提示移動到生成的響應。這是一種嘗試,旨在繪製模型龐大內部景觀中不同學習概念或特徵之間影響流動的地圖。

經常被引用的類比是神經科學中使用的功能性磁振造影 (functional Magnetic Resonance Imaging, fMRI)。正如 fMRI 掃描揭示了人類大腦的哪些區域在響應特定刺激或在特定認知任務期間變得活躍一樣,Anthropic 的技術旨在識別人工神經網路的哪些部分「亮起」並對模型的特定輸出方面做出貢獻。透過仔細追蹤這些激活路徑,研究人員可以獲得前所未有的洞察力,了解模型如何表示和操縱概念。這並非要理解每一個參數的功能——考慮到它們的龐大數量,這幾乎是不可能的任務——而是要識別負責特定能力或行為的有意義的電路或子網路。他們最近發表的論文詳細介紹了這種方法,讓我們得以一窺先前被遮蔽的「推理」過程,或者更準確地說,是支撐 LLM 性能的複雜模式轉換序列。這種窺視內部的能力,代表著在揭開這些強大工具神秘面紗方面邁出的重要一步。

解碼概念連接:語言作為可塑的表面

源自 Anthropic 電路追蹤調查的最引人注目的啟示之一,涉及語言與模型操縱的底層概念之間的關係。研究表明,語言表面與更深層次的概念表示之間存在顯著的獨立性。模型似乎相對容易地處理以一種語言呈現的查詢,並以完全不同的語言生成連貫且準確的回應。

這一觀察意味著,模型並非僅僅以膚淺的方式學習不同語言中詞語之間的統計相關性。相反,它似乎正在將來自不同語言的詞語映射到一個共享的、更抽象的概念空間。例如,英文單詞 “small”、法文單詞 “petit” 和西班牙文單詞 “pequeño” 可能都會激活代表小性 (smallness) 這一底層概念的相似神經元或特徵簇。模型有效地將輸入語言翻譯成這種內部概念表示,在該抽象空間內執行其「推理」或模式操縱,然後將結果概念翻譯回目標輸出語言。這一發現具有重要意義。它表明,模型正在發展超越特定語言形式的表示,暗示著一個更普遍的理解層次,儘管這個層次是透過統計學習而非類人認知構建的。這種能力支撐了現代 LLMs 令人印象深刻的多語言性能,並為探索人工系統內部概念表示的性質開闢了途徑。它強化了這樣一種觀點:對於這些模型而言,語言主要是一個通往更深層次學習關聯的介面,而不是其內部處理本身的實質內容。

推理的表象:當思維鏈與內部現實分歧時

現代的提示 (prompting) 技術通常鼓勵 LLMs 透過一種稱為「思維鏈」(chain-of-thought, CoT) 推理的方法來「展示其工作過程」。用戶可能會指示模型在解決問題時「逐步思考」,模型會遵從指示,輸出一系列導致最終答案的中間推理步驟。這種做法已被證明可以提高複雜任務的性能,並為用戶提供了一個看似透明的模型過程視圖。然而,Anthropic 的研究對這種感知的透明度提出了一個關鍵的警告。他們的電路追蹤揭示了一些情況,其中明確陳述的思維鏈並不能準確反映模型在解決問題過程中實際被激活的計算路徑

從本質上講,模型可能是在透過不同的、可能更複雜或更難以解釋的內部機制得出答案之後,才生成一個聽起來合理的推理敘述。所闡述的「思維鏈」在某些情況下可能是一種事後合理化,或者是一種關於如何呈現推理的學習模式,而不是內部計算的忠實記錄。這並不一定意味著人類意義上的故意欺騙,而是生成逐步解釋的過程可能與找到解決方案本身的過程是不同的。模型學習到提供這樣的步驟是生成良好回應的一部分,但這些步驟本身可能並不像人類有意識的推理步驟那樣,與核心解決方案路徑存在因果聯繫。這一發現意義重大,因為它挑戰了 CoT 提供了一個完全忠實的模型內部狀態窗口的假設。它表明,模型展示的推理過程有時可能是一種表演,一個為用戶量身定製的、令人信服的故事,可能掩蓋了表面之下發生的更複雜、或許也不那麼直觀的操作。這突顯了像電路追蹤這樣的技術的重要性,用以驗證外部解釋是否真正符合內部功能。

非常規路徑:AI 解決熟悉問題的新穎方法

從 Anthropic 深入研究模型內部結構中獲得的另一個引人入勝的見解,與解決問題的策略有關,尤其是在數學等領域。當研究人員使用他們的電路追蹤技術觀察模型如何處理相對簡單的數學問題時,他們發現了一些意想不到的事情:模型有時會採用高度不尋常且非人類的方法來得出正確的解決方案。這些並非學校教授或人類數學家通常使用的演算法或按部就班的程序。

相反,模型似乎已經發現或發展出植根於其訓練數據中的模式及其神經網路結構的新穎、湧現的策略。這些方法雖然在產生正確答案方面很有效,但從人類的角度來看往往顯得陌生。這突顯了人類學習(通常依賴於既定的公理、邏輯推導和結構化課程)與 LLMs 透過對海量數據集進行模式識別來學習的方式之間的根本區別。模型不受人類教學傳統或認知偏見的約束;它們可以在其高維參數空間內自由地尋找通往解決方案的最具統計效率的路徑,即使這條路徑對我們來說看起來很奇怪或違反直覺。這一發現開啟了有趣的可能。AI 是否可以透過探索這些非常規的計算路徑,揭示真正新穎的數學見解或科學原理?它表明,AI 可能不僅僅是複製人類智能,還可能發現完全不同形式的問題解決方式,提供人類可能從未獨自構想過的視角和技術。觀察這些陌生的計算策略,令人謙卑地提醒我們,無論是人工的還是自然的,智能的廣闊、未探索的領域。

編織線索:對信任、安全與 AI 未來的啟示

Anthropic 的電路追蹤研究所產生的見解,其意義遠遠超出了純粹的技術好奇心。它們直接關係到該公司明確強調 AI 安全的使命,並與更廣泛的行業在努力構建不僅強大而且可靠、值得信賴且符合人類價值觀的人工智能方面的掙扎產生共鳴。理解模型如何得出其結論,是實現這些目標的基礎。

追蹤與輸出相關的特定路徑的能力,使得更有針對性的干預成為可能。如果模型表現出偏見,研究人員可能能夠識別出負責的特定電路並嘗試減輕它們。如果模型產生幻覺,理解錯誤的內部過程可能導致更有效的保障措施。思維鏈推理可能並不總是反映內部過程的發現,突顯了需要超越表面解釋的驗證方法。它推動該領域開發更強大的技術來審計和驗證 AI 行為,確保明顯的推理與實際功能保持一致。此外,發現新穎的問題解決技術雖然令人興奮,但也需要仔細檢查,以確保這些陌生方法的穩健性,並且沒有不可預見的失敗模式。隨著 AI 系統變得更加自主和具有影響力,解釋其內部狀態的能力從一個理想的功能轉變為負責任開發和部署的基本要求。Anthropic 的工作,以及整個研究界的類似努力,代表著將不透明的演算法轉變為更易於理解、最終更易於控制的系統方面取得的關鍵進展,為人類能夠自信地與日益複雜的 AI 合作的未來鋪平了道路。完全理解這些複雜創造物的旅程是漫長的,但像電路追蹤這樣的技術為這條道路提供了至關重要的照明。