ChatGPT 模型:幻覺問題日益嚴重

理解現象

OpenAI 在近期論文中詳述的內部測試,突顯了 o3 和 o4-mini 等模型中幻覺率顯著增加。 這些模型採用先進的推理和多模態能力設計,代表了 AI 科技的最前沿。 它們可以產生圖像、進行網絡搜索、自動執行任務、記住過去的對話以及解決複雜問題。 然而,這些進步似乎是有代價的。

為了量化這些幻覺的程度,OpenAI 採用了一種名為 PersonQA 的特定測試。 此測試涉及向模型輸入一組關於各種個人的事實,然後提出關於這些個人的問題。 然後根據模型提供正確答案的能力來評估模型的準確性。

在之前的評估中,o1 模型取得了 47% 的值得稱讚的準確率,幻覺率僅為 16%。 然而,當 o3 和 o4-mini 接受相同的評估時,結果卻明顯不同。

o4-mini 模型作為一個較小的變體,世界知識較少,預計會表現出更高的幻覺率。 然而,48% 的實際比率卻高得驚人,考慮到 o4-mini 是一種商業上可用的產品,廣泛用於網絡搜索和信息檢索。

完整尺寸的 o3 模型也表現出令人擔憂的幻覺傾向。 在其 33% 的響應中,該模型捏造了信息,有效地使 o1 模型的幻覺率翻了一番。 儘管如此,o3 也取得了很高的準確率,OpenAI 將其歸因於其總體上提出更多聲明的傾向。

定義幻覺

在 AI 的上下文中,術語 ‘幻覺’ 是指模型傾向於生成事實上不正確或毫無意義的響應,而沒有任何明顯的來源或理由。 這些不僅僅是由於錯誤的數據或誤解而產生的錯誤。 相反,幻覺代表了模型推理過程中更根本的缺陷。

雖然不準確的信息肯定可以來自各種來源,例如維基百科條目或 Reddit 帖子,但這些實例更像是可追溯的錯誤,可以歸因於特定的數據點。 另一方面,幻覺的特點是 AI 模型在不確定時刻發明事實,一些專家將這種現象稱為 ‘創造性填補空白’。

為了說明這一點,請考慮這個問題:’目前有哪些七款 iPhone 16 型號?’ 由於只有 Apple 知道下一代 iPhone 是什麼,因此 LLM 可能會提供一些真實的答案——然後編造額外的模型來完成這項工作。 這是一個清晰的幻覺示例,其中模型捏造信息以完成任務,或者說是 ‘創造性填補空白’。

訓練數據的作用

像 ChatGPT 這樣的聊天機器人是在大量的互聯網數據上訓練的。 這些數據告知其響應的內容,但也塑造了它們的響應方式。 這些模型暴露於無數的查詢示例和匹配的理想響應,這強化了特定的語氣、態度和禮貌程度。

這種訓練過程可能會無意中導致幻覺問題。 鼓勵這些模型提供直接回答問題的自信響應。 這可能會導致它們優先回答問題,即使它們必須發明信息才能做到,而不是承認它們不知道答案。

本質上,訓練過程可能會無意中獎勵自信且看似知識淵博的響應,即使它們在事實上是不正確的。 這可能會造成一種偏見,即傾向於生成答案,無論其準確性如何,這會加劇幻覺問題。

AI 錯誤的本質

將 AI 錯誤與人為錯誤進行比較是很誘人的。 畢竟,人類並非完美無缺,我們也不應期望 AI 是完美的。 然而,必須認識到,AI 錯誤源於與人為錯誤根本不同的過程。

AI 模型不會以人類的方式撒謊、產生誤解或錯誤地記住信息。 它們缺乏支持人類推理的認知能力和情境意識。 相反,它們基於概率運行,根據在訓練數據中觀察到的模式來預測句子中的下一個單詞。

這種概率方法意味著 AI 模型並未真正理解準確性或不準確性。 它們只是根據它們從訓練數據中學到的統計關係來生成最可能的單詞序列。 這可能會導致生成看似連貫的響應,但實際上在事實上是不正確的。

雖然這些模型被輸入了整個互聯網的信息,但它們沒有被告知哪些信息是好的或壞的、準確的或不準確的——它們沒有被告知任何事情。 它們也沒有現有的基礎知識或一組基本原則來幫助它們自己整理信息。 這一切只是一個數字遊戲——在給定上下文中出現最頻繁的單詞模式成為 LLM 的 ‘真相’。

應對挑戰

高級 AI 模型中幻覺率的上升帶來了重大挑戰。 OpenAI 和其他 AI 開發人員正在積極努力了解和減輕這個問題。 然而,幻覺的根本原因尚未完全了解,找到有效的解決方案仍然是一項持續的努力。

一種潛在的方法是提高訓練數據的質量和多樣性。 通過讓模型接觸更準確和全面的信息,開發人員可以減少它們學習和延續虛假信息的可能性。

另一種方法是開發更複雜的技術來檢測和預防幻覺。 這可能涉及訓練模型來識別它們何時對特定信息不確定,並避免在沒有足夠證據的情況下提出聲明。

與此同時,OpenAI 可能需要尋求短期解決方案,並繼續研究根本原因。 畢竟,這些模型是賺錢的產品,需要處於可用狀態。 一個想法是創建某種類型的聚合產品——一個可以訪問多個不同 OpenAI 模型的聊天界面。

當查詢需要高級推理時,它會調用 GPT-4o,而當它想最大限度地減少幻覺的機會時,它會調用像 o1 這樣的舊模型。 也許該公司可以變得更精緻,並使用不同的模型來處理單個查詢的不同元素,然後使用額外的模型在最後將所有內容拼接在一起。 由於這本質上是多個 AI 模型之間的協作,因此也許也可以實施某種事實核查系統。

提高準確率不是主要目標。 主要目標是降低幻覺率,這意味著我們需要重視說 ‘我不知道’ 的響應以及具有正確答案的響應。

事實核查的重要性

AI 模型中幻覺的日益普遍突顯了事實核查的重要性。 雖然這些模型可以是信息檢索和任務自動化的寶貴工具,但不應將它們視為絕對正確的來源。

用戶在解釋 AI 模型的輸出時應始終保持謹慎,並應獨立驗證他們收到的任何信息。 在處理敏感或重要的事項時,這尤其重要。

通過對 AI 生成的內容採取批判性和懷疑性的方法,我們可以減輕與幻覺相關的風險,並確保我們正在根據準確的信息做出明智的決策。 如果你非常喜歡 LLM,則無需停止使用它們——但不要讓節省時間的願望勝過核查結果的需要。 始終進行事實核查!

對 AI 未來的影響

幻覺的挑戰對 AI 的未來具有重大影響。 隨著 AI 模型越來越多地融入我們的生活,它們必須可靠和值得信賴。 如果 AI 模型容易產生虛假或誤導性信息,則可能會削弱公眾的信任並阻礙其廣泛採用。

解決幻覺問題不僅對於提高 AI 模型的準確性至關重要,而且對於確保其道德和負責任的使用也至關重要。 通過開發不太容易產生幻覺的 AI 系統,我們可以在減輕錯誤信息和欺騙風險的同時,利用它們做好事的潛力。