OpenAI 的 GPT-4.5:高價 AI,回報卻成疑

遞增式改進,天文數字般的成本

GPT-4.5 號稱在幾個關鍵領域進行了改進。OpenAI 聲稱提高了準確性,減少了產生「幻覺」(生成虛假信息)的傾向,並增強了說服能力。然而,這些增強功能的代價是高昂的。使用 GPT-4.5 的定價結構設定為每百萬輸入 token 75 美元,每百萬輸出 token 更高達 150 美元。這種定價在 AI 社群內引發了激烈的爭論,專家們對於這些遞增式的改進是否值得如此巨大的財務支出意見分歧。

核心問題圍繞著 GPT-4.5 的實際價值主張。雖然更流暢的對話和略微提高的準確性受到歡迎,但根本問題仍然存在:它是否代表了 AI 能力的重大飛躍,或者僅僅是對現有技術的昂貴改進?

真實世界測試:與 OpenAI 的聲明脫節?

對 GPT-4.5 的獨立評估進一步加劇了爭論。Andrej Karpathy,一位 AI 領域的傑出人物,進行了一項比較實驗,讓 GPT-4 與 GPT-4.5 進行對比。向用戶展示了五個創意寫作任務,然後要求他們判斷輸出的質量。令人驚訝的是,結果在五個任務中的四個中都偏向於較舊的 GPT-4 模型。這一結果直接挑戰了 GPT-4.5 代表普遍優越迭代的觀點。

Raj Dandeker 博士的技術評估也產生了類似的令人擔憂的結果。他的測試集中在 OpenAI 明確聲稱有所改進的領域,例如數學推理和邏輯推導。然而,據報導,GPT-4.5 在這些領域表現不佳,與其前身相比幾乎沒有優勢。這些發現直接與 OpenAI 的斷言相矛盾,並引發了對該公司營銷聲明透明度和準確性的嚴重質疑。

媒體和業界反應:眾說紛紜

媒體對 GPT-4.5 的反應反映了 AI 社群內部的分歧意見。《Wired》雜誌,一家在科技新聞領域具有重要影響力的雜誌,提供了一個批判性的視角,質疑 OpenAI 對通用人工智慧 (AGI) 的不懈追求,並將 GPT-4.5 描述為一個昂貴的升級,只有邊際收益。《Futurism》,另一家有影響力的出版物,注意到圍繞該版本發布的最初炒作有所下降,表明人們對該技術的真正潛力越來越持懷疑態度。

然而,並非所有反應都是負面的。與史丹佛大學有關聯的 Jacob Rintamaki 提出了更積極的評估,特別讚揚了 GPT-4.5 改進的幽默感。他認為,這代表了 AI 在理解和參與社交互動能力方面的重大進步。這突顯了 GPT-4.5 的潛在優勢:在細緻的溝通和幽默感至關重要的領域表現出色。

競爭對手的看法

即使是競爭的 AI 模型,在某種意義上也對 GPT-4.5 的發布發表了「評論」。xAI 的 Grok,一個競爭對手的語言模型,承認 GPT-4.5 在對話能力方面的改進,但也指出了它的資源密集型特性。這突顯了一個關鍵問題:運行 GPT-4.5 所需的巨大計算能力,這直接轉化為更高的運營成本和更大的環境足跡。

ChatGPT 本身在被提示時強調了 GPT-4.5 增強的上下文保留、創造力和準確性。然而,它也承認該模型仍然存在缺陷,特別是在長時間的對話中,它有時會失去對正在進行的對話的跟踪或產生不一致的回應。這種自我評估雖然看似客觀,但進一步強化了這樣一種看法,即 GPT-4.5 儘管有所進步,但仍然是一種不完善的技術。

深入探討細節

為了理解褒貶不一的反應,有必要更詳細地研究圍繞 GPT-4.5 的具體主張和反主張。

1. 增強準確性的主張:

OpenAI 聲稱 GPT-4.5 比其前身更準確。雖然這在某些狹義定義的任務中可能是正確的,但 Karpathy 和 Dandeker 的獨立測試對這一主張的普遍性提出了質疑。看來,準確性的提高並非在所有領域都是一致的,並且可能不如最初宣傳的那麼重要。

2. 減少幻覺的承諾:

「幻覺」,即語言模型產生虛假或無意義信息的傾向,一直是該領域的一個持續挑戰。OpenAI 聲稱 GPT-4.5 在減輕這個問題方面取得了進展。然而,用戶報告和軼事證據表明,幻覺雖然可能不那麼頻繁,但仍然是一個問題。該模型仍然可以產生自信的、不准確的陳述,特別是在處理複雜或細微的主題時。

3. 說服的藝術:

OpenAI 強調了 GPT-4.5 增強的說服能力。這引發了道德問題,因為更具說服力的 AI 可能被用於操縱目的,例如傳播虛假信息或以不良方式影響意見。GPT-4.5 的說服力在多大程度上代表了真正的改進或潛在的風險,仍然是一個持續爭論的話題。

4. 對話優勢:

GPT-4.5 無疑是一個比 GPT-4 更流暢、更具吸引力的對話者。這可能是它最顯著和最明顯的改進。該模型生成的文本更自然地流動,更有效地模仿人類的語音模式,並表現出對對話細微差別的更好理解。這使得它更適合聊天機器人、虛擬助手和創意寫作工具等應用。

5. 推理缺陷:

儘管在對話方面有所改進,但許多批評者認為,在推理能力方面缺乏實質性進展是一個主要癥結。GPT-4.5 仍然難以完成需要邏輯推導、數學推理和常識理解的任務。這種局限性阻礙了它在需要精確分析思維的領域的應用,例如科學研究、財務建模和法律分析。

6. 成本因素:

使用 GPT-4.5 的高昂成本是許多潛在用戶的主要進入門檻。基於輸入和輸出 token 的定價結構使其對於大規模應用或持續使用而言過於昂貴。這引發了對可及性和公平性的擔憂,因為只有資金充足的組織和個人才能負擔得起利用該技術。

7. 「研究預覽」標籤:

OpenAI 決定將 GPT-4.5 作為「研究預覽」發布是值得注意的。這表明該模型仍在開發中,並且可能會進行進一步的改進。這也意味著 OpenAI 意識到這些局限性,並正在尋求用戶的反饋以指導未來的改進。然而,「研究預覽」標籤並不能完全免除高成本或 OpenAI 的聲明與模型實際性能之間差異的責任。

更廣泛的背景:AI 軍備競賽

GPT-4.5 的發布必須在正在進行的「AI 軍備競賽」的更廣泛背景下理解。像 OpenAI、Google 和 Anthropic 這樣的公司正在激烈競爭,以開發最先進和最強大的 AI 模型。這種競爭壓力可能導致倉促發布、誇大的聲明以及對漸進式改進而不是根本性突破的關注。

對 AGI(一種具有人類水平智力和一般問題解決能力的人工智慧)的追求仍然是該領域大部分研究和開發背後的驅動力。然而,GPT-4.5 儘管有所進步,但遠未達到這個雄心勃勃的目標。它提醒我們,通往 AGI 的道路可能漫長而艱辛,真正的突破是罕見且難以實現的。

GPT-4.5 的未來

GPT-4.5 的最終命運仍不確定。作為「研究預覽」,它可能會隨著時間的推移而發展。OpenAI 可能會解決這些批評並改進模型的推理能力、降低其成本或改進其在特定領域的性能。

然而,對 GPT-4.5 褒貶不一的反應突顯了在 AI 領域進行批判性評估和獨立測試的重要性。它還強調了 OpenAI 等公司需要提高透明度,特別是在其模型的能力和局限性方面。

目前,GPT-4.5 是 AI 持續進步的證明,但也是一個關於炒作的危險、實現真正突破的挑戰以及平衡創新與道德考慮和實際現實的重要性的警示故事。高昂的價格,加上可疑的投資回報,使其成為少數人負擔得起,更少人能證明其合理性的奢侈品。它有力地提醒我們,AI 的進步並不總是線性的,更大、更昂貴的模型並不總是更好。