馴服矽腦:探索裝置上 AI 於新聞任務之應用

人工智能的誘惑之聲日益響亮,承諾為各行各業帶來效率與轉型。一個特別誘人的前景是在個人電腦上直接運行強大的人工智能模型,繞過對雲端的依賴、訂閱費用和數據隱私的擔憂。像 Google、Meta 和 Mistral AI 這樣的巨頭已經將複雜的大型語言模型 (LLMs) 免費提供下載。但這種可及性是否轉化為實際效用?這些被限制在桌上型或筆記型電腦矽晶片中的數位心智,能否真正增強像新聞寫作這樣複雜的工作流程?本文詳細記錄了一項旨在精確回答這個問題的廣泛實驗。

設定舞台:本地 AI 實驗

在幾個月的時間裡,我們投入了專門的努力,以評估各種可在本地硬體上完全運行的免費可下載 LLMs 的實際表現。接受審查的模型名單多樣,反映了開源 AI 快速發展的格局:

  • Google Gemma (特別是第 3 版)
  • Meta Llama (第 3.3 版)
  • Anthropic Claude (第 3.7 版 Sonnet – 雖然通常基於雲端,但其納入表明了廣泛的測試)
  • 來自 Mistral AI 的多個迭代版本 (包括 Mistral、Mistral Small 3.1、Mistral Nemo 和 Mixtral)
  • IBM Granite (第 3.2 版)
  • Alibaba Qwen (第 2.5 版)
  • DeepSeek R1 (一種通常應用於 Qwen 或 Llama 精簡版的推理層)

核心目標既宏大又實際:確定這些本地運行的 AI 是否能將原始訪談記錄轉化為精煉、可發表的文章。這不僅涉及評估技術可行性——硬體能否承受負載?——還涉及評估質性輸出——產生的文本是否可用?必須預先聲明,實現完全自動化、可發表的文章被證明是難以捉摸的。主要目標轉向了通過這個具體、要求嚴苛的用例,理解當前裝置上 AI 的真正能力和局限性。

選擇的方法論圍繞著一個龐大的提示 (prompt)。這包括大約 1,500 個 tokens(約 6,000 個字符或兩整頁文本),細緻地勾勒出期望的文章結構、風格和語氣。添加到這個指令集的是訪談記錄本身,對於一次典型的 45 分鐘對話,平均約為 11,000 個 tokens。這種組合輸入的龐大規模(通常超過 12,500 個 tokens)通常超出了許多線上 AI 平台的免費使用限制。這一限制突顯了探索本地部署的理由,在本地部署中,處理保持免費,無論輸入大小如何,僅受機器能力的限制。

執行這些測試涉及使用 LM Studio,這是一款流行的社群軟體,提供了一個用戶友好的、類似聊天機器人的介面,用於與本地運行的 LLMs 互動。LM Studio 方便地整合了下載各種模型版本的功能,儘管這些免費可用模型的主要來源仍然是 Hugging Face 儲存庫,這是 AI 社群的中心樞紐。

穿越技術迷宮:硬體、記憶體與模型大小

進入本地 AI 處理的旅程很快揭示了軟體和硬體之間複雜的相互作用。AI 輸出的品質和速度與測試機器上可用的資源密切相關——一台配備 Apple Silicon M1 Max 系統單晶片 (SoC) 和高達 64 GB RAM 的 Mac。關鍵的是,這種架構具有統一記憶體架構 (Unified Memory Architecture, UMA),允許 48 GB 的 RAM 在處理器核心 (CPU)、圖形核心 (GPU – 用於向量加速) 和神經處理單元核心 (NPU – 用於矩陣加速) 之間動態共享。

幾個關鍵的技術因素成為決定性的:

  1. 模型參數 (Model Parameters): LLMs 通常以其參數數量(通常是數十億)來衡量。較大的模型通常擁有更豐富的知識和細微差別。然而,它們需要顯著更多的記憶體。
  2. 量化 (Quantization): 這指的是用於儲存模型參數的精度(例如,8 位元、4 位元、3 位元)。較低的位元精度會大幅減少記憶體佔用並提高處理速度,但通常以犧牲準確性和輸出品質為代價(引入錯誤、重複或無意義的語言)。
  3. 上下文視窗 (Context Window): 這定義了 AI 一次可以考慮的最大資訊量(提示 + 輸入數據),以 tokens 為單位。所需的視窗大小由任務決定;在這種情況下,龐大的提示和記錄需要一個相當大的視窗。
  4. 可用 RAM: 記憶體量直接限制了哪些模型(以及在哪個量化級別)可以有效地載入和運行。

在評估時,測試機器上提供最佳品質和可行性平衡的「甜蜜點」,是使用 Google 的 Gemma 模型,具有 270 億個參數,量化到 8 位元 (版本 “27B Q8_0”)。此配置在 32,000 個 tokens 的上下文視窗內運行,輕鬆處理了大約 15,000 個 tokens 的輸入(指令 + 記錄)。它在指定的 Mac 硬體上運行,利用了 48 GB 的共享記憶體。

在這些最佳條件下,處理速度測得為每秒 6.82 個 tokens。雖然功能正常,但這遠非即時。在不犧牲輸出品質的情況下提高速度主要取決於更快的硬體——特別是具有更高時脈速度 (GHz) 或更多處理核心(CPU、GPU、NPU)的 SoC。

嘗試載入具有顯著更多參數的模型(例如,320 億、700 億)很快就達到了記憶體上限。這些較大的模型要麼完全無法載入,要麼產生嚴重截斷、無法使用的輸出(例如,只有一個段落而不是完整的文章)。相反,使用參數較少的模型,雖然釋放了記憶體,但導致寫作品質明顯下降,其特點是重複和表達不清的想法。同樣,採用更激進的量化(將參數減少到 3、4、5 或 6 位元)提高了速度,但嚴重降低了輸出品質,引入了語法錯誤甚至捏造的詞語。

由輸入數據決定的所需上下文視窗的大小,對於該任務基本上是不可協商的。如果輸入數據要求的視窗,結合所選的模型大小和量化,超過了可用 RAM,唯一的辦法是選擇一個較小的模型,不可避免地會為了保持在記憶體限制內而犧牲最終結果的潛在品質。

對品質的追求:當結構遇上實質(或缺乏實質)

本地運行的 AI 是否成功生成了可用的文章?是,也不是。生成的文本通常表現出令人驚訝的良好結構。它們通常遵循了要求的格式,具有:

  • 一個可辨識的角度或焦點。
  • 通過主題部分的連貫流程。
  • 適當放置的來自記錄的引文。
  • 引人入勝的標題和結尾句子。

然而,在所有測試的 LLMs 中,包括像 DeepSeek R1 這樣專為增強推理而設計的模型,都一致地出現了一個關鍵缺陷:根本無法正確辨別和優先處理訪談中資訊的相關性。AI 模型始終錯過了對話的核心,專注於次要點或離題的細節。

結果往往是文章在語法上健全且組織良好,但最終膚淺且乏味。在某些情況下,AI 會花費大量、論證充分的段落來陳述顯而易見的事實——例如,詳細闡述受訪公司在一個有競爭對手的市場中運營。這突顯了語言能力(形成連貫句子)和真正理解(理解重要性和上下文)之間的差距。

此外,不同模型之間的風格輸出差異很大:

  • Meta 的 Llama 3.x: 在測試時,產生的句子通常 convoluted (晦澀難懂) 且難以解析。
  • Mistral Models & Gemma: 表現出偏向「行銷術語」風格的趨勢,使用熱情的形容詞和積極的框架,但缺乏具體的實質內容和細節。
  • Alibaba 的 Qwen: 令人驚訝的是,在測試設定的限制內,這個中國模型產生了一些在法語(原始評估團隊的語言)中最具美感的散文。
  • Mixtral 8x7B: 最初,這個「專家混合」模型(結合了八個較小的、專業化的 70 億參數模型)顯示出潛力。然而,要將其納入 48 GB 記憶體限制需要激進的 3 位元量化,這導致了顯著的語法錯誤。一個 4 位元量化版本 (“Q4_K_M”) 最初提供了更好的折衷,但隨後 LM Studio 軟體的更新增加了其記憶體佔用,導致此配置也產生了截斷的結果。
  • Mistral Small 3.1: 一個較新的模型,具有 240 億參數,採用 8 位元量化,成為一個強有力的競爭者。其輸出品質接近 27B Gemma 模型,並且提供了輕微的速度優勢,處理速度為每秒 8.65 個 tokens

這種差異強調了選擇 LLM 不僅僅關乎大小或速度;底層的訓練數據和架構顯著影響其寫作風格和潛在偏見。

硬體架構:本地 AI 的無名英雄

這些實驗揭示了一個關鍵的、經常被忽視的因素:底層硬體架構,特別是記憶體的存取方式。在 Apple Silicon Mac 上觀察到的卓越性能不僅僅是因為 RAM 的數量,關鍵在於其統一記憶體架構 (UMA)

在 UMA 系統中,CPU、GPU 和 NPU 核心都共享同一個物理 RAM 池,並且可以同時存取相同記憶體位址上的數據。這消除了在專用於不同處理器(例如,用於 CPU 的系統 RAM 和用於獨立顯卡的專用 VRAM)的獨立記憶體池之間複製數據的需要。

為什麼這對 LLMs 如此重要?

  • 效率: LLM 處理涉及跨不同類型核心的密集計算。UMA 允許無縫的數據共享,減少了與數據複製和傳輸相關的延遲和開銷。
  • 記憶體利用率:沒有 UMA 的系統中(例如,帶有獨立 GPU 的典型 PC),相同的數據可能需要同時載入到主系統 RAM(供 CPU 使用)和 GPU 的 VRAM 中。這實際上減少了 LLM 本身可用的記憶體。

實際影響是顯著的。雖然測試用的 Mac 可以舒適地運行一個使用 48 GB 共享 UMA RAM 的 270 億參數、8 位元量化的模型,但在沒有 UMA 的 PC 上實現類似性能可能需要顯著更多的 RAM。例如,一台總 RAM 為 48 GB,分配給 CPU 24 GB 和 GPU 24 GB 的 PC,可能由於記憶體分區和數據複製開銷,只能有效地運行一個小得多的 130 億參數模型。

這種架構優勢解釋了配備 Apple Silicon 晶片的 Mac 在本地 AI 領域取得早期領先的原因。認識到這一點,像 AMD 這樣的競爭對手宣布了他們的 Ryzen AI Max SoC 系列(預計 2025 年初推出),旨在採用類似的統一記憶體方法。在進行這些測試時,Intel 的 Core Ultra SoC 雖然整合了 CPU、GPU 和 NPU,但並未在所有核心類型之間提供相同水平的完全統一記憶體存取。對於任何認真考慮在本地運行更大、更強大 LLMs 的人來說,這種硬體差異是一個關鍵的考慮因素。

提示工程的複雜之舞

讓 AI 執行像將訪談轉化為文章這樣複雜的任務,需要的不仅仅是强大的硬體和有能力的模型;它需要精密的指令——即提示工程 (prompt engineering) 的藝術與科學。製作最初指導 AI 的 1,500 個 tokens 的提示是一項重大的工程。

一個有用的起點涉及逆向工程 (reverse engineering):將一篇已完成的、由人類撰寫的文章及其對應的記錄提供給 AI,並詢問應該給出什麼提示才能達到該結果。分析 AI 在幾個不同範例中提出的建議,有助於確定指令集的基本要素。

然而,AI 生成的提示建議始終過於簡短,缺乏引導創建全面文章所需的細節。真正的工作在於採納這些 AI 提供的初步線索並加以闡述,嵌入關於新聞結構、語氣、風格和倫理考量的深層領域知識。

幾個非直觀的教訓浮現出來:

  • 清晰優先於優雅: 令人驚訝的是,以更自然、流暢的風格編寫提示,往往會降低 AI 的理解力。模型難以處理模糊性,尤其是代名詞(「他」、「它」、「這個」)。最有效的方法是犧牲人類的可讀性以換取機器的精確性,明確重複主語(「文章應該…」、「文章的語氣必須…」、「文章的引言需要…」)以避免任何潛在的誤解。
  • 創造力的難以捉摸: 儘管精心設計的提示旨在允許靈活性,但 AI 生成的文章始終帶有「家族相似性」。在單個提示,甚至多個相互競爭的提示中,捕捉人類創造力和風格變化的廣度被證明異常困難。真正的多樣性似乎需要比僅僅調整提示更根本的轉變。

提示工程不是一次性的任務,而是一個反覆精煉、測試並融入特定業務邏輯和風格細微差別的過程。它需要技術理解和深厚主題專業知識的結合。

工作量的轉移:解開 AI 悖論

這些實驗最終導向了一個關鍵的認識,稱之為 AI 悖論 (AI paradox):在目前狀態下,為了讓 AI 可能減輕用戶的部分工作量(撰寫文章草稿),用戶通常必須投入更多的初步工作。

核心問題仍然是 AI 無法可靠地判斷原始訪談記錄中的相關性。為了產生一篇切題的文章,僅僅輸入整個記錄是不夠的。一個必要的中間步驟浮現出來:手動預處理記錄。這包括:

  1. 去除不相關的閒聊、離題內容和冗餘部分。
  2. 可能添加上下文註釋(即使不打算用於最終文章)以引導 AI 的理解。
  3. 仔細選擇並可能重新排序關鍵片段。

這種記錄的「策展」需要大量的人類時間和判斷力。讓 AI 生成初稿所節省的時間,實際上被精心準備其輸入數據的新任務所抵消,甚至超過。工作量並沒有消失;它只是從直接寫作轉移到了數據準備和提示精煉上。

此外,詳細的 1,500 個 tokens 的提示高度特定於一種類型的文章(例如,關於產品發布的訪談)。要涵蓋記者日常產生的多樣化文章格式——新創公司簡介、戰略分析、活動報導、多來源調查——將需要為每個用例開發、測試和維護一個獨立的、同樣詳細的提示。這代表著巨大的前期和持續的工程投入。

更糟糕的是,這些歷時超過六個月的廣泛實驗,僅僅觸及了表面。它們專注於最簡單的情景:從單一訪談生成文章,而且這些訪談通常在受控環境下進行,如新聞發布會,其中受訪者的觀點已經有一定程度的結構化。遠為複雜但常見的任務,如綜合來自多個訪談的資訊、納入背景研究,或處理結構性較差的對話,由於即使是基本案例也需要大量時間投入而未被探索。

因此,雖然在本地運行 LLMs 在技術上是可行的,並在成本和數據隱私方面提供了好處,但基於本次調查,認為它能輕易為像新聞這樣複雜的知識工作節省時間或精力的觀點,目前看來是虛幻的。所需的工作只是轉變形式,向上游移動到數據準備和高度特定的提示工程中。在這些具體的挑戰上——辨別相關性、需要廣泛的預處理——本地運行的 AI 表現與付費的線上服務相當,這表明這些是當前一代 LLMs 的基本限制,無論部署方法如何。在這些領域實現真正無縫 AI 輔助的道路仍然錯綜複雜,需要 AI 能力和我們與之互動方法的進一步演進。