馴服矽腦：探索裝置上 AI 於新聞任務之應用 | zh-TW

人工智能的誘惑之聲日益響亮，承諾為各行各業帶來效率與轉型。一個特別誘人的前景是在個人電腦上直接運行強大的人工智能模型，繞過對雲端的依賴、訂閱費用和數據隱私的擔憂。像 Google、Meta 和 Mistral AI 這樣的巨頭已經將複雜的大型語言模型 (LLMs) 免費提供下載。但這種可及性是否轉化為實際效用？這些被限制在桌上型或筆記型電腦矽晶片中的數位心智，能否真正增強像新聞寫作這樣複雜的工作流程？本文詳細記錄了一項旨在精確回答這個問題的廣泛實驗。

設定舞台：本地 AI 實驗

在幾個月的時間裡，我們投入了專門的努力，以評估各種可在本地硬體上完全運行的免費可下載 LLMs 的實際表現。接受審查的模型名單多樣，反映了開源 AI 快速發展的格局：

Google Gemma (特別是第 3 版)
Meta Llama (第 3.3 版)
Anthropic Claude (第 3.7 版 Sonnet – 雖然通常基於雲端，但其納入表明了廣泛的測試)
來自 Mistral AI 的多個迭代版本 (包括 Mistral、Mistral Small 3.1、Mistral Nemo 和 Mixtral)
IBM Granite (第 3.2 版)
Alibaba Qwen (第 2.5 版)
DeepSeek R1 (一種通常應用於 Qwen 或 Llama 精簡版的推理層)

核心目標既宏大又實際：確定這些本地運行的 AI 是否能將原始訪談記錄轉化為精煉、可發表的文章。這不僅涉及評估技術可行性——硬體能否承受負載？——還涉及評估質性輸出——產生的文本是否可用？必須預先聲明，實現完全自動化、可發表的文章被證明是難以捉摸的。主要目標轉向了通過這個具體、要求嚴苛的用例，理解當前裝置上 AI 的真正能力和局限性。

選擇的方法論圍繞著一個龐大的提示 (prompt)。這包括大約 1,500 個 tokens（約 6,000 個字符或兩整頁文本），細緻地勾勒出期望的文章結構、風格和語氣。添加到這個指令集的是訪談記錄本身，對於一次典型的 45 分鐘對話，平均約為 11,000 個 tokens。這種組合輸入的龐大規模（通常超過 12,500 個 tokens）通常超出了許多線上 AI 平台的免費使用限制。這一限制突顯了探索本地部署的理由，在本地部署中，處理保持免費，無論輸入大小如何，僅受機器能力的限制。

執行這些測試涉及使用 LM Studio，這是一款流行的社群軟體，提供了一個用戶友好的、類似聊天機器人的介面，用於與本地運行的 LLMs 互動。LM Studio 方便地整合了下載各種模型版本的功能，儘管這些免費可用模型的主要來源仍然是 Hugging Face 儲存庫，這是 AI 社群的中心樞紐。

穿越技術迷宮：硬體、記憶體與模型大小

進入本地 AI 處理的旅程很快揭示了軟體和硬體之間複雜的相互作用。AI 輸出的品質和速度與測試機器上可用的資源密切相關——一台配備 Apple Silicon M1 Max 系統單晶片 (SoC) 和高達 64 GB RAM 的 Mac。關鍵的是，這種架構具有統一記憶體架構 (Unified Memory Architecture, UMA)，允許 48 GB 的 RAM 在處理器核心 (CPU)、圖形核心 (GPU – 用於向量加速) 和神經處理單元核心 (NPU – 用於矩陣加速) 之間動態共享。

幾個關鍵的技術因素成為決定性的：

模型參數 (Model Parameters): LLMs 通常以其參數數量（通常是數十億）來衡量。較大的模型通常擁有更豐富的知識和細微差別。然而，它們需要顯著更多的記憶體。
量化 (Quantization): 這指的是用於儲存模型參數的精度（例如，8 位元、4 位元、3 位元）。較低的位元精度會大幅減少記憶體佔用並提高處理速度，但通常以犧牲準確性和輸出品質為代價（引入錯誤、重複或無意義的語言）。
上下文視窗 (Context Window): 這定義了 AI 一次可以考慮的最大資訊量（提示 + 輸入數據），以 tokens 為單位。所需的視窗大小由任務決定；在這種情況下，龐大的提示和記錄需要一個相當大的視窗。
可用 RAM: 記憶體量直接限制了哪些模型（以及在哪個量化級別）可以有效地載入和運行。

在評估時，測試機器上提供最佳品質和可行性平衡的「甜蜜點」，是使用 Google 的 Gemma 模型，具有 270 億個參數，量化到 8 位元 (版本 “27B Q8_0”)。此配置在 32,000 個 tokens 的上下文視窗內運行，輕鬆處理了大約 15,000 個 tokens 的輸入（指令 + 記錄）。它在指定的 Mac 硬體上運行，利用了 48 GB 的共享記憶體。

在這些最佳條件下，處理速度測得為每秒 6.82 個 tokens。雖然功能正常，但這遠非即時。在不犧牲輸出品質的情況下提高速度主要取決於更快的硬體——特別是具有更高時脈速度 (GHz) 或更多處理核心（CPU、GPU、NPU）的 SoC。

嘗試載入具有顯著更多參數的模型（例如，320 億、700 億）很快就達到了記憶體上限。這些較大的模型要麼完全無法載入，要麼產生嚴重截斷、無法使用的輸出（例如，只有一個段落而不是完整的文章）。相反，使用參數較少的模型，雖然釋放了記憶體，但導致寫作品質明顯下降，其特點是重複和表達不清的想法。同樣，採用更激進的量化（將參數減少到 3、4、5 或 6 位元）提高了速度，但嚴重降低了輸出品質，引入了語法錯誤甚至捏造的詞語。

由輸入數據決定的所需上下文視窗的大小，對於該任務基本上是不可協商的。如果輸入數據要求的視窗，結合所選的模型大小和量化，超過了可用 RAM，唯一的辦法是選擇一個較小的模型，不可避免地會為了保持在記憶體限制內而犧牲最終結果的潛在品質。

對品質的追求：當結構遇上實質（或缺乏實質）

本地運行的 AI 是否成功生成了可用的文章？是，也不是。生成的文本通常表現出令人驚訝的良好結構。它們通常遵循了要求的格式，具有：

一個可辨識的角度或焦點。
通過主題部分的連貫流程。
適當放置的來自記錄的引文。
引人入勝的標題和結尾句子。

然而，在所有測試的 LLMs 中，包括像 DeepSeek R1 這樣專為增強推理而設計的模型，都一致地出現了一個關鍵缺陷：根本無法正確辨別和優先處理訪談中資訊的相關性。AI 模型始終錯過了對話的核心，專注於次要點或離題的細節。

結果往往是文章在語法上健全且組織良好，但最終膚淺且乏味。在某些情況下，AI 會花費大量、論證充分的段落來陳述顯而易見的事實——例如，詳細闡述受訪公司在一個有競爭對手的市場中運營。這突顯了語言能力（形成連貫句子）和真正理解（理解重要性和上下文）之間的差距。

此外，不同模型之間的風格輸出差異很大：

Meta 的 Llama 3.x: 在測試時，產生的句子通常 convoluted (晦澀難懂) 且難以解析。
Mistral Models & Gemma: 表現出偏向「行銷術語」風格的趨勢，使用熱情的形容詞和積極的框架，但缺乏具體的實質內容和細節。
Alibaba 的 Qwen: 令人驚訝的是，在測試設定的限制內，這個中國模型產生了一些在法語（原始評估團隊的語言）中最具美感的散文。
Mixtral 8x7B: 最初，這個「專家混合」模型（結合了八個較小的、專業化的 70 億參數模型）顯示出潛力。然而，要將其納入 48 GB 記憶體限制需要激進的 3 位元量化，這導致了顯著的語法錯誤。一個 4 位元量化版本 (“Q4_K_M”) 最初提供了更好的折衷，但隨後 LM Studio 軟體的更新增加了其記憶體佔用，導致此配置也產生了截斷的結果。
Mistral Small 3.1: 一個較新的模型，具有 240 億參數，採用 8 位元量化，成為一個強有力的競爭者。其輸出品質接近 27B Gemma 模型，並且提供了輕微的速度優勢，處理速度為每秒 8.65 個 tokens。

這種差異強調了選擇 LLM 不僅僅關乎大小或速度；底層的訓練數據和架構顯著影響其寫作風格和潛在偏見。

硬體架構：本地 AI 的無名英雄

這些實驗揭示了一個關鍵的、經常被忽視的因素：底層硬體架構，特別是記憶體的存取方式。在 Apple Silicon Mac 上觀察到的卓越性能不僅僅是因為 RAM 的數量，關鍵在於其統一記憶體架構 (UMA)。

在 UMA 系統中，CPU、GPU 和 NPU 核心都共享同一個物理 RAM 池，並且可以同時存取相同記憶體位址上的數據。這消除了在專用於不同處理器（例如，用於 CPU 的系統 RAM 和用於獨立顯卡的專用 VRAM）的獨立記憶體池之間複製數據的需要。

為什麼這對 LLMs 如此重要？

效率: LLM 處理涉及跨不同類型核心的密集計算。UMA 允許無縫的數據共享，減少了與數據複製和傳輸相關的延遲和開銷。
記憶體利用率: 在沒有 UMA 的系統中（例如，帶有獨立 GPU 的典型 PC），相同的數據可能需要同時載入到主系統 RAM（供 CPU 使用）和 GPU 的 VRAM 中。這實際上減少了 LLM 本身可用的記憶體。

實際影響是顯著的。雖然測試用的 Mac 可以舒適地運行一個使用 48 GB 共享 UMA RAM 的 270 億參數、8 位元量化的模型，但在沒有 UMA 的 PC 上實現類似性能可能需要顯著更多的總 RAM。例如，一台總 RAM 為 48 GB，分配給 CPU 24 GB 和 GPU 24 GB 的 PC，可能由於記憶體分區和數據複製開銷，只能有效地運行一個小得多的 130 億參數模型。

這種架構優勢解釋了配備 Apple Silicon 晶片的 Mac 在本地 AI 領域取得早期領先的原因。認識到這一點，像 AMD 這樣的競爭對手宣布了他們的 Ryzen AI Max SoC 系列（預計 2025 年初推出），旨在採用類似的統一記憶體方法。在進行這些測試時，Intel 的 Core Ultra SoC 雖然整合了 CPU、GPU 和 NPU，但並未在所有核心類型之間提供相同水平的完全統一記憶體存取。對於任何認真考慮在本地運行更大、更強大 LLMs 的人來說，這種硬體差異是一個關鍵的考慮因素。

提示工程的複雜之舞

讓 AI 執行像將訪談轉化為文章這樣複雜的任務，需要的不仅仅是强大的硬體和有能力的模型；它需要精密的指令——即提示工程 (prompt engineering) 的藝術與科學。製作最初指導 AI 的 1,500 個 tokens 的提示是一項重大的工程。

一個有用的起點涉及逆向工程 (reverse engineering)：將一篇已完成的、由人類撰寫的文章及其對應的記錄提供給 AI，並詢問應該給出什麼提示才能達到該結果。分析 AI 在幾個不同範例中提出的建議，有助於確定指令集的基本要素。

然而，AI 生成的提示建議始終過於簡短，缺乏引導創建全面文章所需的細節。真正的工作在於採納這些 AI 提供的初步線索並加以闡述，嵌入關於新聞結構、語氣、風格和倫理考量的深層領域知識。

幾個非直觀的教訓浮現出來：

清晰優先於優雅: 令人驚訝的是，以更自然、流暢的風格編寫提示，往往會降低 AI 的理解力。模型難以處理模糊性，尤其是代名詞（「他」、「它」、「這個」）。最有效的方法是犧牲人類的可讀性以換取機器的精確性，明確重複主語（「文章應該…」、「文章的語氣必須…」、「文章的引言需要…」）以避免任何潛在的誤解。
創造力的難以捉摸: 儘管精心設計的提示旨在允許靈活性，但 AI 生成的文章始終帶有「家族相似性」。在單個提示，甚至多個相互競爭的提示中，捕捉人類創造力和風格變化的廣度被證明異常困難。真正的多樣性似乎需要比僅僅調整提示更根本的轉變。

提示工程不是一次性的任務，而是一個反覆精煉、測試並融入特定業務邏輯和風格細微差別的過程。它需要技術理解和深厚主題專業知識的結合。

工作量的轉移：解開 AI 悖論

這些實驗最終導向了一個關鍵的認識，稱之為 AI 悖論 (AI paradox)：在目前狀態下，為了讓 AI 可能減輕用戶的部分工作量（撰寫文章草稿），用戶通常必須投入更多的初步工作。

核心問題仍然是 AI 無法可靠地判斷原始訪談記錄中的相關性。為了產生一篇切題的文章，僅僅輸入整個記錄是不夠的。一個必要的中間步驟浮現出來：手動預處理記錄。這包括：

去除不相關的閒聊、離題內容和冗餘部分。
可能添加上下文註釋（即使不打算用於最終文章）以引導 AI 的理解。
仔細選擇並可能重新排序關鍵片段。

這種記錄的「策展」需要大量的人類時間和判斷力。讓 AI 生成初稿所節省的時間，實際上被精心準備其輸入數據的新任務所抵消，甚至超過。工作量並沒有消失；它只是從直接寫作轉移到了數據準備和提示精煉上。

此外，詳細的 1,500 個 tokens 的提示高度特定於一種類型的文章（例如，關於產品發布的訪談）。要涵蓋記者日常產生的多樣化文章格式——新創公司簡介、戰略分析、活動報導、多來源調查——將需要為每個用例開發、測試和維護一個獨立的、同樣詳細的提示。這代表著巨大的前期和持續的工程投入。

更糟糕的是，這些歷時超過六個月的廣泛實驗，僅僅觸及了表面。它們專注於最簡單的情景：從單一訪談生成文章，而且這些訪談通常在受控環境下進行，如新聞發布會，其中受訪者的觀點已經有一定程度的結構化。遠為複雜但常見的任務，如綜合來自多個訪談的資訊、納入背景研究，或處理結構性較差的對話，由於即使是基本案例也需要大量時間投入而未被探索。

因此，雖然在本地運行 LLMs 在技術上是可行的，並在成本和數據隱私方面提供了好處，但基於本次調查，認為它能輕易為像新聞這樣複雜的知識工作節省時間或精力的觀點，目前看來是虛幻的。所需的工作只是轉變形式，向上游移動到數據準備和高度特定的提示工程中。在這些具體的挑戰上——辨別相關性、需要廣泛的預處理——本地運行的 AI 表現與付費的線上服務相當，這表明這些是當前一代 LLMs 的基本限制，無論部署方法如何。在這些領域實現真正無縫 AI 輔助的道路仍然錯綜複雜，需要 AI 能力和我們與之互動方法的進一步演進。

更新於 2025-03-28

# AI # LLM # Prompt Engineering