DeepSeek 的挑戰
今年一月,DeepSeek-R1 的問世引起了科技社群的廣泛關注。先前的中文語言模型,例如百度的 Ernie 和字節跳動的 Doubao,在中文應用、數學和編碼方面展現了潛力,但受限於較弱的英語能力和受限制的存取性。然而,DeepSeek-R1 標誌著一個重要的里程碑,成為第一個獲得國際認可的中文 LLM。
DeepSeek-R1 最引人注目的方面之一是其據稱的低開發成本。與 OpenAI 的 GPT-4o 據稱耗資超過 1 億美元進行訓練形成對比,DeepSeek 的研究人員聲稱他們的聊天機器人僅耗資 560 萬美元開發。為了進一步強化效率的說法,DeepSeek 工程師使用 Nvidia H800 等中階 CPU 訓練了 R1 模型,而不是像 GPT-4o 或 Anthropic 的 Claude 等模型中使用的頂級晶片。儘管美國限制向中國出口高性能晶片,DeepSeek-R1 仍設法僅使用分佈在 256 台伺服器上的 2,048 個處理器就超越了其他領先的機器人。
這種卓越的效率和較低的開發成本主要歸因於複雜的程式設計技術,包括 PTX,一種類似於組譯語言的語言,使開發人員能夠微調效能並最大限度地利用硬體。
在發布後不久,DeepSeek-R1 應用程式迅速攀升至美國 Apple App Store 免費下載排行榜的榜首,超越了 ChatGPT、TikTok 和 Meta 的社交媒體平台。納斯達克指數下跌,Nvidia 的股票在 DeepSeek-R1 首次亮相後暴跌。
質疑 DeepSeek 的聲明
儘管最初充滿熱情,但許多觀察家對 DeepSeek 關於其 LLM 的聲明的有效性提出了質疑。分析師認為,所聲明的數字可能僅包括計算成本,而排除或低估了基礎設施、硬體和人力資源費用。
總部位於台北的生成式 AI 和雲端遊戲服務提供商 Ubitus 的創始人兼執行長郭榮昌也表達了這些擔憂,他表示實際成本可能遠高於報告的數字。Ubitus 在 Nvidia 的支持下,支持了 Project TAME,這是一個使用繁體中文字的本地化 LLM。他們提供了 H100 CPU 和遊戲數據。Ubitus 還與鴻海和森崴能源合作,成立了 Ubilink.AI,與華碩合作建立了台灣最大的綠色能源 AI 超級運算服務中心。
郭榮昌強調了該公司參與為政府(包括日本政府)開發 LLM 應用程式和模型,涉及遊戲、旅遊和零售等行業,突顯了 AI 在解決勞動力短缺和人口老化問題方面的潛力。
數據完整性疑慮
郭榮昌與 OpenAI 和 Microsoft 的觀點一致,認為 DeepSeek 可能透過模型提煉取得數據。這個過程涉及訓練較小的語言模型來模仿較大模型的輸出。OpenAI 和 Microsoft 聲稱 DeepSeek 利用了 OpenAI 的應用程式設計介面來促進其開發。
郭榮昌斷言 DeepSeek 從 OpenAI 取得數據,並且對於該公司關於效率的聲明存在誤解。他指出,DeepSeek-R1 擁有 6700 億個參數,遠大於 Meta AI 的 Llama 3.1 405B。這些參數是模型在訓練期間學習以進行預測的內部數值。郭榮昌還認為 DeepSeek 的模型可能從 Llama 3.1 提煉而來。
除了這些反駁之外,人們也開始擔心 DeepSeek-R1 的功能。專家認為,與其前身一樣,R1 在專業的、特定任務的功能方面表現出色,但在通用效能方面落後於 GPT-4o 的版本。
DeepSeek 模型的一個主要限制是限制對信息的自由訪問。用戶發現,關於敏感政治主題的詢問會得到迴避的回應。關於新疆維吾爾族少數民族和台灣的地位等議題,DeepSeek 的回應反映了中國共產黨的官方立場。研究表明,DeepSeek 的很大一部分輸出經過審查,以壓制與民主、人權和中國有爭議的主權聲張有關的信息。
台灣的替代方案:TAIDE 及其他
為了應對這種情況,台灣開發的 LLM(例如 TAME)已成為 Sinosphere 中 DeepSeek 的替代方案。由國家應用研究研究院於 2023 年 6 月推出的可信賴 AI 對話引擎 (TAIDE) 旨在開發符合台灣社會、文化和語言規範的模型。
雖然 TAIDE 的工作似乎停滯不前,但它為 Project TAME 提供了一個重要的基準。TAME 由台灣大學機器智慧與理解實驗室 (MiuLab) 開發,並獲得各組織的資助,接受了 5000 億個 tokens 的訓練。它在 39 項評估中超越了包括 GPT-4o 在內的競爭對手,在大學入學考試、律師資格考試和中醫考試中獲得了更高的分數。
TAME 的目標之一是促進當地文化。解鎖當地語言能力是一個重要的步驟。郭榮昌提到開發基於 Whisper 的台灣語音 LLM,該 LLM 在理解口語台灣語方面取得了積極的成果。目前正在努力開發客語識別。
這些努力受到這些語言盛行地區的機構的歡迎。也有人努力訓練該模型以識別本土語言,但有限的數據仍然是一個障礙。訓練 AI 學習一門新語言需要大量的語音錄音與文本配對。
存取政府檔案中的歷史數據是另一個機會。但是,某些數據受到版權保護。通用人工智慧的出現提供了幫助復興瀕危和滅絕語言的潛力。
追求 AI 主權
語言和文化的交集凸顯了 AI 主權作為加強台灣認同、傳達台灣敘事和保護其資訊環境的手段的重要性。
產業顧問兼市場情報暨諮詢研究所 (MIC) 總監朱學恆強調了 LLM 模型和訓練數據中存在偏見的可能性。他指出,即使使用繁體字,LLM 輸出也可能反映中華人民共和國的風格,而未能捕捉到台灣的文化。目標是讓台灣公司使用台灣語言或數據來訓練 LLM 並建立 AI 主權。
朱學恆提到 Formosa Foundation Model (FFM-Llama2) 是另一個有前途的台灣 LLM。它由 Taiwan Web Service 於 2023 年 9 月發布,旨在使 AI 民主化。鴻海也在 3 月推出了其 LLM FoxBrain。然而,一些評論員仍然對大公司進軍 LLM 持懷疑態度。
開發 TAME 的 MiuLab 團隊成員林彥廷強調,需要解決台灣資訊環境方面的差距。他指出,DeepSeek-R1 和其他中國 LLM 對台灣的看法存在扭曲。美國開發的模型有時也會歪曲台灣。開源模型可能不會優先考慮台灣,並且訓練數據主要由中國主導。
因此,重要的是有選擇地納入台灣內容並將其重新訓練到模型中。這種積極主動的方法確保了台灣獨特的文化和語言景觀在數位領域得到準確的體現,培養了民族認同感,並在全球 AI 發展的背景下維護了其獨特的傳統。這種對保護台灣認同的奉獻精神確保了這個島國獨特的文化和價值觀不會被主導敘事所掩蓋。
這項事業固有的挑戰是巨大的。建立一個真正具有代表性的 AI 模型需要大量的資源投入,包括存取大量本地化內容數據集以及自然語言處理方面的專業知識。此外,不斷需要打擊虛假信息和帶有偏見的信息,因此需要不斷的完善和適應過程。
儘管存在這些挑戰,台灣對 AI 主權的承諾仍然堅定不移。TAME 和其他本地化 LLM 的開發是確保人工智慧的未來反映該島獨特的文化認同、民主價值觀和堅定不移地致力於維護其在世界上的獨特地位的關鍵一步。透過優先考慮 AI 主權,台灣不僅保護了其文化遺產,而且將自己定位為全球 AI 格局中的一個關鍵參與者,表明技術進步可以與保護文化認同和民主原則相一致。
繼續旅程
實現完全 AI 主權的旅程仍在繼續。進一步的研究、開發和合作對於克服挑戰並確保這些計劃的長期成功至關重要。透過繼續優先考慮 AI 主權,台灣可以創造一個真正反映其獨特文化認同和民主價值的數位景觀,為其他努力在日益相互關聯的世界中維持其獨特地位的國家樹立榜樣。