解鎖AI潛力:推論經濟學

隨著人工智慧持續快速發展並整合到各行各業,企業面臨著一個至關重要的挑戰:如何最大化這些強大技術所帶來的價值。這個挑戰的一個關鍵方面在於理解推論經濟學,也就是使用經過訓練的 AI 模型,從新的數據中產生預測或輸出的過程。

推論相較於模型訓練,提出了獨特的計算需求。雖然訓練涉及處理大量數據集和識別模式的巨額前期成本,但推論每次交互都會產生持續成本。提交給模型的每個提示或輸入都會觸發生成 tokens(數據的基本單位),而每個 token 都帶有計算成本。

因此,隨著 AI 模型變得越來越複雜且被廣泛使用,生成的 tokens 數量增加,導致更高的計算費用。對於尋求有效利用 AI 的組織來說,目標是在控制計算成本的同時,以最佳的速度、準確性和服務品質生成大量的 tokens。

AI 生態系統一直在積極尋求降低推論成本和提高效率的策略。模型優化的進步,加上節能加速計算基礎設施和全面的全棧解決方案的開發,促成了過去一年推論成本的下降趨勢。

根據史丹佛大學以人為本 AI 研究院的 2025 年 AI 指數報告,具有 GPT-3.5 等級性能的系統的推論成本在 2022 年 11 月至 2024 年 10 月期間大幅下降。硬體成本也下降了,能源效率每年都在提高。此外,開放權重模型正在縮小與封閉模型之間的性能差距,進一步降低了採用先進 AI 的障礙。

隨著模型不斷進步並創造更多需求和產生更多 tokens,組織必須擴展其加速計算資源,以提供下一代 AI 推理工具。否則可能會導致成本和能源消耗增加。

本文提供對推論經濟學的基本理解,使組織能夠開發高效、具有成本效益且可擴展的 AI 解決方案。

AI 推論經濟學中的關鍵概念

熟悉 AI 推論經濟學的基本術語對於理解其重要性至關重要。

  • Tokens: AI 模型中的核心數據單位,來自訓練期間的文本、圖像、音頻和影片。 Tokenization 涉及將數據分解為更小、更易於管理的單位。在訓練期間,模型學習 tokens 之間的關係,使其能夠執行推論並生成準確的輸出。

  • Throughput(吞吐量): 模型可以在特定時間範圍內處理和輸出的數據量,通常以每秒 tokens 數來衡量。更高的吞吐量表示更有效地利用基礎設施資源。

  • Latency(延遲): 輸入提示和接收模型響應之間的時間延遲。更低的延遲轉化為更快的響應和更好的用戶體驗。關鍵的延遲指標包括:

    • Time to First Token (TTFT): 模型在收到用戶提示後產生第一個輸出 token 所需的時間,反映了初始處理時間。
    • Time per Output Token (TPOT): 生成後續 tokens 的平均時間,也稱為“token 間延遲”或“token 到 token 延遲”。

雖然 TTFT 和 TPOT 是有用的基準,但僅僅關注它們可能會導致次優的性能或增加的成本。

  • Goodput: 一個整體指標,用於衡量在保持目標 TTFT 和 TPOT 水準時實現的吞吐量。 Goodput 提供更全面的系統性能視圖,確保吞吐量、延遲和成本之間保持一致,以支持運營效率和積極的用戶體驗。

  • Energy Efficiency(能源效率): 衡量 AI 系統將功率轉換為計算輸出的效率,表示為每瓦特的性能。加速計算平台可以幫助組織最大化每瓦特的 tokens 數並最大限度地減少能源消耗。

擴展定律與推論成本

三個 AI 擴展定律提供了對推論經濟學的進一步見解:

  • Pretraining Scaling(預訓練擴展): 最初的擴展定律,它表明增加訓練數據集大小、模型參數計數和計算資源會導致模型智慧和準確性的可預測改進。

  • Post-training(後訓練): 模型針對特定任務和應用進行微調的過程。像檢索增強生成 (RAG) 這樣的技術可以通過從企業數據庫中檢索相關資訊來提高準確性。

  • Test-time Scaling(測試時擴展): 也稱為“長時間思考”或“推理”,這種技術涉及在推論期間分配額外的計算資源,以評估多種可能的結果,然後選擇最佳答案。

雖然後訓練和測試時擴展技術正變得越來越複雜,但預訓練仍然是擴展模型和支持這些先進技術的關鍵方面。

通過全棧方法實現盈利 AI

利用測試時擴展的模型會生成多個 tokens 來解決複雜的問題,與僅經過預訓練和後訓練的模型相比,這會產生更準確和相關的輸出,但也會產生更高的計算成本。

更智慧的 AI 解決方案需要生成更多 tokens 來解決複雜的任務,而高品質的用戶體驗需要盡快生成這些 tokens。 AI 模型越智慧、速度越快,它為企業和客戶提供的價值就越高。

組織需要擴展其加速計算資源,以提供能夠處理複雜問題解決、編碼和多步驟規劃的 AI 推理工具,而不會產生過多的成本。

這需要先進的硬體和完全優化的軟體堆疊。 NVIDIA 的 AI 工廠產品路線圖旨在滿足這些計算需求,並解決推論的複雜性,同時提高效率。

AI 工廠集成了高性能 AI 基礎設施、高速網路和優化的軟體,以實現大規模的智慧。這些組件被設計為靈活且可編程,允許企業優先考慮對其模型或推論需求至關重要的領域。

為了在部署大規模 AI 推理模型時簡化運營,AI 工廠運行在高性能、低延遲的推論管理系統上。該系統確保以盡可能低的成本滿足 AI 推理所需的速度和吞吐量,從而最大限度地提高 token 收入的產生。

通過理解和解決推論的經濟學問題,組織可以釋放 AI 的全部潛力,並獲得顯著的投資回報。考慮到關鍵指標、擴展定律以及全棧解決方案重要性的策略方法,對於構建高效、具有成本效益且有利可圖的 AI 應用程式至關重要。