利用強化學習
騰訊’混元 T1’ 的核心在於其利用了大規模強化學習。 這種技術也是 DeepSeek 的 R1 模型的基石,允許 AI 通過迭代交互和反饋來學習和提高其推理能力。 這種方法模仿人類如何通過試驗和錯誤來學習,使模型能夠隨著時間的推移完善其理解和決策過程。
基準性能:正面比較
在競爭激烈的 AI 世界中,基準測試是模型能力的關鍵指標。 ‘混元 T1’ 在幾個關鍵基準測試中表現出色:
MMLU Pro: 在評估模型整體知識基礎的大規模多任務語言理解 (MMLU) Pro 基準測試中,T1 取得了 87.2 的驕人成績。 這超過了 DeepSeek-R1 的 84 分,儘管略低於 OpenAI 的 o1 的 89.3 分。
AIME 2024: 在 2024 年美國數學邀請賽 (AIME) 中,T1 以 78.2 分展示了其數學實力。 這使其僅次於 R1 的 79.8 分,略微領先於 o1 的 79.2 分,展示了其在複雜問題解決方面的競爭優勢。
C-Eval: 在中文語言能力方面,T1 真正大放異彩。 在 C-Eval 套件評估中,它獲得了驚人的 91.8 分,與 R1 的分數持平,並且優於 o1 的 87.8 分。 這突出了 T1 在理解和處理中文語言細微差別方面的優勢。
定價:競爭優勢
除了性能之外,定價在 AI 模型的採用和可訪問性方面也起著重要作用。 騰訊的 T1 提供了與 DeepSeek 產品一致的具有競爭力的定價結構:
輸入: T1 對每 100 萬個 token 的輸入收取 1 元人民幣(約合 0.14 美元)。 該費率與 R1 的白天費率相同,並且顯著低於其白天輸出費率。
輸出: 對於輸出,T1 每百萬個 token 收費 4 元人民幣。 雖然 R1 的白天輸出費率較高(每百萬個 token 16 元人民幣),但其隔夜費率與 T1 的定價相符。
這種具有競爭力的定價策略使 T1 成為尋求具有成本效益的 AI 解決方案的企業和開發人員的有吸引力的選擇。
混合架構:一種新穎的方法
騰訊採用了一種創新的方法來設計 T1 的架構,成為業界第一個採用結合 Google 的 Transformer 和 Mamba 的混合模型。 這種獨特的組合具有以下幾個優點:
降低成本: 與純 Transformer 架構相比,騰訊聲稱,混合方法「顯著降低了訓練和推理成本」。 這是通過優化內存使用來實現的,內存使用是大型 AI 模型部署中的一個關鍵因素。
增強的長文本處理能力: T1 被吹捧為具有「在確保捕獲長文本信息能力的同時顯著減少資源消耗」的能力。 這意味著解碼速度提高了 200%,使其特別適合處理冗長的文檔和複雜的數據集。
真實世界測試:優勢與劣勢
科技部落格進行的獨立測試進一步揭示了 T1 的能力和局限性:
NCJRYDS: 在 NCJRYDS 與 R1 的直接比較中,T1 既展示了優勢,也展示了劣勢。 雖然它在創作中國古詩方面表現不佳,但它擅長在各種語境中解釋一個中文單詞。 這突出了該模型對語言的細緻理解,即使其創意寫作技巧需要進一步完善。
GoPlayAI: 另一個部落格 GoPlayAI 向 T1 提出了四個數學問題。 該模型成功解決了三個問題,但在最具挑戰性的問題上遇到了困難,最終在處理了五分鐘後未能提供正確答案。 這表明,雖然 T1 具有很強的數學能力,但在面對異常複雜的問題時可能會遇到限制。
AI 作為核心收入來源
騰訊正在戰略性地將 AI 定位為其未來增長的中心支柱。 將 DeepSeek-R1 集成到其雲平台和元寶聊天機器人中,以及其自身的’混元’模型,表明了該公司致力於提供多樣化的 AI 解決方案。
「雙核」戰略
騰訊董事會主席兼首席執行官馬化騰公開表示欽佩 DeepSeek 致力於打造「獨立、真正開源和免費的產品」。 這種觀點反映了騰訊自身在 AI 領域的「雙核」戰略,即同時利用 DeepSeek 的模型和其專有的元寶模型。 這種方法與騰訊在視頻遊戲行業的成功策略相呼應,在視頻遊戲行業,騰訊既推廣內部開發的遊戲,也推廣獨立工作室的遊戲,從而營造一個充滿活力和競爭力的生態系統。
深入探討強化學習
在’混元 T1’ 和 DeepSeek-R1 中使用大規模強化學習值得進一步探討。 這種技術特別適用於涉及順序決策的任務,其中 AI 代理根據從環境中收到的反饋來學習優化其行為。
在 AI 推理的背景下,強化學習可以應用於以下任務:
遊戲: 訓練 AI 代理在圍棋或國際象棋等複雜遊戲中表現出色,在這些遊戲中,戰略規劃和長期決策至關重要。
機器人技術: 使機器人能夠在複雜的環境中導航、與物體交互並執行需要適應不斷變化的條件的任務。
自然語言處理: 提高 AI 模型理解和生成人類語言的能力,包括對話管理和文本摘要等任務。
通過利用強化學習,T1 和 R1 能夠應對複雜的推理挑戰,這些挑戰不僅需要模式識別; 他們可以積極學習和調整策略以實現最佳結果。
混合架構的意義
騰訊率先使用結合 Google 的 Transformer 和 Mamba 的混合架構,代表了 AI 模型設計的重大進步。
Transformer: 以其注意力機制而聞名的 Transformer 架構徹底改變了自然語言處理。 它允許模型在處理信息時關注輸入序列的不同部分,從而提高對上下文和單詞之間關係的理解。
Mamba: 另一方面,Mamba 是一種更新的架構,它解決了 Transformer 的一些局限性,特別是在處理長序列方面。 它在內存使用和計算成本方面提供了更高的效率,使其非常適合處理大量數據。
通過結合這兩種架構,T1 旨在利用兩者的優勢:Transformer 的上下文理解和 Mamba 的效率。 這種混合方法有可能在 AI 推理中開啟新的可能性,特別是對於涉及處理長而複雜文本的任務。
騰訊 AI 推動的更廣泛影響
騰訊大舉進軍 AI 領域對全球科技格局產生了更廣泛的影響:
加劇競爭: T1 作為 DeepSeek-R1 的強大競爭對手的出現,加劇了 AI 推理領域的競爭。 這種競爭可能會推動進一步的創新,並加速開發更強大、更高效的 AI 模型。
AI 的民主化: 騰訊針對 T1 的具有競爭力的定價策略有助於 AI 的民主化,使更廣泛的企業和開發人員更容易獲得先進的 AI 功能。 這可能會導致各個行業中 AI 驅動的應用程序和服務激增。
中國的 AI 雄心: 騰訊在 AI 方面的進步突顯了中國在這一領域日益增長的雄心。 中國正在大力投資 AI 研發,旨在成為 AI 技術的全球領導者。
道德考量: 隨著 AI 模型變得越來越強大,圍繞其開發和部署的道德考量變得越來越重要。 需要解決偏見、公平性、透明度和問責制等問題,以確保 AI 得到負責任的使用並造福社會。
‘混元 T1’ 的推出標誌著騰訊 AI 之旅的一個重要里程碑。 該模型的強勁性能、具有競爭力的定價和創新的架構使其成為快速發展的 AI 推理領域的強大競爭者。 隨著騰訊繼續投資 AI 研發,它有望在塑造這項變革性技術的未來方面發揮重要作用。