微軟Phi-4:高效能精巧AI模型新紀元
Microsoft 推出 Phi-4 系列模型,兼具小巧體積與強大效能,可處理文本、圖像和語音,同時大幅降低運算需求。Phi-4 挑戰了'越大越好'的 AI 迷思,證明了小巧也能蘊藏強大力量,為邊緣運算和資料隱私帶來新優勢。
Microsoft 推出 Phi-4 系列模型,兼具小巧體積與強大效能,可處理文本、圖像和語音,同時大幅降低運算需求。Phi-4 挑戰了'越大越好'的 AI 迷思,證明了小巧也能蘊藏強大力量,為邊緣運算和資料隱私帶來新優勢。
DeepSeek 震撼 AI 界,也衝擊晶片業。RISC-V 開源架構成功適配 DeepSeek 模型,展現強勁潛力。玄鐵 C930 伺服器級 CPU 問世,'高性能+AI' 全鏈路生態佈局加速,RISC-V 或成 AI 時代原生算力架構。
Rokid,一家中國的擴增實境 (AR) 裝置製造商,憑藉其 AI 驅動的眼鏡引起轟動。這些眼鏡不僅僅是未來概念,更代表 AI 如何整合到可穿戴技術中,實現實際應用。其與阿里巴巴 Qwen 的整合,以及相對實惠的價格,使其成為全球 AR 領域的有力競爭者。
Sopra Steria 與 Mistral AI 策略聯盟,為歐洲大型企業和公共管理部門提供客製化、可部署於主權雲端基礎設施的生成式 AI 解決方案,確保資料主權與安全性,並加速 AI 應用。
Moonshot AI 研究人員引入 Muon 和 Moonlight,透過高效訓練技術優化大型語言模型。研究重點在於提升效率和穩定性,降低計算成本,並開源研究成果,促進大型語言模型領域的發展。
Moonshot AI 的 Kimi 近期發表了「Muon 可擴展 LLM 訓練」技術報告,並推出「月光」混合專家模型 (MoE),擁有 300 億和 1600 億參數。此模型採用 Muon 架構,以 57 兆個 token 訓練,在提升效能的同時,大幅降低浮點運算次數 (FLOPs),突破帕累托效率的界限。
Baichuan-M1 為一系列大型語言模型,經 20T 詞元訓練,專為提升醫療能力而設計。突破傳統模型限制,從頭打造,兼顧通用性與專業精準度,為醫療領域 AI 應用帶來新典範。
一項研究顯示,當前的人工智慧模型在理解世界歷史方面存在顯著缺陷,回答歷史問題的準確率僅為46%。這引發了人們對人工智慧在知識理解和推理能力方面的擔憂,並促使我們重新審視人工智慧在教育、研究等領域的應用前景。
本文深入探討了擴散模型在推理階段的擴展性,研究發現增加推理時的計算資源可以顯著提升生成樣本的質量。研究重點在於透過搜尋最佳採樣雜訊來優化推理過程,並提出了驗證器和演算法兩個核心設計軸。此外,研究還探討了不同驗證器與任務的對齊性、演算法的效能以及與微調模型的相容性,揭示了在推理時進行計算投資的有效性,特別是在較小模型上的潛力。
階躍星辰與清華大學等機構的研究人員提出多矩陣分解注意力(MFA)機制,有效降低大型語言模型(LLM)推理成本。MFA及其變體MFA-KR在減少高達93.7%的KV快取使用量的同時,效能與傳統MHA相當,且實現簡單、易於復現,並對超參數不敏感。