微軟 Phi Silica:賦予 AI 視覺能力

微軟近日為其小型語言模型(SLM)Phi Silica 增添了’視覺’能力,使其具備多模態功能。這項強化使 Phi Silica 成為驅動 Recall 等 AI 功能的智慧核心,顯著提升了其能力。

以多模態徹底改變 AI 能力

透過整合視覺理解能力,微軟已將 Phi Silica 轉變為多模態系統。這項進展使 SLM 能夠以更精確的方式理解圖像,為創新的生產力與輔助功能鋪路。這代表 AI 在與多種形式的資料互動及詮釋方面,向前邁進了一大步。

了解 Phi Silica:本地 AI 背後的引擎

Phi Silica 是微軟精心打造的小型語言模型(SLM)。作為較大型 AI 模型的精簡版本,它專為在 Copilot+ PC 中實現無縫整合與運作而設計。它的本地運作意味著更快的反應時間,並降低對雲端資源的依賴。

Phi Silica 作為本地 AI 引擎,為 Windows 中的許多功能提供支援,包括 Windows Copilot Runtime。它擅長於在本機執行文字摘要,從而在設備上直接執行任務,而不是依賴雲端處理,因此能將能源消耗降至最低。這種效率對於行動裝置和以節省電力為首要考量的系統至關重要。

Phi Silica 也在 Windows Recall 功能中扮演關鍵角色,擷取顯示內容的螢幕截圖,並作為記憶輔助工具。這讓使用者能夠透過自然語言查詢,檢索基於過去視覺內容的資訊。將這類功能直接整合到作業系統中,展現了微軟致力於透過 AI 提升使用者體驗的決心。

透過再利用實現高效成果

微軟的成就尤其值得注意,因為它有效地利用了現有元件,而不是建立全新的元件。小型’投影機’模型的引入,有助於實現視覺功能,而不會產生顯著的資源負擔。這種方法強調了在 AI 開發中對最佳化和資源有效利用的策略性重視。

這種對資源的有效利用轉化為更低的功耗,使用者對此表示非常讚賞,尤其是在行動裝置上。如前所述,Phi Silica 的多模態能力有望推動各種 AI 體驗,例如圖像描述,從而為使用者互動和輔助功能開闢新的途徑。

擴大輔助功能和用途

目前僅提供英文版本,微軟計畫將這些增強功能擴展到其他語言,從而擴大系統的使用案例和全球輔助功能。此擴展是確保更廣泛的受眾都能受益於 AI 的重要一步。

目前,Phi Silica 的多模態功能僅適用於配備 Snapdragon 晶片的 Copilot+ PC。然而,微軟計畫在未來將其可用性擴展到由 AMD 和 Intel 處理器驅動的裝置,以確保更廣泛的相容性和採用。

微軟的成就因其創新方法而值得肯定。最初,Phi Silica 只能理解文字、字母和文本。微軟沒有開發新的元件來充當新的’大腦’,而是選擇了更具創意和效率的解決方案。這項決策凸顯了對資源豐富的創新和策略性開發的關注。

視覺理解背後的巧妙方法

為了使其更加簡潔,微軟向圖像分析方面的系統專家展示了大量的照片和圖像。因此,該系統變得擅長識別照片中最關鍵的元素。此訓練過程使系統能夠發展出對視覺內容的精確理解。

隨後,該公司建立了一個翻譯器,能夠解釋系統從照片中提取的資訊,並將其轉換為 Phi Silica 可以理解的格式。此翻譯器充當橋樑,使 SLM 能夠處理和整合視覺資料。

然後,Phi Silica 接受了訓練,以掌握這種新的照片和圖像語言,從而使其能夠將這種語言連結到其資料庫和文字知識。這種視覺和文本資料的整合,有助於更全面地理解資訊。

Phi Silica:詳細概述

如前所述,Phi Silica 是一種小型語言模型(SLM),這是一種旨在理解和複製自然語言的 AI 類型,與其對應的大型語言模型(LLM)非常相似。然而,它的主要區別在於其較小的尺寸(相對於參數的數量)。這種縮小的尺寸使其能夠在本地設備上高效運作,從而減少對雲端處理的需求。

微軟的 SLM Phi Silica 作為 Recall 和其他智慧功能背後的智慧核心。它最近的增強功能使其能夠成為多模態,除了文字之外還能感知圖像,從而擴展了其實用性和應用場景。這標誌著在創建更通用且使用者友好的 AI 系統方面邁出了重要一步。

微軟分享了 Phi Silica 多模態功能所釋放的可能性的範例,主要側重於為使用者提供的輔助工具。這些範例突顯了 SLM 在改善身心障礙人士和需要認知任務協助的人士生活方面的潛力。

徹底改變使用者的輔助功能

一個重要的應用是協助有視覺障礙的人士。例如,如果視障使用者在網站上或文件中遇到照片,微軟的 SLM 可以自動生成該圖像的文本和詳細描述。然後,PC 工具可以大聲讀出此描述,使使用者能夠理解圖像的內容。此功能代表了在使所有人都能存取視覺內容方面向前邁進了一大步。

此外,這種增強功能也有益於有學習障礙的人士。SLM 可以分析螢幕上顯示的內容,並向使用者提供關聯且詳細的說明或協助。這可以顯著提高學習成果,並為那些難以適應傳統學習方法的人士提供支援。

Phi Silica 還有助於識別設備網路攝影機上顯示的物體、標籤或從元素中讀取文本。對微軟小型語言模型的這種增強功能的應用非常廣泛,並且在以各種方式協助使用者方面具有巨大的潛力。這證明了微軟致力於創建既強大又易於使用的 AI。

跨各種領域的應用

除了輔助功能外,Phi Silica 的多模態功能還擴展到各種其他領域。例如,它可用於教育領域,以提供複雜圖表或插圖的詳細說明,從而增強學習體驗。在醫療保健領域,它可以協助分析醫學影像(例如 X 光片),以幫助醫生做出更準確的診斷。

在商業領域,Phi Silica 可用於自動執行從發票或收據中提取資訊等任務,從而節省時間並減少錯誤。它還可用於透過根據視覺提示提供對客戶查詢的自動回應來增強客戶服務。

將多模態功能整合到 Phi Silica 中,標誌著 AI 發展的一個重要里程碑。透過使 SLM 能夠理解文本和圖像,微軟解鎖了大量新的可能性和應用。隨著微軟不斷改進和擴展 Phi Silica 的功能,它有望在塑造 AI 的未來方面發揮越來越重要的作用。

透過 AI 轉變使用者互動

轉向像 Phi Silica 這樣多模態 AI 系統,不僅僅是添加新功能;而是從根本上轉變使用者與技術互動的方式。透過理解並回應視覺和文本輸入,AI 可以變得更加直觀,並能回應使用者的各種需求。

這種轉變在日益數位化的世界中尤其重要,在數位世界中,使用者不斷受到來自各種來源的資訊轟炸。透過提供可以幫助使用者過濾、理解和處理此資訊的 AI 系統,我們可以讓他們更有效率、更知情和更投入。

多模態 AI 的未來

展望未來,多模態 AI 的未來是光明的。隨著 AI 模型變得更加複雜,資料變得更加豐富,我們可以預期在各個領域看到更多創新的多模態 AI 應用。這包括機器人技術、自動駕駛車輛和擴增實境等領域。

在機器人技術中,多模態 AI 可以使機器人能夠以更自然和直觀的方式理解和互動。例如,配備多模態 AI 的機器人可以使用視覺提示來導航複雜的環境,同時也可以使用文本命令來回應人類的指示。

在自動駕駛車輛中,多模態 AI 可以使車輛能夠以更可靠和安全的方式感知和反應周圍的環境。例如,配備多模態 AI 的自動駕駛汽車可以使用來自攝影機和光達感測器的視覺資料,以及來自交通報告的文字資料,來做出有關導航和安全的明智決策。

在擴增實境中,多模態 AI 可以使使用者能夠以更身臨其境和更引人入勝的方式與數位內容互動。例如,配備多模態 AI 的 AR 應用程式可以使用視覺提示來識別現實世界中的物體,同時也可以使用來自線上資料庫的文字資料,來向使用者提供有關這些物體的相關資訊。

應對挑戰與倫理考量

與任何新興技術一樣,多模態 AI 的開發和部署也引發了重要的挑戰和倫理考量。一個關鍵的挑戰是確保多模態 AI 系統是公平且公正的。AI 模型有時會延續或放大用於訓練它們的資料中的既有偏見,從而導致不公平或歧視性的結果。

為了應對這一挑戰,至關重要的是仔細策劃和稽核用於訓練多模態 AI 系統的資料。開發用於偵測和減輕 AI 模型中的偏見的技術也很重要。另一個重要的挑戰是確保多模態 AI 系統使用的資料的隱私權和安全性。AI 模型有時可能會無意中洩露有關個人的敏感資訊,例如他們的身份、偏好或活動。

為了應對這一挑戰,至關重要的是實施健全的資料治理策略和安全措施。開發用於匿名化和保護敏感資料的技術也很重要。最後,重要的是確保多模態 AI 系統是透明且負責任的。使用者應該能夠理解 AI 系統如何做出決策,並能夠追究其行為的責任。

為了應對這一挑戰,至關重要的是開發可解釋 AI(XAI)技術,讓使用者能夠理解 AI 決策背後的推理。建立明確的 AI 系統問責制也很重要。

總之,微軟透過多模態功能增強 Phi Silica,代表了 AI 發展的一個重要進展。透過使 SLM 能夠理解文本和圖像,微軟解鎖了大量新的可能性和應用。隨著微軟和其他組織繼續開發和改進多模態 AI 系統,至關重要的是應對與此技術相關的挑戰和倫理考量。透過這樣做,我們可以確保多模態 AI 以對整個社會有益的方式使用。