人工智能領域持續不斷的創新步伐,正不斷重塑科技版圖,尤其是在競爭激烈的智能手機功能領域。Google最近的一項舉措突顯了這一動態,該公司已開始為其AI助理Gemini在特定的Android裝置上配備精密的視覺解讀功能。此發展緊隨Apple公佈其雄心勃勃、名為’Apple Intelligence’的AI套件之後,而該套件的部分功能正面臨推出延遲,這暗示Google可能在將下一代、具備情境感知能力的AI直接交到用戶手中方面,取得了初步優勢。
Gemini學會觀看與分享:深入了解新功能
Google證實已開始推出Gemini的增強功能,特別整合了相機輸入和螢幕分享能力。這些進階功能初期僅供Gemini Advanced及Google One AI Premium計劃的訂閱者使用,將其定位為Google生態系統內的高級服務。核心創新在於賦予Gemini即時處理和理解視覺資訊的能力,無論是來自裝置的螢幕還是透過其相機鏡頭。
想像一下,將手機相機對準現實世界中的一個物體——也許是一件不熟悉的硬體、一株你想識別的植物,或建築物上的建築細節。透過這次更新,Gemini的目標是超越簡單的識別,這項任務像Google Lens這樣的工具已經能夠勝任。目標是基於AI所’看見’的內容,實現對話式互動。Google自家的宣傳材料透過一個用戶選購浴室瓷磚的場景來說明這種潛力。Gemini存取即時相機畫面,可能可以討論色彩搭配、建議互補風格,甚至比較圖案,提供基於視覺情境的互動式指導。這種互動模式顯著超越了靜態圖像分析,朝向更動態、更像助理的角色發展。
同樣地,螢幕分享功能承諾提供新層次的脈絡感知協助。用戶可以有效地向Gemini’展示’目前手機螢幕上顯示的內容。這可能包括尋求導航複雜應用程式介面的幫助、獲取關於螢幕上可見的草稿郵件的建議,或者透過讓Gemini視覺評估情況來排除技術故障。用戶不再僅僅依賴口頭描述,而是可以提供直接的視覺輸入,這可能使AI提供更準確、更高效的支援。它將AI從一個被動接收文字或語音指令的角色,轉變為用戶數位環境的主動觀察者。
這些功能利用了多模態AI的力量,這種AI旨在同時處理和理解來自多種輸入類型(在此案例中為文字、語音,以及至關重要的視覺)的資訊。將這種複雜技術直接引入智能手機體驗是一大進步,旨在使AI協助更加直觀,並深度整合到日常任務中。潛在應用範圍廣泛,或許僅受限於AI不斷演進的理解能力和用戶的想像力。從教育輔助(Gemini可以幫助分析螢幕上的圖表)到無障礙增強功能,AI能夠’看見’並作出反應的能力開啟了眾多可能性。
逐步揭曉的導航:誰能取得以及何時取得?
儘管Google官方已確認推出正在進行中,但即使是符合資格的高級訂閱者,要存取這些尖端功能也尚未成為普遍體驗。成功啟用相機和螢幕分享功能的用戶報告仍然零星,描繪出一幅謹慎管理、分階段部署的景象,而非大規模、同步的發布。這種審慎的方法在科技行業很常見,特別是對於涉及複雜AI模型的重大功能更新。
有趣的是,一些最早確認功能啟用的報告不僅來自Google自家Pixel裝置的用戶,也來自使用其他製造商(如Xiaomi)硬體的個人。這表明,推出初期並非嚴格受限於裝置品牌,儘管長期可用性和優化可能在Android生態系統中有所不同。即使是明確付費購買高級AI層級的用戶也經歷著不同的存取時間,這突顯了在全球範圍內跨不同硬體和軟體配置分發此類更新所涉及的複雜性。
幾個因素可能促成了這種逐步釋出的策略。首先,它允許Google即時監控伺服器負載和性能影響。透過複雜的AI模型處理即時視訊饋送和螢幕內容是計算密集型的,需要大量的後端基礎設施。分階段推出有助於防止系統過載,並確保早期採用者獲得更流暢的體驗。其次,它為Google提供了一個機會,在廣泛提供功能之前,從一個較小、受控的群體中收集關鍵的真實世界使用數據和用戶反饋。這個反饋循環對於識別錯誤、改進用戶介面以及根據實際互動模式提升AI性能至關重要。最後,地區可用性、語言支援和法規考量也可能影響不同市場的推出時間表。
雖然最初緩慢的存取速度可能讓熱切的用戶感到焦急,但它反映了部署強大新技術的務實方法。潛在用戶,特別是那些使用Pixel或高端Samsung Galaxy裝置的用戶,建議在未來幾週內留意他們的Gemini應用程式更新,並理解可能需要耐心等待視覺功能在他們的特定裝置上啟用。Google尚未明確說明確切的時間表和最初支援的裝置完整列表,為此過程增添了一絲期待感。
Apple的視角:視覺智能與交錯的時間線
Google部署Gemini視覺增強功能的背景,不可避免地是Apple最近在其全球開發者大會(WWDC)上發表的Apple Intelligence。Apple全面的AI功能套件承諾在iOS、iPadOS和macOS之間進行深度整合,強調為保護隱私和提升速度而進行的裝置端處理,並透過’Private Cloud Compute’為更複雜的任務提供無縫的雲端卸載。該套件的一個關鍵組成部分是’Visual Intelligence’,旨在理解照片和影片中的內容並採取行動。
然而,Apple的方法似乎與Google目前的Gemini實施在能力和推出策略上都有所不同。雖然Visual Intelligence將允許用戶識別圖像中的物體和文字,並可能基於該資訊執行操作(例如撥打照片中捕捉到的電話號碼),但初步描述表明,該系統較少關注基於即時相機饋送或螢幕內容的即時、對話式互動,這類似於Gemini現在提供的功能。Apple的重點似乎更傾向於利用用戶現有的照片庫和裝置上的內容,而不是以同樣互動的方式充當外部世界或當前螢幕情境的即時視覺助理。
此外,Apple自己也承認,並非所有已宣布的Apple Intelligence功能都將在今年秋季的首次發布時可用。一些更具雄心的功能計劃稍後發布,可能延續到2025年。雖然關於哪些視覺元素可能被延遲的具體細節尚不完全清楚,但這種交錯的推出與Google現在推出其先進視覺功能(儘管是針對特定群體)形成對比。這種時間上的差異引發了關於這兩家科技巨頭相對準備程度和戰略優先級的猜測。有關Apple Siri和AI部門高層人事變動的報導,進一步增加了該公司在部署其AI願景過程中可能進行內部調整的說法。
Apple傳統上謹慎的做法,高度強調用戶隱私和緊密的生態系統整合,通常導致比那些可能優先考慮更快迭代和基於雲端解決方案的競爭對手更長的開發週期。許多Apple Intelligence功能對強大裝置端處理的依賴也帶來了重大的工程挑戰,需要高度優化的模型和有能力的硬體(初期僅限於配備A17 Pro晶片和M系列晶片的裝置)。雖然這種策略提供了引人注目的隱私優勢,但與Google以Gemini Advanced採用的更以雲端為中心的方法相比,它可能內在地導致最尖端、計算要求最高的AI功能的引入速度較慢。這場競賽不僅關乎能力,也關乎選擇的部署路徑以及在數據處理和用戶隱私方面潛在的哲學差異。
從實驗室演示到口袋現實:視覺AI的旅程
將視覺理解引入像Gemini這樣的主流AI助理並非一蹴可幾。它代表了多年來在計算機視覺和多模態AI領域研發的結晶。對Google而言,這些能力的種子在早期的項目和技術演示中已可見端倪。值得注意的是,在之前的Google I/O開發者大會上展示的’Project Astra’,為互動式AI的未來提供了一個引人入勝的預覽。
Project Astra展示了一個能夠透過相機感知周圍環境、記住物體位置,並就視覺環境進行即時語音對話的AI助理。雖然當時是以一個前瞻性概念呈現,但其核心技術——理解即時視訊饋送、在情境中識別物體,並將視覺數據整合到對話式AI框架中——正是支撐著現在向Gemini推出的新功能的基礎。作者回憶起目睹Astra的經歷,強調雖然演示本身當時可能看起來並非立即具有革命性,但Google能夠在相對較短的時間內將那項複雜技術轉化為面向用戶的功能,這一點值得注意。
從受控的技術演示到在消費者智能手機上部署(即使是逐步)的功能,這段旅程突顯了多模態AI模型的快速成熟。開發能夠將視覺輸入與語言理解無縫融合的AI需要克服重大的技術障礙。AI不僅必須準確識別物體,還必須理解它們之間的關係、情境以及與用戶查詢或正在進行的對話的相關性。近乎即時地處理這些資訊,特別是來自即時視訊流的資訊,需要大量的計算能力和高度優化的演算法。
Google在AI研究方面的長期投入,體現在Google Search、Google Photos(及其物體識別功能)和Google Lens等產品中,為此奠定了堅實的基礎。Gemini代表了將這些分散的能力整合並演進為一個更統一、更強大的對話式AI。將’視覺’能力直接引入主要的Gemini介面,而不是將其限制在像Lens這樣的獨立應用程式中,表明Google意圖讓視覺理解成為其AI助理身份的核心部分。這反映了一種戰略賭注,即用戶將越來越期望他們的AI伴侶能像人類一樣——透過多種感官——感知世界並與之互動。從Project Astra的概念承諾到Gemini的實際功能,標誌著這一演進過程中的一個重要里程碑。
關鍵考驗:真實世界的實用性與高級AI價值主張
最終,Gemini新視覺功能的成功——實際上,任何先進AI功能的成功——都取決於一個簡單卻關鍵的因素:真實世界的實用性。用戶是否會覺得這些功能真正有用、引人入勝或足夠有趣,以至於將它們融入日常生活中?一個能夠’看見’的AI的新奇感最初可能會吸引注意力,但持續使用取決於它是否比現有方法更有效地解決實際問題或提供切實的好處。
Google決定將這些功能捆綁在其高級訂閱層級(Gemini Advanced / Google One AI Premium)內,為採用的挑戰增加了另一層。用戶必須在這些先進的視覺和其他高級AI功能中感知到足夠的價值,才能證明經常性成本的合理性。這與那些最終可能成為標準或作為基礎操作系統體驗一部分提供的功能形成對比,後者通常是Apple的模式。訂閱門檻意味著Gemini的視覺能力必須明顯優於免費替代方案,或提供其他地方無法獲得的獨特功能。Gemini的瓷磚選購建議真的能比知識淵博的店員或快速的圖像搜索更有幫助嗎?透過螢幕分享進行故障排除會比現有的遠端協助工具或僅僅描述問題顯著更好嗎?
證明這種實用性至關重要。如果用戶發現視覺互動笨拙、不準確,或者對於價格而言不夠吸引人,那麼採用率很可能僅限於科技愛好者和早期採用者。然而,如果Google成功展示了清晰的使用案例,其中Gemini的視覺理解節省了時間、簡化了複雜任務或提供了獨特有見地的協助,它就可能開創顯著的優勢。這不僅將驗證Google的AI策略,還會對像Apple這樣的競爭對手施加壓力,要求他們加速部署並增強自家視覺AI產品的能力。
競爭影響是巨大的。一個能夠將視覺輸入與對話無縫融合的AI助理提供了一種根本上更豐富的互動範式。如果Google執行得當且用戶接受它,它可能會重新定義對移動AI助理的期望,推動整個行業向前發展。它也可能成為Android平台的一個強大差異化因素,特別是對於那些投入Google生態系統的用戶。反之,如果反應平平,則可能強化這樣一種觀念,即此類先進AI功能仍在尋找超越利基用途的殺手級應用,這可能驗證像Apple那樣較慢、更整合的方法。未來幾個月,隨著這些功能觸及更多用戶,將是決定Gemini新獲得的視覺能力是否能轉化為真正的市場洞察力和用戶忠誠度的關鍵時期。
前路漫漫:移動AI領域的持續演進
Gemini視覺功能的推出標誌著移動人工智能持續演進中的又一個重要步驟,但這遠非終點。Google、Apple和其他主要參與者之間的競爭確保了創新步伐將保持快速,能力很可能在不久的將來迅速擴展。對Google而言,當前的任務是根據真實世界的使用模式,改進當前相機和螢幕分享功能的性能和可靠性。擴大語言支援、改善情境理解以及可能擴大裝置兼容性將是關鍵的下一步。我們也可能看到與其他Google服務更深層次的整合,讓Gemini能夠以更複雜的方式結合Maps、Photos或Shopping的結果來利用視覺資訊。
與此同時,Apple將專注於按照自己的時間表交付已宣布的Apple Intelligence功能,包括Visual Intelligence。一旦推出,我們可以預期Apple會強調其裝置端處理的隱私優勢以及在其生態系統內的無縫整合。未來的迭代很可能會看到Apple擴展Visual Intelligence的能力,可能彌合與Google展示的更具互動性、即時性能力之間的差距,但可能會堅持其隱私和整合的核心原則。裝置端處理和雲端處理之間的相互作用將繼續是Apple策略的一個決定性特徵。
除了這兩大巨頭之外,更廣泛的行業將會做出反應和調整。其他智能手機製造商和AI開發者可能會加速他們在多模態AI方面的努力,尋求提供具競爭力的功能。我們可能會看到專業化程度提高,一些AI助理在特定的視覺任務(如翻譯、無障礙或創意輔助)方面表現出色。基礎AI模型的開發將繼續進行,從而提高準確性、縮短響應時間,並加深對視覺細微差別的理解。
最終,移動AI的發展軌跡將由用戶需求和採用情況決定。隨著用戶越來越習慣與能夠感知視覺世界的AI互動,期望將會提高。開發者面臨的挑戰將是超越新奇功能,提供不僅技術上令人印象深刻,而且真正能提高生產力、創造力和改善日常生活的AI工具。創造最有用、最直觀、最值得信賴的AI助理的競賽正在激烈進行中,而視覺能力的整合正證明是這場持續技術變革中的一個關鍵戰場。重點必須始終放在提供切實的價值上,確保隨著AI獲得視覺能力,用戶也能獲得有意義的益處。