Gemini Live 的相機模式的到來,標誌著人工智慧發展的一個重大躍進,將具體的未來片段直接帶到我們的指尖。雖然搶先體驗者使用 Pixel 9 和 Samsung Galaxy S25 裝置已享用這項創新功能一段時間,但 Google 在其 I/O 大會上發布的最新公告擴大了存取範圍,涵蓋 Android 和 iOS 使用者。對於 iPhone 用戶而言,這一發展尤其令人興奮,他們現在可以體驗目前最引人入勝的 AI 功能之一,特別是考慮到相機模式最初於 4 月向其他 Android 使用者推出。
揭開視覺的力量:Gemini 相機模式如何運作
Gemini Live 的相機模式,其核心是賦予 AI「看見」的能力,使其能夠識別和辨識放置在相機視野範圍內的物體。這不僅僅是一個表面上的花招,而是一個強大的工具,讓使用者能夠以更直觀和資訊豐富的方式與周圍環境互動。
除了簡單的物件辨識之外,Gemini 還可以回答關於已識別物件的問題,並根據需求提供背景資訊和洞見。此外,使用者可以與 Gemini 分享他們的螢幕,讓 AI 分析和識別顯示在手機螢幕上的元素。若要啟動與相機模式的即時連線,使用者只需啟用即時相機檢視,即可與聊天機器人針對相機捕捉到的任何內容進行對話。
初步印象:Gemini Live 試駕體驗
在我於 Pixel 9 Pro XL 上使用 Gemini Live 進行的初步測試階段中,它的功能給我留下了深刻的印象。其中一個特別難忘的經驗是要求 Gemini 找到我放錯地方的剪刀。
AI 以驚人的準確度回應:「我剛才在桌子上發現了你的剪刀,就在綠色開心果包裝的旁邊。你有看到嗎?」
令我驚訝的是,Gemini 完全正確。剪刀的確就在它指示的位置,儘管我只是在 15 分鐘的即時連線期間,短暫地將相機在它們面前晃過,而我基本上是在向 AI 聊天機器人展示我的公寓。
受到這次初步成功的吸引,我迫不及待地進一步探索相機模式。在另一個更長時間的測試中,我啟用了該功能並開始在我的公寓裡走動,提示 Gemini 識別它看到的物體。它準確地識別出各種物品,包括水果、護唇膏和其他日常用品。然而,重新發現我的剪刀仍然是其功能最引人注目的演示。
Gemini 在沒有任何事先提示的情況下識別出剪刀這一事實尤其令人印象深刻。AI 在連線期間的某個時間點默默地識別出它們,並以驚人的精確度準確地回憶起它們的位置。這種體驗真的感覺像是對未來的驚鴻一瞥,促使我對它的潛力進行更深入的調查。
從靈感汲取:Google 對即時視訊 AI 的願景
我對 Gemini Live 相機功能的實驗,與 Google 去年夏天展示的演示相呼應,該演示首次展示了這些即時視訊 AI 功能。該演示的特色是 Gemini 提醒使用者他們將眼鏡放在哪裡,這似乎好得令人難以置信。然而,正如我所發現的那樣,這種程度的準確性確實是可以實現的。
Gemini Live 不僅僅能夠識別家庭用品。Google 聲稱它可以幫助使用者在擁擠的火車站導航,或識別糕點中的餡料。它還可以提供對藝術品的更深入見解,例如其起源以及它是否為限量版作品。
此功能超越了普通 Google Lens 的功能。您可以與 AI 進行對話,這比 Google 助理更具對話性。
Google 還發布了一個 YouTube 影片來展示該功能,並且現在在 Google 商店上擁有自己的頁面。
要開始使用,請啟動 Gemini,打開相機,然後開始說話。
Gemini Live 建構在 Google 的 Project Astra 基礎之上,該專案最初於去年推出,並且可能是該公司最大的「我們身處未來」功能,是生成式 AI 功能的實驗性下一步,超越了簡單地將提示輸入到 ChatGPT、Claude 或 Gemini 等聊天機器人中,甚至超越了口語提示。
AI 公司不斷改進 AI 工具的功能,從影片製作到基本的處理能力。Apple 的 Visual Intelligence 是 iPhone 製造商去年發布的測試版,與 Gemini Live 相當。
Gemini Live 有潛力徹底改變我們與環境的連結方式,因為當我們簡單地將相機放在任何物體前面時,它會合併我們的數位和物理環境。
將 Gemini Live 投入測試:現實場景
我第一次使用它時,Gemini 準確地識別出一個非常具體的遊戲收藏品,即我相機視野中的一個毛絨兔子。第二次,我將它展示給一位在藝廊的朋友。它立即識別出十字架上的烏龜(別問我),並識別和翻譯了旁邊的漢字,這讓我們兩個都感到不寒而慄,並且感到有點毛骨悚然。我相信是以一種積極的方式。
我開始考慮如何進行壓力測試。當我嘗試在操作中螢幕錄製時,它始終失敗。如果我偏離通常的路徑會怎樣?我是恐怖類型(電影、電視影集和電玩遊戲)的忠實粉絲,並且擁有大量的收藏品、小飾品和其他物品。它在處理更晦澀的物品(例如我的恐怖主題收藏品)時表現如何?
首先,我必須聲明,Gemini 在同一輪問題中,可能既令人難以置信地驚人,又令人難以置信地惱人。我大約有 11 件物品想要 Gemini 識別,但即時連線持續的時間越長,情況就越糟,因此我必須將連線限制為一到兩個物件。我認為 Gemini 試圖使用先前識別物件的上下文資訊來猜測新物件,這在一定程度上是有道理的,但最終對我和它都沒有好處。
有時,Gemini 非常準確,輕鬆且毫不混淆地提供正確的答案,儘管這種情況更常發生在較新或較流行的物件上。例如,我感到驚訝的是,它立即推斷出我的測試物件之一不僅來自 Destiny 2,而且還是來自去年的一個季節性活動的限量版。
Gemini 經常完全偏離主題,需要我提供進一步的提示才能接近正確答案。有時,Gemini 似乎正在利用我之前的即時連線的上下文資訊來產生回應,將多個物件識別為來自 Silent Hill,但它們並非如此。我有一個專門展示該遊戲系列的展示櫃,所以我可以理解為什麼它會想要迅速涉足該領域。
揭示瑕疵:系統中的錯誤和怪癖
Gemini 有時可能會完全崩潰。有時,Gemini 錯誤地將其中一個物件識別為來自未發布的 Silent Hill: f 遊戲的虛構角色,顯然將不同標題的部分組合到了一個根本不存在的東西中。當 Gemini 給出錯誤答案時,我糾正了它並給了它更接近答案的提示——或者只是給了它答案——結果它卻重複了錯誤答案,好像它是一個新的猜測,這是我遇到的另一個持續存在的錯誤。當這種情況發生時,我會關閉連線並開始新的連線,但這並不總是有幫助。
我發現的一種技巧是,某些對話比其他對話更有效。如果我瀏覽我的 Gemini 對話列表,點擊一個先前獲得特定項目正確答案的舊聊天記錄,然後從該聊天記錄再次進入即時模式,它就能夠毫無問題地識別這些項目。雖然這並不總是出乎意料,但有趣的是,即使使用相同的語言,某些對話的表現也優於其他對話。
Google 沒有回應我關於 Gemini Live 如何運作的更多資訊的詢問。
我希望 Gemini 能夠成功回答我具有挑戰性、有時非常具體的問題,因此我提供了大量提示來幫助它做到這一點。這些推動證明是有用的,但並非總是如此。
一種轉型技術:Gemini Live 的潛在影響
Gemini Live 代表了我們與周圍環境互動方式的典範轉移,透過相機鏡頭將數位和物理領域無縫融合。雖然該技術仍處於早期階段,但其潛在應用範圍廣泛且具有變革性。
想像一下使用 Gemini Live 來:
- **在不熟悉的環境中導航:**只需將相機對準路標或地標,Gemini 就會提供即時方向和資訊。
- **了解歷史文物:**在參觀博物館時,使用 Gemini 識別並提供藝術品和歷史物件的背景資訊。
- **烹飪複雜的食譜:**要求 Gemini 引導您完成食譜的每個步驟,識別成分並建議備選技術。
- **診斷簡單的家庭問題:**將相機對準故障的設備,Gemini 將提供疑難排解提示和潛在的解決方案。
這些只是 Gemini Live 可以增強我們日常生活的眾多方式中的幾個例子。隨著該技術的不斷發展和改進,它徹底改變我們與周圍世界互動方式的潛力確實是無限的。
將 Gemini Live 整合到 iOS 裝置中,進一步擴大了其覆蓋範圍和可存取性,將 AI 驅動視覺的力量帶給更廣泛的受眾。隨著 AI 技術繼續以指數級的速度發展,像 Gemini Live 這樣的功能讓我們得以一窺未來,在未來,我們的裝置不僅僅是溝通和娛樂的工具,而且還是智慧的伴侶,可以幫助我們以新的和有意義的方式導航、理解和與周圍的世界互動。