亞馬遜進軍 AI 代理領域:Nova Act 欲革新瀏覽器互動

人工智能的版圖正在迅速變遷。超越了現今熟悉的聊天機器人生成文本或藝術家變幻圖像的領域,一個新的前沿正在開啟:AI 代理不僅僅是為了回應,更是為了行動。這些數位助理有望接收指令並直接在我們的數位環境中執行多步驟任務。帶著相當大的野心進入這個蓬勃發展領域的是 Amazon,推出了 Nova Act,這是一款精密的 AI 模型,設計用於在您的網頁瀏覽器內操作,可能徹底改變從線上購物到複雜數位工作流程的一切。雖然最初僅以受控的’研究預覽’形式提供給開發者,但它的到來標誌著 Amazon 在 AI 代理領域的嚴肅意圖,同時也配合了使其更廣泛的 Nova AI 模型套件比以往任何時候都更容易取得的舉措。

揭開 Nova Act 的面紗:為您的瀏覽器打造的 AI 助理

Nova Act 代表了 Amazon 在 AI 領域邁出的重要一步。它不僅僅是另一個語言模型;它被構想為一個以行動為導向的代理。這在實踐中意味著什麼?Amazon 設想 Nova Act 能直接在用戶日常互動的瀏覽器介面中執行各種任務。

核心能力與潛在應用:

  • 智慧網頁導航與搜尋: 超越簡單的關鍵字搜尋,Nova Act 被設計來理解上下文和意圖,更有效地導航網站和收集資訊。想像一下,要求它在多個零售商網站上查找特定產品類型的評論,並總結優缺點。
  • 自動化線上購物: 這或許是最引人注目的功能。Nova Act 旨在根據用戶指令處理整個購買過程。這可能包括將特定商品添加到購物車並結帳,或者在購買前比較不同供應商的商品價格。
  • 情境感知: 該代理被設計來理解螢幕上當前顯示的內容。這允許用戶詢問他們所看到的內容,或指示代理與網頁上的特定元素互動,而無需手動逐步引導。例如,用戶可能會問:’此頁面上的退貨政策詳情是什麼?’或’點擊’應用優惠券’按鈕。’
  • 排程任務執行: Nova Act 引入了在預定時間執行操作的能力。這開啟了可能性,例如設定它每天早上檢查所需商品的價格下降,或自動在線預訂週期性服務。
  • 理解複雜指令: 至關重要的是,Amazon 強調 Nova Act 解析細微指令的能力。所提供的範例——在購買過程中告訴它 ‘不要接受保險加售’——展示了超越簡單行動觸發器的理解水平。這表明該代理可以遵循約束和偏好,使其行動更符合用戶意圖,並可能避免不希望的結果。它暗示了條件邏輯和遵守否定約束的能力,這是代理智能的一大飛躍。

‘研究預覽’階段:

目前,Nova Act 尚未對公眾開放。其發布被指定為’研究預覽’,主要針對開發者社群。這種受控的推出有幾個目的:

  1. 測試與改進: 它允許 Amazon 從技術熟練的用戶那裡收集真實世界的使用數據和反饋,這些用戶可以識別錯誤、限制和需要改進的地方。
  2. 探索使用案例: 開發者可以實驗 Nova Act 的能力,可能發現 Amazon 本身未曾設想的新穎應用。
  3. 受控環境: 發布一個能夠執行如購物等操作的強大代理帶有固有風險。預覽階段允許 Amazon 管理這些風險,並確保在更廣泛部署之前安全協議是健全的。

儘管其初期可用性有限,Amazon 已表示 Nova Act 的技術並非純粹實驗性的。其部分能力已經被整合到升級版的 Alexa Plus 助理中,這表明該技術最終可能通過熟悉的介面觸及消費者,潛在地增強 Alexa 代表用戶與網路互動的能力。

動力核心:Amazon 的 AGI Labs 與任務自動化的追求

Nova Act 是 Amazon 內部一個專門部門——Artificial General Intelligence (AGI) Labs——的首個產品。這個實驗室的名稱本身就表明了 Amazon 的長期抱負,旨在開發具有更通用、類人認知能力的 AI 系統。雖然真正的 AGI 仍然是一個遙遠的,或許是理論上的目標,但該實驗室當前的焦點顯然是開發能力極強的 AI 代理。

宏偉願景:

AGI Labs 為其代理闡述了一個引人入勝的’夢想’:賦予它們**’執行廣泛、複雜、多步驟任務’**的能力。所提供的範例讓我們得以一窺這一雄心:

  • 籌辦婚禮: 這意味著一個代理能夠管理預算、研究供應商、協調日程、發送邀請、追蹤回覆,並處理複雜活動策劃中涉及的無數其他細節。它表明需要長期記憶、規劃能力以及與多樣化外部服務的互動。
  • 處理複雜 IT 任務: 這指向企業應用,代理可能自動化複雜流程,如軟體部署、系統配置、排除網路問題或管理雲端資源,從而顯著提高業務生產力。

這些範例突顯了一個遠超簡單瀏覽器自動化的願景。它們描繪了一幅 AI 助理深度融入個人和職業生活,能夠管理目前需要大量人力和協調的複雜專案和工作流程的畫面。

競爭格局:代理霸權之爭:

Amazon 在追求這一願景方面絕非孤軍奮戰。開發精密的 AI 代理正迅速成為主要科技公司的關鍵戰場。

  • OpenAI 的 Operator: 與 OpenAI 概念性的 ‘Operator’ 代理(儘管細節仍然稀少)的比較,突顯了競爭對手們正處於平行的軌道上。OpenAI 在 ChatGPT 取得成功後,普遍預期將積極進軍代理領域。
  • Google、Meta 及其他公司: 雖然可能沒有那麼明確地標榜,但整個行業都在努力為 AI 助理(如 Google Assistant 或未來可能的 Meta 專案)賦予更大的代理權和任務完成能力。
  • 新創公司: 一個充滿活力的新創公司生態系統也專注於為各種利基市場構建 AI 代理,從個人生產力到專業化的商業功能。

這場激烈競爭背後的驅動力是這樣一種信念:用戶和企業將會重視——並願意付費購買——能夠做事而不僅僅是提供資訊生成內容的 AI。能夠節省時間、減少錯誤並自動化繁瑣任務的可靠、高效 AI 代理的潛在市場是巨大的。然而,構建這樣的代理面臨著重大挑戰,包括確保可靠性、處理意外的網站變更、維護安全性、保護用戶隱私,以及在授予 AI 代表用戶行動的權力時管理用戶信任。

超越行動:更廣泛的 Nova AI 家族

Nova Act 並非孤立存在。它是 Amazon Nova AI 模型套件的最新成員,該套件於 2024 年 12 月首次推出。這個家族包含一系列旨在提供全面 AI 工具箱的能力。

現有的 Nova 模型:

除了以行動為導向的 Act,該套件還包括其他五個模型:

  1. 理解模型 (Trio): 這些可能專注於自然語言處理、文本理解、摘要、情感分析以及其他需要深入掌握語言的任務。擁有一個三重奏表明可能有不同的大小或專業化,或許針對速度、成本和能力的不同平衡進行了優化。
  2. 圖像生成模型: 在 Midjourney、DALL-E 和 Stable Diffusion 佔據的領域中競爭,該模型專注於從文本提示創建視覺效果。
  3. 影片生成模型: 作為 AI 發展的新興領域,該模型旨在根據描述或指令生成影片內容。

戰略定位:速度與價值優先於原始能力?

有趣的是,Amazon 圍繞 Nova 套件的公開訊息一直強調速度和價值,而不是宣稱在原始性能或基準測試得分方面絕對優於頂級競爭對手,如 OpenAI 的 GPT-4 或 Anthropic 的 Claude 模型。Amazon 明確表示,其 Nova 模型比同類替代品**’至少便宜 75%’**。

這種戰略定位表明了幾點:

  • 瞄準特定市場區隔: Amazon 可能瞄準那些需要有能力的 AI 但對成本高度敏感的開發者和企業。對於許多應用來說,以顯著較低的價格獲得’足夠好’的性能比以高昂成本獲得最先進的能力更具吸引力。
  • 利用 AWS 基礎設施: Amazon 在雲端基礎設施 (AWS) 方面的深厚專業知識使其能夠優化模型託管和推理效率,從而可能實現更低的定價。
  • 普及 AI 存取: 通過使有能力的 AI 更加實惠,Amazon 可以鼓勵更廣泛的採用,特別是在可能因使用最昂貴模型而被排除在外的小型企業、新創公司和個人開發者中。
  • 專注於實際應用: 對速度的強調表明針對實時或近實時應用進行了優化,這些應用中低延遲至關重要,可能包括像 Nova Act 這樣的互動式代理或對 Alexa 等服務的增強。

雖然不一定完全放棄高性能領域,但 Amazon 似乎正在開闢一個獨特的利基市場,專注於與其雲端生態系統緊密整合的實用、具成本效益的 AI 解決方案。

敞開大門:透過新入口網站增強存取

過去,要存取像 Nova 這樣的 Amazon 專有 AI 模型,主要需要透過 Amazon Bedrock。Bedrock 是 Amazon Web Services (AWS) 內的一個強大平台,作為各種基礎模型的樞紐。它不僅提供 Amazon 自家的 Nova 套件,還提供對來自 Anthropic (Claude)、Meta (Llama)、DeepSeek、Cohere 和 Stability AI 等領先第三方模型的存取。Bedrock 專為在強大、安全且可擴展的 AWS 環境中構建和擴展 AI 應用的開發者而設計。

然而,僅僅依賴 Bedrock 對於那些只想實驗或快速測試 Nova 模型能力而不想設置完整 AWS 環境的人來說,可能構成了一個潛在的進入障礙。意識到這一點,Amazon 現在推出了一個專門的網頁入口網站,專門用於與 Nova 模型互動。

新入口網站的特色與目的:

  • 直接互動: 美國用戶現在可以通過此網站直接存取 Nova 模型。
  • 查詢與內容生成: 該入口網站允許用戶向理解模型提交查詢,或使用生成模型創建文本、圖像或潛在的影片內容(取決於哪些模型被開放)。
  • 降低門檻: 這為開發者、研究人員甚至好奇的個人提供了一種更簡單、更直接的方式來親身體驗 Nova 模型。
  • 快速原型設計與測試: 正如 Rohit Prasad,Amazon AGI 高級副總裁所闡述的,該入口網站明確設計用於讓開發者**’快速測試他們使用 Nova 模型的想法’**。這個沙盒環境允許在投入全面實施之前進行快速迭代和實驗。
  • 補充 Bedrock: 該入口網站並不能取代 Bedrock;它是對 Bedrock 的補充。開發者可以使用入口網站進行初步探索和驗證。一旦他們準備好構建穩健的應用程式、將模型整合到他們的工作流程中,或進行大規模部署,他們就可以轉而通過 Amazon Bedrock 使用這些模型,利用其企業級功能、安全性以及與其他 AWS 服務的整合。

此舉標誌著 Amazon 渴望擴大其 Nova AI 產品的可見度和可及性,使潛在用戶更容易評估其能力,並鼓勵開發者社群更廣泛地採用。它彌合了休閒探索與嚴肅應用開發之間的差距。

未來軌跡:影響與挑戰

Nova Act 的推出以及圍繞 Nova 套件的更廣泛推動,對各個領域都具有重大影響,同時也突顯了固有的挑戰。

潛在影響:

  • 電子商務演進: 如果 Nova Act 成功並被廣泛採用,它可能從根本上改變線上購物。想像一下 AI 代理根據高層次的用戶偏好自動進行比價、尋找優惠、管理退貨並處理結帳流程。這可以簡化客戶體驗,但也可能顛覆現有的聯盟行銷和廣告模式。
  • 提升生產力: 對於個人和企業而言,能夠處理多步驟網頁任務的代理可以自動化無數小時用於行政工作、研究、數據輸入和線上表單填寫的時間。
  • 網頁互動範式轉變: 我們可能會從手動點擊網站轉向指示代理達成目標,使網頁互動更具對話性和目標導向性。
  • 可及性: AI 代理可能使複雜的網頁流程對於有殘疾的用戶或那些不太熟悉技術的用戶更易於使用。
  • 與現有生態系統整合: 預計 Nova Act 的能力將更深入地整合到 Amazon 現有的產品中——Alexa、Fire 設備,甚至可能整合到 AWS 服務中,創建一個更具凝聚力的 AI 驅動生態系統。

挑戰與考量:

  • 可靠性與穩健性: 網頁代理必須應對不斷變化的網站佈局、意外錯誤和 CAPTCHA。確保它們在多樣化且動態的網路上可靠地執行任務是一個主要的技術障礙。
  • 安全性: 授予 AI 代理代表您瀏覽和行動的權力,特別是進行購買,需要極其強大的安全措施來防止未經授權的訪問或惡意使用。身份驗證將如何處理?用戶如何確信代理是為了他們的最佳利益行事?
  • 隱私: 這些代理將不可避免地處理敏感的個人數據、瀏覽歷史和潛在的登錄憑證。確保用戶隱私和透明的數據處理實踐對於贏得用戶信任至關重要。
  • 錯誤處理與問責制: 當代理出錯時,例如訂購了錯誤的商品或預訂了錯誤的航班,會發生什麼?建立清晰的錯誤糾正、追索和問責機制將至關重要。
  • ‘黑盒子’問題: 理解代理為何採取特定行動或未能完成任務,對於複雜的 AI 模型可能很困難,這使得故障排除和用戶信任更難實現。

展望未來:

Nova Act 在研究預覽階段的推出僅僅是個開始。Amazon 很可能會根據開發者的反饋進行快速迭代。關鍵問題仍然存在,關於公開發布的時間表、最終的定價模式(它會是 Alexa Plus 的一部分、獨立訂閱,還是與 AWS 使用量掛鉤?),以及它在發布時能夠可靠執行的具體任務範圍。

像 Nova Act 這樣的 AI 代理的發展代表了人機互動的一個關鍵時刻。雖然完全自主的代理管理複雜生活事件的’夢想’仍在遠方,但 Amazon 及其競爭對手正在採取的漸進步驟正穩步推動邊界,預示著一個未來,我們與數位世界的互動將越來越多地由智慧的、以行動為導向的人工智能來調節。這段旅程無疑將涉及應對重大的技術、倫理和社會挑戰,但潛在的回報——在便利性、生產力和新能力方面——繼續推動著這個激動人心的領域不懈的創新。