新前沿:Amazon 的 Nova Act 挑戰網頁自動化 AI 巨頭

人工智能已明確地從科幻小說的領域跨入我們日常數位生活的結構中。多年來,焦點一直圍繞著生成模型——能夠產生驚人逼真文本或精緻複雜圖像的演算法。然而,技術浪潮正轉向一個新的、甚至可能更具變革性的應用:不僅僅是創造,而是能夠行動的 AI 代理。重點正從被動生成轉向主動執行,賦予軟體能力以駕馭網路的複雜性,並代表使用者自主執行任務。這個蓬勃發展的領域代表著一次重大的飛躍,承諾帶來前所未有的便利性和效率,而科技巨頭們正爭相在此領域佔據一席之地。在這股熱潮中,Amazon 以一項引人注目的新計劃加入了戰局。

雖然底層技術已在研究實驗室醞釀數十年,但後疫情時代見證了興趣和發展的爆炸性增長,尤其是在面向使用者的應用方面。幾乎所有主要科技公司現在都在展示其實力,推出旨在簡化工作流程、提高生產力或僅僅是讓日常數位互動更流暢的 AI 模型。Amazon,一家建立在優化複雜物流和數位營運基礎上的公司,自然是這個不斷演變格局中的關鍵參與者。然而,其最新的嘗試不僅僅是現有範式的又一次迭代;它是直接推進到充滿挑戰的基於網路的任務自動化領域。

Amazon 的入場:Nova Act 計劃

Amazon 對這股新浪潮的貢獻體現在 Nova Act 上。這不僅僅是另一個聊天機器人或圖像生成器;它是一項旨在賦能開發者的基礎技術。Nova Act 的核心目標是提供建構複雜 AI 代理的基石,這些代理可以在網頁瀏覽器環境中獨立運作。想像一下,一個助理能夠理解一個多步驟請求,然後在無需持續人為干預的情況下,跨越不同網站執行它。

一個具代表性的例子展示了其潛力:指示一個代理找出位於特定火車站合理自行車騎行半徑內的可租賃公寓。這個任務對人類來說看似簡單,但對 AI 而言涉及一個複雜的序列:理解地理限制、導航公寓列表網站、根據位置標準(可能需要解釋地圖數據)篩選結果、提取可用性和價格等相關資訊,並清晰地呈現結果。Nova Act 旨在為開發者提供工具,以建構能夠精確執行此類複雜、多階段操作的代理。

最初將 Nova Act 作為開發者工具推出的重要性不容小覷。這表明了一種專注於建立強大生態系統的策略性方法。透過賦能第三方創作者,Amazon 可以促進創新,並探索比僅靠內部開發更廣泛的應用範圍。此策略也允許在更廣泛地面向消費者推出之前,根據實際部署挑戰收集寶貴的回饋並完善技術。

擁擠的戰場:競爭對手代理的崛起

隨著對超越簡單文本或圖像輸出的 AI 代理的興趣激增,競爭格局變得日益密集。能夠在沒有直接人工監督下執行複雜操作的自主代理的誘惑力被證明是不可抗拒的,而 Amazon 遠非唯一認識到這種潛力的公司。幾個強大的競爭者已經在這個領域爭奪主導地位。

OpenAI,長期以來被視為 AI 研究和發展的先鋒,尤其是在 ChatGPT 轟動登場之後,已經取得了顯著進展。在 Microsoft 的大量投資支持下,OpenAI 今年早些時候公佈了一項暫定名為 ‘Operator’ 的功能計劃。描述描繪了一個旨在處理諸如複雜旅行規劃、自動填寫表格、確保餐廳預訂,甚至管理線上雜貨訂單等任務的代理。該公司明確將此能力定位為利用網路來完成使用者目標的代理,標誌著向行動導向 AI 的明確策略轉向。

然而,時間線揭示了一個更複雜的故事。Anthropic,一家擁有引人注目背景的 AI 新創公司——由前 OpenAI 研究人員創立,並顯著地獲得了 Amazon 本身的重大投資——甚至更早地引入了類似的概念。去年十月,Anthropic 推出了其 ‘Computer Use’ 工具。這項技術專門設計用於使 AI 模型能夠直接與電腦的圖形使用者介面互動。這包括模擬點擊按鈕、在欄位中輸入文本、導航不同的網站,以及在各種軟體應用程式中執行任務,同時動態存取即時網路數據。其功能與 OpenAI 提出的 ‘Operator’ 有著驚人的重疊,突顯了行業內正在進行的激烈的平行開發。Amazon 與 Anthropic 的聯繫增加了另一層耐人尋味的色彩,暗示著 Amazon 更廣泛的 AI 策略中可能存在的協同效應甚至內部競爭。

自最初的公告以來,OpenAI 並未停滯不前。在 Anthropic 揭曉後不久,它便推出了更新,包括引入 ‘Deep Research’。這個工具賦予 AI 代理能力,可以承擔複雜的研究任務,編譯詳細報告,並對使用者指定的主題進行深入分析,進一步展示了向複雜、基於知識的任務推進的趨勢。

不容忽視的是,Google,作為網路索引和數據分析的巨頭,也加入了戰局。去年十二月,Google 推出了自己的可比工具,定位為強大的「研究助理」。該代理旨在透過深入研究複雜主題、探索網路上的資訊,並將發現綜合為全面的報告來協助使用者,反映了其競爭對手所宣傳的能力。

有如此多的重量級選手部署類似的技術,最終的勝利者遠未確定。成功可能取決於多種因素的匯合:用於持續研發的資金深度、技術進步的速度和品質、使用者介面的直觀設計,以及至關重要的是,克服當前 AI 模型固有挑戰的能力——特別是它們偶爾在準確解釋和始終如一地遵循複雜或細微指令方面遇到的困難。

解碼代理:能力與複雜性

要理解這些新興 AI 代理實際什麼,需要超越簡單的命令。它們的潛力在於執行模仿人類與數位介面互動的多步驟操作。這涉及幾個關鍵能力:

  1. 網頁導航與互動: 代理必須能夠「看到」並解釋網頁的結構——識別文本欄位、按鈕、下拉菜單、連結和其他互動元素。它們需要模擬點擊、打字、滾動和選擇選項等動作。
  2. 情境理解: 僅僅互動是不夠的。代理需要理解其行動在任務更廣泛背景下的目的。填寫「出發城市」欄位需要理解這與旅行規劃有關,而不是線上購物。
  3. 資訊提取: 代理需要從網頁中識別並提取特定的數據片段——價格、航班時間、地址、可用性狀態——並有意義地儲存或處理這些資訊。
  4. 跨平台操作: 許多任務涉及與多個網站甚至不同類型的應用程式互動(例如,在預訂航班時檢查電子郵件以獲取確認碼)。在這些平台之間無縫轉換至關重要。
  5. 問題解決與適應: 網站經常變更。代理需要一定程度的彈性來處理佈局的變化或意外錯誤(例如,按鈕無響應、頁面加載失敗)。它們可能需要嘗試替代方法或優雅地報告失敗。

潛在的使用案例涵蓋了廣泛的範圍:

  • 個人生產力: 管理複雜的旅行行程(根據偏好安排航班、酒店、租車、活動),跨不同入口網站自動支付帳單,整合來自各種帳戶的財務資訊,根據日曆可用性和所需的預約前表格安排約會。
  • 電子商務: 跨多個供應商對特定產品進行價格比較,追蹤稀有或缺貨商品,自動管理退貨流程。
  • 商業營運: 自動化市場研究(收集競爭對手定價、客戶評論、行業趨勢),潛在客戶開發(根據線上目錄中的特定標準識別潛在客戶),基於網路的系統之間的數據輸入和遷移,透過整合來自各種線上儀表板的數據生成例行報告。
  • 內容管理: 自動化在不同社交媒體平台上發布內容的過程,根據外部數據源動態更新網站資訊。

其複雜性在於使這些互動可靠、安全且真正自主,將使用者從繁瑣、重複的數位雜務中解放出來。

克服障礙:可靠自主性的挑戰

儘管前景廣闊,但通往真正自主且可靠的網路代理之路充滿挑戰。常被引用的當前 AI 限制——「難以遵循指令」——僅僅是冰山一角。必須克服幾個重大的障礙:

  • 模糊性與解釋: 人類語言本質上是模糊的。像「幫我找下個月去巴黎的便宜機票」這樣的指令,需要 AI 解釋「便宜」(相對於什麼?)、 「下個月」(具體哪些日期?),並可能推斷關於航空公司、中轉站或出發時間的偏好。誤解可能導致完全錯誤的行動。
  • 動態且不一致的網路環境: 網站不是靜態的。佈局會改變,元素會被重新命名,工作流程會更新。在某個版本網站上訓練的代理在遇到重新設計的介面時可能會完全失敗。對抗此類變化的穩健性是一個主要的技術挑戰。
  • 錯誤處理與恢復: 當網站宕機、登錄失敗或出現意外彈出窗口時會發生什麼?代理需要複雜的錯誤檢測和恢復機制。它應該重試嗎?它應該向使用者尋求幫助嗎?它應該放棄任務嗎?定義這些協議是複雜的。
  • 安全性與權限: 授予 AI 代理自主登錄帳戶、用個人數據填寫表格以及可能進行購買的權力,引發了重大的安全擔憂。確保代理在定義的邊界內操作,不易被劫持,並安全地處理敏感資訊是至關重要的。建立使用者信任是必不可少的。
  • 可擴展性與成本: 運行能夠進行即時網路互動的複雜 AI 模型可能計算成本高昂。使這些代理普及且價格合理,需要對演算法和底層基礎設施進行持續優化。
  • 倫理考量: 隨著代理能力越來越強,關於其潛在濫用(例如,自動化垃圾郵件、抓取受版權保護的數據)以及對依賴手動網路任務的行業就業的影響等問題隨之而來。

鑑於這些挑戰,Amazon 最初決定在面向開發者的研究預覽版中推出 Nova Act,似乎是一個審慎的策略。這種方法使公司能夠從技術嫻熟的使用者那裡收集關鍵回饋,這些使用者更能夠識別錯誤、測試邊緣案例並提供建設性的批評。它創建了一個受控的環境來完善技術,提高指令遵循能力,並在將其暴露給要求更不可預測且對錯誤容忍度可能較低的大眾消費市場之前加強安全措施。這種迭代的、以開發者為中心的方法讓 Amazon 能夠「把事情理順」,在更廣泛的市場發布之前解決問題並建立穩健性。

Amazon 的宏大策略:超越 Nova Act

Nova Act 雖然意義重大,但不應孤立看待。它代表了 Amazon 在生成式 AI 和智慧自動化領域更廣泛且迅速加速投資中的一個關鍵組成部分。該公司正透過多管齊下的策略,將 AI 融入其營運和產品供應的核心:

  • 基礎設施與基礎模型: Amazon 正在開發自己的客製化晶片,例如 Trainium 晶片,專門用於高效且經濟地優化大規模 AI 模型的訓練。此外,其 Bedrock 平台作為一個市場,不僅提供對 Amazon 自有基礎模型(如 Titan)的存取,還提供對來自第三方 AI 公司(包括 Anthropic)領先模型的存取。這將 Amazon Web Services (AWS) 定位為 AI 開發的中心樞紐。
  • 特定應用 AI: 公司正在部署 AI 以增強其現有業務。例子包括旨在個性化推薦和改善客戶體驗的 AI 驅動的購物助理,以及旨在簡化醫療保健相關任務和資訊存取的 AI 驅動的健康助理
  • 核心產品的演進: Alexa,Amazon 十多年前推出的語音助理,正在進行重大升級,注入了先進的生成式 AI 能力。這旨在使互動更具對話性、情境感知性,並能夠處理更複雜的請求,可能與使用像 Nova Act 這樣的技術構建的代理無縫整合。

在這種背景下,Nova Act 扮演著關鍵的橋樑角色。它利用了可透過 Bedrock 獲得的基礎模型(可能運行在像 Trainium 這樣的優化硬體上),並為這些模型提供了在網路環境中行動的特定能力。這種以行動為導向的能力可以極大地增強 Alexa 的功能,為其電子商務平台提供複雜的新特性,或透過 AWS 提供全新的服務。它是旨在創建一個生態系統的更大拼圖中的一塊,在這個生態系統中,AI 不僅能理解和生成,還能在數位領域執行任務,從而鞏固 Amazon 在雲端運算和電子商務領域的主導地位。

利害關係:重塑數位景觀

像 Nova Act、Operator、Computer Use 和 Google 的計劃所承諾的那樣,有能力的 AI 網路代理的發展,不僅僅代表著技術的漸進式進步。它標誌著人類與數位世界互動方式的潛在範式轉變。如果這些代理能夠發揮其潛力,其影響可能是深遠的:

  • 重新定義使用者體驗: 繁瑣、多步驟的線上流程可能變得毫不費力。使用者無需手動導航多個網站進行旅行預訂或產品研究,只需陳述他們的目標,讓代理處理執行。這可能從根本上改變對數位便利性的期望。
  • 行業顛覆: 嚴重依賴手動網路任務或充當中介的行業可能面臨重大顛覆。旅行社、依賴手動數據收集的市場研究公司、執行例行行政任務的虛擬助理服務——隨著 AI 代理自動化核心功能,所有這些可能都需要適應。
  • 生產力提升: 個人和企業都可以透過將重複的數位雜務卸載給 AI 代理來釋放巨大的生產力。這可以將人力解放出來,用於更複雜、更具創造性或更具策略性的工作。
  • 新的商業模式: 自動化複雜網路互動的能力可能會催生全新的服務和商業模式,圍繞超個性化自動化、複雜的數據聚合和主動的數位協助而建立。
  • 可及性: 對於有某些殘疾的個人來說,AI 代理可以在導航複雜的網路介面方面提供寶貴的幫助,增強數位包容性。

然而,實現這一未來需要克服前面討論過的重大技術和倫理障礙。Amazon、OpenAI、Anthropic、Google 以及潛在的其他參與者之間的競賽,不僅僅關乎技術上的炫耀;它關乎定義標準、建立信任,並最終塑造網路互動的未來。成功地將強大能力與可靠性、安全性以及直觀使用者體驗相結合的公司,將在人工智慧的下一個時代獲得顯著的策略優勢。Amazon 的 Nova Act 是一個明確的信號,表明這家電子商務和雲端巨頭打算成為書寫下一章的核心參與者。