數位景觀中充斥著人工智能,然而其中大部分仍受到限制,在預先定義的參數範圍內運作,或嚴重依賴結構化數據饋送和 API。真正自主代理的夢想——能夠駕馭萬維網(World Wide Web)混亂、不可預測的環境以完成複雜目標的數位助理——在很大程度上仍然遙不可及。Amazon 現正大膽踏入此領域,推出了 Nova Act,這是一個精心設計的複雜 AI 模型,旨在賦能能夠理解網頁瀏覽器並與之互動的代理,像人類用戶一樣執行錯綜複雜的任務。此舉標誌著對當前限制的重大突破,旨在開創一個功能更強大、更可靠、更多功能的 AI 助理時代。
宏偉願景:從簡單指令到複雜問題解決
Amazon 的雄心遠不止於獲取天氣報告或設定計時器。該公司闡述了一個引人入勝的願景,即 AI 代理在數位領域以及潛在的互聯物理領域中,無縫管理多面向的目標。想像一下,一個 AI 能夠策劃規劃婚禮的無數細節,協調供應商、管理預算,並透過各種線上入口網站追蹤 RSVP。想像一下,複雜的代理處理複雜的 IT 管理任務,排除網絡問題、管理軟體授權,或透過直接與內部基於 Web 的工具互動來引導新員工入職。這代表著從特定任務的機器人到以目標為導向的數位夥伴的範式轉變,旨在顯著提升個人便利性並提高企業生產力。
目前的生成式 AI 模型雖然擅長對話和內容創作,但在面對網頁介面動態且往往不一致的特性時,常常會遇到困難。執行一系列動作——登入、導覽選單、填寫表單、解釋視覺提示以及回應意外彈出視窗——需要一定程度的情境理解和操作可靠性,而這一直難以持續實現。Amazon 明確承認這些障礙,將 Nova Act 定位為其戰略回應,從頭開始設計,以掌握基於 Web 的任務執行的複雜性。
隆重推出 Nova Act:智慧網頁導航引擎
Nova Act 不僅僅是另一個大型語言模型;它是一個專門的系統,專注於將人類意圖轉化為網頁瀏覽器內的具體行動。它代表了一種協同努力,旨在賦予 AI 有效感知、理解和操作網頁元素的能力。核心挑戰在於彌合自然語言指令(’預訂下週二的會議室’)與在特定網站或 Web 應用程式上完成該請求所需的具體點擊、滾動和文本輸入序列之間的差距。
Amazon 的方法認識到 Web 不是一個靜態實體。網站會改變佈局,介面千差萬別,動態內容的加載也無法預測。因此,代理不僅需要語言能力;它還需要對 Web 結構(HTML、DOM)、視覺元素和互動模式有深入的理解。Nova Act 的開發正是為了擁有這種細緻入微的理解,使其能夠在不同的線上環境中以更高的精度和適應性運作。這種對原生 Web 互動的關注,正是 Nova Act 的目的與更通用的 AI 模型區別開來的地方。
賦能開發者:Nova Act 軟體開發套件
為了將這種先進的 AI 能力轉化為實際應用,Amazon 正在發布 Nova Act 軟體開發套件(SDK)的研究預覽版。該工具包專為渴望構建下一代自主代理的開發者而設計。它提供了必要的構建模塊和控制項,以利用 Nova Act 的力量來自動化基於 Web 的工作流程。
SDK 設計理念的一個基石是將複雜流程分解為可靠的、基本的單元,稱為**’原子命令’(atomic commands)**。可以將這些視為 Web 互動的基本動詞:
- 搜尋(Searching): 在頁面上定位特定資訊或元素。
- 結帳(Checking Out): 在電子商務中完成購買流程。
- 互動(Interacting): 與特定的介面組件互動,如下拉選單、複選框、日期選擇器或模態彈出視窗。
- 導航(Navigating): 在網站的頁面或區段之間移動。
- 輸入資料(Inputting Data): 準確填寫表單或文本欄位。
開發者不僅限於這些高階命令。SDK 允許添加詳細指令以細化代理行為。例如,可以特別指示負責預訂航班的代理忽略旅遊保險的推銷或在結帳過程中繞過座位選擇的加價銷售。這種精細的控制對於創建能夠完全按照預期執行任務、遵守特定用戶偏好或業務規則的代理至關重要。
為了增強現實世界 Web 自動化所需的可靠性和準確性,SDK 整合了幾種強大的機制:
- 透過 Playwright 進行瀏覽器操作: 利用流行的 Playwright 框架進行強大、跨瀏覽器的自動化,提供對瀏覽器操作的精細控制。
- API 呼叫: 使代理能夠在可用時直接透過 API 與 Web 服務互動,為某些任務提供比 UI 操作更穩定、更高效的替代方案。
- Python 整合: 允許開發者嵌入自訂 Python 程式碼,從而在代理的工作流程中實現複雜的邏輯、數據處理或與其他系統的整合。
- 平行執行緒(Parallel Threading): 透過允許某些操作並行運行,有助於減輕由緩慢加載的網頁或網絡延遲引起的延遲,提高整體任務完成速度和彈性。
這個全面的工具包旨在為開發者提供所需的靈活性和能力,以應對以前不切實際或不可靠的複雜自動化挑戰。
衡量標準:專注於效能與實際可靠性
雖然基準分數是 AI 領域的通用貨幣,但 Amazon 強調 Nova Act 的開發優先考慮實際可靠性,而不是僅僅在抽象測試的排行榜上名列前茅。目標是構建在真實世界場景中持續運作的代理,即使這意味著要專注於對 Web 互動至關重要的特定能力。
話雖如此,Nova Act 在專門設計用於評估與 Web 介面互動的基準測試中表現出色。Amazon 強調,在針對那些經常挑戰競爭模型的內部評估中,其得分令人印象深刻,超過了 90% 的準確率。
在已建立的基準測試中,結果值得注意:
- ScreenSpot Web Text: 此基準評估 AI 解釋與網頁上基於文本的互動相關的自然語言指令的能力(例如,’增大字體大小’,’找到提及訂閱的段落’)。Nova Act 取得了接近完美的 0.939 分,顯著超過了著名的模型,如 Claude 3.7 Sonnet (0.900) 和 OpenAI 的 CUA (Conceptual User Agent benchmark) (0.883)。
- ScreenSpot Web Icon: 此測試側重於與視覺、非文本元素的互動,如星級評分、圖標或滑塊。Nova Act 再次表現強勁,得分為 0.879。
有趣的是,在廣泛評估導航不同用戶介面元素熟練程度的 GroundUI Web 測試中,Nova Act 的表現略低於某些競爭對手。Amazon 坦率地承認了這一點,並將其描述為隨著模型透過持續訓練和改進而不斷發展,需要改進的領域,而非失敗。這種透明度突顯了其專注於構建真正有用的工具,並認識到開發是一個迭代過程。
重點仍然牢牢放在可靠的執行上。Amazon 強調,一旦使用 Nova Act SDK 構建的代理在開發中正確可靠地執行了任務,開發者就應該對其部署充滿信心。這些代理可以**無頭模式(headless)運行(沒有可見的瀏覽器窗口),透過 API 整合到更大的應用程式中,甚至可以排程(scheduled)**在特定時間自主執行任務。所提供的範例——一個代理在初始設定後,無需任何用戶互動,每週二晚上自動訂購偏好的沙拉外送——完美地說明了這種為日常數位瑣事實現無縫、可靠自動化的願景。
適應性的飛躍:學習與轉移 UI 理解能力
Nova Act 最引人注目的方面之一是其據稱能夠泛化其對用戶介面的理解,並在新穎環境中有效地應用,而只需極少甚至無需針對特定任務的重新訓練。這種能力,通常稱為遷移學習(transfer learning),對於創建真正多功能、不易因微小的網站重新設計或遇到不熟悉的應用程式佈局而失效的代理至關重要。
Amazon 分享了一個引人入勝的軼事,其中 Nova Act 展示了操作基於瀏覽器的遊戲的能力,儘管其訓練數據明確未包含視頻遊戲體驗。這表明該模型正在學習 Web 互動的基本原則——識別按鈕、解釋視覺反饋、理解輸入欄位——而不僅僅是記憶特定的網站結構。如果這種能力在廣泛的應用程式中都成立,那將代表著一項重大進步。這意味著開發者可能能夠構建出在遇到新網站或 Web 應用程式時,能夠以相當程度的成功率處理任務的代理,從而大大減少了為每個目標平台進行持續、客製化訓練的需求。
這種適應性使 Nova Act 成為超越簡單任務自動化的廣泛應用的潛在強大引擎。它可以驅動更智能的網頁爬蟲、更直觀的數據輸入工具或功能更強的無障礙輔助工具。
Amazon 已經在其自身的生態系統中利用了這種能力。其語音助理的高級版本 Alexa+ 利用 Nova Act 來實現自主網頁導航。當用戶提出一個無法完全透過現有 Alexa 技能或可用 API 來滿足的請求時(這是一個常見的限制),Nova Act 可能會介入,打開相關網頁,並嘗試透過直接與網站的 UI 互動來完成任務。這代表著朝向 AI 助理願景邁出的切實一步,即減少對預建整合的依賴,並能透過利用開放的 Web 更自主、更動態地運作。
前進之路:長期 AI 戰略的基礎步驟
Amazon 毫不含糊地表示,目前形式的 Nova Act 僅僅代表了一個更廣泛、長期使命的初始階段。最終目標是培養高度智能、適應性強且值得信賴的 AI 代理,能夠管理日益複雜、可能跨越多個網站、應用程式和會話的多步驟工作流程。
該公司的策略涉及超越簡單的演示或僅在受限數據集上進行訓練。重點是採用強化學習(reinforcement learning)技術,應用於多樣化的真實世界場景。這意味著透過讓 Nova 模型嘗試任務、從成功和失敗中學習,並逐步建立在實時 Web 環境中固有的複雜性和不可預測性中導航的熟練度來訓練它們。這種迭代的、經驗驅動的方法被認為是建立穩健性和真正智能的關鍵。
Nova Act 是 Amazon 所描述的其 Nova 模型家族長期訓練課程中的一個關鍵檢查點。這表明了一種持續的承諾和戰略雄心,旨在從根本上重塑 AI 代理的格局,將它們從利基工具轉變為導航我們數位生活中不可或缺的夥伴。當前的模型是一個基礎,未來將在其上構建更複雜的能力。
共創未來:開發者社群不可或缺的角色
認識到這項技術最具變革性的應用尚未構想出來,Amazon 透過 Nova Act SDK 的研究預覽版,刻意及早地讓開發者社群參與進來。“代理最有價值的用例尚未被構建出來,”該公司表示。“最優秀的開發者和設計師將會發現它們。”
這種發布策略有多重目的。它讓創新的構建者能夠親身體驗該技術,挑戰其極限,並以 Amazon 內部團隊可能無法想像的方式探索其潛力。它還建立了一個關鍵的反饋迴路。透過觀察開發者如何使用 SDK、他們遇到什麼挑戰以及他們請求什麼功能,Amazon 可以根據實際使用情況和實際需求快速迭代,完善 Nova Act 和配套工具。這種以快速原型設計和迭代反饋為中心的協作方法,被視為釋放原生 Web AI 代理真正潛力的最快途徑。
從本質上講,Nova Act 不僅僅是一個新的模型或 SDK;它是對開發者的邀請,也是 Amazon 的意向聲明。它代表著朝向使 AI 代理對於定義我們與數位世界互動的許多複雜、動態且往往混亂的任務真正有用的堅定步伐。透過重新思考基準、優先考慮可靠性、培養適應性並擁抱協作,Amazon 旨在賦能構建者創建顯著超越當今 AI 工具能力的自主解決方案。旅程才剛剛開始,但方向很明確:邁向一個由更智能、更自主的數位助理代表我們導航 Web 的未來。