Amazon Nova Act:精通網頁瀏覽的 AI 代理程式

人工智能的步伐從未停歇,持續超越簡單的查詢回應和內容生成,進入積極參與我們數位生活的領域。似乎每週都有新的競爭者出現,一種先進的演算法承諾簡化任務、提高生產力,或者僅僅是讓駕馭複雜的線上世界變得更容易一些。堅定地踏入這個不斷發展的競技場的是 Amazon,一家其雄心壯志始終遠超線上零售的公司。他們最新的產品,命名為 Nova Act,代表著向未來邁出的重要一步,在未來,AI 代理不僅僅是協助人類,而是在熟悉的網頁瀏覽器環境中,直接代表人類執行任務。

這不僅僅是另一個能夠對話的聊天機器人。AmazonNova Act 定位為一個複雜的下一代 AI 模型,其設計具有在面向消費者的應用程式中罕見的操作自由度。核心承諾是什麼?一個能夠半自主行動、理解用戶意圖,並可能在最少人類監督下執行線上多步驟流程的代理。這種從被動助手到主動參與者的轉變,標誌著 AI 技術發展和部署的一個關鍵時刻。

定義數位副駕駛:Nova Act 的能力

真正讓 Nova Act 與眾不同的是其聲稱能夠控制網頁瀏覽器並執行傳統上需要直接人類輸入的操作。想像一下,一個助手不僅能找到資訊,還能根據資訊採取行動。Amazon 表示,Nova Act 擁有導航網站、解釋內容以及執行旨在讓用戶受益的命令的基礎能力。這包括融合數位世界甚至可能物理世界的任務,模糊了資訊檢索與現實世界行動之間的界線。

也許最引人注目的聲明是該代理潛在的能力,即在每一步無需直接人類干預的情況下進行購買。雖然圍繞此功能的具體細節和保障措施在其早期階段仍處於保密狀態,但其含義是深遠的。一個評估選項、做出選擇並完成交易的 AI 代表了向真正數位自主性的飛躍。除了商業之外,Amazon 展示了一個場景,其中 Nova Act 可以獨立搜索互聯網,具體任務是尋找 California Redwood City 符合特定標準的可用公寓,例如在火車站的騎行距離內。這展示了理解複雜、多層次請求並與網頁介面互動以完成這些請求的能力。

Amazon 似乎正在將 Nova Act 的能力劃分為不同層級,暗示這是一個可適應各種需求的多功能平台:

  • 文本生成: 提供三個不同級別 – MicroLitePro。這種分層方法可能反映了不同程度的複雜性、速度,或者可能是對更高級語言處理功能的訪問權限,以滿足從簡單文本片段到更精細內容創建的不同用戶需求。
  • 圖像生成: Canvas 模型被指定用於生成視覺內容,利用了生成式 AI 在圖像領域的蓬勃發展。
  • 影片生成: 同樣地,Reel 模型專注於創建影片內容,進一步擴展了該代理的多媒體能力。

必須理解的是,Nova Act 目前正處於其初始開發階段。Amazon 明確表示該代理仍處於初步階段,但強調其有能力透過持續學習和改進而隨時間進步。這個學習過程將至關重要,特別是對於需要細緻理解以及與不斷變化的網站和線上服務景觀互動的任務。

早期訪問:研究預覽階段

目前,Nova Act 並未向大眾推出。相反,Amazon 選擇了一種更為謹慎的方法,將該 AI 工具以他們稱為**「研究預覽」**的形式提供。此階段允許選定的用戶,明確包括 Amazon 生態系統內的賣家、廣告商和購物者,與該代理互動並提供寶貴的反饋。這種受控的發布策略使 Amazon 能夠收集真實世界的使用數據,識別潛在問題,改進演算法,並在更廣泛部署之前更好地理解用戶可能如何利用這樣一個強大的工具。

目前,訪問似乎受到地域限制。位於**United States** 感興趣的 Amazon 客戶可以導航至 nova.amazon.com 並登錄以探索該平台。然而,美國以外的用戶目前似乎被排除在這次初步預覽階段之外。這種分階段推出對於潛在的顛覆性技術來說是典型的,允許進行迭代改進和區域合規性檢查。從賣家和廣告商那裡收集到的反饋將特別具有洞察力,揭示企業可能如何將 Nova Act 整合到他們的工作流程中,用於市場研究、廣告活動管理或客戶互動分析。另一方面,購物者將提供關於代理執行產品搜索或比較等任務的可用性、可靠性和可信度的關鍵數據。

賦能創新者:Nova Act 軟體開發套件 (SDK)

認識到一個平台的真正潛力往往在於更廣泛開發者社群的創造力,Amazon 同時推出了 Nova Act SDK。這個軟體開發套件是一個關鍵的配套組件,專門設計用於賦能開發者利用 Nova Act 的核心能力,特別是其瀏覽器互動功能,來構建他們自己定制的 AI 代理。

Amazon Artificial General Intelligence 高級副總裁 Rohit Prasad 闡述了此舉背後的願景:「Nova.amazon.comAmazon 前沿智能的力量交到每一位開發者和科技愛好者手中,使得探索 Amazon Nova 的能力比以往任何時候都更容易。」這番話強調了 Amazon 的策略:不僅僅是構建一個單一的強大代理,而是要圍繞他們的基礎技術,培育一個由專業化 AI 工具組成的完整生態系統。

SDK 為大量潛在應用打開了大門,遠遠超出了 Amazon 提供的初步示例。理論上,開發者可以創建針對高度特定任務的機器人:

  • 自動訂購: 設計能夠導航複雜食品外送平台或自動重新訂購常用供應品的代理。
  • 旅行與住宿: 構建能夠搜索多個旅遊網站、比較酒店設施和價格,甚至根據預定義的用戶偏好繼續預訂的機器人。
  • 數據輸入與表單填寫: 自動化通常繁瑣的線上表單、申請或調查填寫過程,並確保準確性和速度。
  • 日曆管理: 創建能夠智能掃描電子郵件或訊息以獲取活動詳情,並自動將約會、提醒或截止日期添加到用戶數位日曆的代理。
  • 競爭分析: 為企業開發工具,可以監控競爭對手網站的價格變動、產品更新或促銷活動。
  • 個性化資訊聚合: 製作能夠在網路上搜尋與用戶特定興趣或專業領域相關的新聞、文章或研究論文,並有效整合資訊的代理。

透過提供 SDKAmazon 實質上是邀請開發者在 Nova Act 之上進行創新,這可能導致針對各行各業無數利基應用的基於瀏覽器的 AI 代理大量湧現。這種方法不僅加速了對 Nova Act 潛力的探索,而且透過圍繞其技術建立社群,有助於鞏固 Amazon 在競爭激烈的 AI 領域中的地位。

起源:Amazon 的 AGI SF Lab

Nova Act 模型背後的開發主力是 Amazon AGI SF Lab,策略性地設在 CaliforniaSan Francisco。該實驗室代表了 Amazon 集中頂尖人工智能人才的重點努力。其明確使命是匯集領先的 AI 專家和工程師,以創建最先進的基礎 AI 模型為單一目標。

AGI SF Lab 的領導層充分說明了 Amazon 的承諾。它由先前在 OpenAI 擔任重要職位的傑出人物領導,即 David LuanPieter Abbeel。他們在世界領先的 AI 研究機構之一磨練出來的專業知識,表明 Amazon 意圖在開發先進通用人工智能能力的最高層次上競爭。建立這個由行業資深人士組成的專門實驗室,強調了 Nova Act 並非一個孤立的項目,而是 Amazon 更廣泛、資金充足且具有戰略關鍵意義的 AI 未來推進的一部分。

這項巨額投資反映了幾乎所有其他主要科技巨頭的行動。開發和部署卓越 AI 的競賽正在全面展開,被視為未來增長、效率以及跨不同行業競爭優勢的基礎。Nova Act 最初在去年底作為 Amazon 不斷增長的 AI 模型組合的一部分在概念上首次亮相,現在正體現為一個有形的平台,展示了像 AGI SF Lab 這樣的專業單位內部取得的進展。

在擁擠的領域中航行:自主代理的崛起

AmazonNova Act 並非在真空中進入市場。它加入了一個迅速擴張的 AI 代理領域,這些代理專為自主或半自主操作而設計,特別是在網頁互動方面。此公告緊隨競爭對手的舉措之後。值得注意的是,AI 領導者 OpenAI 本身在一月份推出了 Operator – 被描述為一個自主聊天機器人,同樣具備在沒有持續人類監督的情況下瀏覽網頁的能力。

這種朝向能夠獨立導航和與數位世界互動的代理的趨勢,標誌著 AI 應用的一次重大演變。早期的聊天機器人主要是對話介面,僅限於處理提供給它們的資訊或透過受限的 API 檢索數據。像 Nova ActOperator 這樣的代理代表了向 AI 的轉變,這種 AI 能夠在人類日常使用的相同環境中行動 – 即透過網頁瀏覽器訪問互聯網上龐大、非結構化的資訊和功能。

這種能力為自動化和效率開啟了巨大的可能性,但也引發了重大的問題。這些代理將如何處理複雜、動態的網站?當它們遇到意外錯誤或安全提示時會發生什麼?用戶如何確保代理是為了他們的最佳利益行事,尤其是在涉及金融交易時?隨著這些技術的成熟,開發強健的控制機制、透明的操作日誌和可靠的安全協議將至關重要。AmazonOpenAIGoogleMicrosoft 等公司在這一領域的競爭可能會加速創新,推動自主代理所能達到的界限,同時也迫使行業面對相關的挑戰。特別是 Nova Act SDK 的開發,可以被視為 Amazon 透過實現定制化代理創建來區分自身的一種策略,而不僅僅是提供單一、龐大的代理。