亞馬遜藉 Nova 平台與瀏覽器自動化,開拓 AI 可及性新領域

在快速發展的人工智慧領域,科技巨頭們不斷爭奪領先地位,各自尋求普及化 AI 技術的同時,也在推動能力的極限。作為雲端運算和電子商務的強大力量,Amazon 已顯著擴大了其在生成式 AI 領域的影響力。該公司最近揭開了 nova.amazon.com 的面紗,這是一個專門設計的入口網站,旨在簡化開發者與其強大基礎模型的互動。此舉措恰逢推出一款特別引人入勝的工具:Amazon Nova Act,這是一個經過精心訓練的 AI 模型,能夠直接在網頁瀏覽器中導航並執行任務,標誌著自動化網頁互動進入了一個新階段。

敞開大門:Nova 開發者入口

Amazon 策略性地推出 nova.amazon.com 不僅僅代表一個新的網址;它體現了一種協同努力,旨在降低渴望探索和利用複雜 AI 技術的開發者的進入門檻。在此平台之前,存取 Amazon 最初在 re:Invent 2024 大會上展示的頂級基礎模型,通常需要導航更廣泛、更複雜的 AWS 服務生態系統,特別是 Amazon Bedrock。雖然 Bedrock 仍然是擴展和部署企業級 AI 應用的強大引擎,但 nova.amazon.com 作為一個易於使用的試驗場,一個數位實驗室,讓實驗能夠在減少阻力的情況下蓬勃發展。

這個新入口網站邀請位於美國的開發者、研究人員和 AI 愛好者直接與 Nova 模型家族互動。這個套件代表了 Amazon 在生成式 AI 方面的多樣化能力:

  • Nova Text Models (Micro, Lite, Pro): 提供不同層次的文本生成能力,這些模型可能滿足從快速、輕量級任務(Micro, Lite),如聊天機器人或內容摘要,到複雜推理、長篇內容創作以及精密應用所需的細緻理解(Pro)等不同需求。分層方法允許開發者根據其特定用例,選擇性能、成本和複雜性之間的適當平衡。透過 nova.amazon.com 進行實驗,可以在投入更大規模部署之前進行快速原型設計和評估。
  • Nova Canvas: 此模型專注於圖像生成,迎合了圍繞 AI 驅動視覺創作的巨大興趣。開發者可以探索其生成行銷素材、概念藝術、產品視覺化或獨特數位資產的潛力,直接透過平台測試提示並優化輸出。
  • Nova Reel: 針對蓬勃發展的影片生成領域,Nova Reel 讓使用者能夠實驗從文本提示或其他潛在輸入創建短影片序列。這為動態內容創作、個人化訊息傳遞和創新的敘事格式開闢了途徑。

nova.amazon.com 的核心價值主張在於其即時性。它提供了一個沙盒環境,開發者可以在此快速測試假設、理解模型行為,並評估將這些先進 AI 功能整合到其專案中的可行性,然後再接觸像 Bedrock 這樣服務上更廣泛的基礎設施和潛在的全規模雲端部署成本。這是圍繞 Amazon 的 AI 培養創新社群的策略性舉措,在構思過程的早期就吸引開發者的興趣。

隆重介紹 Nova Act:AI 掌控瀏覽器

也許這次發布中最獨特的組成部分是 Amazon Nova Act。作為透過其專用軟體開發套件 (SDK) 提供的早期研究預覽版,Nova Act 涉足了 AI 驅動的瀏覽器自動化領域。這不僅僅是基於僵化腳本填寫表單或點擊按鈕;Nova Act 的設計具有更高層次的智慧,旨在理解並在網頁瀏覽器的動態環境中執行複雜的多步驟任務。

想想傳統的機器人流程自動化 (Robotic Process Automation, RPA) 與能夠理解任務意圖的代理之間的區別。RPA 通常依賴於預定義的選擇器和工作流程,這些流程對網站變更很脆弱。Nova Act 則立志成為後者。Amazon 表示,它可以將複雜的目標——例如研究和預訂多段行程、管理不同平台上的線上訂閱,或從各種網路來源彙編數據——分解為一系列更小的、可執行的動作。它學習以符合上下文的方式與網頁元素(按鈕、表單、選單)互動,可能適應那些會破壞簡單自動化腳本的微小佈局變更。

專注於 Amazon 生成式人工智慧的總監 Shubham Katiyar 清楚地闡述了這項發展的重要性:

「這代表了 AI 代理在數位環境中運作方式的根本性轉變,能夠以前所未有的準確性可靠地執行複雜的網頁任務,從表單提交到行事曆管理。」

對「根本性轉變」和「前所未有的準確性」的強調,突顯了 Amazon 對 Nova Act 的雄心。它被定位為不僅僅是漸進式的改進,而是在創建能夠可靠地駕馭現代網路複雜性的自主代理方面向前邁出的一大步。

賦能開發者:Nova Act SDK

使開發者能夠駕馭這種瀏覽器自動化能力的引擎是 Amazon Nova Act SDK。最初作為早期研究預覽版提供,該 SDK 提供了建構和自訂這些網頁導航 AI 代理的工具。一個關鍵特性是它支援透過 Python 程式碼進行精細控制和增強。這使得開發者能夠超越簡單的基於提示的指令,並將複雜的邏輯編織到代理的操作中。

該 SDK 促進了幾個關鍵的開發實踐:

  • 任務分解 (Task Decomposition): 開發者可以引導 AI 將大目標分解為可管理的子任務,提高可靠性並使過程更加透明。
  • 交錯自訂程式碼 (Interleaving Custom Code): 注入 Python 程式碼的能力允許:
    • 測試 (Tests): 在不同階段實施檢查,以確保代理按預期執行。
    • 中斷點 (Breakpoints): 在特定點暫停執行以進行偵錯和檢查,這對於理解代理行為至關重要。
    • 斷言 (Assertions): 定義流程繼續必須滿足的條件,增加驗證層。
    • 用於平行化的執行緒池 (Thread Pooling for Parallelization): 使代理能夠潛在地同時處理多個動作或瀏覽器實例,顯著加快複雜工作流程的速度。

這種整合程度表明,Amazon 不僅將 Nova Act 視為終端使用者的工具,而且是開發者建構複雜自動化解決方案的強大組件。該 SDK 提供了必要的掛鉤,以創建針對特定業務流程或使用者需求的強固、可測試且可能具備可擴展性的 AI 代理。

航行須知:揭露與考量

強大的力量伴隨著謹慎處理的需求。Amazon 對 Nova Act 的當前狀態和限制保持了值得稱讚的透明度,強調其作為「早期研究預覽版」的實驗性質。使用者和開發者被明確提醒,他們對監督代理的行為負有責任。

幾個關鍵的揭露事項值得注意:

  • 潛在錯誤 (Potential for Errors): AI 並非萬無一失。Nova Act 可能會在解釋指令或與網頁元素互動時出錯。持續的監控和驗證至關重要,尤其是在這個研究階段。
  • 資料收集 (Data Collection): 為了改進模型,Amazon 會收集互動資料。這包括使用者提供的提示,以及重要的是,在代理操作期間捕獲的螢幕截圖。這突顯了系統的學習機制,但也引發了重要的隱私考量。
  • 安全預防措施 (Security Precautions): 強烈建議開發者不要分享他們的 API 金鑰。此外,不鼓勵在 Nova Act 活躍時輸入敏感的個人或財務資訊,因為這些資料可能被螢幕截圖捕獲。鑑於代理直接與可能包含敏感資訊的網頁表單和頁面互動,這是一個關鍵的警告。

這些注意事項至關重要。雖然 Nova Act 的潛力令人興奮,但其當前版本需要謹慎和知情的使用。資料收集方面,特別是螢幕截圖,需要仔細考慮分配給代理的任務以及其操作的環境。然而,這種負責任的框架,也透過在工具的開發階段設定現實的期望來建立信任。

產業迴響:熱情與謹慎並存

可以預見的是,這項宣布在科技和開發者社群中引起了相當大的興趣。更容易接觸到前沿 AI 模型和像 Nova Act 這樣的新穎工具的前景具有強大的吸引力。

被認定為商業數據分析師的 Wesley Kurosawa 捕捉到了許多開發者中普遍存在的樂觀情緒:

「來自 Amazon 的消息絕對令人難以置信!有了 nova.amazon.com,我們現在可以直接存取尖端的 AI 模型,並實驗以前無法觸及的前沿智慧能力。對於像我們這樣的開發者來說,這是一個極好的工具,可以快速測試想法,然後透過 Amazon Bedrock 進行擴展。使用 Nova Act SDK 建構網頁代理的能力,為自動化和輔助開闢了全新的可能性。Amazon 真正普及了對先進 AI 的存取——迫不及待想開始用它來建構了!」

Kurosawa 的反應突顯了幾個被感知到的關鍵好處:先進 AI 的普及化、nova.amazon.com 作為快速原型設計平台的實用性,以及 Nova Act SDK 為創建新穎自動化和輔助解決方案所釋放的潛力。從在 nova.amazon.com 上進行實驗到在 Amazon Bedrock 上進行規模化部署的無縫路徑被視為一個顯著的優勢。

然而,Nova Act 的獨特能力也引發了辯論並提出了相關問題。它以可能遠比典型人類行為更快、更複雜的方式導覽和與網站互動的能力,引起了擔憂,特別是關於網站可能如何看待其活動。一位 Reddit 用戶表達了這種憂慮:

「非常有趣,所有這些都讓我覺得有些網站可能會將其視為網路爬蟲技術,因為它可能太快了,不像正常的人類活動。我相信這將是非常有趣的時代。網路爬蟲和正常使用之間的界線將會有些重疊。」

這則評論觸及了一個關鍵的新興挑戰。網路爬蟲 (Web scraping),即自動從網站提取數據,通常處於灰色地帶,有時違反服務條款並可能使伺服器過載。像 Nova Act 這樣先進的 AI 代理,雖然旨在執行任務而非大量數據採集,但其瀏覽模式可能難以與侵略性的爬蟲機器人區分。

這種合法自動化輔助與被禁止的爬蟲技術之間潛在的界線模糊帶來了幾個挑戰:

  1. 偵測 (Detection): 網站管理員將如何區分執行合法使用者請求任務(如預訂航班)的 Nova Act 代理和大量抓取航班價格的機器人?偵測機制可能需要變得更加複雜,超越簡單的 IP 速率限制或 CAPTCHA。
  2. 政策調整 (Policy Adaptation): 網站服務條款可能需要修訂,以明確處理先進 AI 代理的使用。它們會被允許、限制,還是需要特定的 API 存取權限?
  3. 道德使用 (Ethical Use): 使用 Nova Act 的開發者需要注意他們對網站造成的負載,並尊重 robots.txt 指令和服務條款,即使代理技術上可以繞過某些限制。負責任的使用對於防止對該技術的反彈至關重要。
  4. 軍備競賽潛力 (Arms Race Potential): 複雜代理的發展可能引發同樣複雜的反代理防禦措施的發展,導致持續的技術貓鼠遊戲。

這位 Reddit 用戶預測的「有趣的時代」幾乎是肯定的,因為網路生態系統正在努力應對能夠進行類人(或超人)互動的 AI 代理所帶來的影響。

展望未來:Amazon 的 AI 軌跡

Amazon 對 AI 的投入遠不止於當前的這些宣布。該公司已表明將持續努力改進其現有模型,專注於增強其準確性、推理能力和整體實用性。這種迭代改進週期在競爭激烈的 AI 領域是標準做法,確保模型保持最先進水平。

此外,Amazon 正在涉足更細緻的 AI 互動領域:

  • 自訂語音 (Custom Voices): 探索為開發者提供創建 AI 應用自訂語音的選項非常引人入勝。這可能帶來更個人化和符合品牌形象的使用者體驗。然而,這也伴隨著重大的道德和安全考量。在創建深度偽造或冒充方面的潛在濫用,需要強健的保障措施和對負責任開發的堅定承諾,Amazon 也明確承認這一點。
  • 多模態 AI (Multimodal AI): 投資正流向多模態 AI,整合跨文本、音訊、圖像和影片的能力。想像一下 AI 助理不僅能理解語音指令,還能解釋透過相機顯示的圖像,生成相關視覺效果,並以合成語音或影片回應。這種模態的融合預示著更複雜、互動性更強、更具上下文感知能力的 AI 體驗,可能改變從像 Alexa 這樣的虛擬助理到線上購物和內容創作平台的一切。

這些未來的方向表明,nova.amazon.com 和 Nova Act 並非孤立的產品發布,而是在更廣泛、長期的策略中的步驟,旨在將先進、日益多功能的 AI 嵌入 Amazon 龐大的生態系統中,並賦能開發者建構下一代 AI 驅動的應用程式。

開始使用:存取與可用性

目前,通往這些新工具的入口 nova.amazon.com 向擁有 Amazon 帳戶的美國使用者開放。透過這個入口網站,他們可以開始實驗各種 Nova 文本和圖像生成模型(Nova Micro, Lite, Pro, Canvas),並申請存取 Nova Act SDK 的研究預覽版。這種受控的初步推出讓 Amazon 能夠收集回饋、監控使用模式,並在可能更廣泛地提供之前完善產品。它將美國開發者社群定位為這些尖端能力的初始試驗場,為未來的全球擴展奠定了基礎。進入 AI 驅動的瀏覽器自動化和易於存取的基礎模型的旅程已經開始,Amazon 在這個令人興奮的新領域牢牢地插上了自己的旗幟。