Bối cảnh kỹ thuật số đang tràn ngập trí tuệ nhân tạo, nhưng phần lớn vẫn còn bị giới hạn, hoạt động trong các tham số được xác định trước hoặc phụ thuộc nhiều vào các nguồn cấp dữ liệu có cấu trúc và API. Giấc mơ về các agent thực sự tự trị – những trợ lý kỹ thuật số có khả năng điều hướng môi trường hỗn loạn, khó đoán của World Wide Web để hoàn thành các mục tiêu phức tạp – phần lớn vẫn còn khó nắm bắt. Amazon hiện đang mạnh dạn bước vào lĩnh vực này, công bố Nova Act, một mô hình AI tinh vi được thiết kế tỉ mỉ để trao quyền cho các agent có thể hiểu và tương tác với trình duyệt web, thực hiện các tác vụ phức tạp giống như người dùng là con người. Sáng kiến này báo hiệu một bước tiến đáng kể vượt ra ngoài những hạn chế hiện tại, nhằm mục đích mở ra một kỷ nguyên của các trợ lý AI có năng lực, đáng tin cậy và linh hoạt hơn.
Tầm nhìn lớn: Vượt ra ngoài các lệnh đơn giản đến giải quyết vấn đề phức tạp
Tham vọng của Amazon vượt xa việc lấy báo cáo thời tiết hay đặt hẹn giờ. Công ty trình bày một tầm nhìn hấp dẫn nơi các agent AI quản lý liền mạch các mục tiêu đa diện trong cả lĩnh vực kỹ thuật số và tiềm năng là các lĩnh vực vật lý được kết nối với nhau. Hãy tưởng tượng một AI có khả năng điều phối vô số chi tiết của việc lập kế hoạch đám cưới, điều phối các nhà cung cấp, quản lý ngân sách và theo dõi RSVP thông qua các cổng thông tin trực tuyến khác nhau. Hãy hình dung các agent tinh vi giải quyết các tác vụ quản trị IT phức tạp, khắc phục sự cố mạng, quản lý giấy phép phần mềm hoặc giới thiệu nhân viên mới bằng cách tương tác trực tiếp với các công cụ nội bộ dựa trên web. Điều này đại diện cho một sự thay đổi mô hình từ các bot dành riêng cho nhiệm vụ sang các đối tác kỹ thuật số hướng mục tiêu được thiết kế để nâng cao đáng kể sự tiện lợi cá nhân và tăng năng suất kinh doanh.
Các mô hình AI tạo sinh hiện tại, mặc dù thành thạo trong việc trò chuyện và tạo nội dung, thường gặp khó khăn khi đối mặt với bản chất năng động và thường không nhất quán của giao diện web. Việc thực hiện một chuỗi hành động – đăng nhập, điều hướng menu, điền biểu mẫu, diễn giải các tín hiệu trực quan và phản hồi các cửa sổ bật lên bất ngờ – đòi hỏi một mức độ hiểu biết ngữ cảnh và độ tin cậy hoạt động mà khó có thể đạt được một cách nhất quán. Amazon thừa nhận rõ ràng những trở ngại này, định vị Nova Act là phản ứng chiến lược của mình, được thiết kế từ đầu để làm chủ sự phức tạp của việc thực hiện tác vụ dựa trên web.
Giới thiệu Nova Act: Động cơ cho điều hướng web thông minh
Nova Act không chỉ là một mô hình ngôn ngữ lớn khác; đó là một hệ thống chuyên biệt tập trung vào việc chuyển đổi ý định của con người thành các hành động cụ thể trong trình duyệt web. Nó đại diện cho một nỗ lực phối hợp nhằm trang bị cho AI khả năng nhận thức, hiểu và thao tác các yếu tố web một cách hiệu quả. Thách thức cốt lõi nằm ở việc thu hẹp khoảng cách giữa các hướng dẫn bằng ngôn ngữ tự nhiên (‘Đặt phòng họp cho thứ Ba tới’) và chuỗi các cú nhấp chuột, cuộn và nhập văn bản cụ thể cần thiết để thực hiện yêu cầu đó trên một trang web hoặc ứng dụng web nhất định.
Cách tiếp cận của Amazon nhận ra rằng web không phải là một thực thể tĩnh. Các trang web thay đổi bố cục, giao diện rất khác nhau và nội dung động tải không thể đoán trước. Do đó, một agent cần nhiều hơn là năng lực ngôn ngữ; nó đòi hỏi sự hiểu biết vững chắc về cấu trúc web (HTML, DOM), các yếu tố trực quan và các mẫu tương tác. Nova Act đang được phát triển để sở hữu sự hiểu biết tinh tế này, cho phép nó hoạt động với độ chính xác và khả năng thích ứng cao hơn trên các môi trường trực tuyến đa dạng. Sự tập trung vào tương tác gốc web này là điều phân biệt mục đích của Nova Act với các mô hình AI đa năng hơn.
Trao quyền cho nhà phát triển: Bộ công cụ phát triển phần mềm Nova Act
Để chuyển đổi khả năng AI tiên tiến này thành các ứng dụng thực tế, Amazon đang phát hành bản xem trước nghiên cứu của Bộ công cụ phát triển phần mềm (SDK) Nova Act. Bộ công cụ này được thiết kế cho các nhà phát triển mong muốn xây dựng thế hệ agent tự trị tiếp theo. Nó cung cấp các khối xây dựng và điều khiển cần thiết để khai thác sức mạnh của Nova Act nhằm tự động hóa các quy trình công việc dựa trên web.
Một nền tảng trong triết lý thiết kế của SDK là việc phân tách các quy trình phức tạp thành các đơn vị cơ bản, đáng tin cậy được gọi là ‘lệnh nguyên tử’ (‘atomic commands’). Hãy coi chúng như những động từ cơ bản của tương tác web:
- Tìm kiếm (Searching): Định vị thông tin hoặc yếu tố cụ thể trên một trang.
- Thanh toán (Checking Out): Hoàn thành quy trình mua hàng trong thương mại điện tử.
- Tương tác (Interacting): Tương tác với các thành phần giao diện cụ thể như menu thả xuống, hộp kiểm, bộ chọn ngày hoặc cửa sổ bật lên phương thức.
- Điều hướng (Navigating): Di chuyển giữa các trang hoặc các phần của một trang web.
- Nhập dữ liệu (Inputting Data): Điền vào biểu mẫu hoặc trường văn bản một cách chính xác.
Các nhà phát triển không bị giới hạn ở các lệnh cấp cao này. SDK cho phép bổ sung hướng dẫn chi tiết để tinh chỉnh hành vi của agent. Ví dụ, một agent được giao nhiệm vụ đặt vé máy bay có thể được hướng dẫn cụ thể để bỏ qua các ưu đãi bảo hiểm du lịch hoặc bỏ qua việc bán thêm lựa chọn chỗ ngồi trong quá trình thanh toán. Mức độ kiểm soát chi tiết này rất quan trọng để tạo ra các agent thực hiện nhiệm vụ chính xác như dự định, tuân thủ các sở thích cụ thể của người dùng hoặc quy tắc kinh doanh.
Để tăng cường độ tin cậy và độ chính xác cần thiết cho tự động hóa web trong thế giới thực, SDK tích hợp một số cơ chế mạnh mẽ:
- Thao tác trình duyệt qua Playwright: Tận dụng framework Playwright phổ biến để tự động hóa trình duyệt chéo mạnh mẽ, cung cấp khả năng kiểm soát chi tiết đối với các hành động của trình duyệt.
- Gọi API (API Calls): Cho phép các agent tương tác trực tiếp với các dịch vụ web thông qua API khi có sẵn, cung cấp một giải pháp thay thế ổn định và hiệu quả hơn cho việc thao tác giao diện người dùng đối với một số tác vụ nhất định.
- Tích hợp Python (Python Integrations): Cho phép các nhà phát triển nhúng mã Python tùy chỉnh, cho phép logic phức tạp, xử lý dữ liệu hoặc tích hợp với các hệ thống khác trong quy trình làm việc của agent.
- Phân luồng song song (Parallel Threading): Giúp giảm thiểu sự chậm trễ do các trang web tải chậm hoặc độ trễ mạng bằng cách cho phép một số hoạt động chạy đồng thời, cải thiện tốc độ hoàn thành nhiệm vụ tổng thể và khả năng phục hồi.
Bộ công cụ toàn diện này nhằm cung cấp cho các nhà phát triển sự linh hoạt và sức mạnh cần thiết để giải quyết các thách thức tự động hóa phức tạp mà trước đây không thực tế hoặc không đáng tin cậy.
Đo lường: Tập trung vào hiệu suất và độ tin cậy thực tế
Mặc dù điểm chuẩn là một thước đo phổ biến trong thế giới AI, Amazon nhấn mạnh rằng việc phát triển Nova Act ưu tiên độ tin cậy thực tế hơn là chỉ đơn giản đứng đầu bảng xếp hạng trong các bài kiểm tra trừu tượng. Mục tiêu là xây dựng các agent hoạt động nhất quán trong các tình huống thực tế, ngay cả khi điều đó có nghĩa là tập trung cao độ vào các khả năng cụ thể quan trọng đối với tương tác web.
Tuy nhiên, Nova Act thể hiện hiệu suất vượt trội trên các điểm chuẩn được thiết kế đặc biệt để đánh giá tương tác với giao diện web. Amazon nhấn mạnh điểm số ấn tượng vượt quá độ chính xác 90% trong các đánh giá nội bộ nhắm vào các khả năng thường thách thức các mô hình cạnh tranh.
Trên các điểm chuẩn đã được thiết lập, kết quả rất đáng chú ý:
- ScreenSpot Web Text: Điểm chuẩn này đánh giá khả năng của AI trong việc diễn giải các hướng dẫn bằng ngôn ngữ tự nhiên liên quan đến các tương tác dựa trên văn bản trên các trang web (ví dụ: ‘tăng kích thước phông chữ’, ‘tìm đoạn văn đề cập đến đăng ký’). Nova Act đạt điểm gần như hoàn hảo là 0.939, vượt xa đáng kể các mô hình nổi bật như Claude 3.7 Sonnet (0.900) và CUA (Conceptual User Agent benchmark) của OpenAI (0.883).
- ScreenSpot Web Icon: Thử nghiệm này tập trung vào các tương tác với các yếu tố trực quan, phi văn bản như xếp hạng sao, biểu tượng hoặc thanh trượt. Nova Act một lần nữa hoạt động mạnh mẽ, đạt 0.879.
Điều thú vị là, trên bài kiểm tra GroundUI Web, đánh giá rộng rãi khả năng điều hướng các yếu tố giao diện người dùng đa dạng, Nova Act cho thấy hiệu suất thấp hơn một chút so với một số đối thủ cạnh tranh. Amazon thẳng thắn thừa nhận điều này, coi đó không phải là một thất bại mà là một lĩnh vực cần cải thiện khi mô hình tiếp tục phát triển thông qua quá trình đào tạo và tinh chỉnh liên tục. Sự minh bạch này nhấn mạnh sự tập trung vào việc xây dựng một công cụ thực sự hữu ích, nhận thức rằng phát triển là một quá trình lặp đi lặp lại.
Sự nhấn mạnh vẫn kiên định vào việc thực thi đáng tin cậy. Amazon nhấn mạnh rằng một khi một agent được xây dựng bằng SDK Nova Act thực hiện một nhiệm vụ một cách chính xác và đáng tin cậy trong quá trình phát triển, các nhà phát triển nên có độ tin cậy cao vào việc triển khai nó. Các agent này có thể được chạy headless (không có cửa sổ trình duyệt hiển thị), tích hợp vào các ứng dụng lớn hơn thông qua API, hoặc thậm chí lên lịch để thực hiện các tác vụ tự động vào những thời điểm cụ thể. Ví dụ được cung cấp – một agent tự động đặt món salad ưa thích để giao hàng vào mỗi tối thứ Ba mà không cần bất kỳ tương tác nào của người dùng sau khi thiết lập ban đầu – minh họa hoàn hảo tầm nhìn này về tự động hóa liền mạch, đáng tin cậy cho các công việc kỹ thuật số thường ngày.
Bước nhảy vọt về khả năng thích ứng: Học hỏi và chuyển giao hiểu biết về giao diện người dùng
Một trong những khía cạnh hấp dẫn nhất của Nova Act là khả năng được cho là có thể khái quát hóa sự hiểu biết của nó về giao diện người dùng và áp dụng nó hiệu quả trong môi trường mới lạ với ít hoặc không cần đào tạo lại cụ thể cho từng tác vụ. Khả năng này, thường được gọi là học chuyển giao (transfer learning), rất quan trọng để tạo ra các agent thực sự linh hoạt, không dễ bị hỏng bởi những thay đổi nhỏ trong thiết kế trang web hoặc khi gặp phải bố cục ứng dụng không quen thuộc.
Amazon đã chia sẻ một giai thoại hấp dẫn trong đó Nova Act thể hiện năng lực vận hành trò chơi dựa trên trình duyệt, mặc dù dữ liệu đào tạo của nó rõ ràng không bao gồm trải nghiệm trò chơi điện tử. Điều này cho thấy mô hình đang học các nguyên tắc cơ bản của tương tác web – nhận dạng các nút, diễn giải phản hồi trực quan, hiểu các trường nhập liệu – thay vì chỉ ghi nhớ các cấu trúc trang web cụ thể. Nếu khả năng này đúng trên một loạt các ứng dụng, nó đại diện cho một tiến bộ đáng kể. Điều đó có nghĩa là các nhà phát triển có khả năng xây dựng các agent có khả năng giải quyết các tác vụ trên các trang web hoặc ứng dụng web mới gặp phải với mức độ thành công hợp lý, giảm đáng kể nhu cầu đào tạo liên tục, riêng biệt cho mọi nền tảng mục tiêu.
Khả năng thích ứng này định vị Nova Act như một động cơ tiềm năng mạnh mẽ cho một loạt các ứng dụng ngoài tự động hóa tác vụ đơn giản. Nó có thể cung cấp năng lượng cho các trình thu thập dữ liệu web thông minh hơn, các công cụ nhập dữ liệu trực quan hơn hoặc các trợ lý trợ năng có năng lực hơn.
Amazon đã tận dụng khả năng này trong hệ sinh thái của riêng mình. Alexa+, cấp cao cấp của trợ lý giọng nói của họ, sử dụng Nova Act để cho phép điều hướng web tự định hướng. Khi người dùng đưa ra yêu cầu không thể được đáp ứng hoàn toàn thông qua các kỹ năng Alexa hiện có hoặc API có sẵn (một hạn chế phổ biến), Nova Act có thể bước vào, mở một trang web có liên quan và cố gắng hoàn thành tác vụ bằng cách tương tác trực tiếp với giao diện người dùng của trang web. Điều này đại diện cho một bước hữu hình hướng tới tầm nhìn về các trợ lý AI ít phụ thuộc hơn vào các tích hợp được xây dựng sẵn và có thể hoạt động tự chủ và năng động hơn bằng cách khai thác web mở.
Con đường phía trước: Một bước nền tảng trong chiến lược AI dài hạn
Amazon khẳng định rằng Nova Act, ở dạng hiện tại, chỉ đại diện cho giai đoạn ban đầu của một sứ mệnh dài hạn, rộng lớn hơn nhiều. Mục tiêu cuối cùng là nuôi dưỡng các agent AI thông minh cao, dễ thích ứng và đáng tin cậy, có khả năng quản lý các quy trình công việc ngày càng phức tạp, nhiều bước có thể trải dài trên nhiều trang web, ứng dụng và phiên làm việc.
Chiến lược của công ty bao gồm việc vượt ra ngoài các minh chứng đơn giản hoặc đào tạo chỉ trên các bộ dữ liệu hạn chế. Trọng tâm là sử dụng các kỹ thuật học tăng cường (reinforcement learning) trên các kịch bản thực tế đa dạng. Điều này có nghĩa là đào tạo các mô hình Nova bằng cách cho chúng thử thực hiện các tác vụ, học hỏi từ thành công và thất bại, và dần dần xây dựng sự thành thạo trong việc điều hướng sự phức tạp và khó đoán vốn có trong môi trường web trực tiếp. Cách tiếp cận lặp đi lặp lại, dựa trên kinh nghiệm này được coi là cần thiết để xây dựng sự mạnh mẽ và trí thông minh thực sự.
Nova Act đóng vai trò như một điểm kiểm tra quan trọng trong cái mà Amazon mô tả là một chương trình đào tạo dài hạn cho họ mô hình Nova của mình. Điều này cho thấy một cam kết bền vững và một tham vọng chiến lược nhằm định hình lại cơ bản bối cảnh của các agent AI, đưa chúng từ các công cụ thích hợp trở thành đối tác không thể thiếu trong việc điều hướng cuộc sống số của chúng ta. Mô hình hiện tại là nền tảng mà trên đó các khả năng phức tạp hơn sẽ được xây dựng theo thời gian.
Đồng sáng tạo tương lai: Vai trò không thể thiếu của cộng đồng nhà phát triển
Thừa nhận rằng các ứng dụng mang tính chuyển đổi nhất của công nghệ này vẫn chưa được hình thành, Amazon đang cố tình thu hút cộng đồng nhà phát triển sớm thông qua bản xem trước nghiên cứu của SDK Nova Act. ‘Các trường hợp sử dụng có giá trị nhất cho các agent vẫn chưa được xây dựng’, công ty tuyên bố. ‘Các nhà phát triển và nhà thiết kế giỏi nhất sẽ khám phá ra chúng’.
Chiến lược phát hành này phục vụ nhiều mục đích. Nó cho phép những người xây dựng sáng tạo có được kinh nghiệm thực tế với công nghệ, đẩy xa giới hạn của nó và khám phá tiềm năng của nó theo những cách mà các nhóm nội bộ của Amazon có thể không hình dung được. Nó cũng thiết lập một vòng phản hồi quan trọng. Bằng cách quan sát cách các nhà phát triển sử dụng SDK, những thách thức họ gặp phải và những tính năng họ yêu cầu, Amazon có thể lặp lại nhanh chóng, tinh chỉnh Nova Act và các công cụ đi kèm dựa trên việc sử dụng trong thế giới thực và nhu cầu thực tế. Cách tiếp cận hợp tác này, tập trung vào tạo mẫu nhanh và phản hồi lặp đi lặp lại, được coi là con đường nhanh nhất để khai phá tiềm năng thực sự của các agent AI gốc web.
Về bản chất, Nova Act không chỉ là một mô hình hay SDK mới; đó là lời mời dành cho các nhà phát triển và một tuyên bố về ý định từ Amazon. Nó đại diện cho một bước tiến quyết tâm hướng tới việc làm cho các agent AI thực sự hữu ích cho các tác vụ phức tạp, năng động và thường lộn xộn xác định phần lớn sự tương tác của chúng ta với thế giới kỹ thuật số. Bằng cách suy nghĩ lại về các điểm chuẩn, ưu tiên độ tin cậy, thúc đẩy khả năng thích ứng và đón nhận sự hợp tác, Amazon nhằm mục đích trao quyền cho những người xây dựng để tạo ra các giải pháp tự trị vượt xa đáng kể khả năng của các công cụ AI ngày nay. Hành trình chỉ mới bắt đầu, nhưng hướng đi đã rõ ràng: hướng tới một tương lai được cư ngụ bởi các trợ lý kỹ thuật số thông minh hơn, tự trị hơn điều hướng web thay mặt chúng ta.