Sự tiến bộ không ngừng của trí tuệ nhân tạo tiếp tục diễn ra, vượt ra ngoài các phản hồi truy vấn đơn giản và tạo nội dung để tiến vào lĩnh vực tham gia tích cực vào cuộc sống số của chúng ta. Mỗi tuần dường như lại xuất hiện một đối thủ mới, một thuật toán tiên tiến hứa hẹn sẽ hợp lý hóa các tác vụ, nâng cao năng suất, hoặc đơn giản là làm cho việc điều hướng sự phức tạp của thế giới trực tuyến trở nên dễ dàng hơn một chút. Bước chân vững chắc vào đấu trường đang phát triển này là Amazon, một công ty có tham vọng luôn vượt xa bán lẻ trực tuyến. Sản phẩm mới nhất của họ, được đặt tên là Nova Act, đại diện cho một bước tiến đáng kể hướng tới một tương lai nơi các AI agent không chỉ hỗ trợ con người mà còn chủ động thực hiện các nhiệm vụ thay mặt họ, trực tiếp trong môi trường quen thuộc của trình duyệt web.
Đây không chỉ đơn thuần là một chatbot khác có khả năng trò chuyện. Amazon định vị Nova Act là một mô hình AI tinh vi, thế hệ tiếp theo được thiết kế với mức độ tự do hoạt động hiếm thấy trong các ứng dụng hướng tới người tiêu dùng. Lời hứa cốt lõi? Một agent có khả năng hành động bán tự chủ, hiểu ý định của người dùng và thực hiện các quy trình nhiều bước trực tuyến với sự giám sát tối thiểu của con người. Sự chuyển đổi từ trợ lý thụ động sang người tham gia tích cực này đánh dấu một thời điểm then chốt trong việc phát triển và triển khai các công nghệ AI.
Định nghĩa Người đồng hành kỹ thuật số: Khả năng của Nova Act
Điều thực sự làm nên sự khác biệt của Nova Act là khả năng được cho là có thể kiểm soát trình duyệt web và thực hiện các hành động mà theo truyền thống đòi hỏi sự nhập liệu trực tiếp của con người. Hãy tưởng tượng một trợ lý không chỉ tìm kiếm thông tin mà còn hành động dựa trên thông tin đó. Amazon đã gợi ý rằng Nova Act sở hữu các khả năng nền tảng để điều hướng các trang web, diễn giải nội dung và thực thi các lệnh nhằm mang lại lợi ích cho người dùng. Điều này bao gồm các nhiệm vụ kết hợp thế giới kỹ thuật số và thậm chí có thể cả thế giới vật lý, làm mờ ranh giới giữa việc truy xuất thông tin và hành động trong thế giới thực.
Có lẽ tuyên bố thu hút sự chú ý nhất là khả năng tiềm tàng của agent trong việc thực hiện mua hàng mà không cần sự can thiệp trực tiếp của con người ở mọi bước. Mặc dù các chi tiết cụ thể và các biện pháp bảo vệ xung quanh tính năng này vẫn chưa được tiết lộ trong giai đoạn đầu, nhưng hàm ý của nó rất sâu sắc. Một AI đánh giá các lựa chọn, đưa ra lựa chọn và hoàn tất giao dịch đại diện cho một bước nhảy vọt hướng tới quyền tự chủ kỹ thuật số thực sự. Ngoài thương mại, Amazon đã trình diễn một kịch bản trong đó Nova Act có thể độc lập tìm kiếm trên internet, được giao nhiệm vụ cụ thể là tìm các căn hộ có sẵn ở Redwood City, California, đáp ứng các tiêu chí cụ thể, chẳng hạn như nằm trong khoảng cách đạp xe đến ga tàu. Điều này thể hiện khả năng hiểu các yêu cầu phức tạp, nhiều lớp và tương tác với các giao diện web để đáp ứng chúng.
Amazon dường như đang cấu trúc các khả năng của Nova Act theo các cấp độ khác nhau, gợi ý về một nền tảng linh hoạt có thể thích ứng với nhiều nhu cầu khác nhau:
- Tạo văn bản: Được cung cấp ở ba cấp độ riêng biệt – Micro, Lite, và Pro. Cách tiếp cận theo cấp độ này có khả năng phản ánh các mức độ phức tạp, tốc độ khác nhau, hoặc có lẽ là quyền truy cập vào các tính năng xử lý ngôn ngữ tiên tiến hơn, phục vụ cho các yêu cầu khác nhau của người dùng từ các đoạn văn bản đơn giản đến việc tạo nội dung phức tạp hơn.
- Tạo hình ảnh: Mô hình Canvas được chỉ định để sản xuất nội dung hình ảnh, khai thác lĩnh vực AI tạo sinh đang phát triển mạnh mẽ cho hình ảnh.
- Tạo video: Tương tự, mô hình Reel tập trung vào việc tạo nội dung video, mở rộng hơn nữa khả năng đa phương tiện của agent.
Điều quan trọng là phải hiểu rằng Nova Act hiện đang trong giai đoạn phát triển ban đầu. Amazon tuyên bố rõ ràng rằng agent vẫn còn sơ bộ nhưng nhấn mạnh khả năng cải thiện theo thời gian thông qua việc học hỏi và tinh chỉnh liên tục. Quá trình học hỏi này sẽ rất quan trọng, đặc biệt đối với các nhiệm vụ đòi hỏi sự hiểu biết tinh tế và tương tác với bối cảnh luôn thay đổi của các trang web và dịch vụ trực tuyến.
Truy cập sớm: Giai đoạn Xem trước Nghiên cứu
Hiện tại, Nova Act chưa được triển khai rộng rãi cho công chúng. Thay vào đó, Amazon đã chọn một cách tiếp cận thận trọng hơn, cung cấp công cụ AI này trong cái mà họ gọi là “xem trước nghiên cứu” (research preview). Giai đoạn này cho phép những người dùng được chọn, bao gồm rõ ràng là người bán, nhà quảng cáo và người mua hàng trong hệ sinh thái của Amazon, tương tác với agent và cung cấp phản hồi có giá trị. Chiến lược phát hành có kiểm soát này cho phép Amazon thu thập dữ liệu sử dụng trong thế giới thực, xác định các vấn đề tiềm ẩn, tinh chỉnh thuật toán và hiểu rõ hơn cách người dùng có thể tận dụng một công cụ mạnh mẽ như vậy trước khi triển khai rộng rãi hơn.
Hiện tại, quyền truy cập dường như bị giới hạn về mặt địa lý. Khách hàng Amazon quan tâm ở Hoa Kỳ (United States) có thể truy cập nova.amazon.com
và đăng nhập để khám phá nền tảng. Tuy nhiên, người dùng bên ngoài Hoa Kỳ dường như bị loại trừ khỏi giai đoạn xem trước ban đầu này vào thời điểm hiện tại. Việc triển khai theo giai đoạn này là điển hình cho các công nghệ có khả năng gây đột phá, cho phép cải tiến lặp đi lặp lại và kiểm tra tuân thủ khu vực. Phản hồi thu được từ người bán và nhà quảng cáo sẽ đặc biệt sâu sắc, tiết lộ cách các doanh nghiệp có thể tích hợp Nova Act vào quy trình làm việc của họ để nghiên cứu thị trường, quản lý chiến dịch quảng cáo hoặc phân tích tương tác khách hàng. Mặt khác, người mua hàng sẽ cung cấp dữ liệu quan trọng về khả năng sử dụng, độ tin cậy và độ tin cậy của một agent thực hiện các tác vụ như tìm kiếm hoặc so sánh sản phẩm.
Trang bị cho Nhà đổi mới: Bộ công cụ phát triển phần mềm Nova Act (SDK)
Nhận thức được rằng tiềm năng thực sự của một nền tảng thường nằm ở sự sáng tạo của cộng đồng nhà phát triển rộng lớn hơn, Amazon đồng thời giới thiệu Nova Act SDK. Bộ công cụ phát triển phần mềm (Software Development Kit) này là một phần bổ sung quan trọng, được thiết kế đặc biệt để trao quyền cho các nhà phát triển xây dựng các AI agent tùy chỉnh của riêng họ, tận dụng các khả năng cốt lõi của Nova Act, đặc biệt là các tính năng tương tác với trình duyệt.
Rohit Prasad, Phó Chủ tịch Cấp cao về Trí tuệ Nhân tạo Tổng quát của Amazon, đã trình bày tầm nhìn đằng sau động thái này: “Nova.amazon.com đặt sức mạnh trí tuệ tiên phong của Amazon vào tay mọi nhà phát triển và người đam mê công nghệ, giúp việc khám phá khả năng của Amazon Nova trở nên dễ dàng hơn bao giờ hết.” Tuyên bố này nhấn mạnh chiến lược của Amazon: không chỉ xây dựng một agent mạnh mẽ duy nhất, mà còn nuôi dưỡng toàn bộ hệ sinh thái các công cụ AI chuyên biệt được xây dựng trên công nghệ nền tảng của họ.
SDK mở ra cánh cửa cho một loạt các ứng dụng tiềm năng, vượt xa các ví dụ ban đầu do Amazon cung cấp. Về mặt lý thuyết, các nhà phát triển có thể tạo ra các bot được thiết kế riêng cho các nhiệm vụ rất cụ thể:
- Đặt hàng tự động: Thiết kế các agent có khả năng điều hướng các nền tảng giao đồ ăn phức tạp hoặc tự động đặt lại các vật tư thường dùng.
- Du lịch và Chỗ ở: Xây dựng các bot có thể tìm kiếm nhiều trang web du lịch, so sánh tiện nghi và giá cả khách sạn, và thậm chí tiến hành đặt phòng dựa trên sở thích được xác định trước của người dùng.
- Nhập dữ liệu và Điền biểu mẫu: Tự động hóa quy trình thường tẻ nhạt là điền vào các biểu mẫu, đơn đăng ký hoặc khảo sát trực tuyến với độ chính xác và tốc độ.
- Quản lý Lịch: Tạo các agent có thể quét email hoặc tin nhắn một cách thông minh để tìm chi tiết sự kiện và tự động thêm các cuộc hẹn, lời nhắc hoặc thời hạn vào lịch kỹ thuật số của người dùng.
- Phân tích Cạnh tranh: Phát triển các công cụ cho doanh nghiệp có thể theo dõi các trang web của đối thủ cạnh tranh để biết thay đổi về giá, cập nhật sản phẩm hoặc các hoạt động khuyến mại.
- Tổng hợp Thông tin Cá nhân hóa: Tạo ra các agent lùng sục trên web để tìm tin tức, bài báo hoặc tài liệu nghiên cứu liên quan đến sở thích cụ thể hoặc lĩnh vực chuyên môn của người dùng, tổng hợp thông tin một cách hiệu quả.
Bằng cách cung cấp SDK, Amazon về cơ bản đang mời các nhà phát triển đổi mới dựa trên Nova Act, có khả năng dẫn đến sự gia tăng của các AI agent dựa trên trình duyệt được thiết kế cho vô số ứng dụng thích hợp trong các ngành khác nhau. Cách tiếp cận này không chỉ đẩy nhanh việc khám phá tiềm năng của Nova Act mà còn giúp củng cố vị thế của Amazon trong bối cảnh AI cạnh tranh bằng cách xây dựng một cộng đồng xung quanh công nghệ của mình.
Nguồn gốc: Amazon AGI SF Lab
Trung tâm phát triển đứng sau mô hình Nova Act là Amazon AGI SF Lab, có vị trí chiến lược tại San Francisco, California. Phòng thí nghiệm này đại diện cho một nỗ lực tập trung của Amazon nhằm quy tụ những tài năng hàng đầu trong lĩnh vực trí tuệ nhân tạo. Nhiệm vụ rõ ràng của nó là tập hợp các chuyên gia và kỹ sư AI hàng đầu với mục tiêu duy nhất là tạo ra các mô hình AI nền tảng, tiên tiến nhất.
Ban lãnh đạo của AGI SF Lab nói lên rất nhiều điều về cam kết của Amazon. Nó được điều hành bởi những nhân vật nổi bật trước đây đã giữ các vai trò quan trọng tại OpenAI, cụ thể là David Luan và Pieter Abbeel. Chuyên môn của họ, được mài giũa tại một trong những tổ chức nghiên cứu AI hàng đầu thế giới, báo hiệu ý định của Amazon trong việc cạnh tranh ở cấp độ cao nhất trong việc phát triển các khả năng trí tuệ nhân tạo tổng quát tiên tiến. Việc thành lập phòng thí nghiệm chuyên dụng này, với đội ngũ nhân viên là những người kỳ cựu trong ngành, nhấn mạnh rằng Nova Act không phải là một dự án biệt lập mà là một phần của một nỗ lực rộng lớn hơn, được tài trợ tốt và có ý nghĩa chiến lược quan trọng của Amazon vào tương lai của AI.
Khoản đầu tư lớn này phản ánh hành động của hầu hết mọi gã khổng lồ công nghệ lớn khác. Cuộc đua phát triển và triển khai AI vượt trội đang diễn ra sôi nổi, được coi là nền tảng cho sự tăng trưởng, hiệu quả và lợi thế cạnh tranh trong tương lai trên các lĩnh vực đa dạng. Nova Act, lần đầu tiên được công bố về mặt khái niệm vào cuối năm ngoái như một phần trong danh mục mô hình AI ngày càng tăng của Amazon, giờ đây đang thể hiện như một nền tảng hữu hình, chứng minh sự tiến bộ đang được thực hiện trong các đơn vị chuyên biệt như AGI SF Lab.
Điều hướng Lĩnh vực Đông đúc: Sự trỗi dậy của các Agent Tự trị
Nova Act của Amazon không tham gia thị trường trong một khoảng trống. Nó gia nhập một lĩnh vực đang mở rộng nhanh chóng của các AI agent được thiết kế để hoạt động tự trị hoặc bán tự trị, đặc biệt là liên quan đến tương tác web. Thông báo này theo sát các sáng kiến từ các đối thủ cạnh tranh. Đáng chú ý, chính công ty dẫn đầu về AI là OpenAI đã ra mắt Operator vào tháng 1 – được mô tả là một chatbot tự trị cũng sở hữu khả năng duyệt web mà không cần sự giám sát liên tục của con người.
Xu hướng hướng tới các agent có thể độc lập điều hướng và tương tác với thế giới kỹ thuật số biểu thị một sự tiến hóa lớn trong ứng dụng AI. Các chatbot ban đầu chủ yếu là các giao diện đàm thoại, giới hạn trong việc xử lý thông tin được cung cấp cho chúng hoặc truy xuất dữ liệu thông qua các API hạn chế. Các agent như Nova Act và Operator đại diện cho một bước chuyển hướng tới AI có thể hành động trong cùng môi trường mà con người sử dụng hàng ngày – các trình duyệt web truy cập vào thông tin và chức năng rộng lớn, phi cấu trúc của internet.
Khả năng này mở ra những khả năng to lớn cho tự động hóa và hiệu quả nhưng cũng đặt ra những câu hỏi quan trọng. Làm thế nào các agent này sẽ xử lý các trang web phức tạp, năng động? Điều gì xảy ra khi chúng gặp phải lỗi không mong muốn hoặc lời nhắc bảo mật? Làm thế nào người dùng có thể đảm bảo các agent đang hành động vì lợi ích tốt nhất của họ, đặc biệt là khi liên quan đến các giao dịch tài chính? Việc phát triển các cơ chế kiểm soát mạnh mẽ, nhật ký hoạt động minh bạch và các giao thức bảo mật đáng tin cậy sẽ là tối quan trọng khi các công nghệ này trưởng thành. Cuộc cạnh tranh giữa Amazon, OpenAI, Google, Microsoft và những công ty khác trong không gian này có khả năng sẽ thúc đẩy sự đổi mới, đẩy xa hơn giới hạn của những gì các agent tự trị có thể đạt được, đồng thời buộc ngành công nghiệp phải đối mặt với những thách thức liên quan. Đặc biệt, việc phát triển Nova Act SDK có thể được coi là chiến lược của Amazon nhằm tạo sự khác biệt bằng cách cho phép tạo ra agent tùy chỉnh, thay vì chỉ cung cấp một agent duy nhất, nguyên khối.