Nova Act của Amazon: Thách thức AI Tự động hóa Web | vi

Trí tuệ nhân tạo đã vượt xa khỏi lĩnh vực khoa học viễn tưởng và đi vào cấu trúc cuộc sống số hàng ngày của chúng ta. Trong nhiều năm, sự chú ý tập trung vào các mô hình tạo sinh – những thuật toán có khả năng tạo ra văn bản giống con người đáng kinh ngạc hoặc những hình ảnh phức tạp đến choáng ngợp. Tuy nhiên, làn sóng công nghệ đang chuyển hướng sang một ứng dụng mới, thậm chí có thể mang tính chuyển đổi hơn: các agent AI được thiết kế không chỉ để tạo ra, mà còn để hành động. Trọng tâm đang chuyển từ tạo sinh thụ động sang thực thi chủ động, trao quyền cho phần mềm điều hướng sự phức tạp của web và thực hiện các tác vụ một cách tự chủ thay mặt người dùng. Lĩnh vực đang phát triển mạnh mẽ này đại diện cho một bước nhảy vọt đáng kể, hứa hẹn mức độ tiện lợi và hiệu quả chưa từng có, và các gã khổng lồ công nghệ đang tranh giành để khẳng định vị thế của mình. Giữa hoạt động sôi nổi này, Amazon đã tham gia cuộc chơi với một sáng kiến mới đáng chú ý.

Mặc dù công nghệ nền tảng đã âm ỉ trong các phòng thí nghiệm nghiên cứu trong nhiều thập kỷ, kỷ nguyên hậu đại dịch đã chứng kiến sự bùng nổ về mối quan tâm và phát triển, đặc biệt là trong các ứng dụng hướng tới người dùng. Gần như mọi công ty công nghệ lớn hiện đang thể hiện năng lực của mình, tiết lộ các mô hình AI được thiết kế để hợp lý hóa quy trình làm việc, nâng cao năng suất hoặc đơn giản là làm cho các tương tác kỹ thuật số hàng ngày trở nên mượt mà hơn. Amazon, một công ty được xây dựng dựa trên việc tối ưu hóa các hoạt động hậu cần và kỹ thuật số phức tạp, tự nhiên là một người chơi chính trong bối cảnh đang phát triển này. Tuy nhiên, bước đột phá mới nhất của họ không chỉ là một phiên bản lặp lại của các mô hình hiện có; đó là một cú hích trực tiếp vào lĩnh vực đầy thách thức của tự động hóa tác vụ dựa trên web.

Amazon nhập cuộc: Sáng kiến Nova Act

Đóng góp của Amazon cho làn sóng mới này được thể hiện qua Nova Act. Đây không chỉ đơn thuần là một chatbot hay trình tạo hình ảnh khác; đó là một công nghệ nền tảng được hình thành để trao quyền cho các nhà phát triển. Mục tiêu cốt lõi của Nova Act là cung cấp các khối xây dựng để tạo ra các agent AI tinh vi có thể hoạt động độc lập trong môi trường trình duyệt web. Hãy tưởng tượng một trợ lý có khả năng hiểu một yêu cầu gồm nhiều bước và sau đó thực hiện nó trên các trang web khác nhau mà không cần sự can thiệp liên tục của con người.

Một ví dụ minh họa đã cho thấy tiềm năng: hướng dẫn một agent xác định các căn hộ có sẵn nằm trong bán kính đạp xe hợp lý từ một ga tàu cụ thể. Nhiệm vụ này, tưởng chừng đơn giản đối với con người, lại liên quan đến một chuỗi phức tạp đối với AI: hiểu các ràng buộc địa lý, điều hướng các trang web danh sách căn hộ, lọc kết quả dựa trên tiêu chí vị trí (có khả năng diễn giải dữ liệu bản đồ), trích xuất thông tin liên quan như tình trạng còn trống và giá cả, và trình bày các phát hiện một cách mạch lạc. Nova Act nhằm mục đích trang bị cho các nhà phát triển các công cụ để xây dựng các agent có khả năng thực hiện chính xác loại hoạt động phức tạp, đa giai đoạn này.

Tầm quan trọng của việc ra mắt Nova Act ban đầu như một công cụ dành cho các nhà phát triển là không thể phủ nhận. Nó gợi ý một cách tiếp cận chiến lược tập trung vào việc xây dựng một hệ sinh thái mạnh mẽ. Bằng cách trao quyền cho những người sáng tạo bên thứ ba, Amazon có thể thúc đẩy sự đổi mới và khám phá một loạt các ứng dụng rộng lớn hơn so với việc chỉ phát triển nội bộ. Chiến lược này cũng cho phép thu thập phản hồi có giá trị và tinh chỉnh công nghệ dựa trên những thách thức triển khai trong thế giới thực trước khi tung ra thị trường rộng rãi hơn cho người tiêu dùng.

Chiến trường đông đúc: Các Agent đối thủ xuất hiện

Khi sự quan tâm đến các agent AI vượt qua khả năng xuất văn bản hoặc hình ảnh đơn giản tăng vọt, bối cảnh cạnh tranh ngày càng trở nên dày đặc. Sức hấp dẫn của các agent tự chủ có khả năng thực hiện các hoạt động phức tạp mà không cần sự giám sát trực tiếp của con người đang tỏ ra không thể cưỡng lại, và Amazon không hề đơn độc trong việc nhận ra tiềm năng này. Một số đối thủ đáng gờm đã và đang tranh giành vị trí thống trị trong không gian này.

OpenAI, từ lâu đã được coi là tiên phong trong nghiên cứu và phát triển AI, đặc biệt là sau sự ra mắt gây sốt của ChatGPT, đã có những bước tiến đáng kể. Được hỗ trợ bởi khoản đầu tư đáng kể từ Microsoft, OpenAI đã tiết lộ kế hoạch cho một tính năng dự kiến có tên là ‘Operator’ vào đầu năm nay. Các mô tả vẽ nên một bức tranh về một agent được thiết kế để xử lý các tác vụ như lập kế hoạch du lịch phức tạp, tự động điền biểu mẫu, đảm bảo đặt chỗ nhà hàng và thậm chí quản lý đơn đặt hàng tạp hóa trực tuyến. Công ty đã định khung rõ ràng khả năng này như một agent tận dụng web để hoàn thành mục tiêu của người dùng, đánh dấu một bước chuyển chiến lược rõ ràng hướng tới AI định hướng hành động.

Tuy nhiên, dòng thời gian tiết lộ một câu chuyện phức tạp hơn. Anthropic, một công ty khởi nghiệp AI với lý lịch hấp dẫn – được thành lập bởi các nhà nghiên cứu cũ của OpenAI và đặc biệt được hỗ trợ bởi khoản đầu tư đáng kể từ chính Amazon – đã giới thiệu một khái niệm tương tự thậm chí còn sớm hơn. Vào tháng 10 năm trước, Anthropic đã ra mắt công cụ ‘Computer Use’ của mình. Công nghệ này được thiết kế đặc biệt để cho phép các mô hình AI tương tác trực tiếp với giao diện người dùng đồ họa của máy tính. Điều này bao gồm mô phỏng các cú nhấp chuột vào nút, nhập văn bản vào các trường, điều hướng các trang web đa dạng và thực hiện các tác vụ trong các ứng dụng phần mềm khác nhau, tất cả trong khi truy cập động dữ liệu internet thời gian thực. Sự trùng lặp về chức năng với ‘Operator’ được đề xuất của OpenAI là rất đáng chú ý, làm nổi bật sự phát triển song song mạnh mẽ đang diễn ra trong ngành. Mối liên hệ Amazon-Anthropic bổ sung thêm một lớp hấp dẫn khác, gợi ý về sức mạnh tổng hợp tiềm năng hoặc thậm chí là cạnh tranh nội bộ trong chiến lược AI rộng lớn hơn của Amazon.

OpenAI đã không ngủ quên trên chiến thắng kể từ những thông báo ban đầu. Họ đã tiếp nối bằng các bản cập nhật, bao gồm cả việc giới thiệu ‘Deep Research’ ngay sau tiết lộ của Anthropic. Công cụ này trao quyền cho một agent AI thực hiện các nhiệm vụ nghiên cứu phức tạp, biên soạn các báo cáo chi tiết và thực hiện các phân tích chuyên sâu về các chủ đề do người dùng chỉ định, tiếp tục chứng minh sự thúc đẩy hướng tới các tác vụ tinh vi, dựa trên tri thức.

Không chịu lép vế, Google, một cường quốc về lập chỉ mục web và phân tích dữ liệu, cũng tham gia cuộc cạnh tranh. Tháng 12 năm ngoái, Google đã ra mắt công cụ tương đương của riêng mình, được định vị là một ‘trợ lý nghiên cứu’ mạnh mẽ. Agent này nhằm mục đích hỗ trợ người dùng bằng cách đi sâu vào các chủ đề phức tạp, khám phá thông tin trên web và tổng hợp các phát hiện thành các báo cáo toàn diện, phản ánh các khả năng được các đối thủ cạnh tranh chào hàng.

Với những đối thủ nặng ký như vậy triển khai các công nghệ tương tự, người chiến thắng cuối cùng còn lâu mới chắc chắn. Thành công có thể sẽ phụ thuộc vào sự hội tụ của nhiều yếu tố: chiều sâu tài trợ sẵn có cho nghiên cứu và phát triển bền vững, tốc độ và chất lượng của những tiến bộ công nghệ, thiết kế trực quan của giao diện người dùng, và quan trọng là khả năng vượt qua những thách thức cố hữu đang gây khó khăn cho các mô hình AI hiện tại – đặc biệt là những khó khăn đôi khi của chúng trong việc diễn giải chính xác và tuân thủ nhất quán các hướng dẫn phức tạp hoặc tinh tế.

Giải mã Agent: Khả năng và Sự phức tạp

Để hiểu những agent AI mới nổi này thực sự làm gì đòi hỏi phải nhìn xa hơn các lệnh đơn giản. Tiềm năng của chúng nằm ở việc thực hiện các hoạt động đa bước bắt chước sự tương tác của con người với các giao diện kỹ thuật số. Điều này liên quan đến một số khả năng chính:

Điều hướng và Tương tác Web: Các agent phải có khả năng ‘nhìn thấy’ và diễn giải cấu trúc của một trang web – xác định các trường văn bản, nút, menu thả xuống, liên kết và các yếu tố tương tác khác. Chúng cần mô phỏng các hành động như nhấp chuột, gõ phím, cuộn và chọn các tùy chọn.
Hiểu biết Ngữ cảnh: Chỉ tương tác thôi là chưa đủ. Agent cần hiểu mục đích của hành động của mình trong bối cảnh rộng hơn của nhiệm vụ. Việc điền vào trường ‘thành phố khởi hành’ đòi hỏi phải hiểu rằng nó liên quan đến việc lập kế hoạch du lịch, chứ không phải mua sắm trực tuyến.
Trích xuất Thông tin: Các agent cần xác định và trích xuất các mẩu dữ liệu cụ thể từ các trang web – giá cả, thời gian bay, địa chỉ, tình trạng còn hàng – và lưu trữ hoặc xử lý thông tin này một cách có ý nghĩa.
Hoạt động Đa nền tảng: Nhiều tác vụ liên quan đến việc tương tác với nhiều trang web hoặc thậm chí các loại ứng dụng khác nhau (ví dụ: kiểm tra email để lấy mã xác nhận trong khi đặt vé máy bay). Việc chuyển đổi liền mạch giữa các nền tảng này là rất quan trọng.
Giải quyết Vấn đề và Thích ứng: Các trang web thay đổi thường xuyên. Các agent cần một mức độ linh hoạt nhất định để xử lý các biến thể trong bố cục hoặc các lỗi không mong muốn (ví dụ: một nút không phản hồi, một trang không tải được). Chúng có thể cần thử các phương pháp tiếp cận thay thế hoặc báo cáo lỗi một cách khéo léo.

Các trường hợp sử dụng tiềm năng trải rộng trên một phạm vi rộng lớn:

Năng suất Cá nhân: Quản lý các hành trình du lịch phức tạp (chuyến bay, khách sạn, thuê xe, hoạt động dựa trên sở thích), tự động thanh toán hóa đơn qua các cổng khác nhau, tổng hợp thông tin tài chính từ các tài khoản khác nhau, lên lịch các cuộc hẹn dựa trên tình trạng còn trống của lịch và các biểu mẫu cần thiết trước chuyến thăm.
Thương mại điện tử: So sánh giá giữa nhiều nhà cung cấp cho các sản phẩm cụ thể, theo dõi các mặt hàng hiếm hoặc hết hàng, quản lý quy trình trả hàng tự động.
Hoạt động Kinh doanh: Nghiên cứu thị trường tự động (thu thập giá của đối thủ cạnh tranh, đánh giá của khách hàng, xu hướng ngành), tạo khách hàng tiềm năng (xác định khách hàng tiềm năng dựa trên các tiêu chí cụ thể từ các thư mục trực tuyến), nhập và di chuyển dữ liệu giữa các hệ thống dựa trên web, tạo báo cáo định kỳ bằng cách tổng hợp dữ liệu từ các bảng điều khiển trực tuyến khác nhau.
Quản lý Nội dung: Tự động hóa quy trình đăng nội dung trên các nền tảng truyền thông xã hội khác nhau, cập nhật thông tin trang web một cách linh hoạt dựa trên các nguồn dữ liệu bên ngoài.

Sự phức tạp nằm ở việc làm cho các tương tác này đáng tin cậy, an toàn và thực sự tự chủ, giải phóng người dùng khỏi các công việc kỹ thuật số tẻ nhạt, lặp đi lặp lại.

Vượt qua Chướng ngại vật: Thách thức của Tự chủ Đáng tin cậy

Bất chấp lời hứa hẹn to lớn, con đường hướng tới các agent web thực sự tự chủ và đáng tin cậy đầy rẫy những thách thức. ‘Khó khăn trong việc tuân theo hướng dẫn’, thường được coi là một hạn chế của AI hiện tại, chỉ là phần nổi của tảng băng chìm. Một số trở ngại đáng kể phải được khắc phục:

Mơ hồ và Diễn giải: Ngôn ngữ của con người vốn dĩ mơ hồ. Một chỉ dẫn như ‘tìm cho tôi một chuyến bay giá rẻ đến Paris vào tháng tới’ đòi hỏi AI phải diễn giải ‘rẻ’ (so với cái gì?), ‘tháng tới’ (ngày cụ thể nào?), và có khả năng suy ra các sở thích về hãng hàng không, điểm dừng hoặc thời gian khởi hành. Diễn giải sai có thể dẫn đến các hành động hoàn toàn sai lầm.
Môi trường Web Động và Không nhất quán: Các trang web không tĩnh. Bố cục thay đổi, các yếu tố được đổi tên, quy trình làm việc được cập nhật. Một agent được đào tạo trên một phiên bản của trang web có thể thất bại hoàn toàn khi gặp giao diện được thiết kế lại. Sự mạnh mẽ chống lại những thay đổi như vậy là một thách thức kỹ thuật lớn.
Xử lý Lỗi và Phục hồi: Điều gì xảy ra khi một trang web ngừng hoạt động, đăng nhập thất bại hoặc một cửa sổ bật lên không mong muốn xuất hiện? Agent cần các cơ chế phát hiện và phục hồi lỗi tinh vi. Nó nên thử lại? Nó nên yêu cầu người dùng giúp đỡ? Nó nên từ bỏ nhiệm vụ? Việc xác định các giao thức này rất phức tạp.
Bảo mật và Quyền hạn: Việc cấp cho một agent AI quyền tự chủ để đăng nhập vào tài khoản, điền vào biểu mẫu bằng dữ liệu cá nhân và có khả năng mua hàng làm dấy lên những lo ngại đáng kể về bảo mật. Việc đảm bảo rằng agent hoạt động trong các ranh giới xác định, không thể dễ dàng bị chiếm quyền điều khiển và xử lý thông tin nhạy cảm một cách an toàn là điều tối quan trọng. Xây dựng lòng tin của người dùng là điều cần thiết.
Khả năng Mở rộng và Chi phí: Việc chạy các mô hình AI phức tạp có khả năng tương tác web thời gian thực có thể tốn kém về mặt tính toán. Việc làm cho các agent này có thể truy cập và giá cả phải chăng để sử dụng rộng rãi đòi hỏi phải tối ưu hóa liên tục cả thuật toán và cơ sở hạ tầng cơ bản.
Cân nhắc về Đạo đức: Khi các agent trở nên có năng lực hơn, các câu hỏi nảy sinh về khả năng lạm dụng chúng (ví dụ: tự động hóa thư rác, thu thập dữ liệu có bản quyền) và tác động đến việc làm trong các lĩnh vực phụ thuộc vào các tác vụ thủ công dựa trên web.

Quyết định của Amazon ban đầu ra mắt Nova Act dưới dạng bản xem trước nghiên cứu dành cho các nhà phát triển dường như là một chiến lược thận trọng trước những thách thức này. Cách tiếp cận này cho phép công ty thu thập phản hồi quan trọng từ những người dùng am hiểu về kỹ thuật, những người được trang bị tốt hơn để xác định lỗi, kiểm tra các trường hợp đặc biệt và đưa ra những lời phê bình mang tính xây dựng. Nó tạo ra một môi trường được kiểm soát để tinh chỉnh công nghệ, cải thiện khả năng tuân theo hướng dẫn và củng cố các biện pháp bảo mật trước khi đưa nó ra thị trường tiêu dùng nói chung, nơi có những yêu cầu khó đoán hơn và khả năng chịu lỗi thấp hơn. Cách tiếp cận lặp đi lặp lại, lấy nhà phát triển làm trung tâm này cho phép Amazon ‘sắp xếp mọi thứ’, giải quyết các vấn đề và xây dựng sự mạnh mẽ trước khi phát hành ra thị trường rộng lớn hơn.

Chiến lược Lớn của Amazon: Vượt ra ngoài Nova Act

Nova Act, mặc dù quan trọng, không nên được xem xét một cách cô lập. Nó đại diện cho một thành phần quan trọng trong chiến lược đầu tư rộng lớn hơn và đang tăng tốc nhanh chóng của Amazon vào AI tạo sinh và tự động hóa thông minh. Công ty đang đan xen AI vào chính cốt lõi hoạt động và các sản phẩm của mình thông qua một chiến lược đa hướng:

Cơ sở hạ tầng và Mô hình Nền tảng: Amazon đang phát triển silicon tùy chỉnh của riêng mình, chẳng hạn như chip Trainium, được thiết kế đặc biệt để tối ưu hóa việc đào tạo các mô hình AI quy mô lớn một cách hiệu quả và tiết kiệm chi phí. Hơn nữa, nền tảng Bedrock của họ đóng vai trò như một thị trường, cung cấp quyền truy cập không chỉ vào các mô hình nền tảng của chính Amazon (như Titan) mà còn vào các mô hình hàng đầu từ các công ty AI bên thứ ba (bao gồm cả Anthropic). Điều này định vị Amazon Web Services (AWS) là một trung tâm trung tâm cho phát triển AI.
AI Chuyên dụng cho Ứng dụng: Công ty đang triển khai AI để tăng cường các hoạt động kinh doanh hiện có của mình. Ví dụ bao gồm trợ lý mua sắm dựa trên AI được thiết kế để cá nhân hóa các đề xuất và cải thiện trải nghiệm khách hàng, và trợ lý sức khỏe dựa trên AI nhằm hợp lý hóa các tác vụ và truy cập thông tin liên quan đến chăm sóc sức khỏe.
Phát triển Sản phẩm Cốt lõi: Alexa, trợ lý giọng nói của Amazon ra mắt hơn một thập kỷ trước, đang trải qua một bản nâng cấp đáng kể được tích hợp các khả năng AI tạo sinh tiên tiến. Điều này nhằm mục đích làm cho các tương tác trở nên đàm thoại hơn, nhận biết ngữ cảnh hơn và có khả năng xử lý các yêu cầu phức tạp hơn, có khả năng tích hợp liền mạch với các agent được xây dựng bằng các công nghệ như Nova Act.

Trong bối cảnh này, Nova Act hoạt động như một cầu nối quan trọng. Nó tận dụng các mô hình nền tảng có sẵn thông qua Bedrock (có khả năng chạy trên phần cứng được tối ưu hóa như Trainium) và cung cấp khả năng cụ thể để các mô hình này hành động trong môi trường web. Khả năng định hướng hành động này có thể tăng cường đáng kể chức năng của Alexa, cung cấp năng lượng cho các tính năng mới tinh vi trong nền tảng thương mại điện tử của mình hoặc cho phép các dịch vụ hoàn toàn mới được cung cấp thông qua AWS. Đó là một mảnh ghép của một bức tranh lớn hơn nhằm tạo ra một hệ sinh thái nơi AI không chỉ hiểu và tạo ra mà còn thực hiện các tác vụ trên toàn cảnh kỹ thuật số, củng cố sự thống trị của Amazon trong điện toán đám mây và thương mại điện tử.

Mức độ Quan trọng: Định hình lại Bối cảnh Kỹ thuật số

Sự phát triển của các agent web AI có năng lực như những gì được hứa hẹn bởi Nova Act, Operator, Computer Use và các sáng kiến của Google đại diện cho nhiều hơn là chỉ một tiến bộ công nghệ gia tăng. Nó báo hiệu một sự thay đổi mô hình tiềm năng trong cách con người tương tác với thế giới kỹ thuật số. Nếu những agent này phát huy hết tiềm năng của chúng, những tác động có thể rất sâu sắc:

Định nghĩa lại Trải nghiệm Người dùng: Các quy trình trực tuyến tẻ nhạt, nhiều bước có thể trở nên dễ dàng. Thay vì điều hướng thủ công nhiều trang web để đặt vé du lịch hoặc nghiên cứu sản phẩm, người dùng chỉ cần nêu mục tiêu của họ và để agent xử lý việc thực hiện. Điều này có thể thay đổi cơ bản những kỳ vọng về sự tiện lợi kỹ thuật số.
Gián đoạn Ngành: Các lĩnh vực phụ thuộc nhiều vào các tác vụ thủ công dựa trên web hoặc hoạt động như các trung gian có thể phải đối mặt với sự gián đoạn đáng kể. Các đại lý du lịch, các công ty nghiên cứu thị trường dựa vào việc thu thập dữ liệu thủ công, các dịch vụ trợ lý ảo thực hiện các tác vụ hành chính thông thường – tất cả có thể cần phải thích ứng khi các agent AI tự động hóa các chức năng cốt lõi.
Gia tăng Năng suất: Cả cá nhân và doanh nghiệp đều có thể khai thác được những lợi ích đáng kể về năng suất bằng cách giao phó các công việc kỹ thuật số lặp đi lặp lại cho các agent AI. Điều này có thể giải phóng nỗ lực của con người cho công việc phức tạp, sáng tạo hoặc chiến lược hơn.
Mô hình Kinh doanh Mới: Khả năng tự động hóa các tương tác web phức tạp có thể tạo ra các dịch vụ và mô hình kinh doanh hoàn toàn mới được xây dựng xung quanh tự động hóa siêu cá nhân hóa, tổng hợp dữ liệu tinh vi và hỗ trợ kỹ thuật số chủ động.
Khả năng Tiếp cận: Đối với những người khuyết tật nhất định, các agent AI có thể cung cấp sự hỗ trợ vô giá trong việc điều hướng các giao diện web phức tạp, tăng cường sự hòa nhập kỹ thuật số.

Tuy nhiên, việc hiện thực hóa tương lai này đòi hỏi phải vượt qua những rào cản kỹ thuật và đạo đức đáng kể đã được thảo luận trước đó. Cuộc đua giữa Amazon, OpenAI, Anthropic, Google và có thể cả những người chơi khác không chỉ là về quyền khoe khoang công nghệ; đó là về việc xác định các tiêu chuẩn, xây dựng lòng tin và cuối cùng là định hình tương lai của tương tác web. Công ty kết hợp thành công các khả năng mạnh mẽ với độ tin cậy, bảo mật và trải nghiệm người dùng trực quan sẽ có được lợi thế chiến lược đáng kể trong kỷ nguyên tiếp theo của trí tuệ nhân tạo. Nova Act của Amazon là một tín hiệu rõ ràng rằng gã khổng lồ thương mại điện tử và đám mây dự định trở thành một người chơi trung tâm trong việc viết nên chương tiếp theo đó.

cập nhật lúc 2025-04-07

# Agent # Amazon # Nova