Amazon ra mắt Nova Act: AI Agent thay đổi tương tác trình duyệt

Bối cảnh trí tuệ nhân tạo đang thay đổi nhanh chóng. Vượt ra ngoài lãnh thổ quen thuộc của các chatbot tạo văn bản hay các nghệ sĩ tạo ra hình ảnh, một biên giới mới đang mở ra: các AI agent (tác nhân AI) được thiết kế không chỉ để phản hồi mà còn để hành động. Những trợ lý kỹ thuật số này hứa hẹn sẽ nhận chỉ thị và thực hiện các tác vụ nhiều bước trực tiếp trong môi trường kỹ thuật số của chúng ta. Tham gia vào lĩnh vực đang phát triển mạnh mẽ này với tham vọng đáng kể là Amazon, công bố Nova Act, một mô hình AI tinh vi được thiết kế để hoạt động trong trình duyệt web của bạn, có khả năng biến đổi mọi thứ từ mua sắm trực tuyến đến các quy trình công việc kỹ thuật số phức tạp. Mặc dù ban đầu chỉ có sẵn trong bản ‘xem trước nghiên cứu’ có kiểm soát dành cho các nhà phát triển, sự xuất hiện của nó báo hiệu ý định nghiêm túc của Amazon trong không gian AI agent, được bổ sung bằng các động thái làm cho bộ mô hình Nova AI rộng lớn hơn của họ trở nên dễ tiếp cận hơn bao giờ hết.

Tiết lộ Nova Act: Trợ lý AI cho trình duyệt của bạn

Nova Act đại diện cho một bước tiến đáng kể trong nỗ lực AI của Amazon. Nó không chỉ đơn thuần là một mô hình ngôn ngữ khác; nó được hình thành như một tác nhân định hướng hành động. Điều này có nghĩa gì trong thực tế? Amazon hình dung Nova Act thực hiện nhiều tác vụ khác nhau trực tiếp trong giao diện trình duyệt mà người dùng tương tác hàng ngày.

Năng lực cốt lõi và ứng dụng tiềm năng:

  • Điều hướng và tìm kiếm web thông minh: Vượt xa các tìm kiếm từ khóa đơn giản, Nova Act được thiết kế để hiểu ngữ cảnh và ý định, điều hướng các trang web và thu thập thông tin hiệu quả hơn. Hãy tưởng tượng bạn yêu cầu nó tìm đánh giá cho một loại sản phẩm cụ thể trên nhiều trang web bán lẻ và tóm tắt ưu nhược điểm.
  • Mua hàng trực tuyến tự động: Đây có lẽ là tính năng thu hút sự chú ý nhất. Nova Act nhằm mục đích xử lý toàn bộ quy trình mua hàng dựa trên hướng dẫn của người dùng. Điều này có thể bao gồm từ việc thêm một mặt hàng cụ thể vào giỏ hàng và thanh toán, đến việc so sánh giá cho một mặt hàng trên các nhà cung cấp khác nhau trước khi mua hàng.
  • Nhận thức theo ngữ cảnh: Tác nhân được thiết kế để hiểu nội dung hiện đang hiển thị trên màn hình. Điều này cho phép người dùng đặt câu hỏi về những gì họ đang thấy hoặc hướng dẫn tác nhân tương tác với các yếu tố cụ thể trên trang web mà không cần phải hướng dẫn thủ công từng bước. Ví dụ, người dùng có thể hỏi, ‘Chi tiết chính sách đổi trả trên trang này là gì?’ hoặc ‘Nhấp vào nút ‘áp dụng phiếu giảm giá’.’
  • Thực thi tác vụ theo lịch trình: Nova Act giới thiệu khả năng thực hiện các hành động vào một thời điểm được xác định trước. Điều này mở ra các khả năng như đặt nó kiểm tra giá giảm cho một mặt hàng mong muốn vào mỗi buổi sáng hoặc tự động đặt một dịch vụ định kỳ trực tuyến.
  • Hiểu các chỉ thị phức tạp: Quan trọng là, Amazon nhấn mạnh khả năng của Nova Act trong việc phân tích các lệnh phức tạp. Ví dụ được cung cấp – yêu cầu nó ‘không chấp nhận bán thêm bảo hiểm’ trong quá trình mua hàng – cho thấy mức độ hiểu biết vượt ra ngoài các trình kích hoạt hành động đơn giản. Điều này gợi ý rằng tác nhân có thể tuân theo các ràng buộc và sở thích, làm cho hành động của nó phù hợp hơn với ý định của người dùng và có khả năng tránh các kết quả không mong muốn. Nó ngụ ý khả năng logic có điều kiện và tuân thủ các ràng buộc phủ định, một bước nhảy vọt đáng kể trong trí thông minh của tác nhân.

Giai đoạn ‘Xem trước Nghiên cứu’:

Hiện tại, Nova Act chưa có sẵn cho công chúng sử dụng. Việc phát hành nó được chỉ định là ‘xem trước nghiên cứu’, chủ yếu nhắm vào cộng đồng nhà phát triển. Việc triển khai có kiểm soát này phục vụ nhiều mục đích:

  1. Thử nghiệm và Tinh chỉnh: Nó cho phép Amazon thu thập dữ liệu sử dụng thực tế và phản hồi từ những người dùng có trình độ kỹ thuật, những người có thể xác định lỗi, hạn chế và các lĩnh vực cần cải thiện.
  2. Khám phá các trường hợp sử dụng: Các nhà phát triển có thể thử nghiệm với các khả năng của Nova Act, có khả năng khám phá các ứng dụng mới lạ mà chính Amazon chưa hình dung ra.
  3. Môi trường được kiểm soát: Việc phát hành một tác nhân mạnh mẽ có khả năng thực hiện các hành động như mua hàng mang những rủi ro cố hữu. Giai đoạn xem trước cho phép Amazon quản lý những rủi ro này và đảm bảo các giao thức an toàn đủ mạnh trước khi triển khai rộng rãi hơn.

Mặc dù tính khả dụng ban đầu còn hạn chế, Amazon đã chỉ ra rằng công nghệ của Nova Act không hoàn toàn là thử nghiệm. Các yếu tố về khả năng của nó đã được tích hợp vào trợ lý Alexa Plus nâng cấp, gợi ý một con đường để công nghệ này cuối cùng tiếp cận người tiêu dùng thông qua các giao diện quen thuộc, có khả năng nâng cao khả năng tương tác của Alexa với web thay mặt người dùng.

Trung tâm điều khiển: Amazon AGI Labs và hành trình tự động hóa tác vụ

Nova Act nổi lên như sản phẩm đầu tiên từ một bộ phận chuyên trách trong Amazon: Artificial General Intelligence (AGI) Labs. Chính cái tên của phòng thí nghiệm này đã báo hiệu khát vọng dài hạn của Amazon, hướng tới các hệ thống AI với khả năng nhận thức tổng quát hơn, giống con người hơn. Mặc dù AGI thực sự vẫn là một mục tiêu xa vời, có lẽ là lý thuyết, trọng tâm trước mắt của phòng thí nghiệm rõ ràng là phát triển các AI agent có năng lực cao.

Tầm nhìn lớn:

AGI Labs trình bày một ‘giấc mơ’ hấp dẫn cho các tác nhân của mình: trao quyền cho chúng để ‘thực hiện các tác vụ phức tạp, đa bước, trên phạm vi rộng’. Các ví dụ được cung cấp cho thấy một cái nhìn thoáng qua về tham vọng này:

  • Tổ chức đám cưới: Điều này ngụ ý một tác nhân có khả năng quản lý ngân sách, nghiên cứu nhà cung cấp, điều phối lịch trình, gửi lời mời, theo dõi RSVP và xử lý vô số chi tiết khác liên quan đến việc lập kế hoạch sự kiện phức tạp. Nó gợi ý sự cần thiết của bộ nhớ dài hạn, khả năng lập kế hoạch và tương tác với các dịch vụ bên ngoài đa dạng.
  • Xử lý các tác vụ IT phức tạp: Điều này hướng tới các ứng dụng doanh nghiệp, nơi một tác nhân có thể tự động hóa các quy trình phức tạp như triển khai phần mềm, cấu hình hệ thống, khắc phục sự cố mạng hoặc quản lý tài nguyên đám mây, do đó tăng đáng kể năng suất kinh doanh.

Những ví dụ này nhấn mạnh một tầm nhìn vượt xa tự động hóa trình duyệt đơn giản. Chúng vẽ nên một bức tranh về các trợ lý AI được tích hợp sâu vào cả cuộc sống cá nhân và nghề nghiệp, có khả năng quản lý các dự án và quy trình công việc phức tạp hiện đang đòi hỏi nỗ lực và sự phối hợp đáng kể của con người.

Bối cảnh cạnh tranh: Cuộc đua giành quyền tối cao của Agent:

Amazon chắc chắn không đơn độc trong việc theo đuổi tầm nhìn này. Việc phát triển các AI agent tinh vi đang nhanh chóng trở thành một chiến trường quan trọng đối với các công ty công nghệ lớn.

  • Operator của OpenAI: Sự so sánh với tác nhân ‘Operator’ ý tưởng của OpenAI (mặc dù chi tiết vẫn còn khan hiếm) làm nổi bật các hướng đi song song mà các đối thủ cạnh tranh đang thực hiện. OpenAI, được thúc đẩy bởi thành công với ChatGPT, được kỳ vọng rộng rãi sẽ đẩy mạnh vào không gian agent.
  • Google, Meta và những người khác: Mặc dù có lẽ ít được quảng bá rõ ràng hơn, các nỗ lực đang được tiến hành trên toàn ngành để trang bị cho các trợ lý AI (như Google Assistant hoặc các dự án Meta tiềm năng trong tương lai) khả năng tự chủ và hoàn thành nhiệm vụ cao hơn.
  • Các công ty khởi nghiệp: Một hệ sinh thái sôi động của các công ty khởi nghiệp cũng đang tập trung đặc biệt vào việc xâydựng các AI agent cho các thị trường ngách khác nhau, từ năng suất cá nhân đến các chức năng kinh doanh chuyên biệt.

Động lực đằng sau cuộc cạnh tranh khốc liệt này là niềm tin rằng người dùng và doanh nghiệp sẽ đánh giá cao – và trả tiền cho – AI có thể làm việc thay vì chỉ cung cấp thông tin hoặc tạo nội dung. Thị trường tiềm năng cho các AI agent đáng tin cậy, hiệu quả có thể tiết kiệm thời gian, giảm lỗi và tự động hóa các tác vụ tẻ nhạt là rất lớn. Tuy nhiên, việc xây dựng các tác nhân như vậy đặt ra những thách thức đáng kể, bao gồm đảm bảo độ tin cậy, xử lý các thay đổi trang web không mong muốn, duy trì bảo mật, bảo vệ quyền riêng tư của người dùng và quản lý niềm tin của người dùng khi trao cho AI quyền hành động thay mặt họ.

Vượt ra ngoài hành động: Gia đình Nova AI rộng lớn hơn

Nova Act không tồn tại một cách cô lập. Đây là sự bổ sung mới nhất cho bộ mô hình AI Nova của Amazon, lần đầu tiên được giới thiệu vào tháng 12 năm 2024. Gia đình này bao gồm một loạt các khả năng được thiết kế để cung cấp một bộ công cụ AI toàn diện.

Các mô hình Nova hiện có:

Bên cạnh Act định hướng hành động, bộ này bao gồm năm mô hình khác:

  1. Mô hình hiểu biết (Bộ ba): Những mô hình này có khả năng tập trung vào xử lý ngôn ngữ tự nhiên, hiểu văn bản, tóm tắt, phân tích tình cảm và các tác vụ khác đòi hỏi sự nắm bắt sâu sắc về ngôn ngữ. Việc có một bộ ba gợi ý các kích thước hoặc chuyên môn khác nhau, có lẽ được tối ưu hóa cho các cân bằng khác nhau về tốc độ, chi phí và khả năng.
  2. Mô hình tạo ảnh: Cạnh tranh trong không gian bị chiếm giữ bởi Midjourney, DALL-E và Stable Diffusion, mô hình này tập trung vào việc tạo hình ảnh từ các lời nhắc văn bản.
  3. Mô hình tạo video: Một lĩnh vực mới nổi của phát triển AI, mô hình này nhằm mục đích tạo nội dung video dựa trên mô tả hoặc hướng dẫn.

Định vị chiến lược: Tốc độ và Giá trị hơn là Sức mạnh thô?

Điều thú vị là, thông điệp công khai của Amazon xung quanh bộ Nova luôn nhấn mạnh tốc độ và giá trị thay vì tuyên bố ưu thế hoàn toàn về hiệu suất thô hoặc điểm chuẩn so với các đối thủ hàng đầu như mô hình GPT-4 của OpenAI hoặc Claude của Anthropic. Amazon tuyên bố rõ ràng rằng các mô hình Nova của họ ‘rẻ hơn ít nhất 75 phần trăm’ so với các lựa chọn thay thế tương đương.

Định vị chiến lược này gợi ý một số điều:

  • Nhắm mục tiêu phân khúc thị trường cụ thể: Amazon có thể đang nhắm đến các nhà phát triển và doanh nghiệp cần AI có năng lực nhưng rất nhạy cảm về chi phí. Đối với nhiều ứng dụng, hiệu suất ‘đủ tốt’ với mức giá thấp hơn đáng kể hấp dẫn hơn so với các khả năng tiên tiến nhất với chi phí cao.
  • Tận dụng cơ sở hạ tầng AWS: Chuyên môn sâu của Amazon về cơ sở hạ tầng đám mây (AWS) cho phép họ tối ưu hóa việc lưu trữ và suy luận mô hình để đạt hiệu quả, có khả năng cho phép định giá thấp hơn.
  • Dân chủ hóa quyền truy cập AI: Bằng cách làm cho AI có năng lực trở nên hợp lý hơn, Amazon có thể khuyến khích việc áp dụng rộng rãi hơn, đặc biệt là trong số các doanh nghiệp nhỏ hơn, các công ty khởi nghiệp và các nhà phát triển cá nhân có thể bị loại khỏi việc sử dụng các mô hình đắt tiền nhất.
  • Tập trung vào ứng dụng thực tế: Việc nhấn mạnh vào tốc độ gợi ý sự tối ưu hóa cho các ứng dụng thời gian thực hoặc gần thời gian thực nơi độ trễ thấp là rất quan trọng, có khả năng bao gồm các tác nhân tương tác như Nova Act hoặc các cải tiến cho các dịch vụ như Alexa.

Mặc dù không nhất thiết phải từ bỏ hoàn toàn vị thế hiệu suất cao, Amazon dường như đang tạo ra một thị trường ngách riêng biệt tập trung vào các giải pháp AI thực tế, tiết kiệm chi phí được tích hợp chặt chẽ trong hệ sinh thái đám mây của mình.

Mở rộng cánh cửa: Truy cập nâng cao qua cổng thông tin mới

Trong lịch sử, việc truy cập các mô hình AI độc quyền của Amazon như Nova chủ yếu yêu cầu điều hướng Amazon Bedrock. Bedrock là một nền tảng mạnh mẽ trong Amazon Web Services (AWS) đóng vai trò là trung tâm cho các mô hình nền tảng khác nhau. Nó không chỉ cung cấp bộ Nova của riêng Amazon mà còn cung cấp quyền truy cập vào các mô hình hàng đầu của bên thứ ba từ các công ty như Anthropic (Claude), Meta (Llama), DeepSeek, Cohere và Stability AI. Bedrock được thiết kế cho các nhà phát triển xây dựng và mở rộng quy mô các ứng dụng AI trong môi trường AWS mạnh mẽ, an toàn và có thể mở rộng.

Tuy nhiên, việc chỉ dựa vào Bedrock đã tạo ra một rào cản tiềm năng cho những người chỉ đơn giản muốn thử nghiệm hoặc nhanh chóng kiểm tra khả năng của các mô hình Nova mà không cần thiết lập một môi trường AWS đầy đủ. Nhận thức được điều này, Amazon hiện đã ra mắt một cổng thông tin web chuyên dụng đặc biệt để tương tác với các mô hình Nova.

Tính năng và Mục đích của Cổng thông tin mới:

  • Tương tác trực tiếp: Người dùng ở Mỹ hiện có thể truy cập trực tiếp các mô hình Nova thông qua trang web này.
  • Truy vấn và Tạo nội dung: Cổng thông tin cho phép người dùng gửi truy vấn đến các mô hình hiểu biết hoặc sử dụng các mô hình tạo sinh để tạo văn bản, hình ảnh hoặc có khả năng là nội dung video (tùy thuộc vào mô hình nào được hiển thị).
  • Giảm rào cản: Điều này cung cấp một cách đơn giản và tức thời hơn nhiều cho các nhà phát triển, nhà nghiên cứu hoặc thậm chí các cá nhân tò mò trải nghiệm trực tiếp các mô hình Nova.
  • Tạo mẫu và Thử nghiệm nhanh: Như được trình bày bởi Rohit Prasad, SVP của Amazon AGI, cổng thông tin được thiết kế rõ ràng để cho phép các nhà phát triển ‘nhanh chóng kiểm tra ý tưởng của họ với các mô hình Nova’. Môi trường sandbox này cho phép lặp lại và thử nghiệm nhanh chóng trước khi cam kết triển khai quy mô đầy đủ.
  • Bổ sung cho Bedrock: Cổng thông tin không thay thế Bedrock; nó bổ sung cho nó. Các nhà phát triển có thể sử dụng cổng thông tin để khám phá và xác thực ban đầu. Khi họ sẵn sàng xây dựng các ứng dụng mạnh mẽ, tích hợp các mô hình vào quy trình công việc của họ hoặc triển khai chúng ở quy mô lớn, họ có thể chuyển sang sử dụng các mô hình thông qua Amazon Bedrock, tận dụng các tính năng cấp doanh nghiệp, bảo mật và tích hợp với các dịch vụ AWS khác.

Động thái này biểu thị mong muốn của Amazon trong việc mở rộng khả năng hiển thị và khả năng tiếp cận các dịch vụ Nova AI của mình, giúp người dùng tiềm năng đánh giá khả năng của chúng dễ dàng hơn và khuyến khích việc áp dụng rộng rãi hơn trong cộng đồng nhà phát triển. Nó thu hẹp khoảng cách giữa khám phá thông thường và phát triển ứng dụng nghiêm túc.

Quỹ đạo tương lai: Ý nghĩa và thách thức

Việc giới thiệu Nova Act và sự thúc đẩy rộng rãi hơn xung quanh bộ Nova mang ý nghĩa quan trọng đối với các lĩnh vực khác nhau, đồng thời cũng làm nổi bật những thách thức cố hữu.

Tác động tiềm năng:

  • Sự phát triển của thương mại điện tử: Nova Act, nếu thành công và được áp dụng rộng rãi, có thể thay đổi cơ bản việc mua sắm trực tuyến. Hãy tưởng tượng các AI agent so sánh mua sắm, tìm kiếm ưu đãi, quản lý trả hàng và xử lý quy trình thanh toán tự động dựa trên sở thích cấp cao của người dùng. Điều này có thể hợp lý hóa trải nghiệm khách hàng nhưng cũng có khả năng phá vỡ các mô hình tiếp thị liên kết và quảng cáo hiện có.
  • Nâng cao năng suất: Đối với cả cá nhân và doanh nghiệp, các tác nhân có khả năng xử lý các tác vụ web nhiều bước có thể tự động hóa vô số giờ dành cho công việc hành chính, nghiên cứu, nhập dữ liệu và điền biểu mẫu trực tuyến.
  • Thay đổi mô hình tương tác web: Chúng ta có thể chuyển từ việc nhấp thủ công qua các trang web sang hướng dẫn các tác nhân để đạt được kết quả, làm cho tương tác web trở nên đàm thoại và định hướng mục tiêu hơn.
  • Khả năng tiếp cận: Các AI agent có khả năng làm cho các quy trình web phức tạp trở nên dễ tiếp cận hơn đối với người dùng khuyết tật hoặc những người ít quen thuộc với công nghệ.
  • Tích hợp với các hệ sinh thái hiện có: Mong đợi sự tích hợp sâu hơn của các khả năng Nova Act vào các sản phẩm hiện có của Amazon – Alexa, thiết bị Fire và có khả năng cả các dịch vụ AWS, tạo ra một hệ sinh thái hỗ trợ AI gắn kết hơn.

Thách thức và Cân nhắc:

  • Độ tin cậy và Mạnh mẽ: Các tác nhân web phải đối phó với bố cục trang web thay đổi liên tục, lỗi không mong muốn và CAPTCHA. Đảm bảo chúng thực hiện nhiệm vụ một cách đáng tin cậy trên web đa dạng và năng động là một trở ngại kỹ thuật lớn.
  • Bảo mật: Việc cấp cho một AI agent quyền duyệt và hành động thay mặt bạn, đặc biệt là mua hàng, đòi hỏi các biện pháp bảo mật cực kỳ mạnh mẽ để ngăn chặn truy cập trái phép hoặc sử dụng độc hại. Xác thực sẽ được xử lý như thế nào? Làm thế nào người dùng có thể chắc chắn rằng tác nhân đang hành động vì lợi ích tốt nhất của họ?
  • Quyền riêng tư: Các tác nhân này chắc chắn sẽ xử lý dữ liệu cá nhân nhạy cảm, lịch sử duyệt web và có khả năng là thông tin đăng nhập. Đảm bảo quyền riêng tư của người dùng và các thực tiễn xử lý dữ liệu minh bạch sẽ là điều tối quan trọng để giành được sự tin tưởng của người dùng.
  • Xử lý lỗi và Trách nhiệm giải trình: Điều gì xảy ra khi một tác nhân mắc lỗi, như đặt hàng sai mặt hàng hoặc đặt sai chuyến bay? Việc thiết lập các cơ chế rõ ràng để sửa lỗi, truy đòi và trách nhiệm giải trình sẽ rất quan trọng.
  • Vấn đề ‘Hộp đen’: Việc hiểu tại sao một tác nhân thực hiện một hành động cụ thể hoặc không hoàn thành một nhiệm vụ có thể khó khăn với các mô hình AI phức tạp, khiến việc khắc phục sự cố và niềm tin của người dùng khó đạt được hơn.

Hướng về phía trước:

Việc ra mắt Nova Act trong bản xem trước nghiên cứu chỉ là khởi đầu. Amazon có khả năng sẽ lặp lại nhanh chóng dựa trên phản hồi của nhà phát triển. Các câu hỏi chính vẫn còn về thời gian phát hành công khai, mô hình định giá cuối cùng (nó sẽ là một phần của Alexa Plus, một đăng ký độc lập hay gắn liền với việc sử dụng AWS?), và phạm vi cụ thể của các tác vụ mà nó sẽ có thể thực hiện một cách đáng tin cậy khi ra mắt.

Sự phát triển của các AI agent như Nova Act đại diện cho một thời điểm then chốt trong tương tác giữa người và máy tính. Mặc dù ‘giấc mơ’ về các tác nhân hoàn toàn tự trị quản lý các sự kiện phức tạp trong cuộc sống vẫn còn ở phía chân trời, các bước gia tăng đang được thực hiện bởi Amazon và các đối thủ cạnh tranh của họ đang dần đẩy lùi các ranh giới, hứa hẹn một tương lai nơi các tương tác của chúng ta với thế giới kỹ thuật số ngày càng được trung gian bởi trí tuệ nhân tạo thông minh, định hướng hành động. Hành trình này chắc chắn sẽ liên quan đến việc điều hướng các thách thức kỹ thuật, đạo đức và xã hội đáng kể, nhưng những phần thưởng tiềm năng – về sự tiện lợi, năng suất và các khả năng mới – tiếp tục thúc đẩy sự đổi mới không ngừng trong lĩnh vực thú vị này.