Amazon Dedah Nova Act: Ejen AI Autonomi Mahir Web

Landskap digital dipenuhi dengan kecerdasan buatan, namun kebanyakannya masih terhad, beroperasi dalam parameter yang telah ditetapkan atau sangat bergantung pada suapan data berstruktur dan API. Impian ejen yang benar-benar autonomi – pembantu digital yang mampu menavigasi persekitaran World Wide Web yang kompleks dan tidak dapat diramalkan untuk mencapai matlamat yang rumit – sebahagian besarnya masih sukar dicapai. Amazon kini melangkah dengan berani ke arena ini, memperkenalkan Nova Act, sebuah model AI canggih yang direka dengan teliti untuk memperkasakan ejen yang boleh memahami dan berinteraksi dengan pelayar web, melaksanakan tugas-tugas rumit sama seperti pengguna manusia. Inisiatif ini menandakan satu lonjakan signifikan melangkaui batasan semasa, bertujuan untuk membawa masuk era pembantu AI yang lebih berkebolehan, boleh dipercayai, dan serba boleh.

Wawasan Besar: Melangkaui Arahan Mudah kepada Penyelesaian Masalah Kompleks

Ambisisi Amazon melangkaui sekadar mendapatkan laporan cuaca atau menetapkan pemasa. Syarikat ini mengartikulasikan visi yang menarik di mana ejen AI menguruskan objektif pelbagai aspek dengan lancar dalam alam digital dan, berpotensi, alam fizikal yang saling berkaitan. Bayangkan AI yang mampu mengatur perincian merancang perkahwinan, menyelaras vendor, mengurus belanjawan, dan menjejaki RSVP melalui pelbagai portal dalam talian. Bayangkan ejen canggih menangani tugas pentadbiran IT yang kompleks, menyelesaikan masalah rangkaian, mengurus lesen perisian, atau menerima pekerja baharu dengan berinteraksi secara langsung dengan alat berasaskan web dalaman. Ini mewakili anjakan paradigma daripada bot khusus tugas kepada rakan kongsi digital berorientasikan matlamat yang direka untuk meningkatkan kemudahan peribadi dan meningkatkan produktiviti perniagaan secara signifikan.

Model AI generatif semasa, walaupun mahir dalam perbualan dan penciptaan kandungan, sering goyah apabila berhadapan dengan sifat dinamik dan sering tidak konsisten antara muka web. Melaksanakan urutan tindakan – log masuk, menavigasi menu, mengisi borang, mentafsir isyarat visual, dan bertindak balas terhadap pop-up yang tidak dijangka – memerlukan tahap pemahaman kontekstual dan kebolehpercayaan operasi yang sukar dicapai secara konsisten. Amazon secara eksplisit mengakui halangan ini, meletakkan Nova Act sebagai tindak balas strategiknya, direka dari awal untuk menguasai kerumitan pelaksanaan tugas berasaskan web.

Memperkenalkan Nova Act: Enjin untuk Navigasi Web Pintar

Nova Act bukan sekadar model bahasa besar yang lain; ia adalah sistem khusus yang memberi tumpuan kepada menterjemahkan niat manusia kepada tindakan konkrit dalam pelayar web. Ia mewakili usaha bersepadu untuk menanamkan AI dengan keupayaan untuk melihat, memahami, dan memanipulasi elemen web dengan berkesan. Cabaran teras terletak pada merapatkan jurang antara arahan bahasa semula jadi (‘Tempah bilik mesyuarat untuk Selasa depan’) dan urutan klik, skrol, dan entri teks tertentu yang diperlukan untuk memenuhi permintaan itu di laman web atau aplikasi web tertentu.

Pendekatan Amazon mengakui bahawa web bukanlah entiti statik. Laman web mengubah susun atur, antara muka sangat berbeza-beza, dan kandungan dinamik dimuatkan secara tidak dapat diramalkan. Oleh itu, ejen memerlukan lebih daripada sekadar kecekapan linguistik; ia memerlukan pemahaman yang mantap tentang struktur web (HTML, DOM), elemen visual, dan corak interaksi. Nova Act sedang dibangunkan untuk memiliki pemahaman bernuansa ini, membolehkannya beroperasi dengan ketepatan dan kebolehsuaian yang lebih besar merentasi pelbagai persekitaran dalam talian. Fokus pada interaksi asli web inilah yang membezakan tujuan Nova Act daripada model AI tujuan umum yang lain.

Memperkasakan Pembangun: Kit Pembangunan Perisian Nova Act

Untuk menterjemahkan keupayaan AI termaju ini kepada aplikasi praktikal, Amazon mengeluarkan pratonton penyelidikan Kit Pembangunan Perisian (SDK) Nova Act. Kit alat ini direka untuk pembangun yang ingin membina generasi ejen autonomi seterusnya. Ia menyediakan blok binaan dan kawalan yang diperlukan untuk memanfaatkan kuasa Nova Act bagi mengautomasikan aliran kerja berasaskan web.

Asas falsafah reka bentuk SDK ialah penguraian proses kompleks kepada unit asas yang boleh dipercayai yang dipanggil ‘perintah atomik.’ Anggap ini sebagai kata kerja asas interaksi web:

  • Mencari: Mengesan maklumat atau elemen tertentu pada halaman.
  • Mendaftar Keluar: Menyelesaikan proses pembelian dalam e-dagang.
  • Berinteraksi: Terlibat dengan komponen antara muka tertentu seperti menu lungsur, kotak semak, pemilih tarikh, atau pop-up modal.
  • Menavigasi: Bergerak antara halaman atau bahagian laman web.
  • Memasukkan Data: Mengisi borang atau medan teks dengan tepat.

Pembangun tidak terhad kepada perintah peringkat tinggi ini. SDK membenarkan penambahan arahan terperinci untuk memperhalusi tingkah laku ejen. Sebagai contoh, ejen yang ditugaskan untuk menempah penerbangan boleh diarahkan secara khusus untuk mengabaikan tawaran insurans perjalanan atau melangkau jualan tambahan pemilihan tempat duduk semasa proses daftar keluar. Tahap kawalan terperinci ini penting untuk mencipta ejen yang melaksanakan tugas tepat seperti yang dimaksudkan, mematuhi keutamaan pengguna tertentu atau peraturan perniagaan.

Untuk meningkatkan kebolehpercayaan dan ketepatan yang dituntut oleh automasi web dunia sebenar, SDK mengintegrasikan beberapa mekanisme berkuasa:

  • Manipulasi Pelayar melalui Playwright: Memanfaatkan rangka kerja Playwright yang popular untuk automasi merentas pelayar yang mantap, menyediakan kawalan terperinci ke atas tindakan pelayar.
  • Panggilan API: Membolehkan ejen berinteraksi dengan perkhidmatan web secara langsung melalui API apabila tersedia, menawarkan alternatif yang lebih stabil dan cekap kepada manipulasi UI untuk tugas tertentu.
  • Integrasi Python: Membolehkan pembangun membenamkan kod Python tersuai, membolehkan logik kompleks, pemprosesan data, atau integrasi dengan sistem lain dalam aliran kerja ejen.
  • Threading Selari: Membantu mengurangkan kelewatan yang disebabkan oleh halaman web yang lambat dimuatkan atau kependaman rangkaian dengan membenarkan operasi tertentu berjalan serentak, meningkatkan kelajuan penyiapan tugas keseluruhan dan daya tahan.

Kit alat komprehensif ini bertujuan untuk menyediakan pembangun dengan fleksibiliti dan kuasa yang diperlukan untuk menangani cabaran automasi canggih yang sebelum ini tidak praktikal atau tidak boleh dipercayai.

Mengukur Prestasi: Fokus pada Prestasi dan Kebolehpercayaan Praktikal

Walaupun skor penanda aras adalah mata wang biasa dalam dunia AI, Amazon menekankan bahawa pembangunan Nova Act mengutamakan kebolehpercayaan praktikal berbanding sekadar mendahului papan pendahulu pada ujian abstrak. Matlamatnya adalah untuk membina ejen yang berfungsi secara konsisten dalam senario dunia sebenar, walaupun itu bermakna memberi tumpuan sepenuhnya pada keupayaan khusus yang penting untuk interaksi web.

Walau bagaimanapun, Nova Act menunjukkan prestasi luar biasa pada penanda aras yang direka khusus untuk menilai interaksi dengan antara muka web. Amazon menonjolkan skor mengagumkan melebihi ketepatan 90% pada penilaian dalaman yang menyasarkan keupayaan yang sering mencabar model pesaing.

Pada penanda aras yang mantap, hasilnya adalah ketara:

  • ScreenSpot Web Text: Penanda aras ini menilai keupayaan AI untuk mentafsir arahan bahasa semula jadi yang berkaitan dengan interaksi berasaskan teks pada halaman web (cth., ‘besarkan saiz fon,’ ‘cari perenggan yang menyebut langganan’). Nova Act mencapai skor hampir sempurna 0.939, jauh mengatasi model terkemuka seperti Claude 3.7 Sonnet (0.900) dan CUA (penanda aras Conceptual User Agent) OpenAI (0.883).
  • ScreenSpot Web Icon: Ujian ini memberi tumpuan kepada interaksi dengan elemen visual bukan teks seperti penarafan bintang, ikon, atau peluncur. Nova Act sekali lagi menunjukkan prestasi yang kukuh, mendapat skor 0.879.

Menariknya, pada ujian GroundUI Web, yang secara meluas menilai kecekapan dalam menavigasi pelbagai elemen antara muka pengguna, Nova Act menunjukkan prestasi yang sedikit lebih rendah berbanding beberapa pesaing. Amazon secara jujur mengakui perkara ini, membingkainya bukan sebagai kegagalan tetapi sebagai bidang yang disasarkan untuk penambahbaikan semasa model terus berkembang melalui latihan dan penambahbaikan yang berterusan. Ketelusan ini menekankan fokus untuk membina alat yang benar-benar berguna, menyedari bahawa pembangunan adalah proses berulang.

Penekanan tetap teguh pada pelaksanaan yang boleh dipercayai. Amazon menekankan bahawa sebaik sahaja ejen yang dibina menggunakan SDK Nova Act melaksanakan tugas dengan betul dan boleh dipercayai dalam pembangunan, pembangun harus mempunyai keyakinan tinggi terhadap penggunaannya. Ejen ini boleh dijalankan secara headless (tanpa tetingkap pelayar yang kelihatan), diintegrasikan ke dalam aplikasi yang lebih besar melalui API, atau bahkan dijadualkan untuk melaksanakan tugas secara autonomi pada masa tertentu. Contoh yang diberikan – ejen secara automatik memesan salad pilihan untuk penghantaran setiap petang Selasa tanpa memerlukan sebarang interaksi pengguna selepas persediaan awal – menggambarkan dengan sempurna visi automasi yang lancar dan boleh dipercayai untuk tugas digital rutin ini.

Lonjakan dalam Kebolehsuaian: Pembelajaran dan Pemindahan Pemahaman UI

Salah satu aspek yang paling menarik tentang Nova Act ialah keupayaannya yang dikatakan untuk menggeneralisasikan pemahamannya tentang antara muka pengguna dan menerapkannya secara berkesan dalam persekitaran baharu dengan latihan semula khusus tugas yang minimum atau tiada langsung. Keupayaan ini, sering dirujuk sebagai pembelajaran pindah (transfer learning), adalah penting untuk mencipta ejen yang benar-benar serba boleh yang tidak rapuh atau mudah rosak oleh reka bentuk semula laman web kecil atau menghadapi susun atur aplikasi yang tidak dikenali.

Amazon berkongsi anekdot menarik di mana Nova Act menunjukkan kecekapan dalam mengendalikan permainan berasaskan pelayar, walaupun data latihannya secara eksplisit tidak termasuk pengalaman permainan video. Ini menunjukkan model tersebut mempelajari prinsip asas interaksi web – mengenali butang, mentafsir maklum balas visual, memahami medan input – dan bukannya sekadar menghafal struktur laman web tertentu. Jika keupayaan ini benar merentasi pelbagai aplikasi, ia mewakili kemajuan yang signifikan. Ini bermakna pembangun berpotensi membina ejen yang mampu menangani tugas di laman web atau aplikasi web yang baru ditemui dengan tahap kejayaan yang munasabah, secara dramatik mengurangkan keperluan untuk latihan yang berterusan dan khusus untuk setiap platform sasaran tunggal.

Kebolehsuaian ini meletakkan Nova Act sebagai enjin yang berpotensi berkuasa untuk pelbagai aplikasi melangkaui automasi tugas mudah. Ia boleh menggerakkan pengikis web yang lebih pintar, alat kemasukan data yang lebih intuitif, atau pembantu kebolehaksesan yang lebih berkebolehan.

Amazon sudah pun memanfaatkan keupayaan ini dalam ekosistemnya sendiri. Alexa+, peringkat premium pembantu suaranya, menggunakan Nova Act untuk membolehkan navigasi web terarah kendiri. Apabila pengguna membuat permintaan yang tidak dapat dipenuhi sepenuhnya melalui kemahiran Alexa sedia ada atau API yang tersedia (batasan biasa), Nova Act berpotensi untuk campur tangan, membuka halaman web yang berkaitan, dan cuba menyelesaikan tugas dengan berinteraksi secara langsung dengan UI tapak tersebut. Ini mewakili langkah nyata ke arah visi pembantu AI yang kurang bergantung pada integrasi pra-bina dan boleh berfungsi secara lebih autonomi dan dinamik dengan memanfaatkan web terbuka.

Jalan di Hadapan: Langkah Asas dalam Strategi AI Jangka Panjang

Amazon menegaskan bahawa Nova Act, dalam bentuk semasanya, hanya mewakili fasa awal misi jangka panjang yang lebih luas. Matlamat utamanya adalah untuk memupuk ejen AI yang sangat pintar, boleh disesuaikan, dan boleh dipercayai yang mampu mengurus aliran kerja pelbagai langkah yang semakin kompleks yang mungkin merangkumi pelbagai laman web, aplikasi, dan sesi.

Strategi syarikat melibatkan bergerak melangkaui demonstrasi ringkas atau latihan semata-mata pada set data terhad. Fokusnya adalah pada penggunaan teknik pembelajaran pengukuhan (reinforcement learning) merentasi pelbagai senario dunia sebenar. Ini bermakna melatih model Nova dengan meminta mereka mencuba tugas, belajar daripada kejayaan dan kegagalan, dan secara beransur-ansur membina kecekapan dalam menavigasi kerumitan dan ketidakpastian yang wujud dalam persekitaran web langsung. Pendekatan berulang, dipacu pengalaman ini dianggap penting untuk membina keteguhan dan kecerdasan sebenar.

Nova Act berfungsi sebagai titik semak kritikal dalam apa yang digambarkan oleh Amazon sebagai kurikulum latihan jangka panjang untuk keluarga model Nova-nya. Ini menunjukkan komitmen yang berterusan dan cita-cita strategik untuk membentuk semula landskap ejen AI secara asas, memindahkan mereka daripada alat khusus kepada rakan kongsi yang sangat diperlukan dalam menavigasi kehidupan digital kita. Model semasa adalah asas di mana keupayaan yang lebih canggih akan dibina dari semasa ke semasa.

Mencipta Masa Depan Bersama: Peranan Penting Komuniti Pembangun

Mengakui bahawa aplikasi teknologi ini yang paling transformatif masih belum difikirkan, Amazon sengaja melibatkan komuniti pembangun lebih awal melalui pratonton penyelidikan SDK Nova Act. ‘Kes penggunaan yang paling berharga untuk ejen masih belum dibina,’ kata syarikat itu. ‘Pembangun dan pereka terbaik akan menemuinya.’

Strategi pelepasan ini mempunyai pelbagai tujuan. Ia membolehkan pembina inovatif mendapatkan pengalaman langsung dengan teknologi, menolak sempadannya dan meneroka potensinya dengan cara yang mungkin tidak dibayangkan oleh pasukan dalaman Amazon. Ia juga mewujudkan gelung maklum balas yang penting. Dengan memerhatikan bagaimana pembangun menggunakan SDK, cabaran apa yang mereka hadapi, dan ciri apa yang mereka minta, Amazon boleh berulang dengan pantas, memperhalusi Nova Act dan alat yang disertakan berdasarkan penggunaan dunia sebenar dan keperluan praktikal. Pendekatan kolaboratif ini, berpusat pada prototaip pantas dan maklum balas berulang, dilihat sebagai laluan terpantas untuk membuka potensi sebenar ejen AI asli web.

Pada dasarnya, Nova Act lebih daripada sekadar model atau SDK baharu; ia adalah jemputan kepada pembangun dan pernyataan niat daripada Amazon. Ia mewakili langkah yang ditentukan ke arah menjadikan ejen AI benar-benar berguna untuk tugas yang kompleks, dinamik, dan sering tidak kemas yang mentakrifkan sebahagian besar interaksi kita dengan dunia digital. Dengan memikirkan semula penanda aras, mengutamakan kebolehpercayaan, memupuk kebolehsuaian, dan menerima kerjasama, Amazon bertujuan untuk memperkasakan pembina untuk mencipta penyelesaian autonomi yang bergerak jauh melangkaui keupayaan alat AI hari ini. Perjalanan baru sahaja bermula, tetapi arahnya jelas: ke arah masa depan yang dihuni oleh pembantu digital yang lebih pintar dan lebih autonomi menavigasi web bagi pihak kita.