Amazon Nova Act Cabar AI dalam Automasi Web

Kecerdasan buatan (AI) telah secara tegas bergerak melangkaui alam fiksyen spekulatif dan memasuki fabrik kehidupan digital harian kita. Selama bertahun-tahun, tumpuan berkisar pada model generatif – algoritma yang mampu menghasilkan teks yang sangat mirip manusia atau imej yang sangat rumit. Namun, arus teknologi sedang beralih ke arah aplikasi baharu yang mungkin lebih transformatif: ejen AI yang direka bukan sahaja untuk mencipta, tetapi untuk bertindak. Fokus beralih daripada penjanaan pasif kepada pelaksanaan aktif, memperkasakan perisian untuk menavigasi kerumitan web dan melaksanakan tugas secara autonomi bagi pihak pengguna. Bidang yang berkembang pesat ini mewakili lonjakan yang signifikan, menjanjikan tahap kemudahan dan kecekapan yang belum pernah terjadi sebelumnya, dan gergasi teknologi berebut-rebut untuk menuntut bahagian mereka. Di tengah-tengah kesibukan aktiviti ini, Amazon telah turut serta dengan inisiatif baharu yang ketara.

Walaupun teknologi asasnya telah mendidih di makmal penyelidikan selama beberapa dekad, era pasca-pandemik menyaksikan ledakan minat dan pembangunan, terutamanya dalam aplikasi yang menghadap pengguna. Hampir setiap firma teknologi utama kini mempamerkan kehebatan mereka, memperkenalkan model AI yang disesuaikan untuk menyelaraskan aliran kerja, meningkatkan produktiviti, atau sekadar menjadikan interaksi digital harian lebih lancar. Amazon, sebuah syarikat yang dibina atas pengoptimuman operasi logistik dan digital yang kompleks, secara semula jadi merupakan pemain utama dalam landskap yang berkembang ini. Walau bagaimanapun, usaha terbarunya bukan sekadar lelaran paradigma sedia ada; ia adalah dorongan langsung ke dalam domain automasi tugas berasaskan web yang mencabar.

Masuk Amazon: Inisiatif Nova Act

Sumbangan Amazon kepada gelombang baharu ini terkandung dalam Nova Act. Ini bukan sekadar chatbot atau penjana imej lain; ia adalah teknologi asas yang dicipta untuk memperkasakan pembangun. Objektif teras Nova Act adalah untuk menyediakan blok binaan bagi mencipta ejen AI canggih yang boleh beroperasi secara bebas dalam persekitaran pelayar web. Bayangkan seorang pembantu yang mampu memahami permintaan berbilang langkah dan kemudian melaksanakannya merentasi pelbagai laman web tanpa campur tangan manusia yang berterusan.

Satu contoh ilustrasi menunjukkan potensinya: mengarahkan ejen untuk mengenal pasti pangsapuri yang tersedia terletak dalam radius berbasikal yang munasabah dari stesen kereta api tertentu. Tugas ini, yang kelihatan mudah bagi manusia, melibatkan urutan yang kompleks untuk AI: memahami kekangan geografi, menavigasi laman web penyenaraian pangsapuri, menapis hasil berdasarkan kriteria lokasi (berpotensi mentafsir data peta), mengekstrak maklumat yang relevan seperti ketersediaan dan harga, dan membentangkan penemuan secara koheren. Nova Act bertujuan untuk melengkapkan pembangun dengan alat untuk membina ejen yang mampu melakukan operasi berbilang peringkat yang rumit seperti ini.

Kepentingan melancarkan Nova Act pada mulanya sebagai alat untuk pembangun tidak boleh dilebih-lebihkan. Ia mencadangkan pendekatan strategik yang memberi tumpuan kepada pembinaan ekosistem yang teguh. Dengan memperkasakan pencipta pihak ketiga, Amazon boleh memupuk inovasi dan meneroka rangkaian aplikasi yang lebih luas daripada yang boleh dilakukannya semata-mata melalui pembangunan dalaman. Strategi ini juga membolehkan pengumpulan maklum balas berharga dan penapisan teknologi berdasarkan cabaran pelaksanaan dunia sebenar sebelum pelancaran yang lebih luas kepada pengguna.

Medan Pertempuran yang Sesak: Ejen Saingan Muncul

Apabila minat melonjak terhadap ejen AI yang melangkaui output teks atau imej mudah, landskap persaingan menjadi semakin padat. Daya tarikan ejen autonomi yang mampu melaksanakan operasi kompleks tanpa pengawasan manusia secara langsung terbukti tidak dapat ditolak, dan Amazon jauh dari bersendirian dalam mengiktiraf potensi ini. Beberapa pesaing hebat sudah pun bersaing untuk menguasai ruang ini.

OpenAI, yang telah lama dianggap sebagai pelopor dalam penyelidikan dan pembangunan AI, terutamanya selepas penampilan sensasi ChatGPT, telah mencapai kemajuan yang signifikan. Disokong oleh pelaburan besar daripada Microsoft, OpenAI mendedahkan rancangan untuk ciri yang secara tentatif dikenali sebagai ‘Operator’ awal tahun ini. Penerangan melukiskan gambaran ejen yang direka untuk mengendalikan tugas seperti perancangan perjalanan yang rumit, pengisian borang automatik, mendapatkan tempahan restoran, dan juga menguruskan pesanan runcit dalam talian. Syarikat itu secara eksplisit membingkai keupayaan ini sebagai ejen yang memanfaatkan web untuk mencapai matlamat pengguna, menandakan pivot strategik yang jelas ke arah AI berorientasikan tindakan.

Walau bagaimanapun, garis masa mendedahkan naratif yang lebih kompleks. Anthropic, sebuah syarikat permulaan AI dengan salasilah yang menarik – diasaskan oleh bekas penyelidik OpenAI dan terutamanya disokong oleh pelaburan signifikan daripada Amazon sendiri – memperkenalkan konsep yang serupa lebih awal lagi. Pada bulan Oktober tahun sebelumnya, Anthropic memperkenalkan alat ‘Computer Use’ mereka. Teknologi ini direka khusus untuk membolehkan model AI berinteraksi secara langsung dengan antara muka pengguna grafik komputer. Ini termasuk mensimulasikan klik pada butang, memasukkan teks ke dalam medan, menavigasi pelbagai laman web, dan melaksanakan tugas dalam pelbagai aplikasi perisian, semuanya sambil mengakses data internet masa nyata secara dinamik. Pertindihan fungsian dengan ‘Operator’ yang dicadangkan oleh OpenAI adalah ketara, menonjolkan pembangunan selari yang sengit berlaku dalam industri. Hubungan Amazon-Anthropic menambah satu lagi lapisan intrik, mencadangkan potensi sinergi atau bahkan persaingan dalaman dalam strategi AI Amazon yang lebih luas.

OpenAI tidak berpuas hati sejak pengumuman awalnya. Ia menyusul dengan kemas kini, termasuk pengenalan ‘Deep Research’ sejurus selepas pendedahan Anthropic. Alat ini memperkasakan ejen AI untuk menjalankan tugasan penyelidikan yang kompleks, menyusun laporan terperinci dan melakukan analisis mendalam mengenai topik yang ditentukan oleh pengguna, seterusnya menunjukkan dorongan ke arah tugas berasaskan pengetahuan yang canggih.

Tidak mahu ketinggalan, Google, sebuah kuasa besar dalam pengindeksan web dan analisis data, juga memasuki persaingan. Disember lalu, Google melancarkan alat setandingnya sendiri, yang diletakkan sebagai ‘pembantu penyelidikan’ yang berkuasa. Ejen ini bertujuan untuk membantu pengguna dengan mendalami subjek yang kompleks, meneroka maklumat di seluruh web, dan mensintesis penemuan ke dalam laporan komprehensif, mencerminkan keupayaan yang disebut-sebut oleh pesaingnya.

Dengan pemain-pemain berat seperti ini menggunakan teknologi yang serupa, pemenang muktamad masih jauh dari pasti. Kejayaan kemungkinan besar bergantung pada pertemuan beberapa faktor: kedalaman pembiayaan yang tersedia untuk penyelidikan dan pembangunan yang berterusan, kelajuan dan kualiti kemajuan teknologi, reka bentuk antara muka pengguna yang intuitif, dan, yang paling penting, keupayaan untuk mengatasi cabaran yang wujud yang melanda model AI semasa – terutamanya perjuangan mereka yang kadang-kadang dengan mentafsir secara tepat dan mengikuti arahan yang kompleks atau bernuansa secara konsisten.

Membongkar Ejen: Keupayaan dan Kerumitan

Memahami apa yang sebenarnya dilakukan oleh ejen AI yang baru muncul ini memerlukan melihat melangkaui arahan mudah. Potensi mereka terletak pada pelaksanaan operasi berbilang langkah yang meniru interaksi manusia dengan antara muka digital. Ini melibatkan beberapa keupayaan utama:

  1. Navigasi dan Interaksi Web: Ejen mesti dapat ‘melihat’ dan mentafsir struktur halaman web – mengenal pasti medan teks, butang, menu lungsur turun, pautan dan elemen interaktif lain. Mereka perlu mensimulasikan tindakan seperti mengklik, menaip, menatal dan memilih pilihan.
  2. Pemahaman Kontekstual: Sekadar berinteraksi tidak mencukupi. Ejen perlu memahami tujuan tindakannya dalam konteks tugas yang lebih luas. Mengisi medan ‘bandar berlepas’ memerlukan pemahaman bahawa ia berkaitan dengan perancangan perjalanan, bukan membeli-belah dalam talian.
  3. Pengekstrakan Maklumat: Ejen perlu mengenal pasti dan mengekstrak kepingan data tertentu daripada halaman web – harga, masa penerbangan, alamat, status ketersediaan – dan menyimpan atau memproses maklumat ini dengan bermakna.
  4. Operasi Merentas Platform: Banyak tugas melibatkan interaksi dengan berbilang laman web atau bahkan jenis aplikasi yang berbeza (cth., menyemak e-mel untuk kod pengesahan semasa menempah penerbangan). Peralihan lancar antara platform ini adalah penting.
  5. Penyelesaian Masalah dan Adaptasi: Laman web kerap berubah. Ejen memerlukan tahap daya tahan untuk mengendalikan variasi dalam susun atur atau ralat yang tidak dijangka (cth., butang tidak bertindak balas, halaman gagal dimuatkan). Mereka mungkin perlu mencuba pendekatan alternatif atau melaporkan kegagalan dengan baik.

Potensi kes penggunaan merangkumi spektrum yang luas:

  • Produktiviti Peribadi: Menguruskan jadual perjalanan yang kompleks (penerbangan, hotel, sewa kereta, aktiviti berdasarkan keutamaan), mengautomasikan pembayaran bil merentasi portal yang berbeza, menyatukan maklumat kewangan daripada pelbagai akaun, menjadualkan janji temu berdasarkan ketersediaan kalendar dan borang pra-lawatan yang diperlukan.
  • E-dagang: Perbandingan harga merentasi pelbagai vendor untuk produk tertentu, menjejaki item yang jarang ditemui atau kehabisan stok, menguruskan proses pemulangan secara automatik.
  • Operasi Perniagaan: Penyelidikan pasaran automatik (mengumpul harga pesaing, ulasan pelanggan, trend industri), penjanaan petunjuk (mengenal pasti bakal pelanggan berdasarkan kriteria khusus daripada direktori dalam talian), kemasukan data dan migrasi antara sistem berasaskan web, menjana laporan rutin dengan menyatukan data daripada pelbagai papan pemuka dalam talian.
  • Pengurusan Kandungan: Mengautomasikan proses menyiarkan kandungan merentasi platform media sosial yang berbeza, mengemas kini maklumat laman web secara dinamik berdasarkan sumber data luaran.

Kerumitannya terletak pada menjadikan interaksi ini boleh dipercayai, selamat, dan benar-benar autonomi, membebaskan pengguna daripada kerja-kerja digital yang membosankan dan berulang.

Mengharungi Halangan: Cabaran Autonomi yang Boleh Dipercayai

Walaupun terdapat janji yang besar, laluan ke arah ejen web yang benar-benar autonomi dan boleh dipercayai penuh dengan cabaran. ‘Kesukaran mengikuti arahan’, yang sering disebut sebagai batasan AI semasa, hanyalah puncak gunung ais. Beberapa halangan penting mesti diatasi:

  • Ambiguiti dan Tafsiran: Bahasa manusia sememangnya samar-samar. Arahan seperti ‘carikan saya penerbangan murah ke Paris bulan depan’ memerlukan AI untuk mentafsir ‘murah’ (berbanding apa?), ‘bulan depan’ (tarikh spesifik mana?), dan berpotensi menyimpulkan keutamaan mengenai syarikat penerbangan, hentian, atau masa berlepas. Salah tafsir boleh membawa kepada tindakan yang sama sekali salah.
  • Persekitaran Web yang Dinamik dan Tidak Konsisten: Laman web tidak statik. Susun atur berubah, elemen dinamakan semula, aliran kerja dikemas kini. Ejen yang dilatih pada satu versi tapak mungkin gagal sepenuhnya apabila menghadapi antara muka yang direka bentuk semula. Keteguhan terhadap perubahan sedemikian adalah cabaran teknikal utama.
  • Pengendalian Ralat dan Pemulihan: Apa yang berlaku apabila laman web tergendala, log masuk gagal, atau tetingkap timbul yang tidak dijangka muncul? Ejen memerlukan pengesanan ralat dan mekanisme pemulihan yang canggih. Patutkah ia mencuba semula? Patutkah ia meminta bantuan pengguna? Patutkah ia meninggalkan tugas itu? Menentukan protokol ini adalah kompleks.
  • Keselamatan dan Kebenaran: Memberi ejen AI autonomi untuk log masuk ke akaun, mengisi borang dengan data peribadi, dan berpotensi membuat pembelian menimbulkan kebimbangan keselamatan yang signifikan. Memastikan ejen beroperasi dalam sempadan yang ditentukan, tidak boleh dirampas dengan mudah, dan mengendalikan maklumat sensitif dengan selamat adalah amat penting. Membina kepercayaan pengguna adalah penting.
  • Skalabiliti dan Kos: Menjalankan model AI kompleks yang mampu berinteraksi web masa nyata boleh menjadi mahal dari segi pengiraan. Menjadikan ejen ini boleh diakses dan berpatutan untuk kegunaan meluas memerlukan pengoptimuman berterusan bagi kedua-dua algoritma dan infrastruktur asas.
  • Pertimbangan Etika: Apabila ejen menjadi lebih berkebolehan, timbul persoalan tentang potensi penyalahgunaannya (cth., mengautomasikan spam, mengikis data berhak cipta) dan kesan terhadap pekerjaan dalam sektor yang bergantung pada tugas berasaskan web manual.

Keputusan Amazon untuk melancarkan Nova Act pada mulanya dalam pratonton penyelidikan untuk pembangun nampaknya merupakan strategi yang bijak memandangkan cabaran ini. Pendekatan ini membolehkan syarikat mengumpul maklum balas kritikal daripada pengguna yang celik teknologi yang lebih bersedia untuk mengenal pasti pepijat, menguji kes pinggir, dan memberikan kritikan yang membina. Ia mewujudkan persekitaran terkawal untuk memperhalusi teknologi, meningkatkan keupayaan mengikuti arahan, dan memperkukuh langkah keselamatan sebelum mendedahkannya kepada permintaan yang kurang dapat diramalkan dan toleransi yang berpotensi lebih rendah terhadap ralat pasaran pengguna umum. Pendekatan berulang, berpusatkan pembangun ini membolehkan Amazon untuk ‘menyusun barisan mereka’, menangani masalah dan membina keteguhan sebelum keluaran pasaran yang lebih luas.

Strategi Besar Amazon: Melangkaui Nova Act

Nova Act, walaupun signifikan, tidak seharusnya dilihat secara berasingan. Ia mewakili komponen penting dalam pelaburan Amazon yang jauh lebih luas dan pesat dalam AI generatif dan automasi pintar. Syarikat itu sedang menganyam AI ke dalam teras operasi dan penawaran produknya melalui strategi pelbagai serampang:

  • Infrastruktur dan Model Asas: Amazon sedang membangunkan silikon tersuainya sendiri, seperti cip Trainium, yang direka khusus untuk mengoptimumkan latihan model AI berskala besar dengan cekap dan kos efektif. Tambahan pula, platform Bedrocknya berfungsi sebagai pasaran, menawarkan akses bukan sahaja kepada model asas Amazon sendiri (seperti Titan) tetapi juga kepada model terkemuka daripada syarikat AI pihak ketiga (termasuk Anthropic). Ini meletakkan Amazon Web Services (AWS) sebagai hab pusat untuk pembangunan AI.
  • AI Khusus Aplikasi: Syarikat itu menggunakan AI untuk meningkatkan perniagaan sedia ada. Contohnya termasuk pembantu beli-belah dipacu AI yang direka untuk memperibadikan cadangan dan meningkatkan pengalaman pelanggan, dan pembantu kesihatan dikuasakan AI yang bertujuan untuk menyelaraskan tugas berkaitan penjagaan kesihatan dan akses maklumat.
  • Evolusi Produk Teras: Alexa, pembantu suara Amazon yang dilancarkan lebih sedekad lalu, sedang menjalani peningkatan signifikan yang diselitkan dengan keupayaan AI generatif termaju. Ini bertujuan untuk menjadikan interaksi lebih bersifat perbualan, peka konteks, dan mampu mengendalikan permintaan yang lebih kompleks, berpotensi berintegrasi dengan lancar dengan ejen yang dibina menggunakan teknologi seperti Nova Act.

Dalam konteks ini, Nova Act bertindak sebagai jambatan kritikal. Ia memanfaatkan model asas yang tersedia melalui Bedrock (berpotensi berjalan pada perkakasan yang dioptimumkan seperti Trainium) dan menyediakan keupayaan khusus untuk model ini bertindak dalam persekitaran web. Keupayaan berorientasikan tindakan ini boleh meningkatkan fungsi Alexa secara dramatik, menggerakkan ciri baharu yang canggih dalam platform e-dagangnya, atau membolehkan perkhidmatan baharu sepenuhnya yang ditawarkan melalui AWS. Ia adalah sebahagian daripada teka-teki yang lebih besar yang bertujuan untuk mewujudkan ekosistem di mana AI bukan sahaja memahami dan menjana tetapi juga melaksanakan tugas merentasi landskap digital, mengukuhkan penguasaan Amazon dalam pengkomputeran awan dan e-dagang.

Pertaruhan: Membentuk Semula Landskap Digital

Pembangunan ejen web AI yang berkebolehan seperti yang dijanjikan oleh Nova Act, Operator, Computer Use, dan inisiatif Google mewakili lebih daripada sekadar kemajuan teknologi tambahan. Ia menandakan potensi anjakan paradigma dalam cara manusia berinteraksi dengan dunia digital. Jika ejen ini memenuhi potensi mereka, implikasinya boleh menjadi mendalam:

  • Mentakrifkan Semula Pengalaman Pengguna: Proses dalam talian berbilang langkah yang membosankan boleh menjadi mudah. Daripada menavigasi berbilang laman web secara manual untuk tempahan perjalanan atau penyelidikan produk, pengguna hanya boleh menyatakan matlamat mereka dan membiarkan ejen mengendalikan pelaksanaannya. Ini secara asasnya boleh mengubah jangkaan untuk kemudahan digital.
  • Gangguan Industri: Sektor yang sangat bergantung pada tugas berasaskan web manual atau bertindak sebagai perantara boleh menghadapi gangguan yang signifikan. Agensi pelancongan, firma penyelidikan pasaran yang bergantung pada pengumpulan data manual, perkhidmatan pembantu maya yang melaksanakan tugas pentadbiran rutin – semuanya mungkin perlu menyesuaikan diri apabila ejen AI mengautomasikan fungsi teras.
  • Peningkatan Produktiviti: Kedua-dua individu dan perniagaan boleh membuka kunci peningkatan produktiviti yang besar dengan memindahkan kerja-kerja digital berulang kepada ejen AI. Ini boleh membebaskan usaha manusia untuk kerja yang lebih kompleks, kreatif atau strategik.
  • Model Perniagaan Baharu: Keupayaan untuk mengautomasikan interaksi web yang kompleks boleh melahirkan perkhidmatan dan model perniagaan baharu sepenuhnya yang dibina di sekitar automasi hiper-peribadi, pengagregatan data yang canggih, dan bantuan digital proaktif.
  • Kebolehcapaian: Bagi individu yang mempunyai kecacatan tertentu, ejen AI boleh memberikan bantuan yang tidak ternilai dalam menavigasi antara muka web yang kompleks, meningkatkan keterangkuman digital.

Walau bagaimanapun, merealisasikan masa depan ini memerlukan mengatasi halangan teknikal dan etika yang besar yang dibincangkan sebelum ini. Perlumbaan antara Amazon, OpenAI, Anthropic, Google, dan berpotensi pemain lain bukan hanya tentang hak membanggakan teknologi; ia adalah tentang menentukan standard, membina kepercayaan, dan akhirnya membentuk masa depan interaksi web. Syarikat yang berjaya menggabungkan keupayaan hebat dengan kebolehpercayaan, keselamatan, dan pengalaman pengguna yang intuitif berpeluang memperoleh kelebihan strategik yang signifikan dalam era kecerdasan buatan seterusnya. Nova Act Amazon adalah isyarat jelas bahawa gergasi e-dagang dan awan itu berhasrat untuk menjadi pemain utama dalam menulis bab seterusnya itu.