آمازون Nova Act: عامل‌های هوش مصنوعی خودکار وب‌گرد

چشم‌انداز دیجیتال مملو از هوش مصنوعی است، با این حال بخش عمده‌ای از آن محدود باقی مانده و در چارچوب پارامترهای از پیش تعریف‌شده عمل می‌کند یا به شدت به فیدهای داده ساختاریافته و API ها متکی است. رویای عامل‌های واقعاً خودکار - دستیاران دیجیتالی قادر به پیمایش در محیط آشفته و غیرقابل پیش‌بینی وب جهان‌گستر برای دستیابی به اهداف پیچیده - تا حد زیادی دست‌نیافتنی باقی مانده است. Amazon اکنون با جسارت وارد این عرصه شده و Nova Act را معرفی می‌کند، یک مدل هوش مصنوعی پیچیده که با دقت مهندسی شده تا عامل‌هایی را توانمند سازد که می‌توانند مرورگرهای وب را درک کرده و با آن‌ها تعامل داشته باشند و وظایف پیچیده را دقیقاً مانند یک کاربر انسانی اجرا کنند. این ابتکار نشان‌دهنده یک فشار قابل توجه فراتر از محدودیت‌های فعلی است و هدف آن آغاز عصری از دستیاران هوش مصنوعی تواناتر، قابل اعتمادتر و همه‌کاره‌تر است.

چشم‌انداز بزرگ: فراتر از دستورات ساده به حل مسائل پیچیده

جاه‌طلبی Amazon بسیار فراتر از دریافت گزارش‌های آب و هوا یا تنظیم تایمرها است. این شرکت چشم‌انداز قانع‌کننده‌ای را بیان می‌کند که در آن عامل‌های هوش مصنوعی به‌طور یکپارچه اهداف چندوجهی را هم در قلمرو دیجیتال و هم به‌طور بالقوه در قلمروهای فیزیکی متصل به هم مدیریت می‌کنند. یک هوش مصنوعی را تصور کنید که قادر به سازماندهی جزئیات بی‌شمار برنامه‌ریزی یک عروسی، هماهنگی با فروشندگان، مدیریت بودجه‌ها و پیگیری RSVPs از طریق پورتال‌های آنلاین مختلف باشد. عامل‌های پیچیده‌ای را تصور کنید که وظایف پیچیده مدیریت IT را انجام می‌دهند، مشکلات شبکه را عیب‌یابی می‌کنند، مجوزهای نرم‌افزار را مدیریت می‌کنند یا کارمندان جدید را با تعامل مستقیم با ابزارهای مبتنی بر وب داخلی، آنبورد می‌کنند. این نشان‌دهنده یک تغییر پارادایم از ربات‌های وظیفه‌محور به شرکای دیجیتال هدف‌گرا است که برای افزایش قابل توجه راحتی شخصی و افزایش بهره‌وری کسب‌وکار طراحی شده‌اند.

مدل‌های فعلی هوش مصنوعی مولد، در حالی که در مکالمه و ایجاد محتوا مهارت دارند، اغلب هنگام مواجهه با ماهیت پویا و غالباً ناسازگار رابط‌های وب دچار مشکل می‌شوند. اجرای دنباله‌ای از اقدامات - ورود به سیستم، پیمایش منوها، پر کردن فرم‌ها، تفسیر نشانه‌های بصری و پاسخ به پاپ‌آپ‌های غیرمنتظره - نیازمند سطحی از درک متنی و قابلیت اطمینان عملیاتی است که دستیابی مداوم به آن دشوار بوده است. Amazon صراحتاً این موانع را تأیید می‌کند و Nova Act را به عنوان پاسخ استراتژیک خود معرفی می‌کند که از ابتدا برای تسلط بر پیچیدگی‌های اجرای وظایف مبتنی بر وب طراحی شده است.

معرفی Nova Act: موتور ناوبری هوشمند وب

Nova Act فقط یک مدل زبان بزرگ دیگر نیست؛ بلکه یک سیستم تخصصی است که بر ترجمه قصد انسان به اقدامات مشخص در یک مرورگر وب تمرکز دارد. این نشان‌دهنده تلاشی هماهنگ برای القای توانایی درک، فهم و دستکاری مؤثر عناصر وب به هوش مصنوعی است. چالش اصلی در پر کردن شکاف بین دستورالعمل‌های زبان طبیعی (‘یک اتاق جلسه برای سه‌شنبه آینده رزرو کن’) و توالی خاص کلیک‌ها، اسکرول‌ها و ورودی‌های متنی مورد نیاز برای انجام آن درخواست در یک وب‌سایت یا برنامه وب معین نهفته است.

رویکرد Amazon تشخیص می‌دهد که وب یک موجودیت ایستا نیست. وب‌سایت‌ها طرح‌بندی‌ها را تغییر می‌دهند، رابط‌ها به شدت متفاوت هستند و محتوای پویا به‌طور غیرقابل پیش‌بینی بارگذاری می‌شود. بنابراین، یک عامل به چیزی بیش از شایستگی زبانی نیاز دارد؛ به درک قوی از ساختارهای وب (HTML, DOM)، عناصر بصری و الگوهای تعامل نیاز دارد. Nova Act در حال توسعه است تا این درک دقیق را داشته باشد و به آن امکان دهد با دقت و سازگاری بیشتری در محیط‌های آنلاین متنوع عمل کند. این تمرکز بر تعامل بومی وب چیزی است که هدف Nova Act را از مدل‌های هوش مصنوعی عمومی‌تر متمایز می‌کند.

توانمندسازی توسعه‌دهندگان: کیت توسعه نرم‌افزار Nova Act

برای ترجمه این قابلیت پیشرفته هوش مصنوعی به برنامه‌های کاربردی عملی، Amazon در حال انتشار یک پیش‌نمایش تحقیقاتی از کیت توسعه نرم‌افزار (SDK) Nova Act است. این جعبه ابزار برای توسعه‌دهندگانی طراحی شده است که مشتاق ساخت نسل بعدی عامل‌های خودکار هستند. این کیت بلوک‌های سازنده و کنترل‌های لازم را برای مهار قدرت Nova Act برای خودکارسازی گردش‌های کاری مبتنی بر وب فراهم می‌کند.

سنگ بنای فلسفه طراحی SDK، تجزیه فرآیندهای پیچیده به واحدهای بنیادی و قابل اعتماد به نام ‘دستورات اتمی’ است. این‌ها را به عنوان افعال اساسی تعامل وب در نظر بگیرید:

  • جستجو: مکان‌یابی اطلاعات یا عناصر خاص در یک صفحه.
  • تسویه حساب: تکمیل فرآیند خرید در تجارت الکترونیک.
  • تعامل: درگیر شدن با اجزای رابط خاص مانند منوهای کشویی، چک‌باکس‌ها، انتخابگرهای تاریخ یا پاپ‌آپ‌های مودال.
  • پیمایش: حرکت بین صفحات یا بخش‌های یک وب‌سایت.
  • ورود داده: پر کردن دقیق فرم‌ها یا فیلدهای متنی.

توسعه‌دهندگان به این دستورات سطح بالا محدود نمی‌شوند. SDK امکان افزودن دستورالعمل‌های دقیق را برای اصلاح رفتار عامل فراهم می‌کند. به عنوان مثال، به عاملی که وظیفه رزرو پرواز را دارد، می‌توان به طور خاص دستور داد که پیشنهادات بیمه مسافرتی را نادیده بگیرد یا از پیشنهادات گران‌تر انتخاب صندلی در طول فرآیند تسویه حساب عبور کند. این سطح از کنترل دقیق برای ایجاد عامل‌هایی که وظایف را دقیقاً همانطور که در نظر گرفته شده انجام می‌دهند و به ترجیحات کاربر خاص یا قوانین تجاری پایبند هستند، حیاتی است.

برای تقویت قابلیت اطمینان و دقت مورد نیاز اتوماسیون وب در دنیای واقعی، SDK چندین مکانیسم قدرتمند را ادغام می‌کند:

  • دستکاری مرورگر از طریق Playwright: از چارچوب محبوب Playwright برای اتوماسیون قوی و بین مرورگری استفاده می‌کند و کنترل دقیقی بر اقدامات مرورگر فراهم می‌کند.
  • فراخوانی‌های API: به عامل‌ها امکان می‌دهد در صورت در دسترس بودن، مستقیماً از طریق API ها با سرویس‌های وب تعامل داشته باشند و جایگزین پایدارتر و کارآمدتری برای دستکاری UI برای برخی وظایف ارائه می‌دهد.
  • ادغام‌های Python: به توسعه‌دهندگان اجازه می‌دهد کد Python سفارشی را جاسازی کنند و منطق پیچیده، پردازش داده یا ادغام با سیستم‌های دیگر را در گردش کار عامل فعال کنند.
  • رشته‌بندی موازی: با اجازه دادن به اجرای همزمان برخی عملیات، به کاهش تأخیرهای ناشی از بارگذاری کند صفحات وب یا تأخیر شبکه کمک می‌کند و سرعت کلی تکمیل کار و انعطاف‌پذیری را بهبود می‌بخشد.

این جعبه ابزار جامع با هدف ارائه انعطاف‌پذیری و قدرت لازم به توسعه‌دهندگان برای مقابله با چالش‌های پیچیده اتوماسیون که قبلاً غیرعملی یا غیرقابل اعتماد بودند، طراحی شده است.

ارزیابی: تمرکز بر عملکرد و قابلیت اطمینان عملی

در حالی که امتیازات بنچمارک یک ارز رایج در دنیای هوش مصنوعی است، Amazon تأکید می‌کند که توسعه Nova Act قابلیت اطمینان عملی را بر صرفاً صدرنشینی در جدول امتیازات در آزمون‌های انتزاعی اولویت می‌دهد. هدف، ساخت عامل‌هایی است که به‌طور مداوم در سناریوهای دنیای واقعی کار می‌کنند، حتی اگر این به معنای تمرکز شدید بر قابلیت‌های خاص حیاتی برای تعامل وب باشد.

با این حال، Nova Act عملکرد استثنایی را در بنچمارک‌هایی که به‌طور خاص برای ارزیابی تعامل با رابط‌های وب طراحی شده‌اند، نشان می‌دهد. Amazon امتیازات چشمگیر بیش از دقت 90% را در ارزیابی‌های داخلی که قابلیت‌هایی را هدف قرار می‌دهند که اغلب مدل‌های رقیب را به چالش می‌کشند، برجسته می‌کند.

در بنچمارک‌های معتبر، نتایج قابل توجه هستند:

  • ScreenSpot Web Text: این بنچمارک توانایی هوش مصنوعی در تفسیر دستورالعمل‌های زبان طبیعی مربوط به تعاملات مبتنی بر متن در صفحات وب را ارزیابی می‌کند (به عنوان مثال، ‘اندازه فونت را افزایش بده’، ‘پاراگرافی که به اشتراک‌ها اشاره می‌کند را پیدا کن’). Nova Act به امتیاز تقریباً عالی 0.939 دست یافت که به‌طور قابل توجهی از مدل‌های برجسته‌ای مانند Claude 3.7 Sonnet (0.900) و CUA (بنچمارک عامل کاربر مفهومی) OpenAI (0.883) پیشی گرفت.
  • ScreenSpot Web Icon: این آزمون بر تعاملات با عناصر بصری و غیرمتنی مانند رتبه‌بندی ستاره‌ای، آیکون‌ها یا اسلایدرها تمرکز دارد. Nova Act دوباره عملکرد قوی داشت و امتیاز 0.879 را کسب کرد.

جالب اینجاست که در آزمون GroundUI Web، که به‌طور کلی مهارت در پیمایش عناصر متنوع رابط کاربری را ارزیابی می‌کند، Nova Act عملکرد کمی پایین‌تری نسبت به برخی رقبا نشان داد. Amazon صادقانه این موضوع را تأیید می‌کند و آن را نه به عنوان یک شکست، بلکه به عنوان حوزه‌ای که برای بهبود هدف‌گذاری شده است در حالی که مدل از طریق آموزش و اصلاح مداوم به تکامل خود ادامه می‌دهد، چارچوب‌بندی می‌کند. این شفافیت بر تمرکز بر ساخت ابزاری واقعاً مفید تأکید می‌کند و تشخیص می‌دهد که توسعه یک فرآیند تکراری است.

تأکید همچنان قاطعانه بر اجرای قابل اعتماد است. Amazon تأکید می‌کند که هنگامی که یک عامل ساخته شده با استفاده از Nova Act SDK وظیفه‌ای را به‌درستی و قابل اطمینان در مرحله توسعه انجام می‌دهد، توسعه‌دهندگان باید اطمینان بالایی به استقرار آن داشته باشند. این عامل‌ها می‌توانند بدون نمایشگر (بدون پنجره مرورگر قابل مشاهده) اجرا شوند، از طریق API ها در برنامه‌های بزرگتر ادغام شوند یا حتی زمان‌بندی شوند تا وظایف را به‌طور خودکار در زمان‌های خاص انجام دهند. مثال ارائه شده - عاملی که به‌طور خودکار سالاد مورد علاقه را برای تحویل هر سه‌شنبه شب بدون نیاز به هیچ‌گونه تعامل کاربر پس از تنظیم اولیه سفارش می‌دهد - این چشم‌انداز اتوماسیون یکپارچه و قابل اعتماد برای کارهای روزمره دیجیتال را کاملاً نشان می‌دهد.

جهشی در سازگاری: یادگیری و انتقال درک UI

یکی از جذاب‌ترین جنبه‌های Nova Act، توانایی ادعایی آن در تعمیم درک خود از رابط‌های کاربری و به‌کارگیری مؤثر آن در محیط‌های جدید با حداقل یا بدون بازآموزی خاص وظیفه است. این قابلیت که اغلب به عنوان یادگیری انتقالی شناخته می‌شود، برای ایجاد عامل‌های واقعاً همه‌کاره که شکننده نیستند یا به راحتی با بازطراحی‌های جزئی وب‌سایت یا مواجهه با طرح‌بندی‌های ناآشنای برنامه از کار نمی‌افتند، حیاتی است.

Amazon حکایت قانع‌کننده‌ای را به اشتراک گذاشت که در آن Nova Act شایستگی خود را در اجرای بازی‌های مبتنی بر مرورگر نشان داد، علی‌رغم اینکه داده‌های آموزشی آن صراحتاً شامل تجربیات بازی‌های ویدیویی نبود. این نشان می‌دهد که مدل در حال یادگیری اصول اساسی تعامل وب است - تشخیص دکمه‌ها، تفسیر بازخورد بصری، درک فیلدهای ورودی - به جای صرفاً به خاطر سپردن ساختارهای وب‌سایت خاص. اگر این قابلیت در طیف گسترده‌ای از برنامه‌ها صادق باشد، نشان‌دهنده پیشرفت قابل توجهی است. این بدان معناست که توسعه‌دهندگان به‌طور بالقوه می‌توانند عامل‌هایی بسازند که قادر به انجام وظایف در وب‌سایت‌ها یا برنامه‌های وب تازه مواجه شده با درجه موفقیت معقولی باشند و نیاز به آموزش مداوم و سفارشی برای هر پلتفرم هدف را به طرز چشمگیری کاهش دهند.

این سازگاری، Nova Act را به عنوان یک موتور بالقوه قدرتمند برای طیف گسترده‌ای از برنامه‌ها فراتر از اتوماسیون وظایف ساده قرار می‌دهد. این می‌تواند اسکرپرهای وب هوشمندتر، ابزارهای ورود داده بصری‌تر یا دستیاران دسترسی تواناتر را قدرت بخشد.

Amazon در حال حاضر از این قابلیت در اکوسیستم خود استفاده می‌کند. Alexa+، سطح برتر دستیار صوتی آن، از Nova Act برای فعال کردن ناوبری وب خودگردان استفاده می‌کند. هنگامی که کاربر درخواستی را مطرح می‌کند که نمی‌تواند به‌طور کامل از طریق مهارت‌های موجود Alexa یا API های در دسترس (یک محدودیت رایج) برآورده شود، Nova Act به‌طور بالقوه می‌تواند وارد عمل شود، یک صفحه وب مرتبط را باز کند و سعی کند با تعامل مستقیم با UI سایت، کار را تکمیل کند. این نشان‌دهنده گامی ملموس به سوی چشم‌انداز دستیاران هوش مصنوعی است که کمتر به ادغام‌های از پیش ساخته شده متکی هستند و می‌توانند با بهره‌گیری از وب باز، به‌طور مستقل‌تر و پویاتر عمل کنند.

مسیر پیش رو: گامی بنیادین در استراتژی بلندمدت هوش مصنوعی

Amazon صریحاً اعلام می‌کند که Nova Act، در شکل فعلی خود، صرفاً مرحله اولیه یک مأموریت بسیار گسترده‌تر و بلندمدت را نشان می‌دهد. هدف نهایی، پرورش عامل‌های هوش مصنوعی بسیار هوشمند، سازگار و قابل اعتماد است که قادر به مدیریت گردش‌های کاری پیچیده‌تر و چند مرحله‌ای هستند که ممکن است چندین وب‌سایت، برنامه و جلسه را در بر گیرند.

استراتژی این شرکت شامل فراتر رفتن از نمایش‌های ساده یا آموزش صرفاً بر روی مجموعه داده‌های محدود است. تمرکز بر به‌کارگیری تکنیک‌های یادگیری تقویتی در سناریوهای متنوع دنیای واقعی است. این به معنای آموزش مدل‌های Nova با وادار کردن آن‌ها به تلاش برای انجام وظایف، یادگیری از موفقیت‌ها و شکست‌ها و ایجاد تدریجی مهارت در پیمایش پیچیدگی‌ها و غیرقابل پیش‌بینی بودن ذاتی در محیط وب زنده است. این رویکرد تکراری و مبتنی بر تجربه برای ایجاد استحکام و هوش واقعی ضروری تلقی می‌شود.

Nova Act به عنوان یک نقطه کنترل حیاتی در آنچه Amazon به عنوان یک برنامه آموزشی بلندمدت برای خانواده مدل‌های Nova خود توصیف می‌کند، عمل می‌کند. این نشان‌دهنده تعهد پایدار و جاه‌طلبی استراتژیک برای تغییر اساسی چشم‌انداز عامل‌های هوش مصنوعی است و آن‌ها را از ابزارهای خاص به شرکای ضروری در پیمایش زندگی دیجیتال ما تبدیل می‌کند. مدل فعلی بنیادی است که قابلیت‌های پیچیده‌تر در طول زمان بر روی آن ساخته خواهند شد.

خلق مشترک آینده: نقش ضروری جامعه توسعه‌دهندگان

با اذعان به اینکه متحول‌کننده‌ترین کاربردهای این فناوری هنوز تصور نشده‌اند، Amazon عمداً جامعه توسعه‌دهندگان را از طریق پیش‌نمایش تحقیقاتی Nova Act SDK در مراحل اولیه درگیر می‌کند. این شرکت اظهار داشت: ‘ارزشمندترین موارد استفاده برای عامل‌ها هنوز ساخته نشده‌اند’. ‘بهترین توسعه‌دهندگان و طراحان آن‌ها را کشف خواهند کرد’.

این استراتژی انتشار اهداف متعددی را دنبال می‌کند. این به سازندگان نوآور اجازه می‌دهد تا تجربه عملی با این فناوری کسب کنند، مرزهای آن را جابجا کنند و پتانسیل آن را به روش‌هایی که تیم‌های داخلی Amazon ممکن است تصور نکنند، کشف کنند. همچنین یک حلقه بازخورد حیاتی ایجاد می‌کند. با مشاهده نحوه استفاده توسعه‌دهندگان از SDK، چالش‌هایی که با آن مواجه می‌شوند و ویژگی‌هایی که درخواست می‌کنند، Amazon می‌تواند به سرعت تکرار کند و Nova Act و ابزارهای همراه را بر اساس استفاده در دنیای واقعی و نیازهای عملی اصلاح کند. این رویکرد مشارکتی، که حول نمونه‌سازی سریع و بازخورد تکراری متمرکز شده است، به عنوان سریع‌ترین مسیر برای باز کردن پتانسیل واقعی عامل‌های هوش مصنوعی بومی وب دیده می‌شود.

در اصل، Nova Act چیزی بیش از یک مدل یا SDK جدید است؛ این یک دعوت به توسعه‌دهندگان و بیانیه قصد از سوی Amazon است. این نشان‌دهنده گامی مصمم به سوی مفید ساختن واقعی عامل‌های هوش مصنوعی برای وظایف پیچیده، پویا و اغلب آشفته‌ای است که بخش عمده‌ای از تعامل ما با دنیای دیجیتال را تعریف می‌کنند. با بازنگری در بنچمارک‌ها، اولویت‌بندی قابلیت اطمینان، پرورش سازگاری و استقبال از همکاری، Amazon قصد دارد سازندگان را توانمند سازد تا راه‌حل‌های خودکاری ایجاد کنند که به‌طور قابل توجهی فراتر از قابلیت‌های ابزارهای هوش مصنوعی امروزی حرکت کنند. سفر تازه آغاز شده است، اما مسیر روشن است: به سوی آینده‌ای مملو از دستیاران دیجیتال هوشمندتر و خودکارتر که از طرف ما در وب پیمایش می‌کنند.