چشمانداز دیجیتال مملو از هوش مصنوعی است، با این حال بخش عمدهای از آن محدود باقی مانده و در چارچوب پارامترهای از پیش تعریفشده عمل میکند یا به شدت به فیدهای داده ساختاریافته و API ها متکی است. رویای عاملهای واقعاً خودکار - دستیاران دیجیتالی قادر به پیمایش در محیط آشفته و غیرقابل پیشبینی وب جهانگستر برای دستیابی به اهداف پیچیده - تا حد زیادی دستنیافتنی باقی مانده است. Amazon اکنون با جسارت وارد این عرصه شده و Nova Act را معرفی میکند، یک مدل هوش مصنوعی پیچیده که با دقت مهندسی شده تا عاملهایی را توانمند سازد که میتوانند مرورگرهای وب را درک کرده و با آنها تعامل داشته باشند و وظایف پیچیده را دقیقاً مانند یک کاربر انسانی اجرا کنند. این ابتکار نشاندهنده یک فشار قابل توجه فراتر از محدودیتهای فعلی است و هدف آن آغاز عصری از دستیاران هوش مصنوعی تواناتر، قابل اعتمادتر و همهکارهتر است.
چشمانداز بزرگ: فراتر از دستورات ساده به حل مسائل پیچیده
جاهطلبی Amazon بسیار فراتر از دریافت گزارشهای آب و هوا یا تنظیم تایمرها است. این شرکت چشمانداز قانعکنندهای را بیان میکند که در آن عاملهای هوش مصنوعی بهطور یکپارچه اهداف چندوجهی را هم در قلمرو دیجیتال و هم بهطور بالقوه در قلمروهای فیزیکی متصل به هم مدیریت میکنند. یک هوش مصنوعی را تصور کنید که قادر به سازماندهی جزئیات بیشمار برنامهریزی یک عروسی، هماهنگی با فروشندگان، مدیریت بودجهها و پیگیری RSVPs از طریق پورتالهای آنلاین مختلف باشد. عاملهای پیچیدهای را تصور کنید که وظایف پیچیده مدیریت IT را انجام میدهند، مشکلات شبکه را عیبیابی میکنند، مجوزهای نرمافزار را مدیریت میکنند یا کارمندان جدید را با تعامل مستقیم با ابزارهای مبتنی بر وب داخلی، آنبورد میکنند. این نشاندهنده یک تغییر پارادایم از رباتهای وظیفهمحور به شرکای دیجیتال هدفگرا است که برای افزایش قابل توجه راحتی شخصی و افزایش بهرهوری کسبوکار طراحی شدهاند.
مدلهای فعلی هوش مصنوعی مولد، در حالی که در مکالمه و ایجاد محتوا مهارت دارند، اغلب هنگام مواجهه با ماهیت پویا و غالباً ناسازگار رابطهای وب دچار مشکل میشوند. اجرای دنبالهای از اقدامات - ورود به سیستم، پیمایش منوها، پر کردن فرمها، تفسیر نشانههای بصری و پاسخ به پاپآپهای غیرمنتظره - نیازمند سطحی از درک متنی و قابلیت اطمینان عملیاتی است که دستیابی مداوم به آن دشوار بوده است. Amazon صراحتاً این موانع را تأیید میکند و Nova Act را به عنوان پاسخ استراتژیک خود معرفی میکند که از ابتدا برای تسلط بر پیچیدگیهای اجرای وظایف مبتنی بر وب طراحی شده است.
معرفی Nova Act: موتور ناوبری هوشمند وب
Nova Act فقط یک مدل زبان بزرگ دیگر نیست؛ بلکه یک سیستم تخصصی است که بر ترجمه قصد انسان به اقدامات مشخص در یک مرورگر وب تمرکز دارد. این نشاندهنده تلاشی هماهنگ برای القای توانایی درک، فهم و دستکاری مؤثر عناصر وب به هوش مصنوعی است. چالش اصلی در پر کردن شکاف بین دستورالعملهای زبان طبیعی (‘یک اتاق جلسه برای سهشنبه آینده رزرو کن’) و توالی خاص کلیکها، اسکرولها و ورودیهای متنی مورد نیاز برای انجام آن درخواست در یک وبسایت یا برنامه وب معین نهفته است.
رویکرد Amazon تشخیص میدهد که وب یک موجودیت ایستا نیست. وبسایتها طرحبندیها را تغییر میدهند، رابطها به شدت متفاوت هستند و محتوای پویا بهطور غیرقابل پیشبینی بارگذاری میشود. بنابراین، یک عامل به چیزی بیش از شایستگی زبانی نیاز دارد؛ به درک قوی از ساختارهای وب (HTML, DOM)، عناصر بصری و الگوهای تعامل نیاز دارد. Nova Act در حال توسعه است تا این درک دقیق را داشته باشد و به آن امکان دهد با دقت و سازگاری بیشتری در محیطهای آنلاین متنوع عمل کند. این تمرکز بر تعامل بومی وب چیزی است که هدف Nova Act را از مدلهای هوش مصنوعی عمومیتر متمایز میکند.
توانمندسازی توسعهدهندگان: کیت توسعه نرمافزار Nova Act
برای ترجمه این قابلیت پیشرفته هوش مصنوعی به برنامههای کاربردی عملی، Amazon در حال انتشار یک پیشنمایش تحقیقاتی از کیت توسعه نرمافزار (SDK) Nova Act است. این جعبه ابزار برای توسعهدهندگانی طراحی شده است که مشتاق ساخت نسل بعدی عاملهای خودکار هستند. این کیت بلوکهای سازنده و کنترلهای لازم را برای مهار قدرت Nova Act برای خودکارسازی گردشهای کاری مبتنی بر وب فراهم میکند.
سنگ بنای فلسفه طراحی SDK، تجزیه فرآیندهای پیچیده به واحدهای بنیادی و قابل اعتماد به نام ‘دستورات اتمی’ است. اینها را به عنوان افعال اساسی تعامل وب در نظر بگیرید:
- جستجو: مکانیابی اطلاعات یا عناصر خاص در یک صفحه.
- تسویه حساب: تکمیل فرآیند خرید در تجارت الکترونیک.
- تعامل: درگیر شدن با اجزای رابط خاص مانند منوهای کشویی، چکباکسها، انتخابگرهای تاریخ یا پاپآپهای مودال.
- پیمایش: حرکت بین صفحات یا بخشهای یک وبسایت.
- ورود داده: پر کردن دقیق فرمها یا فیلدهای متنی.
توسعهدهندگان به این دستورات سطح بالا محدود نمیشوند. SDK امکان افزودن دستورالعملهای دقیق را برای اصلاح رفتار عامل فراهم میکند. به عنوان مثال، به عاملی که وظیفه رزرو پرواز را دارد، میتوان به طور خاص دستور داد که پیشنهادات بیمه مسافرتی را نادیده بگیرد یا از پیشنهادات گرانتر انتخاب صندلی در طول فرآیند تسویه حساب عبور کند. این سطح از کنترل دقیق برای ایجاد عاملهایی که وظایف را دقیقاً همانطور که در نظر گرفته شده انجام میدهند و به ترجیحات کاربر خاص یا قوانین تجاری پایبند هستند، حیاتی است.
برای تقویت قابلیت اطمینان و دقت مورد نیاز اتوماسیون وب در دنیای واقعی، SDK چندین مکانیسم قدرتمند را ادغام میکند:
- دستکاری مرورگر از طریق Playwright: از چارچوب محبوب Playwright برای اتوماسیون قوی و بین مرورگری استفاده میکند و کنترل دقیقی بر اقدامات مرورگر فراهم میکند.
- فراخوانیهای API: به عاملها امکان میدهد در صورت در دسترس بودن، مستقیماً از طریق API ها با سرویسهای وب تعامل داشته باشند و جایگزین پایدارتر و کارآمدتری برای دستکاری UI برای برخی وظایف ارائه میدهد.
- ادغامهای Python: به توسعهدهندگان اجازه میدهد کد Python سفارشی را جاسازی کنند و منطق پیچیده، پردازش داده یا ادغام با سیستمهای دیگر را در گردش کار عامل فعال کنند.
- رشتهبندی موازی: با اجازه دادن به اجرای همزمان برخی عملیات، به کاهش تأخیرهای ناشی از بارگذاری کند صفحات وب یا تأخیر شبکه کمک میکند و سرعت کلی تکمیل کار و انعطافپذیری را بهبود میبخشد.
این جعبه ابزار جامع با هدف ارائه انعطافپذیری و قدرت لازم به توسعهدهندگان برای مقابله با چالشهای پیچیده اتوماسیون که قبلاً غیرعملی یا غیرقابل اعتماد بودند، طراحی شده است.
ارزیابی: تمرکز بر عملکرد و قابلیت اطمینان عملی
در حالی که امتیازات بنچمارک یک ارز رایج در دنیای هوش مصنوعی است، Amazon تأکید میکند که توسعه Nova Act قابلیت اطمینان عملی را بر صرفاً صدرنشینی در جدول امتیازات در آزمونهای انتزاعی اولویت میدهد. هدف، ساخت عاملهایی است که بهطور مداوم در سناریوهای دنیای واقعی کار میکنند، حتی اگر این به معنای تمرکز شدید بر قابلیتهای خاص حیاتی برای تعامل وب باشد.
با این حال، Nova Act عملکرد استثنایی را در بنچمارکهایی که بهطور خاص برای ارزیابی تعامل با رابطهای وب طراحی شدهاند، نشان میدهد. Amazon امتیازات چشمگیر بیش از دقت 90% را در ارزیابیهای داخلی که قابلیتهایی را هدف قرار میدهند که اغلب مدلهای رقیب را به چالش میکشند، برجسته میکند.
در بنچمارکهای معتبر، نتایج قابل توجه هستند:
- ScreenSpot Web Text: این بنچمارک توانایی هوش مصنوعی در تفسیر دستورالعملهای زبان طبیعی مربوط به تعاملات مبتنی بر متن در صفحات وب را ارزیابی میکند (به عنوان مثال، ‘اندازه فونت را افزایش بده’، ‘پاراگرافی که به اشتراکها اشاره میکند را پیدا کن’). Nova Act به امتیاز تقریباً عالی 0.939 دست یافت که بهطور قابل توجهی از مدلهای برجستهای مانند Claude 3.7 Sonnet (0.900) و CUA (بنچمارک عامل کاربر مفهومی) OpenAI (0.883) پیشی گرفت.
- ScreenSpot Web Icon: این آزمون بر تعاملات با عناصر بصری و غیرمتنی مانند رتبهبندی ستارهای، آیکونها یا اسلایدرها تمرکز دارد. Nova Act دوباره عملکرد قوی داشت و امتیاز 0.879 را کسب کرد.
جالب اینجاست که در آزمون GroundUI Web، که بهطور کلی مهارت در پیمایش عناصر متنوع رابط کاربری را ارزیابی میکند، Nova Act عملکرد کمی پایینتری نسبت به برخی رقبا نشان داد. Amazon صادقانه این موضوع را تأیید میکند و آن را نه به عنوان یک شکست، بلکه به عنوان حوزهای که برای بهبود هدفگذاری شده است در حالی که مدل از طریق آموزش و اصلاح مداوم به تکامل خود ادامه میدهد، چارچوببندی میکند. این شفافیت بر تمرکز بر ساخت ابزاری واقعاً مفید تأکید میکند و تشخیص میدهد که توسعه یک فرآیند تکراری است.
تأکید همچنان قاطعانه بر اجرای قابل اعتماد است. Amazon تأکید میکند که هنگامی که یک عامل ساخته شده با استفاده از Nova Act SDK وظیفهای را بهدرستی و قابل اطمینان در مرحله توسعه انجام میدهد، توسعهدهندگان باید اطمینان بالایی به استقرار آن داشته باشند. این عاملها میتوانند بدون نمایشگر (بدون پنجره مرورگر قابل مشاهده) اجرا شوند، از طریق API ها در برنامههای بزرگتر ادغام شوند یا حتی زمانبندی شوند تا وظایف را بهطور خودکار در زمانهای خاص انجام دهند. مثال ارائه شده - عاملی که بهطور خودکار سالاد مورد علاقه را برای تحویل هر سهشنبه شب بدون نیاز به هیچگونه تعامل کاربر پس از تنظیم اولیه سفارش میدهد - این چشمانداز اتوماسیون یکپارچه و قابل اعتماد برای کارهای روزمره دیجیتال را کاملاً نشان میدهد.
جهشی در سازگاری: یادگیری و انتقال درک UI
یکی از جذابترین جنبههای Nova Act، توانایی ادعایی آن در تعمیم درک خود از رابطهای کاربری و بهکارگیری مؤثر آن در محیطهای جدید با حداقل یا بدون بازآموزی خاص وظیفه است. این قابلیت که اغلب به عنوان یادگیری انتقالی شناخته میشود، برای ایجاد عاملهای واقعاً همهکاره که شکننده نیستند یا به راحتی با بازطراحیهای جزئی وبسایت یا مواجهه با طرحبندیهای ناآشنای برنامه از کار نمیافتند، حیاتی است.
Amazon حکایت قانعکنندهای را به اشتراک گذاشت که در آن Nova Act شایستگی خود را در اجرای بازیهای مبتنی بر مرورگر نشان داد، علیرغم اینکه دادههای آموزشی آن صراحتاً شامل تجربیات بازیهای ویدیویی نبود. این نشان میدهد که مدل در حال یادگیری اصول اساسی تعامل وب است - تشخیص دکمهها، تفسیر بازخورد بصری، درک فیلدهای ورودی - به جای صرفاً به خاطر سپردن ساختارهای وبسایت خاص. اگر این قابلیت در طیف گستردهای از برنامهها صادق باشد، نشاندهنده پیشرفت قابل توجهی است. این بدان معناست که توسعهدهندگان بهطور بالقوه میتوانند عاملهایی بسازند که قادر به انجام وظایف در وبسایتها یا برنامههای وب تازه مواجه شده با درجه موفقیت معقولی باشند و نیاز به آموزش مداوم و سفارشی برای هر پلتفرم هدف را به طرز چشمگیری کاهش دهند.
این سازگاری، Nova Act را به عنوان یک موتور بالقوه قدرتمند برای طیف گستردهای از برنامهها فراتر از اتوماسیون وظایف ساده قرار میدهد. این میتواند اسکرپرهای وب هوشمندتر، ابزارهای ورود داده بصریتر یا دستیاران دسترسی تواناتر را قدرت بخشد.
Amazon در حال حاضر از این قابلیت در اکوسیستم خود استفاده میکند. Alexa+، سطح برتر دستیار صوتی آن، از Nova Act برای فعال کردن ناوبری وب خودگردان استفاده میکند. هنگامی که کاربر درخواستی را مطرح میکند که نمیتواند بهطور کامل از طریق مهارتهای موجود Alexa یا API های در دسترس (یک محدودیت رایج) برآورده شود، Nova Act بهطور بالقوه میتواند وارد عمل شود، یک صفحه وب مرتبط را باز کند و سعی کند با تعامل مستقیم با UI سایت، کار را تکمیل کند. این نشاندهنده گامی ملموس به سوی چشمانداز دستیاران هوش مصنوعی است که کمتر به ادغامهای از پیش ساخته شده متکی هستند و میتوانند با بهرهگیری از وب باز، بهطور مستقلتر و پویاتر عمل کنند.
مسیر پیش رو: گامی بنیادین در استراتژی بلندمدت هوش مصنوعی
Amazon صریحاً اعلام میکند که Nova Act، در شکل فعلی خود، صرفاً مرحله اولیه یک مأموریت بسیار گستردهتر و بلندمدت را نشان میدهد. هدف نهایی، پرورش عاملهای هوش مصنوعی بسیار هوشمند، سازگار و قابل اعتماد است که قادر به مدیریت گردشهای کاری پیچیدهتر و چند مرحلهای هستند که ممکن است چندین وبسایت، برنامه و جلسه را در بر گیرند.
استراتژی این شرکت شامل فراتر رفتن از نمایشهای ساده یا آموزش صرفاً بر روی مجموعه دادههای محدود است. تمرکز بر بهکارگیری تکنیکهای یادگیری تقویتی در سناریوهای متنوع دنیای واقعی است. این به معنای آموزش مدلهای Nova با وادار کردن آنها به تلاش برای انجام وظایف، یادگیری از موفقیتها و شکستها و ایجاد تدریجی مهارت در پیمایش پیچیدگیها و غیرقابل پیشبینی بودن ذاتی در محیط وب زنده است. این رویکرد تکراری و مبتنی بر تجربه برای ایجاد استحکام و هوش واقعی ضروری تلقی میشود.
Nova Act به عنوان یک نقطه کنترل حیاتی در آنچه Amazon به عنوان یک برنامه آموزشی بلندمدت برای خانواده مدلهای Nova خود توصیف میکند، عمل میکند. این نشاندهنده تعهد پایدار و جاهطلبی استراتژیک برای تغییر اساسی چشمانداز عاملهای هوش مصنوعی است و آنها را از ابزارهای خاص به شرکای ضروری در پیمایش زندگی دیجیتال ما تبدیل میکند. مدل فعلی بنیادی است که قابلیتهای پیچیدهتر در طول زمان بر روی آن ساخته خواهند شد.
خلق مشترک آینده: نقش ضروری جامعه توسعهدهندگان
با اذعان به اینکه متحولکنندهترین کاربردهای این فناوری هنوز تصور نشدهاند، Amazon عمداً جامعه توسعهدهندگان را از طریق پیشنمایش تحقیقاتی Nova Act SDK در مراحل اولیه درگیر میکند. این شرکت اظهار داشت: ‘ارزشمندترین موارد استفاده برای عاملها هنوز ساخته نشدهاند’. ‘بهترین توسعهدهندگان و طراحان آنها را کشف خواهند کرد’.
این استراتژی انتشار اهداف متعددی را دنبال میکند. این به سازندگان نوآور اجازه میدهد تا تجربه عملی با این فناوری کسب کنند، مرزهای آن را جابجا کنند و پتانسیل آن را به روشهایی که تیمهای داخلی Amazon ممکن است تصور نکنند، کشف کنند. همچنین یک حلقه بازخورد حیاتی ایجاد میکند. با مشاهده نحوه استفاده توسعهدهندگان از SDK، چالشهایی که با آن مواجه میشوند و ویژگیهایی که درخواست میکنند، Amazon میتواند به سرعت تکرار کند و Nova Act و ابزارهای همراه را بر اساس استفاده در دنیای واقعی و نیازهای عملی اصلاح کند. این رویکرد مشارکتی، که حول نمونهسازی سریع و بازخورد تکراری متمرکز شده است، به عنوان سریعترین مسیر برای باز کردن پتانسیل واقعی عاملهای هوش مصنوعی بومی وب دیده میشود.
در اصل، Nova Act چیزی بیش از یک مدل یا SDK جدید است؛ این یک دعوت به توسعهدهندگان و بیانیه قصد از سوی Amazon است. این نشاندهنده گامی مصمم به سوی مفید ساختن واقعی عاملهای هوش مصنوعی برای وظایف پیچیده، پویا و اغلب آشفتهای است که بخش عمدهای از تعامل ما با دنیای دیجیتال را تعریف میکنند. با بازنگری در بنچمارکها، اولویتبندی قابلیت اطمینان، پرورش سازگاری و استقبال از همکاری، Amazon قصد دارد سازندگان را توانمند سازد تا راهحلهای خودکاری ایجاد کنند که بهطور قابل توجهی فراتر از قابلیتهای ابزارهای هوش مصنوعی امروزی حرکت کنند. سفر تازه آغاز شده است، اما مسیر روشن است: به سوی آیندهای مملو از دستیاران دیجیتال هوشمندتر و خودکارتر که از طرف ما در وب پیمایش میکنند.