آمازون و قلمرو جدید هوش مصنوعی با Nova و اتوماسیون مرورگر

چشم‌انداز هوش مصنوعی که به سرعت در حال تحول است، شاهد رقابت مداوم غول‌های فناوری برای کسب جایگاه برتر است؛ هر کدام به دنبال دموکراتیک کردن دسترسی و در عین حال، پیش بردن مرزهای قابلیت‌ها هستند. Amazon، نیرویی قدرتمند در رایانش ابری و تجارت الکترونیک، حضور خود در حوزه هوش مصنوعی مولد را به طور قابل توجهی تقویت کرده است. این شرکت اخیراً از nova.amazon.com پرده‌برداری کرد، پورتالی اختصاصی که برای ساده‌سازی تعامل توسعه‌دهندگان با مدل‌های پایه قدرتمندش مهندسی شده است. این ابتکار همزمان با معرفی ابزاری به‌ویژه جذاب است: Amazon Nova Act، یک مدل هوش مصنوعی که با دقت برای پیمایش و انجام وظایف مستقیماً در مرورگرهای وب آموزش دیده است و مرحله جدیدی را در تعامل خودکار وب نشان می‌دهد.

گشودن درها: دروازه توسعه‌دهندگان Nova

رونمایی استراتژیک Amazon از nova.amazon.com چیزی بیش از یک آدرس وب جدید است؛ این نشان‌دهنده تلاشی هماهنگ برای کاهش موانع ورود برای توسعه‌دهندگانی است که مشتاق کاوش و بهره‌برداری از هوش مصنوعی پیشرفته هستند. پیش از این پلتفرم، دسترسی به مدل‌های پایه برتر Amazon، که ابتدا در کنفرانس re:Invent 2024 به نمایش گذاشته شدند، اغلب مستلزم پیمایش در اکوسیستم‌های گسترده‌تر و پیچیده‌تر خدمات AWS، به‌ویژه Amazon Bedrock بود. در حالی که Bedrock همچنان نیروگاه مقیاس‌پذیری و استقرار برنامه‌های کاربردی هوش مصنوعی در سطح سازمانی باقی می‌ماند، nova.amazon.com به عنوان یک بستر اثبات قابل دسترس عمل می‌کند، یک آزمایشگاه دیجیتال که در آن آزمایش می‌تواند با اصطکاک کاهش‌یافته شکوفا شود.

این پورتال جدید از توسعه‌دهندگان، محققان و علاقه‌مندان به هوش مصنوعی که در ایالات متحده فعالیت می‌کنند دعوت می‌کند تا مستقیماً با خانواده مدل‌های Nova تعامل داشته باشند. این مجموعه قابلیت‌های متنوع Amazon در هوش مصنوعی مولد را نشان می‌دهد:

  • مدل‌های متنی Nova (Micro، Lite، Pro): این مدل‌ها با ارائه طیفی از قابلیت‌های تولید متن، احتمالاً نیازهای متفاوتی را برآورده می‌کنند، از وظایف سریع و سبک (Micro، Lite) مناسب برای چت‌بات‌ها یا خلاصه‌سازی محتوا، تا استدلال پیچیده، ایجاد محتوای طولانی و درک دقیق مورد نیاز برنامه‌های کاربردی پیشرفته (Pro). رویکرد لایه‌ای به توسعه‌دهندگان اجازه می‌دهد تا تعادل مناسب بین عملکرد، هزینه و پیچیدگی را برای مورد استفاده خاص خود انتخاب کنند. آزمایش از طریق nova.amazon.com امکان نمونه‌سازی سریع و ارزیابی را قبل از تعهد به استقرارهای مقیاس بزرگ‌تر فراهم می‌کند.
  • Nova Canvas: این مدل بر تولید تصویر تمرکز دارد و از علاقه عظیم پیرامون خلق بصری مبتنی بر هوش مصنوعی بهره می‌برد. توسعه‌دهندگان می‌توانند پتانسیل آن را برای تولید مواد بازاریابی، هنر مفهومی، تجسم محصول یا دارایی‌های دیجیتال منحصر به فرد، آزمایش دستورات (prompts) و اصلاح خروجی‌ها مستقیماً از طریق پلتفرم، کاوش کنند.
  • Nova Reel: با پرداختن به حوزه نوظهور تولید ویدئو، Nova Reel کاربران را قادر می‌سازد تا با ایجاد سکانس‌های ویدئویی کوتاه از دستورات متنی یا ورودی‌های بالقوه دیگر، آزمایش کنند. این امر راه‌هایی را برای ایجاد محتوای پویا، پیام‌رسانی شخصی‌سازی‌شده و قالب‌های داستان‌سرایی نوآورانه باز می‌کند.

ارزش پیشنهادی اصلی nova.amazon.com در فوریت آن نهفته است. این یک محیط سندباکس (sandbox) فراهم می‌کند که در آن توسعه‌دهندگان می‌توانند به سرعت فرضیه‌ها را آزمایش کنند، رفتار مدل را درک کنند و امکان‌سنجی ادغام این قابلیت‌های پیشرفته هوش مصنوعی را در پروژه‌های خود قبل از درگیر شدن با زیرساخت‌های گسترده‌تر و هزینه‌های بالقوه مرتبط با استقرار کامل ابری در سرویس‌هایی مانند Bedrock، ارزیابی کنند. این یک حرکت استراتژیک برای پرورش جامعه‌ای از نوآوری پیرامون هوش مصنوعی Amazon است که علاقه توسعه‌دهندگان را در مراحل اولیه ایده‌پردازی جلب می‌کند.

معرفی Nova Act: هوش مصنوعی سکان مرورگر را به دست می‌گیرد

شاید متمایزترین جزء این اعلامیه، Amazon Nova Act باشد. Nova Act که به عنوان یک پیش‌نمایش تحقیقاتی اولیه از طریق کیت توسعه نرم‌افزار (SDK) اختصاصی خود قابل دسترسی است، وارد حوزه اتوماسیون مرورگر مبتنی بر هوش مصنوعی می‌شود. این صرفاً مربوط به پر کردن فرم‌ها یا کلیک کردن بر روی دکمه‌ها بر اساس اسکریپت‌های سفت و سخت نیست؛ Nova Act با سطح بالاتری از هوش طراحی شده است و هدف آن درک و اجرای وظایف پیچیده و چند مرحله‌ای در محیط پویای یک مرورگر وب است.

تفاوت بین اتوماسیون فرآیند رباتیک (RPA) سنتی را در نظر بگیرید که اغلب به انتخابگرها و گردش‌های کاری از پیش تعریف‌شده متکی است که در برابر تغییرات وب‌سایت شکننده هستند، و یک عامل (agent) که می‌تواند قصد پشت یک کار را تفسیر کند. Nova Act آرزو دارد دومی باشد. Amazon پیشنهاد می‌کند که می‌تواند اهداف پیچیده - مانند تحقیق و رزرو یک سفر چند مرحله‌ای، مدیریت اشتراک‌های آنلاین در پلتفرم‌های مختلف، یا گردآوری داده‌ها از منابع وب مختلف - را به دنباله‌ای از اقدامات کوچک‌تر و قابل اجرا تجزیه کند. این یاد می‌گیرد که با عناصر وب (دکمه‌ها، فرم‌ها، منوها) به صورت زمینه‌ای تعامل داشته باشد و به طور بالقوه با تغییرات جزئی طرح‌بندی که اسکریپت‌های اتوماسیون ساده‌تر را می‌شکنند، سازگار شود.

Shubham Katiyar، مدیری که بر هوش مصنوعی مولد در Amazon تمرکز دارد، اهمیت این توسعه را به وضوح بیان کرد:

‘این نشان‌دهنده یک تغییر بنیادین در نحوه عملکرد عوامل هوش مصنوعی در محیط‌های دیجیتال است که اجرای قابل اعتماد وظایف پیچیده مبتنی بر وب از ارسال فرم تا مدیریت تقویم را با دقت بی‌سابقه امکان‌پذیر می‌سازد.’

تأکید بر ‘تغییر بنیادین’ و ‘دقت بی‌سابقه’ جاه‌طلبی Amazon برای Nova Act را برجسته می‌کند. این نه به عنوان یک بهبود تدریجی، بلکه به عنوان جهشی به جلو در ایجاد عوامل خودمختار قادر به پیمایش قابل اعتماد پیچیدگی‌های وب مدرن، موقعیت‌یابی شده است.

توانمندسازی توسعه‌دهندگان: Nova Act SDK

موتوری که توسعه‌دهندگان را قادر می‌سازد تا از این قابلیت اتوماسیون مرورگر بهره ببرند، Amazon Nova Act SDK است. این SDK که در ابتدا به عنوان یک پیش‌نمایش تحقیقاتی اولیه ارائه شده است، ابزارهایی را برای ساخت و سفارشی‌سازی این عوامل هوش مصنوعی پیمایشگر وب فراهم می‌کند. یک ویژگی کلیدی، پشتیبانی آن از کنترل دقیق و بهبود از طریق کد Python است. این به توسعه‌دهندگان اجازه می‌دهد تا فراتر از دستورالعمل‌های ساده مبتنی بر دستور حرکت کنند و منطق پیچیده‌ای را در عملکرد عامل ببافند.

SDK چندین رویه توسعه حیاتی را تسهیل می‌کند:

  • تجزیه وظیفه: توسعه‌دهندگان می‌توانند هوش مصنوعی را در شکستن اهداف بزرگ به وظایف فرعی قابل مدیریت راهنمایی کنند، قابلیت اطمینان را بهبود بخشند و فرآیند را شفاف‌تر کنند.
  • درهم‌آمیزی کد سفارشی: توانایی تزریق کد Python امکان موارد زیر را فراهم می‌کند:
    • تست‌ها: پیاده‌سازی بررسی‌ها در مراحل مختلف برای اطمینان از اینکه عامل طبق انتظار عمل می‌کند.
    • نقاط توقف (Breakpoints): توقف اجرا در نقاط خاص برای اشکال‌زدایی و بازرسی، که برای درک رفتار عامل حیاتی است.
    • تأییدها (Assertions): تعریف شرایطی که باید درست باشند تا فرآیند ادامه یابد و لایه‌هایی از اعتبارسنجی را اضافه می‌کند.
    • Thread Pooling برای موازی‌سازی: فعال کردن عامل برای مدیریت بالقوه چندین اقدام یا نمونه مرورگر به طور همزمان، که به طور قابل توجهی گردش‌های کاری پیچیده را سرعت می‌بخشد.

این سطح از ادغام نشان می‌دهد که Amazon، Nova Act را نه تنها به عنوان ابزاری برای کاربران نهایی، بلکه به عنوان یک جزء قدرتمند برای توسعه‌دهندگانی که راه‌حل‌های اتوماسیون پیچیده می‌سازند، تصور می‌کند. SDK قلاب‌های لازم را برای ایجاد عوامل هوش مصنوعی قوی، قابل آزمایش و بالقوه مقیاس‌پذیر متناسب با فرآیندهای تجاری خاص یا نیازهای کاربر فراهم می‌کند.

پیمایش در آب‌ها: افشاگری‌ها و ملاحظات

با قدرت زیاد، نیاز به مدیریت دقیق به وجود می‌آید. Amazon به طور قابل ستایشی در مورد وضعیت فعلی و محدودیت‌های Nova Act شفاف است و بر ماهیت آزمایشی آن به عنوان یک ‘پیش‌نمایش تحقیقاتی اولیه’ تأکید می‌کند. به کاربران و توسعه‌دهندگان صراحتاً یادآوری می‌شود که مسئولیت نظارت بر اقدامات عامل بر عهده آنهاست.

چندین افشاگری کلیدی شایسته توجه است:

  • پتانسیل خطا: هوش مصنوعی مصون از خطا نیست. Nova Act ممکن است در تفسیر دستورالعمل‌ها یا تعامل با عناصر وب اشتباه کند. نظارت و اعتبارسنجی مداوم، به ویژه در این مرحله تحقیقاتی، حیاتی است.
  • جمع‌آوری داده‌ها: برای بهبود مدل، Amazon داده‌های تعامل را جمع‌آوری می‌کند. این شامل دستورات (prompts) ارائه شده توسط کاربر و به طور قابل توجهی، اسکرین‌شات‌های گرفته شده در طول عملیات عامل است. این امر مکانیسم یادگیری سیستم را برجسته می‌کند اما ملاحظات مهم حریم خصوصی را نیز مطرح می‌کند.
  • اقدامات احتیاطی امنیتی: به توسعه‌دهندگان اکیداً توصیه می‌شود کلیدهای API خود را به اشتراک نگذارند. علاوه بر این، وارد کردن اطلاعات حساس شخصی یا مالی در حالی که Nova Act فعال است، توصیه نمی‌شود، زیرا این داده‌ها می‌توانند در اسکرین‌شات‌ها ثبت شوند. این یک هشدار حیاتی است، با توجه به تعامل مستقیم عامل با فرم‌ها و صفحات وب بالقوه حساس.

این هشدارها ضروری هستند. در حالی که پتانسیل Nova Act هیجان‌انگیز است، تکرار فعلی آن نیازمند استفاده محتاطانه و آگاهانه است. جنبه جمع‌آوری داده‌ها، به‌ویژه اسکرین‌شات گرفتن، مستلزم بررسی دقیق وظایف محول شده به عامل و محیط‌هایی است که در آن فعالیت می‌کند. با این حال، این چارچوب‌بندی مسئولانه، با تعیین انتظارات واقع‌بینانه در مراحل توسعه ابزار، اعتماد ایجاد می‌کند.

هیاهوی صنعت: اشتیاق با احتیاط روبرو می‌شود

این اعلامیه، همانطور که قابل پیش‌بینی بود، علاقه قابل توجهی را در جوامع فناوری و توسعه‌دهندگان برانگیخته است. چشم‌انداز دسترسی آسان‌تر به مدل‌های هوش مصنوعی پیشگام و ابزارهای جدیدی مانند Nova Act، جذابیت قدرتمندی دارد.

Wesley Kurosawa، که به عنوان تحلیلگر داده‌های تجاری معرفی شده است، احساسات خوش‌بینانه رایج در میان بسیاری از توسعه‌دهندگان را بیان کرد:

‘اخبار کاملاً باورنکردنی از Amazon! با nova.amazon.com، اکنون می‌توانیم مستقیماً به مدل‌های هوش مصنوعی پیشرفته دسترسی داشته باشیم و با قابلیت‌های هوش پیشگام که قبلاً دور از دسترس بودند، آزمایش کنیم. این ابزاری عالی برای توسعه‌دهندگانی مانند ما است تا به سرعت ایده‌ها را آزمایش کرده و سپس آنها را از طریق Amazon Bedrock مقیاس‌بندی کنیم. توانایی ساخت عوامل وب با Nova Act SDK امکانات کاملاً جدیدی را برای اتوماسیون و کمک باز می‌کند. Amazon واقعاً دسترسی به هوش مصنوعی پیشرفته را دموکراتیک کرده است - بی‌صبرانه منتظر شروع ساخت با آن هستم!’

واکنش Kurosawa مزایای کلیدی درک شده را برجسته می‌کند: دموکراتیک‌سازی هوش مصنوعی پیشرفته، سودمندی nova.amazon.com به عنوان یک پلتفرم نمونه‌سازی سریع، و پتانسیل آزاد شده توسط Nova Act SDK برای ایجاد راه‌حل‌های اتوماسیون و کمک جدید. مسیر یکپارچه از آزمایش در nova.amazon.com تا استقرار مقیاس‌بندی شده در Amazon Bedrock به عنوان یک مزیت قابل توجه تلقی می‌شود.

با این حال، قابلیت‌های منحصر به فرد Nova Act همچنین باعث بحث و طرح سوالات مرتبط می‌شود. توانایی آن در پیمایش و تعامل با وب‌سایت‌ها به روشی بالقوه بسیار سریع‌تر و پیچیده‌تر از رفتار معمول انسان، منجر به نگرانی‌هایی شده است، به‌ویژه در مورد اینکه وب‌سایت‌ها ممکن است فعالیت آن را چگونه درک کنند. یکی از کاربران در Reddit این نگرانی را بیان کرد:

‘بسیار جالب است، همه اینها باعث می‌شود فکر کنم که برخی وب‌سایت‌ها ممکن است آن را به عنوان تکنیک‌های خراشیدن وب (web scraping) ببینند، زیرا ممکن است برای اینکه فعالیت‌های عادی انسانی در نظر گرفته شود، بیش از حد سریع باشد. مطمئن هستم که این دوران بسیار جالبی خواهد بود. جایی که مرز بین خراشیدن وب و استفاده عادی تا حدودی همپوشانی خواهد داشت.’

این نظر به یک چالش نوظهور حیاتی اشاره می‌کند. Web scraping، استخراج خودکار داده‌ها از وب‌سایت‌ها، اغلب در یک منطقه خاکستری عمل می‌کند، گاهی اوقات شرایط خدمات را نقض می‌کند و به طور بالقوه سرورها را بیش از حد بارگذاری می‌کند. یک عامل هوش مصنوعی پیشرفته مانند Nova Act، در حالی که برای اجرای وظیفه به جای برداشت انبوه داده‌ها در نظر گرفته شده است، می‌تواند الگوهای مرورگری را نشان دهد که تشخیص آن از ربات‌های خراشنده تهاجمی دشوار است.

این محو شدن بالقوه مرزها بین کمک خودکار قانونی و تکنیک‌های خراشیدن ممنوع، چندین چالش را ایجاد می‌کند:

  1. تشخیص: مدیران وب‌سایت چگونه بین یک عامل Nova Act که یک کار قانونی درخواست شده توسط کاربر (مانند رزرو پرواز) را انجام می‌دهد و یک ربات که قیمت‌های پرواز را به صورت انبوه خراش می‌دهد، تمایز قائل می‌شوند؟ مکانیسم‌های تشخیص ممکن است نیاز به پیچیدگی قابل توجهی بیشتری داشته باشند و فراتر از محدودیت نرخ IP ساده یا CAPTCHA ها حرکت کنند.
  2. انطباق خط‌مشی: شرایط خدمات وب‌سایت ممکن است نیاز به بازنگری داشته باشد تا به صراحت به استفاده از عوامل هوش مصنوعی پیشرفته بپردازد. آیا آنها مجاز خواهند بود، محدود خواهند شد یا به دسترسی API خاصی نیاز خواهند داشت؟
  3. استفاده اخلاقی: توسعه‌دهندگانی که از Nova Act استفاده می‌کنند باید مراقب باری باشند که بر وب‌سایت‌ها وارد می‌کنند و به دستورالعمل‌های robots.txt و شرایط خدمات احترام بگذارند، حتی اگر عامل از نظر فنی بتواند برخی محدودیت‌ها را دور بزند. استفاده مسئولانه برای جلوگیری از واکنش شدید علیه این فناوری بسیار مهم خواهد بود.
  4. پتانسیل مسابقه تسلیحاتی: توسعه عوامل پیچیده می‌تواند باعث توسعه دفاع‌های ضد عامل به همان اندازه پیچیده شود و منجر به یک بازی موش و گربه فناوری مداوم شود.

‘دوران جالب’ پیش‌بینی شده توسط کاربر Reddit تقریباً قطعی به نظر می‌رسد، زیرا اکوسیستم وب با پیامدهای عوامل هوش مصنوعی قادر به تعامل شبیه انسان (یا فوق بشری) دست و پنجه نرم می‌کند.

نگاه به آینده: مسیر هوش مصنوعی Amazon

تعهد Amazon به هوش مصنوعی بسیار فراتر از این اعلامیه‌های فعلی است. این شرکت تلاش‌های مداومی را برای اصلاح مدل‌های موجود خود با تمرکز بر افزایش دقت، قابلیت‌های استدلال و سودمندی کلی آنها نشان داده است. این چرخه بهبود تکراری، رویه استانداردی در زمینه رقابتی هوش مصنوعی است و تضمین می‌کند که مدل‌ها پیشرفته باقی بمانند.

علاوه بر این، Amazon در حال ورود به حوزه‌های ظریف‌تر تعامل هوش مصنوعی است:

  • صداهای سفارشی: کاوش گزینه‌ها برای توسعه‌دهندگان به منظور ایجاد صداهای سفارشی برای برنامه‌های کاربردی هوش مصنوعی جذاب است. این می‌تواند منجر به تجربیات کاربری شخصی‌سازی‌شده‌تر و همسو با برند شود. با این حال، این امر همچنین با ملاحظات اخلاقی و ایمنی قابل توجهی همراه است. پتانسیل سوء استفاده در ایجاد دیپ‌فیک (deepfakes) یا جعل هویت، مستلزم پادمان‌های قوی و تعهد قوی به توسعه مسئولانه است که Amazon صراحتاً آن را تأیید می‌کند.
  • هوش مصنوعی چندوجهی (Multimodal AI): سرمایه‌گذاری در هوش مصنوعی چندوجهی در حال انجام است که قابلیت‌ها را در متن، صدا، تصویر و ویدئو ادغام می‌کند. دستیاران هوش مصنوعی را تصور کنید که نه تنها می‌توانند دستورات گفتاری را درک کنند، بلکه تصاویر نشان داده شده از طریق دوربین را نیز تفسیر کنند، تصاویر بصری مرتبط تولید کنند و با گفتار یا ویدئوی سنتز شده پاسخ دهند. این همگرایی وجه‌ها، نویدبخش تجربیات هوش مصنوعی بسیار پیچیده‌تر، تعاملی‌تر و آگاه از زمینه است که به طور بالقوه همه چیز را از دستیاران مجازی مانند Alexa گرفته تا خرید آنلاین و پلتفرم‌های ایجاد محتوا متحول می‌کند.

این مسیرهای آینده نشان می‌دهد که nova.amazon.com و Nova Act پرتاب‌های محصول جداگانه‌ای نیستند، بلکه گام‌هایی در یک استراتژی گسترده‌تر و بلندمدت برای جاسازی هوش مصنوعی پیشرفته و به‌طور فزاینده‌ای همه‌کاره در سراسر اکوسیستم وسیع Amazon و توانمندسازی توسعه‌دهندگان برای ساخت نسل بعدی برنامه‌های کاربردی مبتنی بر هوش مصنوعی هستند.

شروع کار: دسترسی و در دسترس بودن

در حال حاضر، دروازه ورود به این ابزارهای جدید، nova.amazon.com، برای کاربران مستقر در ایالات متحده که دارای حساب Amazon هستند، باز است. از طریق این پورتال، آنها می‌توانند آزمایش با مدل‌های مختلف تولید متن و تصویر Nova (Nova Micro، Lite، Pro، Canvas) را آغاز کنند و برای دسترسی به پیش‌نمایش تحقیقاتی Nova Act SDK درخواست دهند. این عرضه اولیه کنترل‌شده به Amazon اجازه می‌دهد تا بازخورد جمع‌آوری کند، الگوهای استفاده را نظارت کند و پیشنهادات را قبل از در دسترس بودن بالقوه گسترده‌تر، اصلاح کند. این امر جامعه توسعه‌دهندگان ایالات متحده را به عنوان بستر آزمایشی اولیه برای این قابلیت‌های پیشرفته قرار می‌دهد و زمینه را برای گسترش جهانی آینده فراهم می‌کند. سفر به اتوماسیون مرورگر مبتنی بر هوش مصنوعی و مدل‌های پایه به راحتی در دسترس آغاز شده است و Amazon پرچم خود را محکم در این قلمرو جدید هیجان‌انگیز برافراشته است.