چشمانداز هوش مصنوعی که به سرعت در حال تحول است، شاهد رقابت مداوم غولهای فناوری برای کسب جایگاه برتر است؛ هر کدام به دنبال دموکراتیک کردن دسترسی و در عین حال، پیش بردن مرزهای قابلیتها هستند. Amazon، نیرویی قدرتمند در رایانش ابری و تجارت الکترونیک، حضور خود در حوزه هوش مصنوعی مولد را به طور قابل توجهی تقویت کرده است. این شرکت اخیراً از nova.amazon.com پردهبرداری کرد، پورتالی اختصاصی که برای سادهسازی تعامل توسعهدهندگان با مدلهای پایه قدرتمندش مهندسی شده است. این ابتکار همزمان با معرفی ابزاری بهویژه جذاب است: Amazon Nova Act، یک مدل هوش مصنوعی که با دقت برای پیمایش و انجام وظایف مستقیماً در مرورگرهای وب آموزش دیده است و مرحله جدیدی را در تعامل خودکار وب نشان میدهد.
گشودن درها: دروازه توسعهدهندگان Nova
رونمایی استراتژیک Amazon از nova.amazon.com چیزی بیش از یک آدرس وب جدید است؛ این نشاندهنده تلاشی هماهنگ برای کاهش موانع ورود برای توسعهدهندگانی است که مشتاق کاوش و بهرهبرداری از هوش مصنوعی پیشرفته هستند. پیش از این پلتفرم، دسترسی به مدلهای پایه برتر Amazon، که ابتدا در کنفرانس re:Invent 2024 به نمایش گذاشته شدند، اغلب مستلزم پیمایش در اکوسیستمهای گستردهتر و پیچیدهتر خدمات AWS، بهویژه Amazon Bedrock بود. در حالی که Bedrock همچنان نیروگاه مقیاسپذیری و استقرار برنامههای کاربردی هوش مصنوعی در سطح سازمانی باقی میماند، nova.amazon.com به عنوان یک بستر اثبات قابل دسترس عمل میکند، یک آزمایشگاه دیجیتال که در آن آزمایش میتواند با اصطکاک کاهشیافته شکوفا شود.
این پورتال جدید از توسعهدهندگان، محققان و علاقهمندان به هوش مصنوعی که در ایالات متحده فعالیت میکنند دعوت میکند تا مستقیماً با خانواده مدلهای Nova تعامل داشته باشند. این مجموعه قابلیتهای متنوع Amazon در هوش مصنوعی مولد را نشان میدهد:
- مدلهای متنی Nova (Micro، Lite، Pro): این مدلها با ارائه طیفی از قابلیتهای تولید متن، احتمالاً نیازهای متفاوتی را برآورده میکنند، از وظایف سریع و سبک (Micro، Lite) مناسب برای چتباتها یا خلاصهسازی محتوا، تا استدلال پیچیده، ایجاد محتوای طولانی و درک دقیق مورد نیاز برنامههای کاربردی پیشرفته (Pro). رویکرد لایهای به توسعهدهندگان اجازه میدهد تا تعادل مناسب بین عملکرد، هزینه و پیچیدگی را برای مورد استفاده خاص خود انتخاب کنند. آزمایش از طریق nova.amazon.com امکان نمونهسازی سریع و ارزیابی را قبل از تعهد به استقرارهای مقیاس بزرگتر فراهم میکند.
- Nova Canvas: این مدل بر تولید تصویر تمرکز دارد و از علاقه عظیم پیرامون خلق بصری مبتنی بر هوش مصنوعی بهره میبرد. توسعهدهندگان میتوانند پتانسیل آن را برای تولید مواد بازاریابی، هنر مفهومی، تجسم محصول یا داراییهای دیجیتال منحصر به فرد، آزمایش دستورات (prompts) و اصلاح خروجیها مستقیماً از طریق پلتفرم، کاوش کنند.
- Nova Reel: با پرداختن به حوزه نوظهور تولید ویدئو، Nova Reel کاربران را قادر میسازد تا با ایجاد سکانسهای ویدئویی کوتاه از دستورات متنی یا ورودیهای بالقوه دیگر، آزمایش کنند. این امر راههایی را برای ایجاد محتوای پویا، پیامرسانی شخصیسازیشده و قالبهای داستانسرایی نوآورانه باز میکند.
ارزش پیشنهادی اصلی nova.amazon.com در فوریت آن نهفته است. این یک محیط سندباکس (sandbox) فراهم میکند که در آن توسعهدهندگان میتوانند به سرعت فرضیهها را آزمایش کنند، رفتار مدل را درک کنند و امکانسنجی ادغام این قابلیتهای پیشرفته هوش مصنوعی را در پروژههای خود قبل از درگیر شدن با زیرساختهای گستردهتر و هزینههای بالقوه مرتبط با استقرار کامل ابری در سرویسهایی مانند Bedrock، ارزیابی کنند. این یک حرکت استراتژیک برای پرورش جامعهای از نوآوری پیرامون هوش مصنوعی Amazon است که علاقه توسعهدهندگان را در مراحل اولیه ایدهپردازی جلب میکند.
معرفی Nova Act: هوش مصنوعی سکان مرورگر را به دست میگیرد
شاید متمایزترین جزء این اعلامیه، Amazon Nova Act باشد. Nova Act که به عنوان یک پیشنمایش تحقیقاتی اولیه از طریق کیت توسعه نرمافزار (SDK) اختصاصی خود قابل دسترسی است، وارد حوزه اتوماسیون مرورگر مبتنی بر هوش مصنوعی میشود. این صرفاً مربوط به پر کردن فرمها یا کلیک کردن بر روی دکمهها بر اساس اسکریپتهای سفت و سخت نیست؛ Nova Act با سطح بالاتری از هوش طراحی شده است و هدف آن درک و اجرای وظایف پیچیده و چند مرحلهای در محیط پویای یک مرورگر وب است.
تفاوت بین اتوماسیون فرآیند رباتیک (RPA) سنتی را در نظر بگیرید که اغلب به انتخابگرها و گردشهای کاری از پیش تعریفشده متکی است که در برابر تغییرات وبسایت شکننده هستند، و یک عامل (agent) که میتواند قصد پشت یک کار را تفسیر کند. Nova Act آرزو دارد دومی باشد. Amazon پیشنهاد میکند که میتواند اهداف پیچیده - مانند تحقیق و رزرو یک سفر چند مرحلهای، مدیریت اشتراکهای آنلاین در پلتفرمهای مختلف، یا گردآوری دادهها از منابع وب مختلف - را به دنبالهای از اقدامات کوچکتر و قابل اجرا تجزیه کند. این یاد میگیرد که با عناصر وب (دکمهها، فرمها، منوها) به صورت زمینهای تعامل داشته باشد و به طور بالقوه با تغییرات جزئی طرحبندی که اسکریپتهای اتوماسیون سادهتر را میشکنند، سازگار شود.
Shubham Katiyar، مدیری که بر هوش مصنوعی مولد در Amazon تمرکز دارد، اهمیت این توسعه را به وضوح بیان کرد:
‘این نشاندهنده یک تغییر بنیادین در نحوه عملکرد عوامل هوش مصنوعی در محیطهای دیجیتال است که اجرای قابل اعتماد وظایف پیچیده مبتنی بر وب از ارسال فرم تا مدیریت تقویم را با دقت بیسابقه امکانپذیر میسازد.’
تأکید بر ‘تغییر بنیادین’ و ‘دقت بیسابقه’ جاهطلبی Amazon برای Nova Act را برجسته میکند. این نه به عنوان یک بهبود تدریجی، بلکه به عنوان جهشی به جلو در ایجاد عوامل خودمختار قادر به پیمایش قابل اعتماد پیچیدگیهای وب مدرن، موقعیتیابی شده است.
توانمندسازی توسعهدهندگان: Nova Act SDK
موتوری که توسعهدهندگان را قادر میسازد تا از این قابلیت اتوماسیون مرورگر بهره ببرند، Amazon Nova Act SDK است. این SDK که در ابتدا به عنوان یک پیشنمایش تحقیقاتی اولیه ارائه شده است، ابزارهایی را برای ساخت و سفارشیسازی این عوامل هوش مصنوعی پیمایشگر وب فراهم میکند. یک ویژگی کلیدی، پشتیبانی آن از کنترل دقیق و بهبود از طریق کد Python است. این به توسعهدهندگان اجازه میدهد تا فراتر از دستورالعملهای ساده مبتنی بر دستور حرکت کنند و منطق پیچیدهای را در عملکرد عامل ببافند.
SDK چندین رویه توسعه حیاتی را تسهیل میکند:
- تجزیه وظیفه: توسعهدهندگان میتوانند هوش مصنوعی را در شکستن اهداف بزرگ به وظایف فرعی قابل مدیریت راهنمایی کنند، قابلیت اطمینان را بهبود بخشند و فرآیند را شفافتر کنند.
- درهمآمیزی کد سفارشی: توانایی تزریق کد Python امکان موارد زیر را فراهم میکند:
- تستها: پیادهسازی بررسیها در مراحل مختلف برای اطمینان از اینکه عامل طبق انتظار عمل میکند.
- نقاط توقف (Breakpoints): توقف اجرا در نقاط خاص برای اشکالزدایی و بازرسی، که برای درک رفتار عامل حیاتی است.
- تأییدها (Assertions): تعریف شرایطی که باید درست باشند تا فرآیند ادامه یابد و لایههایی از اعتبارسنجی را اضافه میکند.
- Thread Pooling برای موازیسازی: فعال کردن عامل برای مدیریت بالقوه چندین اقدام یا نمونه مرورگر به طور همزمان، که به طور قابل توجهی گردشهای کاری پیچیده را سرعت میبخشد.
این سطح از ادغام نشان میدهد که Amazon، Nova Act را نه تنها به عنوان ابزاری برای کاربران نهایی، بلکه به عنوان یک جزء قدرتمند برای توسعهدهندگانی که راهحلهای اتوماسیون پیچیده میسازند، تصور میکند. SDK قلابهای لازم را برای ایجاد عوامل هوش مصنوعی قوی، قابل آزمایش و بالقوه مقیاسپذیر متناسب با فرآیندهای تجاری خاص یا نیازهای کاربر فراهم میکند.
پیمایش در آبها: افشاگریها و ملاحظات
با قدرت زیاد، نیاز به مدیریت دقیق به وجود میآید. Amazon به طور قابل ستایشی در مورد وضعیت فعلی و محدودیتهای Nova Act شفاف است و بر ماهیت آزمایشی آن به عنوان یک ‘پیشنمایش تحقیقاتی اولیه’ تأکید میکند. به کاربران و توسعهدهندگان صراحتاً یادآوری میشود که مسئولیت نظارت بر اقدامات عامل بر عهده آنهاست.
چندین افشاگری کلیدی شایسته توجه است:
- پتانسیل خطا: هوش مصنوعی مصون از خطا نیست. Nova Act ممکن است در تفسیر دستورالعملها یا تعامل با عناصر وب اشتباه کند. نظارت و اعتبارسنجی مداوم، به ویژه در این مرحله تحقیقاتی، حیاتی است.
- جمعآوری دادهها: برای بهبود مدل، Amazon دادههای تعامل را جمعآوری میکند. این شامل دستورات (prompts) ارائه شده توسط کاربر و به طور قابل توجهی، اسکرینشاتهای گرفته شده در طول عملیات عامل است. این امر مکانیسم یادگیری سیستم را برجسته میکند اما ملاحظات مهم حریم خصوصی را نیز مطرح میکند.
- اقدامات احتیاطی امنیتی: به توسعهدهندگان اکیداً توصیه میشود کلیدهای API خود را به اشتراک نگذارند. علاوه بر این، وارد کردن اطلاعات حساس شخصی یا مالی در حالی که Nova Act فعال است، توصیه نمیشود، زیرا این دادهها میتوانند در اسکرینشاتها ثبت شوند. این یک هشدار حیاتی است، با توجه به تعامل مستقیم عامل با فرمها و صفحات وب بالقوه حساس.
این هشدارها ضروری هستند. در حالی که پتانسیل Nova Act هیجانانگیز است، تکرار فعلی آن نیازمند استفاده محتاطانه و آگاهانه است. جنبه جمعآوری دادهها، بهویژه اسکرینشات گرفتن، مستلزم بررسی دقیق وظایف محول شده به عامل و محیطهایی است که در آن فعالیت میکند. با این حال، این چارچوببندی مسئولانه، با تعیین انتظارات واقعبینانه در مراحل توسعه ابزار، اعتماد ایجاد میکند.
هیاهوی صنعت: اشتیاق با احتیاط روبرو میشود
این اعلامیه، همانطور که قابل پیشبینی بود، علاقه قابل توجهی را در جوامع فناوری و توسعهدهندگان برانگیخته است. چشمانداز دسترسی آسانتر به مدلهای هوش مصنوعی پیشگام و ابزارهای جدیدی مانند Nova Act، جذابیت قدرتمندی دارد.
Wesley Kurosawa، که به عنوان تحلیلگر دادههای تجاری معرفی شده است، احساسات خوشبینانه رایج در میان بسیاری از توسعهدهندگان را بیان کرد:
‘اخبار کاملاً باورنکردنی از Amazon! با nova.amazon.com، اکنون میتوانیم مستقیماً به مدلهای هوش مصنوعی پیشرفته دسترسی داشته باشیم و با قابلیتهای هوش پیشگام که قبلاً دور از دسترس بودند، آزمایش کنیم. این ابزاری عالی برای توسعهدهندگانی مانند ما است تا به سرعت ایدهها را آزمایش کرده و سپس آنها را از طریق Amazon Bedrock مقیاسبندی کنیم. توانایی ساخت عوامل وب با Nova Act SDK امکانات کاملاً جدیدی را برای اتوماسیون و کمک باز میکند. Amazon واقعاً دسترسی به هوش مصنوعی پیشرفته را دموکراتیک کرده است - بیصبرانه منتظر شروع ساخت با آن هستم!’
واکنش Kurosawa مزایای کلیدی درک شده را برجسته میکند: دموکراتیکسازی هوش مصنوعی پیشرفته، سودمندی nova.amazon.com به عنوان یک پلتفرم نمونهسازی سریع، و پتانسیل آزاد شده توسط Nova Act SDK برای ایجاد راهحلهای اتوماسیون و کمک جدید. مسیر یکپارچه از آزمایش در nova.amazon.com تا استقرار مقیاسبندی شده در Amazon Bedrock به عنوان یک مزیت قابل توجه تلقی میشود.
با این حال، قابلیتهای منحصر به فرد Nova Act همچنین باعث بحث و طرح سوالات مرتبط میشود. توانایی آن در پیمایش و تعامل با وبسایتها به روشی بالقوه بسیار سریعتر و پیچیدهتر از رفتار معمول انسان، منجر به نگرانیهایی شده است، بهویژه در مورد اینکه وبسایتها ممکن است فعالیت آن را چگونه درک کنند. یکی از کاربران در Reddit این نگرانی را بیان کرد:
‘بسیار جالب است، همه اینها باعث میشود فکر کنم که برخی وبسایتها ممکن است آن را به عنوان تکنیکهای خراشیدن وب (web scraping) ببینند، زیرا ممکن است برای اینکه فعالیتهای عادی انسانی در نظر گرفته شود، بیش از حد سریع باشد. مطمئن هستم که این دوران بسیار جالبی خواهد بود. جایی که مرز بین خراشیدن وب و استفاده عادی تا حدودی همپوشانی خواهد داشت.’
این نظر به یک چالش نوظهور حیاتی اشاره میکند. Web scraping، استخراج خودکار دادهها از وبسایتها، اغلب در یک منطقه خاکستری عمل میکند، گاهی اوقات شرایط خدمات را نقض میکند و به طور بالقوه سرورها را بیش از حد بارگذاری میکند. یک عامل هوش مصنوعی پیشرفته مانند Nova Act، در حالی که برای اجرای وظیفه به جای برداشت انبوه دادهها در نظر گرفته شده است، میتواند الگوهای مرورگری را نشان دهد که تشخیص آن از رباتهای خراشنده تهاجمی دشوار است.
این محو شدن بالقوه مرزها بین کمک خودکار قانونی و تکنیکهای خراشیدن ممنوع، چندین چالش را ایجاد میکند:
- تشخیص: مدیران وبسایت چگونه بین یک عامل Nova Act که یک کار قانونی درخواست شده توسط کاربر (مانند رزرو پرواز) را انجام میدهد و یک ربات که قیمتهای پرواز را به صورت انبوه خراش میدهد، تمایز قائل میشوند؟ مکانیسمهای تشخیص ممکن است نیاز به پیچیدگی قابل توجهی بیشتری داشته باشند و فراتر از محدودیت نرخ IP ساده یا CAPTCHA ها حرکت کنند.
- انطباق خطمشی: شرایط خدمات وبسایت ممکن است نیاز به بازنگری داشته باشد تا به صراحت به استفاده از عوامل هوش مصنوعی پیشرفته بپردازد. آیا آنها مجاز خواهند بود، محدود خواهند شد یا به دسترسی API خاصی نیاز خواهند داشت؟
- استفاده اخلاقی: توسعهدهندگانی که از Nova Act استفاده میکنند باید مراقب باری باشند که بر وبسایتها وارد میکنند و به دستورالعملهای
robots.txt
و شرایط خدمات احترام بگذارند، حتی اگر عامل از نظر فنی بتواند برخی محدودیتها را دور بزند. استفاده مسئولانه برای جلوگیری از واکنش شدید علیه این فناوری بسیار مهم خواهد بود. - پتانسیل مسابقه تسلیحاتی: توسعه عوامل پیچیده میتواند باعث توسعه دفاعهای ضد عامل به همان اندازه پیچیده شود و منجر به یک بازی موش و گربه فناوری مداوم شود.
‘دوران جالب’ پیشبینی شده توسط کاربر Reddit تقریباً قطعی به نظر میرسد، زیرا اکوسیستم وب با پیامدهای عوامل هوش مصنوعی قادر به تعامل شبیه انسان (یا فوق بشری) دست و پنجه نرم میکند.
نگاه به آینده: مسیر هوش مصنوعی Amazon
تعهد Amazon به هوش مصنوعی بسیار فراتر از این اعلامیههای فعلی است. این شرکت تلاشهای مداومی را برای اصلاح مدلهای موجود خود با تمرکز بر افزایش دقت، قابلیتهای استدلال و سودمندی کلی آنها نشان داده است. این چرخه بهبود تکراری، رویه استانداردی در زمینه رقابتی هوش مصنوعی است و تضمین میکند که مدلها پیشرفته باقی بمانند.
علاوه بر این، Amazon در حال ورود به حوزههای ظریفتر تعامل هوش مصنوعی است:
- صداهای سفارشی: کاوش گزینهها برای توسعهدهندگان به منظور ایجاد صداهای سفارشی برای برنامههای کاربردی هوش مصنوعی جذاب است. این میتواند منجر به تجربیات کاربری شخصیسازیشدهتر و همسو با برند شود. با این حال، این امر همچنین با ملاحظات اخلاقی و ایمنی قابل توجهی همراه است. پتانسیل سوء استفاده در ایجاد دیپفیک (deepfakes) یا جعل هویت، مستلزم پادمانهای قوی و تعهد قوی به توسعه مسئولانه است که Amazon صراحتاً آن را تأیید میکند.
- هوش مصنوعی چندوجهی (Multimodal AI): سرمایهگذاری در هوش مصنوعی چندوجهی در حال انجام است که قابلیتها را در متن، صدا، تصویر و ویدئو ادغام میکند. دستیاران هوش مصنوعی را تصور کنید که نه تنها میتوانند دستورات گفتاری را درک کنند، بلکه تصاویر نشان داده شده از طریق دوربین را نیز تفسیر کنند، تصاویر بصری مرتبط تولید کنند و با گفتار یا ویدئوی سنتز شده پاسخ دهند. این همگرایی وجهها، نویدبخش تجربیات هوش مصنوعی بسیار پیچیدهتر، تعاملیتر و آگاه از زمینه است که به طور بالقوه همه چیز را از دستیاران مجازی مانند Alexa گرفته تا خرید آنلاین و پلتفرمهای ایجاد محتوا متحول میکند.
این مسیرهای آینده نشان میدهد که nova.amazon.com و Nova Act پرتابهای محصول جداگانهای نیستند، بلکه گامهایی در یک استراتژی گستردهتر و بلندمدت برای جاسازی هوش مصنوعی پیشرفته و بهطور فزایندهای همهکاره در سراسر اکوسیستم وسیع Amazon و توانمندسازی توسعهدهندگان برای ساخت نسل بعدی برنامههای کاربردی مبتنی بر هوش مصنوعی هستند.
شروع کار: دسترسی و در دسترس بودن
در حال حاضر، دروازه ورود به این ابزارهای جدید، nova.amazon.com، برای کاربران مستقر در ایالات متحده که دارای حساب Amazon هستند، باز است. از طریق این پورتال، آنها میتوانند آزمایش با مدلهای مختلف تولید متن و تصویر Nova (Nova Micro، Lite، Pro، Canvas) را آغاز کنند و برای دسترسی به پیشنمایش تحقیقاتی Nova Act SDK درخواست دهند. این عرضه اولیه کنترلشده به Amazon اجازه میدهد تا بازخورد جمعآوری کند، الگوهای استفاده را نظارت کند و پیشنهادات را قبل از در دسترس بودن بالقوه گستردهتر، اصلاح کند. این امر جامعه توسعهدهندگان ایالات متحده را به عنوان بستر آزمایشی اولیه برای این قابلیتهای پیشرفته قرار میدهد و زمینه را برای گسترش جهانی آینده فراهم میکند. سفر به اتوماسیون مرورگر مبتنی بر هوش مصنوعی و مدلهای پایه به راحتی در دسترس آغاز شده است و Amazon پرچم خود را محکم در این قلمرو جدید هیجانانگیز برافراشته است.