أمازون تكشف عن Nova Act: مسار لوكلاء AI مستقلين

يعج المشهد الرقمي بالذكاء الاصطناعي، ومع ذلك يظل الكثير منه مقيدًا، ويعمل ضمن معايير محددة مسبقًا أو يعتمد بشكل كبير على تغذيات البيانات المنظمة وواجهات برمجة التطبيقات (APIs). لقد ظل حلم الوكلاء المستقلين حقًا - المساعدين الرقميين القادرين على التنقل في بيئة شبكة الويب العالمية (World Wide Web) الفوضوية وغير المتوقعة لإنجاز أهداف معقدة - بعيد المنال إلى حد كبير. تخطو Amazon الآن بجرأة إلى هذه الساحة، كاشفة عن Nova Act، وهو نموذج ذكاء اصطناعي متطور تم تصميمه بدقة لتمكين الوكلاء الذين يمكنهم فهم متصفحات الويب والتفاعل معها، وتنفيذ مهام معقدة تشبه إلى حد كبير ما يفعله المستخدم البشري. تشير هذه المبادرة إلى دفعة كبيرة تتجاوز القيود الحالية، وتهدف إلى الدخول في عصر مساعدي الذكاء الاصطناعي الأكثر قدرة وموثوقية وتنوعًا.

الرؤية الكبرى: تجاوز الأوامر البسيطة إلى حل المشكلات المعقدة

يمتد طموح Amazon إلى ما هو أبعد من جلب تقارير الطقس أو ضبط المؤقتات. تطرح الشركة رؤية مقنعة حيث يدير وكلاء الذكاء الاصطناعي بسلاسة أهدافًا متعددة الأوجه داخل العوالم الرقمية، وربما المادية المترابطة. تخيل ذكاءً اصطناعيًا قادرًا على تنسيق التفاصيل التي لا تعد ولا تحصى لـ تخطيط حفل زفاف، وتنسيق البائعين، وإدارة الميزانيات، وتتبع الردود على الدعوات (RSVPs) من خلال بوابات مختلفة عبر الإنترنت. تصور وكلاء متطورين يتعاملون مع مهام إدارة تكنولوجيا المعلومات (IT) المعقدة، واستكشاف مشكلات الشبكة وإصلاحها، وإدارة تراخيص البرامج، أو تأهيل الموظفين الجدد من خلال التفاعل المباشر مع الأدوات الداخلية المستندة إلى الويب. يمثل هذا تحولًا نموذجيًا من الروبوتات المخصصة لمهام محددة إلى شركاء رقميين موجهين نحو الأهداف مصممين لتعزيز الراحة الشخصية بشكل كبير وزيادة إنتاجية الأعمال.

غالبًا ما تتعثر نماذج الذكاء الاصطناعي التوليدية الحالية، على الرغم من كفاءتها في المحادثة وإنشاء المحتوى، عند مواجهة الطبيعة الديناميكية وغير المتسقة غالبًا لواجهات الويب. يتطلب تنفيذ سلسلة من الإجراءات - تسجيل الدخول، والتنقل في القوائم، وملء النماذج، وتفسير الإشارات المرئية، والاستجابة للنوافذ المنبثقة غير المتوقعة - مستوى من الفهم السياقي والموثوقية التشغيلية التي كان من الصعب تحقيقها باستمرار. تعترف Amazon صراحة بهذه العقبات، وتضع Nova Act كاستجابتها الاستراتيجية، المصممة من الألف إلى الياء لإتقان تعقيدات تنفيذ المهام المستندة إلى الويب.

تقديم Nova Act: المحرك للتنقل الذكي على الويب

Nova Act ليس مجرد نموذج لغوي كبير آخر؛ إنه نظام متخصص يركز على ترجمة القصد البشري إلى إجراءات ملموسة داخل متصفح الويب. إنه يمثل جهدًا منسقًا لمنح الذكاء الاصطناعي القدرة على إدراك عناصر الويب وفهمها والتعامل معها بفعالية. يكمن التحدي الأساسي في سد الفجوة بين تعليمات اللغة الطبيعية (“احجز غرفة اجتماعات ليوم الثلاثاء القادم”) والتسلسل المحدد للنقرات والتمريرات وإدخالات النص المطلوبة لتلبية هذا الطلب على موقع ويب أو تطبيق ويب معين.

يدرك نهج Amazon أن الويب ليس كيانًا ثابتًا. تتغير تخطيطات مواقع الويب، وتختلف الواجهات بشكل كبير، ويتم تحميل المحتوى الديناميكي بشكل غير متوقع. لذلك، يحتاج الوكيل إلى أكثر من مجرد الكفاءة اللغوية؛ إنه يتطلب فهمًا قويًا لهياكل الويب (HTML، DOM)، والعناصر المرئية، وأنماط التفاعل. يتم تطوير Nova Act لامتلاك هذا الفهم الدقيق، مما يمكنه من العمل بدقة أكبر وقدرة على التكيف عبر بيئات الإنترنت المتنوعة. هذا التركيز على التفاعل الأصلي للويب هو ما يميز غرض Nova Act عن نماذج الذكاء الاصطناعي ذات الأغراض العامة.

تمكين المطورين: حزمة تطوير برامج Nova Act

لترجمة قدرة الذكاء الاصطناعي المتقدمة هذه إلى تطبيقات عملية، تصدر Amazon معاينة بحثية لحزمة تطوير برامج Nova Act (SDK). تم تصميم مجموعة الأدوات هذه للمطورين المتحمسين لبناء الجيل التالي من الوكلاء المستقلين. إنها توفر اللبنات الأساسية وعناصر التحكم اللازمة لتسخير قوة Nova Act لأتمتة تدفقات العمل المستندة إلى الويب.

حجر الزاوية في فلسفة تصميم SDK هو تحليل العمليات المعقدة إلى وحدات أساسية موثوقة تسمى “الأوامر الذرية” (atomic commands). فكر في هذه على أنها الأفعال الأساسية للتفاعل على الويب:

  • البحث (Searching): تحديد موقع معلومات أو عناصر محددة على الصفحة.
  • الدفع (Checking Out): إكمال عملية الشراء في التجارة الإلكترونية.
  • التفاعل (Interacting): التعامل مع مكونات واجهة محددة مثل القوائم المنسدلة، ومربعات الاختيار، ومنتقي التاريخ، أو النوافذ المنبثقة المشروطة.
  • التنقل (Navigating): الانتقال بين الصفحات أو أقسام موقع الويب.
  • إدخال البيانات (Inputting Data): ملء النماذج أو حقول النص بدقة.

لا يقتصر المطورون على هذه الأوامر عالية المستوى. يسمح SDK بإضافة تعليمات مفصلة لتحسين سلوك الوكيل. على سبيل المثال، يمكن توجيه وكيل مكلف بحجز رحلة طيران على وجه التحديد لـ تجاهل عروض التأمين على السفر أو تجاوز عمليات البيع الإضافية لاختيار المقاعد أثناء عملية الدفع. هذا المستوى من التحكم الدقيق ضروري لإنشاء وكلاء يؤدون المهام تمامًا كما هو مقصود، مع الالتزام بتفضيلات المستخدم المحددة أو قواعد العمل.

لدعم الموثوقية والدقة المطلوبة لأتمتة الويب في العالم الحقيقي، يدمج SDK العديد من الآليات القوية:

  • التحكم في المتصفح عبر Playwright: يستفيد من إطار عمل Playwright الشهير لأتمتة قوية عبر المتصفحات، مما يوفر تحكمًا دقيقًا في إجراءات المتصفح.
  • استدعاءات API: تمكن الوكلاء من التفاعل مع خدمات الويب مباشرة عبر واجهات برمجة التطبيقات (APIs) عند توفرها، مما يوفر بديلاً أكثر استقرارًا وكفاءة للتلاعب بواجهة المستخدم لمهام معينة.
  • تكاملات Python: تسمح للمطورين بتضمين كود Python مخصص، مما يتيح منطقًا معقدًا أو معالجة بيانات أو تكاملًا مع أنظمة أخرى ضمن سير عمل الوكيل.
  • المعالجة المتوازية (Parallel Threading): تساعد في التخفيف من التأخيرات الناجمة عن بطء تحميل صفحات الويب أو زمن انتقال الشبكة عن طريق السماح بتشغيل عمليات معينة بشكل متزامن، مما يحسن سرعة إنجاز المهام الإجمالية والمرونة.

تهدف مجموعة الأدوات الشاملة هذه إلى تزويد المطورين بالمرونة والقوة اللازمتين لمواجهة تحديات الأتمتة المتطورة التي كانت في السابق غير عملية أو غير موثوقة.

القياس: التركيز على الأداء والموثوقية العملية

بينما تعد درجات قياس الأداء عملة شائعة في عالم الذكاء الاصطناعي، تؤكد Amazon أن تطوير Nova Act يعطي الأولوية لـ الموثوقية العملية على مجرد تصدر قوائم المتصدرين في الاختبارات المجردة. الهدف هو بناء وكلاء يعملون باستمرار في سيناريوهات العالم الحقيقي، حتى لو كان ذلك يعني التركيز الشديد على قدرات محددة حاسمة للتفاعل على الويب.

ومع ذلك، يُظهر Nova Act أداءً استثنائيًا في معايير الأداء المصممة خصيصًا لتقييم التفاعل مع واجهات الويب. تسلط Amazon الضوء على درجات مذهلة تتجاوز دقة 90% في التقييمات الداخلية التي تستهدف القدرات التي غالبًا ما تتحدى النماذج المنافسة.

في معايير الأداء المعمول بها، النتائج جديرة بالملاحظة:

  • ScreenSpot Web Text: يقيم هذا المعيار قدرة الذكاء الاصطناعي على تفسير تعليمات اللغة الطبيعية المتعلقة بالتفاعلات النصية على صفحات الويب (على سبيل المثال، “زيادة حجم الخط”، “ابحث عن الفقرة التي تذكر الاشتراكات”). حقق Nova Act درجة شبه مثالية بلغت 0.939، متجاوزًا بشكل كبير النماذج البارزة مثل Claude 3.7 Sonnet (0.900) وOpenAI’s CUA (Conceptual User Agent benchmark) (0.883).
  • ScreenSpot Web Icon: يركز هذا الاختبار على التفاعلات مع العناصر المرئية غير النصية مثل تقييمات النجوم أو الرموز أو أشرطة التمرير. أدى Nova Act مرة أخرى أداءً قويًا، مسجلاً 0.879.

ومن المثير للاهتمام، في اختبار GroundUI Web، الذي يقيم بشكل عام الكفاءة في التنقل في عناصر واجهة المستخدم المتنوعة، أظهر Nova Act أداءً أقل قليلاً مقارنة ببعض المنافسين. تعترف Amazon بصراحة بهذا، وتؤطره ليس على أنه فشل ولكن كـ مجال مستهدف للتحسين مع استمرار النموذج في التطور من خلال التدريب المستمر والتحسين. تؤكد هذه الشفافية التركيز على بناء أداة مفيدة حقًا، مع الاعتراف بأن التطوير عملية تكرارية.

يظل التركيز ثابتًا على التنفيذ الموثوق. تؤكد Amazon أنه بمجرد أن يقوم وكيل تم إنشاؤه باستخدام Nova Act SDK بأداء مهمة بشكل صحيح وموثوق في التطوير، يجب أن يكون لدى المطورين ثقة عالية في نشره. يمكن تشغيل هؤلاء الوكلاء بدون واجهة مرئية (headlessly) (بدون نافذة متصفح مرئية)، أو دمجهم في تطبيقات أكبر عبر APIs، أو حتى جدولتهم لأداء المهام بشكل مستقل في أوقات محددة. المثال المقدم - وكيل يطلب تلقائيًا سلطة مفضلة للتوصيل كل مساء ثلاثاء دون الحاجة إلى أي تفاعل من المستخدم بعد الإعداد الأولي - يوضح تمامًا هذه الرؤية للأتمتة السلسة والموثوقة للمهام الرقمية الروتينية.

قفزة في القدرة على التكيف: تعلم ونقل فهم واجهة المستخدم

أحد الجوانب الأكثر إقناعًا في Nova Act هو قدرته المزعومة على تعميم فهمه لواجهات المستخدم وتطبيقه بفعالية في بيئات جديدة بأقل قدر من إعادة التدريب المخصص للمهام أو بدونها. هذه القدرة، التي يشار إليها غالبًا باسم التعلم بالنقل (transfer learning)، ضرورية لإنشاء وكلاء متعددين الاستخدامات حقًا ليسوا هشين أو يسهل كسرهم بسبب إعادة تصميم مواقع الويب الطفيفة أو مواجهة تخطيطات تطبيقات غير مألوفة.

شاركت Amazon حكاية مقنعة حيث أظهر Nova Act كفاءة في تشغيل الألعاب المستندة إلى المتصفح، على الرغم من أن بيانات التدريب الخاصة به لم تتضمن صراحة تجارب ألعاب الفيديو. يشير هذا إلى أن النموذج يتعلم المبادئ الأساسية للتفاعل على الويب - التعرف على الأزرار، وتفسير ردود الفعل المرئية، وفهم حقول الإدخال - بدلاً من مجرد حفظ هياكل مواقع ويب محددة. إذا ثبتت صحة هذه القدرة عبر مجموعة واسعة من التطبيقات، فإنها تمثل تقدمًا كبيرًا. هذا يعني أن المطورين يمكنهم بناء وكلاء قادرين على التعامل مع المهام على مواقع الويب أو تطبيقات الويب التي تمت مواجهتها حديثًا بدرجة معقولة من النجاح، مما يقلل بشكل كبير من الحاجة إلى تدريب مستمر ومخصص لكل منصة مستهدفة على حدة.

تضع هذه القدرة على التكيف Nova Act كمحرك قوي محتمل لمجموعة واسعة من التطبيقات تتجاوز أتمتة المهام البسيطة. يمكن أن يشغل أدوات استخلاص بيانات الويب (web scrapers) أكثر ذكاءً، أو أدوات إدخال بيانات أكثر سهولة، أو مساعدي وصول أكثر قدرة.

تستفيد Amazon بالفعل من هذه القدرة داخل نظامها البيئي الخاص. يستخدم Alexa+، المستوى المتميز من مساعدها الصوتي، Nova Act لتمكين التنقل الموجه ذاتيًا على الويب. عندما يقدم المستخدم طلبًا لا يمكن تلبيته بالكامل من خلال مهارات Alexa الحالية أو واجهات برمجة التطبيقات المتاحة (وهو قيد شائع)، يمكن لـ Nova Act التدخل، وفتح صفحة ويب ذات صلة، ومحاولة إكمال المهمة عن طريق التفاعل المباشر مع واجهة المستخدم الخاصة بالموقع. يمثل هذا خطوة ملموسة نحو رؤية مساعدي الذكاء الاصطناعي الأقل اعتمادًا على عمليات التكامل المعدة مسبقًا ويمكنهم العمل بشكل أكثر استقلالية وديناميكية من خلال تسخير الويب المفتوح.

الطريق إلى الأمام: خطوة تأسيسية في استراتيجية الذكاء الاصطناعي طويلة الأجل

تؤكد Amazon بشكل لا لبس فيه أن Nova Act، في شكله الحالي، يمثل مجرد المرحلة الأولية لمهمة أوسع بكثير وطويلة الأجل. الهدف النهائي هو تطوير وكلاء ذكاء اصطناعي أذكياء للغاية وقابلين للتكيف وجديرين بالثقة قادرين على إدارة تدفقات عمل متزايدة التعقيد ومتعددة الخطوات قد تمتد عبر مواقع ويب وتطبيقات وجلسات متعددة.

تتضمن استراتيجية الشركة تجاوز العروض التوضيحية المبسطة أو التدريب فقط على مجموعات بيانات مقيدة. ينصب التركيز على استخدام تقنيات التعلم المعزز (reinforcement learning) عبر سيناريوهات العالم الحقيقي المتنوعة. هذا يعني تدريب نماذج Nova من خلال جعلها تحاول أداء المهام، والتعلم من النجاحات والإخفاقات، وبناء الكفاءة تدريجيًا في التنقل في التعقيدات وعدم القدرة على التنبؤ المتأصلة في بيئة الويب الحية. يعتبر هذا النهج التكراري القائم على الخبرة ضروريًا لبناء المتانة والذكاء الحقيقي.

يعمل Nova Act بمثابة نقطة تفتيش حاسمة فيما تصفه Amazon بأنه منهج تدريبي طويل الأجل لعائلة نماذج Nova الخاصة بها. يشير هذا إلى التزام مستمر وطموح استراتيجي لإعادة تشكيل مشهد وكلاء الذكاء الاصطناعي بشكل أساسي، ونقلهم من أدوات متخصصة إلى شركاء لا غنى عنهم في التنقل في حياتناالرقمية. النموذج الحالي هو أساس سيتم بناء قدرات أكثر تطوراً عليه بمرور الوقت.

المشاركة في إنشاء المستقبل: الدور الذي لا غنى عنه لمجتمع المطورين

إقرارًا بأن التطبيقات الأكثر تحويلية لهذه التكنولوجيا لم يتم تصورها بعد، تشارك Amazon عمدًا مجتمع المطورين مبكرًا من خلال المعاينة البحثية لـ Nova Act SDK. صرحت الشركة: “حالات الاستخدام الأكثر قيمة للوكلاء لم يتم بناؤها بعد”. “أفضل المطورين والمصممين سيكتشفونها.”

تخدم استراتيجية الإصدار هذه أغراضًا متعددة. إنها تتيح للبناة المبتكرين الحصول على خبرة عملية مع التكنولوجيا، ودفع حدودها واستكشاف إمكاناتها بطرق قد لا تتصورها فرق Amazon الداخلية. كما أنها تنشئ حلقة تغذية راجعة حاسمة. من خلال ملاحظة كيفية استخدام المطورين لـ SDK، وما هي التحديات التي يواجهونها، وما هي الميزات التي يطلبونها، يمكن لـ Amazon التكرار بسرعة، وتحسين Nova Act والأدوات المصاحبة بناءً على الاستخدام في العالم الحقيقي والاحتياجات العملية. يُنظر إلى هذا النهج التعاوني، الذي يركز على النماذج الأولية السريعة والتغذية الراجعة التكرارية، على أنه أسرع طريق لإطلاق الإمكانات الحقيقية لوكلاء الذكاء الاصطناعي الأصليين للويب.

في جوهره، يعد Nova Act أكثر من مجرد نموذج جديد أو SDK؛ إنه دعوة للمطورين وبيان نوايا من Amazon. إنه يمثل خطوة حازمة نحو جعل وكلاء الذكاء الاصطناعي مفيدين حقًا للمهام المعقدة والديناميكية والفوضوية غالبًا التي تحدد الكثير من تفاعلنا مع العالم الرقمي. من خلال إعادة التفكير في معايير الأداء، وإعطاء الأولوية للموثوقية، وتعزيز القدرة على التكيف، وتبني التعاون، تهدف Amazon إلى تمكين البناة من إنشاء حلول مستقلة تتجاوز بشكل كبير قدرات أدوات الذكاء الاصطناعي الحالية. لقد بدأت الرحلة للتو، لكن الاتجاه واضح: نحو مستقبل يسكنه مساعدون رقميون أكثر ذكاءً واستقلالية يتنقلون على الويب نيابة عنا.