Amazon و Nova Act: تحدي جديد لأتمتة الويب بالذكاء الاصطناعي | ar

لقد تجاوز الذكاء الاصطناعي (AI) بشكل حاسم عالم الخيال العلمي ودخل في نسيج حياتنا الرقمية اليومية. لسنوات، تركز الاهتمام حول النماذج التوليدية – وهي خوارزميات قادرة على إنتاج نصوص تشبه النصوص البشرية بشكل ملحوظ أو صور معقدة بشكل مذهل. ومع ذلك، يتجه المد التكنولوجي نحو تطبيق جديد، وربما أكثر تحويلًا: وكلاء AI المصممون ليس فقط للإبداع، ولكن للتصرف. يتحول التركيز من التوليد السلبي إلى التنفيذ النشط، مما يمكّن البرامج من التنقل في تعقيدات الويب وأداء المهام بشكل مستقل نيابة عن المستخدمين. يمثل هذا المجال المزدهر قفزة كبيرة، ويعد بمستويات غير مسبوقة من الراحة والكفاءة، وتتسابق شركات التكنولوجيا العملاقة لتثبيت أقدامها. وسط هذه الموجة من النشاط، ألقت Amazon بقبعتها في الحلبة بمبادرة جديدة ملحوظة.

بينما كانت التكنولوجيا الأساسية تختمر في مختبرات الأبحاث لعقود، شهدت حقبة ما بعد الجائحة انفجارًا في الاهتمام والتطوير، لا سيما في التطبيقات الموجهة للمستخدم. تعرض الآن كل شركة تكنولوجيا كبرى تقريبًا براعتها، وتكشف عن نماذج AI مصممة لتبسيط سير العمل، أو تعزيز الإنتاجية، أو ببساطة جعل التفاعلات الرقمية اليومية أكثر سلاسة. تعد Amazon، وهي شركة بنيت على تحسين العمليات اللوجستية والرقمية المعقدة، لاعبًا رئيسيًا بشكل طبيعي في هذا المشهد المتطور. ومع ذلك، فإن أحدث غزواتها ليست مجرد تكرار للنماذج الحالية؛ إنها دفعة مباشرة نحو المجال الصعب لأتمتة المهام المستندة إلى الويب.

دخول Amazon: مبادرة Nova Act

تتجسد مساهمة Amazon في هذه الموجة الجديدة في Nova Act. هذا ليس مجرد روبوت محادثة آخر أو مولد صور؛ إنها تقنية أساسية تم تصميمها لتمكين المطورين. الهدف الأساسي لـ Nova Act هو توفير اللبنات الأساسية لإنشاء وكلاء AI متطورين يمكنهم العمل بشكل مستقل داخل بيئة متصفح الويب. تخيل مساعدًا قادرًا على فهم طلب متعدد الخطوات ثم تنفيذه عبر مواقع ويب مختلفة دون تدخل بشري مستمر.

أحد الأمثلة التوضيحية أظهر الإمكانات: توجيه وكيل لتحديد الشقق المتاحة الواقعة ضمن دائرة نصف قطرها معقولة لركوب الدراجات من محطة قطار معينة. هذه المهمة، التي تبدو بسيطة للإنسان، تتضمن تسلسلًا معقدًا لـ AI: فهم القيود الجغرافية، والتنقل في مواقع قوائم الشقق، وتصفية النتائج بناءً على معايير الموقع (ربما تفسير بيانات الخريطة)، واستخراج المعلومات ذات الصلة مثل التوفر والسعر، وتقديم النتائج بشكل متماسك. يهدف Nova Act إلى تزويد المطورين بالأدوات اللازمة لبناء وكلاء قادرين على هذا النوع الدقيق من العمليات المعقدة متعددة المراحل.

لا يمكن المبالغة في أهمية إطلاق Nova Act في البداية كأداة للمطورين. إنه يشير إلى نهج استراتيجي يركز على بناء نظام بيئي قوي. من خلال تمكين المبدعين من الأطراف الثالثة، يمكن لـ Amazon تعزيز الابتكار واستكشاف مجموعة أوسع من التطبيقات مما يمكنها القيام به فقط من خلال التطوير الداخلي. تتيح هذه الاستراتيجية أيضًا جمع ملاحظات قيمة وتحسين التكنولوجيا بناءً على تحديات التنفيذ في العالم الحقيقي قبل طرحها على نطاق أوسع للمستهلكين.

ساحة المعركة المزدحمة: ظهور وكلاء منافسين

مع تزايد الاهتمام بوكلاء AI الذين يتجاوزون مجرد مخرجات النصوص أو الصور، أصبح المشهد التنافسي كثيفًا بشكل متزايد. إن جاذبية الوكلاء المستقلين القادرين على تنفيذ عمليات معقدة دون إشراف بشري مباشر تثبت أنها لا تقاوم، و Amazon ليست وحدها في إدراك هذه الإمكانات. يتنافس بالفعل العديد من المنافسين الأقوياء على الهيمنة في هذا المجال.

حققت OpenAI، التي لطالما اعتبرت رائدة في أبحاث وتطوير AI، لا سيما بعد الظهور المذهل لـ ChatGPT، خطوات كبيرة. بدعم من استثمار كبير من Microsoft، كشفت OpenAI عن خطط لميزة تعرف مبدئيًا باسم ‘Operator’ في وقت سابق من هذا العام. ترسم الأوصاف صورة لوكيل مصمم للتعامل مع مهام مثل تخطيط السفر المعقد، وملء النماذج تلقائيًا، وتأمين حجوزات المطاعم، وحتى إدارة طلبات البقالة عبر الإنترنت. وصفت الشركة صراحة هذه القدرة بأنها وكيل يستفيد من الويب لتحقيق أهداف المستخدم، مما يمثل تحولًا استراتيجيًا واضحًا نحو AI الموجه نحو العمل.

ومع ذلك، يكشف الجدول الزمني عن سرد أكثر تعقيدًا. قدمت Anthropic، وهي شركة ناشئة في مجال AI تتمتع بسجل حافل - أسسها باحثون سابقون في OpenAI وبدعم ملحوظ من استثمار كبير من Amazon نفسها - مفهومًا مشابهًا في وقت سابق. في أكتوبر من العام السابق، أطلقت Anthropic أداة ‘Computer Use’ الخاصة بها. تم تصميم هذه التقنية خصيصًا لتمكين نماذج AI من التفاعل مباشرة مع واجهة المستخدم الرسومية للكمبيوتر. يتضمن ذلك محاكاة النقرات على الأزرار، وإدخال النص في الحقول، والتنقل في مواقع ويب متنوعة، وتنفيذ المهام داخل تطبيقات برمجية مختلفة، كل ذلك أثناء الوصول ديناميكيًا إلى بيانات الإنترنت في الوقت الفعلي. إن التداخل الوظيفي مع ‘Operator’ المقترح من OpenAI مذهل، مما يسلط الضوء على التطوير الموازي المكثف الذي يحدث داخل الصناعة. تضيف العلاقة بين Amazon و Anthropic طبقة أخرى من الإثارة، مما يشير إلى تآزر محتمل أو حتى منافسة داخلية ضمن استراتيجية AI الأوسع لـ Amazon.

لم تركن OpenAI إلى أمجادها منذ إعلاناتها الأولية. لقد تابعت ذلك بتحديثات، بما في ذلك تقديم ‘Deep Research’ بعد وقت قصير من كشف Anthropic. تمكّن هذه الأداة وكيل AI من إجراء مهام بحثية معقدة، وتجميع تقارير مفصلة وإجراء تحليلات متعمقة حول الموضوعات التي يحددها المستخدم، مما يدل بشكل أكبر على الدفع نحو المهام المتطورة القائمة على المعرفة.

ولكي لا يتم تجاهلها، دخلت Google، وهي قوة في فهرسة الويب وتحليل البيانات، أيضًا في المعركة. في ديسمبر الماضي، أطلقت Google أداة مماثلة خاصة بها، تم وضعها كـ ‘مساعد بحث’ قوي. يهدف هذا الوكيل إلى مساعدة المستخدمين من خلال الخوض في الموضوعات المعقدة، واستكشاف المعلومات عبر الويب، وتجميع النتائج في تقارير شاملة، مما يعكس القدرات التي يروج لها منافسوها.

مع نشر هذه الشركات العملاقة لتقنيات مماثلة، فإن المنتصر النهائي أبعد ما يكون عن اليقين. من المرجح أن يتوقف النجاح على مجموعة من العوامل: عمق التمويل المتاح للبحث والتطوير المستدامين، وسرعة وجودة التقدم التكنولوجي، والتصميم البديهي لواجهة المستخدم، وبشكل حاسم، القدرة على التغلب على التحديات الكامنة التي تعاني منها نماذج AI الحالية - لا سيما صراعاتها العرضية مع التفسير الدقيق واتباع التعليمات المعقدة أو الدقيقة باستمرار.

فك شفرة الوكيل: القدرات والتعقيدات

يتطلب فهم ما يفعله وكلاء AI الناشئون هؤلاء بالفعل النظر إلى ما هو أبعد من الأوامر البسيطة. تكمن إمكاناتهم في تنفيذ عمليات متعددة الخطوات تحاكي تفاعل الإنسان مع الواجهات الرقمية. يتضمن هذا العديد من القدرات الرئيسية:

التنقل والتفاعل عبر الويب: يجب أن يكون الوكلاء قادرين على ‘رؤية’ وتفسير بنية صفحة الويب - تحديد حقول النص والأزرار والقوائم المنسدلة والروابط والعناصر التفاعلية الأخرى. يحتاجون إلى محاكاة إجراءات مثل النقر والكتابة والتمرير وتحديد الخيارات.
الفهم السياقي: مجرد التفاعل لا يكفي. يحتاج الوكيل إلى فهم الغرض من أفعاله ضمن السياق الأوسع للمهمة. يتطلب ملء حقل ‘مدينة المغادرة’ فهم أنه يتعلق بتخطيط السفر، وليس التسوق عبر الإنترنت.
استخراج المعلومات: يحتاج الوكلاء إلى تحديد واستخراج أجزاء معينة من البياناتمن صفحات الويب - سعر، وقت رحلة، عنوان، حالة توفر - وتخزين هذه المعلومات أو معالجتها بشكل هادف.
التشغيل عبر الأنظمة الأساسية: تتضمن العديد من المهام التفاعل مع مواقع ويب متعددة أو حتى أنواع مختلفة من التطبيقات (على سبيل المثال، التحقق من البريد الإلكتروني بحثًا عن رمز تأكيد أثناء حجز رحلة طيران). يعد الانتقال السلس بين هذه المنصات أمرًا بالغ الأهمية.
حل المشكلات والتكيف: تتغير مواقع الويب بشكل متكرر. يحتاج الوكلاء إلى درجة من المرونة للتعامل مع الاختلافات في التخطيط أو الأخطاء غير المتوقعة (على سبيل المثال، زر لا يستجيب، فشل تحميل صفحة). قد يحتاجون إلى تجربة طرق بديلة أو الإبلاغ عن الإخفاقات بأمان.

تمتد حالات الاستخدام المحتملة عبر طيف واسع:

الإنتاجية الشخصية: إدارة مسارات السفر المعقدة (الرحلات الجوية، الفنادق، تأجير السيارات، الأنشطة بناءً على التفضيلات)، أتمتة دفع الفواتير عبر بوابات مختلفة، توحيد المعلومات المالية من حسابات مختلفة، جدولة المواعيد بناءً على توفر التقويم والنماذج المطلوبة قبل الزيارة.
التجارة الإلكترونية: مقارنة الأسعار عبر بائعين متعددين لمنتجات معينة، تعقب العناصر النادرة أو غير المتوفرة في المخزون، إدارة عمليات الإرجاع تلقائيًا.
عمليات الأعمال: أبحاث السوق الآلية (جمع أسعار المنافسين، مراجعات العملاء، اتجاهات الصناعة)، توليد العملاء المحتملين (تحديد العملاء المحتملين بناءً على معايير محددة من الدلائل عبر الإنترنت)، إدخال البيانات وترحيلها بين الأنظمة المستندة إلى الويب، إنشاء تقارير روتينية عن طريق دمج البيانات من لوحات معلومات مختلفة عبر الإنترنت.
إدارة المحتوى: أتمتة عملية نشر المحتوى عبر منصات التواصل الاجتماعي المختلفة، تحديث معلومات موقع الويب ديناميكيًا بناءً على مصادر البيانات الخارجية.

يكمن التعقيد في جعل هذه التفاعلات موثوقة وآمنة ومستقلة حقًا، مما يحرر المستخدم من الأعمال الرقمية المملة والمتكررة.

تجاوز العقبات: تحدي الاستقلالية الموثوقة

على الرغم من الوعد الهائل، فإن الطريق نحو وكلاء ويب مستقلين وموثوقين حقًا محفوف بالتحديات. إن ‘صعوبة اتباع التعليمات’، التي غالبًا ما يُستشهد بها كقيود على AI الحالي، هي مجرد غيض من فيض. يجب التغلب على العديد من العقبات الهامة:

الغموض والتفسير: اللغة البشرية غامضة بطبيعتها. تعليمات مثل ‘ابحث لي عن رحلة رخيصة إلى باريس الشهر المقبل’ تتطلب من AI تفسير ‘رخيصة’ (مقارنة بماذا؟)، ‘الشهر المقبل’ (أي تواريخ محددة؟)، وربما استنتاج التفضيلات المتعلقة بشركات الطيران أو التوقفات أو أوقات المغادرة. يمكن أن يؤدي سوء التفسير إلى إجراءات غير صحيحة تمامًا.
بيئات الويب الديناميكية وغير المتسقة: مواقع الويب ليست ثابتة. تتغير التخطيطات، ويعاد تسمية العناصر، ويتم تحديث سير العمل. قد يفشل الوكيل المدرب على إصدار واحد من الموقع تمامًا عند مواجهة واجهة معاد تصميمها. تعد المتانة ضد مثل هذه التغيرات تحديًا تقنيًا كبيرًا.
معالجة الأخطاء والاسترداد: ماذا يحدث عندما يكون موقع الويب معطلاً، أو يفشل تسجيل الدخول، أو تظهر نافذة منبثقة غير متوقعة؟ يحتاج الوكيل إلى آليات متطورة للكشف عن الأخطاء والاسترداد. هل يجب أن يعيد المحاولة؟ هل يجب أن يطلب المساعدة من المستخدم؟ هل يجب أن يتخلى عن المهمة؟ تحديد هذه البروتوكولات معقد.
الأمان والأذونات: منح وكيل AI الاستقلالية لتسجيل الدخول إلى الحسابات، وملء النماذج بالبيانات الشخصية، وربما إجراء عمليات شراء يثير مخاوف أمنية كبيرة. يعد ضمان عمل الوكيل ضمن حدود محددة، وعدم إمكانية اختراقه بسهولة، ومعالجة المعلومات الحساسة بشكل آمن أمرًا بالغ الأهمية. بناء ثقة المستخدم أمر ضروري.
قابلية التوسع والتكلفة: يمكن أن يكون تشغيل نماذج AI المعقدة القادرة على التفاعل مع الويب في الوقت الفعلي مكلفًا من الناحية الحسابية. يتطلب جعل هؤلاء الوكلاء متاحين وبأسعار معقولة للاستخدام على نطاق واسع تحسينًا مستمرًا لكل من الخوارزميات والبنية التحتية الأساسية.
الاعتبارات الأخلاقية: مع تزايد قدرة الوكلاء، تثار تساؤلات حول إساءة استخدامهم المحتملة (مثل أتمتة البريد العشوائي، وكشط البيانات المحمية بحقوق الطبع والنشر) والتأثير على التوظيف في القطاعات التي تعتمد على المهام اليدوية المستندة إلى الويب.

يبدو أن قرار Amazon بإطلاق Nova Act مبدئيًا في معاينة بحثية للمطورين هو استراتيجية حكيمة في ضوء هذه التحديات. يتيح هذا النهج للشركة جمع ملاحظات نقدية من المستخدمين ذوي الخبرة التقنية الذين هم أفضل تجهيزًا لتحديد الأخطاء واختبار الحالات القصوى وتقديم انتقادات بناءة. إنه يخلق بيئة خاضعة للرقابة لتحسين التكنولوجيا، وتحسين قدرات اتباع التعليمات، وتعزيز التدابير الأمنية قبل تعريضها لمتطلبات السوق الاستهلاكية العامة الأقل قابلية للتنبؤ وربما الأقل تسامحًا مع الأخطاء. يتيح هذا النهج التكراري الذي يركز على المطورين لـ Amazon ‘ترتيب أمورها’، ومعالجة المشاكل وبناء المتانة قبل إصدار أوسع للسوق.

استراتيجية Amazon الكبرى: ما وراء Nova Act

لا ينبغي النظر إلى Nova Act، على الرغم من أهميته، بمعزل عن غيره. إنه يمثل مكونًا حاسمًا ضمن استثمار Amazon الأوسع والأسرع تسارعًا في AI التوليدي والأتمتة الذكية. تنسج الشركة AI في صميم عملياتها وعروض منتجاتها من خلال استراتيجية متعددة الجوانب:

البنية التحتية والنماذج التأسيسية: تقوم Amazon بتطوير شرائح السيليكون المخصصة الخاصة بها، مثل شرائح Trainium، المصممة خصيصًا لتحسين تدريب نماذج AI واسعة النطاق بكفاءة وفعالية من حيث التكلفة. علاوة على ذلك، تعمل منصة Bedrock الخاصة بها كسوق، حيث توفر الوصول ليس فقط إلى نماذج Amazon التأسيسية الخاصة (مثل Titan) ولكن أيضًا إلى النماذج الرائدة من شركات AI التابعة لجهات خارجية (بما في ذلك Anthropic). هذا يضع Amazon Web Services (AWS) كمركز محوري لتطوير AI.
AI خاص بالتطبيقات: تنشر الشركة AI لتعزيز أعمالها الحالية. تشمل الأمثلة مساعدي التسوق المدعومين بـ AI المصممين لتخصيص التوصيات وتحسين تجربة العملاء، و مساعدي الصحة المدعومين بـ AI الذين يهدفون إلى تبسيط المهام المتعلقة بالرعاية الصحية والوصول إلى المعلومات.
تطوير المنتجات الأساسية: تخضع Alexa، مساعدة Amazon الصوتية التي تم إطلاقها منذ أكثر من عقد، لترقية كبيرة مدعومة بقدرات AI التوليدية المتقدمة. يهدف هذا إلى جعل التفاعلات أكثر حوارية، ومدركة للسياق، وقادرة على التعامل مع الطلبات الأكثر تعقيدًا، ومن المحتمل أن تتكامل بسلاسة مع الوكلاء المبنيين باستخدام تقنيات مثل Nova Act.

في هذا السياق، يعمل Nova Act كجسر حاسم. إنه يستفيد من النماذج التأسيسية المتاحة من خلال Bedrock (التي تعمل ربما على أجهزة محسّنة مثل Trainium) ويوفر القدرة المحددة لهذه النماذج على التصرف داخل بيئة الويب. يمكن لهذه القدرة الموجهة نحو العمل أن تعزز بشكل كبير وظائف Alexa، أو تشغل ميزات جديدة متطورة داخل منصة التجارة الإلكترونية الخاصة بها، أو تمكّن خدمات جديدة تمامًا مقدمة من خلال AWS. إنها قطعة من لغز أكبر يهدف إلى إنشاء نظام بيئي حيث لا يفهم AI ويولد فحسب، بل ينفذ أيضًا المهام عبر المشهد الرقمي، مما يعزز هيمنة Amazon في الحوسبة السحابية والتجارة الإلكترونية.

المخاطر: إعادة تشكيل المشهد الرقمي

يمثل تطوير وكلاء ويب AI القادرين مثل تلك التي وعدت بها Nova Act و Operator و Computer Use ومبادرات Google أكثر من مجرد تقدم تكنولوجي تدريجي. إنه يشير إلى تحول نموذجي محتمل في كيفية تفاعل البشر مع العالم الرقمي. إذا ارتقى هؤلاء الوكلاء إلى مستوى إمكاناتهم، فقد تكون الآثار عميقة:

إعادة تعريف تجربة المستخدم: يمكن أن تصبح العمليات الشاقة متعددة الخطوات عبر الإنترنت سهلة. بدلاً من التنقل يدويًا في مواقع ويب متعددة لحجز السفر أو البحث عن المنتجات، يمكن للمستخدمين ببساطة ذكر هدفهم والسماح للوكيل بالتعامل مع التنفيذ. هذا يمكن أن يغير بشكل أساسي التوقعات المتعلقة بالراحة الرقمية.
اضطراب الصناعة: قد تواجه القطاعات التي تعتمد بشكل كبير على المهام اليدوية المستندة إلى الويب أو التي تعمل كوسطاء اضطرابًا كبيرًا. وكالات السفر، وشركات أبحاث السوق التي تعتمد على جمع البيانات يدويًا، وخدمات المساعدة الافتراضية التي تؤدي مهام إدارية روتينية - قد تحتاج جميعها إلى التكيف حيث يقوم وكلاء AI بأتمتة الوظائف الأساسية.
مكاسب الإنتاجية: يمكن لكل من الأفراد والشركات تحقيق مكاسب إنتاجية كبيرة عن طريق تفريغ الأعمال الرقمية المتكررة إلى وكلاء AI. هذا يمكن أن يحرر الجهد البشري للعمل الأكثر تعقيدًا أو إبداعًا أو استراتيجيًا.
نماذج أعمال جديدة: يمكن أن تؤدي القدرة على أتمتة تفاعلات الويب المعقدة إلى ظهور خدمات ونماذج أعمال جديدة تمامًا مبنية على الأتمتة فائقة التخصيص، وتجميع البيانات المتطور، والمساعدة الرقمية الاستباقية.
إمكانية الوصول: بالنسبة للأفراد ذوي الإعاقات المعينة، يمكن لوكلاء AI تقديم مساعدة لا تقدر بثمن في التنقل في واجهات الويب المعقدة، مما يعزز الشمول الرقمي.

ومع ذلك، يتطلب تحقيق هذا المستقبل التغلب على العقبات التقنية والأخلاقية الكبيرة التي نوقشت سابقًا. السباق بين Amazon و OpenAI و Anthropic و Google وربما لاعبين آخرين لا يتعلق فقط بحقوق التفاخر التكنولوجي؛ إنه يتعلق بتحديد المعايير، وبناء الثقة، وفي نهاية المطاف تشكيل مستقبل تفاعل الويب. الشركة التي تجمع بنجاح بين القدرات القوية والموثوقية والأمان وتجربة المستخدم البديهية ستحصل على ميزة استراتيجية كبيرة في العصر التالي للذكاء الاصطناعي. يعد Nova Act من Amazon إشارة واضحة إلى أن عملاق التجارة الإلكترونية والسحابة يعتزم أن يكون لاعبًا مركزيًا في كتابة هذا الفصل التالي.

تم التحديث في ٢٠٢٥-٠٤-٠٧

# Agent # Amazon # Nova