سعي الذكاء الاصطناعي لأصوات شبيهة بالبشر

داخل مشروع Xylophone: صياغة الذكاء الاصطناعي للمحادثة

كشفت الوثائق المسربة عن الأعمال الداخلية لمشروع Xylophone، وهو مبادرة من Scale AI مصممة لتحسين نماذج صوت xAI. يتمحور المشروع حول إشراك المتعاقدين لتسجيل أنفسهم وهم يرتجلون محادثات حول مجموعة متنوعة من الموضوعات. الهدف الأساسي هو غرس نماذج xAI بجودة أكثر طبيعية وشبيهة بالإنسان، والابتعاد عن النبرة الروبوتية التي غالبًا ما تميز تفاعلات الذكاء الاصطناعي.

يتم تعويض هؤلاء المتعاقدين، الذين تم الحصول عليهم من قبل شركة Scale AI لتصنيف البيانات، لتسجيل محادثات مع أقرانهم حول مواضيع تتراوح من الدنيوية إلى الخيالية، وكل ذلك لخدمة جعل نماذج صوت xAI تبدو أكثر واقعية. اعتبارًا من أبريل، كانت Scale AI تدير ما لا يقل عن 10 مشاريع ذكاء اصطناعي توليدية لـ xAI، مما يعكس الجهد المكثف الذي يتم بذله في هذا المجال.

ينبع التوجه على مستوى الصناعة نحو المزيد من الذكاء الاصطناعي القائم على المحادثة من الرغبة في جذب المستخدمين إلى الإصدارات المدفوعة والمميزة من هذه الخدمات. من خلال جعل تفاعلات الذكاء الاصطناعي أكثر متعة وطبيعية، تأمل الشركات في إغراء المستخدمين للاستثمار في هذه التقنيات المتقدمة.

مخطط التدريب على المحادثة

حصلت Business Insider على سلسلة من وثائق Scale AI التي تقدم نظرة تفصيلية على كيفية عمل مشروع Xylophone. توفر هذه الوثائق، بما في ذلك إرشادات المشروع وإرشادات المراجع وأدلة موضوعات المحادثة، نظرة عامة شاملة على منهجية المشروع.

في حين أن نموذج xAI المحدد الذي يتم تدريبه يظل غير معلن في الوثائق، إلا أن تركيز المشروع على "جودة الصوت والطلاقة الطبيعية" يشير إلى تركيز قوي على إنشاء تجربة مستخدم سلسة وجذابة. يتم تشجيع المتعاقدين ذوي الخبرة في التمثيل الصوتي بشكل خاص على المشاركة، مما يعكس أهمية الأداء الصوتي في تحقيق المستوى المطلوب من الواقعية.

تم تصميم مشروع Xylophone حول عنصرين أساسيين: "المحادثات" و"الأراضي العشبية". يتضمن مكون "المحادثات" فرقًا من ثلاثة متعاقدين يشاركون في محادثات واقعية عبر Zoom. يتم توجيه هذه المحادثات بواسطة جدول بيانات يحتوي على المئات من المطالبات، التي تغطي مجموعة واسعة من الموضوعات، من تكتيكات البقاء على قيد الحياة في عالم ما بعد نهاية العالم إلى إدارة القلق والتخطيط للرحلات الدولية.

الغوص العميق في مطالبات المحادثة: لمحة عن خيال الذكاء الاصطناعي

توفر مطالبات المحادثة المستخدمة في مشروع Xylophone لمحة رائعة عن نوع السيناريوهات والموضوعات التي يتم تدريب نماذج الذكاء الاصطناعي للتعامل معها. تتراوح المطالبات من العملية إلى الفلسفية، وتتعمق أيضًا في عالم الخيال العلمي.

فيما يلي بعض الأمثلة على بادئات المحادثة المستخدمة في وثائق Scale AI:

  • إذا كنت تقوم بتصميم "ثقافة" أول مستوطنة على المريخ، فما هو التقليد الأرضي الذي سترغب بالتأكيد في إعادة إنشائه، وما الذي ستكون متحمسًا لتركه وراءك إلى الأبد؟
  • ما هو "الشخصية الشريرة" في حياتك اليومية التي تتمنى أن يتمكن فريق الأبطال الخارقين من الانقضاض عليها وإصلاحها للجميع؟
  • إذا ضربت نهاية العالم الزومبي غدًا، فما هو أول شيء ستأخذه من منزلك قبل أن تهرب؟
  • تخيل أنك عالم النفس في مهمة لاستعمار المريخ - ما هو نوع الشخصية أو السمة الغريبة التي تأمل سرًا في العثور عليها في زملائك المستعمرين؟
  • ما هي أسوأ كارثة سباكة مررت بها بصفتك صاحب منزل - وهل حاولت إصلاحها بنفسك أم طلبت المساعدة على الفور؟
  • هل تتذكر أول مرة اضطررت فيها إلى طلب المزيد من المال أو مزايا أفضل؟ ماذا كان يدور في ذهنك؟

تم تصميم هذه المطالبات لاستخلاص استجابات طبيعية وغير مكتوبة من المتعاقدين، والتي يمكن استخدامها بعد ذلك لتدريب نماذج الذكاء الاصطناعي للتعامل مع مجموعة واسعة من سيناريوهات المحادثة.

تؤكد التعليمات الخاصة بالمحادثات "الجيدة" على أهمية الظهور بمظهر طبيعي وعاطفي، مع اختلاف النبرات والمقاطعات. الهدف هو محاكاة العفوية والقدرة على التنبؤ بمحادثة بشرية حقيقية.

نهج الأراضي العشبية: غير مكتوب وموثوق

على عكس مكون "المحادثات" المهيكل، يركز مكون "الأراضي العشبية" على العمال المنفردين الذين ينشئون تسجيلات غير مكتوبة وطبيعية في لغاتهم الأصلية. يتم إعطاء هؤلاء العمال نوع محادثة وفئة فرعية ويتم تشجيعهم على ترك المحادثة تتدفق بحرية، حتى مع تشجيع الضوضاء في الخلفية.

يشتمل مكون "الأراضي العشبية" على العشرات من الفئات الفرعية، بما في ذلك "الاستجواب السقراطي" و"رواية القصص التأملية" و"سيناريوهات الحب البلاطي" و"مواجهات الأبطال والأشرار" و"حل الألغاز التعاوني". غالبًا ما تتضمن هذه الفئات الفرعية متطلبات محددة، مثل اللهجات المختلفة أو المؤثرات الصوتية أو الأنماط اللغوية المخترعة.

يعكس نهج "الأراضي العشبية" الرغبة في التقاط الفروق الدقيقة وتعقيدات المحادثة البشرية بطريقة أكثر أصالة وغير مقيدة.

اقتصاديات تدريب الذكاء الاصطناعي: لمحة عن التعويضات

يتم تعويض المتعاقدين في Scale AI المشاركين في مشروع Xylophone عن مساهماتهم، مما يسلط الضوء على الجانب الاقتصادي لتدريب الذكاء الاصطناعي. وفقًا للتقارير، يتم دفع بضعة دولارات للمتعاقدين مقابل كل مهمة يقومون بها.

وبحسب ما ورد، بدأ هيكل الدفع لمشروع "الأراضي العشبية" بمبلغ 3 دولارات لكل مهمة ولكن تم تخفيضه لاحقًا إلى دولار واحد لكل مهمة. تتضمن كل مهمة تسجيل ملف صوتي، والذي يقوم المتعاقدون بعد ذلك بتحميله إلى منصة Scale AI ونسخه يدويًا.

تؤكد معدلات الأجور المنخفضة على العمل غير المرئي غالبًا الذي يدخل في إنشاء وتدريب نماذج الذكاء الاصطناعي.

أهمية جودة البيانات: التقاط الفروق الدقيقة في الكلام البشري

يعتمد نجاح نماذج صوت الذكاء الاصطناعي على توافر كميات هائلة من البيانات عالية الجودة. يعكس مشروع Xylophone الجهد المبذول لتوليد بيانات مناسبة عن طريق إعادة إنشاء سيناريوهات واقعية، مثل المحادثات الطبيعية بين الناس.

تطلب وثيقة "الأراضي العشبية" صراحةً من المتعاقدين تضمين الكلمات الحشو مثل "أه" في نصوصهم. يؤكد هذا الاهتمام بالتفاصيل على أهمية التقاط الفروق الدقيقة في الكلام البشري، بما في ذلك التوقفات والترددات والإشارات غير اللفظية الأخرى.

من خلال دمج هذه العناصر في بيانات التدريب، يمكن لنماذج الذكاء الاصطناعي أن تتعلم إنتاج محادثات أكثر طبيعية وجاذبية.

حقن الشخصية في الذكاء الاصطناعي: ميزة تنافسية

يعد مشروع Xylophone جزءًا من اتجاه أوسع بين شركات الذكاء الاصطناعي لحقن الشخصية في نماذج الذكاء الاصطناعي الخاصة بها، وتسعى إلى تمييز أنفسها في سوق مزدحم بشكل متزايد.

على سبيل المثال، ورد أن Meta قد أدارت مشروعًا عبر Scale AI تطلب من العاملين في مجال الحفلات تدريب الذكاء الاصطناعي الخاص بها لتبني شخصيات مختلفة، مثل "ساحر حكيم وباطني" أو "طالب نظرية موسيقى متحمس للغاية".

أقر سام ألتمان من OpenAI بأن أحدث GPT-4o أصبح "متملقًا ومزعجًا للغاية"، مما أدى إلى إعادة ضبط لجعل ردوده أكثر طبيعية.

تعكس هذه الجهود الاعتراف بأن نماذج الذكاء الاصطناعي يجب أن تكون أكثر من مجرد ذكية - بل يجب أن تكون محبوبة وقابلة للتواصل أيضًا.

الأبعاد الأخلاقية لتدريب الذكاء الاصطناعي: الموازنة بين الدقة والتحيز

مع ازدياد تطور نماذج الذكاء الاصطناعي، نمت المخاوف بشأن التحيز والاعتبارات الأخلاقية، مما أثار مناقشات حول تطوير الذكاء الاصطناعي المسؤول.

قامت xAI بتسويق Grok باعتباره روبوت محادثة أكثر حدة من الناحية السياسية مقارنة بما أسماه Musk منافسين "مستيقظين"، مع طرق تدريب تعتمد أحيانًا بشكل كبير على وجهات النظر اليمينية أو المعارضة.

كما كثفت xAI جهودها للسيطرة على الجانب الذي لا يمكن التنبؤ به في Grok. يقوم الموظفون الجدد بـ "فريق العمل الأحمر" Grok، واختباره بالإجهاد بحثًا عن ردود غير آمنة أو تنتهك السياسة، خاصة حول الموضوعات المثيرة للجدل وفي أوضاع "غير لائقة للعمل" أو "مجنونة".

تسلط هذه الجهود الضوء على تحديات إنشاء نماذج ذكاء اصطناعي إعلامية وأخلاقية على حد سواء، والحاجة إلى المراقبة والتقييم المستمر.

التطور المستمر لنماذج صوت الذكاء الاصطناعي: مستقبل من التفاعل السلس

يمثل مشروع Xylophone والمبادرات المماثلة خطوة مهمة إلى الأمام في السعي لإنشاء نماذج صوت ذكاء اصطناعي يمكنها التفاعل بسلاسة مع البشر. مع استمرار تطور تقنية الذكاء الاصطناعي، يمكننا أن نتوقع رؤية مساعدين للذكاء الاصطناعي أكثر تطوراً وطبيعية في المستقبل.

إن السعي وراء نماذج صوت الذكاء الاصطناعي الشبيهة بالبشر لا يخلو من التحديات. تظل المخاوف بشأن التحيز والاعتبارات الأخلاقية واحتمال إساءة الاستخدام قائمة. ومع ذلك، فإن الفوائد المحتملة لهذه التقنيات هائلة، بدءًا من تحسين إمكانية الوصول إلى تعزيز التواصل والتعاون.

مع ازدياد انتشار نماذج صوت الذكاء الاصطناعي، سيكون من المهم معالجة هذه التحديات بشكل استباقي وضمان استخدام هذه التقنيات بمسؤولية وأخلاقية. يحمل مستقبل نماذج صوت الذكاء الاصطناعي وعدًا كبيرًا، ولكن الأمر متروك لنا لتشكيل هذا المستقبل بطريقة تفيد البشرية جمعاء.

إن الجهد المبذول لإنشاء ذكاء اصطناعي يبدو أكثر إنسانية أمر صعب، كما يتضح في الوثائق المسربة. لا يجب أن يتحدث الذكاء الاصطناعي بطلاقة بقواعد نحوية صحيحة فحسب، بل يجب أن يتمتع أيضًا بشخصية تبدو حقيقية للشخص الذي يتحدث معه. هذا العمل الضخم هو المكان الذي تجد فيه هذه الشركات نفسها الآن.