تلاش هوش مصنوعی برای صداهای انسانی: اسرار آموزش xAI

تلاش برای هوش مصنوعی که بتواند تعاملات انسانی را تقلید کند، منجر به تحولات جذاب و گاهی نگران کننده ای شده است. در تلاش برای ایجاد دستیارهای هوش مصنوعی که نه تنها هوشمند بلکه قابل ارتباط نیز باشند، شرکت ها از تکنیک های مختلفی برای آموزش مدل های صوتی خود استفاده می کنند. افشاگری های اخیر، نوری را بر یکی از این تلاش ها می اندازد: “پروژه Xylophone” متعلق به xAI.

در داخل پروژه Xylophone: ساخت هوش مصنوعی مکالمه ای

اسناد افشا شده، نحوه کار داخلی پروژه Xylophone، ابتکار Scale AI که برای اصلاح مدل های صوتی xAI طراحی شده است را آشکار می کند. این پروژه حول محور درگیر کردن پیمانکاران برای ضبط بداهه گویی های خود در مورد موضوعات متنوع می گردد. هدف اصلی، القای کیفیت طبیعی تر و شبیه انسان به مدل های xAI است، دور شدن از لحن رباتیکی که اغلب تعاملات هوش مصنوعی را مشخص می کند.

این پیمانکاران که توسط شرکت برچسب گذاری داده Scale AI تهیه شده اند، برای ضبط مکالمات خود با همسالان در مورد موضوعات مختلف، از مسائل روزمره تا تخیلی، دستمزد دریافت می کنند، همه اینها به منظور ساخت مدل های صوتی xAI به گونه ای که معتبرتر به نظر برسند. تا آوریل، Scale AI حداقل 10 پروژه هوش مصنوعی مولد را برای xAI مدیریت می کرد، که نشان دهنده تلاش شدیدی است که در این زمینه صورت می گیرد.

فشار گسترده در سراسر صنعت برای هوش مصنوعی مکالمه ای تر، ناشی از تمایل به جذب کاربران به نسخه های ممتاز و پولی این خدمات است. شرکت ها امیدوارند با ایجاد تعاملات هوش مصنوعی لذت بخش تر و طبیعی تر، کاربران را ترغیب به سرمایه گذاری در این فناوری های پیشرفته کنند.

طرح کلی برای آموزش مکالمه ای

Business Insider مجموعه ای از اسناد Scale AI را به دست آورده است که نگاهی دقیق به نحوه عملکرد پروژه Xylophone ارائه می دهد. این اسناد، از جمله دستورالعمل های پروژه، دستورالعمل های بازبینی و راهنمای موضوعات مکالمه، یک نمای کلی جامع از روش شناسی پروژه ارائه می دهند.

در حالی که مدل خاص xAI که در حال آموزش است در اسناد فاش نشده است، تمرکز پروژه بر “کیفیت صدا و روانی طبیعی” نشان دهنده تاکید قوی بر ایجاد یک تجربه کاربری یکپارچه و جذاب است. پیمانکارانی که دارای تجربه بازیگری صدا هستند به ویژه تشویق به شرکت در پروژه می شوند که نشان دهنده اهمیت عملکرد آوازی در دستیابی به سطح مورد نظر از واقع گرایی است.

پروژه Xylophone حول دو جزء اصلی ساختار یافته است: “مکالمات” و “چمنزارها”. جزء “مکالمات” شامل تیم هایی متشکل از سه پیمانکار است که در یک زوم، به مکالمات واقع گرایانه مشغول می شوند. این مکالمات توسط یک صفحه گسترده حاوی صدها اعلان هدایت می شوند که طیف گسترده ای از موضوعات را پوشش می دهد، از تاکتیک های بقا در یک دنیای پسا آخرالزمانی گرفته تا مدیریت اضطراب و برنامه ریزی سفرهای بین المللی.

غوطه ور شدن عمیق در اعلان های مکالمه: نگاهی اجمالی به تخیل هوش مصنوعی

اعلان های مکالمه ای که در پروژه Xylophone استفاده می شوند، نگاهی جذاب به نوع سناریوها و موضوعاتی که مدل های هوش مصنوعی برای رسیدگی به آنها آموزش می بینند، ارائه می دهند. اعلان ها از عملی تا فلسفی متغیر هستند و حتی به قلمرو داستان های علمی تخیلی نیز می پردازند.

در اینجا چند نمونه از شروع کننده های مکالمه که در اسناد Scale AI استفاده شده است آورده شده است:

  • اگر قرار بود “فرهنگ” را برای اولین سکونتگاه مریخ طراحی کنید، کدام سنت زمینی را قطعاً می خواهید دوباره ایجاد کنید و از ترک چه چیزی برای همیشه هیجان زده خواهید شد؟
  • “شرور” در زندگی روزمره شما چیست که آرزو می کنید یک تیم ابرقهرمانی بتواند به یکباره برای همه آن را اصلاح کند؟
  • اگر فردا زامبی ها حمله کنند، اولین چیزی که قبل از فرار از خانه خود برمی دارید چیست؟
  • تصور کنید شما روانشناس ماموریت برای یک مستعمره مریخ هستید—به طور مخفیانه امیدوارید چه نوع شخصیت یا ویژگی عجیب و غریبی را در بین مستعمرات دیگر خود پیدا کنید؟
  • به یاد می آورید اولین باری که مجبور شدید پول بیشتری درخواست کنید یا مزایای بهتری دریافت کنید؟ چه چیزی در ذهنتان می گذشت؟
  • به یاد ماندنی ترین فاجعه لوله کشی که به عنوان یک صاحب خانه تجربه کرده اید چیست - و آیا سعی کردید خودتان آن را تعمیر کنید یا بلافاصله درخواست کمک کردید؟

این اعلان ها به منظور استخراج پاسخ های طبیعی و بداهه از پیمانکاران طراحی شده اند، که می تواند برای آموزش مدل های هوش مصنوعی برای رسیدگی به طیف گسترده ای از سناریوهای مکالمه استفاده شود.

دستورالعمل ها برای مکالمات “خوب” بر اهمیت صداهای طبیعی و احساسی، با آوای گوناگون و وقفه ها تأکید می کنند. هدف تقلید از خودانگیختگی و غیرقابل پیش بینی بودن مکالمه واقعی انسان است.

رویکرد چمنزارها: بدون فیلمنامه و معتبر

در مقابل جزء ساختاریافته “مکالمات”، جزء “چمنزارها” بر روی کارگران انفرادی که صداهای طبیعی و بدون فیلمنامه را به زبان مادری خود ایجاد می کنند، تمرکز دارد. به این کارگران نوع مکالمه و زیرمجموعه داده می شود و تشویق می شوند که اجازه دهند مکالمه آزادانه جریان یابد، حتی صدای پس زمینه نیز تشویق می شود.

جزء “چمنزارها” شامل ده ها زیرمجموعه است، از جمله “پرسش های سقراطی”، “داستان سرایی تأملی”، “سناریوهای عشق درباری”، “رویارویی های قهرمان-شرور” و “حل پازل مشارکتی”. این زیرمجموعه ها اغلب شامل الزامات خاصی هستند، مانند لهجه های مختلف، جلوه های صوتی یا الگوهای زبانی ابداع شده.

رویکرد “چمنزارها” منعکس کننده تمایل به ثبت تفاوت های ظریف و پیچیدگی های مکالمه انسانی به روشی معتبرتر و بدون محدودیت است.

اقتصاد آموزش هوش مصنوعی: نگاهی اجمالی به دستمزد

پیمانکاران Scale AI که در پروژه Xylophone شرکت می کنند، برای مشارکت های خود دستمزد دریافت می کنند که جنبه اقتصادی آموزش هوش مصنوعی را برجسته می کند. طبق گزارش ها، به پیمانکاران برای هر کار، چند دلار پرداخت می شود.

گزارش شده است که ساختار پرداخت برای پروژه “چمنزارها” با 3 دلار برای هر کار شروع شده است، اما بعداً به 1 دلار برای هر کار کاهش یافته است. هر کار شامل ضبط یک فایل صوتی است، که پیمانکاران سپس آن را در یک پلتفرم Scale AI بارگذاری کرده و به صورت دستی رونویسی می کنند.

نرخ پایین پرداخت بر نیروی کار اغلب نامرئی که برای ایجاد و آموزش مدل های هوش مصنوعی به کار می رود، تأکید می کند.

اهمیت کیفیت داده: ثبت تفاوت های ظریف گفتار انسان

موفقیت مدل های صوتی هوش مصنوعی به در دسترس بودن مقادیر زیادی داده با کیفیت بالا بستگی دارد. پروژه Xylophone منعکس کننده تلاش برای تولید داده های مناسب با بازآفرینی سناریوهای دنیای واقعی، مانند مکالمات طبیعی بین مردم است.

سند “چمنزارها” به طور صریح به پیمانکاران دستور می دهد که کلمات پرکننده ای مانند “uh” را در رونویسی های خود قرار دهند. این توجه به جزئیات، بر اهمیت ثبت تفاوت های ظریف گفتار انسان، از جمله مکث ها، تردیدها و سایر نشانه های غیرکلامی تأکید می کند.

با گنجاندن این عناصر در داده های آموزشی، مدل های هوش مصنوعی می توانند یاد بگیرند که مکالمات طبیعی تر و جذاب تری تولید کنند.

تزریق شخصیت به هوش مصنوعی: یک مزیت رقابتی

پروژه Xylophone بخشی از یک روند گسترده تر در بین شرکت های هوش مصنوعی برای تزریق شخصیت به مدل های هوش مصنوعی آنها است و به دنبال تمایز خود در یک بازار به طور فزاینده شلوغ هستند.

به عنوان مثال، گزارش شده است که متا پروژه ای را از طریق Scale AI اجرا کرده است که از فعالان زودگذر می خواهد که در آموزش هوش مصنوعی خود شخصیت های مختلفی را اتخاذ کنند، مانند “جادوگر دانا و عرفانی” یا “دانش آموز تئوری موسیقی بسیار هیجان زده”.

Sam Altman از OpenAI اذعان کرد که آخرین GPT-4o “بیش از حد چاپلوس و آزاردهنده” شده است، و باعث شد تا تنظیم مجددی انجام شود تا پاسخ های آن طبیعی تر شوند.

این تلاش ها منعکس کننده این شناخت است که مدل های هوش مصنوعی باید بیش از صرفاً هوشمند باشند - آنها همچنین باید دوست داشتنی و قابل ارتباط باشند.

ابعاد اخلاقی آموزش هوش مصنوعی: متعادل سازی دقت با تعصب

همانطور که مدل های هوش مصنوعی پیچیده تر می شوند، نگرانی ها در مورد تعصب و ملاحظات اخلاقی افزایش یافته است و بحث هایی را در مورد توسعه مسئولانه هوش مصنوعی برانگیخته است.

xAI Grok را به عنوان یک ربات گپ زن از نظر سیاسی تندتر در مقایسه با آنچه Musk رقبای “woke” نامیده است، به بازار عرضه کرده است، با روش های آموزشی که گاهی اوقات به شدت به دیدگاه های دست راستی یا مخالف متکی است.

xAI همچنین تلاش های خود را برای کنترل جنبه غیرقابل پیش بینی Grok افزایش داده است. استخدام های جدید در حال “تیم سازی قرمز” Grok هستند و آن را برای پاسخ های ناایمن یا ناقض خط مشی، به ویژه در مورد موضوعات بحث برانگیز و در حالت های “NSFW” یا “افسارگسیخته” آزمایش می کنند.

این تلاش ها چالش های ایجاد مدل های هوش مصنوعی را برجسته می کند که هم آموزنده و هم اخلاقی هستند و نیاز به نظارت و ارزیابی مداوم دارند.

تکامل مداوم مدل های صوتی هوش مصنوعی: آینده ای از تعامل یکپارچه

پروژه Xylophone و ابتکارات مشابه، گام مهمی رو به جلو در تلاش برای ایجاد مدل های صوتی هوش مصنوعی هستند که می توانند به طور یکپارچه با انسان ها تعامل داشته باشند. همانطور که فناوری هوش مصنوعی به تکامل خود ادامه می دهد، می توانیم انتظار داشته باشیم که شاهد دستیارهای هوش مصنوعی پیچیده تر و طبیعی تر در آینده باشیم.

تلاش برای مدل های صوتی هوش مصنوعی شبیه انسان بدون چالش نیست. نگرانی ها در مورد تعصب، ملاحظات اخلاقی و احتمال سوء استفاده همچنان وجود دارد. با این حال، مزایای بالقوه این فناوری ها بسیار زیاد است، از بهبود دسترسی گرفته تا بهبود ارتباطات و همکاری.

همانطور که مدل های صوتی هوش مصنوعی رایج تر می شوند، مهم است که به طور فعال به این چالش ها رسیدگی کنیم و اطمینان حاصل کنیم که این فناوری ها به طور مسئولانه و اخلاقی مورد استفاده قرار می گیرند. آینده مدل های صوتی هوش مصنوعی نوید بزرگی دارد، اما این به ما بستگی دارد که این آینده را به گونه ای شکل دهیم که برای همه بشریت سودمند باشد.

تلاش برای ایجاد هوش مصنوعی با صدای انسانی تر دشوار است، همانطور که در اسناد درز کرده مشهود است. هوش مصنوعی نه تنها باید روان با دستور زبان صحیح صحبت کند، بلکه باید شخصیتی داشته باشد که برای شخصی که با آن صحبت می کند واقعی به نظر برسد. این وظیفه بزرگ جایی است که این شرکت ها اکنون خود را در آن می یابند.