حوزه هوش مصنوعی دیگر تنها به قدرت پردازش یا تحلیل دادهها محدود نمیشود؛ بلکه به طور فزایندهای به رابط کاربری، تعامل و خودِ شخصیتی که این موجودیتهای دیجیتال از خود نشان میدهند، مربوط میشود. با عادت کردن کاربران به گفتگو با هوش مصنوعی، تقاضا برای تعاملات طبیعیتر، جذابتر و حتی منحصر به فردتر افزایش مییابد. شرکتهایی مانند OpenAI، یکی از بازیگران برجسته در این انقلاب فناوری، به خوبی از این تغییر آگاه هستند. پلتفرم ChatGPT آنها که به دلیل تواناییهای مکالمه مبتنی بر متن مشهور است، با حالت صوتی (Voice Mode) خود وارد حوزه شنیداری شده و هدف آن ایجاد تجربهای فراگیرتر و شبیه به انسان است. اخیراً، این کاوش با معرفی صدایی جدید، چرخشی جذاب و شاید حتی بازیگوشانه به خود گرفت؛ صدایی که به روند رو به رشد هوش مصنوعی با ویژگیهای شخصیتی متمایزتر اشاره دارد.
ساخت همراه مکالمهای: تکامل حالت صوتی ChatGPT
سفر به سوی هوش مصنوعی واقعاً مکالمهای، فراتر از درک و تولید متن است؛ این امر مستلزم تسلط بر ظرایف گفتار انسان – لحن، آهنگ صدا، سرعت و احساسات – است. OpenAI با درک این موضوع، حالت صوتی پیشرفته خود را برای ChatGPT معرفی کرد که گامی مهم فراتر از قابلیتهای ساده تبدیل متن به گفتار بود. هدف این ویژگی، تبدیل تعامل از تبادل صرفاً معاملاتی اطلاعات به چیزی نزدیکتر به یک گفتگوی واقعی بود.
حالت صوتی که در ابتدا با مجموعهای منتخب از شخصیتهای صوتی متمایز راهاندازی شد، به کاربران امکان انتخاب میداد تا همراه شنیداریای را انتخاب کنند که به بهترین وجه با ترجیح یا وظیفه آنها مطابقت داشت. این صداهای اولیه که نامهای تداعیکنندهای مانند Arbor، Maple، Soul، Spruce، Vale، Breeze، Juniper، Cove و Amber به آنها داده شده بود، برای پوشش طیفی از لحنها طراحی شده بودند – برخی گرم و دعوتکننده، برخی دیگر واضح و حرفهای، اما همگی برای وضوح و ظاهری طبیعی مهندسی شده بودند. این مجموعه که اولین بار با وعده عرضه گستردهتر در سپتامبر ۲۰۲۴ رونمایی شد، نشاندهنده تلاشی آگاهانه برای فاصله گرفتن از صداهای اغلب رباتیک و یکنواخت مرتبط با نسلهای قبلی دستیارهای دیجیتال بود. فناوری زیربنایی، با بهرهگیری از شبکههای عصبی پیچیده که بر روی حجم عظیمی از دادههای گفتار انسانی آموزش دیدهاند، به این صداها اجازه میدهد تا الگوهای آهنگ صدای شبیه به انسان را تقلید کنند و باعث میشوند تعاملات کمتر مصنوعی و روانتر به نظر برسند. هدف واضح بود: کاری کنیم که صحبت کردن با یک هوش مصنوعی کمتر شبیه صدور دستور به یک ماشین و بیشتر شبیه گفتگو با یک شریک توانا، هرچند دیجیتال، باشد.
این سرمایهگذاری در فناوری صوتی، بر یک ضرورت استراتژیک گستردهتر برای OpenAI تأکید دارد. با قدرتمندتر شدن مدلهای هوش مصنوعی و ادغام آنها در زندگی روزمره، تجربه کاربری به یک عامل تمایز حیاتی تبدیل میشود. صدایی دلپذیر و با صدای طبیعی میتواند به طور قابل توجهی تعامل کاربر را افزایش دهد، اعتماد را تقویت کند و فناوری را برای مخاطبان گستردهتری در دسترستر و جذابتر سازد. چه برای طوفان فکری ایدهها، یادگیری زبان جدید یا صرفاً داشتن یک گپ دوستانه استفاده شود، کیفیت تعامل صوتی اساساً درک کاربر و سودمندی هوش مصنوعی را شکل میدهد.
کمی شوخطبعی یا یک حرکت استراتژیک؟ معرفی ‘Monday’
در پسزمینه این گزینههای صوتی با دقت انتخاب شده، OpenAI صدای دهمی را با نام جذاب ‘Monday’ معرفی کرد. برخلاف پیشینیان خود که عمدتاً هدفشان خوشایندی یا حرفهای بودن بود، Monday به صراحت با طعم متفاوتی در ذهن طراحی شده بود. توصیف خود OpenAI آن را به عنوان ارائه دهنده پاسخهای بالقوه ‘عجیب و غریب و کنایهآمیز’ معرفی میکند، یک شخصیت صوتی که، شاید عمداً به طور مبهم، به سادگی به عنوان ‘چیزی’ توصیف میشود. این توصیف بلافاصله Monday را متمایز میکند و نشاندهنده خروج از قالب دستیار مفید به سمت چیزی با شخصیت برجستهتر و بالقوه غیرقابل پیشبینیتر است. این نام، کلیشه فرهنگی رایج ‘دوشنبههای دلگیر’ (Monday blues) را تداعی میکند – شاید صدایی که کمی خسته از دنیا، بذلهگو یا مستعد اظهارنظرهای نامتعارف است.
با این حال، زمان عرضه Monday سایه قابل توجهی از ابهام را بر ماندگاری و هدف آن انداخت. این صدا در اول آوریل، که در سطح بینالمللی به عنوان روز دروغ اول آوریل (April Fools’ Day) شناخته میشود، رونمایی شد. این انتخاب عمدی بلافاصله سؤالاتی را ایجاد میکند: آیا Monday صرفاً یک شوخی زودگذر است، تزریق موقتی طنز به پلتفرم که مقدر شده به همان سرعتی که آمده ناپدید شود؟ یا یک برنامه آزمایشی هوشمندانه پنهان شده است، راهی برای OpenAI برای سنجش واکنش کاربر به تعاملات هوش مصنوعی با نظرات بیشتر و شخصیتمحور تحت پوشش یک شوخی فصلی؟
پیامدهای این ابهام قابل توجه است. اگر صرفاً یک شوخی باشد، نشاندهنده فرهنگ سازمانی خاصی در OpenAI است، فرهنگی که مایل به درگیر شدن در خود-تقلیدی طنزآمیز است. میتوان آن را راهی برای انسانی کردن برند و ایجاد هیاهو دانست. با این حال، اگر Monday نشاندهنده یک کاوش واقعی، حتی آزمایشی، در شخصیتهای هوش مصنوعی باشد که از مفید بودن بیمزه منحرف میشوند، نشاندهنده یک تغییر بالقوه قابل توجه است. این نشان میدهد که OpenAI در حال آزمایش مرزهای شخصیت هوش مصنوعی است و تحمل و اشتیاق کاربر را برای تعاملاتی که ممکن است کمتر قابل پیشبینی اما بالقوه سرگرمکنندهتر یا قابل ارتباطتر برای برخی باشند، میسنجد. خود نام ‘Monday’ میتواند یک فرا-تفسیر باشد – آیا این صدایی است که وقتی احساس اشتیاق کمتری دارید استفاده میکنید، یا طوری طراحی شده که به نظر برسد آن احساس را تجسم میبخشد؟
به نظر میرسد تعاملات اولیهای که توسط کاربران گزارش شده، خلاصه طراحی عجیب و غریب را تأیید میکند. هنگامی که با فرا-سؤالاتی مانند ‘چرا نام شما Monday است؟’ مواجه میشود، گزارش شده که صدا پاسخهای طنزآمیز یا طفرهآمیز ارائه داده و به شخصیت تعیینشده خود متمایل شده است. این نشاندهنده سطحی از تنظیم خاص فراتر از فقط طنین صوتی است که به خود تولید پاسخ نیز گسترش مییابد، زمانی که این صدای خاص انتخاب شده باشد. در حالی که برخی کاربران این تازگی را سرگرمکننده یافتند، سؤالاتی در مورد جذابیت بلندمدت آن باقی میماند. آیا کنایه خستهکننده میشود؟ آیا عجیب و غریب بودن میتواند در استفاده طولانیمدت آزاردهنده شود؟ عرضه در روز دروغ اول آوریل، در صورتی که بازخورد منفی باشد، یک راه فرار مناسب برای OpenAI فراهم میکند و به آنها اجازه میدهد آن را به عنوان یک شوخی ساده رد کنند. برعکس، بازخورد مثبت میتواند آنها را جسورتر کند تا Monday یا صداهای شخصیتمحور مشابه را به یک ویژگی دائمی تبدیل کنند یا حتی فهرست را بیشتر گسترش دهند.
اتاق پژواک: شخصیتهای هوش مصنوعی و عرصه رقابت
ظهور صدایی مانند Monday، چه شوخی باشد چه نباشد، نمیتواند به صورت مجزا دیده شود. این صدا در بحبوحه چشمانداز رقابتیای ظاهر میشود که در آن توسعهدهندگان هوش مصنوعی به طور فزایندهای در حال آزمایش تزریق شخصیت به ساختههای خود هستند و آن را به عنوان یک عامل تمایز بالقوه و محرک تعامل کاربر میشناسند. مستقیمترین موازی، همانطور که توسط ناظران اشاره شده، با Grok از xAI، هوش مصنوعی توسعهیافته توسط شرکت ایلان ماسک است.
Grok به دلیل حالت ‘Unhinged’ (افسارگسیخته) خود توجه و برخی جنجالها را به خود جلب کرده است. این تنظیم به هوش مصنوعی اجازه میدهد تا لحنی سرکشتر، شوختر و گاهی کنایهآمیز اتخاذ کند و اغلب تفسیری ارائه میدهد که از پاسخهای خنثی و محتاطانه مدلهای اصلی هوش مصنوعی مانند ChatGPT در حالت پیشفرض خود فاصله زیادی دارد. Grok Unhinged به دنبال طنز، ارتباط با رویدادهای جاری (با استفاده از اطلاعات بیدرنگ از پلتفرم X) و تمایل به پرداختن به موضوعات حساس است، هرچند گاهی اوقات به شکلی ناشیانه یا توهینآمیز. پاسخهای آن از صراحت تازهکننده گرفته تا سوگیری سیاسی یا صرفاً نامناسب توصیف شدهاند که باعث ایجاد سرخط خبرها و برانگیختن بحث در مورد محدودیتهای مطلوب شخصیت هوش مصنوعی شده است.
از این منظر، Monday از OpenAI میتواند به عنوان یک پاسخ استراتژیک، هرچند بالقوه آزمایشی، به جایگاهی که Grok در تلاش برای ایجاد آن است، تفسیر شود. در حالی که ChatGPT از لحاظ تاریخی ایمنی، مفید بودن و بیطرفی را در اولویت قرار داده است، هیاهوی پیرامون سبک آزادانهتر Grok ممکن است نشاندهنده بخشی از پایگاه کاربری باشد که خواهان تعاملات کمتر پاکسازی شده است. Monday، با وعده عجیب و غریب بودن و کنایه، میتواند تلاش OpenAI برای پاسخگویی به این خواسته بدون پذیرش کامل خطرات بالقوه مرتبط با حالت ‘unhinged’ مانند Grok باشد. این راهی برای آزمایش جذابیت شخصیت بدون لزوماً تکرار نوع خاص طنز بحثبرانگیزی است که هوش مصنوعی ماسک گاهی اوقات از خود نشان میدهد.
این روند به سمت شخصیتهای متمایز هوش مصنوعی سؤالات گستردهتری را ایجاد میکند:
- اصالت در مقابل تصنع: چقدر شخصیت مطلوب است؟ آیا کاربران هوش مصنوعیای میخواهند که واقعاً احساس یک فرد را بدهد، یا این از دره وهمی (uncanny valley) عبور میکند و ناراحتکننده میشود؟ آیا یک شخصیت برنامهریزی شده واقعی است، یا فقط شکل پیچیدهتری از تقلید است؟
- سوگیری و توهین: تزریق شخصیت، به ویژه طنز، کنایه یا عقیده، به ناچار خطر نفوذ سوگیری یا توهینآمیز تلقی شدن پاسخها را افزایش میدهد. تجربه Grok این راه رفتن روی لبه تیغ را برجسته میکند. شرکتها چگونه میتوانند به هوش مصنوعی شخصیت ببخشند در حالی که حفاظهای اخلاقی را حفظ کرده و از بیگانه کردن کاربران اجتناب میکنند؟
- هویت برند: شخصیتی که توسط یک هوش مصنوعی ارائه میشود، به بخشی از برند شرکت تبدیل میشود. یک هوش مصنوعی عجیب و غریب یا کنایهآمیز ممکن است برای برخی از گروههای جمعیتی جذاب باشد اما با تصویر شرکتی که هدف آن قابل اعتماد بودن و اطمینانپذیری است، در تضاد باشد.
- اعتماد کاربر: آیا کاربران میتوانند به هوش مصنوعیای که کنایه یا نظرات قوی از خود نشان میدهد به اندازه هوش مصنوعیای که موضعی خنثی و واقعی را حفظ میکند، اعتماد کنند؟ آیا شخصیت، ارتباطپذیری را افزایش میدهد یا اعتبار را تضعیف میکند؟
رویکرد OpenAI با Monday، به ویژه ابهام پیرامون عرضه آن در روز دروغ اول آوریل، ممکن است راهی محتاطانه برای کاوش در این مسائل پیچیده باشد. این به آنها اجازه میدهد تا رفتار و بازخورد کاربر را در یک زمینه نسبتاً کمخطر مشاهده کنند، قبل از اینکه به یک استراتژی قطعیتر در مورد شخصیت هوش مصنوعی متعهد شوند. این یک جهان کوچک جذاب از روند بزرگتر صنعت است، جایی که رقابت فقط بر سر قدرت محاسباتی نیست، بلکه بر سر ساخت همراهان دیجیتالی است که در سطح شخصیتری با کاربران طنینانداز میشوند. مقایسه فقط بین Monday و Grok Unhinged نیست؛ بلکه در مورد فلسفههای متفاوت در مورد اینکه دستیاران هوش مصنوعی ما چقدر باید شبیه انسان و چقدر باید صاحب نظر شوند، است.
دموکراتیزه کردن گفتگو: دسترسی و تجربه کاربری
یک جنبه حیاتی از راهاندازی ویژگی صدای Monday، دسترسیپذیری آن است. OpenAI تصمیم آگاهانهای گرفت تا این شخصیت جدید را نه تنها به مشترکین پولی خود، بلکه به کاربران سطح رایگان خود نیز ارائه دهد. این حرکت پیامدهای قابل توجهی برای پذیرش کاربر، جمعآوری بازخورد و دموکراتیزه کردن کلی ویژگیهای پیشرفته هوش مصنوعی دارد.
برای مشتریان پولی، ادغام Monday یکپارچه است. آنها میتوانند به سادگی به منوی انتخاب صدا در رابط کاربری ChatGPT – که معمولاً در گوشه بالا سمت راست قرار دارد – بروند و ‘Monday’ را از لیست گسترده صداهای موجود، در کنار صداهای ثابت مانند Arbor، Cove و Juniper انتخاب کنند. این به آنها امکان میدهد تا در مکالمات صوتی کامل شرکت کنند و شخصیت عجیب و غریب را از طریق گفتگوی طبیعی گفتاری تجربه کنند.
با این حال، گسترش دسترسی به کاربران سطح رایگان، به ویژه قابل توجه است. در حالی که کاربران رایگان میتوانند Monday را انتخاب کرده و با آن تعامل داشته باشند، حالت اولیه تعامل آنها ممکن است کمی متفاوت باشد، و بسته به مشخصات عرضه و قابلیتهای پلتفرم، به طور بالقوه به چت مبتنی بر متن آغشته به سبک مشخصه Monday محدود شود، به جای مکالمه کامل صدا به صدا. برای یافتن Monday، کاربران رایگان معمولاً باید به بخش ‘Explore’ رابط کاربری دسترسی پیدا کنند، به پایین به دسته ‘By ChatGPT’ بروند و شخصیت Monday را در آنجا انتخاب کنند.
این استراتژی ارائه ویژگیهای جدید، حتی آزمایشی مانند Monday، به پایگاه کاربران رایگان، اهداف متعددی را برای OpenAI دنبال میکند:
- حلقه بازخورد گستردهتر: با قرار دادن Monday در معرض گروه بسیار بزرگتر و متنوعتری از کاربران، OpenAI میتواند دادههای گستردهای در مورد نحوه دریافت شخصیت جمعآوری کند. آیا جذاب است؟ آزاردهنده؟ در زمینههای خاص مفید است؟ این بازخورد گسترده برای اصلاح ویژگی یا تصمیمگیری در مورد آینده آن بسیار ارزشمند است.
- ترویج ویژگی و فروش بیشتر: دادن طعمی از قابلیتهای پیشرفته مانند شخصیتهای صوتی ظریف به کاربران رایگان میتواند به عنوان یک ابزار بازاریابی مؤثر عمل کند. کاربرانی که از این ویژگی لذت میبرند ممکن است تمایل بیشتری به ارتقاء به اشتراک پولی برای دسترسی پیشرفته یا سایر مزایای برتر داشته باشند.
- موقعیتیابی رقابتی: در یک بازار شلوغ، ارائه ویژگیهای جذاب به صورت رایگان میتواند بهجذب و حفظ کاربران کمک کند و موقعیت ChatGPT را در برابر رقبا تقویت کند.
- دموکراتیزه کردن هوش مصنوعی: در دسترس قرار دادن گسترده ویژگیهای نوآورانه با روایتی از در دسترس قرار دادن ابزارهای قدرتمند هوش مصنوعی برای همه، نه فقط کسانی که توانایی پرداخت اشتراک را دارند، همسو است.
با این حال، عرضه ویژگیهای محاسباتی فشرده مانند حالتهای صوتی پیشرفته به پایگاه عظیم کاربران رایگان نیز چالشهایی را به همراه دارد، عمدتاً در مورد تخصیص منابع و بار سرور. OpenAI باید مزایای دسترسی گسترده را با هزینههای عملیاتی و تقاضاهای زیرساختی متعادل کند.
خود تجربه کاربری مرکزی است. تازگی یک هوش مصنوعی کنایهآمیز ممکن است در ابتدا کاربران را جذب کند، همانطور که بحثهای آنلاین و ادعاهای ‘سرگرمکننده’ بودن آن نشان میدهد. با این حال، آزمون واقعی در تعامل پایدار نهفته است. آیا کاربران پس از فروکش کردن کنجکاوی اولیه به تعامل با Monday ادامه خواهند داد؟ یا برای کارهای روزمره به صداهای قابل پیشبینیتر و خنثیتر باز خواهند گشت؟ پاسخ احتمالاً به ترجیحات فردی و موارد استفاده خاص بستگی دارد. یک صدای عجیب و غریب ممکن است برای گفتگوی معمولی سرگرمکننده باشد اما برای تهیه پیشنویس یک سند رسمی یا جستجوی اطلاعات حیاتی کمتر مناسب باشد. موفقیت Monday و شخصیتهای هوش مصنوعی مشابه، به یافتن تعادل مناسب بین شخصیت و سودمندی بستگی دارد و اطمینان حاصل میکند که شخصیت، اهداف کاربر را به جای مانع شدن، تقویت میکند.
افق تعامل انسان و هوش مصنوعی: آینده صدا چیست؟
معرفی صدای Monday، صرف نظر از سرنوشت بلندمدت آن به عنوان یک ویژگی، به عنوان یک شاخص قانعکننده از جهتی که تعامل انسان و هوش مصنوعی به سمت آن در حرکت است، عمل میکند. این امر روند روشنی را از رابطهای صرفاً کاربردی و رباتیک به سمت تجربیات دیجیتالی ظریفتر، شخصیسازیشدهتر و از نظر احساسی طنیناندازتر برجسته میکند. این آزمایش واحد، دری را به روی تأمل در آیندهای غنی از امکانات و همچنین چالشهای پیچیده باز میکند.
با نگاه به آینده، تکامل تعامل صوتی هوش مصنوعی میتواند در چندین جهت آشکار شود:
- تنوع شخصیتی بیشتر: اگر آزمایشهایی مانند Monday موفقیتآمیز باشند، میتوانیم انتظار گسترش قابل توجهی در دامنه شخصیتهای هوش مصنوعی ارائه شده داشته باشیم. فراتر از عجیب و غریب یا کنایهآمیز، ممکن است صداهای همدلانه برای نقشهای پشتیبانی، صداهای مشتاق برای طوفان فکری، صداهای رواقی برای گزارشدهی واقعی، یا حتی صداهایی طراحی شده برای تقلید از شخصیتهای داستانی خاص یا چهرههای تاریخی (که مسائل اخلاقی و حق چاپ جداگانهای را مطرح میکند) ببینیم. هدف این خواهد بود که به کاربران یک همراه هوش مصنوعی ارائه شود که شخصیت آن کاملاً با خلق و خو، وظیفه یا ترجیح شخصی آنها هماهنگ باشد.
- سفارشیسازی کاربر: گام منطقی بعدی فراتر از ارائه منوی از پیش تعیین شده صداها، اجازه دادن به کاربران برای تنظیم دقیق یا حتی ایجاد شخصیتهای صوتی هوش مصنوعی خودشان است. تصور کنید که لغزندههایی را برای گرما، طنز، رسمیت یا پرحرفی تنظیم کنید تا یک شریک مکالمهای واقعاً سفارشی بسازید. این سطح از شخصیسازی میتواند تعامل کاربر را به طور چشمگیری عمیقتر کند اما همچنین به فناوری زیربنایی پیچیدهای نیاز دارد.
- صداهای تطبیقی: هوش مصنوعی آینده ممکن است توانایی تطبیق پویای لحن صوتی و شخصیت خود را بر اساس زمینه گفتگو یا وضعیت عاطفی درک شده کاربر داشته باشد. ممکن است هنگام بحث در مورد موضوعات حساس لحنی غمگینتر یا در طول جلسات خلاقانه لحنی شادتر اتخاذ کند. این امر مستلزم قابلیتهای پیشرفته تشخیص احساسات است و سؤالات اخلاقی عمیقی را در مورد دستکاری و اصالت ایجاد میکند.
- واقعگرایی عاطفی: تلاش برای طبیعی بودن ادامه خواهد یافت و مرزهای سنتز نه تنها صداهای واقعگرایانه بلکه صداهای قادر به انتقال احساسات به ظاهر واقعی را جابجا خواهد کرد. آه کشیدنهای ظریف، خندهها، مکثها و آهنگهایی که مشخصه گفتار انسان هستند فوقالعاده پیچیدهاند، اما پیشرفت در هوش مصنوعی مولد نشان میدهد که بیان عاطفی به طور فزایندهای قانعکننده قابل دستیابی است. با این حال، این امر مشکل دره وهمی و پتانسیل ایجاد وابستگیهای ناسالم به هوش مصنوعی را تشدید میکند.
- حفاظهای اخلاقی: با شبیهتر شدن صداهای هوش مصنوعی به انسان و شخصیتمحورتر شدن آنها، ملاحظات اخلاقی چند برابر میشود. چگونه از استفادههای دستکاریکننده هوش مصنوعی با طنین احساسی جلوگیری کنیم؟ چگونه شفافیت را تضمین کنیم تا کاربران همیشه بدانند که در حال تعامل با یک هوش مصنوعی هستند؟ چگونه پتانسیل سوگیری رمزگذاری شده در شخصیتهای خاص را کاهش دهیم؟ ایجاد دستورالعملهای اخلاقی روشن و پروتکلهای ایمنی قوی بسیار مهم خواهد بود.
بنابراین، Monday از OpenAI چیزی بیش از یک ویژگی بالقوه جدید است؛ این یک آغازگر گفتگو در مورد رابطه آینده بین انسان و ماشین است. این ما را وادار میکند تا در نظر بگیریم که واقعاً از دستیاران دیجیتال خود چه میخواهیم: کارایی، همراهی، سرگرمی یا ترکیبی از هر سه؟ با پیشرفت فناوری، خط بین ابزار و همراه احتمالاً به محو شدن ادامه خواهد داد و این آزمایشها با شخصیت را نه تنها تمرینهای فنی، بلکه کاوشهای حیاتی در بافت آینده زندگیهای با واسطه دیجیتالی ما میسازد. صدای عجیب و غریبی که در روز دروغ اول آوریل معرفی شد ممکن است یک شوخی باشد، یا ممکن است نگاهی اجمالی به آیندهای باشد که در آن تعاملات ما با فناوری بسیار رنگارنگتر و پیچیدهتر از آن چیزی است که در حال حاضر تصور میکنیم.