هوش مصنوعی مبتنی بر داده‌های اخلاقی: رویای علمی تخیلی

در یک رد قاطع از ادعاهای غیرممکن صنعت فناوری، یک تیم اختصاصی از محققان به چیزی دست یافته اند که بسیاری آن را دست نیافتنی می دانستند: ایجاد یک مدل هوش مصنوعی که به طور کامل بر روی داده های با منبع اخلاقی آموزش داده شده است. این دستاورد پیشگامانه، به رهبری کارشناسان موسسات معتبری مانند MIT، دانشگاه کرنل و دانشگاه تورنتو، یک طرح عملی و مسئولانه برای آینده توسعه هوش مصنوعی ارائه می دهد. راز موفقیت؟ یک مجموعه داده با دقت تنظیم شده که منحصراً از محتوای دارای مجوز باز یا دامنه عمومی تشکیل شده است.

وظیفه طاقت فرسای منبع یابی داده های اخلاقی

سفر به این واحه هوش مصنوعی اخلاقی به هیچ وجه یک گردش آسان نبود. همانطور که محققان به راحتی اعتراف می کنند، گلوگاه واقعی قدرت محاسباتی نبود، بلکه تلاش صرفاً انسانی بود. فرآیند مونتاژ Common Pile v0.1، یک مجموعه داده گسترده که از هشت ترابایت فراتر می رود، نیازمند پاکسازی دستی طاقت فرسا و تغییر فرمت برای مناسب ساختن آن برای آموزش هوش مصنوعی بود. تصور کنید که در میان انبوه بی پایانی از اطلاعات دیجیتال، به دنبال هر نوع اشتباهی می گردید که ممکن است مجموعه داده ها را خراب کند.

اما چالش واقعی در بررسی دقیق وضعیت حق چاپ نهفته بود. در قلمرو آشفته اینترنت، مجوزدهی نادرست گسترده یک هنجار است و تأیید حق چاپ را به یک کار سیزیف وار تبدیل می کند.

استلا بیدرمان، یکی از نویسندگان این مطالعه به WaPo گفت: «این چیزی نیست که بتوانید فقط منابعی را که در اختیار دارید، افزایش دهید. «ما از ابزارهای خودکار استفاده می‌کنیم، اما در پایان روز تمام مطالب ما به صورت دستی توضیح داده شده و توسط افراد بررسی شده است. و این واقعا سخت است.”

فرآیند جستجو در میان ترابایت ها داده برای یافتن مسائل مربوط به حق چاپ آسان نیست. محققان نمی توانستند به سادگی تراشه های کامپیوتری بیشتری را به این فرآیند اضافه کنند و به یک راه حل امیدوار باشند. در عوض، آنها باید به صورت دستی تمام داده ها را تأیید و حاشیه نویسی می کردند.

پیروزی بر ناملایمات: تولد یک هوش مصنوعی اخلاقی

علیرغم موانع دلهره آور، بیدرمان و تیم فداکارش پابرجا ماندند. هنگامی که کار دشوار ایجاد Common Pile به پایان رسید، آنها پتانسیل آن را برای آموزش یک مدل زبان بزرگ (LLM) هفت میلیارد پارامتری آزاد کردند. هوش مصنوعی حاصل نه تنها در برابر معیارهای صنعت مانند Llama 1 و Llama 2 7B Meta رقابت کرد، بلکه این کار را با یک وجدان اخلاقی پاک نیز انجام داد.

اما چشم انداز تحقیقات هوش مصنوعی به سرعت یک گلوله در حال تکامل است. مهم است که به یاد داشته باشید که متا Llama 1 و Llama 2 را چند سال پیش منتشر کرد، یک ابدیت نسبی در دنیای هوش مصنوعی.

این واقعیت که یک تیم لاغر و مصمم می‌تواند با منابع محدود به نتایج قابل مقایسه برسد، گواهی بر نبوغ آنها است. یک یافته به ویژه الهام بخش، گنجینه ای از بیش از 130000 کتاب زبان انگلیسی در کتابخانه کنگره بود که قبلاً نادیده گرفته شده بود.

آب‌های گل‌آلود هوش مصنوعی و حق چاپ

حق چاپ همچنان یک مسئله اخلاقی و حقوقی دشوار در عصر هوش مصنوعی است. غول‌های صنعت مانند OpenAI و Google مجموعه‌های داده عظیمی را با بلعیدن همه چیز در دید، از مقالات خبری گرفته تا پست‌های رسانه‌های اجتماعی شخصی، جمع‌آوری کرده‌اند. این عمل از همه طرف مورد انتقاد قرار گرفته است. نویسندگان حتی طرح دعوی کرده اند و استفاده غیرقانونی از کتاب های دارای حق چاپ را برای آموزش مدل های هوش مصنوعی ادعا می کنند.

صنعت فناوری استدلال می کند که چنین اقداماتی استفاده منصفانه را تشکیل می دهد و استدلال می کند که توسعه هوش مصنوعی بدون دسترسی نامحدود به داده ها “غیرممکن” خواهد بود. این آخرین تحقیق یک رد گزنده به این روایت سیلیکون ولی ارائه می دهد.

در حالی که این دستاورد گام مهمی به جلو است، اما تمام ملاحظات اخلاقی را از بین نمی برد. مدل های زبان بزرگ، با پتانسیل خود برای جابجایی کارگران انسانی، هنوز سوالات اساسی را در مورد آینده کار مطرح می کنند. علاوه بر این، استفاده از آثار در مالکیت عمومی ممکن است برای همه خوشایند نباشد، به ویژه کسانی که مشارکت های خلاقانه آنها اکنون توسط هوش مصنوعی بازتولید می شود.

حتی در آینده ای فرضی که شرکت های هوش مصنوعی مجبور به کسب اجازه یا ارائه غرامت برای استفاده از داده ها شوند، دارندگان حق چاپ همچنان ممکن است با فشار بی موردی برای اجازه آموزش هوش مصنوعی روبرو شوند. منابع عظیمی که می تواند در هنگام آموزش مدل های هوش مصنوعی به کار گرفته شود، به این معنی است که اکثر دارندگان حق چاپ نمی توانند در برابر فشار شرکت های بزرگ هوش مصنوعی برای اجازه استفاده از داده ها مقاومت کنند.

به سوی شفافیت و پاسخگویی در هوش مصنوعی

با این حال، بیدرمان همچنان عملگرا است. او هیچ توهمی ندارد که شرکت‌هایی مانند OpenAI ناگهان منبع‌یابی داده‌های اخلاقی را بپذیرند. در عوض، او امیدوار است که کارش شفافیت بیشتری را در استفاده از داده ها تشویق کند. از چه مجموعه داده هایی برای آموزش کدام محصولات هوش مصنوعی استفاده شده است؟ دانستن پاسخ این سوال می تواند پیامدهای مهمی برای آینده هوش مصنوعی داشته باشد.

او به WaPo گفت: «حتی شفافیت جزئی نیز ارزش اجتماعی بسیار زیادی و ارزش علمی متوسطی دارد.

در حال حاضر مجموعه داده های دقیقی که برای آموزش یک هوش مصنوعی خاص استفاده می شود، اسرار به شدت محافظت شده است. تنها راه برای تکثیر یک مدل هوش مصنوعی این است که یا به طور دقیق به شما گفته شود که چگونه مدل هوش مصنوعی کنونی ایجاد شده است، یا مهندسی معکوس مدل هوش مصنوعی که می تواند زمان و تلاش زیادی را ببرد.

تغییر پارادایم در توسعه هوش مصنوعی

پیامدهای این تحقیق فراتر از قلمرو اخلاق هوش مصنوعی است. این نشان دهنده یک تغییر اساسی در نحوه توسعه هوش مصنوعی است و نشان می دهد که ملاحظات اخلاقی و پیشرفت های فناوری نباید متقابلاً منحصر به فرد باشند. با اولویت دادن به شفافیت، منبع یابی مسئولانه داده ها و نظارت انسانی، می توانیم آینده ای را رقم بزنیم که در آن هوش مصنوعی به بشریت خدمت کند، نه برعکس.

پرداختن به نگرانی های اخلاقی و تأثیرات اجتماعی

استدلال صنعت فناوری مبنی بر اینکه استفاده از داده‌های اخلاقی یک مانع غیرقابل عبور است، اکنون قاطعانه به چالش کشیده شده است. موفقیت این پروژه بر امکان‌پذیر بودن ساخت مدل‌های هوش مصنوعی بر پایه‌ای اخلاقی محکم تاکید می‌کند. با این حال، ابعاد اخلاقی توسعه هوش مصنوعی فراتر از مسائل مربوط به حق چاپ است. تأثیرات اجتماعی-اقتصادی هوش مصنوعی، از جمله جابجایی شغلی و تعصب الگوریتمی، نیازمند بررسی دقیق است.

ملاحظات اخلاقی که بر مدل های هوش مصنوعی تأثیر می گذارد فراتر از منبع یابی است. ما همچنین باید تأیید کنیم که داده ها باعث نمی شوند مدل های هوش مصنوعی نسبت به یا علیه هیچ بخش از جمعیت متعصب شوند.

ترویج شفافیت و پاسخگویی

برای تقویت اعتماد و اطمینان از نوآوری مسئولانه، صنعت هوش مصنوعی باید شفافیت و پاسخگویی را در آغوش گیرد. شرکت ها باید در مورد منابع داده مورد استفاده برای آموزش مدل های خود و روش های به کار گرفته شده برای کاهش تعصب، باز باشند. ممیزی های مستقل و نظارت خارجی می تواند بیشتر پاسخگویی را افزایش داده و از لغزش های اخلاقی جلوگیری کند.

شفافیت هوش مصنوعی را می توان برای تأیید این که مجموعه داده ها دارای توزیع گسترده ای برای جلوگیری از تعصب در مدل هوش مصنوعی هستند، پیاده سازی کرد. پاسخگویی هوش مصنوعی را می توان با ممیزی های خارجی برای بررسیلغزش های اخلاقی احتمالی پیاده سازی کرد.

همکاری و راه حل های منبع باز

توسعه هوش مصنوعی با منبع اخلاقی نیازمند همکاری و راه حل های منبع باز است. محققان و توسعه دهندگان با به اشتراک گذاری مجموعه داده ها، روش شناسی ها و بهترین شیوه ها می توانند پیشرفت را تسریع کرده و به طور جمعی چالش های توسعه هوش مصنوعی اخلاقی را برطرف کنند. ابتکارات منبع باز همچنین می تواند سازمان ها و افراد کوچکتر را برای مشارکت در انقلاب هوش مصنوعی توانمند سازد و اطمینان حاصل کند که مزایای این فناوری به طور عادلانه تری به اشتراک گذاشته می شود.

وعده یک آینده روشن تر

ایجاد یک مدل هوش مصنوعی که به طور کامل بر روی داده های با منبع اخلاقی آموزش داده شده است، نقطه عطفی در تلاش برای هوش مصنوعی مسئولانه و سودمند است. این دستاورد پیشگامانه نه تنها ثابت می کند که توسعه هوش مصنوعی اخلاقی امکان پذیر است، بلکه نقشه راهی را برای دیگران فراهم می کند تا از آن پیروی کنند. با پذیرش شفافیت، همکاری و تعهد به اصول اخلاقی، می توانیم پتانسیل کامل هوش مصنوعی را در حالی که از ارزش های انسانی محافظت می کنیم و آینده ای عادلانه تر و عادلانه تر را ترویج می کنیم، باز کنیم.