بیارزش کردن یک مفهوم بنیادین: فرسایش 'متنباز'
اصطلاح ‘متنباز’ زمانی همچون چراغی در چشماندازهای فناورانه و علمی میدرخشید. این اصطلاح نمایانگر یک منش قدرتمند بود که بر پایه شفافیت، دسترسی نامحدود، بهبود مشارکتی و اصل بنیادین تکرارپذیری استوار بود. برای نسلها پژوهشگر و توسعهدهنده، این اصطلاح نشاندهنده تعهد به دانش مشترک و پیشرفت جمعی بود. از ابزارهای آماری بنیادین موجود در محیطهایی مانند R Studio که تحلیلهای بیشماری را در رشتههای مختلف توانمند میسازند، گرفته تا پلتفرمهای شبیهسازی پیچیدهای مانند OpenFOAM که برای گشودن پیچیدگیهای دینامیک سیالات استفاده میشوند، نرمافزار متنباز کاتالیزوری ضروری برای نوآوری بوده است. این امر با اجازه دادن به دانشمندان در سراسر جهان برای بازرسی، تأیید، اصلاح و بنا نهادن بر روی کار یکدیگر، کشف را تسریع بخشید و تضمین کرد که یافتهها میتوانند تکرار و تأیید شوند – که این خود سنگ بنای روش علمی است.
با این حال، اکنون سایهای بر این نام معتبر افتاده است که توسط حوزه نوظهور هوش مصنوعی ایجاد شده است. همانطور که در بحثهای انتقادی اخیر، از جمله موارد ذکر شده توسط نشریاتی مانند Nature، برجسته شده است، روند نگرانکنندهای پدیدار شده که در آن توسعهدهندگان برجسته هوش مصنوعی برچسب ‘متنباز’ را برای مدلهای خود به کار میبرند، در حالی که همزمان اجزای حیاتی لازم برای باز بودن واقعی را پنهان میکنند. این عمل خطر رقیق کردن معنای این اصطلاح را به همراه دارد و آن را از نماد شفافیت به یک شعار بازاریابی بالقوه گمراهکننده تبدیل میکند. مسئله اصلی اغلب در ماهیت منحصر به فرد سیستمهای هوش مصنوعی مدرن نهفته است. برخلاف نرمافزارهای سنتی که در آن کد منبع از اهمیت بالایی برخوردار است، قدرت و رفتار مدلهای بزرگ هوش مصنوعی به طور جداییناپذیری با مجموعه دادههای عظیمی که برای آموزش آنها استفاده میشود و معماریهای پیچیدهای که آنها را تعریف میکنند، مرتبط است. هنگامی که دسترسی به این دادههای آموزشی یا اطلاعات دقیق در مورد ساختار و وزندهی مدل محدود میشود، ادعای ‘متنباز’ بودن توخالی به نظر میرسد، صرف نظر از اینکه بخشی از کد مدل در دسترس قرار گرفته باشد یا خیر. این تناقض به قلب فلسفه متنباز ضربه میزند و توهمی از دسترسیپذیری ایجاد میکند در حالی که حیاتیترین عناصر برای بررسی و تکرار مستقل را پنهان میسازد.
ضرورت باز بودن واقعی در هوش مصنوعی علمی
اهمیت حفظ باز بودن واقعی در هوش مصنوعی، به ویژه در حوزه علمی، نمیتواند بیش از این باشد. علم بر توانایی تأیید مستقل نتایج، درک روششناسیها و بنا نهادن بر کارهای قبلی شکوفا میشود. هنگامی که خود ابزارها – مدلهای هوش مصنوعی که به طور فزایندهای پیچیده میشوند – به جعبههای سیاه تبدیل میشوند، این فرآیند بنیادین به خطر میافتد. اتکا به سیستمهای هوش مصنوعی که عملکرد درونی، سوگیریهای دادههای آموزشی یا حالتهای شکست بالقوه آنها مبهم است، سطح غیرقابل قبولی از عدم قطعیت را وارد پژوهش میکند. چگونه یک دانشمند میتواند با اطمینان نتایج خود را بر خروجی یک هوش مصنوعی استوار کند، اگر عوامل شکلدهنده آن خروجی ناشناخته یا غیرقابل تأیید باشند؟ چگونه جامعه میتواند به یافتههای تولید شده توسط سیستمهای اختصاصی که نمیتوانند به طور مستقل ممیزی یا تکرار شوند، اعتماد کند؟
موفقیت تاریخی نرمافزار متنباز در علم، تضادی آشکار و معیاری روشن را ارائه میدهد. شفافیت ذاتی در پروژههای متنباز سنتی، اعتماد را تقویت کرد و امکان بررسی همتای قوی را فراهم نمود. پژوهشگران میتوانستند الگوریتمها را بررسی کنند، محدودیتهای آنها را درک کنند و آنها را برای نیازهای خاص تطبیق دهند. این اکوسیستم مشارکتی پیشرفت را در زمینههایی از بیوانفورماتیک تا اخترفیزیک تسریع بخشید. پتانسیل هوش مصنوعی برای ایجاد انقلاب در کشف علمی بسیار زیاد است و وعده تحلیل مجموعه دادههای پیچیده، تولید فرضیهها و شبیهسازی فرآیندهای پیچیده در مقیاسهای بیسابقه را میدهد. با این حال، تحقق این پتانسیل به حفظ همان اصول شفافیت و تکرارپذیری که همواره زیربنای پیشرفت علمی بوده است، بستگی دارد. تغییر به سمت سیستمهای هوش مصنوعی بسته و اختصاصی، حتی آنهایی که به ظاهر ‘باز’ هستند، تهدیدی برای تکهتکه کردن جامعه پژوهشی، مانع شدن از همکاری و در نهایت کند کردن سرعت کشف با ایجاد موانع برای درک و اعتبارسنجی است. تلاش علمی نیازمند ابزارهایی است که نه تنها قدرتمند، بلکه شفاف و قابل اعتماد نیز باشند.
معضل دادهها: چالش شفافیت هوش مصنوعی
در قلب بحث ‘متنباز’ در هوش مصنوعی، مسئله حیاتی دادههای آموزشی قرار دارد. برخلاف نرمافزارهای مرسوم که عمدتاً توسط کدشان تعریف میشوند، مدلهای زبان بزرگ (LLMs) و سایر سیستمهای هوش مصنوعی بنیادین، اساساً توسط مجموعه دادههای عظیمی که در طول توسعه خود دریافت میکنند، شکل میگیرند. ویژگیها، سوگیریها و منشأ این دادهها عمیقاً بر رفتار مدل، قابلیتها و محدودیتهای بالقوه آن تأثیر میگذارد. بنابراین، باز بودن واقعی در هوش مصنوعی، مستلزم سطحی از شفافیت در مورد این دادهها است که بسیار فراتر از انتشار صرف وزنهای مدل یا کد استنتاج میرود.
بسیاری از مدلهایی که در حال حاضر تحت عنوان ‘متنباز’ به بازار عرضه میشوند، به طور آشکاری در این زمینه کوتاهی میکنند. نمونههای برجستهای مانند سری Llama از Meta، Phi-2 از Microsoft یا Mixtral از Mistral AI را در نظر بگیرید. در حالی که این شرکتها اجزای خاصی را منتشر میکنند که به توسعهدهندگان اجازه میدهد مدلها را اجرا یا تنظیم دقیق کنند، اغلب محدودیتهای قابل توجهی را اعمال میکنند یا جزئیات ناچیزی در مورد دادههای آموزشی زیربنایی ارائه میدهند. مجموعه دادههای درگیر میتوانند عظیم، اختصاصی، از وب بدون نظارت زیاد جمعآوری شده یا مشمول محدودیتهای مجوز باشند، که انتشار عمومی کامل را چالشبرانگیز یا غیرممکن میسازد. با این حال، بدون اطلاعات جامع در مورد:
- منابع داده: اطلاعات از کجا آمده است؟ آیا عمدتاً متن، تصویر، کد بوده است؟ از کدام وبسایتها، کتابها یا پایگاههای داده؟
- نظارت بر دادهها: دادهها چگونه فیلتر، پاکسازی و پردازش شدهاند؟ چه معیارهایی برای شامل کردن یا حذف اطلاعات استفاده شده است؟
- ویژگیهای داده: سوگیریهای شناخته شده در دادهها (مانند جمعیتی، فرهنگی، زبانی) چیست؟ چه دوره زمانی را پوشش میدهد؟
- مراحل پیشپردازش: چه تبدیلهایی قبل از آموزش روی دادهها اعمال شده است؟
…برای پژوهشگران مستقل بسیار دشوار میشود که رفتار مدل را به طور کامل درک کنند، توسعه آن را تکرار کنند یا سوگیریها و نقاط شکست بالقوه آن را به طور انتقادی ارزیابی کنند. این فقدان شفافیت دادهها دلیل اصلی است که چرا بسیاری از انتشارهای فعلی هوش مصنوعی ‘متنباز’ با روح، اگر نه با متن، باز بودن واقعی که در دنیای نرمافزار ایجاد شده است، مطابقت ندارند. در مقابل، ابتکاراتی مانند مدل OLMo از Allen Institute for AI یا تلاشهای جامعهمحور مانند CrystalCoder از LLM360 تلاشهای هماهنگتری برای ارائه شفافیت بیشتر در مورد دادهها و روشهای آموزشی خود انجام دادهاند و استاندارد بالاتری را تعیین میکنند که بیشتر با ارزشهای سنتی متنباز همسو است.
'بازنمایی' (Openwashing): برچسبگذاری استراتژیک یا گریز از مقررات؟
تصاحب برچسب ‘متنباز’ توسط نهادهایی که به طور کامل اصول آن را نمیپذیرند، نگرانیهایی را در مورد ‘بازنمایی’ (openwashing) ایجاد کرده است. این اصطلاح به عمل استفاده از مفاهیم مثبت باز بودن برای منافع روابط عمومی یا مزیت استراتژیک، بدون تعهد به سطح مرتبط شفافیت و دسترسیپذیری، اشاره دارد. چرا شرکتها ممکن است درگیر این کار شوند؟ چندین عامل میتواند نقش داشته باشد. برند ‘متنباز’ حسن نیت قابل توجهی را به همراه دارد و تعهد به جامعه و پیشرفت مشترک را القا میکند که میتواند برای توسعهدهندگان و مشتریان جذاب باشد.
علاوه بر این، همانطور که توسط Nature و سایر ناظران اشاره شده است، چشماندازهای نظارتی ممکن است ناخواسته چنین رفتاری را تشویق کنند. قانون برجسته هوش مصنوعی اتحادیه اروپا (EU AI Act) که در سال 2024 نهایی شد، شامل مقرراتی است که الزامات سختگیرانهتری را بر سیستمهای هوش مصنوعی پرخطر و عمومی اعمال میکند. با این حال، همچنین شامل معافیتهای بالقوه یا الزامات سبکتر برای مدلهای هوش مصنوعی منتشر شده تحت مجوزهای متنباز است. این امر یک راه گریز بالقوه ایجاد میکند که در آن شرکتها ممکن است به طور استراتژیک مدلهای خود را به عنوان ‘متنباز’ برچسبگذاری کنند - حتی اگر اجزای کلیدی مانند دادههای آموزشی محدود باقی بمانند - به طور خاص برای عبور از موانع نظارتی و اجتناب از تعهدات انطباق سختگیرانهتر.
این پتانسیل برای آربیتراژ نظارتی عمیقاً نگرانکننده است. اگر ‘بازنمایی’ به سیستمهای قدرتمند هوش مصنوعی اجازه دهد تا از بررسیهای دقیق با هدف تضمین ایمنی، انصاف و پاسخگویی عبور کنند، هدف اصلی مقررات را تضعیف میکند. همچنین جامعه علمی را در موقعیت مخاطرهآمیزی قرار میدهد. پژوهشگران ممکن است به دلیل دسترسیپذیری بیشتر این سیستمهای اسماً ‘باز’ در مقایسه با پیشنهادات تجاری کاملاً بسته، به سمت آنها کشیده شوند، اما در نهایت خود را متکی به ابزارهایی بیابند که روششناسی آنها مبهم و غیرقابل تأیید باقی میماند. این وابستگی خطر به خطر انداختن یکپارچگی علمی را به همراه دارد و تضمین تکرارپذیری، بیطرفی و بنا نهادن پژوهش بر پایهای محکم و قابل درک را دشوارتر میکند. جذابیت یک برچسب آشنا میتواند محدودیتهای اساسی را که مانع تحقیق علمی واقعی میشوند، پنهان کند.
تعریف مجدد باز بودن برای عصر هوش مصنوعی: چارچوب OSAID
با تشخیص ناکافی بودن تعاریف سنتی متنباز برای چالشهای منحصر به فرد ناشی از هوش مصنوعی، ابتکار متنباز (Open Source Initiative - OSI) - یک نگهبان دیرینه اصول متنباز - تلاش جهانی حیاتی را آغاز کرده است. هدف آنها ایجاد یک تعریف واضح و قوی است که به طور خاص برای هوش مصنوعی طراحی شده باشد: تعریف هوش مصنوعی متنباز (Open Source AI Definition - OSAID 1.0). این ابتکار گامی حیاتی به سوی بازپسگیری معنای ‘باز’ در زمینه هوش مصنوعی و تعیین استانداردهای بدون ابهام برای شفافیت و پاسخگویی است.
یک نوآوری کلیدی در چارچوب پیشنهادی OSAID مفهوم ‘اطلاعات داده’ است. با اذعان به اینکه انتشار کامل مجموعه دادههای آموزشی عظیم ممکن است اغلب به دلیل نگرانیهای مربوط به حریم خصوصی، محدودیتهای حق چاپ یا مقیاس صرف، غیرعملی یا از نظر قانونی ممنوع باشد، OSAID بر الزام افشای جامع درباره دادهها تمرکز دارد. این شامل الزاماتی برای توسعهدهندگان برای ارائه اطلاعات دقیق در مورد موارد زیر است:
- منابع و ترکیب: شناسایی واضح منشأ دادههای آموزشی.
- ویژگیها: مستندسازی ویژگیهای شناخته شده، محدودیتها و سوگیریهای بالقوه در دادهها.
- روشهای آمادهسازی: توضیح فرآیندهای مورد استفاده برای پاکسازی، فیلتر کردن و آمادهسازی دادهها برای آموزش.
حتی اگر دادههای خام قابل اشتراکگذاری نباشند، ارائه این فراداده به پژوهشگران و ممیزان اجازه میدهد تا بینشهای حیاتی در مورد عواملی که مدل هوش مصنوعی را شکل دادهاند، به دست آورند. این امر درک بهتر سوگیریهای بالقوه را تسهیل میکند، ارزیابیهای ریسک آگاهانهتر را امکانپذیر میسازد و مبنایی برای تلاش برای تکرار یا مطالعات تطبیقی فراهم میکند.
فراتر از اطلاعات داده، تلاش OSI، در کنار حمایت سازمانهایی مانند Open Future، تغییر گستردهتری را به سمت مدل ‘مشترکات داده’ (data-commons) ترویج میکند. این مدل آیندهای را متصور میشود که در آن مجموعه دادههای ضروری برای آموزش هوش مصنوعی به طور بازتر و عادلانهتر مدیریت و در دسترس قرار میگیرند و اکوسیستم شفافتر و مشارکتیتری را برای توسعه هوش مصنوعی، به ویژه در جامعه پژوهشی، پرورش میدهند. تعریف OSAID با هدف ارائه یک معیار واضح است که سیستمهای هوش مصنوعی را میتوان بر اساس آن ارزیابی کرد و فراتر از برچسبهای سطحی به ارزیابی تعهد واقعی به باز بودن پرداخت.
یک مسئولیت جمعی: پیشبرد شفافیت واقعی هوش مصنوعی
چالش تضمین باز بودن واقعی در هوش مصنوعی را نمیتوان تنها با تعاریف حل کرد؛ این امر نیازمند اقدام هماهنگ از سوی ذینفعان متعدد است. جامعه علمی، به عنوان توسعهدهندگان و کاربران اصلی ابزارهای پیچیده هوش مصنوعی، مسئولیت قابل توجهی دارد. پژوهشگران باید فعالانه با ابتکاراتی مانند OSAID 1.0 درگیر شوند، اصول آن را درک کنند و از پذیرش آنها حمایت کنند. آنها باید ادعاهای ‘باز بودن’ مدلهای هوش مصنوعی را که برای استفاده در نظر میگیرند، به طور انتقادی ارزیابی کنند و آنهایی را که شفافیت بیشتری در مورد دادههای آموزشی و روششناسی ارائه میدهند، در اولویت قرار دهند، حتی اگر این امر مستلزم مقاومت در برابر جذابیت سیستمهای به ظاهر راحت اما مبهم باشد. بیان نیاز به ابزارهای هوش مصنوعی قابل تأیید و تکرارپذیر در نشریات، کنفرانسها و بحثهای سازمانی بسیار مهم است.
آژانسهای تأمین مالی عمومی و نهادهای دولتی نیز نقش حیاتی ایفا میکنند. آنها از طریق الزامات کمکهای مالی و سیاستهای تدارکاتی نفوذ قابل توجهی دارند. مؤسساتی مانند مؤسسه ملی بهداشت ایالات متحده (NIH)، که قبلاً مجوز باز را برای دادههای پژوهشی تولید شده از طریق بودجه خود الزامی کرده است، یک سابقه ارزشمند ارائه میدهد. به طور مشابه، نمونههایی مانند الزام ایتالیا برای نهادهای مدیریت دولتی برای اولویت دادن به نرمافزار متنباز نشان میدهد که چگونه سیاست میتواند پذیرش را هدایت کند. این اصول میتوانند و باید به حوزه هوش مصنوعی گسترش یابند. دولتها و نهادهای تأمین مالی باید موارد زیر را در نظر بگیرند:
- الزام پایبندی به استانداردهای قوی هوش مصنوعی متنباز (مانند OSAID) برای پژوهش و توسعه هوش مصنوعی با بودجه عمومی.
- سرمایهگذاری در ایجاد مجموعه دادههای واقعاً باز و با کیفیت بالا - یک ‘مشترکات داده’ - مناسب برای آموزش مدلهای هوش مصنوعی متمرکز بر پژوهش.
- اطمینان از اینکه مقرراتی مانند قانون هوش مصنوعی اتحادیه اروپا (EU AI Act) به گونهای اجرا میشوند که از ‘بازنمایی’ جلوگیری کرده و همه سیستمهای قدرتمند هوش مصنوعی را، صرف نظر از ادعاهای مجوز آنها، پاسخگو نگه دارد.
در نهایت، حفاظت از آینده هوش مصنوعی در پژوهش نیازمند یک جبهه متحد است. دانشمندان باید خواستار شفافیت باشند، مؤسسات باید سیاستهایی را اجرا کنند که باز بودن واقعی را در اولویت قرار دهد و تنظیمکنندگان باید اطمینان حاصل کنند که برچسب ‘متنباز’ نشاندهنده تعهد معنادار به پاسخگویی است، نه یک راه فرار راحت. بدون این تلاشهای جمعی، پتانسیل عظیم هوش مصنوعی برای کشف علمی در معرض خطر قرار گرفتن توسط چشماندازی تحت سلطه سیستمهای بسته و اختصاصی است که اساساً ماهیت مشارکتی و قابل تأیید پیشرفت علمی را تضعیف میکند. یکپارچگی پژوهشهای آینده در معرض خطر است.