فریب 'متن‌باز' در هوش مصنوعی: فراخوان صداقت علمی

بی‌ارزش کردن یک مفهوم بنیادین: فرسایش 'متن‌باز'

اصطلاح ‘متن‌باز’ زمانی همچون چراغی در چشم‌اندازهای فناورانه و علمی می‌درخشید. این اصطلاح نمایانگر یک منش قدرتمند بود که بر پایه شفافیت، دسترسی نامحدود، بهبود مشارکتی و اصل بنیادین تکرارپذیری استوار بود. برای نسل‌ها پژوهشگر و توسعه‌دهنده، این اصطلاح نشان‌دهنده تعهد به دانش مشترک و پیشرفت جمعی بود. از ابزارهای آماری بنیادین موجود در محیط‌هایی مانند R Studio که تحلیل‌های بی‌شماری را در رشته‌های مختلف توانمند می‌سازند، گرفته تا پلتفرم‌های شبیه‌سازی پیچیده‌ای مانند OpenFOAM که برای گشودن پیچیدگی‌های دینامیک سیالات استفاده می‌شوند، نرم‌افزار متن‌باز کاتالیزوری ضروری برای نوآوری بوده است. این امر با اجازه دادن به دانشمندان در سراسر جهان برای بازرسی، تأیید، اصلاح و بنا نهادن بر روی کار یکدیگر، کشف را تسریع بخشید و تضمین کرد که یافته‌ها می‌توانند تکرار و تأیید شوند – که این خود سنگ بنای روش علمی است.

با این حال، اکنون سایه‌ای بر این نام معتبر افتاده است که توسط حوزه نوظهور هوش مصنوعی ایجاد شده است. همانطور که در بحث‌های انتقادی اخیر، از جمله موارد ذکر شده توسط نشریاتی مانند Nature، برجسته شده است، روند نگران‌کننده‌ای پدیدار شده که در آن توسعه‌دهندگان برجسته هوش مصنوعی برچسب ‘متن‌باز’ را برای مدل‌های خود به کار می‌برند، در حالی که همزمان اجزای حیاتی لازم برای باز بودن واقعی را پنهان می‌کنند. این عمل خطر رقیق کردن معنای این اصطلاح را به همراه دارد و آن را از نماد شفافیت به یک شعار بازاریابی بالقوه گمراه‌کننده تبدیل می‌کند. مسئله اصلی اغلب در ماهیت منحصر به فرد سیستم‌های هوش مصنوعی مدرن نهفته است. برخلاف نرم‌افزارهای سنتی که در آن کد منبع از اهمیت بالایی برخوردار است، قدرت و رفتار مدل‌های بزرگ هوش مصنوعی به طور جدایی‌ناپذیری با مجموعه داده‌های عظیمی که برای آموزش آن‌ها استفاده می‌شود و معماری‌های پیچیده‌ای که آن‌ها را تعریف می‌کنند، مرتبط است. هنگامی که دسترسی به این داده‌های آموزشی یا اطلاعات دقیق در مورد ساختار و وزن‌دهی مدل محدود می‌شود، ادعای ‘متن‌باز’ بودن توخالی به نظر می‌رسد، صرف نظر از اینکه بخشی از کد مدل در دسترس قرار گرفته باشد یا خیر. این تناقض به قلب فلسفه متن‌باز ضربه می‌زند و توهمی از دسترسی‌پذیری ایجاد می‌کند در حالی که حیاتی‌ترین عناصر برای بررسی و تکرار مستقل را پنهان می‌سازد.

ضرورت باز بودن واقعی در هوش مصنوعی علمی

اهمیت حفظ باز بودن واقعی در هوش مصنوعی، به ویژه در حوزه علمی، نمی‌تواند بیش از این باشد. علم بر توانایی تأیید مستقل نتایج، درک روش‌شناسی‌ها و بنا نهادن بر کارهای قبلی شکوفا می‌شود. هنگامی که خود ابزارها – مدل‌های هوش مصنوعی که به طور فزاینده‌ای پیچیده می‌شوند – به جعبه‌های سیاه تبدیل می‌شوند، این فرآیند بنیادین به خطر می‌افتد. اتکا به سیستم‌های هوش مصنوعی که عملکرد درونی، سوگیری‌های داده‌های آموزشی یا حالت‌های شکست بالقوه آن‌ها مبهم است، سطح غیرقابل قبولی از عدم قطعیت را وارد پژوهش می‌کند. چگونه یک دانشمند می‌تواند با اطمینان نتایج خود را بر خروجی یک هوش مصنوعی استوار کند، اگر عوامل شکل‌دهنده آن خروجی ناشناخته یا غیرقابل تأیید باشند؟ چگونه جامعه می‌تواند به یافته‌های تولید شده توسط سیستم‌های اختصاصی که نمی‌توانند به طور مستقل ممیزی یا تکرار شوند، اعتماد کند؟

موفقیت تاریخی نرم‌افزار متن‌باز در علم، تضادی آشکار و معیاری روشن را ارائه می‌دهد. شفافیت ذاتی در پروژه‌های متن‌باز سنتی، اعتماد را تقویت کرد و امکان بررسی همتای قوی را فراهم نمود. پژوهشگران می‌توانستند الگوریتم‌ها را بررسی کنند، محدودیت‌های آن‌ها را درک کنند و آن‌ها را برای نیازهای خاص تطبیق دهند. این اکوسیستم مشارکتی پیشرفت را در زمینه‌هایی از بیوانفورماتیک تا اخترفیزیک تسریع بخشید. پتانسیل هوش مصنوعی برای ایجاد انقلاب در کشف علمی بسیار زیاد است و وعده تحلیل مجموعه داده‌های پیچیده، تولید فرضیه‌ها و شبیه‌سازی فرآیندهای پیچیده در مقیاس‌های بی‌سابقه را می‌دهد. با این حال، تحقق این پتانسیل به حفظ همان اصول شفافیت و تکرارپذیری که همواره زیربنای پیشرفت علمی بوده است، بستگی دارد. تغییر به سمت سیستم‌های هوش مصنوعی بسته و اختصاصی، حتی آن‌هایی که به ظاهر ‘باز’ هستند، تهدیدی برای تکه‌تکه کردن جامعه پژوهشی، مانع شدن از همکاری و در نهایت کند کردن سرعت کشف با ایجاد موانع برای درک و اعتبارسنجی است. تلاش علمی نیازمند ابزارهایی است که نه تنها قدرتمند، بلکه شفاف و قابل اعتماد نیز باشند.

معضل داده‌ها: چالش شفافیت هوش مصنوعی

در قلب بحث ‘متن‌باز’ در هوش مصنوعی، مسئله حیاتی داده‌های آموزشی قرار دارد. برخلاف نرم‌افزارهای مرسوم که عمدتاً توسط کدشان تعریف می‌شوند، مدل‌های زبان بزرگ (LLMs) و سایر سیستم‌های هوش مصنوعی بنیادین، اساساً توسط مجموعه داده‌های عظیمی که در طول توسعه خود دریافت می‌کنند، شکل می‌گیرند. ویژگی‌ها، سوگیری‌ها و منشأ این داده‌ها عمیقاً بر رفتار مدل، قابلیت‌ها و محدودیت‌های بالقوه آن تأثیر می‌گذارد. بنابراین، باز بودن واقعی در هوش مصنوعی، مستلزم سطحی از شفافیت در مورد این داده‌ها است که بسیار فراتر از انتشار صرف وزن‌های مدل یا کد استنتاج می‌رود.

بسیاری از مدل‌هایی که در حال حاضر تحت عنوان ‘متن‌باز’ به بازار عرضه می‌شوند، به طور آشکاری در این زمینه کوتاهی می‌کنند. نمونه‌های برجسته‌ای مانند سری Llama از Meta، Phi-2 از Microsoft یا Mixtral از Mistral AI را در نظر بگیرید. در حالی که این شرکت‌ها اجزای خاصی را منتشر می‌کنند که به توسعه‌دهندگان اجازه می‌دهد مدل‌ها را اجرا یا تنظیم دقیق کنند، اغلب محدودیت‌های قابل توجهی را اعمال می‌کنند یا جزئیات ناچیزی در مورد داده‌های آموزشی زیربنایی ارائه می‌دهند. مجموعه داده‌های درگیر می‌توانند عظیم، اختصاصی، از وب بدون نظارت زیاد جمع‌آوری شده یا مشمول محدودیت‌های مجوز باشند، که انتشار عمومی کامل را چالش‌برانگیز یا غیرممکن می‌سازد. با این حال، بدون اطلاعات جامع در مورد:

  • منابع داده: اطلاعات از کجا آمده است؟ آیا عمدتاً متن، تصویر، کد بوده است؟ از کدام وب‌سایت‌ها، کتاب‌ها یا پایگاه‌های داده؟
  • نظارت بر داده‌ها: داده‌ها چگونه فیلتر، پاکسازی و پردازش شده‌اند؟ چه معیارهایی برای شامل کردن یا حذف اطلاعات استفاده شده است؟
  • ویژگی‌های داده: سوگیری‌های شناخته شده در داده‌ها (مانند جمعیتی، فرهنگی، زبانی) چیست؟ چه دوره زمانی را پوشش می‌دهد؟
  • مراحل پیش‌پردازش: چه تبدیل‌هایی قبل از آموزش روی داده‌ها اعمال شده است؟

…برای پژوهشگران مستقل بسیار دشوار می‌شود که رفتار مدل را به طور کامل درک کنند، توسعه آن را تکرار کنند یا سوگیری‌ها و نقاط شکست بالقوه آن را به طور انتقادی ارزیابی کنند. این فقدان شفافیت داده‌ها دلیل اصلی است که چرا بسیاری از انتشارهای فعلی هوش مصنوعی ‘متن‌باز’ با روح، اگر نه با متن، باز بودن واقعی که در دنیای نرم‌افزار ایجاد شده است، مطابقت ندارند. در مقابل، ابتکاراتی مانند مدل OLMo از Allen Institute for AI یا تلاش‌های جامعه‌محور مانند CrystalCoder از LLM360 تلاش‌های هماهنگ‌تری برای ارائه شفافیت بیشتر در مورد داده‌ها و روش‌های آموزشی خود انجام داده‌اند و استاندارد بالاتری را تعیین می‌کنند که بیشتر با ارزش‌های سنتی متن‌باز همسو است.

'بازنمایی' (Openwashing): برچسب‌گذاری استراتژیک یا گریز از مقررات؟

تصاحب برچسب ‘متن‌باز’ توسط نهادهایی که به طور کامل اصول آن را نمی‌پذیرند، نگرانی‌هایی را در مورد ‘بازنمایی’ (openwashing) ایجاد کرده است. این اصطلاح به عمل استفاده از مفاهیم مثبت باز بودن برای منافع روابط عمومی یا مزیت استراتژیک، بدون تعهد به سطح مرتبط شفافیت و دسترسی‌پذیری، اشاره دارد. چرا شرکت‌ها ممکن است درگیر این کار شوند؟ چندین عامل می‌تواند نقش داشته باشد. برند ‘متن‌باز’ حسن نیت قابل توجهی را به همراه دارد و تعهد به جامعه و پیشرفت مشترک را القا می‌کند که می‌تواند برای توسعه‌دهندگان و مشتریان جذاب باشد.

علاوه بر این، همانطور که توسط Nature و سایر ناظران اشاره شده است، چشم‌اندازهای نظارتی ممکن است ناخواسته چنین رفتاری را تشویق کنند. قانون برجسته هوش مصنوعی اتحادیه اروپا (EU AI Act) که در سال 2024 نهایی شد، شامل مقرراتی است که الزامات سخت‌گیرانه‌تری را بر سیستم‌های هوش مصنوعی پرخطر و عمومی اعمال می‌کند. با این حال، همچنین شامل معافیت‌های بالقوه یا الزامات سبک‌تر برای مدل‌های هوش مصنوعی منتشر شده تحت مجوزهای متن‌باز است. این امر یک راه گریز بالقوه ایجاد می‌کند که در آن شرکت‌ها ممکن است به طور استراتژیک مدل‌های خود را به عنوان ‘متن‌باز’ برچسب‌گذاری کنند - حتی اگر اجزای کلیدی مانند داده‌های آموزشی محدود باقی بمانند - به طور خاص برای عبور از موانع نظارتی و اجتناب از تعهدات انطباق سخت‌گیرانه‌تر.

این پتانسیل برای آربیتراژ نظارتی عمیقاً نگران‌کننده است. اگر ‘بازنمایی’ به سیستم‌های قدرتمند هوش مصنوعی اجازه دهد تا از بررسی‌های دقیق با هدف تضمین ایمنی، انصاف و پاسخگویی عبور کنند، هدف اصلی مقررات را تضعیف می‌کند. همچنین جامعه علمی را در موقعیت مخاطره‌آمیزی قرار می‌دهد. پژوهشگران ممکن است به دلیل دسترسی‌پذیری بیشتر این سیستم‌های اسماً ‘باز’ در مقایسه با پیشنهادات تجاری کاملاً بسته، به سمت آن‌ها کشیده شوند، اما در نهایت خود را متکی به ابزارهایی بیابند که روش‌شناسی آن‌ها مبهم و غیرقابل تأیید باقی می‌ماند. این وابستگی خطر به خطر انداختن یکپارچگی علمی را به همراه دارد و تضمین تکرارپذیری، بی‌طرفی و بنا نهادن پژوهش بر پایه‌ای محکم و قابل درک را دشوارتر می‌کند. جذابیت یک برچسب آشنا می‌تواند محدودیت‌های اساسی را که مانع تحقیق علمی واقعی می‌شوند، پنهان کند.

تعریف مجدد باز بودن برای عصر هوش مصنوعی: چارچوب OSAID

با تشخیص ناکافی بودن تعاریف سنتی متن‌باز برای چالش‌های منحصر به فرد ناشی از هوش مصنوعی، ابتکار متن‌باز (Open Source Initiative - OSI) - یک نگهبان دیرینه اصول متن‌باز - تلاش جهانی حیاتی را آغاز کرده است. هدف آن‌ها ایجاد یک تعریف واضح و قوی است که به طور خاص برای هوش مصنوعی طراحی شده باشد: تعریف هوش مصنوعی متن‌باز (Open Source AI Definition - OSAID 1.0). این ابتکار گامی حیاتی به سوی بازپس‌گیری معنای ‘باز’ در زمینه هوش مصنوعی و تعیین استانداردهای بدون ابهام برای شفافیت و پاسخگویی است.

یک نوآوری کلیدی در چارچوب پیشنهادی OSAID مفهوم ‘اطلاعات داده’ است. با اذعان به اینکه انتشار کامل مجموعه داده‌های آموزشی عظیم ممکن است اغلب به دلیل نگرانی‌های مربوط به حریم خصوصی، محدودیت‌های حق چاپ یا مقیاس صرف، غیرعملی یا از نظر قانونی ممنوع باشد، OSAID بر الزام افشای جامع درباره داده‌ها تمرکز دارد. این شامل الزاماتی برای توسعه‌دهندگان برای ارائه اطلاعات دقیق در مورد موارد زیر است:

  1. منابع و ترکیب: شناسایی واضح منشأ داده‌های آموزشی.
  2. ویژگی‌ها: مستندسازی ویژگی‌های شناخته شده، محدودیت‌ها و سوگیری‌های بالقوه در داده‌ها.
  3. روش‌های آماده‌سازی: توضیح فرآیندهای مورد استفاده برای پاکسازی، فیلتر کردن و آماده‌سازی داده‌ها برای آموزش.

حتی اگر داده‌های خام قابل اشتراک‌گذاری نباشند، ارائه این فراداده به پژوهشگران و ممیزان اجازه می‌دهد تا بینش‌های حیاتی در مورد عواملی که مدل هوش مصنوعی را شکل داده‌اند، به دست آورند. این امر درک بهتر سوگیری‌های بالقوه را تسهیل می‌کند، ارزیابی‌های ریسک آگاهانه‌تر را امکان‌پذیر می‌سازد و مبنایی برای تلاش برای تکرار یا مطالعات تطبیقی فراهم می‌کند.

فراتر از اطلاعات داده، تلاش OSI، در کنار حمایت سازمان‌هایی مانند Open Future، تغییر گسترده‌تری را به سمت مدل ‘مشترکات داده’ (data-commons) ترویج می‌کند. این مدل آینده‌ای را متصور می‌شود که در آن مجموعه داده‌های ضروری برای آموزش هوش مصنوعی به طور بازتر و عادلانه‌تر مدیریت و در دسترس قرار می‌گیرند و اکوسیستم شفاف‌تر و مشارکتی‌تری را برای توسعه هوش مصنوعی، به ویژه در جامعه پژوهشی، پرورش می‌دهند. تعریف OSAID با هدف ارائه یک معیار واضح است که سیستم‌های هوش مصنوعی را می‌توان بر اساس آن ارزیابی کرد و فراتر از برچسب‌های سطحی به ارزیابی تعهد واقعی به باز بودن پرداخت.

یک مسئولیت جمعی: پیشبرد شفافیت واقعی هوش مصنوعی

چالش تضمین باز بودن واقعی در هوش مصنوعی را نمی‌توان تنها با تعاریف حل کرد؛ این امر نیازمند اقدام هماهنگ از سوی ذینفعان متعدد است. جامعه علمی، به عنوان توسعه‌دهندگان و کاربران اصلی ابزارهای پیچیده هوش مصنوعی، مسئولیت قابل توجهی دارد. پژوهشگران باید فعالانه با ابتکاراتی مانند OSAID 1.0 درگیر شوند، اصول آن را درک کنند و از پذیرش آن‌ها حمایت کنند. آن‌ها باید ادعاهای ‘باز بودن’ مدل‌های هوش مصنوعی را که برای استفاده در نظر می‌گیرند، به طور انتقادی ارزیابی کنند و آن‌هایی را که شفافیت بیشتری در مورد داده‌های آموزشی و روش‌شناسی ارائه می‌دهند، در اولویت قرار دهند، حتی اگر این امر مستلزم مقاومت در برابر جذابیت سیستم‌های به ظاهر راحت اما مبهم باشد. بیان نیاز به ابزارهای هوش مصنوعی قابل تأیید و تکرارپذیر در نشریات، کنفرانس‌ها و بحث‌های سازمانی بسیار مهم است.

آژانس‌های تأمین مالی عمومی و نهادهای دولتی نیز نقش حیاتی ایفا می‌کنند. آن‌ها از طریق الزامات کمک‌های مالی و سیاست‌های تدارکاتی نفوذ قابل توجهی دارند. مؤسساتی مانند مؤسسه ملی بهداشت ایالات متحده (NIH)، که قبلاً مجوز باز را برای داده‌های پژوهشی تولید شده از طریق بودجه خود الزامی کرده است، یک سابقه ارزشمند ارائه می‌دهد. به طور مشابه، نمونه‌هایی مانند الزام ایتالیا برای نهادهای مدیریت دولتی برای اولویت دادن به نرم‌افزار متن‌باز نشان می‌دهد که چگونه سیاست می‌تواند پذیرش را هدایت کند. این اصول می‌توانند و باید به حوزه هوش مصنوعی گسترش یابند. دولت‌ها و نهادهای تأمین مالی باید موارد زیر را در نظر بگیرند:

  • الزام پایبندی به استانداردهای قوی هوش مصنوعی متن‌باز (مانند OSAID) برای پژوهش و توسعه هوش مصنوعی با بودجه عمومی.
  • سرمایه‌گذاری در ایجاد مجموعه داده‌های واقعاً باز و با کیفیت بالا - یک ‘مشترکات داده’ - مناسب برای آموزش مدل‌های هوش مصنوعی متمرکز بر پژوهش.
  • اطمینان از اینکه مقرراتی مانند قانون هوش مصنوعی اتحادیه اروپا (EU AI Act) به گونه‌ای اجرا می‌شوند که از ‘بازنمایی’ جلوگیری کرده و همه سیستم‌های قدرتمند هوش مصنوعی را، صرف نظر از ادعاهای مجوز آن‌ها، پاسخگو نگه دارد.

در نهایت، حفاظت از آینده هوش مصنوعی در پژوهش نیازمند یک جبهه متحد است. دانشمندان باید خواستار شفافیت باشند، مؤسسات باید سیاست‌هایی را اجرا کنند که باز بودن واقعی را در اولویت قرار دهد و تنظیم‌کنندگان باید اطمینان حاصل کنند که برچسب ‘متن‌باز’ نشان‌دهنده تعهد معنادار به پاسخگویی است، نه یک راه فرار راحت. بدون این تلاش‌های جمعی، پتانسیل عظیم هوش مصنوعی برای کشف علمی در معرض خطر قرار گرفتن توسط چشم‌اندازی تحت سلطه سیستم‌های بسته و اختصاصی است که اساساً ماهیت مشارکتی و قابل تأیید پیشرفت علمی را تضعیف می‌کند. یکپارچگی پژوهش‌های آینده در معرض خطر است.