فریب 'متن‌باز' در هوش مصنوعی: ربودن یک آرمان

اصطلاح ‘متن‌باز’ زمانی با وضوح خاصی طنین‌انداز بود، وعده‌ای از دانش مشترک و پیشرفت همکاری‌جویانه که پیشران جهش‌های علمی و فناورانه بی‌شماری بود. این اصطلاح تصاویری از جوامعی را تداعی می‌کرد که با هم می‌سازند، کار یکدیگر را موشکافی می‌کنند و بر شانه‌های غول‌ها می‌ایستند زیرا نقشه‌ها به رایگان در دسترس بودند. اکنون، در چشم‌انداز هوش مصنوعی، این اصطلاح به طور فزاینده‌ای… لغزنده به نظر می‌رسد. همانطور که در صفحات Nature برجسته شده و در آزمایشگاه‌ها و اتاق‌های هیئت مدیره زمزمه می‌شود، تعداد نگران‌کننده‌ای از بازیگران در تب طلای هوش مصنوعی، ساخته‌های خود را در ردای ‘متن‌باز’ می‌پوشانند در حالی که اجزای واقعاً حیاتی را تحت قفل و کلید نگه می‌دارند. این فقط یک بحث معنایی نیست؛ این عملی است که پایه‌های یکپارچگی علمی را می‌خورد و تهدیدی برای پنهان کردن مسیر نوآوری آینده است. جامعه پژوهشی، همان گروهی که بیشترین سود یا زیان را می‌برد، باید این نمایش فریبنده را همانطور که هست بشناسد و با قدرت از سیستم‌های هوش مصنوعی که واقعاً اصول شفافیت و تکرارپذیری را که مدت‌ها به آن تکیه کرده‌ایم، تجسم می‌بخشند، دفاع کند.

عصر طلایی گشودگی: میراثی در معرض تهدید

برای دهه‌ها، جنبش متن‌باز قهرمان گمنام پیشرفت علمی بوده است. فراتر از ابزارهای آشنا مانند R Studio برای جادوی آماری یا OpenFOAM برای مدل‌سازی دینامیک سیالات فکر کنید. سیستم‌های بنیادی مانند Linux را در نظر بگیرید که بخش‌های وسیعی از اینترنت و خوشه‌های محاسباتی علمی را قدرت می‌بخشد، یا وب سرور Apache، گواهی بر توسعه نرم‌افزار مشارکتی. فلسفه ساده بود: دسترسی به کد منبع را فراهم کنید، اجازه اصلاح و توزیع مجدد تحت مجوزهای سهل‌گیرانه را بدهید و یک اکوسیستم جهانی را پرورش دهید که در آن بهبودها به نفع همه باشد.

این صرفاً نوع‌دوستی نبود؛ نبوغ عمل‌گرایانه بود. گشودگی کشف را تسریع کرد. پژوهشگران می‌توانستند آزمایش‌ها را تکرار کنند، یافته‌ها را تأیید کنند و بر اساس کارهای موجود بنا کنند بدون اینکه چرخ را دوباره اختراع کنند یا در سیستم‌های اختصاصی مبهم حرکت کنند. این امر اعتماد را تقویت کرد، زیرا کارکردهای درونی برای بازرسی در دسترس بود و امکان یافتن و رفع اشکالات به صورت جمعی را فراهم می‌کرد. این دسترسی را دموکراتیزه کرد و دانشمندان و توسعه‌دهندگان را در سراسر جهان، صرف نظر از وابستگی سازمانی یا بودجه، قادر ساخت تا در کارهای پیشرفته شرکت کنند. این روحیه همکاری، که بر اساس دسترسی مشترک و بررسی متقابل بنا شده بود، عمیقاً در خود روش علمی ریشه دوانید و استحکام را تضمین کرد و پیشرفت سریع را در زمینه‌های مختلف تقویت کرد. توانایی کالبدشکافی، درک و اصلاح ابزارهای مورد استفاده بسیار مهم بود. این فقط مربوط به استفاده از نرم‌افزار نبود؛ بلکه در مورد درک چگونگی کارکرد آن، اطمینان از مناسب بودن آن برای یک کار علمی خاص و کمک به مخزن دانش جمعی بود. این چرخه فضیلت‌مندانه، نوآوری را با سرعتی بی‌سابقه به پیش راند.

وابستگی هوش مصنوعی به داده: چرا ‘کد پادشاه است’ کافی نیست

وارد عصر هوش مصنوعی در مقیاس بزرگ، به ویژه مدل‌های بنیادی که توجه و سرمایه‌گذاری زیادی را به خود جلب می‌کنند، می‌شویم. در اینجا، پارادایم سنتی متن‌باز، که عمدتاً بر کد منبع متمرکز است، با یک عدم تطابق اساسی روبرو می‌شود. در حالی که الگوریتم‌ها و کدهای مورد استفاده برای ساخت یک مدل هوش مصنوعی قطعاً بخشی از تصویر هستند، اما به هیچ وجه کل داستان نیستند. هوش مصنوعی مدرن، به ویژه مدل‌های یادگیری عمیق، مصرف‌کنندگان حریص داده هستند. داده‌های آموزشی فقط یک ورودی نیستند؛ بلکه مسلماً تعیین‌کننده اصلی قابلیت‌ها، سوگیری‌ها و محدودیت‌های مدل هستند.

انتشار کد مدل، یا حتی پارامترهای نهایی آموزش‌دیده آن (‘وزن‌ها’)، بدون ارائه دسترسی معنادار به یا اطلاعات دقیق در مورد مجموعه داده‌های عظیمی که برای آموزش استفاده شده‌اند، مانند دادن کلیدهای ماشین به کسی است اما امتناع از گفتن اینکه چه نوع سوختی مصرف می‌کند، کجا رانده شده است، یا چگونه موتور واقعاً مونتاژ شده است. ممکن است بتوانید آن را برانید، اما توانایی محدودی برای درک ویژگی‌های عملکردی آن، تشخیص مشکلات بالقوه، یا اصلاح قابل اعتماد آن برای سفرهای جدید دارید.

علاوه بر این، منابع محاسباتی مورد نیاز برای آموزش این مدل‌ها از ابتدا بسیار زیاد است و اغلب برای یک دوره آموزشی به میلیون‌ها دلار می‌رسد. این مانع دیگری ایجاد می‌کند. حتی اگر کد و داده‌ها کاملاً در دسترس بودند، تنها تعداد انگشت‌شماری از سازمان‌ها زیرساخت لازم برای تکرار فرآیند آموزش را در اختیار دارند. این واقعیت اساساً پویایی را در مقایسه با نرم‌افزارهای سنتی تغییر می‌دهد، جایی که کامپایل کد معمولاً در دسترس اکثر توسعه‌دهندگان یا پژوهشگران است. برای هوش مصنوعی، تکرارپذیری واقعی و توانایی آزمایش با آموزش مجدد اغلب دست‌نیافتنی باقی می‌ماند، حتی زمانی که اجزا برچسب ‘باز’ دارند. بنابراین، صرفاً اعمال تعاریف قدیمی متن‌باز که برای کد طراحی شده‌اند، الزامات این حوزه جدید، داده‌محور و محاسبات‌بر را در بر نمی‌گیرد.

‘اپن‌واشینگ’: گرگی در لباس میش

این شکاف بین مفاهیم سنتی متن‌باز و واقعیت‌های توسعه هوش مصنوعی، زمینه مساعدی را برای پدیده‌ای به نام ‘اپن‌واشینگ’ (openwashing) ایجاد کرده است. شرکت‌ها مشتاقانه برچسب ‘متن‌باز’ را بر روی مدل‌های هوش مصنوعی خود می‌چسبانند و از مزایای روابط عمومی و حسن نیت مرتبط با این اصطلاح بهره‌مند می‌شوند، در حالی که از مجوزها یا محدودیت‌های دسترسی استفاده می‌کنند که به روح، اگر نه به متن دقیق (و مسلماً منسوخ) گشودگی واقعی، خیانت می‌کند.

این در عمل چگونه به نظر می‌رسد؟

  • انتشار کد بدون داده: یک شرکت ممکن است کد معماری مدل و شاید حتی وزن‌های از پیش آموزش‌دیده را منتشر کند و به دیگران اجازه دهد از مدل ‘همانطور که هست’ استفاده کنند یا آن را بر روی مجموعه داده‌های کوچکتر تنظیم دقیق کنند. با این حال، مجموعه داده آموزشی عظیم و بنیادی - سس مخفی که توانایی‌های اصلی مدل را تعریف می‌کند - اختصاصی و پنهان باقی می‌ماند.
  • مجوزهای محدودکننده: مدل‌ها ممکن است تحت مجوزهایی منتشر شوند که در نگاه اول باز به نظر می‌رسند اما حاوی بندهایی هستند که استفاده تجاری را محدود می‌کنند، استقرار در سناریوهای خاص را محدود می‌کنند، یا انواع خاصی از اصلاح یا تجزیه و تحلیل را ممنوع می‌کنند. این محدودیت‌ها با آزادی‌هایی که معمولاً با نرم‌افزار متن‌باز مرتبط است، در تضاد هستند.
  • افشای مبهم داده‌ها: به جای اطلاعات دقیق در مورد منابع داده، روش‌های جمع‌آوری، فرآیندهای پاکسازی و سوگیری‌های بالقوه، شرکت‌ها ممکن است توضیحات مبهمی ارائه دهند یا جزئیات حیاتی را به طور کامل حذف کنند. این فقدان ‘شفافیت داده’ ارزیابی کامل قابلیت اطمینان یا پیامدهای اخلاقی مدل را غیرممکن می‌سازد.

چرا در چنین اقداماتی شرکت می‌کنند؟ انگیزه‌ها احتمالاً متنوع هستند. مفاهیم مثبت ‘متن‌باز’ بدون شک برای جذب استعداد، ایجاد جوامع توسعه‌دهنده (حتی اگر محدود باشند) و ایجاد مطبوعات مطلوب ارزشمند هستند. بدبینانه‌تر، همانطور که Nature اشاره می‌کند، ممکن است انگیزه‌های نظارتی وجود داشته باشد. قانون جامع هوش مصنوعی اتحادیه اروپا در سال 2024، به عنوان مثال، شامل معافیت‌های بالقوه یا الزامات سبک‌تر برای سیستم‌هایی است که به عنوان متن‌باز طبقه‌بندی می‌شوند. با استفاده استراتژیک از این برچسب، برخی از شرکت‌ها ممکن است امیدوار باشند که در چشم‌اندازهای نظارتی پیچیده با اصطکاک کمتری حرکت کنند و به طور بالقوه از نظارتی که برای سیستم‌های هوش مصنوعی قدرتمند و همه‌منظوره در نظر گرفته شده است، طفره بروند. این تمرین برندسازی استراتژیک از حسن نیت تاریخی جنبش متن‌باز سوء استفاده می‌کند در حالی که به طور بالقوه تلاش‌ها برای اطمینان از استقرار مسئولانه هوش مصنوعی را تضعیف می‌کند.

طیفی از گشودگی: بررسی نمونه‌ها

تشخیص این نکته حیاتی است که گشودگی در هوش مصنوعی لزوماً یک حالت دودویی نیست؛ بلکه در یک طیف وجود دارد. با این حال، شیوه‌های برچسب‌گذاری فعلی اغلب پنهان می‌کنند که یک مدل خاص واقعاً در کجای آن طیف قرار دارد.

برخی از نمونه‌های برجسته که اغلب در این زمینه مورد بحث قرار می‌گیرند را در نظر بگیرید:

  • سری Llama شرکت Meta: در حالی که Meta وزن‌ها و کد مدل‌های Llama را منتشر کرد، دسترسی در ابتدا نیازمند درخواست بود و مجوز شامل محدودیت‌هایی بود، به ویژه در مورد استفاده توسط شرکت‌های بسیار بزرگ و برنامه‌های کاربردی خاص. نکته مهم این است که داده‌های آموزشی زیربنایی منتشر نشد و تکرارپذیری کامل و تجزیه و تحلیل عمیق ویژگی‌های آن را محدود کرد. در حالی که نسخه‌های بعدی شرایط را تنظیم کرده‌اند، مسئله اصلی عدم شفافیت داده‌ها اغلب باقی می‌ماند.
  • Phi-2 شرکت Microsoft: Microsoft مدل Phi-2 را به عنوان یک مدل زبان کوچک ‘متن‌باز’ معرفی کرد. در حالی که وزن‌های مدل در دسترس هستند، مجوز دارای محدودیت‌های استفاده خاصی است و اطلاعات دقیق در مورد مجموعه داده‌های آموزشی آن، که برای درک قابلیت‌ها و سوگیری‌های بالقوه آن (به ویژه با توجه به آموزش آن بر روی داده‌های ‘مصنوعی’) حیاتی است، کاملاً شفاف نیست.
  • Mixtral شرکت Mistral AI: این مدل که توسط یک استارت‌آپ برجسته اروپایی هوش مصنوعی منتشر شد، به دلیل عملکردش مورد توجه قرار گرفت. در حالی که اجزا تحت مجوز سهل‌گیرانه Apache 2.0 (یک مجوز واقعاً باز برای کد/وزن‌ها) منتشر شدند، شفافیت کامل در مورد ترکیب داده‌های آموزشی و فرآیند گردآوری همچنان محدود است و مانع از بررسی علمی عمیق می‌شود.

اینها را با ابتکاراتی مقایسه کنید که برای همسویی بیشتر با اصول سنتی متن‌باز تلاش می‌کنند:

  • OLMo مؤسسه Allen برای هوش مصنوعی (Allen Institute for AI): این پروژه به صراحت با هدف ساخت یک مدل زبان واقعاً باز انجام شد و اولویت را نه تنها به انتشار وزن‌ها و کد مدل، بلکه به داده‌های آموزشی (مجموعه داده Dolma) و گزارش‌های دقیق آموزش داد. این تعهد امکان سطوح بی‌سابقه‌ای از تکرارپذیری و تجزیه و تحلیل را برای جامعه پژوهشی گسترده‌تر فراهم می‌کند.
  • CrystalCoder پروژه LLM360: این تلاش جامعه‌محور به طور مشابه بر انتشار تمام اجزای چرخه عمر توسعه مدل، از جمله نقاط بازرسی میانی و مستندات دقیق در مورد داده‌ها و فرآیند آموزش تأکید دارد و سطحی از شفافیت را که اغلب در انتشارات شرکتی وجود ندارد، تقویت می‌کند.

این نمونه‌های متضاد نشان می‌دهند که گشودگی واقعی در هوش مصنوعی امکان‌پذیر است، اما نیازمند تعهدی آگاهانه فراتر از صرفاً انتشار کد یا وزن‌ها است. این امر مستلزم شفافیت در مورد داده‌ها و فرآیند است و پذیرش موشکافی‌هایی که با آن همراه است. ابهام فعلی که توسط ‘اپن‌واشینگ’ ایجاد شده است، تشخیص اینکه کدام ابزارها واقعاً از تحقیقات علمی باز پشتیبانی می‌کنند را برای پژوهشگران دشوارتر می‌کند.

فرسایش اعتماد: یکپارچگی علمی در خطر

پیامدهای این ‘اپن‌واشینگ’ گسترده بسیار فراتر از برندسازی صرف است. هنگامی که پژوهشگران به مدل‌های هوش مصنوعی تکیه می‌کنند که عملکرد درونی آنها، به ویژه داده‌هایی که بر اساس آنها آموزش دیده‌اند، مبهم است، به قلب روش‌شناسی علمی ضربه می‌زند.

  • تضعیف تکرارپذیری: سنگ بنای اعتبار علمی، توانایی پژوهشگران مستقل برای تکرار نتایج است. اگر داده‌های آموزشی و روش‌های دقیق آموزش ناشناخته باشند، تکرار واقعی غیرممکن می‌شود. پژوهشگران ممکن است از یک مدل از پیش آموزش‌دیده استفاده کنند، اما نمی‌توانند ساخت آن را تأیید کنند یا ویژگی‌های بنیادی آن را که از داده‌های پنهان ناشی می‌شود، بررسی کنند.
  • ممانعت از تأیید: چگونه دانشمندان می‌توانند به خروجی‌های یک مدل اعتماد کنند اگر نتوانند داده‌هایی را که از آن یاد گرفته است، بازرسی کنند؟ سوگیری‌های پنهان، عدم دقت‌ها، یا نگرانی‌های اخلاقی نهفته در داده‌های آموزشی به ناچار در رفتار مدل آشکار می‌شوند، اما بدون شفافیت، تشخیص، عیب‌یابی یا کاهش این نقص‌ها دشوار است. استفاده از چنین جعبه‌های سیاهی برای کشف علمی، سطح غیرقابل قبولی از عدم قطعیت را معرفی می‌کند.
  • خفه شدن نوآوری: علم با بنا نهادن بر کارهای قبلی پیشرفت می‌کند. اگر مدل‌های بنیادی با محدودیت‌ها یا بدون شفافیت لازم (به ویژه در مورد داده‌ها) منتشر شوند، توانایی دیگران برای نوآوری، آزمایش با رژیم‌های آموزشی جایگزین، یا تطبیق مدل‌ها برای کاربردهای علمی جدید به روش‌هایی که سازندگان اصلی ممکن است پیش‌بینی نکرده باشند، مانع می‌شود. پیشرفت توسط ارائه‌دهندگان این سیستم‌های نیمه‌شفاف محدود می‌شود.

اتکا به سیستم‌های شرکتی بسته یا نیمه‌بسته، پژوهشگران را به جای مشارکت‌کنندگان و نوآوران فعال، به نقش مصرف‌کننده منفعل وادار می‌کند. این امر خطر ایجاد آینده‌ای را دارد که در آن زیرساخت‌های علمی حیاتی توسط چند نهاد بزرگ کنترل می‌شود و به طور بالقوه منافع تجاری را بر نیازهای تحقیقات علمی باز اولویت می‌دهد. این فرسایش شفافیت مستقیماً به فرسایش اعتماد به ابزارهای زیربنایی تحقیقات مدرن تبدیل می‌شود.

تمرکز بازار و اثر بازدارنده بر نوآوری

فراتر از تأثیر فوری بر عملکرد علمی، شیوع متن‌باز کاذب در هوش مصنوعی پیامدهای اقتصادی و بازاری قابل توجهی دارد. توسعه مدل‌های بنیادی بزرگ نه تنها به تخصص قابل توجه، بلکه به دسترسی به مجموعه داده‌های وسیع و قدرت محاسباتی عظیم نیاز دارد - منابعی که به طور نامتناسبی در اختیار شرکت‌های بزرگ فناوری قرار دارند.

هنگامی که این شرکت‌ها مدل‌ها را تحت لوای ‘متن‌باز’ منتشر می‌کنند اما کنترل بر داده‌های آموزشی حیاتی را حفظ می‌کنند یا مجوزهای محدودکننده‌ای را اعمال می‌کنند، یک زمین بازی ناهموار ایجاد می‌کند.

  • موانع ورود: استارت‌آپ‌ها و آزمایشگاه‌های تحقیقاتی کوچکتر فاقد منابع لازم برای ایجاد مدل‌های بنیادی قابل مقایسه از ابتدا هستند. اگر مدل‌های به اصطلاح ‘باز’ منتشر شده توسط شرکت‌های مستقر با قیودی همراه باشند (مانند محدودیت‌های استفاده تجاری یا عدم شفافیت داده‌ها که مانع از اصلاح عمیق می‌شود)، توانایی این بازیگران کوچکتر برای رقابت مؤثر یا ساخت برنامه‌های کاربردی واقعاً نوآورانه بر روی آنها را محدود می‌کند.
  • تثبیت موقعیت شرکت‌های مستقر: ‘اپن‌واشینگ’ می‌تواند به عنوان یک خندق استراتژیک عمل کند. با انتشار مدل‌هایی که مفید اما واقعاً باز نیستند، شرکت‌های بزرگ می‌توانند اکوسیستم‌های وابسته به فناوری خود را پرورش دهند در حالی که از تکرار کامل یا بهبود قابل توجه دارایی‌های اصلی خود (داده‌ها و فرآیندهای آموزشی پالایش شده) توسط رقبا جلوگیری می‌کنند. این شبیه گشودگی به نظر می‌رسد اما عملکرد آن به استراتژی پلتفرم کنترل شده نزدیک‌تر است.
  • کاهش تنوع رویکردها: اگر نوآوری بیش از حد به چند مدل بنیادی غالب و نیمه‌شفاف وابسته شود، می‌تواند منجر به یکسان‌سازی توسعه هوش مصنوعی شود و به طور بالقوه معماری‌های جایگزین، پارادایم‌های آموزشی یا استراتژی‌های داده‌ای را که گروه‌های کوچکتر و مستقل ممکن است در صورت باز بودن واقعی این حوزه کشف کنند، نادیده بگیرد.

متن‌باز واقعی از لحاظ تاریخی یک موتور قدرتمند برای رقابت و نوآوری توزیع شده بوده است. روند فعلی در هوش مصنوعی خطر تمرکز قدرت و خفه کردن همان پویایی را دارد که همکاری باز برای تقویت آن در نظر گرفته شده است و به طور بالقوه منجر به چشم‌انداز هوش مصنوعی کمتر پر جنب و جوش و کنترل‌شده‌تر می‌شود.

نقاط کور نظارتی و بندبازی اخلاقی

پتانسیل ‘اپن‌واشینگ’ برای بهره‌برداری از خلاءهای نظارتی، به ویژه در مورد چارچوب‌هایی مانند قانون هوش مصنوعی اتحادیه اروپا (EU AI Act)، نیازمند بررسی دقیق‌تر است. این قانون با هدف ایجاد مقررات مبتنی بر ریسک برای سیستم‌های هوش مصنوعی، الزامات سخت‌گیرانه‌تری را برای کاربردهای پرخطر اعمال می‌کند. معافیت‌ها یا تعهدات سبک‌تر برای هوش مصنوعی متن‌باز به منظور تقویت نوآوری و جلوگیری از تحمیل بار بیش از حد بر جامعه متن‌باز در نظر گرفته شده است.

با این حال، اگر شرکت‌ها بتوانند با موفقیت ادعای ردای ‘متن‌باز’ را برای مدل‌هایی که فاقد شفافیت واقعی هستند (به ویژه در مورد داده‌ها و آموزش) داشته باشند، ممکن است از پادمان‌های مهم عبور کنند. این سوالات حیاتی را مطرح می‌کند:

  • بررسی معنادار: آیا تنظیم‌کننده‌ها می‌توانند به طور کافی خطرات یک مدل هوش مصنوعی قدرتمند را ارزیابی کنند اگر داده‌های آموزشی آن - یک عامل تعیین‌کننده کلیدی رفتار و سوگیری‌های بالقوه آن - از دید پنهان باشد؟ برچسب‌گذاری نادرست می‌تواند به سیستم‌های بالقوه پرخطر اجازه دهد با نظارت کمتر از آنچه در نظر گرفته شده است، عمل کنند.
  • شکاف‌های پاسخگویی: هنگامی که مشکلی پیش می‌آید - اگر مدلی سوگیری مضر نشان دهد یا خروجی‌های خطرناکی تولید کند - چه کسی پاسخگو است اگر داده‌های زیربنایی و فرآیند آموزش مبهم باشند؟ گشودگی واقعی تحقیق و پاسخگویی را تسهیل می‌کند؛ ‘اپن‌واشینگ’ آن را پنهان می‌کند.
  • حکمرانی اخلاقی: استقرار مسئولانه هوش مصنوعی مستلزم درک محدودیت‌ها و تأثیرات اجتماعی بالقوه آن است. این درک اساساً زمانی که اجزای اصلی مانند داده‌های آموزشی مخفی نگه داشته می‌شوند، به خطر می‌افتد. این امر ممیزی‌های مستقل، ارزیابی‌های سوگیری و بررسی‌های اخلاقی را به طور قابل توجهی چالش‌برانگیزتر، اگر نگوییم غیرممکن، می‌کند.

استفاده استراتژیک از برچسب ‘متن‌باز’ برای هدایت مقررات فقط یک مانور قانونی نیست؛ بلکه پیامدهای اخلاقی عمیقی دارد. این امر خطر تضعیف اعتماد عمومی و مانع شدن تلاش‌ها برای اطمینان از پیشرفت توسعه هوش مصنوعی به شیوه‌ای ایمن، منصفانه و پاسخگو را دارد. بنابراین، اطمینان از اینکه تعاریف نظارتی ‘هوش مصنوعی متن‌باز’ با اصول شفافیت واقعی همسو هستند، بسیار مهم است.

ترسیم مسیری به سوی گشودگی واقعی هوش مصنوعی

خوشبختانه، زنگ‌های خطر به صدا درآمده‌اند و تلاش‌هایی برای بازپس‌گیری معنای ‘متن‌باز’ در عصر هوش مصنوعی در حال انجام است. ابتکار متن‌باز (Open Source Initiative - OSI)، یک نگهبان دیرینه تعاریف متن‌باز، یک فرآیند مشاوره جهانی را برای ایجاد استانداردهای روشن برای هوش مصنوعی متن‌باز (که منجر به تعریف OSAID 1.0 شد) رهبری کرده است.

یک نوآوری کلیدی در این تلاش، مفهوم ‘اطلاعات داده’ (data information) است. با تشخیص اینکه انتشار مجموعه داده‌های خام عظیم ممکن است در برخی موارد از نظر قانونی یا لجستیکی غیرممکن باشد (به دلیل حریم خصوصی، حق چاپ یا مقیاس صرف)، چارچوب OSAID بر لزوم افشای جامع درباره داده‌ها تأکید می‌کند. این شامل جزئیاتی در مورد موارد زیر است:

  • منابع: داده‌ها از کجا آمده‌اند؟
  • ویژگی‌ها: چه نوع داده‌ای است (متن، تصویر، کد)؟ ویژگی‌های آماری آن چیست؟
  • آماده‌سازی: داده‌ها چگونه جمع‌آوری، فیلتر، پاکسازی و پیش‌پردازش شدند؟ چه اقداماتی برای کاهش سوگیری انجام شد؟

این سطح از شفافیت، حتی بدون خود داده‌های خام، زمینه حیاتی را برای پژوهشگران فراهم می‌کند تا قابلیت‌ها، محدودیت‌ها و سوگیری‌های بالقوه یک مدل را درک کنند. این یک سازش عمل‌گرایانه را نشان می‌دهد که برای حداکثر شفافیت در چارچوب محدودیت‌های موجود تلاش می‌کند. در کنار OSI، سازمان‌هایی مانند Open Future از تغییر گسترده‌تر به سمت مدل ‘مشترکات داده’ (data-commons) حمایت می‌کنند و راه‌هایی را برای ایجاد مجموعه داده‌های مشترک، با منابع اخلاقی و قابل دسترس برای آموزش هوش مصنوعی بررسی می‌کنند، که موانع ورود را بیشتر کاهش می‌دهد و توسعه مشارکتی را تقویت می‌کند. ایجاد و پایبندی به چنین استانداردهای روشن و تأیید شده توسط جامعه، اولین گام اساسی برای از بین بردن مه ‘اپن‌واشینگ’ است.

ضرورت اقدام برای جامعه پژوهشی

دانشمندان و پژوهشگران صرفاً مصرف‌کنندگان ابزارهای هوش مصنوعی نیستند؛ آنها ذینفعان حیاتی در حصول اطمینان از همسویی این ابزارها با ارزش‌های علمی هستند. تعامل فعال با تعاریف و استانداردهای در حال تحول، مانند OSAID 1.0، حیاتی است. اما اقدام باید فراتر از آگاهی صرف باشد:

  • تقاضای شفافیت: در انتشارات، پیشنهادات پژوهشی و انتخاب ابزار، پژوهشگران باید شفافیت بیشتر در مورد مدل‌های هوش مصنوعی مورد استفاده خود را در اولویت قرار داده و مطالبه کنند. این شامل فشار برای برگه‌های ‘اطلاعات داده’ دقیق یا برگه‌های داده همراه با انتشار مدل‌ها است.
  • حمایت از گشودگی واقعی: به طور فعال در پروژه‌هایی مانند OLMo یا سایر ابتکاراتی که تعهد واقعی به انتشار کد، داده‌ها و روش‌شناسی را نشان می‌دهند، مشارکت کنید، از آنها استفاده کنید و به آنها استناد کنید. رأی دادن با دانلودها و استنادات، سیگنال قدرتمندی به بازار ارسال می‌کند.
  • توسعه استانداردهای ارزیابی: جامعه به روش‌ها و چک‌لیست‌های قوی برای ارزیابی درجه گشودگی یک مدل هوش مصنوعی نیاز دارد و فراتر از برچسب‌های ساده‌انگارانه حرکت کند. فرآیندهای بررسی همتا باید شامل بررسی دقیق ادعاهای شفافیت مرتبط با ابزارهای هوش مصنوعی مورد استفاده در تحقیقات باشد.
  • حمایت در درون مؤسسات: دانشگاه‌ها، مؤسسات تحقیقاتی و انجمن‌های حرفه‌ای را تشویق کنید تا سیاست‌هایی را اتخاذ کنند که استفاده از ابزارها و پلتفرم‌های هوش مصنوعی واقعاً باز و شفاف را ترجیح داده یا الزامی کنند.

جامعه علمی نفوذ قابل توجهی دارد. با اصرار جمعی بر استانداردهایی که تکرارپذیری، شفافیت و دسترسی مشارکتی را حفظ می‌کنند، پژوهشگران می‌توانند در برابر ادعاهای گمراه‌کننده مقاومت کنند و به شکل‌گیری یک اکوسیستم هوش مصنوعی که برای کشف علمی دقیق مساعد است، کمک کنند.

سیاست‌گذاری، تأمین مالی و مسیر پیش رو

دولت‌ها و آژانس‌های تأمین مالی عمومی نیز قدرت قابل توجهی در شکل‌دهی به چشم‌انداز هوش مصنوعی دارند. سیاست‌های آنها می‌تواند به طور ضمنی ‘اپن‌واشینگ’ را تأیید کند یا به طور فعال گشودگی واقعی را ترویج دهد.

  • الزامات برای گشودگی: مؤسساتی مانند مؤسسه ملی بهداشت ایالات متحده (NIH) در حال حاضر الزاماتی دارند که مجوز باز و اشتراک‌گذاری داده‌ها را برای تحقیقاتی که تأمین مالی می‌کنند، الزامی می‌کند. گسترش اصول مشابه به مدل‌ها و مجموعه داده‌های هوش مصنوعی توسعه‌یافته با پول عمومی، گامی منطقی و ضروری است. اگر بودجه عمومی از توسعه هوش مصنوعی پشتیبانی می‌کند، نتایج باید تا حد امکان در دسترس عموم و قابل تأیید باشد.
  • قدرت خرید: سازمان‌های دولتی مصرف‌کنندگان عمده فناوری هستند. با مشخص کردن الزامات برای هوش مصنوعی متن‌باز واقعی (پایبند به استانداردهایی مانند OSAID) در قراردادهای تدارکات عمومی، دولت‌ها می‌توانند انگیزه بازار قابل توجهی برای شرکت‌ها ایجاد کنند تا شیوه‌های شفاف‌تری را اتخاذ کنند. الزام ایتالیا برای نرم‌افزار متن‌باز در مدیریت دولتی، الگوی بالقوه‌ای را ارائه می‌دهد.
  • سرمایه‌گذاری در زیرساخت‌های باز: فراتر از مقررات، سرمایه‌گذاری عمومی در ابتکارات ‘مشترکات داده’، منابع محاسباتی باز برای پژوهشگران، و پلتفرم‌های اختصاص یافته به میزبانی و ارزیابی مدل‌های هوش مصنوعی واقعاً باز می‌تواند تحول‌آفرین باشد. این می‌تواند به هموار کردن زمین بازی کمک کند و جایگزین‌های مناسبی برای سیستم‌های اختصاصی یا نیمه‌باز فراهم کند.
  • همکاری جهانی: با توجه به ماهیت جهانی توسعه هوش مصنوعی، همکاری بین‌المللی در تعریف و ترویج استانداردهای هوش مصنوعی متن‌باز برای جلوگیری از پراکندگی نظارتی و اطمینان از یک خط پایه ثابت از شفافیت و پاسخگویی در سراسر جهان ضروری است.

اهرم‌های سیاستی، هنگامی که به طور متفکرانه اعمال شوند، می‌توانند به طور قابل توجهی انگیزه‌ها را از برچسب‌گذاری فریبنده به سمت شیوه‌هایی که واقعاً از یکپارچگی علمی و نوآوری گسترده پشتیبانی می‌کنند، تغییر دهند. مبارزه با توهم ‘متن‌باز’ در هوش مصنوعی نیازمند تلاشی هماهنگ است. پژوهشگران باید منتقدان هوشیاری باشند و شفافیت لازم برای دقت علمی را مطالبه کنند. نهادهای استانداردگذار مانند OSI باید به اصلاح تعاریفی که ماهیت منحصر به فرد هوش مصنوعی را منعکس می‌کنند، ادامه دهند. و سیاست‌گذاران باید از نفوذ خود برای تشویق و الزام شیوه‌هایی که با منافع عمومی در هوش مصنوعی قابل تأیید، قابل اعتماد و در دسترس همسو هستند، استفاده کنند. مسیر آینده هوش مصنوعی در علم - چه به یک مرز واقعاً باز برای کشف تبدیل شود یا چشم‌اندازی تحت سلطه سیستم‌های شرکتی مبهم - در تعادل است.