اصطلاح ‘متنباز’ زمانی با وضوح خاصی طنینانداز بود، وعدهای از دانش مشترک و پیشرفت همکاریجویانه که پیشران جهشهای علمی و فناورانه بیشماری بود. این اصطلاح تصاویری از جوامعی را تداعی میکرد که با هم میسازند، کار یکدیگر را موشکافی میکنند و بر شانههای غولها میایستند زیرا نقشهها به رایگان در دسترس بودند. اکنون، در چشمانداز هوش مصنوعی، این اصطلاح به طور فزایندهای… لغزنده به نظر میرسد. همانطور که در صفحات Nature برجسته شده و در آزمایشگاهها و اتاقهای هیئت مدیره زمزمه میشود، تعداد نگرانکنندهای از بازیگران در تب طلای هوش مصنوعی، ساختههای خود را در ردای ‘متنباز’ میپوشانند در حالی که اجزای واقعاً حیاتی را تحت قفل و کلید نگه میدارند. این فقط یک بحث معنایی نیست؛ این عملی است که پایههای یکپارچگی علمی را میخورد و تهدیدی برای پنهان کردن مسیر نوآوری آینده است. جامعه پژوهشی، همان گروهی که بیشترین سود یا زیان را میبرد، باید این نمایش فریبنده را همانطور که هست بشناسد و با قدرت از سیستمهای هوش مصنوعی که واقعاً اصول شفافیت و تکرارپذیری را که مدتها به آن تکیه کردهایم، تجسم میبخشند، دفاع کند.
عصر طلایی گشودگی: میراثی در معرض تهدید
برای دههها، جنبش متنباز قهرمان گمنام پیشرفت علمی بوده است. فراتر از ابزارهای آشنا مانند R Studio برای جادوی آماری یا OpenFOAM برای مدلسازی دینامیک سیالات فکر کنید. سیستمهای بنیادی مانند Linux را در نظر بگیرید که بخشهای وسیعی از اینترنت و خوشههای محاسباتی علمی را قدرت میبخشد، یا وب سرور Apache، گواهی بر توسعه نرمافزار مشارکتی. فلسفه ساده بود: دسترسی به کد منبع را فراهم کنید، اجازه اصلاح و توزیع مجدد تحت مجوزهای سهلگیرانه را بدهید و یک اکوسیستم جهانی را پرورش دهید که در آن بهبودها به نفع همه باشد.
این صرفاً نوعدوستی نبود؛ نبوغ عملگرایانه بود. گشودگی کشف را تسریع کرد. پژوهشگران میتوانستند آزمایشها را تکرار کنند، یافتهها را تأیید کنند و بر اساس کارهای موجود بنا کنند بدون اینکه چرخ را دوباره اختراع کنند یا در سیستمهای اختصاصی مبهم حرکت کنند. این امر اعتماد را تقویت کرد، زیرا کارکردهای درونی برای بازرسی در دسترس بود و امکان یافتن و رفع اشکالات به صورت جمعی را فراهم میکرد. این دسترسی را دموکراتیزه کرد و دانشمندان و توسعهدهندگان را در سراسر جهان، صرف نظر از وابستگی سازمانی یا بودجه، قادر ساخت تا در کارهای پیشرفته شرکت کنند. این روحیه همکاری، که بر اساس دسترسی مشترک و بررسی متقابل بنا شده بود، عمیقاً در خود روش علمی ریشه دوانید و استحکام را تضمین کرد و پیشرفت سریع را در زمینههای مختلف تقویت کرد. توانایی کالبدشکافی، درک و اصلاح ابزارهای مورد استفاده بسیار مهم بود. این فقط مربوط به استفاده از نرمافزار نبود؛ بلکه در مورد درک چگونگی کارکرد آن، اطمینان از مناسب بودن آن برای یک کار علمی خاص و کمک به مخزن دانش جمعی بود. این چرخه فضیلتمندانه، نوآوری را با سرعتی بیسابقه به پیش راند.
وابستگی هوش مصنوعی به داده: چرا ‘کد پادشاه است’ کافی نیست
وارد عصر هوش مصنوعی در مقیاس بزرگ، به ویژه مدلهای بنیادی که توجه و سرمایهگذاری زیادی را به خود جلب میکنند، میشویم. در اینجا، پارادایم سنتی متنباز، که عمدتاً بر کد منبع متمرکز است، با یک عدم تطابق اساسی روبرو میشود. در حالی که الگوریتمها و کدهای مورد استفاده برای ساخت یک مدل هوش مصنوعی قطعاً بخشی از تصویر هستند، اما به هیچ وجه کل داستان نیستند. هوش مصنوعی مدرن، به ویژه مدلهای یادگیری عمیق، مصرفکنندگان حریص داده هستند. دادههای آموزشی فقط یک ورودی نیستند؛ بلکه مسلماً تعیینکننده اصلی قابلیتها، سوگیریها و محدودیتهای مدل هستند.
انتشار کد مدل، یا حتی پارامترهای نهایی آموزشدیده آن (‘وزنها’)، بدون ارائه دسترسی معنادار به یا اطلاعات دقیق در مورد مجموعه دادههای عظیمی که برای آموزش استفاده شدهاند، مانند دادن کلیدهای ماشین به کسی است اما امتناع از گفتن اینکه چه نوع سوختی مصرف میکند، کجا رانده شده است، یا چگونه موتور واقعاً مونتاژ شده است. ممکن است بتوانید آن را برانید، اما توانایی محدودی برای درک ویژگیهای عملکردی آن، تشخیص مشکلات بالقوه، یا اصلاح قابل اعتماد آن برای سفرهای جدید دارید.
علاوه بر این، منابع محاسباتی مورد نیاز برای آموزش این مدلها از ابتدا بسیار زیاد است و اغلب برای یک دوره آموزشی به میلیونها دلار میرسد. این مانع دیگری ایجاد میکند. حتی اگر کد و دادهها کاملاً در دسترس بودند، تنها تعداد انگشتشماری از سازمانها زیرساخت لازم برای تکرار فرآیند آموزش را در اختیار دارند. این واقعیت اساساً پویایی را در مقایسه با نرمافزارهای سنتی تغییر میدهد، جایی که کامپایل کد معمولاً در دسترس اکثر توسعهدهندگان یا پژوهشگران است. برای هوش مصنوعی، تکرارپذیری واقعی و توانایی آزمایش با آموزش مجدد اغلب دستنیافتنی باقی میماند، حتی زمانی که اجزا برچسب ‘باز’ دارند. بنابراین، صرفاً اعمال تعاریف قدیمی متنباز که برای کد طراحی شدهاند، الزامات این حوزه جدید، دادهمحور و محاسباتبر را در بر نمیگیرد.
‘اپنواشینگ’: گرگی در لباس میش
این شکاف بین مفاهیم سنتی متنباز و واقعیتهای توسعه هوش مصنوعی، زمینه مساعدی را برای پدیدهای به نام ‘اپنواشینگ’ (openwashing) ایجاد کرده است. شرکتها مشتاقانه برچسب ‘متنباز’ را بر روی مدلهای هوش مصنوعی خود میچسبانند و از مزایای روابط عمومی و حسن نیت مرتبط با این اصطلاح بهرهمند میشوند، در حالی که از مجوزها یا محدودیتهای دسترسی استفاده میکنند که به روح، اگر نه به متن دقیق (و مسلماً منسوخ) گشودگی واقعی، خیانت میکند.
این در عمل چگونه به نظر میرسد؟
- انتشار کد بدون داده: یک شرکت ممکن است کد معماری مدل و شاید حتی وزنهای از پیش آموزشدیده را منتشر کند و به دیگران اجازه دهد از مدل ‘همانطور که هست’ استفاده کنند یا آن را بر روی مجموعه دادههای کوچکتر تنظیم دقیق کنند. با این حال، مجموعه داده آموزشی عظیم و بنیادی - سس مخفی که تواناییهای اصلی مدل را تعریف میکند - اختصاصی و پنهان باقی میماند.
- مجوزهای محدودکننده: مدلها ممکن است تحت مجوزهایی منتشر شوند که در نگاه اول باز به نظر میرسند اما حاوی بندهایی هستند که استفاده تجاری را محدود میکنند، استقرار در سناریوهای خاص را محدود میکنند، یا انواع خاصی از اصلاح یا تجزیه و تحلیل را ممنوع میکنند. این محدودیتها با آزادیهایی که معمولاً با نرمافزار متنباز مرتبط است، در تضاد هستند.
- افشای مبهم دادهها: به جای اطلاعات دقیق در مورد منابع داده، روشهای جمعآوری، فرآیندهای پاکسازی و سوگیریهای بالقوه، شرکتها ممکن است توضیحات مبهمی ارائه دهند یا جزئیات حیاتی را به طور کامل حذف کنند. این فقدان ‘شفافیت داده’ ارزیابی کامل قابلیت اطمینان یا پیامدهای اخلاقی مدل را غیرممکن میسازد.
چرا در چنین اقداماتی شرکت میکنند؟ انگیزهها احتمالاً متنوع هستند. مفاهیم مثبت ‘متنباز’ بدون شک برای جذب استعداد، ایجاد جوامع توسعهدهنده (حتی اگر محدود باشند) و ایجاد مطبوعات مطلوب ارزشمند هستند. بدبینانهتر، همانطور که Nature اشاره میکند، ممکن است انگیزههای نظارتی وجود داشته باشد. قانون جامع هوش مصنوعی اتحادیه اروپا در سال 2024، به عنوان مثال، شامل معافیتهای بالقوه یا الزامات سبکتر برای سیستمهایی است که به عنوان متنباز طبقهبندی میشوند. با استفاده استراتژیک از این برچسب، برخی از شرکتها ممکن است امیدوار باشند که در چشماندازهای نظارتی پیچیده با اصطکاک کمتری حرکت کنند و به طور بالقوه از نظارتی که برای سیستمهای هوش مصنوعی قدرتمند و همهمنظوره در نظر گرفته شده است، طفره بروند. این تمرین برندسازی استراتژیک از حسن نیت تاریخی جنبش متنباز سوء استفاده میکند در حالی که به طور بالقوه تلاشها برای اطمینان از استقرار مسئولانه هوش مصنوعی را تضعیف میکند.
طیفی از گشودگی: بررسی نمونهها
تشخیص این نکته حیاتی است که گشودگی در هوش مصنوعی لزوماً یک حالت دودویی نیست؛ بلکه در یک طیف وجود دارد. با این حال، شیوههای برچسبگذاری فعلی اغلب پنهان میکنند که یک مدل خاص واقعاً در کجای آن طیف قرار دارد.
برخی از نمونههای برجسته که اغلب در این زمینه مورد بحث قرار میگیرند را در نظر بگیرید:
- سری Llama شرکت Meta: در حالی که Meta وزنها و کد مدلهای Llama را منتشر کرد، دسترسی در ابتدا نیازمند درخواست بود و مجوز شامل محدودیتهایی بود، به ویژه در مورد استفاده توسط شرکتهای بسیار بزرگ و برنامههای کاربردی خاص. نکته مهم این است که دادههای آموزشی زیربنایی منتشر نشد و تکرارپذیری کامل و تجزیه و تحلیل عمیق ویژگیهای آن را محدود کرد. در حالی که نسخههای بعدی شرایط را تنظیم کردهاند، مسئله اصلی عدم شفافیت دادهها اغلب باقی میماند.
- Phi-2 شرکت Microsoft: Microsoft مدل Phi-2 را به عنوان یک مدل زبان کوچک ‘متنباز’ معرفی کرد. در حالی که وزنهای مدل در دسترس هستند، مجوز دارای محدودیتهای استفاده خاصی است و اطلاعات دقیق در مورد مجموعه دادههای آموزشی آن، که برای درک قابلیتها و سوگیریهای بالقوه آن (به ویژه با توجه به آموزش آن بر روی دادههای ‘مصنوعی’) حیاتی است، کاملاً شفاف نیست.
- Mixtral شرکت Mistral AI: این مدل که توسط یک استارتآپ برجسته اروپایی هوش مصنوعی منتشر شد، به دلیل عملکردش مورد توجه قرار گرفت. در حالی که اجزا تحت مجوز سهلگیرانه Apache 2.0 (یک مجوز واقعاً باز برای کد/وزنها) منتشر شدند، شفافیت کامل در مورد ترکیب دادههای آموزشی و فرآیند گردآوری همچنان محدود است و مانع از بررسی علمی عمیق میشود.
اینها را با ابتکاراتی مقایسه کنید که برای همسویی بیشتر با اصول سنتی متنباز تلاش میکنند:
- OLMo مؤسسه Allen برای هوش مصنوعی (Allen Institute for AI): این پروژه به صراحت با هدف ساخت یک مدل زبان واقعاً باز انجام شد و اولویت را نه تنها به انتشار وزنها و کد مدل، بلکه به دادههای آموزشی (مجموعه داده Dolma) و گزارشهای دقیق آموزش داد. این تعهد امکان سطوح بیسابقهای از تکرارپذیری و تجزیه و تحلیل را برای جامعه پژوهشی گستردهتر فراهم میکند.
- CrystalCoder پروژه LLM360: این تلاش جامعهمحور به طور مشابه بر انتشار تمام اجزای چرخه عمر توسعه مدل، از جمله نقاط بازرسی میانی و مستندات دقیق در مورد دادهها و فرآیند آموزش تأکید دارد و سطحی از شفافیت را که اغلب در انتشارات شرکتی وجود ندارد، تقویت میکند.
این نمونههای متضاد نشان میدهند که گشودگی واقعی در هوش مصنوعی امکانپذیر است، اما نیازمند تعهدی آگاهانه فراتر از صرفاً انتشار کد یا وزنها است. این امر مستلزم شفافیت در مورد دادهها و فرآیند است و پذیرش موشکافیهایی که با آن همراه است. ابهام فعلی که توسط ‘اپنواشینگ’ ایجاد شده است، تشخیص اینکه کدام ابزارها واقعاً از تحقیقات علمی باز پشتیبانی میکنند را برای پژوهشگران دشوارتر میکند.
فرسایش اعتماد: یکپارچگی علمی در خطر
پیامدهای این ‘اپنواشینگ’ گسترده بسیار فراتر از برندسازی صرف است. هنگامی که پژوهشگران به مدلهای هوش مصنوعی تکیه میکنند که عملکرد درونی آنها، به ویژه دادههایی که بر اساس آنها آموزش دیدهاند، مبهم است، به قلب روششناسی علمی ضربه میزند.
- تضعیف تکرارپذیری: سنگ بنای اعتبار علمی، توانایی پژوهشگران مستقل برای تکرار نتایج است. اگر دادههای آموزشی و روشهای دقیق آموزش ناشناخته باشند، تکرار واقعی غیرممکن میشود. پژوهشگران ممکن است از یک مدل از پیش آموزشدیده استفاده کنند، اما نمیتوانند ساخت آن را تأیید کنند یا ویژگیهای بنیادی آن را که از دادههای پنهان ناشی میشود، بررسی کنند.
- ممانعت از تأیید: چگونه دانشمندان میتوانند به خروجیهای یک مدل اعتماد کنند اگر نتوانند دادههایی را که از آن یاد گرفته است، بازرسی کنند؟ سوگیریهای پنهان، عدم دقتها، یا نگرانیهای اخلاقی نهفته در دادههای آموزشی به ناچار در رفتار مدل آشکار میشوند، اما بدون شفافیت، تشخیص، عیبیابی یا کاهش این نقصها دشوار است. استفاده از چنین جعبههای سیاهی برای کشف علمی، سطح غیرقابل قبولی از عدم قطعیت را معرفی میکند.
- خفه شدن نوآوری: علم با بنا نهادن بر کارهای قبلی پیشرفت میکند. اگر مدلهای بنیادی با محدودیتها یا بدون شفافیت لازم (به ویژه در مورد دادهها) منتشر شوند، توانایی دیگران برای نوآوری، آزمایش با رژیمهای آموزشی جایگزین، یا تطبیق مدلها برای کاربردهای علمی جدید به روشهایی که سازندگان اصلی ممکن است پیشبینی نکرده باشند، مانع میشود. پیشرفت توسط ارائهدهندگان این سیستمهای نیمهشفاف محدود میشود.
اتکا به سیستمهای شرکتی بسته یا نیمهبسته، پژوهشگران را به جای مشارکتکنندگان و نوآوران فعال، به نقش مصرفکننده منفعل وادار میکند. این امر خطر ایجاد آیندهای را دارد که در آن زیرساختهای علمی حیاتی توسط چند نهاد بزرگ کنترل میشود و به طور بالقوه منافع تجاری را بر نیازهای تحقیقات علمی باز اولویت میدهد. این فرسایش شفافیت مستقیماً به فرسایش اعتماد به ابزارهای زیربنایی تحقیقات مدرن تبدیل میشود.
تمرکز بازار و اثر بازدارنده بر نوآوری
فراتر از تأثیر فوری بر عملکرد علمی، شیوع متنباز کاذب در هوش مصنوعی پیامدهای اقتصادی و بازاری قابل توجهی دارد. توسعه مدلهای بنیادی بزرگ نه تنها به تخصص قابل توجه، بلکه به دسترسی به مجموعه دادههای وسیع و قدرت محاسباتی عظیم نیاز دارد - منابعی که به طور نامتناسبی در اختیار شرکتهای بزرگ فناوری قرار دارند.
هنگامی که این شرکتها مدلها را تحت لوای ‘متنباز’ منتشر میکنند اما کنترل بر دادههای آموزشی حیاتی را حفظ میکنند یا مجوزهای محدودکنندهای را اعمال میکنند، یک زمین بازی ناهموار ایجاد میکند.
- موانع ورود: استارتآپها و آزمایشگاههای تحقیقاتی کوچکتر فاقد منابع لازم برای ایجاد مدلهای بنیادی قابل مقایسه از ابتدا هستند. اگر مدلهای به اصطلاح ‘باز’ منتشر شده توسط شرکتهای مستقر با قیودی همراه باشند (مانند محدودیتهای استفاده تجاری یا عدم شفافیت دادهها که مانع از اصلاح عمیق میشود)، توانایی این بازیگران کوچکتر برای رقابت مؤثر یا ساخت برنامههای کاربردی واقعاً نوآورانه بر روی آنها را محدود میکند.
- تثبیت موقعیت شرکتهای مستقر: ‘اپنواشینگ’ میتواند به عنوان یک خندق استراتژیک عمل کند. با انتشار مدلهایی که مفید اما واقعاً باز نیستند، شرکتهای بزرگ میتوانند اکوسیستمهای وابسته به فناوری خود را پرورش دهند در حالی که از تکرار کامل یا بهبود قابل توجه داراییهای اصلی خود (دادهها و فرآیندهای آموزشی پالایش شده) توسط رقبا جلوگیری میکنند. این شبیه گشودگی به نظر میرسد اما عملکرد آن به استراتژی پلتفرم کنترل شده نزدیکتر است.
- کاهش تنوع رویکردها: اگر نوآوری بیش از حد به چند مدل بنیادی غالب و نیمهشفاف وابسته شود، میتواند منجر به یکسانسازی توسعه هوش مصنوعی شود و به طور بالقوه معماریهای جایگزین، پارادایمهای آموزشی یا استراتژیهای دادهای را که گروههای کوچکتر و مستقل ممکن است در صورت باز بودن واقعی این حوزه کشف کنند، نادیده بگیرد.
متنباز واقعی از لحاظ تاریخی یک موتور قدرتمند برای رقابت و نوآوری توزیع شده بوده است. روند فعلی در هوش مصنوعی خطر تمرکز قدرت و خفه کردن همان پویایی را دارد که همکاری باز برای تقویت آن در نظر گرفته شده است و به طور بالقوه منجر به چشمانداز هوش مصنوعی کمتر پر جنب و جوش و کنترلشدهتر میشود.
نقاط کور نظارتی و بندبازی اخلاقی
پتانسیل ‘اپنواشینگ’ برای بهرهبرداری از خلاءهای نظارتی، به ویژه در مورد چارچوبهایی مانند قانون هوش مصنوعی اتحادیه اروپا (EU AI Act)، نیازمند بررسی دقیقتر است. این قانون با هدف ایجاد مقررات مبتنی بر ریسک برای سیستمهای هوش مصنوعی، الزامات سختگیرانهتری را برای کاربردهای پرخطر اعمال میکند. معافیتها یا تعهدات سبکتر برای هوش مصنوعی متنباز به منظور تقویت نوآوری و جلوگیری از تحمیل بار بیش از حد بر جامعه متنباز در نظر گرفته شده است.
با این حال، اگر شرکتها بتوانند با موفقیت ادعای ردای ‘متنباز’ را برای مدلهایی که فاقد شفافیت واقعی هستند (به ویژه در مورد دادهها و آموزش) داشته باشند، ممکن است از پادمانهای مهم عبور کنند. این سوالات حیاتی را مطرح میکند:
- بررسی معنادار: آیا تنظیمکنندهها میتوانند به طور کافی خطرات یک مدل هوش مصنوعی قدرتمند را ارزیابی کنند اگر دادههای آموزشی آن - یک عامل تعیینکننده کلیدی رفتار و سوگیریهای بالقوه آن - از دید پنهان باشد؟ برچسبگذاری نادرست میتواند به سیستمهای بالقوه پرخطر اجازه دهد با نظارت کمتر از آنچه در نظر گرفته شده است، عمل کنند.
- شکافهای پاسخگویی: هنگامی که مشکلی پیش میآید - اگر مدلی سوگیری مضر نشان دهد یا خروجیهای خطرناکی تولید کند - چه کسی پاسخگو است اگر دادههای زیربنایی و فرآیند آموزش مبهم باشند؟ گشودگی واقعی تحقیق و پاسخگویی را تسهیل میکند؛ ‘اپنواشینگ’ آن را پنهان میکند.
- حکمرانی اخلاقی: استقرار مسئولانه هوش مصنوعی مستلزم درک محدودیتها و تأثیرات اجتماعی بالقوه آن است. این درک اساساً زمانی که اجزای اصلی مانند دادههای آموزشی مخفی نگه داشته میشوند، به خطر میافتد. این امر ممیزیهای مستقل، ارزیابیهای سوگیری و بررسیهای اخلاقی را به طور قابل توجهی چالشبرانگیزتر، اگر نگوییم غیرممکن، میکند.
استفاده استراتژیک از برچسب ‘متنباز’ برای هدایت مقررات فقط یک مانور قانونی نیست؛ بلکه پیامدهای اخلاقی عمیقی دارد. این امر خطر تضعیف اعتماد عمومی و مانع شدن تلاشها برای اطمینان از پیشرفت توسعه هوش مصنوعی به شیوهای ایمن، منصفانه و پاسخگو را دارد. بنابراین، اطمینان از اینکه تعاریف نظارتی ‘هوش مصنوعی متنباز’ با اصول شفافیت واقعی همسو هستند، بسیار مهم است.
ترسیم مسیری به سوی گشودگی واقعی هوش مصنوعی
خوشبختانه، زنگهای خطر به صدا درآمدهاند و تلاشهایی برای بازپسگیری معنای ‘متنباز’ در عصر هوش مصنوعی در حال انجام است. ابتکار متنباز (Open Source Initiative - OSI)، یک نگهبان دیرینه تعاریف متنباز، یک فرآیند مشاوره جهانی را برای ایجاد استانداردهای روشن برای هوش مصنوعی متنباز (که منجر به تعریف OSAID 1.0 شد) رهبری کرده است.
یک نوآوری کلیدی در این تلاش، مفهوم ‘اطلاعات داده’ (data information) است. با تشخیص اینکه انتشار مجموعه دادههای خام عظیم ممکن است در برخی موارد از نظر قانونی یا لجستیکی غیرممکن باشد (به دلیل حریم خصوصی، حق چاپ یا مقیاس صرف)، چارچوب OSAID بر لزوم افشای جامع درباره دادهها تأکید میکند. این شامل جزئیاتی در مورد موارد زیر است:
- منابع: دادهها از کجا آمدهاند؟
- ویژگیها: چه نوع دادهای است (متن، تصویر، کد)؟ ویژگیهای آماری آن چیست؟
- آمادهسازی: دادهها چگونه جمعآوری، فیلتر، پاکسازی و پیشپردازش شدند؟ چه اقداماتی برای کاهش سوگیری انجام شد؟
این سطح از شفافیت، حتی بدون خود دادههای خام، زمینه حیاتی را برای پژوهشگران فراهم میکند تا قابلیتها، محدودیتها و سوگیریهای بالقوه یک مدل را درک کنند. این یک سازش عملگرایانه را نشان میدهد که برای حداکثر شفافیت در چارچوب محدودیتهای موجود تلاش میکند. در کنار OSI، سازمانهایی مانند Open Future از تغییر گستردهتر به سمت مدل ‘مشترکات داده’ (data-commons) حمایت میکنند و راههایی را برای ایجاد مجموعه دادههای مشترک، با منابع اخلاقی و قابل دسترس برای آموزش هوش مصنوعی بررسی میکنند، که موانع ورود را بیشتر کاهش میدهد و توسعه مشارکتی را تقویت میکند. ایجاد و پایبندی به چنین استانداردهای روشن و تأیید شده توسط جامعه، اولین گام اساسی برای از بین بردن مه ‘اپنواشینگ’ است.
ضرورت اقدام برای جامعه پژوهشی
دانشمندان و پژوهشگران صرفاً مصرفکنندگان ابزارهای هوش مصنوعی نیستند؛ آنها ذینفعان حیاتی در حصول اطمینان از همسویی این ابزارها با ارزشهای علمی هستند. تعامل فعال با تعاریف و استانداردهای در حال تحول، مانند OSAID 1.0، حیاتی است. اما اقدام باید فراتر از آگاهی صرف باشد:
- تقاضای شفافیت: در انتشارات، پیشنهادات پژوهشی و انتخاب ابزار، پژوهشگران باید شفافیت بیشتر در مورد مدلهای هوش مصنوعی مورد استفاده خود را در اولویت قرار داده و مطالبه کنند. این شامل فشار برای برگههای ‘اطلاعات داده’ دقیق یا برگههای داده همراه با انتشار مدلها است.
- حمایت از گشودگی واقعی: به طور فعال در پروژههایی مانند OLMo یا سایر ابتکاراتی که تعهد واقعی به انتشار کد، دادهها و روششناسی را نشان میدهند، مشارکت کنید، از آنها استفاده کنید و به آنها استناد کنید. رأی دادن با دانلودها و استنادات، سیگنال قدرتمندی به بازار ارسال میکند.
- توسعه استانداردهای ارزیابی: جامعه به روشها و چکلیستهای قوی برای ارزیابی درجه گشودگی یک مدل هوش مصنوعی نیاز دارد و فراتر از برچسبهای سادهانگارانه حرکت کند. فرآیندهای بررسی همتا باید شامل بررسی دقیق ادعاهای شفافیت مرتبط با ابزارهای هوش مصنوعی مورد استفاده در تحقیقات باشد.
- حمایت در درون مؤسسات: دانشگاهها، مؤسسات تحقیقاتی و انجمنهای حرفهای را تشویق کنید تا سیاستهایی را اتخاذ کنند که استفاده از ابزارها و پلتفرمهای هوش مصنوعی واقعاً باز و شفاف را ترجیح داده یا الزامی کنند.
جامعه علمی نفوذ قابل توجهی دارد. با اصرار جمعی بر استانداردهایی که تکرارپذیری، شفافیت و دسترسی مشارکتی را حفظ میکنند، پژوهشگران میتوانند در برابر ادعاهای گمراهکننده مقاومت کنند و به شکلگیری یک اکوسیستم هوش مصنوعی که برای کشف علمی دقیق مساعد است، کمک کنند.
سیاستگذاری، تأمین مالی و مسیر پیش رو
دولتها و آژانسهای تأمین مالی عمومی نیز قدرت قابل توجهی در شکلدهی به چشمانداز هوش مصنوعی دارند. سیاستهای آنها میتواند به طور ضمنی ‘اپنواشینگ’ را تأیید کند یا به طور فعال گشودگی واقعی را ترویج دهد.
- الزامات برای گشودگی: مؤسساتی مانند مؤسسه ملی بهداشت ایالات متحده (NIH) در حال حاضر الزاماتی دارند که مجوز باز و اشتراکگذاری دادهها را برای تحقیقاتی که تأمین مالی میکنند، الزامی میکند. گسترش اصول مشابه به مدلها و مجموعه دادههای هوش مصنوعی توسعهیافته با پول عمومی، گامی منطقی و ضروری است. اگر بودجه عمومی از توسعه هوش مصنوعی پشتیبانی میکند، نتایج باید تا حد امکان در دسترس عموم و قابل تأیید باشد.
- قدرت خرید: سازمانهای دولتی مصرفکنندگان عمده فناوری هستند. با مشخص کردن الزامات برای هوش مصنوعی متنباز واقعی (پایبند به استانداردهایی مانند OSAID) در قراردادهای تدارکات عمومی، دولتها میتوانند انگیزه بازار قابل توجهی برای شرکتها ایجاد کنند تا شیوههای شفافتری را اتخاذ کنند. الزام ایتالیا برای نرمافزار متنباز در مدیریت دولتی، الگوی بالقوهای را ارائه میدهد.
- سرمایهگذاری در زیرساختهای باز: فراتر از مقررات، سرمایهگذاری عمومی در ابتکارات ‘مشترکات داده’، منابع محاسباتی باز برای پژوهشگران، و پلتفرمهای اختصاص یافته به میزبانی و ارزیابی مدلهای هوش مصنوعی واقعاً باز میتواند تحولآفرین باشد. این میتواند به هموار کردن زمین بازی کمک کند و جایگزینهای مناسبی برای سیستمهای اختصاصی یا نیمهباز فراهم کند.
- همکاری جهانی: با توجه به ماهیت جهانی توسعه هوش مصنوعی، همکاری بینالمللی در تعریف و ترویج استانداردهای هوش مصنوعی متنباز برای جلوگیری از پراکندگی نظارتی و اطمینان از یک خط پایه ثابت از شفافیت و پاسخگویی در سراسر جهان ضروری است.
اهرمهای سیاستی، هنگامی که به طور متفکرانه اعمال شوند، میتوانند به طور قابل توجهی انگیزهها را از برچسبگذاری فریبنده به سمت شیوههایی که واقعاً از یکپارچگی علمی و نوآوری گسترده پشتیبانی میکنند، تغییر دهند. مبارزه با توهم ‘متنباز’ در هوش مصنوعی نیازمند تلاشی هماهنگ است. پژوهشگران باید منتقدان هوشیاری باشند و شفافیت لازم برای دقت علمی را مطالبه کنند. نهادهای استانداردگذار مانند OSI باید به اصلاح تعاریفی که ماهیت منحصر به فرد هوش مصنوعی را منعکس میکنند، ادامه دهند. و سیاستگذاران باید از نفوذ خود برای تشویق و الزام شیوههایی که با منافع عمومی در هوش مصنوعی قابل تأیید، قابل اعتماد و در دسترس همسو هستند، استفاده کنند. مسیر آینده هوش مصنوعی در علم - چه به یک مرز واقعاً باز برای کشف تبدیل شود یا چشماندازی تحت سلطه سیستمهای شرکتی مبهم - در تعادل است.