دنیای هوش مصنوعی در حال حاضر صحنه تضادهای آشکار است. در یک سو، مبالغ هنگفتی به شرکتهای فناوری غولپیکر سرازیر میشود که آرزوهای قدرت شناختی بیسابقه را تغذیه میکند و بحثهایی را در مورد حباب سرمایهگذاری قریبالوقوع برمیانگیزد. ارزشگذاریهای چند میلیارد دلاری در حال عادی شدن هستند و زمزمههایی از دورهای تأمین مالی به ارقام نجومی میرسد. با این حال، در صحنهای آرامتر و موازی، انقلابی در محافل دانشگاهی و جوامع متنباز در حال شکلگیری است. در اینجا، محققان با نبوغ قابل توجهی، مدلهای هوش مصنوعی مولد توانمندی را نه با میلیاردها، بلکه گاهی اوقات تنها با پول خرد میسازند و اساساً این تصور غالب را که در رقابت برای برتری هوش مصنوعی، همیشه بزرگتر بهتر است، به چالش میکشند.
این واگرایی به طور فزایندهای برجسته میشود. OpenAI، قدرت پشت ChatGPT را در نظر بگیرید که طبق گزارشها به دنبال سرمایهگذاری بیشتری است که میتواند ارزش آن را به ۳۰۰ میلیارد دلار سرسامآور برساند. چنین ارقامی، در کنار پیشبینی درآمدهای به سرعت در حال افزایش، تصویری از خوشبینی بیحد و حصر و رشد نمایی را ترسیم میکنند. با این حال، همزمان، لرزههای احتیاط، پایههای این سرخوشی هوش مصنوعی را میلرزاند. سهام به اصطلاح ‘Magnificent 7’ فناوری، که مدتها به دلیل پتانسیل هوش مصنوعی خود محبوب بازار بودند، دورههایی از عملکرد ضعیف قابل توجهی را تجربه کردهاند که نشان میدهد اضطراب سرمایهگذاران در حال افزایش است. این نگرانی با هشدارهای کهنهکاران باتجربه صنعت، مانند Joe Tsai، بنیانگذار Alibaba، که اخیراً به نشانههای نگرانکننده شکلگیری حباب بالقوه هوش مصنوعی، به ویژه در بازار US، اشاره کرد، تشدید میشود. مقیاس عظیم سرمایهگذاری مورد نیاز، به ویژه برای مراکز داده عظیم که این مدلهای پیچیده را تأمین میکنند، تحت بررسی شدید قرار گرفته است. آیا سطوح فعلی هزینهها پایدار است یا نشاندهنده یک شور و شوق غیرمنطقی و جدا از واقعیتهای کوتاهمدت است؟
شبح حباب هوش مصنوعی در کمین است
نگرانیها در مورد حباب هوش مصنوعی صرفاً اضطرابهای مالی انتزاعی نیستند؛ آنها سؤالات عمیقتری را در مورد سرعت و جهت توسعه خود هوش مصنوعی منعکس میکنند. روایت تا حد زیادی تحت سلطه چند بازیگر اصلی بوده است که میلیاردها دلار برای ساخت مدلهای زبان بزرگ (LLMs) بزرگتر سرمایهگذاری میکنند. این امر محیطی را ایجاد کرده است که در آن به نظر میرسد رهبری بازار بر اساس داشتن عمیقترین جیبها و گستردهترین زیرساختهای محاسباتی استوار است.
- سرگیجه ارزشگذاری: ارزشگذاری بالقوه ۳۰۰ میلیارد دلاری OpenAI، در حالی که نشاندهنده اعتماد بسیار زیاد سرمایهگذاران خاص است، همچنین باعث تعجب میشود. آیا این رقم با قابلیتها و جریانهای درآمد فعلی توجیه میشود، یا به شدت به پیشرفتهای آینده، شاید نامشخص، وابسته است؟ شباهتهای تاریخی با رونقها و رکودهای قبلی فناوری، مانند دوران داتکام، به ناچار مطرح میشود و احتیاط را برمیانگیزد.
- بررسی دقیق سرمایهگذاری زیرساخت: میلیاردها دلاری که به مراکز داده ویژه هوش مصنوعی و سختافزارهای تخصصی مانند GPUهای پیشرفته سرازیر میشود، هزینههای سرمایهای عظیمی را نشان میدهد. هشدار Joe Tsai خطر مرتبط با چنین سرمایهگذاریهای اولیه عظیمی را برجسته میکند، به خصوص اگر مسیر کسب درآمد طولانیتر یا پیچیدهتر از حد انتظار باشد. کارایی و بازده این سرمایهگذاریها به نقاط بحث حیاتی تبدیل شدهاند.
- سیگنالهای بازار: عملکرد نوسانی غولهای فناوری که به شدت در هوش مصنوعی سرمایهگذاری کردهاند، نشاندهنده درجهای از تردید بازار است. در حالی که پتانسیل بلندمدت همچنان یک جاذبه قوی است، نوسانات کوتاهمدت نشان میدهد که سرمایهگذاران به طور فعال در حال ارزیابی مجدد ریسک و زیر سؤال بردن پایداری مسیرهای رشد فعلی هستند. سرنوشت IPOهای آتی در فضای هوش مصنوعی، مانند عرضه اولیه مورد انتظار از متخصص تراشه هوش مصنوعی CoreWeave، به عنوان فشارسنج احساسات بازار به دقت زیر نظر گرفته میشود. آیا این امر شور و شوق را دوباره شعلهور خواهد کرد یا نگرانیهای اساسی را تأیید میکند؟
- ابعاد ژئوپلیتیکی: رقابت هوش مصنوعی همچنین دارای مفاهیم ژئوپلیتیکی قابل توجهی است، به ویژه بین US و China. هزینههای هنگفت در US تا حدی ناشی از تمایل به حفظ مزیت رقابتی است. این امر منجر به بحثهای پیچیده سیاستی شده است، از جمله درخواستها برای کنترلهای صادراتی سختگیرانهتر بر فناوری پیشرفته نیمههادی برای کند کردن بالقوه پیشرفت China. برعکس، سرمایه خطرپذیر همچنان به استارتآپهای هوش مصنوعی چینی سرازیر میشود، که نشاندهنده یک رقابت جهانی است که در آن قدرت تکنولوژیکی و استراتژی اقتصادی به شدت در هم تنیده شدهاند.
این محیط پرمخاطره و پرهزینه، زمینه را برای نوآوریهای مخربی فراهم میکند که نظم مستقر را به چالش میکشند. ظهور جایگزینهای بسیار ارزانتر، ارزیابی مجدد این موضوع را ضروری میسازد که آیا محاسبات با نیروی زیاد و مقیاس عظیم تنها مسیرهای پیش رو هستند یا خیر.
ادعای مخرب DeepSeek و اثرات موجی آن
در این چشمانداز از هزینههای هنگفت و اضطراب فزاینده، DeepSeek، یک نهاد مستقر در China، قدم گذاشت و ادعای شگفتانگیزی را مطرح کرد: این شرکت مدل زبان بزرگ هوش مصنوعی مولد R1 خود را تنها با ۶ میلیون دلار توسعه داده است. این رقم، که порядکها پایینتر از سرمایهگذاریهای چند میلیارد دلاری فرضی همتایان غربی بود، بلافاصله موجهایی را در سراسر صنعت ایجاد کرد.
در حالی که تردید در مورد محاسبه ۶ میلیون دلاری همچنان وجود دارد - زیر سؤال بردن اینکه چه هزینههایی شامل شده و چه هزینههایی مستثنی شدهاند - تأثیر این اعلام غیرقابل انکار بود. این به عنوان یک کاتالیزور قوی عمل کرد و بررسی انتقادی ساختارهای هزینه و روشهای توسعه به کار گرفته شده توسط رهبران بازار را ضروری ساخت. اگر یک مدل نسبتاً توانا واقعاً میتوانست با میلیونها به جای میلیاردها ساخته شود، این چه معنایی برای کارایی رویکردهای فعلی داشت؟
- به چالش کشیدن روایت: ادعای DeepSeek، دقیق یا نادرست، روایت غالب مبنی بر اینکه توسعه پیشرفته هوش مصنوعی صرفاً حوزه شرکتهای تریلیون دلاری با منابع نامحدود است را سوراخ کرد. این امکان یک چشمانداز توسعه دموکراتیکتر را معرفی کرد.
- تقویت بررسی دقیق: این امر بررسی دقیقی را که قبلاً بر هزینههای هنگفت شرکتهایی مانند OpenAI تحت حمایت Microsoft متمرکز بود، تشدید کرد. سرمایهگذاران، تحلیلگران و رقبا شروع به پرسیدن سؤالات سختتری در مورد تخصیص منابع و بازده سرمایهگذاری برای این پروژههای سرمایهبر کردند.
- طنین ژئوپلیتیکی: این ادعا همچنین در چارچوب رقابت فناوری US-China طنینانداز شد. این نشان میداد که مسیرهای جایگزین، بالقوه کارآمدتر از نظر منابع، برای دستیابی به شایستگی هوش مصنوعی ممکن است وجود داشته باشد و لایه دیگری از پیچیدگی را به بحثها در مورد رهبری فناوری و رقابت استراتژیک اضافه کرد. این امر بحثهای بیشتری را در مورد سیاستهایی مانند تحریم تراشهها برانگیخت، در حالی که همزمان سرمایهگذاران خطرپذیر را تشویق کرد تا به دقت بازیگران نوظهور در China را که ممکن است مدلهای توسعه نابتری داشته باشند، بررسی کنند.
علیرغم تردیدها، انتشار DeepSeek R1، به ویژه اجزای تحقیقاتی باز همراه آن، بینشهای حیاتی را ارائه داد که الهامبخش دیگران شد. این فقط هزینه ادعا شده نبود، بلکه روشهای بالقوهای بود که به آنها اشاره شد و کنجکاوی و نوآوری را در جاهای دیگر، به ویژه در آزمایشگاههای دانشگاهی که تحت محدودیتهای مالی بسیار متفاوتی فعالیت میکنند، برانگیخت.
ظهور هوش مصنوعی فوقالعاده ناب: انقلاب دانشگاهی
در حالی که غولهای شرکتی با بودجههای میلیارد دلاری و فشارهای بازار دست و پنجه نرم میکردند، نوع دیگری از انقلاب هوش مصنوعی بیسر و صدا در سالنهای دانشگاه در حال شکلگیری بود. محققان، که از خواستههای تجاریسازی فوری رها بودند اما به شدت توسط بودجه محدود شده بودند، شروع به کاوش راههایی برای تکرار اصول پشت هوش مصنوعی پیشرفته، اگر نه مقیاس محض آن، با استفاده از حداقل منابع کردند. یک نمونه برجسته از University of California, Berkeley پدیدار شد.
تیمی در Berkeley، که مجذوب پیشرفتهای اخیر شده بود اما فاقد سرمایه هنگفت آزمایشگاههای صنعتی بود، پروژهای را با نام TinyZero آغاز کرد. هدف آنها جسورانه بود: آیا میتوانند رفتارهای پیچیده هوش مصنوعی، به ویژه نوع استدلالی که به مدلها اجازه میدهد قبل از پاسخ دادن ‘فکر’ کنند، را با استفاده از یک مدل و بودجه به شدت کاهش یافته نشان دهند؟ پاسخ یک بله قاطع بود. آنها با موفقیت جنبههای اصلی پارادایم استدلال مورد بررسی توسط OpenAI و DeepSeek را با هزینه شگفتآور پایینی بازتولید کردند - حدود ۳۰ دلار.
این امر با ساختن یک رقیب مستقیم برای GPT-4 به دست نیامد، بلکه با کاهش هوشمندانه پیچیدگی هم مدل و هم وظیفه انجام شد.
- آزمایش ۳۰ دلاری: این رقم عمدتاً هزینه اجاره دو GPU Nvidia H200 در یک پلتفرم ابری عمومی برای زمان آموزش لازم را نشان میداد. این پتانسیل استفاده از زیرساختهای ابری موجود برای تحقیقات پیشرفته بدون سرمایهگذاری اولیه هنگفت سختافزاری را به نمایش گذاشت.
- مقیاسبندی مدل: پروژه TinyZero از یک مدل ‘3B’ استفاده کرد که به تقریباً سه میلیارد پارامتر اشاره دارد. این به طور قابل توجهی کوچکتر از بزرگترین LLMها است که میتوانند صدها میلیارد یا حتی تریلیونها پارامتر داشته باشند. بینش کلیدی این بود که رفتارهای پیچیده ممکن است حتی در مدلهای کوچکتر نیز ظاهر شوند اگر وظیفه به طور مناسب طراحی شده باشد.
- الهام از غولها و چالشگران: Jiayi Pan، رهبر پروژه TinyZero، خاطرنشان کرد که پیشرفتهای OpenAI، به ویژه مفاهیم پیرامون مدلهایی که زمان بیشتری را قبل از پاسخ دادن صرف پردازش میکنند، الهامبخش اصلی بود. با این حال، این تحقیقات باز DeepSeek R1 بود که یک طرح بالقوه برای چگونگی دستیابی به این قابلیت استدلال بهبود یافته ارائه داد، حتی اگر هزینه آموزش ۶ میلیون دلاری گزارش شده DeepSeek هنوز بسیار فراتر از دسترس تیم دانشگاهی بود.
تیم Berkeley فرض کرد که با کاهش هم اندازه مدل و هم پیچیدگی مسئلهای که باید حل کند، همچنان میتوانند ‘رفتار استدلال نوظهور’ مورد نظر را مشاهده کنند. این رویکرد تقلیلگرایانه کلید کاهش چشمگیر هزینهها در حالی بود که هنوز امکان مشاهده علمی ارزشمند را فراهم میکرد.
رمزگشایی ‘لحظه آها’: استدلال با بودجه کم
دستاورد اصلی پروژه TinyZero و ابتکارات کمهزینه مشابه، در نشان دادن چیزی است که محققان اغلب آن را ‘لحظه آها’ مینامند - نقطهای که در آن یک مدل هوش مصنوعی شروع به نشان دادن قابلیتهای استدلال و حل مسئله واقعی میکند، به جای اینکه فقط الگوها را تطبیق دهد یا اطلاعات ذخیره شده را بازیابی کند. این رفتار نوظهور یک هدف کلیدی برای توسعهدهندگان حتی بزرگترین مدلها است.
برای آزمایش فرضیه خود و استخراج این رفتار در مقیاس کوچک، تیم Berkeley از یک وظیفه خاص و محدود استفاده کرد: یک بازی ریاضی به نام ‘Countdown’.
- بازی Countdown: این بازی از هوش مصنوعی میخواهد تا با استفاده از مجموعهای از اعداد اولیه و عملیات حسابی پایه (جمع، تفریق، ضرب، تقسیم) به یک عدد هدف برسد. نکته مهم این است که موفقیت در Countdown بیشتر به استدلال استراتژیک و برنامهریزی - کاوش ترکیبها و توالیهای مختلف عملیات - متکی است تا به یادآوری حجم عظیمی از دانش ریاضی از پیش موجود.
- یادگیری از طریق بازی: در ابتدا، مدل TinyZero به طور تصادفی به بازی نزدیک شد و ترکیبها را تقریباً به صورت اتفاقی امتحان کرد. با این حال، از طریق فرآیندی از یادگیری تقویتی (یادگیری از طریق آزمون و خطا و پاداش)، شروع به تشخیص الگوها و استراتژیها کرد. یاد گرفت که رویکرد خود را تنظیم کند، مسیرهای ناکارآمد را کنار بگذارد و سریعتر به راهحلهای صحیح همگرا شود. اساساً یاد گرفت که چگونه در چارچوب قوانین تعریف شده بازی استدلال کند.
- ظهور خود-تأییدی: به طور قابل توجهی، مدل آموزش دیده شروع به نشان دادن علائم خود-تأییدی کرد - ارزیابی مراحل میانی و راهحلهای بالقوه خود برای تعیین اینکه آیا آنها به سمت عدد هدف پیش میروند یا خیر. این توانایی برای ارزیابی و اصلاح مسیر به صورت داخلی، مشخصه استدلال پیشرفتهتر است.
همانطور که Jiayi Pan توضیح داد، ‘ما نشان میدهیم که با مدلی به کوچکی 3B، میتواند یاد بگیرد که در مورد مسائل ساده استدلال کند و شروع به یادگیری خود-تأییدی و جستجوی راهحلهای بهتر کند.’ این نشان داد که مکانیسمهای اساسی زیربنای استدلال و ‘لحظه آها’، که قبلاً عمدتاً با مدلهای عظیم و گرانقیمت مرتبط بود، میتواند در یک محیط بسیار محدود از نظر منابع تکرار و مطالعه شود. موفقیت TinyZero ثابت کرد که مفاهیم مرزی هوش مصنوعی صرفاً حوزه غولهای فناوری نیستند، بلکه میتوانند برای محققان، مهندسان و حتی علاقهمندان با بودجه محدود قابل دسترس باشند و اکوسیستم فراگیرتری را برای کاوش هوش مصنوعی پرورش دهند. تصمیم تیم برای به اشتراک گذاشتن یافتههای خود به صورت باز، به ویژه از طریق پلتفرمهایی مانند GitHub، به دیگران اجازه داد تا آزمایشها را تکرار کنند و این ‘لحظه آها’ را با هزینهای کمتر از چند پیتزا، از نزدیک تجربه کنند.
Stanford به میدان میپیوندد: تأیید یادگیری کمهزینه
امواجی که توسط TinyZero ایجاد شد به سرعت در جامعه دانشگاهی هوش مصنوعی پخش شد. محققان در Stanford University، که قبلاً در حال کاوش مفاهیم مشابهی بودند و حتی بازی Countdown را قبلاً به عنوان یک وظیفه تحقیقاتی معرفی کرده بودند، کار تیم Berkeley را بسیار مرتبط و تأیید کننده یافتند.
تیم Stanford به رهبری Kanishk Gandhi، در حال بررسی یک سؤال مرتبط و اساسی بود: چرا برخی از LLMها بهبودهای چشمگیر و تقریباً ناگهانی در تواناییهای استدلال خود در طول آموزش نشان میدهند، در حالی که به نظر میرسد برخی دیگر به سطح ثابتی میرسند؟ درک مکانیسمهای اساسی که این جهشها در قابلیت را هدایت میکنند، برای ساخت هوش مصنوعی مؤثرتر و قابل اعتمادتر حیاتی است.
- ساختن بر اساس زمینه مشترک: Gandhi ارزش TinyZero را تأیید کرد و اظهار داشت که این ‘عالی’ بود تا حدی به این دلیل که با موفقیت از وظیفه Countdown که تیم خودش در حال مطالعه آن بود، استفاده کرد. این همگرایی امکان تأیید و تکرار سریعتر ایدهها را در بین گروههای تحقیقاتی مختلف فراهم کرد.
- غلبه بر موانع مهندسی: محققان Stanford همچنین تأکید کردند که چگونه پیشرفت آنها قبلاً توسط چالشهای مهندسی مانع شده بود. در دسترس بودن ابزارهای متنباز در غلبه بر این موانع نقش اساسی داشت.
- قدرت ابزارهای متنباز: به طور خاص، Gandhi سیستم Volcano Engine Reinforcement Learning (VERL)، یک پروژه متنباز توسعه یافته توسط ByteDance (شرکت مادر TikTok)، را به عنوان ‘ضروری برای اجرای آزمایشهای ما’ اعتبار بخشید. همسویی بین قابلیتهای VERL و نیازهای تجربی تیم Stanford به طور قابل توجهی چرخههای تحقیقاتی آنها را تسریع کرد.
این اتکا به اجزای متنباز، جنبه حیاتی جنبش هوش مصنوعی کمهزینه را برجسته میکند. پیشرفت اغلب به صورت مشترک، با استفاده از ابزارها و بینشهایی که آزادانه در جامعه به اشتراک گذاشته میشوند، ساخته میشود. Gandhi همچنین اظهار داشت که پیشرفتهای علمی عمده در درک استدلال و هوش LLM ممکن است لزوماً فقط از آزمایشگاههای صنعتی بزرگ و با بودجه خوب نشأت نگیرد. او استدلال کرد که ‘درک علمی از LLMهای فعلی، حتی در آزمایشگاههای بزرگ، وجود ندارد’ و فضای قابل توجهی را برای مشارکت از سوی ‘DIY AI، متنباز و دانشگاه’ باقی میگذارد. این پروژههای کوچکتر و چابکتر میتوانند پدیدههای خاص را به طور عمیق بررسی کنند و بینشهایی را ایجاد کنند که به نفع کل حوزه باشد.
قهرمان گمنام: بنیادهای متنباز
دستاوردهای قابل توجه پروژههایی مانند TinyZero، که رفتارهای پیچیده هوش مصنوعی را با دهها دلار نشان میدهند، به شدت به یک عنصر حیاتی و اغلب کمارزشگذاری شده متکی هستند: اکوسیستم گسترده مدلها و ابزارهای هوش مصنوعی متنباز و با وزن باز (open-weight). در حالی که هزینه نهایی یک آزمایش خاص ممکن است کم باشد، اما بر پایههایی بنا شده است که اغلب میلیونها، اگر نه میلیاردها، دلار سرمایهگذاری قبلی را نشان میدهند.
Nina Singer، دانشمند ارشد یادگیری ماشین در شرکت مشاوره هوش مصنوعی OneSix، زمینه مهمی را فراهم کرد. او اشاره کرد که هزینه آموزش ۳۰ دلاری TinyZero، در حالی که برای وظیفه خاص انجام شده توسط تیم Berkeley دقیق است، هزینه توسعه اولیه مدلهای بنیادی مورد استفاده آن را در نظر نمیگیرد.
- ساختن بر شانه غولها: آموزش TinyZero نه تنها از سیستم VERL شرکت ByteDance بلکه از Qwen شرکت Alibaba Cloud، یک LLM متنباز، نیز استفاده کرد. Alibaba منابع قابل توجهی - احتمالاً میلیونها - را برای توسعه Qwen قبل از انتشار ‘وزنهای’ آن (پارامترهای آموخته شده که قابلیتهای مدل را تعریف میکنند) برای عموم سرمایهگذاری کرد.
- ارزش وزنهای باز: Singer تأکید کرد که این انتقادی از TinyZero نیست، بلکه ارزش و اهمیت فوقالعاده مدلهای با وزن باز را برجسته میکند. با انتشار پارامترهای مدل، حتی اگر مجموعه داده کامل و معماری آموزش اختصاصی باقی بماند، شرکتهایی مانند Alibaba به محققان و نهادهای کوچکتر امکان میدهند تا بر اساس کار آنها بسازند، آزمایش کنند و نوآوری کنند بدون اینکه نیاز به تکرار فرآیند پرهزینه آموزش اولیه از ابتدا داشته باشند.
- دموکراتیک کردن تنظیم دقیق (Fine-Tuning): این رویکرد باز، زمینه رو به رشدی از ‘تنظیم دقیق’ را تقویت میکند، جایی که مدلهای هوش مصنوعی کوچکتر برای وظایف خاص تطبیق داده یا تخصصی میشوند. همانطور که Singer اشاره کرد، این مدلهای تنظیم دقیق اغلب میتوانند ‘با مدلهای بسیار بزرگتر با کسری از اندازه و هزینه’ برای هدف تعیین شده خود رقابت کنند. نمونههای فراوانی وجود دارد، مانند Sky-T1، که به کاربران امکان میدهد نسخه خود را از یک مدل پیشرفته با حدود ۴۵۰ دلار آموزش دهند، یا خود Qwen شرکت Alibaba، که تنظیم دقیق را با حداقل ۶ دلار امکانپذیر میسازد.
این اتکا به بنیادهای باز، یک اکوسیستم پویا ایجاد میکند که در آن نوآوری میتواند در سطوح مختلف رخ دهد. سازمانهای بزرگ به شدت در ایجاد مدلهای پایه قدرتمند سرمایهگذاری میکنند، در حالی که یک جامعه گستردهتر از این داراییها برای کاوش برنامههای کاربردی جدید، انجام تحقیقات و توسعه راهحلهای تخصصی بسیار اقتصادیتر استفاده میکند. این رابطه همزیستی باعث پیشرفت سریع و دموکراتیک شدن در این زمینه میشود.
به چالش کشیدن پارادایم ‘بزرگتر بهتر است’
داستانهای موفقیتآمیز ناشی از پروژههایی مانند TinyZero و روند گستردهتر تنظیم دقیق مؤثر و کمهزینه، چالشی قابل توجه را برای باور دیرینه صنعت مبنی بر اینکه پیشرفت در هوش مصنوعی صرفاً تابعی از مقیاس است - دادههای بیشتر، پارامترهای بیشتر، قدرت محاسباتی بیشتر - ایجاد میکنند.
یکی از عمیقترین پیامدها، همانطور که توسط Nina Singer برجسته شد، این است که کیفیت دادهها و آموزش ویژه وظیفه ممکن است اغلب حیاتیتر از اندازه محض مدل باشد. آزمایش TinyZero نشان داد که حتی یک مدل نسبتاً کوچک (۳ میلیارد پارامتر) میتواند رفتارهای پیچیدهای مانند خود-اصلاحی و بهبود تکراری را هنگامی که به طور مؤثر بر روی یک وظیفه به خوبی تعریف شده آموزش داده شود، یاد بگیرد.
- بازده کاهشی در مقیاس؟: این یافته مستقیماً این فرض را زیر سؤال میبرد که فقط مدلهای عظیمی مانند سری GPT شرکت OpenAI یا Claude شرکت Anthropic، با صدها میلیارد یا تریلیونها پارامتر خود، قادر به چنین یادگیری پیچیدهای هستند. Singer پیشنهاد کرد، ‘این پروژه نشان میدهد که ما ممکن است قبلاً از آستانهای عبور کرده باشیم که در آن پارامترهای اضافی بازده کاهشی را ارائه میدهند - حداقل برای وظایف خاص.’ در حالی که مدلهای بزرگتر ممکن است مزایایی در کلیت و گستردگی دانش حفظ کنند، برای برنامههای کاربردی خاص، مدلهای فوق مقیاس ممکن است بیش از حد نیاز باشند، هم از نظر هزینه و هم از نظر نیازهای محاسباتی.
- تغییر به سمت کارایی و ویژگی: چشمانداز هوش مصنوعی ممکن است در حال تجربه یک تغییر ظریف اما قابل توجه باشد. به جای تمرکز انحصاری بر ساخت مدلهای بنیادی بزرگتر، توجه فزایندهای به کارایی، دسترسی و هوش هدفمند معطوف میشود. ایجاد مدلهای کوچکتر و بسیار بهینه شده برای حوزهها یا وظایف خاص، به عنوان یک جایگزین قابل دوام و از نظر اقتصادی جذاب ثابت میشود.
- فشار بر مدلهای بسته: قابلیت رو به رشد و در دسترس بودن مدلهای با وزن باز و تکنیکهای تنظیم دقیق کمهزینه، فشار رقابتی را بر شرکتهایی وارد میکند که عمدتاً قابلیتهای هوش مصنوعی خود را از طریق APIهای (رابطهای برنامهنویسی کاربردی) محدود ارائه میدهند. همانطور که Singer اشاره کرد، شرکتهایی مانند OpenAI و Anthropic ممکن است نیاز داشته باشند به طور فزایندهای ارزش پیشنهادی اکوسیستمهای بسته خود را توجیه کنند، به ویژه ‘همانطور که جایگزینهای باز شروع به تطابق یا فراتر رفتن از قابلیتهای آنها در حوزههای خاص میکنند.’
این لزوماً به معنای پایان مدلهای بنیادی بزرگ نیست، که احتمالاً همچنان به عنوان نقاط شروع حیاتی عمل خواهند کرد. با این حال، این نشاندهنده آیندهای است که در آن اکوسیستم هوش مصنوعی بسیار متنوعتر است و ترکیبی از مدلهای عمومی عظیم و تکثیر مدلهای کوچکتر، تخصصی و بسیار کارآمد متناسب با نیازهای خاص را شامل میشود.
موج دموکراتیک شدن: هوش مصنوعی برای افراد بیشتر؟
تلاقی محاسبات ابری قابل دسترس، ابزارهای قدرتمند متنباز و اثربخشی اثبات شده مدلهای کوچکتر و تنظیم دقیق، موجی از دموکراتیک شدن را در سراسر چشمانداز هوش مصنوعی تغذیه میکند. آنچه زمانی حوزه انحصاری آزمایشگاههای تحقیقاتی نخبه و شرکتهای فناوری با بودجههای میلیارد دلاری بود، به طور فزایندهای برای طیف وسیعتری از بازیگران قابل دسترس میشود.
افراد، محققان دانشگاهی، استارتآپها و شرکتهای کوچکتر در مییابند که میتوانند به طور معناداری با مفاهیم و توسعه پیشرفته هوش مصنوعی درگیر شوند بدون اینکه به سرمایهگذاریهای زیرساختی بازدارنده نیاز داشته باشند.
- کاهش موانع ورود: توانایی تنظیم دقیق یک مدل توانا با صدها یا حتی دهها دلار، با تکیه بر بنیادهای با وزن باز، به طور چشمگیری مانع ورود برای آزمایش و توسعه برنامههای کاربردی را کاهش میدهد.
- پرورش نوآوری: این دسترسی، استخر وسیعتری از استعدادها را تشویق میکند تا به این حوزه کمک کنند. محققان میتوانند ایدههای بدیع را به راحتی آزمایش کنند، کارآفرینان میتوانند راهحلهای هوش مصنوعی خاص را به طور اقتصادیتر توسعه دهند و علاقهمندان میتوانند فناوری پیشرفته را از نزدیک کاوش کنند.
- بهبود مبتنی بر جامعه: موفقیت تلاشهای مبتنی بر جامعه در بهبود و تخصصی کردن مدلهای با وزن باز، قدرت توسعه مشترک را نشان میدهد. این هوش جمعی گاهی اوقات میتواند از چرخههای تکرار در محیطهای شرکتی بستهتر برای وظایف خاص پیشی بگیرد.
- آیندهای ترکیبی؟: مسیر احتمالی به سمت یک اکوسیستم ترکیبی اشاره دارد. مدلهای بنیادی غولپیکر به پیش بردن مرزهای مطلق قابلیت هوش مصنوعی ادامه خواهند داد و به عنوان پلتفرم عمل میکنند. همزمان، یک اکوسیستم پر جنب و جوش از مدلهای تخصصی، که توسط یک جامعه متنوع تنظیم دقیق شدهاند، نوآوری را در برنامههای کاربردی و صنایع خاص هدایت خواهد کرد.
این دموکراتیک شدن نیاز به سرمایهگذاری قابل توجه، به ویژه در ایجاد نسل بعدی مدلهای بنیادی را از بین نمیبرد. با این حال، اساساً پویایی نوآوری و رقابت را تغییر میدهد. توانایی دستیابی به نتایج قابل توجه با بودجه کم، همانطور که توسط پروژه TinyZero و جنبش گستردهتر تنظیم دقیق نشان داده شده است، نشاندهنده تغییر به سمت آیندهای قابل دسترستر، کارآمدتر و بالقوه متنوعتر برای توسعه هوش مصنوعی است. ‘لحظه آها’ی استدلال دیگر صرفاً به قلعههای سیلیکونی محدود نمیشود؛ بلکه در حال تبدیل شدن به تجربهای قابل دسترس با هزینهای کمتر از یک شام است که خلاقیت را برمیانگیزد و مرزهای ممکن را از پایه به بالا میبرد.