هوش مصنوعی مولد: تقاطع ارزش‌گذاری بالا و مدل‌های کم‌هزینه

دنیای هوش مصنوعی در حال حاضر صحنه تضادهای آشکار است. در یک سو، مبالغ هنگفتی به شرکت‌های فناوری غول‌پیکر سرازیر می‌شود که آرزوهای قدرت شناختی بی‌سابقه را تغذیه می‌کند و بحث‌هایی را در مورد حباب سرمایه‌گذاری قریب‌الوقوع برمی‌انگیزد. ارزش‌گذاری‌های چند میلیارد دلاری در حال عادی شدن هستند و زمزمه‌هایی از دورهای تأمین مالی به ارقام نجومی می‌رسد. با این حال، در صحنه‌ای آرام‌تر و موازی، انقلابی در محافل دانشگاهی و جوامع متن‌باز در حال شکل‌گیری است. در اینجا، محققان با نبوغ قابل توجهی، مدل‌های هوش مصنوعی مولد توانمندی را نه با میلیاردها، بلکه گاهی اوقات تنها با پول خرد می‌سازند و اساساً این تصور غالب را که در رقابت برای برتری هوش مصنوعی، همیشه بزرگتر بهتر است، به چالش می‌کشند.

این واگرایی به طور فزاینده‌ای برجسته می‌شود. OpenAI، قدرت پشت ChatGPT را در نظر بگیرید که طبق گزارش‌ها به دنبال سرمایه‌گذاری بیشتری است که می‌تواند ارزش آن را به ۳۰۰ میلیارد دلار سرسام‌آور برساند. چنین ارقامی، در کنار پیش‌بینی درآمدهای به سرعت در حال افزایش، تصویری از خوش‌بینی بی‌حد و حصر و رشد نمایی را ترسیم می‌کنند. با این حال، همزمان، لرزه‌های احتیاط، پایه‌های این سرخوشی هوش مصنوعی را می‌لرزاند. سهام به اصطلاح ‘Magnificent 7’ فناوری، که مدت‌ها به دلیل پتانسیل هوش مصنوعی خود محبوب بازار بودند، دوره‌هایی از عملکرد ضعیف قابل توجهی را تجربه کرده‌اند که نشان می‌دهد اضطراب سرمایه‌گذاران در حال افزایش است. این نگرانی با هشدارهای کهنه‌کاران باتجربه صنعت، مانند Joe Tsai، بنیانگذار Alibaba، که اخیراً به نشانه‌های نگران‌کننده شکل‌گیری حباب بالقوه هوش مصنوعی، به ویژه در بازار US، اشاره کرد، تشدید می‌شود. مقیاس عظیم سرمایه‌گذاری مورد نیاز، به ویژه برای مراکز داده عظیم که این مدل‌های پیچیده را تأمین می‌کنند، تحت بررسی شدید قرار گرفته است. آیا سطوح فعلی هزینه‌ها پایدار است یا نشان‌دهنده یک شور و شوق غیرمنطقی و جدا از واقعیت‌های کوتاه‌مدت است؟

شبح حباب هوش مصنوعی در کمین است

نگرانی‌ها در مورد حباب هوش مصنوعی صرفاً اضطراب‌های مالی انتزاعی نیستند؛ آنها سؤالات عمیق‌تری را در مورد سرعت و جهت توسعه خود هوش مصنوعی منعکس می‌کنند. روایت تا حد زیادی تحت سلطه چند بازیگر اصلی بوده است که میلیاردها دلار برای ساخت مدل‌های زبان بزرگ (LLMs) بزرگتر سرمایه‌گذاری می‌کنند. این امر محیطی را ایجاد کرده است که در آن به نظر می‌رسد رهبری بازار بر اساس داشتن عمیق‌ترین جیب‌ها و گسترده‌ترین زیرساخت‌های محاسباتی استوار است.

  • سرگیجه ارزش‌گذاری: ارزش‌گذاری بالقوه ۳۰۰ میلیارد دلاری OpenAI، در حالی که نشان‌دهنده اعتماد بسیار زیاد سرمایه‌گذاران خاص است، همچنین باعث تعجب می‌شود. آیا این رقم با قابلیت‌ها و جریان‌های درآمد فعلی توجیه می‌شود، یا به شدت به پیشرفت‌های آینده، شاید نامشخص، وابسته است؟ شباهت‌های تاریخی با رونق‌ها و رکودهای قبلی فناوری، مانند دوران دات‌کام، به ناچار مطرح می‌شود و احتیاط را برمی‌انگیزد.
  • بررسی دقیق سرمایه‌گذاری زیرساخت: میلیاردها دلاری که به مراکز داده ویژه هوش مصنوعی و سخت‌افزارهای تخصصی مانند GPUهای پیشرفته سرازیر می‌شود، هزینه‌های سرمایه‌ای عظیمی را نشان می‌دهد. هشدار Joe Tsai خطر مرتبط با چنین سرمایه‌گذاری‌های اولیه عظیمی را برجسته می‌کند، به خصوص اگر مسیر کسب درآمد طولانی‌تر یا پیچیده‌تر از حد انتظار باشد. کارایی و بازده این سرمایه‌گذاری‌ها به نقاط بحث حیاتی تبدیل شده‌اند.
  • سیگنال‌های بازار: عملکرد نوسانی غول‌های فناوری که به شدت در هوش مصنوعی سرمایه‌گذاری کرده‌اند، نشان‌دهنده درجه‌ای از تردید بازار است. در حالی که پتانسیل بلندمدت همچنان یک جاذبه قوی است، نوسانات کوتاه‌مدت نشان می‌دهد که سرمایه‌گذاران به طور فعال در حال ارزیابی مجدد ریسک و زیر سؤال بردن پایداری مسیرهای رشد فعلی هستند. سرنوشت IPOهای آتی در فضای هوش مصنوعی، مانند عرضه اولیه مورد انتظار از متخصص تراشه هوش مصنوعی CoreWeave، به عنوان فشارسنج احساسات بازار به دقت زیر نظر گرفته می‌شود. آیا این امر شور و شوق را دوباره شعله‌ور خواهد کرد یا نگرانی‌های اساسی را تأیید می‌کند؟
  • ابعاد ژئوپلیتیکی: رقابت هوش مصنوعی همچنین دارای مفاهیم ژئوپلیتیکی قابل توجهی است، به ویژه بین US و China. هزینه‌های هنگفت در US تا حدی ناشی از تمایل به حفظ مزیت رقابتی است. این امر منجر به بحث‌های پیچیده سیاستی شده است، از جمله درخواست‌ها برای کنترل‌های صادراتی سخت‌گیرانه‌تر بر فناوری پیشرفته نیمه‌هادی برای کند کردن بالقوه پیشرفت China. برعکس، سرمایه خطرپذیر همچنان به استارت‌آپ‌های هوش مصنوعی چینی سرازیر می‌شود، که نشان‌دهنده یک رقابت جهانی است که در آن قدرت تکنولوژیکی و استراتژی اقتصادی به شدت در هم تنیده شده‌اند.

این محیط پرمخاطره و پرهزینه، زمینه را برای نوآوری‌های مخربی فراهم می‌کند که نظم مستقر را به چالش می‌کشند. ظهور جایگزین‌های بسیار ارزان‌تر، ارزیابی مجدد این موضوع را ضروری می‌سازد که آیا محاسبات با نیروی زیاد و مقیاس عظیم تنها مسیرهای پیش رو هستند یا خیر.

ادعای مخرب DeepSeek و اثرات موجی آن

در این چشم‌انداز از هزینه‌های هنگفت و اضطراب فزاینده، DeepSeek، یک نهاد مستقر در China، قدم گذاشت و ادعای شگفت‌انگیزی را مطرح کرد: این شرکت مدل زبان بزرگ هوش مصنوعی مولد R1 خود را تنها با ۶ میلیون دلار توسعه داده است. این رقم، که порядک‌ها پایین‌تر از سرمایه‌گذاری‌های چند میلیارد دلاری فرضی همتایان غربی بود، بلافاصله موج‌هایی را در سراسر صنعت ایجاد کرد.

در حالی که تردید در مورد محاسبه ۶ میلیون دلاری همچنان وجود دارد - زیر سؤال بردن اینکه چه هزینه‌هایی شامل شده و چه هزینه‌هایی مستثنی شده‌اند - تأثیر این اعلام غیرقابل انکار بود. این به عنوان یک کاتالیزور قوی عمل کرد و بررسی انتقادی ساختارهای هزینه و روش‌های توسعه به کار گرفته شده توسط رهبران بازار را ضروری ساخت. اگر یک مدل نسبتاً توانا واقعاً می‌توانست با میلیون‌ها به جای میلیاردها ساخته شود، این چه معنایی برای کارایی رویکردهای فعلی داشت؟

  • به چالش کشیدن روایت: ادعای DeepSeek، دقیق یا نادرست، روایت غالب مبنی بر اینکه توسعه پیشرفته هوش مصنوعی صرفاً حوزه شرکت‌های تریلیون دلاری با منابع نامحدود است را سوراخ کرد. این امکان یک چشم‌انداز توسعه دموکراتیک‌تر را معرفی کرد.
  • تقویت بررسی دقیق: این امر بررسی دقیقی را که قبلاً بر هزینه‌های هنگفت شرکت‌هایی مانند OpenAI تحت حمایت Microsoft متمرکز بود، تشدید کرد. سرمایه‌گذاران، تحلیلگران و رقبا شروع به پرسیدن سؤالات سخت‌تری در مورد تخصیص منابع و بازده سرمایه‌گذاری برای این پروژه‌های سرمایه‌بر کردند.
  • طنین ژئوپلیتیکی: این ادعا همچنین در چارچوب رقابت فناوری US-China طنین‌انداز شد. این نشان می‌داد که مسیرهای جایگزین، بالقوه کارآمدتر از نظر منابع، برای دستیابی به شایستگی هوش مصنوعی ممکن است وجود داشته باشد و لایه دیگری از پیچیدگی را به بحث‌ها در مورد رهبری فناوری و رقابت استراتژیک اضافه کرد. این امر بحث‌های بیشتری را در مورد سیاست‌هایی مانند تحریم تراشه‌ها برانگیخت، در حالی که همزمان سرمایه‌گذاران خطرپذیر را تشویق کرد تا به دقت بازیگران نوظهور در China را که ممکن است مدل‌های توسعه ناب‌تری داشته باشند، بررسی کنند.

علیرغم تردیدها، انتشار DeepSeek R1، به ویژه اجزای تحقیقاتی باز همراه آن، بینش‌های حیاتی را ارائه داد که الهام‌بخش دیگران شد. این فقط هزینه ادعا شده نبود، بلکه روش‌های بالقوه‌ای بود که به آنها اشاره شد و کنجکاوی و نوآوری را در جاهای دیگر، به ویژه در آزمایشگاه‌های دانشگاهی که تحت محدودیت‌های مالی بسیار متفاوتی فعالیت می‌کنند، برانگیخت.

ظهور هوش مصنوعی فوق‌العاده ناب: انقلاب دانشگاهی

در حالی که غول‌های شرکتی با بودجه‌های میلیارد دلاری و فشارهای بازار دست و پنجه نرم می‌کردند، نوع دیگری از انقلاب هوش مصنوعی بی‌سر و صدا در سالن‌های دانشگاه در حال شکل‌گیری بود. محققان، که از خواسته‌های تجاری‌سازی فوری رها بودند اما به شدت توسط بودجه محدود شده بودند، شروع به کاوش راه‌هایی برای تکرار اصول پشت هوش مصنوعی پیشرفته، اگر نه مقیاس محض آن، با استفاده از حداقل منابع کردند. یک نمونه برجسته از University of California, Berkeley پدیدار شد.

تیمی در Berkeley، که مجذوب پیشرفت‌های اخیر شده بود اما فاقد سرمایه هنگفت آزمایشگاه‌های صنعتی بود، پروژه‌ای را با نام TinyZero آغاز کرد. هدف آنها جسورانه بود: آیا می‌توانند رفتارهای پیچیده هوش مصنوعی، به ویژه نوع استدلالی که به مدل‌ها اجازه می‌دهد قبل از پاسخ دادن ‘فکر’ کنند، را با استفاده از یک مدل و بودجه به شدت کاهش یافته نشان دهند؟ پاسخ یک بله قاطع بود. آنها با موفقیت جنبه‌های اصلی پارادایم استدلال مورد بررسی توسط OpenAI و DeepSeek را با هزینه شگفت‌آور پایینی بازتولید کردند - حدود ۳۰ دلار.

این امر با ساختن یک رقیب مستقیم برای GPT-4 به دست نیامد، بلکه با کاهش هوشمندانه پیچیدگی هم مدل و هم وظیفه انجام شد.

  • آزمایش ۳۰ دلاری: این رقم عمدتاً هزینه اجاره دو GPU Nvidia H200 در یک پلتفرم ابری عمومی برای زمان آموزش لازم را نشان می‌داد. این پتانسیل استفاده از زیرساخت‌های ابری موجود برای تحقیقات پیشرفته بدون سرمایه‌گذاری اولیه هنگفت سخت‌افزاری را به نمایش گذاشت.
  • مقیاس‌بندی مدل: پروژه TinyZero از یک مدل ‘3B’ استفاده کرد که به تقریباً سه میلیارد پارامتر اشاره دارد. این به طور قابل توجهی کوچکتر از بزرگترین LLMها است که می‌توانند صدها میلیارد یا حتی تریلیون‌ها پارامتر داشته باشند. بینش کلیدی این بود که رفتارهای پیچیده ممکن است حتی در مدل‌های کوچکتر نیز ظاهر شوند اگر وظیفه به طور مناسب طراحی شده باشد.
  • الهام از غول‌ها و چالشگران: Jiayi Pan، رهبر پروژه TinyZero، خاطرنشان کرد که پیشرفت‌های OpenAI، به ویژه مفاهیم پیرامون مدل‌هایی که زمان بیشتری را قبل از پاسخ دادن صرف پردازش می‌کنند، الهام‌بخش اصلی بود. با این حال، این تحقیقات باز DeepSeek R1 بود که یک طرح بالقوه برای چگونگی دستیابی به این قابلیت استدلال بهبود یافته ارائه داد، حتی اگر هزینه آموزش ۶ میلیون دلاری گزارش شده DeepSeek هنوز بسیار فراتر از دسترس تیم دانشگاهی بود.

تیم Berkeley فرض کرد که با کاهش هم اندازه مدل و هم پیچیدگی مسئله‌ای که باید حل کند، همچنان می‌توانند ‘رفتار استدلال نوظهور’ مورد نظر را مشاهده کنند. این رویکرد تقلیل‌گرایانه کلید کاهش چشمگیر هزینه‌ها در حالی بود که هنوز امکان مشاهده علمی ارزشمند را فراهم می‌کرد.

رمزگشایی ‘لحظه آها’: استدلال با بودجه کم

دستاورد اصلی پروژه TinyZero و ابتکارات کم‌هزینه مشابه، در نشان دادن چیزی است که محققان اغلب آن را ‘لحظه آها’ می‌نامند - نقطه‌ای که در آن یک مدل هوش مصنوعی شروع به نشان دادن قابلیت‌های استدلال و حل مسئله واقعی می‌کند، به جای اینکه فقط الگوها را تطبیق دهد یا اطلاعات ذخیره شده را بازیابی کند. این رفتار نوظهور یک هدف کلیدی برای توسعه‌دهندگان حتی بزرگترین مدل‌ها است.

برای آزمایش فرضیه خود و استخراج این رفتار در مقیاس کوچک، تیم Berkeley از یک وظیفه خاص و محدود استفاده کرد: یک بازی ریاضی به نام ‘Countdown’.

  • بازی Countdown: این بازی از هوش مصنوعی می‌خواهد تا با استفاده از مجموعه‌ای از اعداد اولیه و عملیات حسابی پایه (جمع، تفریق، ضرب، تقسیم) به یک عدد هدف برسد. نکته مهم این است که موفقیت در Countdown بیشتر به استدلال استراتژیک و برنامه‌ریزی - کاوش ترکیب‌ها و توالی‌های مختلف عملیات - متکی است تا به یادآوری حجم عظیمی از دانش ریاضی از پیش موجود.
  • یادگیری از طریق بازی: در ابتدا، مدل TinyZero به طور تصادفی به بازی نزدیک شد و ترکیب‌ها را تقریباً به صورت اتفاقی امتحان کرد. با این حال، از طریق فرآیندی از یادگیری تقویتی (یادگیری از طریق آزمون و خطا و پاداش)، شروع به تشخیص الگوها و استراتژی‌ها کرد. یاد گرفت که رویکرد خود را تنظیم کند، مسیرهای ناکارآمد را کنار بگذارد و سریعتر به راه‌حل‌های صحیح همگرا شود. اساساً یاد گرفت که چگونه در چارچوب قوانین تعریف شده بازی استدلال کند.
  • ظهور خود-تأییدی: به طور قابل توجهی، مدل آموزش دیده شروع به نشان دادن علائم خود-تأییدی کرد - ارزیابی مراحل میانی و راه‌حل‌های بالقوه خود برای تعیین اینکه آیا آنها به سمت عدد هدف پیش می‌روند یا خیر. این توانایی برای ارزیابی و اصلاح مسیر به صورت داخلی، مشخصه استدلال پیشرفته‌تر است.

همانطور که Jiayi Pan توضیح داد، ‘ما نشان می‌دهیم که با مدلی به کوچکی 3B، می‌تواند یاد بگیرد که در مورد مسائل ساده استدلال کند و شروع به یادگیری خود-تأییدی و جستجوی راه‌حل‌های بهتر کند.’ این نشان داد که مکانیسم‌های اساسی زیربنای استدلال و ‘لحظه آها’، که قبلاً عمدتاً با مدل‌های عظیم و گران‌قیمت مرتبط بود، می‌تواند در یک محیط بسیار محدود از نظر منابع تکرار و مطالعه شود. موفقیت TinyZero ثابت کرد که مفاهیم مرزی هوش مصنوعی صرفاً حوزه غول‌های فناوری نیستند، بلکه می‌توانند برای محققان، مهندسان و حتی علاقه‌مندان با بودجه محدود قابل دسترس باشند و اکوسیستم فراگیرتری را برای کاوش هوش مصنوعی پرورش دهند. تصمیم تیم برای به اشتراک گذاشتن یافته‌های خود به صورت باز، به ویژه از طریق پلتفرم‌هایی مانند GitHub، به دیگران اجازه داد تا آزمایش‌ها را تکرار کنند و این ‘لحظه آها’ را با هزینه‌ای کمتر از چند پیتزا، از نزدیک تجربه کنند.

Stanford به میدان می‌پیوندد: تأیید یادگیری کم‌هزینه

امواجی که توسط TinyZero ایجاد شد به سرعت در جامعه دانشگاهی هوش مصنوعی پخش شد. محققان در Stanford University، که قبلاً در حال کاوش مفاهیم مشابهی بودند و حتی بازی Countdown را قبلاً به عنوان یک وظیفه تحقیقاتی معرفی کرده بودند، کار تیم Berkeley را بسیار مرتبط و تأیید کننده یافتند.

تیم Stanford به رهبری Kanishk Gandhi، در حال بررسی یک سؤال مرتبط و اساسی بود: چرا برخی از LLMها بهبودهای چشمگیر و تقریباً ناگهانی در توانایی‌های استدلال خود در طول آموزش نشان می‌دهند، در حالی که به نظر می‌رسد برخی دیگر به سطح ثابتی می‌رسند؟ درک مکانیسم‌های اساسی که این جهش‌ها در قابلیت را هدایت می‌کنند، برای ساخت هوش مصنوعی مؤثرتر و قابل اعتمادتر حیاتی است.

  • ساختن بر اساس زمینه مشترک: Gandhi ارزش TinyZero را تأیید کرد و اظهار داشت که این ‘عالی’ بود تا حدی به این دلیل که با موفقیت از وظیفه Countdown که تیم خودش در حال مطالعه آن بود، استفاده کرد. این همگرایی امکان تأیید و تکرار سریعتر ایده‌ها را در بین گروه‌های تحقیقاتی مختلف فراهم کرد.
  • غلبه بر موانع مهندسی: محققان Stanford همچنین تأکید کردند که چگونه پیشرفت آنها قبلاً توسط چالش‌های مهندسی مانع شده بود. در دسترس بودن ابزارهای متن‌باز در غلبه بر این موانع نقش اساسی داشت.
  • قدرت ابزارهای متن‌باز: به طور خاص، Gandhi سیستم Volcano Engine Reinforcement Learning (VERL)، یک پروژه متن‌باز توسعه یافته توسط ByteDance (شرکت مادر TikTok)، را به عنوان ‘ضروری برای اجرای آزمایش‌های ما’ اعتبار بخشید. همسویی بین قابلیت‌های VERL و نیازهای تجربی تیم Stanford به طور قابل توجهی چرخه‌های تحقیقاتی آنها را تسریع کرد.

این اتکا به اجزای متن‌باز، جنبه حیاتی جنبش هوش مصنوعی کم‌هزینه را برجسته می‌کند. پیشرفت اغلب به صورت مشترک، با استفاده از ابزارها و بینش‌هایی که آزادانه در جامعه به اشتراک گذاشته می‌شوند، ساخته می‌شود. Gandhi همچنین اظهار داشت که پیشرفت‌های علمی عمده در درک استدلال و هوش LLM ممکن است لزوماً فقط از آزمایشگاه‌های صنعتی بزرگ و با بودجه خوب نشأت نگیرد. او استدلال کرد که ‘درک علمی از LLMهای فعلی، حتی در آزمایشگاه‌های بزرگ، وجود ندارد’ و فضای قابل توجهی را برای مشارکت از سوی ‘DIY AI، متن‌باز و دانشگاه’ باقی می‌گذارد. این پروژه‌های کوچکتر و چابک‌تر می‌توانند پدیده‌های خاص را به طور عمیق بررسی کنند و بینش‌هایی را ایجاد کنند که به نفع کل حوزه باشد.

قهرمان گمنام: بنیادهای متن‌باز

دستاوردهای قابل توجه پروژه‌هایی مانند TinyZero، که رفتارهای پیچیده هوش مصنوعی را با ده‌ها دلار نشان می‌دهند، به شدت به یک عنصر حیاتی و اغلب کم‌ارزش‌گذاری شده متکی هستند: اکوسیستم گسترده مدل‌ها و ابزارهای هوش مصنوعی متن‌باز و با وزن باز (open-weight). در حالی که هزینه نهایی یک آزمایش خاص ممکن است کم باشد، اما بر پایه‌هایی بنا شده است که اغلب میلیون‌ها، اگر نه میلیاردها، دلار سرمایه‌گذاری قبلی را نشان می‌دهند.

Nina Singer، دانشمند ارشد یادگیری ماشین در شرکت مشاوره هوش مصنوعی OneSix، زمینه مهمی را فراهم کرد. او اشاره کرد که هزینه آموزش ۳۰ دلاری TinyZero، در حالی که برای وظیفه خاص انجام شده توسط تیم Berkeley دقیق است، هزینه توسعه اولیه مدل‌های بنیادی مورد استفاده آن را در نظر نمی‌گیرد.

  • ساختن بر شانه غول‌ها: آموزش TinyZero نه تنها از سیستم VERL شرکت ByteDance بلکه از Qwen شرکت Alibaba Cloud، یک LLM متن‌باز، نیز استفاده کرد. Alibaba منابع قابل توجهی - احتمالاً میلیون‌ها - را برای توسعه Qwen قبل از انتشار ‘وزن‌های’ آن (پارامترهای آموخته شده که قابلیت‌های مدل را تعریف می‌کنند) برای عموم سرمایه‌گذاری کرد.
  • ارزش وزن‌های باز: Singer تأکید کرد که این انتقادی از TinyZero نیست، بلکه ارزش و اهمیت فوق‌العاده مدل‌های با وزن باز را برجسته می‌کند. با انتشار پارامترهای مدل، حتی اگر مجموعه داده کامل و معماری آموزش اختصاصی باقی بماند، شرکت‌هایی مانند Alibaba به محققان و نهادهای کوچکتر امکان می‌دهند تا بر اساس کار آنها بسازند، آزمایش کنند و نوآوری کنند بدون اینکه نیاز به تکرار فرآیند پرهزینه آموزش اولیه از ابتدا داشته باشند.
  • دموکراتیک کردن تنظیم دقیق (Fine-Tuning): این رویکرد باز، زمینه رو به رشدی از ‘تنظیم دقیق’ را تقویت می‌کند، جایی که مدل‌های هوش مصنوعی کوچکتر برای وظایف خاص تطبیق داده یا تخصصی می‌شوند. همانطور که Singer اشاره کرد، این مدل‌های تنظیم دقیق اغلب می‌توانند ‘با مدل‌های بسیار بزرگتر با کسری از اندازه و هزینه’ برای هدف تعیین شده خود رقابت کنند. نمونه‌های فراوانی وجود دارد، مانند Sky-T1، که به کاربران امکان می‌دهد نسخه خود را از یک مدل پیشرفته با حدود ۴۵۰ دلار آموزش دهند، یا خود Qwen شرکت Alibaba، که تنظیم دقیق را با حداقل ۶ دلار امکان‌پذیر می‌سازد.

این اتکا به بنیادهای باز، یک اکوسیستم پویا ایجاد می‌کند که در آن نوآوری می‌تواند در سطوح مختلف رخ دهد. سازمان‌های بزرگ به شدت در ایجاد مدل‌های پایه قدرتمند سرمایه‌گذاری می‌کنند، در حالی که یک جامعه گسترده‌تر از این دارایی‌ها برای کاوش برنامه‌های کاربردی جدید، انجام تحقیقات و توسعه راه‌حل‌های تخصصی بسیار اقتصادی‌تر استفاده می‌کند. این رابطه همزیستی باعث پیشرفت سریع و دموکراتیک شدن در این زمینه می‌شود.

به چالش کشیدن پارادایم ‘بزرگتر بهتر است’

داستان‌های موفقیت‌آمیز ناشی از پروژه‌هایی مانند TinyZero و روند گسترده‌تر تنظیم دقیق مؤثر و کم‌هزینه، چالشی قابل توجه را برای باور دیرینه صنعت مبنی بر اینکه پیشرفت در هوش مصنوعی صرفاً تابعی از مقیاس است - داده‌های بیشتر، پارامترهای بیشتر، قدرت محاسباتی بیشتر - ایجاد می‌کنند.

یکی از عمیق‌ترین پیامدها، همانطور که توسط Nina Singer برجسته شد، این است که کیفیت داده‌ها و آموزش ویژه وظیفه ممکن است اغلب حیاتی‌تر از اندازه محض مدل باشد. آزمایش TinyZero نشان داد که حتی یک مدل نسبتاً کوچک (۳ میلیارد پارامتر) می‌تواند رفتارهای پیچیده‌ای مانند خود-اصلاحی و بهبود تکراری را هنگامی که به طور مؤثر بر روی یک وظیفه به خوبی تعریف شده آموزش داده شود، یاد بگیرد.

  • بازده کاهشی در مقیاس؟: این یافته مستقیماً این فرض را زیر سؤال می‌برد که فقط مدل‌های عظیمی مانند سری GPT شرکت OpenAI یا Claude شرکت Anthropic، با صدها میلیارد یا تریلیون‌ها پارامتر خود، قادر به چنین یادگیری پیچیده‌ای هستند. Singer پیشنهاد کرد، ‘این پروژه نشان می‌دهد که ما ممکن است قبلاً از آستانه‌ای عبور کرده باشیم که در آن پارامترهای اضافی بازده کاهشی را ارائه می‌دهند - حداقل برای وظایف خاص.’ در حالی که مدل‌های بزرگتر ممکن است مزایایی در کلیت و گستردگی دانش حفظ کنند، برای برنامه‌های کاربردی خاص، مدل‌های فوق مقیاس ممکن است بیش از حد نیاز باشند، هم از نظر هزینه و هم از نظر نیازهای محاسباتی.
  • تغییر به سمت کارایی و ویژگی: چشم‌انداز هوش مصنوعی ممکن است در حال تجربه یک تغییر ظریف اما قابل توجه باشد. به جای تمرکز انحصاری بر ساخت مدل‌های بنیادی بزرگتر، توجه فزاینده‌ای به کارایی، دسترسی و هوش هدفمند معطوف می‌شود. ایجاد مدل‌های کوچکتر و بسیار بهینه شده برای حوزه‌ها یا وظایف خاص، به عنوان یک جایگزین قابل دوام و از نظر اقتصادی جذاب ثابت می‌شود.
  • فشار بر مدل‌های بسته: قابلیت رو به رشد و در دسترس بودن مدل‌های با وزن باز و تکنیک‌های تنظیم دقیق کم‌هزینه، فشار رقابتی را بر شرکت‌هایی وارد می‌کند که عمدتاً قابلیت‌های هوش مصنوعی خود را از طریق APIهای (رابط‌های برنامه‌نویسی کاربردی) محدود ارائه می‌دهند. همانطور که Singer اشاره کرد، شرکت‌هایی مانند OpenAI و Anthropic ممکن است نیاز داشته باشند به طور فزاینده‌ای ارزش پیشنهادی اکوسیستم‌های بسته خود را توجیه کنند، به ویژه ‘همانطور که جایگزین‌های باز شروع به تطابق یا فراتر رفتن از قابلیت‌های آنها در حوزه‌های خاص می‌کنند.’

این لزوماً به معنای پایان مدل‌های بنیادی بزرگ نیست، که احتمالاً همچنان به عنوان نقاط شروع حیاتی عمل خواهند کرد. با این حال، این نشان‌دهنده آینده‌ای است که در آن اکوسیستم هوش مصنوعی بسیار متنوع‌تر است و ترکیبی از مدل‌های عمومی عظیم و تکثیر مدل‌های کوچکتر، تخصصی و بسیار کارآمد متناسب با نیازهای خاص را شامل می‌شود.

موج دموکراتیک شدن: هوش مصنوعی برای افراد بیشتر؟

تلاقی محاسبات ابری قابل دسترس، ابزارهای قدرتمند متن‌باز و اثربخشی اثبات شده مدل‌های کوچکتر و تنظیم دقیق، موجی از دموکراتیک شدن را در سراسر چشم‌انداز هوش مصنوعی تغذیه می‌کند. آنچه زمانی حوزه انحصاری آزمایشگاه‌های تحقیقاتی نخبه و شرکت‌های فناوری با بودجه‌های میلیارد دلاری بود، به طور فزاینده‌ای برای طیف وسیع‌تری از بازیگران قابل دسترس می‌شود.

افراد، محققان دانشگاهی، استارت‌آپ‌ها و شرکت‌های کوچکتر در می‌یابند که می‌توانند به طور معناداری با مفاهیم و توسعه پیشرفته هوش مصنوعی درگیر شوند بدون اینکه به سرمایه‌گذاری‌های زیرساختی بازدارنده نیاز داشته باشند.

  • کاهش موانع ورود: توانایی تنظیم دقیق یک مدل توانا با صدها یا حتی ده‌ها دلار، با تکیه بر بنیادهای با وزن باز، به طور چشمگیری مانع ورود برای آزمایش و توسعه برنامه‌های کاربردی را کاهش می‌دهد.
  • پرورش نوآوری: این دسترسی، استخر وسیع‌تری از استعدادها را تشویق می‌کند تا به این حوزه کمک کنند. محققان می‌توانند ایده‌های بدیع را به راحتی آزمایش کنند، کارآفرینان می‌توانند راه‌حل‌های هوش مصنوعی خاص را به طور اقتصادی‌تر توسعه دهند و علاقه‌مندان می‌توانند فناوری پیشرفته را از نزدیک کاوش کنند.
  • بهبود مبتنی بر جامعه: موفقیت تلاش‌های مبتنی بر جامعه در بهبود و تخصصی کردن مدل‌های با وزن باز، قدرت توسعه مشترک را نشان می‌دهد. این هوش جمعی گاهی اوقات می‌تواند از چرخه‌های تکرار در محیط‌های شرکتی بسته‌تر برای وظایف خاص پیشی بگیرد.
  • آینده‌ای ترکیبی؟: مسیر احتمالی به سمت یک اکوسیستم ترکیبی اشاره دارد. مدل‌های بنیادی غول‌پیکر به پیش بردن مرزهای مطلق قابلیت هوش مصنوعی ادامه خواهند داد و به عنوان پلتفرم عمل می‌کنند. همزمان، یک اکوسیستم پر جنب و جوش از مدل‌های تخصصی، که توسط یک جامعه متنوع تنظیم دقیق شده‌اند، نوآوری را در برنامه‌های کاربردی و صنایع خاص هدایت خواهد کرد.

این دموکراتیک شدن نیاز به سرمایه‌گذاری قابل توجه، به ویژه در ایجاد نسل بعدی مدل‌های بنیادی را از بین نمی‌برد. با این حال، اساساً پویایی نوآوری و رقابت را تغییر می‌دهد. توانایی دستیابی به نتایج قابل توجه با بودجه کم، همانطور که توسط پروژه TinyZero و جنبش گسترده‌تر تنظیم دقیق نشان داده شده است، نشان‌دهنده تغییر به سمت آینده‌ای قابل دسترس‌تر، کارآمدتر و بالقوه متنوع‌تر برای توسعه هوش مصنوعی است. ‘لحظه آها’ی استدلال دیگر صرفاً به قلعه‌های سیلیکونی محدود نمی‌شود؛ بلکه در حال تبدیل شدن به تجربه‌ای قابل دسترس با هزینه‌ای کمتر از یک شام است که خلاقیت را برمی‌انگیزد و مرزهای ممکن را از پایه به بالا می‌برد.