در عرصه پرمخاطره هوش مصنوعی، جایی که غولها با هم برخورد میکنند و پیشرفتها چشمانداز را گویی یک شبه تغییر میدهند، یک رقیب نسبتاً جدید از چین توجه جهانی را به خود جلب کرده است. DeepSeek، یک استارتاپ هوش مصنوعی که ریشههای آن تنها به سال ۲۰۲۳ بازمیگردد، به سرعت از گمنامی به خط مقدم بحثها حرکت کرده است، که با نمایشهای فناورانه چشمگیر و هیاهوی مداوم پیرامون جهش بالقوه بعدیاش تقویت شده است. در حالی که جهان منتظر جانشین مدلهای تحسینشده قبلی آن است، DeepSeek، با همکاری ذهنهای دانشگاهی، بیسروصدا از یک تکنیک پیچیده جدید با هدف مقابله با یکی از پایدارترین چالشهای هوش مصنوعی رونمایی کرده است: استدلال پیشرفته.
چالش پیچیده شناخت هوش مصنوعی
نسل فعلی مدلهای زبان بزرگ (LLMs) جهان را با توانایی خود در تولید متن شبیه انسان، ترجمه زبانها و حتی نوشتن کد شگفتزده کرده است. با این حال، حرکت فراتر از تشخیص الگو و تولید متن احتمالی به سمت استدلال واقعی - توانایی پردازش منطقی اطلاعات، استنتاج و حل مسائل پیچیده - همچنان یک مانع مهم است. این تفاوت بین هوش مصنوعی است که میتواند یک صفحه شطرنج را توصیف کند و هوش مصنوعی که میتواند مانند یک استاد بزرگ استراتژی بچیند. دستیابی به این سطح عمیقتر از توانایی شناختی، جام مقدس بسیاری از آزمایشگاههای تحقیقاتی است که نویدبخش سیستمهای هوش مصنوعی است که نه تنها گویا، بلکه شرکای واقعاً هوشمند و قابل اعتماد در کارهای پیچیده هستند. این پیگیری نیازمند رویکردهای نوآورانهای است که فراتر از صرفاً افزایش مقیاس مدل یا دادههای آموزشی است. این امر مستلزم روششناسیهای جدیدی برای آموزش چگونگی تفکر به این ذهنهای دیجیتال پیچیده است، نه فقط چه گفتن.
ایجاد مسیری جدید: همافزایی GRM و نقد اصولی
در این پسزمینه است که DeepSeek، با همکاری محققان دانشگاه معتبر Tsinghua، یک روششناسی بالقوه پیشگامانه را معرفی کرده است. رویکرد آنها، که در مقالهای منتشر شده در مخزن علمی arXiv شرح داده شده است، یک گلوله نقرهای واحد نیست، بلکه ترکیبی دقیق از دو تکنیک متمایز است: Generative Reward Modelling (GRM) و Self-Principled Critique Tuning.
بیایید این استراتژی دوگانه را باز کنیم:
Generative Reward Modelling (GRM): در هسته خود، مدلسازی پاداش در هوش مصنوعی با هدف هدایت رفتار یک مدل به سمت نتایجی است که انسانها مطلوب یا صحیح میدانند. به طور سنتی، این ممکن است شامل رتبهبندی پاسخهای مختلف هوش مصنوعی توسط انسانها باشد، که یک مجموعه داده ترجیحی ایجاد میکند که مدل از آن یاد میگیرد. به نظر میرسد GRM نمایانگر تکامل این مفهوم است، که احتمالاً شامل روشهایی است که در آن سیگنالهای پاداش خود به روشی پویاتر یا پیچیدهتر تولید یا اصلاح میشوند، و به طور بالقوه وابستگی به حاشیهنویسی پرزحمت انسانی را کاهش میدهد در حالی که همچنان به طور مؤثر ترجیحات ظریف انسانی را ثبت میکند. هدف این است که به LLM درک بهتری از آنچه یک پاسخ ‘خوب’ را تشکیل میدهد، القا کند، نه فقط یک پاسخ از نظر گرامری صحیح یا از نظر آماری محتمل. این در مورد همسو کردن قطبنمای داخلی هوش مصنوعی با ارزشها و اهداف انسانی است.
Self-Principled Critique Tuning: این مؤلفه یک مکانیسم جذاب برای خودسازی را پیشنهاد میکند. به جای تکیه صرف بر بازخورد خارجی (تولید شده توسط انسان یا مدل)، LLM به طور بالقوه آموزش داده میشود تا فرآیندهای استدلال خود را بر اساس مجموعهای از اصول یا قوانین از پیش تعریف شده ارزیابی کند. این میتواند شامل یادگیری مدل برای شناسایی مغالطههای منطقی، ناسازگاریها یا انحرافات از الگوهای استدلال مطلوب در خروجیهای تولید شده خود باشد. این شبیه به آموزش نه تنها پاسخها به هوش مصنوعی، بلکه اصول اساسی منطق و تفکر انتقادی است که به آن اجازه میدهد پاسخهای خود را به طور مستقل اصلاح کند. این حلقه نقد داخلی میتواند به طور قابل توجهی استحکام و قابلیت اطمینان قابلیتهای استدلال مدل را افزایش دهد.
محققان ادعا میکنند که مدلهایی که این تکنیک ترکیبی را در خود جای دادهاند، که DeepSeek-GRM نامیده میشود، موفقیت قابل توجهی از خود نشان دادهاند. طبق مقاله آنها، این مدلها به سطوح عملکردی دست یافتهاند که با مدلهای پاداش عمومی قدرتمند موجود ‘رقابتی’ است. این ادعا، در صورت تأیید از طریق آزمایش و کاربرد گستردهتر، گام مهمی رو به جلو در توسعه LLMهایی را نشان میدهد که میتوانند به طور مؤثرتر و کارآمدتر استدلال کنند و هنگام مواجهه با پرسوجوهای متنوع کاربر، نتایج با کیفیت بالاتری را سریعتر ارائه دهند. این نشاندهنده یک مسیر بالقوه به سمت سیستمهای هوش مصنوعی است که نه تنها قدرتمند هستند، بلکه با انتظارات انسانی برای انسجام منطقی و دقت نیز همسوتر هستند.
حسابگری استراتژیک باز بودن
با افزودن لایهای دیگر به استراتژی خود، محققان DeepSeek و Tsinghua قصد خود را برای منبعباز کردن مدلهای DeepSeek-GRM اعلام کردند. در حالی که یک جدول زمانی مشخص فاش نشده است، این حرکت با یک روند رو به رشد، هرچند پیچیده، در صنعت هوش مصنوعی همسو است.
چرا شرکتی که فناوری بالقوه پیشرفتهای را توسعه میدهد، تصمیم به اشتراکگذاری آن میگیرد؟ انگیزهها میتوانند چندوجهی باشند:
- تعامل و بازخورد جامعه: انتشار مدلها در حوزه منبعباز، بررسی، آزمایش و بهبود را از سوی جامعه جهانی توسعهدهندگان دعوت میکند. این میتواند توسعه را تسریع کند، نقصها را آشکار سازد و نوآوری را بسیار فراتر از ظرفیت یک سازمان واحد پرورش دهد.
- ایجاد اعتماد و شفافیت: در زمینهای که گاهی با عدم شفافیت مشخص میشود، منبعباز کردن میتواند حسن نیت ایجاد کند و یک شرکت را به عنوان یک بازیگر مشارکتی متعهد به پیشبرد جمعی فناوری تثبیت کند. خود DeepSeek قبلاً هنگام منبعباز کردن مخازن کد در اوایل سال، بر تعهد به ‘پیشرفت صادقانه با شفافیت کامل’ تأکید کرده بود.
- تعیین استانداردها و هدایت پذیرش: در دسترس قرار دادن رایگان یک مدل یا تکنیک قدرتمند میتواند پذیرش گسترده آن را تشویق کند، به طور بالقوه آن را به عنوان یک استاندارد بالفعل تثبیت کند و اکوسیستمی را پیرامون فناوری شرکت ایجاد کند.
- جذب استعداد: مشارکتهای منبعباز اغلب به عنوان یک آهنربای قدرتمند برای جذب استعدادهای برتر هوش مصنوعی عمل میکنند، که اغلب به محیطهایی که تشویق به باز بودن و همکاری میکنند، جذب میشوند.
- پویایی رقابتی: در برخی موارد، منبعباز کردن میتواند یک حرکت استراتژیک برای مقابله با تسلط مدلهای بسته و اختصاصی ارائه شده توسط رقبای بزرگتر باشد، که زمین بازی را هموار میکند یا لایههای خاصی از پشته فناوری را کالایی میکند.
قصد اعلام شده DeepSeek برای منبعباز کردن GRM، به دنبال انتشار قبلی مخازن کد، نشاندهنده یک استراتژی سنجیده است که جنبههای خاصی از باز بودن را در بر میگیرد، حتی در حالی که درجهای از اختیار شرکتی را در مورد عرضه محصولات آینده حفظ میکند. این شفافیت حسابشده میتواند در ایجاد شتاب و اعتبار در چشمانداز بسیار رقابتی جهانی هوش مصنوعی حیاتی باشد.
پژواک موفقیت و زمزمههای آینده
مقاله دانشگاهی که جزئیات روششناسی استدلال جدید را شرح میدهد، در میان حس قابل لمس انتظار پیرامون مسیر آینده DeepSeek منتشر میشود. این شرکت همچنان بر موج شناختی سوار است که توسط انتشارات قبلیاش ایجاد شده است:
- DeepSeek-V3: مدل پایه آن توجه قابل توجهی را به خود جلب کرد، به ویژه پس از ارتقاء در مارس ۲۰۲۴ (DeepSeek-V3-0324) که استدلال پیشرفته، قابلیتهای بهبود یافته توسعه وب و مهارتهای نوشتاری چینی ماهرتر را به رخ میکشید.
- DeepSeek-R1: این مدل متمرکز بر استدلال، امواج قابل توجهی ایجاد کرد و جامعه فناوری جهانی را با معیارهای عملکرد چشمگیر خود، به ویژه نسبت به هزینه محاسباتیاش، تکان داد. این نشان داد که قابلیتهای استدلال سطح بالا به طور بالقوه میتوانند به طور کارآمدتر به دست آیند و رهبران مستقر را به چالش بکشند.
این سابقه به ناچار به گمانهزنیها در مورد تکرار بعدی، احتمالاً DeepSeek-R2، دامن میزند. گزارشی از رویترز در اواخر بهار حاکی از آن بود که انتشار R2 میتواند قریبالوقوع باشد، احتمالاً در اوایل ژوئن ۲۰۲۴، که نشاندهنده جاهطلبی در شرکت برای سرمایهگذاری سریع بر روی مشخصات رو به رشد خود است. با این حال، خود DeepSeek از طریق کانالهای رسمی خود سکوت قابل توجهی در این مورد حفظ کرده است. جالب اینجاست که رسانههای چینی گزارش دادند که یک حساب خدمات مشتری مرتبط با این شرکت، جدول زمانی انتشار قریبالوقوع را در یک چت گروهی خصوصی با مشتریان تجاری رد کرده است.
این کمحرفی مشخصه سبک عملیاتی DeepSeek تا کنون بوده است. علیرغم قرار گرفتن در کانون توجه جهانی، این استارتاپ مستقر در هانگژو، که توسط کارآفرین Liang Wenfeng تأسیس شده است، تا حد زیادی از اعلامیههای عمومی و هیاهوی بازاریابی اجتناب کرده است. به نظر میرسد تمرکز آن به شدت بر تحقیق و توسعه معطوف است و اجازه میدهد عملکرد مدلهایش خود گویای مطلب باشد. این رویکرد ‘نشان بده، نگو’، در حالی که شاید برای ناظران بازار که مشتاق نقشههای راه قطعی هستند، ناامیدکننده باشد، بر تعهد به پیشرفت فناورانه اساسی بر هیاهوی زودهنگام تأکید میکند.
قدرت پشت پرده: رهبری بصیر و توان مالی
درک صعود سریع DeepSeek مستلزم نگاهی به بنیانگذار و پشتوانه مالی آن است. Liang Wenfeng، کارآفرین ۴۰ سالهای که پشت این سرمایهگذاری قرار دارد، نه تنها یک بصیر هوش مصنوعی بلکه بنیانگذار شرکت مادر DeepSeek، High-Flyer Quant نیز هست.
این ارتباط محوری است. High-Flyer Quant یک صندوق پوشش ریسک موفق است و منابع مالی قابل توجه آن سوخت حیاتی را برای تلاشهای تحقیق و توسعه محاسباتی فشرده DeepSeek فراهم میکند. آموزش LLMهای پیشرفته نیازمند قدرت محاسباتی عظیم و مجموعه دادههای گسترده است که مانع مالی قابل توجهی برای ورود به این عرصه محسوب میشود. حمایت High-Flyer Quant به طور مؤثر جیبهای پر پولی را که برای رقابت فناورانه لازم است، در اختیار DeepSeek قرار میدهد و بودجه سختافزار گرانقیمت، جذب استعداد و آزمایشهای گسترده مورد نیاز برای پیش بردن مرزهای هوش مصنوعی را تأمین میکند.
همچنین یک همافزایی بالقوه بین دنیای مالی کمی و هوش مصنوعی وجود دارد. هر دو حوزه به شدت به پردازش مقادیر عظیمی از دادهها، شناسایی الگوهای پیچیده و ساخت مدلهای پیشبینی پیچیده متکی هستند. تخصصی که در High-Flyer Quant در مدیریت دادهها و الگوریتمهای مالی به دست آمده است، ممکن است به خوبی گردهافشانی متقابل ارزشمندی را برای تلاشهای هوش مصنوعی DeepSeek فراهم کند.
خود Liang Wenfeng صرفاً یک سرمایهگذار نیست بلکه از نظر فنی نیز مشارکت دارد. در فوریه ۲۰۲۴، او در تألیف یک مطالعه فنی با بررسی ‘native sparse attention’، تکنیکی با هدف کارآمدتر کردن LLMها هنگام پردازش زمینههای بسیار بزرگ یا مقادیر زیادی داده - یکی دیگر از حوزههای حیاتی برای پیشبرد قابلیتهای هوش مصنوعی - همکاری کرد. این ترکیب از رهبری کارآفرینانه، بینش فنی و پشتوانه مالی قابل توجه، ترکیب قدرتمندی را تشکیل میدهد که پیشرفت DeepSeek را هدایت میکند.
پیمایش در چشمانداز جهانی هوش مصنوعی: فناوری، جاهطلبی و ژئوپلیتیک
ظهور و پیشرفتهای فناورانه DeepSeek را نمیتوان به صورت مجزا مشاهده کرد. آنها در بستر گستردهتر رقابت شدید جهانی در هوش مصنوعی، به ویژه بین ایالات متحده و چین، رخ میدهند. هر دو کشور برتری هوش مصنوعی را برای رشد اقتصادی آینده و امنیت ملی حیاتی میدانند، که منجر به سرمایهگذاریهای عظیم و ابتکارات استراتژیک شده است.
در این محیط، شرکتهای برجستهای مانند DeepSeek به ناچار توجه ملی را به خود جلب میکنند. اهمیت این موضوع در اواخر فوریه ۲۰۲۴، زمانی که Liang Wenfeng در سمپوزیومی در پکن با تمرکز بر کارآفرینان فناوری، به میزبانی شخص رئیس جمهور چین، Xi Jinping، شرکت کرد، مورد تأکید قرار گرفت. گنجاندن بنیانگذار DeepSeek در چنین گردهمایی سطح بالایی، نشاندهنده شناخت در بالاترین سطوح است و این استارتاپ را به عنوان یک پرچمدار بالقوه برای جاهطلبیهای هوش مصنوعی چین معرفی میکند.
DeepSeek به طور فزایندهای، چه در داخل و چه در سطح بینالمللی، به عنوان شاهدی بر انعطافپذیری فناورانه چین و ظرفیت آن برای نوآوری در لبه پیشرو هوش مصنوعی، علیرغم تلاشهای مداوم ایالات متحده برای محدود کردن دسترسی چین به فناوری نیمههادی پیشرفته حیاتی برای توسعه هوش مصنوعی، مورد ستایش قرار میگیرد. این کانون توجه ملی هم فرصتها و هم فشارها را به همراه دارد. میتواند منابع و حمایت بیشتری را باز کند اما همچنین به طور بالقوه شرکت را در معرض بررسی ژئوپلیتیکی بیشتری قرار دهد.
همانطور که DeepSeek به کار خود ادامه میدهد، روشهای استدلال مانند GRM و نقد خود-اصولی را اصلاح میکند، به طور بالقوه مدل نسل بعدی R2 خود را آماده میکند و استراتژی باز بودن حسابشده خود را هدایت میکند، این کار را نه تنها به عنوان یک شرکت فناوری، بلکه به عنوان یک بازیگر مهم در یک صفحه شطرنج پیچیده جهانی انجام میدهد. سفر آن یک مطالعه موردی قانعکننده در جاهطلبی، نوآوری، تأمین مالی استراتژیک و تعامل پیچیده بین پیشرفت فناورانه و منافع ملی در رقابت فناورانه تعیینکننده زمان ما را نشان میدهد. تمرکز آرام بر تحقیق و توسعه، همراه با انتشار دورهای فناوری واقعاً چشمگیر، نشاندهنده یک استراتژی بلندمدت با هدف ایجاد رهبری پایدار در حوزه حیاتی استدلال هوش مصنوعی است.