Tencent از Hunyuan-T1 رونمایی کرد: استدلال AI با Mamba

چشم‌انداز در حال تحول بهینه‌سازی مدل‌های زبان بزرگ

عرصه هوش مصنوعی شاهد یک تغییر پارادایم است، به ویژه در مراحل پالایش پس از آموزش اولیه مدل‌های زبان بزرگ (LLMs). یادگیری تقویتی (RL)، یک تکنیک پیچیده که در آن مدل‌ها از طریق آزمون و خطا با هدایت پاداش‌ها یاد می‌گیرند، به عنوان نیرویی قدرتمند ظاهر شده است که باعث افزایش قابل توجه عملکرد می‌شود. این رویکرد از کنجکاوی آکادمیک به یک استراتژی بنیادی برای توسعه‌دهندگان پیشرو هوش مصنوعی تبدیل شده است. قابلیت‌های چشمگیر نشان داده شده توسط مدل‌هایی مانند سری O OpenAI و DeepSeek R1 قابل توجه، شواهد قانع‌کننده‌ای هستند که بر عملکرد محوری یادگیری تقویتی در بهبود خروجی‌های مدل، بهبود مهارت‌های حل مسئله و همسو کردن رفتار هوش مصنوعی با انتظارات و ترجیحات انسانی تأکید می‌کنند. این مرحله پس از آموزش دیگر فقط مربوط به تنظیم دقیق نیست؛ بلکه در مورد تقویت اساسی توانایی شناختی مدل است.

معرفی Hunyuan-T1: جهشی در قابلیت‌های تفکر عمیق

در پس‌زمینه این پیشرفت سریع، تیم Hunyuan در Tencent نقطه عطف مهمی را رقم زده است. اوایل امسال، در اواسط فوریه، این تیم نگاهی اجمالی به پیشرفت خود با Hunyuan T1-Preview (Hunyuan-Thinker-1-Preview) ارائه داد. این مدل استدلال اولیه که در برنامه Tencent Yuanbao ادغام شده و بر اساس پایه Hunyuan در مقیاس متوسط ساخته شده بود، به کاربران طعم قابلیت‌های تحلیلی سریع و عمیق را چشاند.

با تکیه بر آن پایه، اکنون مفتخریم که عرضه رسمی Hunyuan-T1 را اعلام کنیم، نسخه کاملاً تحقق یافته مدل تفکر عمیق در خانواده مدل بزرگ Hunyuan. این صرفاً یک به‌روزرسانی تدریجی نیست؛ بلکه نشان‌دهنده یک تکامل قابل توجه است. Hunyuan-T1 از پایه تفکر سریع TurboS استفاده می‌کند، یک معماری پیشگامانه که توسط Tencent در اوایل ماه مارس معرفی شد. آنچه TurboS را به طور خاص قابل توجه می‌کند، تمایز آن به عنوان اولین مدل بزرگ Hybrid-Transformer-Mamba Mixture of Experts (MoE) در مقیاس فوق‌العاده بزرگ در جهان است. این ساختار ترکیبی نوآورانه، نقاط قوت معماری‌های تثبیت‌شده Transformer را با کارایی و توانایی مدیریت توالی مدل فضای حالت جدیدتر Mamba ترکیب می‌کند. از طریق یک رژیم پس از آموزش گسترده و با طراحی دقیق، توانایی‌های استدلالی Hunyuan-T1 به طور چشمگیری تقویت شده و همسویی آن با ترجیحات ظریف انسانی به طور قابل توجهی بهبود یافته است. در مقایسه با نسخه پیش‌نمایش قبلی خود، Hunyuan-T1 رسمی بهبودهای قابل توجهی را در همه زمینه‌ها نشان می‌دهد و آن را به عنوان یک رقیب قدرتمند در میان مدل‌های بزرگ پیشرفته و با استدلال بالا در صنعت قرار می‌دهد.

مزایای معماری: قدرت TurboS و Mamba

انتخاب TurboS به عنوان بستر Hunyuan-T1 مزایای مشخصی را فراهم می‌کند، به ویژه هنگام پرداختن به وظایفی که نیازمند استدلال عمیق و چند مرحله‌ای هستند. یک گلوگاه حیاتی در بسیاری از مدل‌های زبان بزرگ هنگام کار با اسناد گسترده یا مکالمات طولانی به وجود می‌آید. اطلاعات ارائه شده در اوایل ممکن است با پردازش متن بعدی توسط مدل، رقیق یا کاملاً از بین برود، که منجر به چیزی می‌شود که به عنوان از دست دادن زمینه (context loss) شناخته می‌شود. علاوه بر این، ایجاد ارتباط بین نقاط جدا شده توسط بخش‌های بزرگی از متن - وابستگی اطلاعاتی از راه دور (long-distance information dependence) - یک چالش محاسباتی قابل توجه ایجاد می‌کند.

معماری زیربنایی Hunyuan-T1، که از TurboS به ارث رسیده است، مستقیماً با این محدودیت‌ها مقابله می‌کند. طراحی ذاتی آن، ضبط متن طولانی (long-text capture) قوی را در اولویت قرار می‌دهد و تضمین می‌کند که مدل درک محکم‌تری از کل ورودی حفظ می‌کند، در نتیجه از دست دادن زمینه را کاهش می‌دهد و روابط حیاتی را در توالی‌های طولانی با اطمینان بیشتری شناسایی می‌کند. این قابلیت برای وظایف استدلال پیچیده که اغلب نیاز به ترکیب اطلاعات پراکنده در یک مجموعه بزرگ متن دارند، بسیار مهم است.

محور اصلی این قابلیت پیشرفته، مولفه معماری Mamba است. Mamba نشان‌دهنده خروج از مکانیسم‌های صرفاً مبتنی بر توجه (attention-based) است که در بسیاری از مدل‌های Transformer غالب هستند. این مدل از رویکرد مدل فضای حالت (SSM) استفاده می‌کند که به طور خاص برای پردازش توالی‌های طولانی با کارایی قابل توجه بهینه شده است. مزایای کلیدی عبارتند از:

  • پیچیدگی زمانی خطی: برخلاف پیچیدگی درجه دوم مکانیسم‌های توجه استاندارد نسبت به طول توالی، Mamba به صورت خطی مقیاس‌پذیر است. این امر پردازش متون بسیار طولانی را بدون نیاز به منابع گزاف، از نظر محاسباتی امکان‌پذیر می‌سازد.
  • محاسبات کارآمد: طراحی Mamba امکان محاسبات موازی در طول آموزش و عملیات بازگشتی کارآمد در طول استنتاج را فراهم می‌کند. این به طور مستقیم به سرعت پردازش بالاتر تبدیل می‌شود.
  • مدیریت حالت انتخابی: مدل‌های Mamba می‌توانند به طور انتخابی اطلاعات را در حین پردازش یک توالی حفظ یا فراموش کنند، که رویکرد متمرکزتری را برای مدیریت زمینه تقلید می‌کند، که برای حفظ اطلاعات مرتبط در فواصل طولانی حیاتی است.

در نتیجه، TurboS و به تبع آن Hunyuan-T1، می‌توانند به طور موثر ورودی‌های طولانی را تجزیه و تحلیل کنند در حالی که منابع محاسباتی به طور قابل توجهی کمتری نسبت به مدل‌های Transformer سنتی با مقیاس مشابه مصرف می‌کنند. معیارهای داخلی نشان می‌دهد که تحت شرایط استقرار یکسان، Hunyuan-T1 به سرعت رمزگشایی دو برابر سریع‌تر نسبت به مدل‌های قابل مقایسه فاقد بهینه‌سازی Mamba دست می‌یابد، که یک عامل حیاتی برای برنامه‌های کاربردی دنیای واقعی است که به پاسخ‌های به موقع نیاز دارند.

بوته آزمایش پس از آموزش: شکل‌دهی توانایی استدلال با یادگیری تقویتی

انتقال از مدل پایه TurboS به Hunyuan-T1 بسیار توانمند، شامل یک مرحله عظیم و استراتژیک پس از آموزش بود. Tencent با درک نقش حیاتی تکنیک‌های یادگیری پیشرفته، ۹۶.۷ درصد از منابع محاسباتی اختصاص یافته برای این مرحله را به طور خاص به آموزش یادگیری تقویتی (RL) اختصاص داد. این سرمایه‌گذاری عظیم بر یک اولویت استراتژیک روشن تأکید می‌کند: ارتقاء توانایی‌های استدلال خالص مدل و همسو کردن دقیق خروجی‌های آن با قضاوت‌ها و ترجیحات پیچیده انسانی.

این صرفاً به معنای تغذیه مدل با داده‌های بیشتر نبود؛ بلکه آموزش چگونگی تفکر مؤثرتر به آن بود. اهداف اصلی این مرحله فشرده RL دوگانه بود:

  1. تقویت استدلال خالص: برای پیش بردن مرزهای توانایی مدل در انجام استنتاج منطقی، محاسبات ریاضی، استنتاج علی، و حل مسائل پیچیده در حوزه‌های مختلف.
  2. بهینه‌سازی همسویی انسانی: برای اطمینان از اینکه پاسخ‌های مدل نه تنها دقیق، بلکه مفید، بی‌ضرر، صادقانه و ظریف به گونه‌ای باشد که با کاربران انسانی طنین‌انداز شود. این شامل درک قصد ضمنی، تولید خروجی‌های منسجم و متناسب با زمینه، و پایبندی به دستورالعمل‌های ایمنی است.

برای تأمین انرژی این فرآیند آموزشی طاقت‌فرسا، یک مجموعه داده وسیع و متنوع با دقت گردآوری شد. این مجموعه شامل مسائل علمی و استدلالی جهان بود که طیف گسترده‌ای از رشته‌ها را در بر می‌گرفت:

  • ریاضیات: از حساب و جبر پایه گرفته تا حساب دیفرانسیل و انتگرال، نظریه اعداد و مسائل سطح پیشرفته مسابقات.
  • استدلال منطقی: معماها، وظایف استدلال قیاسی، چالش‌های تفکر انتقادی و مسائل منطق صوری.
  • علوم: سوالات و مسائل مربوط به فیزیک، شیمی، زیست‌شناسی و سایر زمینه‌های علمی که اغلب نیازمند استدلال چند مرحله‌ای و کاربرد اصول هستند.
  • کدنویسی: طراحی الگوریتم، تولید کد، اشکال‌زدایی و درک منطق برنامه‌نویسی پیچیده در زبان‌های مختلف.

نکته مهم این است که این داده‌ها با بازخورد واقعی و معتبر (ground-truth real feedback) ترکیب شدند. این حلقه بازخورد برای یادگیری تقویتی ضروری است و سیگنالی را که مدل برای درک اینکه کدام مسیرهای استدلالی به نتایج صحیح یا ترجیحی منجر می‌شوند، نیاز دارد، فراهم می‌کند. این پایه محکم تضمین می‌کند که Hunyuan-T1 هنگام مواجهه با طیف گسترده‌ای از وظایف استدلالی چالش‌برانگیز که در سناریوهای دنیای واقعی با آن‌ها روبرو می‌شود، مهارت قابل اثباتی را توسعه دهد.

روش‌های آموزشی پیچیده

مقیاس عظیم سرمایه‌گذاری محاسباتی و جمع‌آوری داده‌ها با استراتژی‌های آموزشی پیچیده‌ای همراه بود که برای به حداکثر رساندن کارایی یادگیری و پایداری مدل طراحی شده بودند.

  • یادگیری برنامه‌ریزی شده (Curriculum Learning): به جای اینکه مدل بلافاصله با پیچیده‌ترین مسائل غرق شود، رویکرد یادگیری برنامه‌ریزی شده اتخاذ شد. آموزش با وظایف ساده‌تر آغاز شد و به تدریج مسائل دشوارتر معرفی شدند. همزمان، طول زمینه مؤثر مدل به تدریج گسترش یافت. این رویکرد مرحله‌ای به مدل اجازه می‌دهد تا مهارت‌های استدلال بنیادی را قبل از پرداختن به چالش‌های پیشرفته‌تر ایجاد کند و یادگیری پایدارتر و کارآمدتر را ترویج دهد. همچنین مدل را آموزش می‌دهد تا از ظرفیت توکن خود به طور عاقلانه برای استدلال مؤثر استفاده کند و نوعی کارایی محاسباتی را در فرآیند تفکر خود توسعه دهد.
  • تکنیک‌های پیشرفته یادگیری تقویتی: برای اطمینان از پیشرفت قوی و مداوم در طول آموزش طولانی مدت RL، از استراتژی‌های کلاسیک اما قدرتمند استفاده شد. تکنیک‌هایی مانند بازپخش داده‌ها (data replay - استفاده مجدد از تجربیات گذشته برای تقویت یادگیری) و بازنشانی دوره‌ای خط‌مشی (periodic policy resetting - بازگشت گاه به گاه به حالت‌های پایدار قبلی مدل برای جلوگیری از واگرایی) ادغام شدند. این روش‌ها بسیار مؤثر بودند و پایداری بلندمدت فرآیند آموزش مدل را به طور قابل توجهی بیش از ۵۰٪ افزایش دادند و مسائلی مانند فراموشی فاجعه‌بار یا فروپاشی خط‌مشی را که می‌تواند گریبان‌گیر تلاش‌های بزرگ مقیاس RL شود، کاهش دادند.
  • سیستم پاداش یکپارچه: همسو کردن مدل با ترجیحات انسانی یک کار پیچیده است. Hunyuan-T1 از یک سیستم پاداش یکپارچه (unified reward system) جدید استفاده کرد. این سیستم بازخورد از دو منبع را ادغام می‌کرد:
    • پاداش‌دهی خودکار (Self-Rewarding): نسخه قبلی مدل T1-preview به عنوان یک داور خودکار برای ارزیابی و امتیازدهی جامع خروجی‌های مدل تحت آموزش به کار گرفته شد. این امکان تولید بازخورد سریع و در مقیاس بزرگ بر اساس معیارهای از پیش تعریف شده را فراهم می‌کند.
    • مدل پاداش (Reward Model): یک مدل جداگانه که به طور خاص برای پیش‌بینی ترجیحات انسانی آموزش دیده بود، لایه دیگری از راهنمایی را فراهم می‌کرد و جنبه‌های ظریف‌تر کیفیت، مفید بودن و ایمنی را ثبت می‌کرد.
      این مکانیسم بازخورد ترکیبی، مدل را از طریق فرآیندی از خود-بهبودی هدایت می‌کرد و خروجی‌هایی را تشویق می‌کرد که با جزئیات محتوای غنی‌تر، ارائه اطلاعات کارآمدتر و همسویی کلی بهتر با ویژگی‌های پاسخ مطلوب مشخص می‌شدند.

معیارهای عملکرد: ایستادن در میان نخبگان

معیار نهایی یک مدل زبان بزرگ در عملکرد آن نهفته است. Hunyuan-T1 به طور دقیق در برابر مجموعه‌ای از معیارهای عمومی و مجموعه داده‌های داخلی ارزیابی شده است و قابلیت‌هایی را نشان می‌دهد که آن را قاطعانه در ردیف بالای مدل‌های هوش مصنوعی معاصر قرار می‌دهد.

هنگام مقایسه با DeepSeek R1، یکی دیگر از مدل‌های بسیار معتبر متمرکز بر استدلال، Hunyuan-T1 نتایج قابل مقایسه یا کمی برتر را در چندین معیار عمومی کلیدی که دانش و استدلال را در زبان‌ها و حوزه‌های مختلف ارزیابی می‌کنند، به دست می‌آورد:

  • MMLU-pro: یک معیار چالش‌برانگیز که برای ارزیابی دانش و استدلال جامع در موضوعات مختلف حرفه‌ای و دانشگاهی طراحی شده است.
  • CEval: یک مجموعه ارزیابی چند رشته‌ای به زبان چینی.
  • AIME: تمرکز بر مسائل ریاضی سطح مسابقات که نیازمند استدلال پیچیده هستند.
  • Zebra Logic: معیاری که به طور خاص معماهای استنتاج منطقی پیچیده را هدف قرار می‌دهد.

فراتر از این آزمون‌های خاص، مجموعه داده‌های ارزیابی انسانی داخلی بینش بیشتری را ارائه می‌دهند. در حالی که در بسیاری از زمینه‌ها عملکردی همتراز با R1 دارد، Hunyuan-T1 برتری جزئی در وظایف مربوط به موارد زیر نشان می‌دهد:

  • پیروی از دستورالعمل‌های فرهنگی و خلاقانه: تولید قالب‌های متن خلاقانه، تطبیق با درخواست‌های سبکی خاص با ظرایف فرهنگی.
  • خلاصه‌سازی متن: تولید خلاصه‌های مختصر و دقیق از اسناد طولانی ضمن حفظ اطلاعات کلیدی.
  • قابلیت‌های عامل (Agent Capabilities): نشان دادن مهارت در وظایفی که نیاز به برنامه‌ریزی، استفاده از ابزار و تعامل با سیستم‌های خارجی دارند.

با نگاهی به معیارهای ارزیابی جامع که برای سنجش قابلیت کلی طراحی شده‌اند، Hunyuan-T1 جایگاه خود را در میان مدل‌های استنتاج نخبه تثبیت می‌کند.

  • در MMLU-PRO، T1 به امتیاز قابل توجه 87.2 دست یافت که در زمان ارزیابی، تنها پس از مدل O1 OpenAI قرار داشت. این معیار 14 حوزه، از جمله علوم انسانی، علوم اجتماعی و موضوعات STEM را در بر می‌گیرد و هم یادآوری دانش گسترده و هم درک مطلب را آزمایش می‌کند.
  • عملکرد در GPQA-diamond نیز قابل توجه است. این معیار بر دانش سطح متخصص و استدلال علمی پیچیده تمرکز دارد و شامل مسائل سطح دکترا عمدتاً در فیزیک، شیمی و زیست‌شناسی است. Hunyuan-T1 به امتیاز 69.3 دست یافت که نشان‌دهنده قابلیت‌های قوی در رسیدگی به سوالات علمی بسیار تخصصی و پیچیده است.

برتری در علوم، مهندسی و همسویی

ارزیابی‌های بیشتر به حوزه‌های خاصی که نیازمند توانایی‌های استدلال قوی هستند، پرداختند:

  • کدنویسی: در ارزیابی کد LiveCodeBench، که حل مسئله عملی کدنویسی را آزمایش می‌کند، T1 به امتیاز 64.9 رسید که نشان‌دهنده منطق برنامه‌نویسی و مهارت‌های تولید کد قوی است.
  • ریاضیات: این مدل قدرت استثنایی در ریاضیات نشان می‌دهد. عملکرد آن در MATH-500، مجموعه داده‌ای از مسائل چالش‌برانگیز ریاضی، امتیاز برجسته 96.2 را به همراه داشت. این نتیجه آن را در رقابت تنگاتنگ با DeepSeek R1 قرار می‌دهد و بر توانایی عمیق Hunyuan-T1 در مقابله با استدلال ریاضی پیچیده تأکید می‌کند.
  • همسویی و پیروی از دستورالعمل: فراتر از حل مسئله صرف، T1 سازگاری قوی در وظایف مختلف همسویی نشان می‌دهد. این مدل در سناریوهای پیروی از دستورالعمل برتری دارد و مهارت خود را در استفاده از ابزارها در صورت لزوم نشان می‌دهد. به عنوان مثال، در وظیفه ArenaHard، که برای ارزیابی عملکرد در درخواست‌های چالش‌برانگیز تولید شده توسط کاربر طراحی شده است، T1 به امتیاز بالای 91.9 دست یافت.

این نتایج در مجموع تصویری از یک مدل زبان بزرگ بسیار توانمند، همه‌کاره و به خوبی همسو شده را ترسیم می‌کنند. ادغام استراتژیک معماری Hybrid-Transformer-Mamba، همراه با یک رژیم پس از آموزش فشرده و متمرکز بر RL، به Hunyuan-T1 منجر شده است - مدلی که توانایی استدلال استثنایی را نشان می‌دهد، به ویژه در سناریوهای پیچیده با زمینه طولانی و حوزه‌های علمی و ریاضیاتی طاقت‌فرسا.