IBM از Granite 4.0 Tiny رونمایی کرد

IBM اخیراً پیش‌نمایش Granite 4.0 Tiny، فشرده‌ترین تکرار در سری آینده Granite 4.0 مدل‌های زبانی خود را اعلام کرده است. این مدل که تحت مجوز Apache 2.0 توزیع می‌شود، به دقت برای پردازش زمینه طولانی و برنامه‌های کاربردی مبتنی بر دستورالعمل، با دقت در تعادل بین کارایی منابع، دسترسی آزاد و عملکرد قوی، طراحی شده است. این راه‌اندازی تعهد مداوم IBM به توسعه و استقرار مدل‌های بنیادی را نشان می‌دهد که نه تنها باز و شفاف هستند، بلکه به طور خاص برای برنامه‌های کاربردی درجه سازمانی نیز طراحی شده‌اند.

پیش‌نمایش Granite 4.0 Tiny شامل دو نسخه متمایز است: Base-Preview، که یک معماری نوآورانه فقط رمزگشا را به نمایش می‌گذارد، و Tiny-Preview (Instruct)، که برای تعاملات مکالمه‌ای و چند زبانه اصلاح شده است. Granite 4.0 Tiny علی‌رغم حداقل تعداد پارامترهای خود، به نتایج رقابتی در طیف وسیعی از معیارهای استدلال و تولید دست می‌یابد، که اثربخشی طراحی ترکیبی آن را برجسته می‌کند.

بررسی عمیق معماری: چارچوب ترکیبی Mixture-of-Experts با پویایی الهام گرفته از Mamba-2

در قلب Granite 4.0 Tiny یک معماری پیچیده ترکیبی Mixture-of-Experts (MoE) قرار دارد که در مجموع از 7 میلیارد پارامتر تشکیل شده است و تنها 1 میلیارد پارامتر به طور فعال در هر گذر رو به جلو درگیر می‌شوند. این پراکندگی ذاتی به مدل این امکان را می‌دهد که عملکرد مقیاس‌پذیر را ارائه دهد و در عین حال تقاضای محاسباتی را به طور قابل توجهی کاهش دهد، و آن را به ویژه برای استقرار در محیط‌های محدود از نظر منابع و برای سناریوهای استنتاج مبتنی بر لبه مناسب می‌سازد.

نوع Base-Preview از یک معماری فقط رمزگشا استفاده می‌کند که با لایه‌های به سبک Mamba-2 تقویت شده است و جایگزینی بازگشتی خطی برای مکانیسم‌های توجه سنتی ارائه می‌دهد. این نوآوری معماری به مدل اجازه می‌دهد تا به طور موثرتری با افزایش طول ورودی مقیاس شود، در نتیجه اثربخشی آن را در وظایف زمینه طولانی مانند تجزیه و تحلیل عمیق اسناد، خلاصه‌سازی جامع گفتگو و پاسخگویی به سوالات دانش فشرده افزایش می‌دهد.

یکی دیگر از تصمیمات معماری قابل توجه، پیاده‌سازی NoPE (No Positional Encodings) است. به جای تکیه بر تعبیه‌های موقعیتی ثابت یا آموخته‌شده، مدل اطلاعات موقعیتی را مستقیماً در پویایی لایه خود ادغام می‌کند. این رویکرد باعث بهبود تعمیم در طول‌های ورودی مختلف می‌شود و به حفظ سازگاری در طول تولید توالی طولانی کمک می‌کند.

عملکرد معیار: کارایی بدون قربانی کردن قابلیت

حتی به عنوان یک نسخه پیش‌نمایش، Granite 4.0 Tiny در حال حاضر بهبودهای عملکرد قابل توجهی را نسبت به مدل‌های قبلی در سری Granite IBM نشان می‌دهد. در ارزیابی‌های معیار، Base-Preview نشان می‌دهد:

  • افزایش 5.6 امتیازی در DROP (Discrete Reasoning Over Paragraphs)، یک معیار به طور گسترده شناخته شده برای پاسخگویی به سوالات چند مرحله‌ای که توانایی مدل را برای استدلال در چندین بخش از متن برای استخراج پاسخ ارزیابی می‌کند.
  • بهبود 3.8 امتیازی در AGIEval، یک معیار جامع که برای ارزیابی درک زبان عمومی و قابلیت‌های استدلال طراحی شده است و طیف گسترده‌ای از وظایف زبانی و شناختی را پوشش می‌دهد.

این دستاوردهای عملکرد را می‌توان هم به معماری پیشرفته مدل و هم به رژیم آموزش پیشرفته گسترده آن نسبت داد که گزارش شده است شامل پردازش 2.5 تریلیون توکن است که از حوزه‌ها و ساختارهای زبانی متنوع استخراج شده است. این آموزش پیشرفته گسترده به مدل اجازه می‌دهد تا طیف گسترده‌ای از الگوها و روابط را در داده‌ها ثبت کند، که منجر به بهبود تعمیم و عملکرد در وظایف مختلف می‌شود.

نوع تنظیم شده با دستورالعمل: متناسب با گفتگو، وضوح و پشتیبانی گسترده چند زبانه

نوع Granite-4.0-Tiny-Preview (Instruct) بر اساس مدل پایه از طریق ترکیبی از Supervised Fine-Tuning (SFT) و Reinforcement Learning (RL) ساخته شده است، با استفاده از یک مجموعه داده به سبک Tülu که شامل هر دو گفتگوی باز و مصنوعی تولید شده است. این رویکرد متناسب، مدل را برای دستورالعمل‌گیری و برنامه‌های تعاملی بهینه می‌کند.

این مدل با پشتیبانی از 8192 پنجره ورودی توکن و 8192 طول تولید توکن، انسجام و دقت را در تعاملات طولانی حفظ می‌کند. بر خلاف ترکیبات رمزگذار-رمزگشا، که اغلب تفسیرپذیری را برای دستاوردهای عملکرد قربانی می‌کنند، راه‌اندازی فقط رمزگشا در اینجا خروجی‌های واضح‌تر و قابل ردیابی‌تری ارائه می‌دهد، و آن را به ویژه برای برنامه‌های کاربردی سازمانی و حیاتی از نظر ایمنی که شفافیت و قابلیت پیش‌بینی در آنها از اهمیت بالایی برخوردار است، ارزشمند می‌سازد.

معیارهای ارزیابی دقیق:

  • 86.1 در IFEval، نشان دهنده عملکرد قوی در معیارهای دستورالعمل‌گیری، که منعکس کننده توانایی مدل در اجرای دقیق و مؤثر دستورالعمل‌های پیچیده است.
  • 70.05 در GSM8K، یک معیار متمرکز بر حل مسئله ریاضیات در مقطع ابتدایی، که نشان دهنده استعداد مدل برای استدلال کمی و عملیات حسابی است.
  • 82.41 در HumanEval، که دقت تولید کد پایتون را اندازه گیری می‌کند، و مهارت مدل را در تولید قطعه کدهای از نظر نحوی صحیح و از نظر معنایی معنادار به نمایش می‌گذارد.

علاوه بر این، مدل دستورالعمل از تعامل چند زبانه در 12 زبان پشتیبانی می‌کند و استقرارهای جهانی را در خدمات مشتری، اتوماسیون سازمانی و ابزارهای آموزشی تسهیل می‌کند. این قابلیت چند زبانه دسترسی و کاربرد مدل را گسترش می‌دهد و آن را قادر می‌سازد تا به طیف متنوعی از کاربران و موارد استفاده در زمینه‌های زبانی مختلف پاسخ دهد. زبان‌های پشتیبانی شده شامل انگلیسی، اسپانیایی، فرانسوی، آلمانی، ایتالیایی، پرتغالی، هلندی، روسی، چینی، ژاپنی، کره‌ای و عربی است که بخش قابل توجهی از جمعیت جهان را پوشش می‌دهد.

اهمیت در دسترس بودن منبع باز

تصمیم IBM برای انتشار هر دو مدل Granite 4.0 Tiny تحت مجوز Apache 2.0 یک گام مهم در جهت تقویت شفافیت و همکاری در جامعه هوش مصنوعی است. IBM با ارائه دسترسی آزاد به وزن‌های مدل، فایل‌های پیکربندی و اسکریپت‌های استفاده نمونه، محققان، توسعه‌دهندگان و سازمان‌ها را قادر می‌سازد تا آزادانه آزمایش کنند، تنظیم دقیق انجام دهند و مدل‌ها را در گردش‌های کار NLP خود ادغام کنند. این رویکرد منبع باز نه تنها نوآوری را تسریع می‌کند، بلکه درک عمیق‌تری از قابلیت‌ها و محدودیت‌های مدل را نیز ترویج می‌کند.

مجوز Apache 2.0 به ویژه سودمند است زیرا استفاده تجاری و غیرتجاری از نرم‌افزار را بدون نیاز به افشای هرگونه تغییر یا آثار مشتق شده، امکان‌پذیر می‌سازد. این مجوز آزاد، پذیرش و آزمایش گسترده را تشویق می‌کند و اکوسیستمی پر جنب و جوش حول مدل‌های Granite 4.0 Tiny ایجاد می‌کند. علاوه بر این، در دسترس بودن مدل‌ها در Hugging Face، یک پلتفرم محبوب برای به اشتراک گذاری و کشف مدل‌های از پیش آموزش داده شده، تضمین می‌کند که آنها به راحتی در دسترس مخاطبان گسترده‌ای قرار دارند.

در دسترس بودن منبع باز Granite 4.0 Tiny همچنین با تعهد گسترده‌تر IBM به توسعه مسئولانه هوش مصنوعی همسو است. IBM با شفاف و قابل ممیزی کردن مدل‌ها، کاربران را قادر می‌سازد تا رفتار آنها را بررسی کنند، سوگیری‌های بالقوه را شناسایی کنند و اطمینان حاصل کنند که از آنها به روشی ایمن و اخلاقی استفاده می‌شود. این تعهد به شفافیت برای ایجاد اعتماد به سیستم‌های هوش مصنوعی و ترویج استقرار مسئولانه آنها در حوزه‌های مختلف بسیار مهم است.

ایجاد پایه و اساس برای Granite 4.0: نگاهی اجمالی به آینده

پیش‌نمایش Granite 4.0 Tiny نشانه‌ای اولیه از استراتژی جامع IBM برای مجموعه مدل‌های زبانی نسل بعدی خود ارائه می‌دهد. خانواده مدل‌های Granite 4.0 با ادغام معماری‌های MoE کارآمد، پشتیبانی قوی از زمینه طولانی و تنظیم متمرکز بر دستورالعمل، به دنبال ارائه قابلیت‌های پیشرفته در یک بسته قابل مدیریت و بهینه‌سازی شده از نظر منابع است. این رویکرد بر تعهد IBM به توسعه راه حل‌های هوش مصنوعی تأکید می‌کند که نه تنها قدرتمند، بلکه کاربردی و در دسترس نیز هستند.

ترکیبی از این سه عنصر کلیدی – معماری کارآمد، پشتیبانی از زمینه طولانی و تنظیم متمرکز بر دستورالعمل – Granite 4.0 را به عنوان یک مدل زبانی همه کاره و سازگار مناسب برای طیف گسترده‌ای از برنامه‌های کاربردی قرار می‌دهد. معماری MoE کارآمد به مدل این امکان را می‌دهد که به طور موثر با افزایش داده‌ها و پیچیدگی مقیاس شود، در حالی که پشتیبانی از زمینه طولانی به آن اجازه می‌دهد تا اسناد و مکالمات طولانی را پردازش و درک کند. از طرف دیگر، تنظیم متمرکز بر دستورالعمل، تضمین می‌کند که مدل می‌تواند به طور دقیق و مؤثر دستورالعمل‌های پیچیده را اجرا کند و آن را برای وظایفی مانند پاسخگویی به سؤالات، خلاصه‌سازی متن و تولید کد ایده‌آل می‌سازد.

همانطور که انواع بیشتری از Granite 4.0 رونمایی می‌شوند، می‌توانیم انتظار داشته باشیم که IBM سرمایه‌گذاری خود را در هوش مصنوعی مسئولانه و باز بیشتر تثبیت کند و خود را به عنوان یک نیروی محوری در شکل دادن به مسیر مدل‌های زبانی شفاف و با عملکرد بالا برای برنامه‌های کاربردی سازمانی و تحقیقاتی تثبیت کند. این سرمایه‌گذاری مداوم منعکس کننده این باور IBM است که هوش مصنوعی باید به روشی توسعه و مستقر شود که هم از نظر اخلاقی و هم برای جامعه مفید باشد. IBM با اولویت قرار دادن شفافیت، پاسخگویی و انصاف، قصد دارد سیستم‌های هوش مصنوعی ایجاد کند که نه تنها قدرتمند، بلکه قابل اعتماد و همسو با ارزش‌های انسانی نیز باشند.

سری Granite 4.0 نشان دهنده یک گام مهم رو به جلو در تکامل مدل‌های زبانی است و ترکیبی قانع کننده از عملکرد، کارایی و شفافیت را ارائه می‌دهد. همانطور که IBM به نوآوری در این زمینه ادامه می‌دهد، می‌توانیم انتظار داشته باشیم که شاهد پیشرفت‌های چشمگیرتری باشیم که نحوه تعامل و استفاده از هوش مصنوعی را بیشتر متحول می‌کند. پیش‌نمایش Granite 4.0 Tiny تنها آغاز است و آینده مدل‌های زبانی روشن‌تر از همیشه به نظر می‌رسد. تاکید بر قابلیت‌های زمینه طولانی، به ویژه، امکانات جدیدی را برای برنامه‌های کاربردی هوش مصنوعی در حوزه‌هایی مانند تحقیقات علمی، تجزیه و تحلیل حقوقی و تجزیه و تحلیل اسناد تاریخی باز می‌کند، جایی که توانایی پردازش و درک متون طولانی و پیچیده بسیار مهم است.

علاوه بر این، قابلیت‌های چند زبانه مدل‌های Granite 4.0 آنها را برای استقرارهای جهانی در صنایع مختلف، از خدمات مشتری گرفته تا آموزش، مناسب می‌سازد. IBM با پشتیبانی از طیف گسترده‌ای از زبان‌ها، تضمین می‌کند که راه حل‌های هوش مصنوعی آن برای مخاطبان متنوع، صرف نظر از زبان مادری آنها، در دسترس است. این تعهد به فراگیری برای ترویج پذیرش گسترده هوش مصنوعی و اطمینان از اینکه مزایای آن توسط همه به اشتراک گذاشته می‌شود، ضروری است.

سری Granite 4.0 علاوه بر قابلیت‌های فنی خود، منعکس کننده تعهد IBM به توسعه مسئولانه هوش مصنوعی نیز است. IBM با اولویت قرار دادن شفافیت، پاسخگویی و انصاف، سیستم‌های هوش مصنوعی ایجاد می‌کند که نه تنها قدرتمند، بلکه قابل اعتماد و همسو با ارزش‌های انسانی نیز هستند. این تعهد به هوش مصنوعی مسئولانه برای ایجاد اعتماد عمومی به هوش مصنوعی و اطمینان از اینکه از آن به نفع جامعه استفاده می‌شود، بسیار مهم است.