IBM اخیراً پیشنمایش Granite 4.0 Tiny، فشردهترین تکرار در سری آینده Granite 4.0 مدلهای زبانی خود را اعلام کرده است. این مدل که تحت مجوز Apache 2.0 توزیع میشود، به دقت برای پردازش زمینه طولانی و برنامههای کاربردی مبتنی بر دستورالعمل، با دقت در تعادل بین کارایی منابع، دسترسی آزاد و عملکرد قوی، طراحی شده است. این راهاندازی تعهد مداوم IBM به توسعه و استقرار مدلهای بنیادی را نشان میدهد که نه تنها باز و شفاف هستند، بلکه به طور خاص برای برنامههای کاربردی درجه سازمانی نیز طراحی شدهاند.
پیشنمایش Granite 4.0 Tiny شامل دو نسخه متمایز است: Base-Preview، که یک معماری نوآورانه فقط رمزگشا را به نمایش میگذارد، و Tiny-Preview (Instruct)، که برای تعاملات مکالمهای و چند زبانه اصلاح شده است. Granite 4.0 Tiny علیرغم حداقل تعداد پارامترهای خود، به نتایج رقابتی در طیف وسیعی از معیارهای استدلال و تولید دست مییابد، که اثربخشی طراحی ترکیبی آن را برجسته میکند.
بررسی عمیق معماری: چارچوب ترکیبی Mixture-of-Experts با پویایی الهام گرفته از Mamba-2
در قلب Granite 4.0 Tiny یک معماری پیچیده ترکیبی Mixture-of-Experts (MoE) قرار دارد که در مجموع از 7 میلیارد پارامتر تشکیل شده است و تنها 1 میلیارد پارامتر به طور فعال در هر گذر رو به جلو درگیر میشوند. این پراکندگی ذاتی به مدل این امکان را میدهد که عملکرد مقیاسپذیر را ارائه دهد و در عین حال تقاضای محاسباتی را به طور قابل توجهی کاهش دهد، و آن را به ویژه برای استقرار در محیطهای محدود از نظر منابع و برای سناریوهای استنتاج مبتنی بر لبه مناسب میسازد.
نوع Base-Preview از یک معماری فقط رمزگشا استفاده میکند که با لایههای به سبک Mamba-2 تقویت شده است و جایگزینی بازگشتی خطی برای مکانیسمهای توجه سنتی ارائه میدهد. این نوآوری معماری به مدل اجازه میدهد تا به طور موثرتری با افزایش طول ورودی مقیاس شود، در نتیجه اثربخشی آن را در وظایف زمینه طولانی مانند تجزیه و تحلیل عمیق اسناد، خلاصهسازی جامع گفتگو و پاسخگویی به سوالات دانش فشرده افزایش میدهد.
یکی دیگر از تصمیمات معماری قابل توجه، پیادهسازی NoPE (No Positional Encodings) است. به جای تکیه بر تعبیههای موقعیتی ثابت یا آموختهشده، مدل اطلاعات موقعیتی را مستقیماً در پویایی لایه خود ادغام میکند. این رویکرد باعث بهبود تعمیم در طولهای ورودی مختلف میشود و به حفظ سازگاری در طول تولید توالی طولانی کمک میکند.
عملکرد معیار: کارایی بدون قربانی کردن قابلیت
حتی به عنوان یک نسخه پیشنمایش، Granite 4.0 Tiny در حال حاضر بهبودهای عملکرد قابل توجهی را نسبت به مدلهای قبلی در سری Granite IBM نشان میدهد. در ارزیابیهای معیار، Base-Preview نشان میدهد:
- افزایش 5.6 امتیازی در DROP (Discrete Reasoning Over Paragraphs)، یک معیار به طور گسترده شناخته شده برای پاسخگویی به سوالات چند مرحلهای که توانایی مدل را برای استدلال در چندین بخش از متن برای استخراج پاسخ ارزیابی میکند.
- بهبود 3.8 امتیازی در AGIEval، یک معیار جامع که برای ارزیابی درک زبان عمومی و قابلیتهای استدلال طراحی شده است و طیف گستردهای از وظایف زبانی و شناختی را پوشش میدهد.
این دستاوردهای عملکرد را میتوان هم به معماری پیشرفته مدل و هم به رژیم آموزش پیشرفته گسترده آن نسبت داد که گزارش شده است شامل پردازش 2.5 تریلیون توکن است که از حوزهها و ساختارهای زبانی متنوع استخراج شده است. این آموزش پیشرفته گسترده به مدل اجازه میدهد تا طیف گستردهای از الگوها و روابط را در دادهها ثبت کند، که منجر به بهبود تعمیم و عملکرد در وظایف مختلف میشود.
نوع تنظیم شده با دستورالعمل: متناسب با گفتگو، وضوح و پشتیبانی گسترده چند زبانه
نوع Granite-4.0-Tiny-Preview (Instruct) بر اساس مدل پایه از طریق ترکیبی از Supervised Fine-Tuning (SFT) و Reinforcement Learning (RL) ساخته شده است، با استفاده از یک مجموعه داده به سبک Tülu که شامل هر دو گفتگوی باز و مصنوعی تولید شده است. این رویکرد متناسب، مدل را برای دستورالعملگیری و برنامههای تعاملی بهینه میکند.
این مدل با پشتیبانی از 8192 پنجره ورودی توکن و 8192 طول تولید توکن، انسجام و دقت را در تعاملات طولانی حفظ میکند. بر خلاف ترکیبات رمزگذار-رمزگشا، که اغلب تفسیرپذیری را برای دستاوردهای عملکرد قربانی میکنند، راهاندازی فقط رمزگشا در اینجا خروجیهای واضحتر و قابل ردیابیتری ارائه میدهد، و آن را به ویژه برای برنامههای کاربردی سازمانی و حیاتی از نظر ایمنی که شفافیت و قابلیت پیشبینی در آنها از اهمیت بالایی برخوردار است، ارزشمند میسازد.
معیارهای ارزیابی دقیق:
- 86.1 در IFEval، نشان دهنده عملکرد قوی در معیارهای دستورالعملگیری، که منعکس کننده توانایی مدل در اجرای دقیق و مؤثر دستورالعملهای پیچیده است.
- 70.05 در GSM8K، یک معیار متمرکز بر حل مسئله ریاضیات در مقطع ابتدایی، که نشان دهنده استعداد مدل برای استدلال کمی و عملیات حسابی است.
- 82.41 در HumanEval، که دقت تولید کد پایتون را اندازه گیری میکند، و مهارت مدل را در تولید قطعه کدهای از نظر نحوی صحیح و از نظر معنایی معنادار به نمایش میگذارد.
علاوه بر این، مدل دستورالعمل از تعامل چند زبانه در 12 زبان پشتیبانی میکند و استقرارهای جهانی را در خدمات مشتری، اتوماسیون سازمانی و ابزارهای آموزشی تسهیل میکند. این قابلیت چند زبانه دسترسی و کاربرد مدل را گسترش میدهد و آن را قادر میسازد تا به طیف متنوعی از کاربران و موارد استفاده در زمینههای زبانی مختلف پاسخ دهد. زبانهای پشتیبانی شده شامل انگلیسی، اسپانیایی، فرانسوی، آلمانی، ایتالیایی، پرتغالی، هلندی، روسی، چینی، ژاپنی، کرهای و عربی است که بخش قابل توجهی از جمعیت جهان را پوشش میدهد.
اهمیت در دسترس بودن منبع باز
تصمیم IBM برای انتشار هر دو مدل Granite 4.0 Tiny تحت مجوز Apache 2.0 یک گام مهم در جهت تقویت شفافیت و همکاری در جامعه هوش مصنوعی است. IBM با ارائه دسترسی آزاد به وزنهای مدل، فایلهای پیکربندی و اسکریپتهای استفاده نمونه، محققان، توسعهدهندگان و سازمانها را قادر میسازد تا آزادانه آزمایش کنند، تنظیم دقیق انجام دهند و مدلها را در گردشهای کار NLP خود ادغام کنند. این رویکرد منبع باز نه تنها نوآوری را تسریع میکند، بلکه درک عمیقتری از قابلیتها و محدودیتهای مدل را نیز ترویج میکند.
مجوز Apache 2.0 به ویژه سودمند است زیرا استفاده تجاری و غیرتجاری از نرمافزار را بدون نیاز به افشای هرگونه تغییر یا آثار مشتق شده، امکانپذیر میسازد. این مجوز آزاد، پذیرش و آزمایش گسترده را تشویق میکند و اکوسیستمی پر جنب و جوش حول مدلهای Granite 4.0 Tiny ایجاد میکند. علاوه بر این، در دسترس بودن مدلها در Hugging Face، یک پلتفرم محبوب برای به اشتراک گذاری و کشف مدلهای از پیش آموزش داده شده، تضمین میکند که آنها به راحتی در دسترس مخاطبان گستردهای قرار دارند.
در دسترس بودن منبع باز Granite 4.0 Tiny همچنین با تعهد گستردهتر IBM به توسعه مسئولانه هوش مصنوعی همسو است. IBM با شفاف و قابل ممیزی کردن مدلها، کاربران را قادر میسازد تا رفتار آنها را بررسی کنند، سوگیریهای بالقوه را شناسایی کنند و اطمینان حاصل کنند که از آنها به روشی ایمن و اخلاقی استفاده میشود. این تعهد به شفافیت برای ایجاد اعتماد به سیستمهای هوش مصنوعی و ترویج استقرار مسئولانه آنها در حوزههای مختلف بسیار مهم است.
ایجاد پایه و اساس برای Granite 4.0: نگاهی اجمالی به آینده
پیشنمایش Granite 4.0 Tiny نشانهای اولیه از استراتژی جامع IBM برای مجموعه مدلهای زبانی نسل بعدی خود ارائه میدهد. خانواده مدلهای Granite 4.0 با ادغام معماریهای MoE کارآمد، پشتیبانی قوی از زمینه طولانی و تنظیم متمرکز بر دستورالعمل، به دنبال ارائه قابلیتهای پیشرفته در یک بسته قابل مدیریت و بهینهسازی شده از نظر منابع است. این رویکرد بر تعهد IBM به توسعه راه حلهای هوش مصنوعی تأکید میکند که نه تنها قدرتمند، بلکه کاربردی و در دسترس نیز هستند.
ترکیبی از این سه عنصر کلیدی – معماری کارآمد، پشتیبانی از زمینه طولانی و تنظیم متمرکز بر دستورالعمل – Granite 4.0 را به عنوان یک مدل زبانی همه کاره و سازگار مناسب برای طیف گستردهای از برنامههای کاربردی قرار میدهد. معماری MoE کارآمد به مدل این امکان را میدهد که به طور موثر با افزایش دادهها و پیچیدگی مقیاس شود، در حالی که پشتیبانی از زمینه طولانی به آن اجازه میدهد تا اسناد و مکالمات طولانی را پردازش و درک کند. از طرف دیگر، تنظیم متمرکز بر دستورالعمل، تضمین میکند که مدل میتواند به طور دقیق و مؤثر دستورالعملهای پیچیده را اجرا کند و آن را برای وظایفی مانند پاسخگویی به سؤالات، خلاصهسازی متن و تولید کد ایدهآل میسازد.
همانطور که انواع بیشتری از Granite 4.0 رونمایی میشوند، میتوانیم انتظار داشته باشیم که IBM سرمایهگذاری خود را در هوش مصنوعی مسئولانه و باز بیشتر تثبیت کند و خود را به عنوان یک نیروی محوری در شکل دادن به مسیر مدلهای زبانی شفاف و با عملکرد بالا برای برنامههای کاربردی سازمانی و تحقیقاتی تثبیت کند. این سرمایهگذاری مداوم منعکس کننده این باور IBM است که هوش مصنوعی باید به روشی توسعه و مستقر شود که هم از نظر اخلاقی و هم برای جامعه مفید باشد. IBM با اولویت قرار دادن شفافیت، پاسخگویی و انصاف، قصد دارد سیستمهای هوش مصنوعی ایجاد کند که نه تنها قدرتمند، بلکه قابل اعتماد و همسو با ارزشهای انسانی نیز باشند.
سری Granite 4.0 نشان دهنده یک گام مهم رو به جلو در تکامل مدلهای زبانی است و ترکیبی قانع کننده از عملکرد، کارایی و شفافیت را ارائه میدهد. همانطور که IBM به نوآوری در این زمینه ادامه میدهد، میتوانیم انتظار داشته باشیم که شاهد پیشرفتهای چشمگیرتری باشیم که نحوه تعامل و استفاده از هوش مصنوعی را بیشتر متحول میکند. پیشنمایش Granite 4.0 Tiny تنها آغاز است و آینده مدلهای زبانی روشنتر از همیشه به نظر میرسد. تاکید بر قابلیتهای زمینه طولانی، به ویژه، امکانات جدیدی را برای برنامههای کاربردی هوش مصنوعی در حوزههایی مانند تحقیقات علمی، تجزیه و تحلیل حقوقی و تجزیه و تحلیل اسناد تاریخی باز میکند، جایی که توانایی پردازش و درک متون طولانی و پیچیده بسیار مهم است.
علاوه بر این، قابلیتهای چند زبانه مدلهای Granite 4.0 آنها را برای استقرارهای جهانی در صنایع مختلف، از خدمات مشتری گرفته تا آموزش، مناسب میسازد. IBM با پشتیبانی از طیف گستردهای از زبانها، تضمین میکند که راه حلهای هوش مصنوعی آن برای مخاطبان متنوع، صرف نظر از زبان مادری آنها، در دسترس است. این تعهد به فراگیری برای ترویج پذیرش گسترده هوش مصنوعی و اطمینان از اینکه مزایای آن توسط همه به اشتراک گذاشته میشود، ضروری است.
سری Granite 4.0 علاوه بر قابلیتهای فنی خود، منعکس کننده تعهد IBM به توسعه مسئولانه هوش مصنوعی نیز است. IBM با اولویت قرار دادن شفافیت، پاسخگویی و انصاف، سیستمهای هوش مصنوعی ایجاد میکند که نه تنها قدرتمند، بلکه قابل اعتماد و همسو با ارزشهای انسانی نیز هستند. این تعهد به هوش مصنوعی مسئولانه برای ایجاد اعتماد عمومی به هوش مصنوعی و اطمینان از اینکه از آن به نفع جامعه استفاده میشود، بسیار مهم است.