LLM یک بیتی مایکروسافت: انقلابی در هوش مصنوعی

در چشم انداز پویای هوش مصنوعی، یک پیشرفت اساسی از Microsoft Research ظهور کرده است که نوید بازتعریف دسترسی و کارایی هوش مصنوعی مولد را می دهد. مقاله اخیر آنها BitNet b1.58 2B4T را معرفی می کند، یک مدل زبانی بزرگ (LLM) پیشگام که با آموزش بومی خود با وزن های “1 بیتی” یا به طور دقیق تر، وزن های 1 تریتی متمایز می شود. این رویکرد نوآورانه نشان دهنده انحراف از روش های سنتی است که متکی به کوانتیزه کردن مدل هایی هستند که در ابتدا با دقت کامل آموزش دیده اند.

غلبه بر محدودیت های LLM های سنتی

LLM های معمولی، علی رغم عملکرد قابل توجه خود، با موانع اساسی دست و پنجه نرم می کنند که مانع از پذیرش گسترده آنها می شود. این محدودیت ها عمدتاً ناشی از ردپای حافظه بزرگ، مصرف انرژی قابل توجه و تاخیر قابل توجه استنتاج است. در نتیجه، استقرار این مدل ها بر روی دستگاه های لبه ای، در محیط های محدود از نظر منابع، و برای کاربردهای بلادرنگ غیر عملی می شود.

برای کاهش این چالش ها، جامعه هوش مصنوعی به طور فزاینده ای بر روی کاوش مدل های کوانتیزه شده متمرکز شده است. این مدل ها از همتایان با دقت کامل خود با تبدیل وزن های خود به یک فرمت کم بیت تر مشتق شده اند. در حالی که کوانتیزاسیون مسیری را برای کاهش اندازه مدل و تقاضای محاسباتی ارائه می دهد، اغلب به قیمت از دست دادن دقت تمام می شود و به طور بالقوه دقت مدل و عملکرد کلی را به خطر می اندازد.

معماری BitNet b1.58 2B4T

BitNet b1.58 2B4T نشان دهنده یک تغییر پارادایم در طراحی LLM است، که از دست دادن دقت مرتبط با کوانتیزاسیون را با آموزش مدل از ابتدا با استفاده از وزن های 1 بیتی دور می زند. این رویکرد به مدل اجازه می دهد تا مزایای وزن های کوچکتر، از جمله کاهش ردپای حافظه و هزینه های محاسباتی کمتر را حفظ کند.

محققان مایکروسافت این تلاش جاه طلبانه را با آموزش BitNet b1.58 2B4T بر روی یک پیکره عظیم از 4 تریلیون توکن آغاز کردند. این مجموعه داده آموزشی گسترده تضمین کرد که مدل می تواند به طور موثر الگوهای پیچیده زبان را یاد بگیرد و درک جامعی از تفاوت های ظریف ارتباطات انسانی ایجاد کند.

ارزیابی عملکرد و معیارها

برای ارزیابی اثربخشی BitNet b1.58 2B4T، مایکروسافت معیارهای دقیقی را انجام داد و عملکرد آن را در برابر مدل های تمام دقت و وزن باز پیشرو با اندازه مشابه مقایسه کرد. نتایج نشان داد که مدل جدید در طیف گسترده ای از وظایف، از جمله درک زبان و استدلال، دانش جهان، درک مطلب، ریاضیات و کد، و پیروی از دستورالعمل ها و مکالمه، عملکرد قابل مقایسه ای دارد.

این یافته ها بر پتانسیل LLM های 1 بیتی برای دستیابی به برابری عملکرد با همتایان تمام دقت خود، در حالی که به طور همزمان مزایای قابل توجهی از نظر کارایی و استفاده از منابع ارائه می دهند، تاکید می کند.

نوآوری های کلیدی معماری

در قلب BitNet b1.58 2B4T معماری نوآورانه آن قرار دارد که لایه های خطی با دقت کامل استاندارد را با لایه های BitLinear سفارشی جایگزین می کند. این لایه ها از نمایش های 1.58 بیتی برای رمزگذاری وزن ها به عنوان مقادیر سه تایی (trits) در طول عبور رو به جلو استفاده می کنند.

استفاده از مقادیر سه تایی، که به صورت {-1, 0, +1} نشان داده می شوند، کاهش چشمگیری در اندازه مدل را امکان پذیر می کند و عملیات ریاضی کارآمد را تسهیل می کند. این امر از طریق یک طرح کوانتیزاسیون میانگین مطلق (absmean) به دست می آید، که وزن ها را به این مقادیر سه تایی نگاشت می کند.

علاوه بر لایه های BitLinear، BitNet b1.58 2B4T چندین تکنیک LLM ثابت شده مانند توابع فعال سازی ReLU مربعی، جاسازی های موقعیتی چرخشی و حذف جمله بایاس را در خود جای داده است. این تکنیک ها بیشتر به کاهش اندازه مدل و بهبود پایداری آموزش کمک می کنند.

افزایش پایداری و کارایی آموزش

دو تکنیک اضافی که در لایه های BitLinear استفاده می شوند - کوانتیزاسیون فعال سازی و عادی سازی - نقش مهمی در کاهش اندازه مدل و افزایش پایداری آموزش ایفا می کنند. کوانتیزاسیون فعال سازی دقت فعال سازی ها را کاهش می دهد، در حالی که تکنیک های عادی سازی به جلوگیری از بزرگ یا کوچک شدن بیش از حد فعال سازی ها کمک می کند.

این تکنیک ها، همراه با استفاده از وزن های 1 بیتی، BitNet b1.58 2B4T را قادر می سازد تا به طور موثرتر و مؤثرتر، حتی در مجموعه داده های بزرگ، آموزش داده شود.

روش های آموزشی

برای آموزش، BitNet b1.58 2B4T از سه تکنیک کلیدی استفاده می کند: پیش آموزش در مقیاس بزرگ، تنظیم دقیق نظارت شده و بهینه سازی مستقیم ترجیحات.

پیش آموزش در مقیاس بزرگ

این مرحله اولیه شامل آموزش مدل بر روی یک مجموعه داده عظیم از متن و کد است و به آن اجازه می دهد تا الگوهای کلی زبان را یاد بگیرد و درک گسترده ای از جهان ایجاد کند.

تنظیم دقیق نظارت شده

در این مرحله، مدل روی یک مجموعه داده کوچکتر و خاص تر، متناسب با یک کار یا دامنه خاص، تنظیم دقیق می شود. این به مدل اجازه می دهد تا دانش و مهارت های خود را با الزامات خاص کار تطبیق دهد.

بهینه سازی مستقیم ترجیحات

این تکنیک شامل آموزش مدل برای بهینه سازی مستقیم ترجیحات انسانی است که از طریق بازخورد یا رتبه بندی بیان می شود. این کمک می کند تا اطمینان حاصل شود که خروجی های مدل با ارزش ها و انتظارات انسانی همسو هستند.

محققان خاطرنشان می کنند که تکنیک های پیشرفته تری مانند بهینه سازی سیاست پروگزیمال یا بهینه سازی سیاست نسبی گروه، در آینده برای افزایش قابلیت های ریاضی و استدلال زنجیره ای مورد بررسی قرار خواهند گرفت.

کتابخانه استنتاج Bitnet.cpp

با توجه به طرح کوانتیزاسیون منحصر به فرد BitNet b1.58 2B4T، مدل نمی تواند با کتابخانه های یادگیری عمیق استاندارد مانند llama.cpp استفاده شود و به یک هسته تخصصی نیاز دارد. برای رفع این چالش، مایکروسافت یک کتابخانه استنتاج اختصاصی منبع باز، bitnet.cpp را توسعه داده است.

bitnet.cpp به عنوان چارچوب استنتاج رسمی برای LLM های 1 بیتی مانند BitNet b1.58 عمل می کند. این مجموعه ای از هسته های بهینه سازی شده را ارائه می دهد که از استنتاج سریع و بدون اتلاف مدل های 1.58 بیتی در CPU ها پشتیبانی می کند، با برنامه هایی برای گسترش پشتیبانی به NPU ها و GPU ها در آینده.

این کتابخانه استنتاج برای فعال کردن استقرار BitNet b1.58 2B4T در طیف گسترده تری از دستگاه ها و پلتفرم ها، و در نتیجه در دسترس تر کردن آن برای توسعه دهندگان و محققان، بسیار مهم است.

جهت گیری های تحقیقاتی آینده

محققان اذعان دارند که سخت افزار GPU فعلی برای مدل های 1 بیتی بهینه نشده است و با گنجاندن منطق اختصاصی برای عملیات کم بیت می توان به دستاوردهای عملکرد بیشتری دست یافت. این نشان می دهد که معماری های سخت افزاری آینده ممکن است به طور خاص برای پشتیبانی از LLM های 1 بیتی طراحی شوند، که منجر به کارایی و عملکرد بیشتر می شود.

علاوه بر بهینه سازی سخت افزار، جهت گیری های تحقیقاتی آینده شامل آموزش مدل های بزرگتر، افزودن قابلیت های چند زبانه و ادغام چند وجهی و گسترش طول پنجره متن است. این پیشرفت ها بیشتر قابلیت ها و تطبیق پذیری BitNet b1.58 2B4T و سایر LLM های 1 بیتی را افزایش می دهد.

مفاهیم و تأثیر بالقوه

توسعه BitNet b1.58 2B4T پیامدهای قابل توجهی برای آینده هوش مصنوعی، به ویژه در قلمرو هوش مصنوعی مولد دارد. مایکروسافت با نشان دادن اینکه آموزش LLM های با عملکرد بالا با استفاده از فقط وزن های 1 بیتی امکان پذیر است، امکانات جدیدی را برای ایجاد سیستم های هوش مصنوعی کارآمدتر و در دسترس تر باز کرده است.

این پیشرفت می تواند منجر به استقرار مدل های هوش مصنوعی در طیف گسترده تری از دستگاه ها، از جمله تلفن های هوشمند، دستگاه های اینترنت اشیا و سایر پلتفرم های محدود از نظر منابع شود. همچنین می تواند توسعه سیستم های هوش مصنوعی با انرژی کارآمدتر را امکان پذیر کند و تاثیرات زیست محیطی آنها را کاهش دهد.

علاوه بر این، توانایی آموزش LLM ها با وزن های 1 بیتی می تواند سفارشی سازی و شخصی سازی مدل های هوش مصنوعی را برای کاربردهای خاص آسان تر کند. این می تواند منجر به توسعه سیستم های هوش مصنوعی موثرتر و کاربر پسندتر شود که متناسب با نیازهای منحصر به فرد کاربران و سازمان ها باشد.

نتیجه گیری

BitNet b1.58 2B4T مایکروسافت نشان دهنده یک گام مهم به جلو در تلاش برای هوش مصنوعی کارآمدتر و در دسترس تر است. مایکروسافت با نشان دادن اینکه آموزش LLM های با عملکرد بالا با استفاده از فقط وزن های 1 بیتی امکان پذیر است، خرد متعارف را به چالش کشیده و امکانات جدیدی را برای آینده هوش مصنوعی باز کرده است.

همانطور که تحقیقات در این زمینه ادامه دارد، می توانیم انتظار داشته باشیم که کاربردهای نوآورانه تری از LLM های 1 بیتی را ببینیم، که منجر به آینده ای می شود که در آن هوش مصنوعی فراگیرتر، کارآمدتر و سودمندتر برای کل جامعه است.