معماری جدیدی برای یکپارچهسازی دانش
بخش تحقیقات مایکروسافت پیشگام روشی نوآورانه برای یکپارچه سازی دانش خارجی در مدل های زبانی بزرگ (LLMs) شده است. این سیستم مبتکرانه، که Knowledge Base-Augmented Language Models (KBLaM) نامیده می شود، از فلسفه ‘plug-and-play’ استفاده می کند و نیاز به تغییر مدل های از پیش موجود را از بین می برد. این یک انحراف قابل توجه از تکنیک های مرسوم است و رویکردی ساده تر و کارآمدتر برای ارتقای دانش ارائه می دهد.
جدایی از روشهای سنتی
روششناسیهای فعلی، مانند Retrieval-Augmented Generation (RAG) و In-Context Learning، معمولاً به مکانیزمهای بازیابی جداگانه برای دسترسی و ترکیب اطلاعات خارجی متکی هستند. در مقابل، KBLaM از این سیستمهای خارجی اجتناب میکند. این سیستم به طرز هوشمندانهای دانش را به جفتهای برداری تبدیل میکند و آنها را بهطور یکپارچه از طریق تکنیک جدیدی که مایکروسافت آن را “توجه مستطیلی” مینامد، در معماری هسته مدل میبافد.
این ادغام مستقیم دانش در خود مدل، با دور زدن فرآیندهای بازیابی خارجی، منجر به پاسخهای سریعتر و کارآمدتر میشود. این یک مزیت کلیدی نسبت به سیستمهای سنتی است که اغلب به دلیل نیاز به پرس و جو از پایگاههای داده خارجی، از تأخیر و سربار محاسباتی رنج میبرند.
حل مشکل مقیاسبندی درجه دوم
سیستمهای RAG موجود اغلب با مشکل مقیاسبندی درجه دوم، که نتیجه ذاتی مکانیسم خود توجهی آنهاست، مواجه میشوند. این مکانیسم مستلزم آن است که هر توکن با هر توکن دیگر تعامل داشته باشد، که منجر به افزایش تصاعدی تقاضاهای محاسباتی با افزایش اندازه ورودی میشود.
برای روشن شدن موضوع، سناریویی را در نظر بگیرید که در آن 1000 توکن از یک پایگاه دانش به متن وارد میشوند. سپس مدل مجبور میشود یک میلیون جفت توکن را پردازش کند. اگر تعداد توکنها به 10000 افزایش یابد، بار محاسباتی به 100 میلیون تعامل افزایش مییابد. این مقیاسبندی درجه دوم به سرعت به یک گلوگاه تبدیل میشود و کاربرد عملی سیستمهای RAG را با پایگاههای دانش بزرگ محدود میکند.
کارایی توجه مستطیلی
KBLaM به طرز ماهرانهای این باتلاق محاسباتی را دور میزند. مکانیسم نوآورانه “توجه مستطیلی” آن به ورودی کاربر اجازه میدهد تا به تمام توکنهای دانش دسترسی داشته باشد، اما مهمتر از آن، این توکنهای دانش با یکدیگر یا ورودی تعامل ندارند. این انتخاب طراحی استراتژیک پیامدهای عمیقی برای مقیاسپذیری دارد.
با گسترش پایگاه دانش، توان محاسباتی مورد نیاز فقط به صورت خطی افزایش مییابد، که در تضاد کامل با مقیاسبندی درجه دوم روشهای سنتی است. محققان KBLaM ادعا میکنند که یک GPU واحد میتواند به راحتی بیش از 10000 سه تایی دانش را مدیریت کند، که تقریباً به 200000 توکن ترجمه میشود. این نشان دهنده یک جهش قابل توجه به جلو در کارایی یکپارچه سازی دانش است.
نتایج آزمایشی امیدوار کننده
آزمایش اولیه KBLaM نتایج دلگرم کنندهای به همراه داشته است. در آزمایشهایی که شامل تقریباً 200 آیتم دانش بود، KBLaM توانایی برتری را در کاهش توهمات - تولید اطلاعات نادرست یا بیمعنی - در مقایسه با مدلهای معمولی نشان داد.
علاوه بر این، KBLaM تمایل بیشتری به امتناع از پاسخ دادن به سؤالاتی که اطلاعات کافی برای آنها نداشت، نشان داد. این “تواضع معرفتی” یک ویژگی مطلوب در LLM ها است، زیرا دقت و قابلیت اطمینان را ارتقا می دهد.
یکی دیگر از مزایای قابل توجه KBLaM، شفافیت بیشتر آن است. برخلاف یادگیری درون متنی، KBLaM میتواند به راحتی عناصر دانش خاص را به توکنهای مربوطه پیوند دهد و بینش بیشتری در مورد فرآیند استدلال مدل ارائه دهد.
در دسترس بودن کد متنباز و مسیرهای آینده
کد و مجموعه دادههای زیربنای KBLaM در GitHub در دسترس عموم قرار گرفته است و همکاری و تحقیقات بیشتر را در جامعه تقویت میکند. این سیستم به گونهای طراحی شده است که با چندین مدل پرکاربرد، از جمله Llama 3 متا و Phi-3 خود مایکروسافت سازگار باشد. همچنین برنامههایی برای گسترش پشتیبانی از Hugging Face Transformers، یک پلتفرم محبوب برای ساخت و استقرار LLM ها وجود دارد.
در حالی که نتایج اولیه امیدوارکننده هستند، محققان تاکید میکنند که KBLaM هنوز برای استقرار گسترده آماده نیست. این سیستم در رسیدگی به سناریوهای پرسش و پاسخ ساده عالی است، اما برای مقابله با وظایف استدلالی پیچیدهتر، به توسعه بیشتری نیاز است.
پارادوکس پنجرههای متنی و ظهور RAG
LLM ها با یک پارادوکس جذاب روبرو هستند: پنجرههای متنی آنها - مقدار اطلاعاتی که میتوانند در یک زمان پردازش کنند - به طور مداوم در حال گسترش هستند، با این حال پردازش قابل اعتماد این حجم رو به رشد دادهها همچنان یک چالش بزرگ است.
این چالش، Retrieval-Augmented Generation (RAG) را به عنوان راه حل ترجیحی برای تزریق اطلاعات خاص به مدلها با درجهای معقول از قابلیت اطمینان، به خط مقدم سوق داده است. سیستمهای RAG به عنوان واسطه عمل میکنند، اطلاعات مربوطه را از منابع خارجی بازیابی میکنند و آن را به LLM تغذیه میکنند، در نتیجه دانش و دقت آن را افزایش میدهند.
KBLaM: یک تغییر پارادایم بالقوه
با این حال، KBLaM یک جایگزین قانع کننده ارائه می دهد و مسیری بالقوه کارآمدتر و زیباتر را به جلو پیشنهاد می کند. KBLaM با ادغام مستقیم دانش در معماری مدل، چشم انداز LLM های سریعتر، مقیاس پذیرتر و شفاف تر با دانش بیشتر را ارائه می دهد.
کاوش عمیقتر در مکانیک KBLaM
هسته نوآوری KBLaM در مکانیسم “توجه مستطیلی” آن نهفته است. برای درک این موضوع، ابتدا بهتر است مکانیسم خود توجهی استانداردی را که توسط بسیاری از LLM ها استفاده می شود، در نظر بگیرید.
در خود توجهی، هر توکن در دنباله ورودی به هر توکن دیگر، از جمله خودش، توجه میکند. این به مدل اجازه میدهد تا روابط بین قسمتهای مختلف ورودی را درک کند، اما همچنین منجر به مشکل مقیاسبندی درجه دوم میشود که قبلاً ذکر شد.
توجه مستطیلی، در مقابل، فرآیند توجه را به دو بخش مجزا تقسیم میکند:
- توجه ورودی کاربر: ورودی کاربر به تمام توکنهای دانش توجه میکند و به مدل اجازه میدهد تا به اطلاعات مربوطه از پایگاه دانش دسترسی پیدا کند.
- توجه توکن دانش: توکنهای دانش به یکدیگر یا ورودی کاربر توجه نمیکنند. این کلید کارایی KBLaM است.
با جلوگیری از تعامل بین توکنهای دانش، KBLaM به طور چشمگیری تعداد محاسبات مورد نیاز را کاهش میدهد. این به مدل اجازه میدهد تا به صورت خطی با اندازه پایگاه دانش مقیاسبندی شود و امکان ترکیب مقادیر زیادی از اطلاعات خارجی را فراهم میکند.
مزایای یکپارچهسازی مستقیم دانش
ادغام مستقیم دانش در معماری مدل چندین مزیت دارد:
- کاهش تأخیر: از آنجایی که KBLaM به سیستمهای بازیابی خارجی متکی نیست، میتواند بسیار سریعتر از مدلهای مبتنی بر RAG پاسخ دهد.
- بهبود کارایی: مقیاسبندی خطی KBLaM آن را از نظر محاسباتی به طور قابل توجهی کارآمدتر از روشهای سنتی میکند.
- شفافیت بیشتر: KBLaM میتواند دانش را به توکنهای خاص پیوند دهد، و درک اینکه چگونه مدل به پاسخ خود رسیده است را آسانتر میکند.
- کاهش توهمات: KBLaM توانایی بیشتری در اجتناب از تولید اطلاعات نادرست یا بیمعنی نشان داده است.
محدودیتها و تحقیقات آینده
در حالی که KBLaM یک پیشرفت قابل توجه است، مهم است که محدودیتهای فعلی آن را بپذیریم:
- استدلال پیچیده: KBLaM در حال حاضر برای وظایف پرسش و پاسخ ساده مناسبتر است. تحقیقات بیشتری برای گسترش قابلیتهای آن به سناریوهای استدلالی پیچیدهتر مورد نیاز است.
- نمایش دانش: پیادهسازی فعلی KBLaM از سه تاییهای دانش استفاده میکند که ممکن است برای همه انواع دانش مناسب نباشد. کاوش در قالبهای جایگزین نمایش دانش، حوزهای برای کارهای آینده است.
- استقرار در دنیای واقعی: KBLaM هنوز یک پروژه تحقیقاتی است و هنوز برای استقرار گسترده آماده نیست. قبل از اینکه بتوان از آن در برنامههای کاربردی دنیای واقعی استفاده کرد، آزمایش و پالایش بیشتری لازم است.
تأثیر گستردهتر بر حوزه هوش مصنوعی
توسعه KBLaM پیامدهای قابل توجهی برای حوزه وسیعتر هوش مصنوعی دارد. این نشان دهنده گامی به سوی ایجاد LLM هایی است که نه تنها قدرتمند هستند، بلکه:
- دانش بیشتر: KBLaM با ادغام کارآمد مقادیر زیادی از دانش خارجی، میتواند دقت واقعی و جامعیت LLM ها را افزایش دهد.
- قابل اطمینانتر: کاهش نرخ توهم و افزایش شفافیت KBLaM به قابلیت اطمینان و اعتماد بیشتر کمک میکند.
- مقیاسپذیرتر: مقیاسبندی خطی KBLaM امکان ساخت LLM هایی را فراهم میکند که میتوانند مقادیر واقعاً عظیمی از اطلاعات را مدیریت کنند.
تحقیق و توسعه مداوم KBLaM و رویکردهای مشابه نوید میدهد که مرزهای بین LLM ها و پایگاههای دانش را بیشتر محو کند و راه را برای نسل جدیدی از سیستمهای هوش مصنوعی هموار کند که هم هوشمند و هم عمیقاً آگاه هستند. ماهیت متنباز این پروژه، همکاری را تشویق میکند و سرعت نوآوری را در این زمینه هیجانانگیز تسریع میبخشد.