رویکرد جدید مایکروسافت در تزریق دانش به LLMها

معماری جدیدی برای یکپارچه‌سازی دانش

بخش تحقیقات مایکروسافت پیشگام روشی نوآورانه برای یکپارچه سازی دانش خارجی در مدل های زبانی بزرگ (LLMs) شده است. این سیستم مبتکرانه، که Knowledge Base-Augmented Language Models (KBLaM) نامیده می شود، از فلسفه ‘plug-and-play’ استفاده می کند و نیاز به تغییر مدل های از پیش موجود را از بین می برد. این یک انحراف قابل توجه از تکنیک های مرسوم است و رویکردی ساده تر و کارآمدتر برای ارتقای دانش ارائه می دهد.

جدایی از روش‌های سنتی

روش‌شناسی‌های فعلی، مانند Retrieval-Augmented Generation (RAG) و In-Context Learning، معمولاً به مکانیزم‌های بازیابی جداگانه برای دسترسی و ترکیب اطلاعات خارجی متکی هستند. در مقابل، KBLaM از این سیستم‌های خارجی اجتناب می‌کند. این سیستم به طرز هوشمندانه‌ای دانش را به جفت‌های برداری تبدیل می‌کند و آن‌ها را به‌طور یکپارچه از طریق تکنیک جدیدی که مایکروسافت آن را “توجه مستطیلی” می‌نامد، در معماری هسته مدل می‌بافد.

این ادغام مستقیم دانش در خود مدل، با دور زدن فرآیندهای بازیابی خارجی، منجر به پاسخ‌های سریع‌تر و کارآمدتر می‌شود. این یک مزیت کلیدی نسبت به سیستم‌های سنتی است که اغلب به دلیل نیاز به پرس و جو از پایگاه‌های داده خارجی، از تأخیر و سربار محاسباتی رنج می‌برند.

حل مشکل مقیاس‌بندی درجه دوم

سیستم‌های RAG موجود اغلب با مشکل مقیاس‌بندی درجه دوم، که نتیجه ذاتی مکانیسم خود توجهی آنهاست، مواجه می‌شوند. این مکانیسم مستلزم آن است که هر توکن با هر توکن دیگر تعامل داشته باشد، که منجر به افزایش تصاعدی تقاضاهای محاسباتی با افزایش اندازه ورودی می‌شود.

برای روشن شدن موضوع، سناریویی را در نظر بگیرید که در آن 1000 توکن از یک پایگاه دانش به متن وارد می‌شوند. سپس مدل مجبور می‌شود یک میلیون جفت توکن را پردازش کند. اگر تعداد توکن‌ها به 10000 افزایش یابد، بار محاسباتی به 100 میلیون تعامل افزایش می‌یابد. این مقیاس‌بندی درجه دوم به سرعت به یک گلوگاه تبدیل می‌شود و کاربرد عملی سیستم‌های RAG را با پایگاه‌های دانش بزرگ محدود می‌کند.

کارایی توجه مستطیلی

KBLaM به طرز ماهرانه‌ای این باتلاق محاسباتی را دور می‌زند. مکانیسم نوآورانه “توجه مستطیلی” آن به ورودی کاربر اجازه می‌دهد تا به تمام توکن‌های دانش دسترسی داشته باشد، اما مهم‌تر از آن، این توکن‌های دانش با یکدیگر یا ورودی تعامل ندارند. این انتخاب طراحی استراتژیک پیامدهای عمیقی برای مقیاس‌پذیری دارد.

با گسترش پایگاه دانش، توان محاسباتی مورد نیاز فقط به صورت خطی افزایش می‌یابد، که در تضاد کامل با مقیاس‌بندی درجه دوم روش‌های سنتی است. محققان KBLaM ادعا می‌کنند که یک GPU واحد می‌تواند به راحتی بیش از 10000 سه تایی دانش را مدیریت کند، که تقریباً به 200000 توکن ترجمه می‌شود. این نشان دهنده یک جهش قابل توجه به جلو در کارایی یکپارچه سازی دانش است.

نتایج آزمایشی امیدوار کننده

آزمایش اولیه KBLaM نتایج دلگرم کننده‌ای به همراه داشته است. در آزمایش‌هایی که شامل تقریباً 200 آیتم دانش بود، KBLaM توانایی برتری را در کاهش توهمات - تولید اطلاعات نادرست یا بی‌معنی - در مقایسه با مدل‌های معمولی نشان داد.

علاوه بر این، KBLaM تمایل بیشتری به امتناع از پاسخ دادن به سؤالاتی که اطلاعات کافی برای آنها نداشت، نشان داد. این “تواضع معرفتی” یک ویژگی مطلوب در LLM ها است، زیرا دقت و قابلیت اطمینان را ارتقا می دهد.

یکی دیگر از مزایای قابل توجه KBLaM، شفافیت بیشتر آن است. برخلاف یادگیری درون متنی، KBLaM می‌تواند به راحتی عناصر دانش خاص را به توکن‌های مربوطه پیوند دهد و بینش بیشتری در مورد فرآیند استدلال مدل ارائه دهد.

در دسترس بودن کد متن‌باز و مسیرهای آینده

کد و مجموعه داده‌های زیربنای KBLaM در GitHub در دسترس عموم قرار گرفته است و همکاری و تحقیقات بیشتر را در جامعه تقویت می‌کند. این سیستم به گونه‌ای طراحی شده است که با چندین مدل پرکاربرد، از جمله Llama 3 متا و Phi-3 خود مایکروسافت سازگار باشد. همچنین برنامه‌هایی برای گسترش پشتیبانی از Hugging Face Transformers، یک پلتفرم محبوب برای ساخت و استقرار LLM ها وجود دارد.

در حالی که نتایج اولیه امیدوارکننده هستند، محققان تاکید می‌کنند که KBLaM هنوز برای استقرار گسترده آماده نیست. این سیستم در رسیدگی به سناریوهای پرسش و پاسخ ساده عالی است، اما برای مقابله با وظایف استدلالی پیچیده‌تر، به توسعه بیشتری نیاز است.

پارادوکس پنجره‌های متنی و ظهور RAG

LLM ها با یک پارادوکس جذاب روبرو هستند: پنجره‌های متنی آنها - مقدار اطلاعاتی که می‌توانند در یک زمان پردازش کنند - به طور مداوم در حال گسترش هستند، با این حال پردازش قابل اعتماد این حجم رو به رشد داده‌ها همچنان یک چالش بزرگ است.

این چالش، Retrieval-Augmented Generation (RAG) را به عنوان راه حل ترجیحی برای تزریق اطلاعات خاص به مدل‌ها با درجه‌ای معقول از قابلیت اطمینان، به خط مقدم سوق داده است. سیستم‌های RAG به عنوان واسطه عمل می‌کنند، اطلاعات مربوطه را از منابع خارجی بازیابی می‌کنند و آن را به LLM تغذیه می‌کنند، در نتیجه دانش و دقت آن را افزایش می‌دهند.

KBLaM: یک تغییر پارادایم بالقوه

با این حال، KBLaM یک جایگزین قانع کننده ارائه می دهد و مسیری بالقوه کارآمدتر و زیباتر را به جلو پیشنهاد می کند. KBLaM با ادغام مستقیم دانش در معماری مدل، چشم انداز LLM های سریعتر، مقیاس پذیرتر و شفاف تر با دانش بیشتر را ارائه می دهد.

کاوش عمیق‌تر در مکانیک KBLaM

هسته نوآوری KBLaM در مکانیسم “توجه مستطیلی” آن نهفته است. برای درک این موضوع، ابتدا بهتر است مکانیسم خود توجهی استانداردی را که توسط بسیاری از LLM ها استفاده می شود، در نظر بگیرید.

در خود توجهی، هر توکن در دنباله ورودی به هر توکن دیگر، از جمله خودش، توجه می‌کند. این به مدل اجازه می‌دهد تا روابط بین قسمت‌های مختلف ورودی را درک کند، اما همچنین منجر به مشکل مقیاس‌بندی درجه دوم می‌شود که قبلاً ذکر شد.

توجه مستطیلی، در مقابل، فرآیند توجه را به دو بخش مجزا تقسیم می‌کند:

  1. توجه ورودی کاربر: ورودی کاربر به تمام توکن‌های دانش توجه می‌کند و به مدل اجازه می‌دهد تا به اطلاعات مربوطه از پایگاه دانش دسترسی پیدا کند.
  2. توجه توکن دانش: توکن‌های دانش به یکدیگر یا ورودی کاربر توجه نمی‌کنند. این کلید کارایی KBLaM است.

با جلوگیری از تعامل بین توکن‌های دانش، KBLaM به طور چشمگیری تعداد محاسبات مورد نیاز را کاهش می‌دهد. این به مدل اجازه می‌دهد تا به صورت خطی با اندازه پایگاه دانش مقیاس‌بندی شود و امکان ترکیب مقادیر زیادی از اطلاعات خارجی را فراهم می‌کند.

مزایای یکپارچه‌سازی مستقیم دانش

ادغام مستقیم دانش در معماری مدل چندین مزیت دارد:

  • کاهش تأخیر: از آنجایی که KBLaM به سیستم‌های بازیابی خارجی متکی نیست، می‌تواند بسیار سریع‌تر از مدل‌های مبتنی بر RAG پاسخ دهد.
  • بهبود کارایی: مقیاس‌بندی خطی KBLaM آن را از نظر محاسباتی به طور قابل توجهی کارآمدتر از روش‌های سنتی می‌کند.
  • شفافیت بیشتر: KBLaM می‌تواند دانش را به توکن‌های خاص پیوند دهد، و درک اینکه چگونه مدل به پاسخ خود رسیده است را آسان‌تر می‌کند.
  • کاهش توهمات: KBLaM توانایی بیشتری در اجتناب از تولید اطلاعات نادرست یا بی‌معنی نشان داده است.

محدودیت‌ها و تحقیقات آینده

در حالی که KBLaM یک پیشرفت قابل توجه است، مهم است که محدودیت‌های فعلی آن را بپذیریم:

  • استدلال پیچیده: KBLaM در حال حاضر برای وظایف پرسش و پاسخ ساده مناسب‌تر است. تحقیقات بیشتری برای گسترش قابلیت‌های آن به سناریوهای استدلالی پیچیده‌تر مورد نیاز است.
  • نمایش دانش: پیاده‌سازی فعلی KBLaM از سه تایی‌های دانش استفاده می‌کند که ممکن است برای همه انواع دانش مناسب نباشد. کاوش در قالب‌های جایگزین نمایش دانش، حوزه‌ای برای کارهای آینده است.
  • استقرار در دنیای واقعی: KBLaM هنوز یک پروژه تحقیقاتی است و هنوز برای استقرار گسترده آماده نیست. قبل از اینکه بتوان از آن در برنامه‌های کاربردی دنیای واقعی استفاده کرد، آزمایش و پالایش بیشتری لازم است.

تأثیر گسترده‌تر بر حوزه هوش مصنوعی

توسعه KBLaM پیامدهای قابل توجهی برای حوزه وسیع‌تر هوش مصنوعی دارد. این نشان دهنده گامی به سوی ایجاد LLM هایی است که نه تنها قدرتمند هستند، بلکه:

  • دانش بیشتر: KBLaM با ادغام کارآمد مقادیر زیادی از دانش خارجی، می‌تواند دقت واقعی و جامعیت LLM ها را افزایش دهد.
  • قابل اطمینان‌تر: کاهش نرخ توهم و افزایش شفافیت KBLaM به قابلیت اطمینان و اعتماد بیشتر کمک می‌کند.
  • مقیاس‌پذیرتر: مقیاس‌بندی خطی KBLaM امکان ساخت LLM هایی را فراهم می‌کند که می‌توانند مقادیر واقعاً عظیمی از اطلاعات را مدیریت کنند.

تحقیق و توسعه مداوم KBLaM و رویکردهای مشابه نوید می‌دهد که مرزهای بین LLM ها و پایگاه‌های دانش را بیشتر محو کند و راه را برای نسل جدیدی از سیستم‌های هوش مصنوعی هموار کند که هم هوشمند و هم عمیقاً آگاه هستند. ماهیت متن‌باز این پروژه، همکاری را تشویق می‌کند و سرعت نوآوری را در این زمینه هیجان‌انگیز تسریع می‌بخشد.