مسابقه بزرگ متن هوش مصنوعی: آیا بزرگتر واقعا بهتر است؟

در جامعه هوش مصنوعی، تلاش برای ساخت مدل‌های زبانی بزرگتر (LLM) که از مرز یک میلیون توکن فراتر می‌روند، بحث‌های شدیدی را برانگیخته است. مدل‌هایی با ظرفیت توکن‌های عظیم، مانند 4 میلیون توکن MiniMax-Text-01 و توانایی Gemini 1.5 Pro برای پردازش همزمان 2 میلیون توکن، سر و صدای زیادی به پا کرده‌اند. این مدل‌ها نوید کاربردهای انقلابی را می‌دهند و این پتانسیل را دارند که پایگاه‌های کد گسترده، اسناد حقوقی پیچیده و مقالات تحقیقاتی عمیق را در یک مرحله تجزیه و تحلیل کنند.

عامل مهم در این بحث، طول بافت است - میزان متنی که یک مدل هوش مصنوعی می‌تواند در هر زمان پردازش و حفظ کند. یک پنجره بافت طولانی‌تر به یک مدل ML اجازه می‌دهد تا اطلاعات بسیار بیشتری را در یک درخواست مدیریت کند و نیاز به تجزیه اسناد یا تکه تکه کردن مکالمات را کاهش می‌دهد. برای درک بهتر، یک مدل با ظرفیت 4 میلیون توکن می‌تواند به طور نظری تقریباً 10000 صفحه کتاب را در یک نوبت هضم کند.

از نظر تئوری، این بافت گسترده‌تر باید منجر به درک بهبود یافته و استدلال پیچیده‌تر شود. با این حال، سوال اساسی همچنان باقی است: آیا این پنجره‌های بافت عظیم به ارزش تجاری ملموس تبدیل می‌شوند؟

در حالی که کسب و کارها هزینه‌های مقیاس‌بندی زیرساخت‌های خود را در برابر مزایای بالقوه در بهره‌وری و دقت ارزیابی می‌کنند، سوال اساسی این است که آیا ما واقعاً سطوح جدیدی از استدلال هوش مصنوعی را باز می‌کنیم یا صرفاً مرزهای حافظه توکن را بدون دستیابی به پیشرفت معنادار پیش می‌بریم. این مقاله به بررسی مبادلات فنی و اقتصادی، مشکلات بنچمارک و گردش کار سازمانی در حال تحول می‌پردازد که آینده LLMهای با بافت بزرگ را شکل می‌دهند.

مسابقه تسلیحاتی طول بافت: چرا شرکت‌های هوش مصنوعی در حال رقابت هستند

سازمان‌های پیشرو هوش مصنوعی، از جمله OpenAI، Google DeepMind و MiniMax، در یک رقابت شدید برای افزایش طول بافت شرکت دارند، که مستقیماً با میزان متنی که یک مدل هوش مصنوعی می‌تواند در یک نمونه واحد پردازش کند، مرتبط است. وعده این است که طول بافت بیشتر، درک عمیق‌تری را ممکن می‌سازد، توهمات (ساختگیات) را کاهش می‌دهد و تعاملات یکپارچه‌تری ایجاد می‌کند.

برای شرکت‌ها، این به هوش مصنوعی تبدیل می‌شود که می‌تواند کل قراردادها را تجزیه و تحلیل کند، پایگاه‌های کد بزرگ را اشکال‌زدایی کند یا گزارش‌های طولانی را بدون از دست دادن بافت خلاصه کند. انتظار این است که با حذف راهکارهایی مانند قطعه‌بندی یا تولید تقویت‌شده با بازیابی (RAG)، گردش کار هوش مصنوعی روان‌تر و کارآمدتر شود.

مسئله ‘سوزن در انبار کاه’: یافتن اطلاعات حیاتی

مشکل ‘سوزن در انبار کاه’ دشواری هوش مصنوعی در شناسایی اطلاعات حیاتی (‘سوزن’) پنهان در مجموعه داده‌های وسیع (‘انبار کاه’) را برجسته می‌کند. LLMها اغلب برای شناسایی جزئیات کلیدی با مشکل مواجه می‌شوند، که منجر به ناکارآمدی در زمینه‌های مختلف می‌شود:

  • جستجو و بازیابی دانش: دستیاران هوش مصنوعی اغلب در استخراج مهم‌ترین حقایق از مخازن اسناد گسترده مشکل دارند.

  • حقوقی و انطباق: وکلا باید وابستگی‌های بند را در قراردادهای طولانی پیگیری کنند.

  • تجزیه و تحلیل سازمانی: تحلیلگران مالی خطر نادیده گرفتن بینش‌های مهم دفن شده در گزارش‌های پیچیده را دارند.

پنجره‌های بافت بزرگتر به مدل‌ها کمک می‌کنند تا اطلاعات بیشتری را حفظ کنند، که توهمات را کاهش می‌دهد، دقت را بهبود می‌بخشد و موارد زیر را فعال می‌کند:

  • بررسی‌های انطباق متقابل سند: یک اعلان 256K توکنی واحد می‌تواند کل کتابچه راهنمای سیاست را در برابر قوانین جدید مقایسه کند.

  • سنتز ادبیات پزشکی: محققان می‌توانند از پنجره‌های 128K+ توکنی برای مقایسه نتایج آزمایش دارویی در طول دهه‌ها مطالعه استفاده کنند.

  • توسعه نرم‌افزار: اشکال‌زدایی بهبود می‌یابد زمانی که هوش مصنوعی می‌تواند میلیون‌ها خط کد را بدون از دست دادن وابستگی اسکن کند.

  • تحقیقات مالی: تحلیلگران می‌توانند گزارش‌های کامل درآمد و داده‌های بازار را در یک پرس و جو واحد تجزیه و تحلیل کنند.

  • پشتیبانی مشتری: چت‌بات‌ها با حافظه طولانی‌تر می‌توانند تعاملات آگاهانه‌تر از بافت را ارائه دهند.

افزایش پنجره بافت همچنین به مدل کمک می‌کند تا بهتر به جزئیات مربوطه ارجاع دهد و احتمال تولید اطلاعات نادرست یا ساختگی را کاهش می‌دهد. یک مطالعه استنفورد در سال 2024 نشان داد که مدل‌های 128K توکنی در مقایسه با سیستم‌های RAG هنگام تجزیه و تحلیل توافق‌نامه‌های ادغام، نرخ توهم را 18٪ کاهش می‌دهند.

با وجود این مزایای بالقوه، پذیرندگان اولیه چالش‌هایی را گزارش کرده‌اند. تحقیقات JPMorgan Chase نشان داده است که مدل‌ها در حدود 75٪ از بافت خود عملکرد ضعیفی دارند و عملکرد در وظایف پیچیده مالی فراتر از 32K توکن تقریباً به صفر می‌رسد. مدل‌ها هنوز با یادآوری دوربرد مشکل دارند و اغلب داده‌های اخیر را نسبت به بینش‌های عمیق‌تر در اولویت قرار می‌دهند.

این سوالات مهمی را مطرح می‌کند: آیا یک پنجره 4 میلیون توکنی واقعاً استدلال را افزایش می‌دهد یا صرفاً یک گسترش گران قیمت از حافظه است؟ مدل واقعاً از چه مقدار از این ورودی عظیم استفاده می‌کند؟ و آیا مزایا بیشتر از هزینه‌های محاسباتی رو به افزایش است؟

RAG در مقابل اعلان‌های بزرگ: مبادلات اقتصادی

تولید تقویت‌شده با بازیابی (RAG) قابلیت‌های LLMها را با یک سیستم بازیابی ترکیب می‌کند که اطلاعات مربوطه را از منابع خارجی مانند پایگاه‌های داده یا فروشگاه‌های اسناد جمع‌آوری می‌کند. این به مدل اجازه می‌دهد تا پاسخ‌هایی را بر اساس دانش از پیش موجود خود و داده‌های بازیابی شده پویا ایجاد کند.

همانطور که شرکت‌ها هوش مصنوعی را برای وظایف پیچیده ادغام می‌کنند، با یک تصمیم اساسی روبرو می‌شوند: آیا باید از اعلان‌های عظیم با پنجره‌های بافت بزرگ استفاده کنند یا باید به RAG تکیه کنند تا اطلاعات مربوطه را در زمان واقعی بازیابی کنند؟

  • اعلان‌های بزرگ: مدل‌ها با پنجره‌های توکن بزرگ همه چیز را در یک مرحله پردازش می‌کنند و نیاز به نگهداری سیستم‌های بازیابی خارجی را کاهش می‌دهند و بینش‌های متقابل سند را ضبط می‌کنند. با این حال، این رویکرد از نظر محاسباتی گران است، که منجر به هزینه‌های استنتاج بالاتر و افزایش نیازهای حافظه می‌شود.

  • RAG: به جای پردازش کل سند به طور همزمان، RAG فقط مرتبط‌ترین بخش‌ها را قبل از ایجاد یک پاسخ بازیابی می‌کند. این به طور قابل توجهی استفاده و هزینه‌های توکن را کاهش می‌دهد و آن را برای برنامه‌های کاربردی دنیای واقعی مقیاس‌پذیرتر می‌کند.

هزینه‌های استنتاج: بازیابی چند مرحله‌ای در مقابل اعلان‌های تکی بزرگ

در حالی که اعلان‌های بزرگ گردش کار را ساده می‌کنند، به قدرت GPU و حافظه بیشتری نیاز دارند و پیاده‌سازی آن‌ها را در مقیاس گران می‌کنند. رویکردهای مبتنی بر RAG، با وجود نیاز به چندین مرحله بازیابی، اغلب مصرف کلی توکن را کاهش می‌دهند، که منجر به هزینه‌های استنتاج کمتر بدون قربانی کردن دقت می‌شود.

برای اکثر شرکت‌ها، رویکرد ایده‌آل به مورد استفاده خاص بستگی دارد:

  • نیاز به تجزیه و تحلیل عمیق اسناد دارید؟ مدل‌های بافت بزرگ ممکن است انتخاب بهتری باشند.
  • به هوش مصنوعی مقیاس‌پذیر و مقرون به صرفه برای پرس و جوهای پویا نیاز دارید؟ RAG احتمالاً انتخاب هوشمندانه‌تری است.

یک پنجره بافت بزرگ به ویژه زمانی ارزشمند است که:

  • کل متن باید به طور همزمان تجزیه و تحلیل شود، مانند بررسی قرارداد یا ممیزی کد.
  • به حداقل رساندن خطاهای بازیابی حیاتی است، به عنوان مثال، در انطباق با مقررات.
  • تأخیر کمتر از دقت مهم است، مانند تحقیقات استراتژیک.

بر اساس تحقیقات Google، مدل‌های پیش‌بینی سهام با استفاده از پنجره‌های 128K توکنی که 10 سال از رونوشت‌های درآمد را تجزیه و تحلیل می‌کنند، 29٪ بهتر از RAG عمل کردند. برعکس، آزمایش داخلی در GitHub Copilot نشان داد که تکمیل کار با استفاده از اعلان‌های بزرگ در مقابل RAG برای مهاجرت monorepo 2.3 برابر سریعتر بود.

محدودیت‌های مدل‌های بافت بزرگ: تأخیر، هزینه‌ها و قابلیت استفاده

در حالی که مدل‌های بافت بزرگ قابلیت‌های چشمگیری را ارائه می‌دهند، محدودیت‌هایی در مورد میزان بافت اضافی که واقعاً مفید است، وجود دارد. با گسترش پنجره‌های بافت، سه عامل کلیدی وارد عمل می‌شوند:

  • تأخیر: هرچه مدل توکن‌های بیشتری را پردازش کند، استنتاج کندتر می‌شود. پنجره‌های بافت بزرگتر می‌توانند منجر به تأخیرهای قابل توجهی شوند، به ویژه زمانی که پاسخ‌های بلادرنگ مورد نیاز است.

  • هزینه‌ها: هزینه‌های محاسباتی با هر توکن اضافی پردازش شده افزایش می‌یابد. مقیاس‌بندی زیرساخت‌ها برای رسیدگی به این مدل‌های بزرگتر می‌تواند به طور بازدارنده‌ای گران شود، به خصوص برای شرکت‌هایی که حجم کاری بالایی دارند.

  • قابلیت استفاده: با رشد بافت، توانایی مدل برای ‘تمرکز’ موثر بر مرتبط‌ترین اطلاعات کاهش می‌یابد. این می‌تواند منجر به پردازش ناکارآمد شود، جایی که داده‌های کم‌اهمیت‌تر بر عملکرد مدل تأثیر می‌گذارد و منجر به بازده نزولی برای دقت و کارایی می‌شود.

تکنیک Infini-attention Google تلاش می‌کند تا این مبادلات را با ذخیره نمایش‌های فشرده از بافت با طول دلخواه با حافظه محدود کاهش دهد. با این حال، فشرده‌سازی به طور اجتناب‌ناپذیری منجر به از دست دادن اطلاعات می‌شود و مدل‌ها برای متعادل کردن اطلاعات فوری و تاریخی مشکل دارند، که منجر به کاهش عملکرد و افزایش هزینه‌ها در مقایسه با RAG سنتی می‌شود.

در حالی که مدل‌های 4M توکنی چشمگیر هستند، شرکت‌ها باید آن‌ها را به عنوان ابزارهای تخصصی و نه راه‌حل‌های جهانی در نظر بگیرند. آینده در سیستم‌های ترکیبی نهفته است که به طور تطبیقی ​​بین RAG و اعلان‌های بزرگ بر اساس الزامات وظیفه خاص انتخاب می‌کنند.

شرکت‌ها باید بر اساس پیچیدگی استدلال، ملاحظات هزینه و الزامات تأخیر بین مدل‌های بافت بزرگ و RAG انتخاب کنند. پنجره‌های بافت بزرگ برای وظایفی که نیاز به درک عمیق دارند ایده‌آل هستند، در حالی که RAG برای وظایف ساده‌تر و واقعی مقرون به صرفه‌تر و کارآمدتر است. برای مدیریت موثر هزینه‌ها، شرکت‌ها باید محدودیت‌های هزینه روشنی، مانند 0.50 دلار در هر کار، تعیین کنند، زیرا مدل‌های بزرگ می‌توانند به سرعت گران شوند. علاوه بر این، اعلان‌های بزرگ برای وظایف آفلاین مناسب‌تر هستند، در حالی که سیستم‌های RAG در برنامه‌های کاربردی بلادرنگ که نیاز به پاسخ‌های سریع دارند، عالی هستند.

نوآوری‌های نوظهور مانند GraphRAG می‌توانند با ادغام نمودارهای دانش با روش‌های بازیابی برداری سنتی، این سیستم‌های تطبیقی ​​را بیشتر تقویت کنند. این ادغام باعث بهبود ضبط روابط پیچیده می‌شود، که منجر به افزایش استدلال ظریف و دقت پاسخ تا 35٪ در مقایسه با رویکردهای فقط برداری می‌شود. پیاده‌سازی‌های اخیر توسط شرکت‌هایی مانند Lettria پیشرفت‌های چشمگیری در دقت نشان داده است، از 50٪ با RAG سنتی به بیش از 80٪ با استفاده از GraphRAG در سیستم‌های بازیابی ترکیبی.

همانطور که یوری کوراتوف به درستی هشدار می‌دهد، ‘گسترش بافت بدون بهبود استدلال مانند ساختن بزرگراه‌های پهن‌تر برای خودروهایی است که نمی‌توانند هدایت کنند.’ آینده واقعی هوش مصنوعی در مدل‌هایی نهفته است که واقعاً روابط را در هر اندازه بافت درک می‌کنند، نه فقط مدل‌هایی که می‌توانند مقادیر زیادی داده را پردازش کنند. این در مورد هوش است، نه فقط حافظه.