Голямата надпревара при AI: По-голямо = по-добро?

Надпреварата за контекст: Защо AI компаниите се конкурират

Водещите AI организации, включително OpenAI, Google DeepMind и MiniMax, участват в ожесточена конкуренция за увеличаване на дължината на контекста, което пряко корелира с количеството текст, което един AI модел може да обработи в един екземпляр. Обещанието е, че по-голямата дължина на контекста ще позволи по-дълбоко разбиране, ще намали халюцинациите (измислиците) и ще създаде по-безпроблемни взаимодействия.

За предприятията това се превръща в AI, който може да анализира цели договори, да отстранява грешки в големи кодови бази или да обобщава дълги отчети, без да губи контекст. Очакването е, че чрез елиминиране на заобиколни решения като разделяне или генериране, подпомогнато от извличане (RAG), AI работните процеси могат да станат по-гладки и по-ефективни.

Проблемът ‘Игла в купа сено’: Намиране на критична информация

Проблемът ‘игла в купа сено’ подчертава трудността, пред която е изправен AI при идентифицирането на критична информация (‘иглата’), скрита в огромни набори отданни (‘купата сено’). LLM често се затрудняват да идентифицират ключови детайли, което води до неефективност в различни области:

  • Търсене и извличане на знания: AI асистентите често имат трудности при извличането на най-подходящите факти от обширни хранилища на документи.

  • Правни и съответствия: Адвокатите трябва да проследяват зависимостите на клаузите в дълги договори.

  • Корпоративни анализи: Финансовите анализатори рискуват да пренебрегнат важни прозрения, заровени в сложни отчети.

По-големите контекстни прозорци помагат на моделите да запазят повече информация, което намалява халюцинациите, подобрява точността и позволява:

  • Проверки за съответствие между документи: Една заявка с 256K токена може да сравни цял наръчник с политики с ново законодателство.

  • Синтез на медицинска литература: Изследователите могат да използват 128K+ токени прозорци, за да сравняват резултатите от лекарствени изпитвания в продължение на десетилетия на изследвания.

  • Разработка на софтуер: Отстраняването на грешки се подобрява, когато AI може да сканира милиони редове код, без да губи зависимости.

  • Финансови изследвания: Анализаторите могат да анализират пълни отчети за приходи и пазарни данни в една заявка.

  • Поддръжка на клиенти: Чатботовете с по-дълга памет могат да предоставят по-добре контекстно-осъзнати взаимодействия.

Увеличаването на контекстния прозорец също помага на модела по-добре да препраща към подходящи детайли, намалявайки вероятността от генериране на неправилна или измислена информация. Проучване на Станфорд от 2024 г. установи, че моделите с 128K токена намаляват процента на халюцинации с 18% в сравнение със системите RAG при анализ на споразумения за сливания.

Въпреки тези потенциални ползи, ранните потребители са съобщили за предизвикателства. Изследване от JPMorgan Chase демонстрира, че моделите се представят зле на приблизително 75% от техния контекст, като производителността при сложни финансови задачи се срива до почти нула отвъд 32K токена. Моделите все още се борят с дългосрочното припомняне, като често дават приоритет на скорошните данни пред по-дълбоките прозрения.

Това повдига критични въпроси: Наистина ли прозорец от 4 милиона токена подобрява разсъжденията или е просто скъпо разширяване на паметта? Колко от този огромен вход моделът действително използва? И надвишават ли ползите нарастващите изчислителни разходи?

RAG срещу Големи Подсказки: Икономическите компромиси

Генерирането, подпомогнато от извличане (RAG), комбинира възможностите на LLM със система за извличане, която извлича подходяща информация от външни източници като бази данни или хранилища на документи. Това позволява на модела да генерира отговори въз основа както на неговите предварително съществуващи знания, така и на динамично извлечените данни.

Тъй като компаниите интегрират AI за сложни задачи, те са изправени пред основно решение: трябва ли да използват масивни подсказки с големи контекстни прозорци или трябва да разчитат на RAG, за да извличат подходяща информация в реално време?

  • Големи Подсказки: Моделите с големи токени прозорци обработват всичко в един проход, намалявайки необходимостта от поддържане на външни системи за извличане и улавяне на прозрения между документи. Въпреки това, този подход е изчислително скъп, което води до по-високи разходи за извод и повишени изисквания за памет.

  • RAG: Вместо да обработва целия документ наведнъж, RAG извлича само най-подходящите части, преди да генерира отговор. Това значително намалява използването на токени и разходите, което го прави по-мащабируем за реални приложения.

Разходи за извод: Многостъпково извличане срещу Големи Единични Подсказки

Докато големите подсказки рационализират работните процеси, те изискват повече GPU мощност и памет, което ги прави скъпи за внедряване в мащаб. Подходите, базирани на RAG, въпреки че изискват множество стъпки за извличане, често намаляват общото потребление на токени, което води до по-ниски разходи за извод, без да се жертва точността.

За повечето предприятия идеалният подход зависи от конкретния случай на употреба:

  • Нуждаете се от дълбок анализ на документи? Моделите с голям контекст може да са по-добрият избор.
  • Нуждаете се от мащабируем, рентабилен AI за динамични заявки? RAG е вероятно по-умният избор.

Голям контекстен прозорец е особено ценен, когато:

  • Пълният текст трябва да бъде анализиран наведнъж, като например при прегледи на договори или одити на код.
  • Минимизирането на грешките при извличане е от решаващо значение, например при регулаторно съответствие.
  • Латентността е по-малко притеснителна от точността, както в стратегическите изследвания.

Според изследване от Google, моделите за прогнозиране на акции, използващи 128K-токени прозорци, анализиращи 10 години отчети за приходите, превъзхождат RAG с 29%. И обратно, вътрешно тестване в GitHub Copilot показа, че завършването на задачи е 2,3 пъти по-бързо с помощта на големи подсказки срещу RAG за миграции на монорепозитории.

Ограничения на Моделите с Голям Контекст: Латентност, Разходи и Използваемост

Въпреки че моделите с голям контекст предлагат впечатляващи възможности, има ограничения за това колко допълнителен контекст е наистина полезен. Тъй като контекстните прозорци се разширяват, в действие влизат три ключови фактора:

  • Латентност: Колкото повече токени обработва един модел, толкова по-бавен е изводът. По-големите контекстни прозорци могат да доведат до значителни забавяния, особено когато се изискват отговори в реално време.

  • Разходи: Изчислителните разходи се увеличават с всеки допълнителен обработен токен. Разширяването на инфраструктурата за обработка на тези по-големи модели може да стане непосилно скъпо, особено за предприятия с обемисти работни натоварвания.

  • Използваемост: С нарастването на контекста, способността на модела ефективно да се ‘фокусира’ върху най-подходящата информация намалява. Това може да доведе до неефективна обработка, където по-малко релевантни данни влияят върху производителността на модела, което води до намаляваща възвръщаемост както за точност, така и за ефективност.

Техниката Infini-attention на Google се опитва да смекчи тези компромиси чрез съхраняване на компресирани представяния на контекст с произволна дължина с ограничена памет. Въпреки това, компресирането неизбежно води до загуба на информация и моделите се борят да балансират непосредствената и историческата информация, което води до влошаване на производителността и увеличени разходи в сравнение с традиционния RAG.

Въпреки че моделите с 4M токена са впечатляващи, предприятията трябва да ги разглеждат като специализирани инструменти, а не като универсални решения. Бъдещето е в хибридните системи, които адаптивно избират между RAG и големи подсказки въз основа на специфичните изисквания на задачата.

Предприятията трябва да избират между модели с голям контекст и RAG въз основа на сложността на разсъжденията, съображенията за разходите и изискванията за латентност. Големите контекстни прозорци са идеални за задачи, изискващи дълбоко разбиране, докато RAG е по-рентабилен и ефективен за по-прости, фактични задачи. За да управляват ефективно разходите, предприятията трябва да определят ясни ограничения на разходите, като например $0,50 на задача, тъй като големите модели могат бързо да станат скъпи. Освен това, големите подсказки са по-подходящи за офлайн задачи, докато системите RAG се отличават в приложения в реално време, които изискват бързи отговори.

Нововъзникващи иновации като GraphRAG могат допълнително да подобрят тези адаптивни системи чрез интегриране на графики на знания с традиционни методи за векторно извличане. Тази интеграция подобрява улавянето на сложни взаимоотношения, което води до подобрено нюансирано разсъждение и прецизност на отговорите с до 35% в сравнение с подходи само с вектори. Последните внедрявания от компании като Lettria демонстрираха драстични подобрения в точността, увеличавайки се от 50% с традиционния RAG до над 80% с помощта на GraphRAG в рамките на хибридни системи за извличане.

Както Yuri Kuratov уместно предупреждава, ‘Разширяването на контекста, без да се подобряват разсъжденията, е като да строите по-широки магистрали за коли, които не могат да завиват’. Истинското бъдеще на AI е в моделите, които наистина разбират връзките в рамките на всеки размер на контекста, а не просто модели, които могат да обработват огромни количества данни. Става въпрос за интелигентност, а не само за памет.