Оптимизация на LLM с Bedrock Prompt Routing

Разпространението на големите езикови модели (LLM) революционизира множество индустрии, като все повече компании ги приемат, за да подобрят оперативната си ефективност. Това приемане обаче идва с критичното предизвикателство за ефективно управление на разходите, за да се избегне ненужна консумация на токени. Както посочи изпълнителният директор на OpenAI, дори прости потребителски изрази на благодарност към LLM могат кумулативно да добавят до милиони долари разходи. За да се справи с това, AWS представи Amazon Bedrock Intelligent Prompt Routing в предварителна версия миналия декември, която вече е напълно пусната този месец. Тази функция интелигентно насочва заявките въз основа на тяхната сложност към най-подходящия LLM, поддържайки висококачествени отговори, като същевременно намалява разходите и подобрява времето за отговор.

Какво представлява интелигентното насочване на заявки

Интелигентното насочване на заявки на Amazon Bedrock е проектирано да оптимизира използването на LLM, като насочва по-прости заявки към по-рентабилни модели, като по този начин подобрява производителността и намалява разходите. Системата разполага с маршрутизатори на заявки по подразбиране за всяко семейство модели, което позволява незабавна употреба с предварително дефинирани конфигурации, пригодени за конкретни основни модели. Потребителите също така имат гъвкавостта да конфигурират свои собствени маршрутизатори, за да отговорят на конкретни нужди. Понастоящем услугата поддържа редица семейства LLM, включително:

  • Anthropic Claude Series: Haiku, 5 v1, Haiku 3.5, Sonnet 3.5 v2
  • Llama Series: Llama 3.1 8b, 70b, 3.2 11b, 90B, and 3.3 70B
  • Nova Series: Nova Pro and Nova lite

AWS проведе обширни вътрешни тестове, използвайки както собствени, така и публично достъпни данни, за да оцени производителността на интелигентното насочване на заявки на Amazon Bedrock. Бяха използвани два ключови показателя:

  1. Средно увеличение на качеството на отговора при ограничение на разходите (ARQGC): Този стандартизиран показател (вариращ от 0 до 1) оценява качеството на рутера при различни ограничения на разходите, където 0,5 показва случайно маршрутизиране, а 1 представлява оптимално маршрутизиране.
  2. Спестявания на разходи: Този показател сравнява цената на използването на интелигентното насочване на заявки спрямо използването на най-мощния модел в дадена серия.
  3. Предимства на латентността: Измерено чрез средното време до първия токен (TTFT).

Събраните данни дават представа за ефективността на интелигентното насочване на заявки при балансиране на качеството на отговора, разходите и латентността.

Задълбочаване в разликата в качеството на отговора

Показателят за разликата в качеството на отговора измерва разминаването в отговорите между резервен модел и други модели. По-малката стойност показва по-голяма прилика в отговорите, докато по-голямата стойност предполага по-значителни разлики. Изборът на резервен модел е от решаващо значение. Например, ако Claude 3 Sonnet на Anthropic се използва като резервен модел и разликата в качеството на отговора е настроена на 10%, рутерът динамично избира LLM, който осигурява качество на отговора в рамките на 10% от Claude 3 Sonnet, за да оптимизира общата производителност.

И обратно, ако се използва по-евтин модел като Claude 3 Haiku като резервен модел, рутерът динамично избира LLM, който подобрява качеството на отговора с повече от 10% в сравнение с Claude 3 Haiku. В сценарии, където Haiku е резервният модел, разликата в качеството на отговора от 10% е конфигурирана, за да се постигне желания баланс между цена и качество.

Практическо внедряване и демонстрация

Интелигентното насочване на заявки на Amazon Bedrock е достъпно чрез AWS Management Console, което позволява на потребителите да създават персонализирани маршрутизатори или да използват предварително конфигурирани настройки по подразбиране. За да конфигурирате рутер за заявки, отидете на Prompt Routers в конзолата на Amazon Bedrock и изберете ‘Configure prompt router’.

След като бъде конфигуриран, рутерът може да се използва в Playground в конзолата. Например, може да бъде прикачен документ от 10K от Amazon.com и да бъдат зададени конкретни въпроси относно разходите за продажби.

Чрез избора на иконата ‘router metrics’ потребителите могат да определят кой модел в крайна сметка е обработил заявката. В случаи, включващи сложни въпроси, интелигентното насочване на заявки на Amazon Bedrock насочва заявката към по-мощен модел като Claude 3.5 Sonnet V2.

Подробно проучване на LLM сериите

Anthropic Claude Series

Серията Anthropic Claude предлага гама от модели, всеки с различни възможности и ценови профили. Моделът Haiku е проектиран за скорост и ефективност, което го прави подходящ за задачи, при които бързите отговори са от решаващо значение и сложността е умерена. Claude 3 Sonnet, от друга страна, осигурява по-балансиран подход, предоставяйки висококачествени отговори без премиум цената, свързана с най-модерните модели. Различните версии в рамките на серията Claude позволяват на потребителите да прецизират своя избор въз основа на специфични изисквания на приложението и бюджетни ограничения.

Llama Series

Серията Llama, разработена от Meta, е известна със своята природа с отворен код и гъвкавост. Моделите в тази серия варират от по-малки, по-ефективни модели като Llama 3.1 8b до по-големи, по-мощни модели като Llama 3.3 70B. Този диапазон позволява на потребителите да избират подходящия модел въз основа на сложността на задачата и наличните изчислителни ресурси. Серията Llama е особено популярна в научните изследвания и разработките поради своята достъпност и възможността за персонализиране и фина настройка на моделите.

Nova Series

Серията Nova включва модели като Nova Pro и Nova Lite, които са проектирани да осигурят баланс между производителност и ефективност. Nova Pro е насочен към по-взискателни задачи, които изискват по-високи нива на точност и детайлност, докато Nova Lite е оптимизиран за по-бърза обработка и по-ниски изчислителни разходи. Тази серия често се използва в приложения, където отговорите в реално време и ефективното използване на ресурсите са от съществено значение.

Анализ на сравнителните показатели и производителността

Сравнителните тестове, проведени от AWS, предоставят ценна информация за производителността на интелигентното насочване на заявки в различните серии модели. Показателят ARQGC подчертава способността на рутера да поддържа високо качество на отговора, като същевременно се придържа към ограниченията на разходите. Показателят за спестявания на разходи демонстрира икономическите ползи от използването на интелигентното насочване на заявки в сравнение с разчитането единствено на най-мощните модели. Показателят TTFT подчертава предимствата на латентността, показвайки по-бързи времена за отговор за много видове заявки.

Тези сравнителни показатели показват, че интелигентното насочване на заявки може значително да намали разходите, като същевременно поддържа висококачествени отговори и минимизира латентността в различни серии модели. Потребителите се насърчават да експериментират с различни стойности на разликата в качеството на отговора по време на конфигурирането, за да идентифицират оптималните настройки за техните специфични нужди. Чрез анализа на качеството на отговора, разходите и латентността на рутера върху техните набори от данни за разработка, потребителите могат да прецизират конфигурацията, за да постигнат възможно най-добрия баланс.

Подробен преглед на конфигурирането на разликата в качеството на отговора

Разликата в качеството на отговора (RQD) е ключов параметър в интелигентното насочване на заявки на Amazon Bedrock, който позволява на потребителите да прецизират баланса между качеството на отговора и рентабилността. По-ниската настройка на RQD тласка системата да приоритизира модели, които предоставят отговори, тясно подравнени с избрания резервен модел, осигурявайки последователност и надеждност. И обратно, по-високият RQD позволява на рутера да изследва по-широка гама от модели, като потенциално жертва известно качество за спестяване на разходи или подобрения на латентността.

Изборът на резервен модел е от решаващо значение, тъй като той служи като еталон, спрямо който се оценяват другите модели. За сценарии, изискващи най-високо ниво на точност и детайлност, изборът на модел от най-високо ниво като Claude 3 Sonnet като резервен гарантира, че рутерът взема предвид само модели, които могат да предоставят сравними резултати. В ситуации, в които разходите са основен проблем, може да се използва по-икономичен модел като Claude 3 Haiku като резервен, което позволява на рутера да оптимизира за ефективност, като същевременно поддържа приемливи нива на качество.

Помислете за сценарий, в който финансова институция използва LLM за предоставяне на поддръжка на клиенти. Ако институцията зададе Claude 3 Sonnet като резервен модел с RQD от 5%, интелигентната система за насочване на заявки ще насочва заявки само към модели, които предоставят отговори в рамките на 5% от качеството на Claude 3 Sonnet. Това гарантира, че клиентите получават постоянно висококачествена поддръжка, но това може да доведе до по-високи разходи. Ако вместо това институцията зададе Claude 3 Haiku като резервен с RQD от 15%, системата може да изследва по-широка гама от модели, потенциално намалявайки разходите, като същевременно предоставя разумно точни отговори.

Възможността за динамично коригиране на RQD въз основа на показатели за производителност в реално време допълнително подобрява адаптивността на интелигентната система за насочване на заявки. Чрез непрекъснато наблюдение на качеството на отговора, разходите и латентността, рутерът може автоматично да коригира RQD, за да поддържа желания баланс между тези фактори. Това гарантира, че системата остава оптимизирана, дори когато работните натоварвания и възможностите на моделите се развиват с течение на времето.

Разширени случаи на употреба и персонализиране

Отвъд конфигурациите по подразбиране, интелигентното насочване на заявки на Amazon Bedrock предлага разширени опции за персонализиране, за да отговори на специфични случаи на употреба. Потребителите могат да дефинират персонализирани правила за маршрутизиране въз основа на фактори като сложността на заявката, чувствителността на данните или желаното време за отговор. Това позволява гранулиран контрол върху начина, по който се обработват заявките, като се гарантира, че винаги се използват най-подходящите модели за всяка задача.

Например, доставчик на здравни услуги може да конфигурира персонализирани правила за маршрутизиране, за да гарантира, че чувствителните данни за пациентите винаги се обработват от модели, които отговарят на разпоредбите на HIPAA. По същия начин, правна кантора може да приоритизира модели, които са известни със своята точност и надеждност при обработката на критични правни документи.

Възможността за интегриране на персонализирани показатели в интелигентната система за насочване на заявки допълнително подобрява нейната адаптивност. Потребителите могат да дефинират свои собствени показатели за измерване на конкретни аспекти на качеството на отговора, като анализ на настроенията, фактическа точност или кохерентност. Чрез включването на тези персонализирани показатели в правилата за маршрутизиране, системата може да оптимизира за специфичните изисквания на всяко приложение.

Приложения в реалния свят и истории за успех

Няколко организации вече успешно са внедрили интелигентното насочване на заявки на Amazon Bedrock, за да оптимизират използването на LLM. Водеща компания за електронна търговия, например, е използвала системата, за да намали разходите си за LLM с 30%, като същевременно поддържа високи нива на удовлетвореност на клиентите. Чрез насочване на прости запитвания на клиенти към по-рентабилни модели и запазване на по-мощните модели за сложни проблеми, компанията значително е подобрила оперативната си ефективност.

Друга история за успех идва от голяма фирма за финансови услуги, която е използвала интелигентното насочване на заявки, за да подобри възможностите си за откриване на измами. Чрез интегриране на персонализирани показатели в правилата за маршрутизиране, фирмата е успяла да приоритизира модели, които са особено умели в идентифицирането на измамни транзакции. Това е довело до значително намаляване на загубите от измами и подобрена обща сигурност.

Тези примери демонстрират осезаемите ползи от интелигентното насочване на заявки на Amazon Bedrock и подчертават неговия потенциал да трансформира начина, по който организациите използват LLM. Чрез предоставянето на гъвкаво, рентабилно и високопроизводително решение, системата дава възможност на бизнеса да отключи пълния потенциал на LLM, като същевременно управлява ефективно разходите.

Навигиране в AWS Management Console за маршрутизиране на заявки

AWS Management Console предоставя удобен за потребителя интерфейс за конфигуриране и управление на интелигентното насочване на заявки на Amazon Bedrock. За да започнете, отидете на услугата Amazon Bedrock в конзолата на AWS и изберете ‘Prompt Routers’ от навигационния панел.

Оттам можете да създадете нов рутер за заявки или да промените съществуващ. Когато създавате нов рутер, ще трябва да посочите резервния модел, разликата в качеството на отговора и всички персонализирани правила за маршрутизиране. Конзолата предоставя подробни насоки и съвети, които да ви помогнат да конфигурирате тези настройки.

След като рутерът е конфигуриран, можете да го тествате, като използвате Playground в конзолата. Просто прикачете документ или въведете заявка и наблюдавайте кой модел е избран от рутера. Иконата ‘router metrics’ предоставя подробна информация за решението за маршрутизиране, включително качеството на отговора, разходите и латентността.

AWS Management Console също така предоставя изчерпателни възможности за наблюдение и регистриране, което ви позволява да проследявате производителността на вашите рутери за заявки с течение на времето. Можете да използвате тези регистри, за да идентифицирате потенциални проблеми и да оптимизирате конфигурацията за максимална ефективност.

Най-добри практики за оптимизиране на маршрутизирането на заявки

За да извлечете максимума от интелигентното насочване на заявки на Amazon Bedrock, обмислете следните най-добри практики:

  1. Изберете правилния резервен модел: Резервният модел служи като еталон за качеството на отговора, така че изберете модел, който е в съответствие с вашите изисквания за производителност.
  2. Фина настройка на разликата в качеството на отговора: Експериментирайте с различни стойности на RQD, за да намерите оптималния баланс между качеството на отговора и рентабилността.
  3. Внедряване на персонализирани правила за маршрутизиране: Използвайте персонализирани правила за маршрутизиране, за да насочвате конкретни видове заявки към най-подходящите модели.
  4. Интегриране на персонализирани показатели: Включете персонализирани показатели за измерване на конкретни аспекти на качеството на отговора, които са важни за вашето приложение.
  5. Редовно наблюдение на производителността: Проследявайте производителността на вашите рутери за заявки с течение на времето и правете корекции, ако е необходимо.
  6. Бъдете в течение с актуализациите на моделите: Бъдете в течение с последните актуализации на моделите и коригирайте съответно конфигурациите си, за да се възползвате от новите възможности.

Като следвате тези най-добри практики, можете да оптимизирате използването на LLM и да отключите пълния потенциал на интелигентното насочване на заявки на Amazon Bedrock.

Бъдещето на LLM оптимизацията

Тъй като LLM продължават да се развиват и да се интегрират все повече в различни приложения, необходимостта от ефективни и рентабилни стратегии за оптимизация само ще нараства. Интелигентното насочване на заявки на Amazon Bedrock представлява значителна стъпка напред в тази посока, предоставяйки гъвкав и мощен инструмент за управление на използването на LLM.

В бъдеще можем да очакваме по-нататъшен напредък в технологиите за маршрутизиране на заявки, включително по-усъвършенствани алгоритми за маршрутизиране, подобрена интеграция с други услуги на AWS и подобрена поддръжка за по-широка гама от LLM. Тези подобрения ще дадат възможност на организациите да използват пълния потенциал на LLM, като същевременно управляват ефективно разходите и осигуряват високи нива на производителност.

Интегрирането на техники за оптимизация, управлявани от AI, също ще играе решаваща роля в бъдещето на LLM оптимизацията. Чрез използването на AI за анализ на модели на заявки, качество на отговора и показатели за разходите, системите ще могат автоматично да коригират правилата и конфигурациите за маршрутизиране, за да увеличат максимално ефективността и производителността. Това допълнително ще намали тежестта върху потребителите и ще им позволи да се съсредоточат върху използването на прозренията и възможностите на LLM.

В крайна сметка, целта на LLM оптимизацията е да направи тези мощни технологии по-достъпни и достъпни за по-широк кръг от организации. Чрез предоставянето на инструменти и стратегии, които опростяват управлението и оптимизацията на LLM, Amazon Bedrock помага да се демократизира достъпът до AI и да се даде възможност на бизнеса да иновира и да се конкурира в дигиталната епоха.

Чрез внимателно оценяване на различните LLM серии, разбиране на тънкостите на разликата в качеството на отговора и прилагане на най-добри практики за оптимизация, организациите могат да използват пълния потенциал на интелигентното насочване на заявки на Amazon Bedrock, за да постигнат значителни спестявания на разходи, подобрена производителност и повишена удовлетвореност на клиентите.