В епоха, в която изкуственият интелект (AI) бързо се развива, Retrieval Augmented Generation (RAG) се очертава като ключова техника. RAG дава възможност на AI системите да предоставят по-добре информирани и контекстуално подходящи отговори чрез безпроблемно интегриране на възможностите на генеративните AI модели с външни източници на данни. Този подход надхвърля ограниченията на разчитането единствено на предварително съществуващата база от знания на модела. В тази статия ще разгледаме трансформиращия потенциал на персонализираните конектори за данни в рамките на Amazon Bedrock Knowledge Bases, показвайки как те рационализират създаването на RAG работни процеси, които използват персонализирани входни данни. Тази функционалност позволява на Amazon Bedrock Knowledge Bases да поглъщат поточно данни, позволявайки на разработчиците динамично да добавят, актуализират или изтриват информация в техните бази от знания чрез директни API извиквания.
Помислете за безбройните приложения, където поглъщането на данни в реално време е от решаващо значение: анализиране на модели на кликвания, обработка на транзакции с кредитни карти, интерпретиране на данни от сензори на Интернет на нещата (IoT), извършване на анализ на логове и наблюдение на цените на суровините. В такива сценарии както текущите данни, така и историческите тенденции играят жизненоважна роля при вземането на информирани решения. Традиционно, включването на такива критични входни данни изискваше поставяне на данните в поддържан източник на данни, последвано от иницииране или планиране на задача за синхронизация на данни. Продължителността на този процес варира в зависимост от качеството и обема на данните. Въпреки това, с персонализираните конектори за данни, организациите могат бързо да поглъщат конкретни документи от персонализирани източници на данни, без да е необходимо пълно синхронизиране, и да поглъщат поточно данни, без да разчитат на междинно съхранение. Този подход минимизира закъсненията и елиминира режийните разходи за съхранение, което води до по-бърз достъп до данни, намалено забавяне и подобрена производителност на приложенията.
С поточното поглъщане чрез персонализирани конектори, Amazon Bedrock Knowledge Bases могат да обработват поточно данни, без да е необходимо междинни източници на данни. Това позволява данните да станат достъпни почти в реално време. Тази възможност автоматично сегментира и преобразува входните данни в embeddings, използвайки избрания модел на Amazon Bedrock, съхранявайки всичко в бекенд векторната база данни. Този опростен процес се прилага както за нови, така и за съществуващи бази данни, което ви позволява да се съсредоточите върху изграждането на AI приложения, без да се налага да организирате разделянето на данни на части, генерирането на embeddings или осигуряването и индексирането на векторното хранилище. Освен това, възможността за поглъщане на конкретни документи от персонализирани източници на данни намалява закъснението и намалява оперативните разходи, като елиминира изискванията за междинно съхранение.
Amazon Bedrock: Основа за генеративен AI
Amazon Bedrock е напълно управлявана услуга, която предлага разнообразна селекция от високопроизводителни основни модели (FMs) от водещи AI компании като Anthropic, Cohere, Meta, Stability AI и Amazon, достъпни чрез унифициран API. Тази цялостна услуга предоставя широк набор от възможности, които ви позволяват да разработвате генеративни AI приложения със стабилна сигурност, поверителност и отговорни AI функции. С Amazon Bedrock можете да изследвате и оценявате първокласни FMs за вашия конкретен случай на употреба, да ги персонализирате частно със собствените си данни, използвайки техники като фино настройване и RAG, и да конструирате интелигентни агенти, които могат да изпълняват задачи, използвайки вашите корпоративни системи и източници на данни.
Amazon Bedrock Knowledge Bases: Разширяване на AI със знания
Amazon Bedrock Knowledge Bases дава възможност на организациите да изграждат напълно управлявани RAG тръбопроводи, които обогатяват AI отговорите с контекстуална информация, получена от частни източници на данни. Това води до по-подходящи, точни и персонализирани взаимодействия. Като използвате Amazon Bedrock Knowledge Bases, можете да създавате приложения, които са подобрени от контекста, получен от заявка към база знания. Той ускорява времето за излизане на пазара, като абстрахира сложността на изграждането на тръбопроводи и предоставя готово RAG решение. Това намалява времето за разработка на вашите приложения.
Персонализирани конектори: Ключът към безпроблемно поточно поглъщане
Amazon Bedrock Knowledge Bases осигурява поддръжка за персонализирани конектори и поточно поглъщане на данни. Това ви позволява да добавяте, актуализирате и изтривате данни във вашата база знания чрез директни API извиквания, предлагайки безпрецедентна гъвкавост и контрол.
Изграждане на генеративен AI анализатор на цените на акциите с RAG: Преглед на решението
В тази статия демонстрираме RAG архитектура, използваща Amazon Bedrock Knowledge Bases, персонализирани конектори и теми, създадени с Amazon Managed Streaming for Apache Kafka (Amazon MSK), за да дадем възможност на потребителите да анализират тенденциите в цените на акциите. Amazon MSK е услуга за поточно предаване на данни, която опростява управлението на инфраструктурата и операциите на Apache Kafka, което улеснява стартирането на приложения на Apache Kafka в Amazon Web Services (AWS). Решението позволява анализ в реално време на обратна връзка от клиентите чрез векторни embeddings и големи езикови модели (LLMs).
Архитектурни компоненти
Архитектурата се състои от два основни компонента:
Работен поток за предварителна обработка на поточно данни:
- .csv файл, съдържащ данни за цените на акциите, се качва в тема на MSK, симулирайки поточно вход.
- Това задейства AWS Lambda функция.
- Функцията поглъща консумираните данни в база знания.
- Базата знания използва embeddings модел, за да трансформира данните във векторен индекс.
- Векторният индекс се съхранява във векторна база данни в рамките на базата знания.
Изпълнение по време на изпълнение по време на потребителски заявки:
- Потребителите изпращат заявки за цените на акциите.
- Основният модел използва базата знания, за да намери подходящи отговори.
- Базата знания връща съответните документи.
- Потребителят получава отговор въз основа на тези документи.
Дизайн на изпълнение: Ръководство стъпка по стъпка
Изпълнението включва следните ключови стъпки:
- Настройка на източник на данни: Конфигуриране на тема на MSK за поточно предаване на входните цени на акциите.
- Amazon Bedrock Knowledge Bases Настройка: Създайте база знания в Amazon Bedrock, като използвате бързото създаване на нова опция за векторно хранилище, която автоматично осигурява и настройва векторното хранилище.
- Консумация и поглъщане на данни: Всеки път, когато данни пристигнат в темата на MSK, задействайте Lambda функция, за да извлечете фондовите индекси, цените и информацията за времето и да ги подадете в персонализирания конектор за Amazon Bedrock Knowledge Bases.
- Тестване на базата знания: Оценете анализа на обратна връзка от клиентите, като използвате базата знания.
Разглеждане на решението: Изграждане на вашия инструмент за анализ на акциите
Следвайте инструкциите в секциите по-долу, за да изградите генеративен AI инструмент за анализ на акциите, като използвате Amazon Bedrock Knowledge Bases и персонализирани конектори.
Конфигуриране на архитектурата: Разполагане на CloudFormation шаблон
За да приложите тази архитектура, разположете AWS CloudFormation шаблона от този GitHub хранилище във вашия AWS акаунт. Този шаблон разполага следните компоненти:
- Виртуални частни облаци (VPCs), подмрежи, групи за сигурност и AWS Identity and Access Management (IAM) роли.
- MSK клъстер, хостващ входна тема на Apache Kafka.
- Lambda функция за консумиране на данни от темата на Apache Kafka.
- Amazon SageMaker Studio бележник за настройка и активиране.
Създаване на Apache Kafka тема: Настройване на потока от данни
В предварително създадения MSK клъстер, брокерите вече са разположени и готови за употреба. Следващата стъпка е да се свържете с MSK клъстера и да създадете темата за тестване на потока, използвайки SageMaker Studio терминален екземпляр. Следвайте подробните инструкции на Създаване на тема в Amazon MSK клъстера.
Общите стъпки са:
- Изтеглете и инсталирайте най-новия Apache Kafka клиент.
- Свържете се с брокерския екземпляр на MSK клъстера.
- Създайте темата за тестване на потока в брокерския екземпляр.
Създаване на база знания в Amazon Bedrock: Свързване към вашите данни
За да създадете база знания в Amazon Bedrock, следвайте тези стъпки:
- В Amazon Bedrock конзолата, в лявата навигационна страница под Builder tools, изберете Knowledge Bases.
- За да инициирате създаването на база знания, в падащото меню Create, изберете Knowledge Base with vector store, както е показано на следващата екранна снимка.
- В Provide Knowledge Base details панела, въведете
BedrockStreamIngestKnowledgeBase
като Knowledge Base name. - Под IAM permissions, изберете опцията по подразбиране, Create and use a new service role, и (по избор) предоставете Service role name, както е показано на следващата екранна снимка.
- В Choose data source панела, изберете Custom като източник на данни, където се съхранява вашият набор от данни
- Изберете Next, както е показано на следващата екранна снимка
- В Configure data source панела, въведете
BedrockStreamIngestKBCustomDS
като Data source name. - Под Parsing strategy, изберете Amazon Bedrock default parser и за Chunking strategy, изберете Default chunking. Изберете Next, както е показано на следващата екранна снимка.
- В Select embeddings model and configure vector store pane, за Embeddings model, изберете Titan Text Embeddings v2. За Embeddings type, изберете Floating-point vector embeddings. За Vector dimensions, изберете 1024, както е показано на следващата екранна снимка. Уверете се, че сте поискали и получили достъп до избрания FM в Amazon Bedrock. За да научите повече, вижте Add or remove access to Amazon Bedrock foundation models.
- В Vector database панела, изберете Quick create a new vector store и изберете новата опция Amazon OpenSearch Serverless като векторно хранилище.
- На следващия екран, прегледайте вашите селекции. За да финализирате настройката, изберете Create.
- В рамките на няколко минути, конзолата ще покаже вашата новосъздадена база знания.
Конфигуриране на AWS Lambda Apache Kafka Consumer: Задействане на поглъщането на данни
Сега, конфигурирайте функцията Lambda потребител, за да се задейства веднага щом входната тема на Apache Kafka получи данни, използвайки API извиквания.
- Конфигурирайте ръчно създадената Amazon Bedrock Knowledge Base ID и нейната потребителска Data Source ID като променливи на средата в рамките на Lambda функцията. Когато използвате примерния бележник, посочените имена на функции и ID ще бъдат попълнени автоматично.
Задълбочено гмуркане: Разкриване на силата на Amazon Bedrock Knowledge Bases с персонализирани конектори за поглъщане на данни в реално време
Сближаването на генеративния AI и потоците от данни в реално време отключва безпрецедентни възможности за бизнеса да получи по-задълбочени прозрения, да автоматизира критични процеси и да доставя персонализирани преживявания. Amazon Bedrock Knowledge Bases, в комбинация с персонализирани конектори, е на преден план в тази революция, давайки възможност на организациите безпроблемно да интегрират поточно данни от различни източници като Apache Kafka в техните AI-базирани приложения.
Тази възможност надхвърля ограниченията на традиционните методи за поглъщане на данни, които често включват сложни процеси на поставяне, трансформация и синхронизация. С персонализирани конектори данните могат да бъдат погълнати директно в Knowledge Base почти в реално време, елиминирайки закъснението и давайки възможност на AI моделите да реагират динамично на променящите се условия.
Случаи на употреба в различните индустрии
Ползите от този подход са широкообхватни и приложими за широк спектър от индустрии.
- Финансови услуги: Банките и инвестиционните фирми могат да използват данни за пазара в реално време и потоци от клиентски транзакции, за да откриват измами, да персонализират инвестиционни препоръки и да автоматизират стратегии за търговия. Представете си AI-базирана система, която анализира транзакции с кредитни карти в реално време, маркирайки подозрителна активност и предотвратявайки измамни покупки, преди да се случат.
- Търговия на дребно: E-commerce бизнесите могат да анализират данни от кликвания и потоци от социални медии, за да разберат поведението на клиентите, да персонализират препоръки за продукти и да оптимизират стратегии за ценообразуване. Това позволява динамични корекции на маркетинговите кампании и управлението на инвентара въз основа на търсенето в реално време.
- Производство: Производителите могат да използват IoT сензорни данни от фабрично оборудване, за да предсказват нуждите от поддръжка, да оптимизират производствените процеси и да подобрят качеството на продуктите. Например, AI система може да анализира данни за вибрации от машина, за да идентифицира потенциални повреди, преди да доведат до скъпо струващ престой.
- Здравеопазване: Болниците могат да анализират потоци от данни за пациенти, за да открият ранни признаци на заболяване, да персонализират планове за лечение и да подобрят резултатите за пациентите. Мониторингът на жизнените показатели в реално време може да предупреди медицинския персонал за критични промени в състоянието на пациента, позволявайки по-бърза интервенция и подобрена грижа.
Ключови предимства: Отвъд данните в реално време
Предимствата от използването на Amazon Bedrock Knowledge Bases с персонализирани конектори се простират отвъд просто поглъщането на данни в реално време.
- Намалено забавяне: Чрез елиминиране на необходимостта от междинно съхранение и процеси на синхронизация, организациите могат значително да намалят времето, необходимо за предоставяне на данни на AI моделите. Това води до по-бързи времена за реакция и по-динамични приложения.
- По-ниски оперативни разходи: Персонализираните конектори намаляват оперативните разходи, като елиминират необходимостта от управление и поддръжка на сложни тръбопроводи за данни. Това освобождава ценни ресурси, които могат да бъдат инвестирани в други области на бизнеса.
- Подобрено качество на данните: Чрез поглъщане на данни директно от източника, организациите могат да гарантират, че техните AI модели работят с най-точната и актуална информация. Това води до по-добри прозрения и по-надеждни резултати.
- Повишена гъвкавост: Персонализираните конектори позволяват на организациите да се свързват с широк спектър от източници на данни, независимо от техния формат или местоположение. Това осигурява гъвкавост за използване на всичките им активи от данни, независимо къде се съхраняват.
- Опростена разработка: Amazon Bedrock Knowledge Bases осигурява опростено разработване чрез абстрахиране на сложността на поглъщането и управлението на данни. Това позволява на разработчиците да се съсредоточат върху изграждането на AI приложения, които предоставят реална бизнес стойност.
По-дълбоко гмуркане: Персонализирани конектори под капака
За да оцените напълно силата на персонализираните конектори, е важно да разберете как работят. Персонализиран конектор е по същество част от код, която позволява на Amazon Bedrock Knowledge Bases да се свърже с конкретен източник на данни. Този код е отговорен за извличането на данни от източника, преобразуването му във формат, който е съвместим с Knowledge Base, и поглъщането му в системата.
- API интеграция: Персонализираните конектори обикновено взаимодействат с източници на данни чрез APIs. Тези APIs осигуряват стандартизиран начин за достъп до данни и извършване на операции.
- Трансформация на данни: Трансформацията на данни е критична стъпка в процеса. Персонализираните конектори често трябва да трансформират данните от техния оригинален формат във формат, който е съвместим с Knowledge Base. Това може да включва преобразуване на типове данни, почистване на данни и обогатяване на данни с допълнителна информация.
- Поточно поглъщане: Ключът към поглъщането на данни в реално време е способността да се предава поточно данни непрекъснато. Персонализираните конектори често използват поточни APIs, за да получават данни, докато се генерират, позволявайки актуализации почти в реално време на Knowledge Base.
- Сигурност: Сигурността е основен проблем при свързването към източници на данни. Персонализираните конектори трябва да бъдат проектирани с оглед на сигурността, като се гарантира, че данните са защитени както при транспортиране, така и в покой.
Заключение: Прегръщане на бъдещето на AI с данни в реално време
Amazon Bedrock Knowledge Bases с персонализирани конектори представляват значителен напредък в областта на AI. Като дават възможност на организациите безпроблемно да интегрират потоци от данни в реално време в техните AI приложения, тази технология отключва изобилие от нови възможности за иновации и бизнес растеж. Тъй като AI продължава да се развива, способността да се използват данни в реално време ще става все по-критична. Amazon Bedrock Knowledge Bases е позициониран да бъде ключов двигател на тази тенденция, давайки възможност на организациите да изграждат AI решения, които са по-динамични, отзивчиви и интелигентни от всякога.