人工智慧的發展日新月異,檢索增強生成(RAG)技術正迅速崛起,成為關鍵的技術。RAG 透過將生成式 AI 模型的強大功能與外部資料來源無縫整合,使 AI 系統能夠提供更完善、更具背景相關性的回應。這種方法超越了僅僅依賴模型預先存在的知識庫的局限性。在本文中,我們將深入探討 Amazon Bedrock 知識庫中自訂資料連接器的變革性潛力,展示它們如何簡化 RAG 工作流程的建立,從而利用自訂輸入資料。此功能使 Amazon Bedrock 知識庫能夠導入串流資料,讓開發人員能夠透過直接 API 呼叫,動態地在其知識庫中新增、更新或刪除資訊。
設想一下需要即時資料導入的各種應用:分析點擊流模式、處理信用卡交易、解讀來自物聯網 (IoT) 感測器的資料、執行日誌分析,以及監控商品價格。在這種情況下,目前的資料和歷史趨勢對於做出明智的決策都至關重要。傳統上,整合這種關鍵資料輸入需要將資料暫存在支援的資料來源中,然後啟動或排程資料同步作業。此過程的持續時間取決於資料的品質和數量。然而,透過自訂資料連接器,組織可以快速從自訂資料來源導入特定文件,而無需完整同步,並且導入串流資料,而無需依賴中介儲存。這種方法最大限度地減少了延遲並消除了儲存開銷,從而加快了資料存取速度、降低了延遲並提高了應用程式效能。
透過自訂連接器進行串流導入,Amazon Bedrock 知識庫可以處理串流資料,而無需中繼資料來源。這使得資料幾乎可以即時使用。此功能會使用選定的 Amazon Bedrock 模型自動分割輸入資料並將其轉換為嵌入,並將所有內容儲存在後端向量資料庫中。這個簡化的流程適用於新的和現有的資料庫,讓您可以專注於構建 AI 應用程式,而無需協調資料分塊、嵌入生成或向量儲存佈建和索引的負擔。此外,從自訂資料來源導入特定文件的能力,透過消除中介儲存需求來降低延遲並降低營運成本。
Amazon Bedrock:生成式 AI 的基礎
Amazon Bedrock 是一項完全託管的服務,提供來自領先 AI 公司(如 Anthropic、Cohere、Meta、Stability AI 和 Amazon)的多種高效能基礎模型 (FM),這些模型可透過統一的 API 存取。這項全面的服務提供廣泛的功能,使您能夠開發具有強大安全性、隱私權和負責任 AI 功能的生成式 AI 應用程式。透過 Amazon Bedrock,您可以探索和評估適用於您特定使用案例的頂級 FM,使用微調和 RAG 等技術,使用您自己的資料私下自訂它們,並構建可以使用您的企業系統和資料來源執行任務的智慧代理程式。
Amazon Bedrock 知識庫:利用知識擴充 AI
Amazon Bedrock 知識庫使組織能夠構建完全託管的 RAG 管道,從而透過來自私有資料來源的背景資訊豐富 AI 回應。這將帶來更相關、更準確和更個人化的互動。透過利用 Amazon Bedrock 知識庫,您可以建立透過查詢知識庫獲得的背景資訊來增強的應用程式。它透過抽象化構建管道的複雜性並提供開箱即用的 RAG 解決方案來加速上市時間。這縮短了您應用程式的開發時間。
自訂連接器:無縫串流導入的關鍵
Amazon Bedrock 知識庫提供對自訂連接器和串流資料導入的支援。這讓您可以透過直接 API 呼叫在知識庫中新增、更新和刪除資料,從而提供前所未有的彈性和控制力。
使用 RAG 構建生成式 AI 股價分析器:解決方案概述
在本文中,我們展示了一個使用 Amazon Bedrock 知識庫、自訂連接器以及使用 Amazon Managed Streaming for Apache Kafka (Amazon MSK) 建立的主題的 RAG 架構,使使用者能夠分析股價趨勢。Amazon MSK 是一種串流資料服務,簡化了 Apache Kafka 基礎架構和營運的管理,從而在 Amazon Web Services (AWS) 上輕鬆執行 Apache Kafka 應用程式。該解決方案能夠透過向量嵌入和大型語言模型 (LLM) 進行即時客戶意見反應分析。
架構元件
該架構由兩個主要元件組成:
預處理串流資料工作流程:
- 包含股價資料的 .csv 檔案上傳到 MSK 主題,模擬串流輸入。
- 這會觸發 AWS Lambda 函數。
- 該函數將消耗的資料導入到知識庫中。
- 知識庫利用嵌入模型將資料轉換為向量索引。
- 向量索引儲存在知識庫內的向量資料庫中。
使用者查詢期間的運行時執行:
- 使用者提交有關股價的查詢。
- 基礎模型使用知識庫來尋找相關答案。
- 知識庫傳回相關文件。
- 使用者會收到基於這些文件的答案。
實作設計:逐步指南
實作涉及以下關鍵步驟:
- 資料來源設定:配置 MSK 主題以串流輸入股價。
- Amazon Bedrock 知識庫設定:在 Amazon Bedrock 中建立知識庫,使用快速建立新向量儲存選項,該選項會自動佈建和設定向量儲存。
- 資料消耗和導入:每當資料到達 MSK 主題時,觸發 Lambda 函數以提取股票指數、價格和時間戳記資訊,並饋送到 Amazon Bedrock 知識庫的自訂連接器中。
- 測試知識庫:使用知識庫評估客戶意見反應分析。
解決方案演練:構建您的股票分析工具
按照以下各節中的說明,使用 Amazon Bedrock 知識庫和自訂連接器構建生成式 AI 股票分析工具。
配置架構:部署 CloudFormation 範本
若要實作此架構,請從此 GitHub 儲存庫在您的 AWS 帳戶中部署 AWS CloudFormation 範本。此範本會部署以下元件:
- 虛擬私有雲端 (VPC)、子網路、安全性群組和 AWS Identity and Access Management (IAM) 角色。
- 託管 Apache Kafka 輸入主題的 MSK 叢集。
- 用於消耗 Apache Kafka 主題資料的 Lambda 函數。
- 用於設定和啟用的 Amazon SageMaker Studio 筆記本。
建立 Apache Kafka 主題:設定資料串流
在預先建立的 MSK 叢集中,代理程式已部署並準備好使用。下一步是使用 SageMaker Studio 終端機執行個體連線到 MSK 叢集並建立測試串流主題。請按照在 Amazon MSK 叢集中建立主題中的詳細說明進行操作。
一般步驟如下:
- 下載並安裝最新的 Apache Kafka 用戶端。
- 連線到 MSK 叢集代理程式執行個體。
- 在代理程式執行個體上建立測試串流主題。
在 Amazon Bedrock 中建立知識庫:連線到您的資料
若要在 Amazon Bedrock 中建立知識庫,請依照下列步驟進行:
- 在 Amazon Bedrock 主控台上,於左側導覽頁面的「建置器工具」下,選擇「知識庫」。
- 若要啟動知識庫建立,請在「建立」下拉式選單上,選擇「具有向量儲存的知識庫」,如下圖所示。
- 在「提供知識庫詳細資訊」窗格中,輸入
BedrockStreamIngestKnowledgeBase
作為「知識庫名稱」。 - 在「IAM 權限」下,選擇預設選項「建立並使用新的服務角色」,並且 (選擇性) 提供「服務角色名稱」,如下圖所示。
- 在「選擇資料來源」窗格中,選取「自訂」作為儲存資料集的資料來源
- 選擇「下一步」,如下圖所示
- 在「配置資料來源」窗格中,輸入
BedrockStreamIngestKBCustomDS
作為「資料來源名稱」。 - 在「剖析策略」下,選取「Amazon Bedrock 預設剖析器」,並且對於「分塊策略」,選擇「預設分塊」。選擇「下一步」,如下圖所示。
- 在「選取嵌入模型並配置向量儲存」窗格中,對於「嵌入模型」,選擇「Titan Text Embeddings v2」。對於「嵌入類型」,選擇「浮點向量嵌入」。對於「向量維度」,選取「1024」,如下圖所示。請確保您已在 Amazon Bedrock 中請求並收到對所選 FM 的存取權。若要了解更多資訊,請參閱新增或移除對 Amazon Bedrock 基礎模型的存取權。
- 在「向量資料庫」窗格中,選取「快速建立新的向量儲存」,然後選擇新的「Amazon OpenSearch Serverless」選項作為向量儲存。
- 在下一個畫面上,檢查您的選擇。若要完成設定,請選擇「建立」。
- 幾分鐘後,主控台將顯示您新建立的知識庫。
配置 AWS Lambda Apache Kafka 消費者:觸發資料導入
現在,配置消費者 Lambda 函數,以便在使用 API 呼叫時,只要輸入 Apache Kafka 主題收到資料,就會立即觸發該函數。
- 將手動建立的 Amazon Bedrock 知識庫 ID 及其自訂資料來源 ID 配置為 Lambda 函數中的環境變數。當您使用範例筆記本時,系統會自動填入參考的函數名稱和 ID。
深入探討:揭示 Amazon Bedrock 知識庫與自訂連接器在即時資料導入方面的強大功能
生成式 AI 和即時資料串流的融合正在為企業釋放前所未有的機會,以獲得更深入的洞察、自動化關鍵流程並提供個人化體驗。Amazon Bedrock 知識庫結合自訂連接器正處於這場革命的最前線,使組織能夠將來自各種來源(如 Apache Kafka)的串流資料無縫整合到其 AI 驅動的應用程式中。
此功能超越了傳統資料導入方法的局限性,傳統資料導入方法通常涉及複雜的暫存、轉換和同步流程。透過自訂連接器,資料可以幾乎即時地直接導入到知識庫中,從而消除延遲並使 AI 模型能夠動態地對不斷變化的條件做出反應。
跨行業的使用案例
這種方法的好處是深遠的,並且適用於廣泛的行業。
- 金融服務:銀行和投資公司可以利用即時市場資料和客戶交易串流來偵測詐欺、個人化投資建議並自動化交易策略。想像一下,一個 AI 驅動的系統可以即時分析信用卡交易,標記可疑活動並在詐欺性購買發生之前加以預防。
- 零售:電子商務企業可以分析點擊流資料和社交媒體摘要,以了解客戶行為、個人化產品建議並優化定價策略。這允許根據即時需求動態調整行銷活動和庫存管理。
- 製造業:製造商可以使用來自工廠設備的 IoT 感測器資料來預測維護需求、優化生產流程並提高產品質量。例如,AI 系統可以分析來自機器的振動資料,以識別潛在的故障,然後導致代價高昂的停機時間。
- 醫療保健:醫院可以分析患者資料串流以偵測疾病的早期徵兆、個人化治療計劃並改善患者治療效果。即時監控生命徵象可以提醒醫療人員注意患者狀況的重大變化,從而實現更快的介入和改善的護理。
主要優勢:超越即時資料
使用 Amazon Bedrock 知識庫與自訂連接器的優點不僅僅在於即時導入資料。
- 降低延遲:透過消除中介儲存和同步流程的需求,組織可以顯著縮短將資料提供給 AI 模型所需的時間。這將帶來更快的響應時間和更動態的應用程式。
- 降低營運成本:自訂連接器透過消除管理和維護複雜資料管道的需求來降低營運成本。這釋放了寶貴的資源,可用於投資於業務的其他領域。
- 改善資料品質:透過直接從來源導入資料,組織可以確保其 AI 模型使用最準確和最新的資訊。這將帶來更好的洞察力和更可靠的結果。
- 提高靈活性:自訂連接器允許組織連線到廣泛的資料來源,無論其格式或位置如何。這提供了利用其所有資料資產的靈活性,無論它們儲存在何處。
- 簡化開發:Amazon Bedrock 知識庫透過抽象化資料導入和管理的複雜性來提供簡化的開發體驗。這使開發人員能夠專注於構建可提供實際業務價值的 AI 應用程式。
深入探討:自訂連接器的幕後運作
若要充分了解自訂連接器的強大功能,請務必了解它們的工作方式。自訂連接器本質上是一段程式碼,可讓 Amazon Bedrock 知識庫連線到特定資料來源。此程式碼負責從來源提取資料、將其轉換為與知識庫相容的格式,並將其導入到系統中。
- API 整合:自訂連接器通常透過 API 與資料來源互動。這些 API 提供了一種標準化的方式來存取資料和執行操作。
- 資料轉換:資料轉換是該過程中的關鍵步驟。自訂連接器通常需要將資料從其本機格式轉換為與知識庫相容的格式。這可能涉及轉換資料類型、清理資料以及使用其他資訊豐富資料。
- 串流導入:即時資料導入的關鍵是能夠連續串流資料。自訂連接器通常使用串流 API 來接收資料,因為它是產生的,從而允許對知識庫進行近乎即時的更新。
- 安全性:連線到資料來源時,安全性是首要考慮因素。自訂連接器需要以安全性為核心進行設計,確保資料在傳輸中和靜止時都受到保護。
結論:透過即時資料擁抱 AI 的未來
具有自訂連接器的 Amazon Bedrock 知識庫代表了 AI 領域的重大進展。透過使組織能夠將即時資料串流無縫整合到其 AI 應用程式中,此技術釋放了大量新的創新和業務成長機會。隨著 AI 不斷發展,利用即時資料的能力將變得越來越重要。Amazon Bedrock 知識庫將成為此趨勢的關鍵推動者,使組織能夠構建比以往更具動態性、響應性和智慧的 AI 解決方案。