運用 Anthropic's Claude 於 Amazon Bedrock 進行文件處理

利用 Amazon Bedrock 和 Claude 簡化文件分析

Amazon Bedrock 提供了一個統一的 API,用於存取和利用來自領先 AI 提供商的一系列高性能基礎模型 (FMs)。這項完全託管的服務簡化了生成式 AI 應用程式的開發,強調安全性、私隱性和負責任的 AI 實踐。Anthropic’s Claude 3 Sonnet 尤其突出,其卓越的視覺能力超越了同類中的其他領先模型。Claude 3 Sonnet 的一個關鍵優勢在於它能夠準確地從圖像中轉錄文本,即使是質量不佳的圖像。這項功能對於零售、物流和金融服務等行業具有重要意義,因為這些行業的關鍵見解可能隱藏在圖像、圖形或插圖中,超過了單純文本中可用的信息。Anthropic’s Claude 模型的最新版本在理解各種視覺格式方面表現出非凡的能力,包括照片、圖表、圖形和技術圖表。這種多功能性開啟了眾多應用,包括從文件中提取更深入的見解、處理基於 Web 的用戶界面和廣泛的產品文檔、生成圖像目錄 metadata 等等。

本文將探討這些多模態生成式 AI 模型在優化技術文件管理方面的實際應用。通過系統地從源材料中提取和構建關鍵信息,這些模型有助於創建可搜索的知識庫。這個知識庫使用戶能夠快速找到與其工作相關的特定數據、公式和視覺化。通過精心組織文件內容,研究人員和工程師可以獲得高級搜索功能,使他們能夠查明與其特定查詢最相關的信息。這大大加快了研究和開發工作流程,使專業人員擺脫了手動篩選大量非結構化數據的繁瑣任務。

此解決方案強調了多模態生成式 AI 在解決科學和工程界遇到的獨特挑戰方面的變革潛力。通過自動化技術文件的索引和標記,這些強大的模型有助於更有效的知識管理,並促進各行各業的創新。

利用支持服務實現全面的解決方案

除了 Amazon Bedrock 上的 Anthropic’s Claude 之外,此解決方案還集成了其他幾個關鍵服務:

  • Amazon SageMaker JupyterLab: 這個基於 Web 的交互式開發環境 (IDE) 專為 notebooks、程式碼和數據而設計。SageMaker JupyterLab 應用程式提供了一個靈活且可擴展的界面,便於配置和安排機器學習 (ML) 工作流程。在此解決方案中,JupyterLab 用作執行負責處理公式和圖表的程式碼的平台。

  • Amazon Simple Storage Service (Amazon S3): Amazon S3 提供了一個強大的物件儲存服務,旨在安全地儲存和保護幾乎任何容量的數據。在本文中,Amazon S3 用於儲存構成本解決方案基礎的範例文件。

  • AWS Lambda: AWS Lambda 是一項運算服務,可執行程式碼以響應預定義的觸發器,例如數據修改、應用程式狀態更改或用戶操作。Amazon S3 和 Amazon Simple Notification Service (Amazon SNS) 等服務直接觸發 Lambda 函數的能力使得創建各種實時無伺服器數據處理系統成為可能。

文件處理的分步工作流程

解決方案的工作流程結構如下:

  1. 文件分割: 初始步驟涉及將 PDF 文件分成單獨的頁面,然後將其保存為 PNG 文件。這有助於後續的逐頁處理。

  2. 逐頁分析: 對於每個頁面,執行一系列操作:

    1. 文本提取: 提取頁面的原始文本內容。
    2. 公式渲染: 公式以 LaTeX 格式渲染,確保準確表示。
    3. 公式描述(語義): 生成每個公式的語義描述,捕捉其含義和上下文。
    4. 公式解釋: 提供每個公式的詳細解釋,闡明其目的和功能。
    5. 圖形描述(語義): 生成每個圖形的語義描述,概述其關鍵特徵和數據表示。
    6. 圖形解釋: 提供每個圖形的解釋,說明其傳達的趨勢、模式和見解。
    7. 頁面 Metadata 生成: 生成特定於頁面的 Metadata,包含有關其內容的相關信息。
  3. 文件級 Metadata 生成: 為整個文件生成 Metadata,提供其內容的全面概述。

  4. 數據儲存: 提取的內容和 Metadata 上傳到 Amazon S3 進行持久儲存。

  5. 知識庫創建: 創建一個 Amazon Bedrock 知識庫,利用處理後的數據實現高效的搜索和檢索。

利用 arXiv 研究論文進行演示

為了展示所描述的功能,使用了來自 arXiv 的範例研究論文。arXiv 是一個廣泛認可的免費發行服務和開放存取檔案庫,託管了近 240 萬篇學術文章,涵蓋各個領域,包括物理學、數學、計算機科學、定量生物學、定量金融學、統計學、電機工程和系統科學以及經濟學。

使用 Anthropic’s Claude 提取公式和 Metadata

準備好圖像文件後,通過 Amazon Bedrock Converse API 使用 Anthropic’s Claude 來提取公式和 Metadata。此外,Amazon Bedrock Converse API 可用於生成提取公式的簡明語言解釋。這種公式和 Metadata 提取功能與對話式 AI 的結合為處理和理解圖像文件中包含的信息提供了一個整體解決方案。

解釋圖形並生成摘要

多模態生成式 AI 模型的另一個重要功能是它們能夠解釋圖形並生成相應的摘要和 Metadata。以下說明瞭如何通過與模型的簡單自然語言交互來獲取圖表和圖形的 Metadata。

生成 Metadata 以增強可搜索性

利用自然語言處理,可以生成研究論文的 Metadata,以顯著提高其可搜索性。此 Metadata 包含論文的關鍵方面,使其更易於查找和檢索相關信息。

創建 Amazon Bedrock 知識庫以進行問答

通過精心準備數據,包括提取的公式、分析的圖表和全面的 Metadata,創建了一個 Amazon Bedrock 知識庫。這個知識庫將信息轉換為可搜索的資源,實現問答功能。這有助於高效地訪問處理後文件中包含的知識。此過程重複多次,以確保建立一個強大而全面的知識庫。

查詢知識庫以進行有針對性的信息檢索

可以查詢知識庫以從範例文件中提取的公式和圖形 Metadata 中檢索特定信息。收到查詢後,系統會從數據源中檢索相關的文本塊。然後根據這些檢索到的文本塊生成響應,確保答案直接基於源材料。重要的是,響應還引用了相關來源,提供了透明度和可追溯性。

加速洞察和明智的決策

從複雜的科學文件中提取見解的過程傳統上是一項費力的工作。然而,多模態生成式 AI 的出現從根本上改變了這個領域。通過利用 Anthropic’s Claude 的高級自然語言理解和視覺感知能力,現在可以準確地從圖表中提取公式和數據,從而加速洞察並做出更明智的決策。

這項技術使研究人員、數據科學家和開發人員能夠在處理科學文獻時顯著提高他們的生產力和準確性。通過將 Anthropic’s Claude 集成到他們在 Amazon Bedrock 上的工作流程中,他們可以大規模處理複雜的文件,釋放寶貴的時間和資源,專注於更高級別的任務,並從他們的數據中發現有價值的見解。自動化文件分析繁瑣方面的能力使專業人員能夠專注於其工作中更具戰略性和創造性的方面,最終推動創新並加快發現的步伐。