利用 Claude 模型简化文档处理

利用 Amazon Bedrock 和 Claude 简化文档分析

Amazon Bedrock 提供了一个统一的 API,用于访问和利用来自领先 AI 提供商的一系列高性能基础模型 (FM)。这项完全托管的服务简化了生成式 AI 应用程序的开发,强调安全性、隐私性和负责任的 AI 实践。Anthropic’s Claude 3 Sonnet 尤其引人注目,它具有卓越的视觉能力,超越了同类中的其他领先模型。Claude 3 Sonnet 的一个关键优势在于它能够准确地从图像中转录文本,即使是质量不完美的图像。这一能力对零售、物流和金融服务等行业具有重要意义,在这些行业中,关键的见解可能嵌入在图像、图形或插图中,超出了仅文本中可用的信息。Anthropic’s Claude 模型的最新迭代在理解各种视觉格式方面表现出非凡的能力,包括照片、图表和技术图表。这种多功能性解锁了大量应用,包括从文档中提取更深入的见解,处理基于 Web 的用户界面和广泛的产品文档,生成图像目录元数据等等。

本文将探讨这些多模态生成式 AI 模型在优化技术文档管理方面的实际应用。通过系统地从源材料中提取和构建关键信息,这些模型有助于创建可搜索的知识库。该知识库使用户能够快速找到与其工作相关的特定数据、公式和可视化。通过精心组织文档内容,研究人员和工程师可以访问高级搜索功能,使他们能够查明与其特定查询最相关的信息。这大大加快了研究和开发工作流程,使专业人员摆脱了手动筛选大量非结构化数据的繁琐任务。

该解决方案强调了多模态生成式 AI 在解决科学和工程界遇到的独特挑战方面的变革潜力。通过自动化技术文档的索引和标记,这些强大的模型有助于更有效地进行知识管理,并促进各行各业的创新。

利用支持服务实现全面的解决方案

除了 Amazon Bedrock 上的 Anthropic’s Claude,该解决方案还集成了其他几个关键服务:

  • Amazon SageMaker JupyterLab: 这个基于 Web 的交互式开发环境 (IDE) 专为笔记本、代码和数据而设计。SageMaker JupyterLab 应用程序提供了一个灵活且可扩展的界面,有助于配置和安排机器学习 (ML) 工作流程。在此解决方案中,JupyterLab 用作执行负责处理公式和图表的代码的平台。

  • Amazon Simple Storage Service (Amazon S3): Amazon S3 提供了一个强大的对象存储服务,旨在安全地存储和保护几乎任何数量的数据。在这种情况下,Amazon S3 用于存储构成本解决方案基础的示例文档。

  • AWS Lambda: AWS Lambda 是一项计算服务,可响应预定义的触发器(例如数据修改、应用程序状态更改或用户操作)执行代码。Amazon S3 和 Amazon Simple Notification Service (Amazon SNS) 等服务直接触发 Lambda 函数的能力支持创建各种实时无服务器数据处理系统。

文档处理的分步工作流程

该解决方案的工作流程结构如下:

  1. 文档分割: 第一步是将 PDF 文档分成单独的页面,然后将这些页面保存为 PNG 文件。这有助于后续的逐页处理。

  2. 逐页分析: 对于每个页面,执行一系列操作:

    1. 文本提取: 提取页面的原始文本内容。
    2. 公式渲染: 公式以 LaTeX 格式渲染,确保准确表示。
    3. 公式描述(语义): 生成每个公式的语义描述,捕获其含义和上下文。
    4. 公式解释: 提供每个公式的详细解释,阐明其目的和功能。
    5. 图表描述(语义): 生成每个图表的语义描述,概述其关键特征和数据表示。
    6. 图表解释: 提供每个图表的解释,说明其传达的趋势、模式和见解。
    7. 页面元数据生成: 生成特定于页面的元数据,包含有关其内容的相关信息。
  3. 文档级元数据生成: 为整个文档生成元数据,提供其内容的全面概述。

  4. 数据存储: 提取的内容和元数据将上传到 Amazon S3 进行持久存储。

  5. 知识库创建: 创建一个 Amazon Bedrock 知识库,利用处理后的数据来实现高效的搜索和检索。

利用 arXiv 研究论文进行演示

为了展示所描述的功能,使用了来自 arXiv 的示例研究论文。arXiv 是一个广受认可的免费分发服务和开放获取档案,托管着近 240 万篇学术文章,涵盖各个领域,包括物理学、数学、计算机科学、定量生物学、定量金融学、统计学、电气工程和系统科学以及经济学。

使用 Anthropic’s Claude 提取公式和元数据

准备好图像文档后,通过 Amazon Bedrock Converse API 访问 Anthropic’s Claude,用于提取公式和元数据。此外,可以利用 Amazon Bedrock Converse API 生成提取公式的通俗语言解释。这种公式和元数据提取功能与对话式 AI 的结合为处理和理解图像文档中包含的信息提供了一个整体解决方案。

解释图表并生成摘要

多模态生成式 AI 模型的另一个重要功能是它们能够解释图表并生成相应的摘要和元数据。以下说明了如何通过与模型的简单自然语言交互来获取图表和图形的元数据。

生成元数据以增强可搜索性

利用自然语言处理,可以生成研究论文的元数据,以显着提高其可搜索性。此元数据包含论文的关键方面,使其更易于查找和检索相关信息。

创建用于问答的 Amazon Bedrock 知识库

通过精心准备数据,包括提取的公式、分析的图表和全面的元数据,创建了一个 Amazon Bedrock 知识库。该知识库将信息转换为可搜索的资源,从而实现问答功能。这有助于高效访问已处理文档中包含的知识。此过程会重复多次,以确保知识库的健壮性和全面性。

查询知识库以进行有针对性的信息检索

可以查询知识库以从示例文档中提取的公式和图表元数据中检索特定信息。收到查询后,系统会从数据源中检索相关的文本块。然后根据这些检索到的块生成响应,确保答案直接基于源材料。重要的是,响应还引用了相关来源,提供了透明度和可追溯性。

加速洞察和明智的决策

从复杂的科学文档中提取见解的过程传统上是一项艰巨的任务。然而,多模态生成式 AI 的出现从根本上改变了这一领域。通过利用 Anthropic’s Claude 先进的自然语言理解和视觉感知能力,现在可以准确地从图表中提取公式和数据,从而加速洞察并做出更明智的决策。

这项技术使从事科学文献工作的研究人员、数据科学家和开发人员能够显着提高他们的生产力和准确性。通过将 Anthropic’s Claude 集成到他们在 Amazon Bedrock 上的工作流程中,他们可以大规模处理复杂的文档,从而腾出宝贵的时间和资源来专注于更高级别的任务,并从他们的数据中发现有价值的见解。自动化文档分析繁琐方面的能力使专业人员能够专注于其工作中更具战略性和创造性的方面,最终推动创新并加快发现的步伐。