Hoy en día, las organizaciones deben gestionar grandes cantidades de datos no estructurados, que existen en varios formatos, como documentos, imágenes, archivos de audio y archivos de vídeo. En el pasado, extraer información significativa de estos datos en diferentes formatos requería procesos de procesamiento complejos y un gran esfuerzo de desarrollo. Sin embargo, las tecnologías de inteligencia artificial generativa están revolucionando este campo, ofreciendo potentes capacidades para automatizar el procesamiento, el análisis y la extracción de información de estos diferentes formatos de documentos, reduciendo drásticamente el esfuerzo manual y mejorando la precisión y la escalabilidad.
Con Amazon Bedrock Data Automation y Amazon Bedrock Knowledge Bases, ahora puede crear fácilmente potentes aplicaciones RAG multimodales. Juntos, permiten a las organizaciones procesar, organizar y recuperar eficazmente información de su contenido multimodal, transformando la forma en que gestionan y utilizan los datos no estructurados.
Este artículo le guiará en la construcción de una aplicación de pila completa que utiliza Amazon Bedrock Data Automation para procesar contenido multimodal, almacena la información extraída en Amazon Bedrock Knowledge Bases y permite la consulta en lenguaje natural a través de una interfaz de preguntas y respuestas basada en RAG.
Casos de uso prácticos
La integración de Amazon Bedrock Data Automation y Amazon Bedrock Knowledge Bases proporciona una potente solución para procesar grandes cantidades de datos no estructurados en varios sectores, como:
- En el sector de la salud, las organizaciones deben procesar grandes cantidades de registros de pacientes, incluidos formularios médicos, imágenes de diagnóstico y grabaciones de consultas. Amazon Bedrock Data Automation puede extraer y estructurar automáticamente esta información, mientras que Amazon Bedrock Knowledge Bases permite a los profesionales médicos utilizar consultas en lenguaje natural, como “¿Cuál fue la última lectura de la presión arterial del paciente?” o “Mostrar el historial de tratamiento del paciente con diabetes”.
- Las instituciones financieras procesan diariamente miles de documentos, desde solicitudes de préstamos hasta estados financieros. Amazon Bedrock Data Automation puede extraer indicadores financieros clave e información de cumplimiento, mientras que Amazon Bedrock Knowledge Bases permite a los analistas hacer preguntas como “¿Qué factores de riesgo se mencionan en el último informe trimestral?” o “Mostrar todas las solicitudes de préstamos con una alta calificación crediticia”.
- Los bufetes de abogados necesitan procesar grandes cantidades de documentos de casos, incluidos documentos judiciales, fotografías de pruebas y testimonios de testigos. Amazon Bedrock Data Automation puede procesar estas diferentes fuentes, mientras que Amazon Bedrock Knowledge Bases permite a los abogados consultar “¿Qué pruebas se presentaron sobre los acontecimientos del 15 de marzo?” o “Encuentre todas las declaraciones de testigos que mencionen al acusado”.
- Las empresas de medios pueden utilizar esta integración para habilitar la colocación inteligente de anuncios contextuales. Amazon Bedrock Data Automation procesa contenido de video, subtítulos y audio para comprender el contexto de la escena, el diálogo y el sentimiento, al tiempo que analiza los activos publicitarios y los requisitos de la campaña. Amazon Bedrock Knowledge Bases permite entonces consultas complejas para hacer coincidir los anuncios con los momentos de contenido apropiados, como “Encuentre escenas de actividades al aire libre positivas que incluyan anuncios de equipos deportivos” o “Identifique segmentos de anuncios de viajes que hablen de turismo”. Esta coincidencia contextual inteligente ofrece colocaciones de anuncios más relevantes y eficaces, al tiempo que mantiene la seguridad de la marca.
Estos ejemplos demuestran cómo las capacidades de extracción de Amazon Bedrock Data Automation, combinadas con las consultas en lenguaje natural de Amazon Bedrock Knowledge Bases, pueden transformar la forma en que las organizaciones interactúan con sus datos no estructurados.
Descripción general de la solución
Esta solución integral demuestra las capacidades avanzadas de Amazon Bedrock para procesar y analizar contenido multimodal (documentos, imágenes, archivos de audio y archivos de vídeo) a través de tres componentes clave: Amazon Bedrock Data Automation, Amazon Bedrock Knowledge Bases y los modelos fundacionales proporcionados por Amazon Bedrock. Los usuarios pueden cargar varios tipos de contenido, incluidos archivos de audio, imágenes, vídeos o archivos PDF, para su procesamiento y análisis automatizados.
Cuando carga contenido, Amazon Bedrock Data Automation lo procesa utilizando planos estándar o personalizados para extraer información valiosa. La información extraída se almacena en formato JSON en un bucket de Amazon Simple Storage Service (Amazon S3), mientras que el estado del trabajo se rastrea a través de Amazon EventBridge y se guarda en Amazon DynamoDB. La solución realiza un análisis personalizado del JSON extraído para crear documentos compatibles con la base de conocimiento, que luego se almacenan en Amazon Bedrock Knowledge Bases y se indexan.
A través de una interfaz de usuario intuitiva, la solución muestra simultáneamente el contenido cargado y la información extraída. Los usuarios pueden interactuar con los datos procesados a través de un sistema de preguntas y respuestas basado en la generación aumentada de recuperación (RAG), impulsado por los modelos fundacionales de Amazon Bedrock. Este enfoque integrado permite a las organizaciones procesar, analizar y obtener información eficazmente de varios formatos de contenido, al tiempo que utiliza una infraestructura sólida y escalable implementada con AWS Cloud Development Kit (AWS CDK).
Arquitectura
El siguiente diagrama de arquitectura ilustra el flujo de la solución:
- Los usuarios interactúan con la aplicación front-end, que se autentica a través de Amazon Cognito.
- Las solicitudes de API son procesadas por Amazon API Gateway y las funciones de AWS Lambda.
- Los archivos se cargan en un bucket de S3 para su procesamiento.
- Amazon Bedrock Data Automation procesa los archivos y extrae la información.
- EventBridge gestiona el estado del trabajo y activa el post-procesamiento.
- El estado del trabajo se almacena en DynamoDB y el contenido procesado se almacena en Amazon S3.
- La función Lambda analiza el contenido procesado y lo indexa en Amazon Bedrock Knowledge Bases.
- El sistema de preguntas y respuestas basado en RAG utiliza el modelo fundacional de Amazon Bedrock para responder a las consultas de los usuarios.
Requisitos previos
Backend
Para el backend, necesita los siguientes requisitos previos:
- Una cuenta de AWS.
- Python 3.11 o posterior.
- Docker.
- GitHub (si utiliza un repositorio de código).
- AWS CDK. Consulte Getting Started With the AWS CDK para obtener más detalles y requisitos previos.
- Acceso habilitado a los modelos fundacionales en Amazon Bedrock:
- Claude 3.5 Sonnet v2.0 de Anthropic
- Amazon Nova Pro v1.0
- Claude 3.7 Sonnet v1.0 de Anthropic
Frontend
Para el frontend, necesita los siguientes requisitos previos:
- Node/npm: v18.12.1
- Un backend implementado.
- Al menos un usuario añadido al grupo de usuarios de Amazon Cognito correspondiente (necesario para las llamadas a la API de autenticación).
Todo lo que necesita está disponible como código de código abierto en nuestro repositorio de GitHub.
Guía de implementación
Esta base de código de aplicación de ejemplo está organizada en las siguientes carpetas clave: