Bina Apl Berasaskan RAG Multimodal dengan Amazon Bedrock

Organisasi kini perlu mengendalikan sejumlah besar data tidak berstruktur yang wujud dalam pelbagai format, termasuk dokumen, imej, fail audio dan fail video. Pada masa lalu, mengekstrak cerapan bermakna daripada data dalam format yang berbeza ini memerlukan proses pemprosesan yang kompleks dan usaha pembangunan yang meluas. Walau bagaimanapun, teknologi kecerdasan buatan generatif merevolusikan bidang ini, menawarkan keupayaan yang hebat untuk mengautomasikan pengendalian, menganalisis dan mengekstrak cerapan daripada format dokumen yang berbeza ini, dengan ketara mengurangkan usaha manual sambil meningkatkan ketepatan dan kebolehskalaan.

Dengan Amazon Bedrock Data Automation dan Amazon Bedrock Knowledge Bases, anda kini boleh membina aplikasi RAG multimodal yang berkuasa dengan mudah. Bersama-sama, ia memperkasakan organisasi untuk memproses, menyusun dan mendapatkan semula maklumat dengan cekap daripada kandungan multimodal mereka, mengubah cara mereka mengurus dan bekerja dengan data tidak berstruktur.

Artikel ini akan membimbing anda melalui pembinaan aplikasi tindanan penuh yang menggunakan Amazon Bedrock Data Automation untuk memproses kandungan multimodal, menyimpan maklumat yang diekstrak dalam Amazon Bedrock Knowledge Bases dan mendayakan pertanyaan bahasa semula jadi melalui antara muka soal jawab berasaskan RAG.

Kes Penggunaan Praktikal

Penyepaduan Amazon Bedrock Data Automation dan Amazon Bedrock Knowledge Bases menyediakan penyelesaian yang mantap untuk pengendalian data tidak berstruktur yang besar merentas pelbagai industri, seperti:

  • Dalam penjagaan kesihatan, organisasi perlu menguruskan sejumlah besar rekod pesakit, termasuk borang perubatan, imej diagnostik dan rakaman rundingan. Amazon Bedrock Data Automation boleh mengautomasikan pengekstrakan dan struktur maklumat ini, manakala Amazon Bedrock Knowledge Bases membenarkan profesional perubatan menggunakan pertanyaan bahasa semula jadi, seperti “Apakah bacaan tekanan darah terakhir pesakit?” atau “Tunjukkan sejarah rawatan pesakit diabetes”.
  • Institusi kewangan mengendalikan beribu-ribu dokumen setiap hari, daripada permohonan pinjaman hingga penyata kewangan. Amazon Bedrock Data Automation boleh mengekstrak metrik kewangan utama dan maklumat pematuhan, manakala Amazon Bedrock Knowledge Bases membenarkan penganalisis bertanya soalan seperti “Apakah faktor risiko yang disebut dalam laporan suku tahunan terkini?” atau “Tunjukkan semua permohonan pinjaman dengan skor kredit yang tinggi”.
  • Firma guaman berurusan dengan volum besar fail kes, yang mengandungi dokumen mahkamah, gambar bukti dan keterangan saksi. Amazon Bedrock Data Automation boleh mengendalikan sumber yang berbeza ini, manakala Amazon Bedrock Knowledge Bases membenarkan peguam untuk bertanya “Apakah bukti yang dikemukakan tentang kejadian pada 15 Mac?” atau “Cari semua kenyataan saksi yang menyebut defendan”.
  • Syarikat media boleh menggunakan penyepaduan untuk menyampaikan pengiklanan kontekstual pintar. Amazon Bedrock Data Automation memproses kandungan video, sari kata dan audio untuk memahami konteks, dialog dan emosi tempat kejadian, sambil menganalisis aset iklan dan keperluan kempen. Kemudian, Amazon Bedrock Knowledge Bases membolehkan pertanyaan kompleks untuk memadankan iklan dengan detik kandungan yang sesuai, seperti “Cari adegan aktiviti luar yang positif yang menampilkan peralatan sukan” atau “Kenal pasti segmen iklan pelancongan yang membincangkan pelancongan”. Padanan kontekstual pintar ini menyampaikan penempatan iklan yang lebih berkaitan dan berkesan di samping mengekalkan keselamatan jenama.

Contoh-contoh ini menunjukkan cara keupayaan pengekstrakan Amazon Bedrock Data Automation yang digabungkan dengan pertanyaan bahasa semula jadi Amazon Bedrock Knowledge Bases mengubah cara organisasi berinteraksi dengan data tidak berstruktur mereka.

Gambaran Keseluruhan Penyelesaian

Penyelesaian komprehensif ini menunjukkan keupayaan lanjutan Amazon Bedrock dalam memproses dan menganalisis kandungan multimodal – dokumen, imej, fail audio dan video – dicapai melalui tiga komponen utama: Amazon Bedrock Data Automation, Amazon Bedrock Knowledge Bases dan model asas yang disediakan melalui Amazon Bedrock. Pengguna boleh memuat naik pelbagai jenis kandungan, termasuk fail audio, imej, video atau PDF, untuk pemprosesan analisis automatik.

Apabila anda memuat naik kandungan, Amazon Bedrock Data Automation memprosesnya menggunakan cetak biru standard atau tersuai untuk mengekstrak cerapan yang berharga. Maklumat yang diekstrak disimpan dalam format JSON dalam bucket Amazon Simple Storage Service (Amazon S3), manakala status kerja dijejaki melalui Amazon EventBridge dan dikekalkan dalam Amazon DynamoDB. Penyelesaian ini melaksanakan penghuraian tersuai JSON yang diekstrak untuk mencipta dokumen serasi pangkalan pengetahuan, yang kemudiannya disimpan dan diindeks dalam Amazon Bedrock Knowledge Bases.

Melalui antara muka pengguna intuitif, penyelesaian ini memaparkan kandungan yang dimuat naik dan maklumat yang diekstraknya secara serentak. Pengguna boleh berinteraksi dengan data yang diproses melalui sistem Soal Jawab berasaskan Retrieval Augmented Generation (RAG) yang dikuasakan oleh model asas Amazon Bedrock. Pendekatan bersepadu ini membolehkan organisasi memproses, menganalisis dan memperoleh cerapan dengan cekap daripada pelbagai format kandungan sambil memanfaatkan infrastruktur yang mantap dan boleh skala yang digunakan menggunakan AWS Cloud Development Kit (AWS CDK).

Seni Bina

Gambar rajah seni bina berikut menggambarkan aliran penyelesaian:

  1. Pengguna berinteraksi dengan aplikasi bahagian hadapan, mengesahkan melalui Amazon Cognito.
  2. Permintaan API dikendalikan oleh Amazon API Gateway dan fungsi AWS Lambda.
  3. Fail dimuat naik ke bucket S3 untuk diproses.
  4. Amazon Bedrock Data Automation memproses fail dan mengekstrak maklumat.
  5. EventBridge mengurus status kerja dan mencetuskan pasca pemprosesan.
  6. Status kerja disimpan dalam DynamoDB, dan kandungan yang diproses disimpan dalam Amazon S3.
  7. Fungsi Lambda menghuraikan kandungan yang diproses dan mengindeksnya dalam Amazon Bedrock Knowledge Bases.
  8. Sistem Soal Jawab berasaskan RAG menggunakan model asas Amazon Bedrock untuk menjawab pertanyaan pengguna.

Prasyarat

Bahagian Belakang

Untuk bahagian belakang, anda memerlukan prasyarat berikut:

  • Akaun AWS.
  • Python 3.11 atau lebih tinggi.
  • Docker.
  • GitHub (jika menggunakan repositori kod).
  • AWS CDK. Lihat Bermula dengan AWS CDK untuk maklumat lanjut dan prasyarat.
  • Akses dibolehkan kepada model asas dalam Amazon Bedrock:
    • Claude 3.5 Sonnet v2.0 daripada Anthropic
    • Amazon Nova Pro v1.0
    • Claude 3.7 Sonnet v1.0 daripada Anthropic

Bahagian Hadapan

Untuk bahagian hadapan, anda memerlukan prasyarat berikut:

  • Node/npm: v18.12.1
  • Bahagian belakang yang digunakan.
  • Sekurang-kurangnya seorang pengguna ditambahkan pada Kolam Pengguna Amazon Cognito yang berkaitan (diperlukan untuk panggilan API dengan pengesahan).

Semua yang anda perlukan tersedia dalam bentuk kod sumber terbuka di repositori GitHub kami.

Panduan Penggunaan

Tapak kod aplikasi contoh ini disusun ke dalam folder utama berikut:

samples/bedrock-bda-media-solution