Optimumkan Alat dengan Penyesuaian Model Amazon Nova | ms

Dalam landskap teknologi yang berkembang pesat hari ini, model bahasa besar (LLM) telah muncul sebagai alat yang hebat untuk pemprosesan bahasa semula jadi. Walau bagaimanapun, pergantungan mereka pada data latihan statik mengehadkan keupayaan mereka untuk menyesuaikan diri dengan senario dunia sebenar. Memandangkan industri semakin menuntut penyelesaian AI yang mampu membuat keputusan yang tepat, penyepaduan alat dan API luaran telah menjadi yang terpenting. Ketepatan alat ini digunakan adalah penting untuk meningkatkan keupayaan membuat keputusan dan kecekapan operasi ejen autonomi, yang akhirnya membuka jalan bagi pembangunan aliran kerja ejen yang canggih.

Artikel ini meneliti aspek teknikal panggilan alat menggunakan model Amazon Nova melalui Amazon Bedrock. Tambahan pula, ia meneroka pelbagai kaedah untuk menyesuaikan model ini untuk mencapai ketepatan yang lebih tinggi dalam penggunaan alat.

Meluaskan Keupayaan LLM dengan Penggunaan Alat

LLM telah menunjukkan kecekapan yang luar biasa dalam pelbagai tugas bahasa semula jadi. Walau bagaimanapun, potensi sebenar mereka dibuka melalui penyepaduan yang lancar dengan alat luaran seperti API dan rangka kerja pengiraan. Alat ini memperkasakan LLM dengan keupayaan untuk mengakses data masa nyata, melakukan pengiraan khusus domain dan mendapatkan semula maklumat yang tepat, sekali gus meningkatkan kebolehpercayaan dan serba boleh mereka.

Pertimbangkan penyepaduan API cuaca, yang membolehkan LLM memberikan ramalan cuaca yang tepat dan terkini. Begitu juga, API Wikipedia boleh melengkapkan LLM dengan keupayaan untuk mengakses repositori maklumat yang luas, membolehkan mereka menjawab pertanyaan yang kompleks dengan ketepatan yang lebih tinggi. Dalam konteks saintifik, alat seperti kalkulator dan enjin simbolik boleh membantu LLM mengatasi ketidaktepatan berangka, menjadikannya lebih dipercayai untuk pengiraan yang kompleks.

Dengan penyepaduan yang lancar dengan alat ini, LLM berkembang menjadi sistem yang teguh dan sedar domain yang mampu mengendalikan tugas dinamik dan khusus dengan utiliti dunia sebenar.

Model Amazon Nova dan Amazon Bedrock

Model Amazon Nova, yang diperkenalkan di AWS re:Invent pada Disember 2024, direka untuk memberikan nilai prestasi harga yang luar biasa. Model ini menawarkan prestasi terkini pada penanda aras pemahaman teks utama sambil mengekalkan keberkesanan kos. Siri ini terdiri daripada tiga varian:

Mikro: Model berasaskan teks sahaja yang dioptimumkan untuk kegunaan tepi, menawarkan prestasi ultra cekap.
Lite: Model multimodal yang mengimbangi antara kepelbagaian dan prestasi.
Pro: Model multimodal berprestasi tinggi yang direka untuk menangani tugas yang kompleks.

Model Amazon Nova boleh digunakan untuk pelbagai tugas, termasuk penjanaan dan pembangunan aliran kerja ejen. Model ini mempunyai keupayaan untuk berinteraksi dengan alat atau perkhidmatan luaran melalui proses yang dikenali sebagai panggilan alat. Fungsi ini boleh diakses melalui konsol Amazon Bedrock dan API seperti Converse dan Invoke.

Selain menggunakan model terlatih, pembangun mempunyai pilihan untuk memperhalusi model ini dengan data multimodal (Pro dan Lite) atau data teks (Pro, Lite dan Micro). Fleksibiliti ini membolehkan pembangun mencapai tahap ketepatan, kependaman dan keberkesanan kos yang diingini. Tambahan pula, pembangun boleh memanfaatkan konsol Amazon Bedrock dan API untuk melakukan penalaan halus tersuai layan diri dan penyulingan model yang lebih besar ke dalam model yang lebih kecil.

Gambaran Keseluruhan Penyelesaian

Penyelesaian ini melibatkan penyediaan set data tersuai yang direka khusus untuk penggunaan alat. Set data ini kemudian digunakan untuk menilai prestasi model Amazon Nova melalui Amazon Bedrock, menggunakan API Converse dan Invoke. Seterusnya, model AmazonNova Micro dan Amazon Nova Lite ditala halus menggunakan set data yang disediakan melalui Amazon Bedrock. Selepas selesai proses penalaan halus, model tersuai ini dinilai melalui daya pemprosesan yang diperuntukkan.

Alat

Penggunaan alat dalam LLM merangkumi dua operasi penting: pemilihan alat dan pengekstrakan atau penjanaan argumen. Sebagai contoh, pertimbangkan alat yang direka untuk mendapatkan semula maklumat cuaca untuk lokasi tertentu. Apabila dibentangkan dengan pertanyaan seperti, ‘Apakah cuaca di London sekarang?’, LLM menilai alat yang tersedia untuk menentukan sama ada alat yang sesuai wujud. Jika alat yang sesuai dikenal pasti, model memilihnya dan mengekstrak argumen yang diperlukan – dalam kes ini, ‘London’ – untuk membina panggilan alat.

Setiap alat ditakrifkan dengan teliti dengan spesifikasi formal yang menggariskan fungsi yang dimaksudkan, argumen mandatori dan pilihan serta jenis data yang berkaitan. Takrifan tepat ini, yang dirujuk sebagai konfigurasi alat, memastikan panggilan alat dilaksanakan dengan betul dan penghuraian argumen sejajar dengan keperluan operasi alat. Mematuhi keperluan ini, set data yang digunakan dalam contoh ini mentakrifkan lapan alat berbeza, setiap satu dengan argumen dan konfigurasinya sendiri, semuanya distrukturkan dalam format JSON. Lapan alat yang ditakrifkan adalah seperti berikut:

weather_api_call: Alat tersuai yang direka untuk mendapatkan semula maklumat cuaca.
stat_pull: Alat tersuai untuk mengenal pasti statistik.
text_to_sql: Alat tersuai untuk menukar teks kepada pertanyaan SQL.
terminal: Alat untuk melaksanakan skrip dalam persekitaran terminal.
wikipedia: Alat API Wikipedia untuk mencari melalui halaman Wikipedia.
duckduckgo_results_json: Alat carian internet yang menggunakan DuckDuckGo untuk melakukan carian.
youtube_search: Alat carian API YouTube untuk mencari penyenaraian video.
pubmed_search: Alat carian PubMed untuk mencari abstrak PubMed.

Set data

Set data yang digunakan dalam penyelesaian ini ialah set data panggilan alat sintetik, yang dicipta dengan bantuan model asas (FM) daripada Amazon Bedrock dan kemudiannya disahkan dan dilaraskan secara manual. Set data ini dibangunkan untuk set lapan alat yang dibincangkan sebelum ini, dengan tujuan untuk menjana koleksi soalan dan invokasi alat yang pelbagai yang membolehkan model lain belajar daripada contoh ini dan membuat generalisasi kepada invokasi alat yang tidak kelihatan.

Setiap entri dalam set data distrukturkan sebagai objek JSON, yang mengandungi pasangan kunci-nilai yang mentakrifkan soalan (pertanyaan pengguna bahasa semula jadi untuk model), alat kebenaran asas yang diperlukan untuk menjawab pertanyaan pengguna, argumennya (kamus yang mengandungi parameter yang diperlukan untuk melaksanakan alat), dan kekangan tambahan seperti order_matters: boolean, yang menunjukkan sama ada susunan argumen adalah kritikal, dan arg_pattern: optional, ungkapan biasa (regex) untuk pengesahan atau pemformatan argumen. Label kebenaran asas ini digunakan untuk menyelia latihan model Amazon Nova yang telah dilatih, menyesuaikannya untuk penggunaan alat. Proses ini, yang dikenali sebagai penalaan halus yang diselia, diterokai lebih lanjut dalam bahagian berikut.

Set latihan terdiri daripada 560 soalan, manakala set ujian mengandungi 120 soalan. Set ujian distrukturkan untuk memasukkan 15 soalan setiap kategori alat, berjumlah 120 soalan.

Menyediakan Set Data untuk Amazon Nova

Untuk menggunakan set data ini dengan berkesan dengan model Amazon Nova, data perlu diformatkan mengikut templat sembang tertentu. Panggilan alat asli menggabungkan lapisan terjemahan yang memformat input ke dalam format yang sesuai sebelum menghantarnya ke model. Dalam penyelesaian ini, pendekatan penggunaan alat DIY diterima pakai, menggunakan templat gesaan tersuai. Khususnya, gesaan sistem, mesej pengguna yang dibenamkan dengan konfigurasi alat dan label kebenaran asas mesti ditambahkan sebagai mesej pembantu.

Memuat Naik Set Data ke Amazon S3

Langkah ini adalah penting untuk membolehkan Amazon Bedrock mengakses data latihan semasa proses penalaan halus. Set data boleh dimuat naik sama ada melalui konsol Amazon Simple Storage Service (Amazon S3) atau secara programatik.

Panggilan Alat dengan Model Asas Melalui API Amazon Bedrock

Dengan set data penggunaan alat yang dicipta dan diformatkan seperti yang diperlukan, ia boleh digunakan untuk menguji model Amazon Nova. Kedua-dua API Converse dan Invoke boleh digunakan untuk penggunaan alat dalam Amazon Bedrock. API Converse membolehkan perbualan dinamik yang sedar konteks, membenarkan model terlibat dalam dialog berbilang pusingan, manakala API Invoke membenarkan pengguna memanggil dan berinteraksi dengan model asas dalam Amazon Bedrock.

Untuk menggunakan API Converse, mesej, gesaan sistem (jika ada) dan konfigurasi alat dihantar terus ke API.

Untuk menghuraikan alat dan argumen daripada respons LLM, pertimbangkan soalan: ‘Hai, apakah suhu di Paris sekarang?’. Output akan dihuraikan untuk mengenal pasti alat dan argumen yang diperlukan untuk menjawab soalan tersebut.

Penalaan Halus Model Amazon Nova untuk Penggunaan Alat yang Dipertingkatkan

Penalaan halus ialah langkah penting dalam menyesuaikan model bahasa pra-latihan seperti Amazon Nova untuk tugas tertentu. Dengan melatih model pada set data yang disesuaikan dengan aplikasi yang diingini, model boleh belajar untuk melaksanakan tugas dengan ketepatan dan kecekapan yang lebih tinggi. Dalam konteks penggunaan alat, penalaan halus boleh meningkatkan keupayaan model dengan ketara untuk memilih alat yang sesuai dan mengekstrak argumen yang betul.

Proses penalaan halus melibatkan pelarasan parameter dalaman model untuk meminimumkan perbezaan antara ramalannya dan label kebenaran asas dalam set data latihan. Ini biasanya dicapai melalui proses berulang, di mana model berulang kali didedahkan kepada data latihan dan parameternya dilaraskan berdasarkan ralat yang diperhatikan.

Menyediakan Set Data Penalaan Halus

Set data penalaan halus harus disusun dengan teliti untuk menggambarkan jenis soalan dan invokasi alat yang dijangka dikendalikan oleh model dalam senario dunia sebenar. Set data harus merangkumi pelbagai contoh, meliputi kategori alat dan corak argumen yang berbeza.

Setiap contoh dalam set data harus terdiri daripada soalan, alat yang sepadan untuk dipanggil dan argumen yang diperlukan untuk melaksanakan alat. Argumen harus diformatkan secara berstruktur, biasanya sebagai objek JSON.

Proses Penalaan Halus

Proses penalaan halus boleh dilakukan menggunakan konsol Amazon Bedrock atau API. Proses ini melibatkan penentuan model untuk ditala halus, set data penalaan halus dan parameter latihan yang diingini.

Parameter latihan mengawal pelbagai aspek proses penalaan halus, seperti kadar pembelajaran, saiz kelompok dan bilangan zaman. Kadar pembelajaran menentukan magnitud pelarasan parameter yang dibuat semasa setiap lelaran. Saiz kelompok menentukan bilangan contoh yang diproses dalam setiap lelaran. Bilangan zaman menentukan bilangan kali model didedahkan kepada keseluruhan set data latihan.

Menilai Model yang Ditala Halus

Selepas proses penalaan halus selesai, adalah penting untuk menilai prestasi model yang ditala halus. Ini boleh dilakukan dengan menguji model pada set data ujian yang berasingan yang tidak digunakan semasa proses penalaan halus.

Set data ujian harus mewakili jenis soalan dan invokasi alat yang dijangka dikendalikan oleh model dalam senario dunia sebenar. Prestasi model boleh dinilai dengan mengukur metrik seperti ketepatan, ketepatan, ingat semula dan skor F1.

Faedah Menyesuaikan Model Amazon Nova untuk Penggunaan Alat

Menyesuaikan model Amazon Nova untuk penggunaan alat menawarkan beberapa faedah:

Ketepatan yang Dipertingkatkan: Menala halus model pada set data khusus tugas boleh meningkatkan ketepatan pemilihan alat dan pengekstrakan argumen dengan ketara.
Kecekapan yang Meningkat: Model yang ditala halus selalunya boleh melaksanakan tugas penggunaan alat dengan lebih cekap daripada model pra-latihan.
Kebolehsuaian yang Dipertingkatkan: Penalaan halus membolehkan model menyesuaikan diri dengan domain dan kes penggunaan tertentu.
Kos yang Dikurangkan: Dalam beberapa kes, penalaan halus boleh mengurangkan sumber pengiraan yang diperlukan untuk melaksanakan tugas penggunaan alat.

Kesimpulan

Menyesuaikan model Amazon Nova untuk penggunaan alat ialah teknik berharga untuk meningkatkan prestasi dan kebolehsuaian LLM. Dengan menala halus model pada set data khusus tugas, pembangun boleh meningkatkan ketepatan, kecekapan dan kebolehsuaian aplikasi penggunaan alat dengan ketara. Memandangkan industri semakin menuntut penyelesaian AI yang mampu membuat keputusan yang tepat, penyesuaian LLM untuk penggunaan alat akan menjadi semakin penting.

dikemaskinikan pada 2025-04-29

# Amazon # Nova # Fine-Tuning