Penerokaan Mendalam Pixtral 12B
Pixtral 12B, percubaan pertama Mistral dalam VLM, mempamerkan prestasi yang mengagumkan merentasi spektrum penanda aras. Menurut penilaian dalaman Mistral, ia mengatasi model terbuka lain dan juga bersaing dengan model yang lebih besar. Pixtral direka untuk pemahaman imej dan dokumen, mempamerkan keupayaan lanjutan dalam tugas berpusatkan penglihatan. Ini termasuk mentafsir carta dan angka, menjawab soalan tentang kandungan dokumen, melibatkan diri dalam penaakulan multimodal, dan mengikut arahan dengan teliti. Ciri utama model ini ialah keupayaannya untuk memproses imej pada resolusi asli dan nisbah bidangnya, memastikan pengendalian input kesetiaan tinggi. Tambahan pula, dan tidak seperti banyak alternatif sumber terbuka, Pixtral 12B mencapai keputusan cemerlang dalam penanda aras berasaskan teks – menunjukkan kecekapan dalam mengikuti arahan, pengekodan, dan penaakulan matematik – tanpa menjejaskan prestasi tugas multimodalnya.
Inovasi di sebalik Pixtral 12B terletak pada seni bina novel Mistral, yang direka dengan teliti untuk kecekapan pengiraan dan prestasi tinggi. Model ini terdiri daripada dua komponen teras: pengekod penglihatan 400 juta parameter, ditugaskan untuk mentokenkan imej, dan penyahkod transformer multimodal 12 bilion parameter. Penyahkod ini meramalkan token teks berikutnya berdasarkan urutan teks dan imej yang diberikan. Pengekod penglihatan dilatih khusus untuk mengendalikan saiz imej berubah secara asli. Ini membolehkan Pixtral mentafsir gambar rajah, carta dan dokumen resolusi tinggi dengan tepat sambil mengekalkan kelajuan inferens yang pantas untuk imej yang lebih kecil, seperti ikon, clipart dan persamaan. Seni bina yang direka dengan teliti ini menyokong pemprosesan sebarang bilangan imej dengan pelbagai saiz, semuanya dalam tetingkap konteks yang besar iaitu 128,000 token.
Apabila menggunakan model berat terbuka, perjanjian lesen adalah pertimbangan utama. Mencerminkan pendekatan pelesenan model Mistral lain seperti Mistral 7B, Mixtral 8x7B, Mixtral 8x22B, dan Mistral Nemo 12B, Pixtral 12B dikeluarkan di bawah lesen Apache 2.0 yang permisif secara komersial. Ini menyediakan pelanggan perusahaan dan syarikat permulaan dengan pilihan VLM berprestasi tinggi, memperkasakan mereka untuk membina aplikasi multimodal yang canggih.
Metrik Prestasi dan Penanda Aras: Pandangan Lebih Dekat
Pixtral 12B dilatih dengan teliti untuk memahami kedua-dua imej semula jadi dan dokumen. Ia mencapai skor 52.5% pada penanda aras penaakulan Pemahaman Bahasa Berbilang Tugas Besar-besaran (MMLU), mengatasi beberapa model yang lebih besar, seperti yang dilaporkan oleh Mistral. Penanda aras MMLU berfungsi sebagai ujian yang ketat, menilai kapasiti model bahasa untuk memahami dan menggunakan bahasa merentasi pelbagai subjek. MMLU terdiri daripada lebih 10,000 soalan aneka pilihan yang merangkumi pelbagai disiplin akademik, termasuk matematik, falsafah, undang-undang dan perubatan.
Pixtral 12B menunjukkan keupayaan teguh dalam tugas seperti memahami carta dan angka, menjawab soalan berdasarkan kandungan dokumen, melibatkan diri dalam penaakulan multimodal, dan mematuhi arahan. Keupayaan model untuk mencerna imej pada resolusi semula jadi dan nisbah bidangnya memberikan pengguna fleksibiliti dalam bilangan token yang digunakan untuk pemprosesan imej. Selain itu, Pixtral boleh memproses berbilang imej dalam tetingkap konteks 128,000 token yang luas. Terutama, dan berbeza dengan model sumber terbuka sebelumnya, Pixtral tidak mengorbankan prestasi pada penanda aras teks untuk cemerlang dalam tugas multimodal, menurut penemuan Mistral.
Menggunakan Pixtral 12B pada Amazon Bedrock Marketplace: Panduan Langkah demi Langkah
Konsol Amazon Bedrock memudahkan carian model yang disesuaikan dengan kes penggunaan atau bahasa tertentu. Hasil carian merangkumi kedua-dua model tanpa pelayan dan model yang tersedia melalui Amazon Bedrock Marketplace. Pengguna boleh memperhalusi carian mereka dengan menapis hasil berdasarkan pembekal, modaliti (cth., teks, imej atau audio), atau tugas (cth., pengelasan atau ringkasan teks).
Untuk mengakses Pixtral 12B dalam Amazon Bedrock Marketplace, ikuti langkah terperinci ini:
Navigasi ke Katalog Model: Dalam konsol Amazon Bedrock, cari dan pilih ‘Model catalog’ di bawah bahagian ‘Foundation models’ dalam anak tetingkap navigasi.
Tapis dan Pilih Pixtral 12B: Perhalusi senarai model dengan memilih ‘Hugging Face’ sebagai pembekal dan kemudian memilih model Pixtral 12B. Sebagai alternatif, anda boleh terus mencari ‘Pixtral’ dalam kotak input ‘Filter for a model’.
Semak Butiran Model: Halaman butiran model menyediakan maklumat penting mengenai keupayaan model, struktur harga dan garis panduan pelaksanaan. Halaman ini menawarkan arahan penggunaan yang komprehensif, termasuk contoh panggilan API dan coretan kod untuk memudahkan penyepaduan. Ia juga membentangkan pilihan penggunaan dan maklumat pelesenan untuk menyelaraskan proses penggabungan Pixtral 12B ke dalam aplikasi anda.
Mulakan Penggunaan: Untuk mula menggunakan Pixtral 12B, klik butang ‘Deploy’.
Konfigurasikan Tetapan Penggunaan: Anda akan digesa untuk mengkonfigurasi butiran penggunaan untuk Pixtral 12B. ID model akan diprapopulasi untuk kemudahan anda.
Terima Perjanjian Lesen Pengguna Akhir (EULA): Baca dengan teliti dan terima Perjanjian Lesen Pengguna Akhir (EULA).
Nama Titik Akhir: ‘Endpoint Name’ diisi secara automatik; walau bagaimanapun, pelanggan mempunyai pilihan untuk menamakan semula titik akhir.
Bilangan Instance: Tentukan bilangan instance yang dikehendaki, antara 1 hingga 100.
Jenis Instance: Pilih jenis instance pilihan anda. Untuk prestasi optimum dengan Pixtral 12B, jenis instance berasaskan GPU, seperti ml.g6.12xlarge, disyorkan.
Tetapan Lanjutan (Pilihan): Secara pilihan, anda boleh mengkonfigurasi tetapan keselamatan dan infrastruktur lanjutan. Ini termasuk rangkaian awan peribadi maya (VPC), kebenaran peranan perkhidmatan dan tetapan penyulitan. Walaupun tetapan lalai sesuai untuk kebanyakan kes penggunaan, untuk penggunaan pengeluaran, adalah dinasihatkan untuk menyemak tetapan ini untuk memastikan penjajaran dengan keperluan keselamatan dan pematuhan organisasi anda.
Gunakan Model: Klik ‘Deploy’ untuk memulakan proses penggunaan model.
Pantau Status Penggunaan: Setelah penggunaan selesai, ‘Endpoint status’ hendaklah beralih kepada ‘In Service’. Selepas titik akhir aktif, anda boleh terus menguji keupayaan Pixtral 12B dalam taman permainan Amazon Bedrock.
Akses Taman Permainan: Pilih ‘Open in playground’ untuk mengakses antara muka interaktif. Antara muka ini membolehkan anda bereksperimen dengan pelbagai gesaan dan melaraskan parameter model, seperti suhu dan panjang maksimum.
Taman permainan menyediakan persekitaran yang sangat baik untuk meneroka keupayaan penaakulan dan penjanaan teks model sebelum menyepadukannya ke dalam aplikasi anda. Ia menawarkan maklum balas segera, membolehkan anda memahami cara model bertindak balas kepada input yang berbeza dan memperhalusi gesaan anda untuk hasil yang optimum.
Walaupun taman permainan membenarkan ujian pantas melalui UI, seruan programatik model yang digunakan menggunakan API Amazon Bedrock memerlukan penggunaan titik akhir ARN sebagai model-id
dalam Amazon Bedrock SDK.
Meneroka Kes Penggunaan Pixtral 12B
Bahagian ini menyelidiki contoh praktikal keupayaan Pixtral 12B, mempamerkan kepelbagaiannya melalui contoh gesaan.
Penaakulan Logik Visual: Aplikasi Berkuasa
Salah satu aplikasi model penglihatan yang paling menarik ialah keupayaan mereka untuk menyelesaikan masalah penaakulan logik atau teka-teki visual. Model penglihatan Pixtral 12B menunjukkan kecekapan luar biasa dalam menangani soalan penaakulan logik. Mari kita periksa contoh khusus untuk menggambarkan keupayaan ini. Kekuatan teras ialah keupayaan bukan sahaja untuk melihat imej, tetapi mengekstrak corak dan menggunakan logik. Keupayaan model bahasa yang besar digunakan untuk memberikan respons.
Contoh:
Bayangkan teka-teki visual di mana urutan bentuk dibentangkan, dan tugasnya adalah untuk menentukan bentuk seterusnya dalam urutan berdasarkan corak tersembunyi.
Gesaan: ‘Analisis urutan bentuk berikut dan ramalkan bentuk seterusnya dalam siri. Terangkan alasan anda.’
Muatan Input: (Imej yang menggambarkan urutan bentuk)
Output Dijangka: Pixtral 12B idealnya akan:
- Kenal Pasti Corak: Bezakan dengan betul corak asas yang mengawal urutan bentuk. Ini mungkin melibatkan pengecaman perubahan dalam bentuk, warna, orientasi, atau gabungan faktor ini.
- Ramalkan Bentuk Seterusnya: Berdasarkan corak yang dikenal pasti, ramalkan dengan tepat ciri-ciri bentuk seterusnya dalam urutan.
- Terangkan Penaakulan: Nyatakan dengan jelas langkah logik yang diambil untuk mencapai ramalan, menerangkan cara corak yang dikenal pasti digunakan untuk menentukan bentuk seterusnya.
Contoh ini menyerlahkan keupayaan Pixtral 12B untuk bukan sahaja memproses maklumat visual tetapi juga untuk menggunakan penaakulan logik untuk mentafsir maklumat dan membuat ramalan. Keupayaan ini melangkaui pengecaman corak mudah, merangkumi senario yang lebih kompleks yang melibatkan penaakulan spatial, potongan berasaskan peraturan, dan juga pemahaman konsep abstrak.
Kes Penggunaan dan Pengembangan Lanjutan
Selain teka-teki visual, keupayaan penaakulan logik visual Pixtral 12B boleh digunakan untuk pelbagai senario dunia sebenar:
- Analisis dan Tafsiran Data: Menganalisis carta, graf dan gambar rajah untuk mengekstrak cerapan dan arah aliran utama. Contohnya, mengenal pasti korelasi antara set data berbeza yang dibentangkan dalam visualisasi yang kompleks.
- Analisis Imej Perubatan: Membantu dalam tafsiran imej perubatan, seperti X-ray, imbasan CT dan MRI, dengan mengenal pasti anomali atau corak yang menunjukkan keadaan tertentu.
- Robotik dan Sistem Autonomi: Membolehkan robot menavigasi persekitaran yang kompleks dengan mentafsir isyarat visual dan membuat keputusan berdasarkan pemahaman mereka tentang pemandangan itu.
- Keselamatan dan Pengawasan: Menganalisis rakaman video untuk mengesan aktiviti yang mencurigakan atau mengenal pasti objek yang diminati.
- Pendidikan dan Latihan: Mencipta bahan pembelajaran interaktif yang menyesuaikan diri dengan pemahaman pengguna berdasarkan respons mereka terhadap gesaan visual.
- Pemahaman dokumen: Mengekstrak data berstruktur daripada dokumen yang kompleks.
Kepelbagaian Pixtral 12B, digabungkan dengan kebolehcapaian Amazon Bedrock, membuka pelbagai kemungkinan untuk pembangun dan perniagaan yang ingin memanfaatkan kuasa model bahasa penglihatan. Keupayaan untuk memproses imej dan teks secara seragam, ditambah dengan keupayaan penaakulan yang kuat, menjadikan Pixtral 12B alat yang berharga untuk pelbagai aplikasi. Kemudahan penggunaan dan pelesenan yang permisif secara komersial meningkatkan lagi daya tarikannya, menjadikannya pilihan yang menarik untuk kedua-dua penyelidikan dan usaha komersial.