Pendalaman Pixtral 12B
Pixtral 12B, langkah pertama Mistral ke dalam VLM, menunjukkan kinerja yang mengesankan di berbagai tolok ukur. Menurut evaluasi internal Mistral, model ini mengungguli model terbuka lainnya dan bahkan bersaing dengan model yang jauh lebih besar. Pixtral direkayasa untuk pemahaman gambar dan dokumen, menunjukkan kemampuan canggih dalam tugas-tugas yang berpusat pada visi. Ini termasuk menafsirkan bagan dan gambar, menjawab pertanyaan tentang konten dokumen, terlibat dalam penalaran multimodal, dan dengan cermat mengikuti instruksi. Fitur utama dari model ini adalah kemampuannya untuk memproses gambar pada resolusi asli dan rasio aspeknya, memastikan penanganan input dengan fidelitas tinggi. Lebih lanjut, dan tidak seperti banyak alternatif sumber terbuka, Pixtral 12B mencapai hasil yang sangat baik dalam tolok ukur berbasis teks – menunjukkan kemahiran dalam mengikuti instruksi, pengkodean, dan penalaran matematika – tanpa mengorbankan kinerja tugas multimodalnya.
Inovasi di balik Pixtral 12B terletak pada arsitektur baru Mistral, yang dirancang dengan cermat untuk efisiensi komputasi dan kinerja tinggi. Model ini terdiri dari dua komponen inti: vision encoder 400 juta parameter, yang bertugas melakukan tokenisasi gambar, dan multimodal transformer decoder 12 miliar parameter. Dekoder ini memprediksi token teks berikutnya berdasarkan urutan teks dan gambar yang diberikan. Vision encoder secara khusus dilatih untuk menangani ukuran gambar variabel secara native. Hal ini memungkinkan Pixtral untuk secara akurat menafsirkan diagram, bagan, dan dokumen beresolusi tinggi sambil mempertahankan kecepatan inferensi yang cepat untuk gambar yang lebih kecil, seperti ikon, clipart, dan persamaan. Arsitektur yang dibuat dengan hati-hati ini mendukung pemrosesan sejumlah gambar dengan berbagai ukuran, semuanya dalam jendela konteks substansial 128.000 token.
Saat menggunakan model open-weight, perjanjian lisensi adalah pertimbangan terpenting. Mencerminkan pendekatan lisensi model Mistral lainnya seperti Mistral 7B, Mixtral 8x7B, Mixtral 8x22B, dan Mistral Nemo 12B, Pixtral 12B dirilis di bawah lisensi Apache 2.0 yang permisif secara komersial. Ini memberikan opsi VLM berkinerja tinggi kepada pelanggan perusahaan dan startup, memberdayakan mereka untuk membangun aplikasi multimodal yang canggih.
Metrik Kinerja dan Tolok Ukur: Tinjauan Lebih Dekat
Pixtral 12B dilatih dengan cermat untuk memahami gambar alami dan dokumen. Model ini mencapai skor 52,5% pada tolok ukur penalaran Massive Multitask Language Understanding (MMLU), mengungguli beberapa model yang lebih besar, seperti yang dilaporkan oleh Mistral. Tolok ukur MMLU berfungsi sebagai pengujian yang ketat, mengevaluasi kapasitas model bahasa untuk memahami dan memanfaatkan bahasa di berbagai mata pelajaran. MMLU terdiri dari lebih dari 10.000 pertanyaan pilihan ganda yang mencakup berbagai disiplin ilmu akademik, termasuk matematika, filsafat, hukum, dan kedokteran.
Pixtral 12B menunjukkan kemampuan yang kuat dalam tugas-tugas seperti memahami bagan dan gambar, menjawab pertanyaan berdasarkan konten dokumen, terlibat dalam penalaran multimodal, dan mematuhi instruksi. Kemampuan model untuk mencerna gambar pada resolusi alami dan rasio aspeknya memberi pengguna fleksibilitas dalam jumlah token yang digunakan untuk pemrosesan gambar. Selain itu, Pixtral dapat memproses banyak gambar dalam jendela konteks 128.000 token yang luas. Khususnya, dan berbeda dengan model sumber terbuka sebelumnya, Pixtral tidak mengorbankan kinerja pada tolok ukur teks untuk unggul dalam tugas multimodal, menurut temuan Mistral.
Menyebarkan Pixtral 12B di Amazon Bedrock Marketplace: Panduan Langkah demi Langkah
Konsol Amazon Bedrock memfasilitasi pencarian model yang disesuaikan dengan kasus penggunaan atau bahasa tertentu. Hasil pencarian mencakup model serverless dan model yang tersedia melalui Amazon Bedrock Marketplace. Pengguna dapat mempersempit pencarian mereka dengan memfilter hasil berdasarkan penyedia, modalitas (misalnya, teks, gambar, atau audio), atau tugas (misalnya, klasifikasi atau ringkasan teks).
Untuk mengakses Pixtral 12B dalam Amazon Bedrock Marketplace, ikuti langkah-langkah terperinci ini:
Navigasikan ke Katalog Model: Di dalam konsol Amazon Bedrock, cari dan pilih ‘Model catalog’ di bawah bagian ‘Foundation models’ di panel navigasi.
Filter dan Pilih Pixtral 12B: Saring daftar model dengan memilih ‘Hugging Face’ sebagai penyedia dan kemudian pilih model Pixtral 12B. Atau, Anda dapat langsung mencari ‘Pixtral’ di kotak input ‘Filter for a model’.
Tinjau Detail Model: Halaman detail model memberikan informasi penting mengenai kemampuan model, struktur harga, dan pedoman implementasi. Halaman ini menawarkan instruksi penggunaan yang komprehensif, termasuk contoh panggilan API dan cuplikan kode untuk memfasilitasi integrasi. Ini juga menyajikan opsi penerapan dan informasi lisensi untuk memperlancar proses penggabungan Pixtral 12B ke dalam aplikasi Anda.
Mulai Penerapan: Untuk mulai menggunakan Pixtral 12B, klik tombol ‘Deploy’.
Konfigurasikan Pengaturan Penerapan: Anda akan diminta untuk mengonfigurasi detail penerapan untuk Pixtral 12B. ID model akan diisi sebelumnya untuk kenyamanan Anda.
Terima Perjanjian Lisensi Pengguna Akhir (EULA): Baca dengan cermat dan terima Perjanjian Lisensi Pengguna Akhir (EULA).
Nama Endpoint: ‘Endpoint Name’ secara otomatis diisi; namun, pelanggan memiliki opsi untuk mengganti nama endpoint.
Jumlah Instans: Tentukan jumlah instans yang diinginkan, mulai dari 1 hingga 100.
Jenis Instans: Pilih jenis instans yang Anda inginkan. Untuk kinerja optimal dengan Pixtral 12B, jenis instans berbasis GPU, seperti ml.g6.12xlarge, direkomendasikan.
Pengaturan Lanjutan (Opsional): Secara opsional, Anda dapat mengonfigurasi pengaturan keamanan dan infrastruktur lanjutan. Ini termasuk jaringan virtual private cloud (VPC), izin peran layanan, dan pengaturan enkripsi. Meskipun pengaturan default cocok untuk sebagian besar kasus penggunaan, untuk penerapan produksi, disarankan untuk meninjau pengaturan ini untuk memastikan keselarasan dengan persyaratan keamanan dan kepatuhan organisasi Anda.
Terapkan Model: Klik ‘Deploy’ untuk memulai proses penerapan model.
Pantau Status Penerapan: Setelah penerapan selesai, ‘Endpoint status’ akan berubah menjadi ‘In Service’. Setelah endpoint aktif, Anda dapat langsung menguji kemampuan Pixtral 12B di dalam playground Amazon Bedrock.
Akses Playground: Pilih ‘Open in playground’ untuk mengakses antarmuka interaktif. Antarmuka ini memungkinkan Anda untuk bereksperimen dengan berbagai prompt dan menyesuaikan parameter model, seperti suhu dan panjang maksimum.
Playground menyediakan lingkungan yang sangat baik untuk menjelajahi kemampuan penalaran dan pembuatan teks model sebelum mengintegrasikannya ke dalam aplikasi Anda. Ini menawarkan umpan balik langsung, memungkinkan Anda untuk memahami bagaimana model merespons input yang berbeda dan menyempurnakan prompt Anda untuk hasil yang optimal.
Meskipun playground memungkinkan pengujian cepat melalui UI, pemanggilan terprogram dari model yang diterapkan menggunakan Amazon Bedrock API memerlukan penggunaan endpoint ARN sebagai model-id
di Amazon Bedrock SDK.
Menjelajahi Kasus Penggunaan Pixtral 12B
Bagian ini menggali contoh praktis kemampuan Pixtral 12B, menampilkan keserbagunaannya melalui contoh prompt.
Penalaran Logis Visual: Aplikasi yang Kuat
Salah satu aplikasi model visi yang paling menarik adalah kemampuannya untuk memecahkan masalah penalaran logis atau teka-teki visual. Model visi Pixtral 12B menunjukkan kemahiran luar biasa dalam menangani pertanyaan penalaran logis. Mari kita periksa contoh spesifik untuk mengilustrasikan kemampuan ini. Kekuatan intinya adalah kemampuan untuk tidak hanya melihat gambar, tetapi mengekstrak pola dan menerapkan logika. Kemampuan model bahasa besar digunakan untuk memberikan respons.
Contoh:
Bayangkan sebuah teka-teki visual di mana urutan bentuk disajikan, dan tugasnya adalah menentukan bentuk berikutnya dalam urutan berdasarkan pola tersembunyi.
Prompt: ‘Analisis urutan bentuk berikut dan prediksi bentuk berikutnya dalam seri. Jelaskan alasan Anda.’
Input Payload: (Gambar yang menggambarkan urutan bentuk)
Output yang Diharapkan: Pixtral 12B idealnya akan:
- Mengidentifikasi Pola: Secara benar membedakan pola dasar yang mengatur urutan bentuk. Ini mungkin melibatkan pengenalan perubahan bentuk, warna, orientasi, atau kombinasi dari faktor-faktor ini.
- Memprediksi Bentuk Berikutnya: Berdasarkan pola yang teridentifikasi, secara akurat memprediksi karakteristik bentuk berikutnya dalam urutan.
- Menjelaskan Alasan: Dengan jelas mengartikulasikan langkah-langkah logis yang diambil untuk sampai pada prediksi, menjelaskan bagaimana pola yang teridentifikasi diterapkan untuk menentukan bentuk berikutnya.
Contoh ini menyoroti kemampuan Pixtral 12B untuk tidak hanya memproses informasi visual tetapi juga untuk menerapkan penalaran logis untuk menafsirkan informasi dan membuat prediksi. Kemampuan ini melampaui pengenalan pola sederhana, mencakup skenario yang lebih kompleks yang melibatkan penalaran spasial, deduksi berbasis aturan, dan bahkan pemahaman konsep abstrak.
Kasus Penggunaan dan Ekspansi Lebih Lanjut
Di luar teka-teki visual, kemampuan penalaran logis visual Pixtral 12B dapat diterapkan pada berbagai skenario dunia nyata:
- Analisis dan Interpretasi Data: Menganalisis bagan, grafik, dan diagram untuk mengekstrak wawasan dan tren utama. Misalnya, mengidentifikasi korelasi antara kumpulan data yang berbeda yang disajikan dalam visualisasi yang kompleks.
- Analisis Citra Medis: Membantu dalam interpretasi citra medis, seperti sinar-X, CT scan, dan MRI, dengan mengidentifikasi anomali atau pola yang menunjukkan kondisi tertentu.
- Robotika dan Sistem Otonom: Memungkinkan robot untuk menavigasi lingkungan yang kompleks dengan menafsirkan isyarat visual dan membuat keputusan berdasarkan pemahaman mereka tentang pemandangan tersebut.
- Keamanan dan Pengawasan: Menganalisis rekaman video untuk mendeteksi aktivitas mencurigakan atau mengidentifikasi objek yang menarik.
- Pendidikan dan Pelatihan: Membuat materi pembelajaran interaktif yang beradaptasi dengan pemahaman pengguna berdasarkan tanggapan mereka terhadap prompt visual.
- Pemahaman dokumen: Mengekstraksi data terstruktur dari dokumen kompleks.
Keserbagunaan Pixtral 12B, dikombinasikan dengan aksesibilitas Amazon Bedrock, membuka berbagai kemungkinan bagi pengembang dan bisnis yang ingin memanfaatkan kekuatan model bahasa visi. Kemampuan untuk memproses gambar dan teks secara terpadu, ditambah dengan kemampuan penalaran yang kuat, menjadikan Pixtral 12B alat yang berharga untuk banyak aplikasi. Kemudahan penerapan dan lisensi yang permisif secara komersial semakin meningkatkan daya tariknya, menjadikannya pilihan yang menarik untuk penelitian dan usaha komersial.