Memperkasa Inovasi Generasi Phi Baharu

Phi-4-Multimodal Pendekatan Bersepadu kepada AI Multimodal

Usaha tanpa henti Microsoft dalam memajukan kecerdasan buatan telah menghasilkan pencapaian baharu: pengenalan Phi-4-multimodal dan Phi-4-mini, tambahan terkini kepada keluarga model bahasa kecil (SLM) Phi. Model-model ini mewakili lonjakan ketara ke hadapan, direka untuk melengkapkan pembangun dengan keupayaan AI termaju yang menjanjikan untuk membentuk semula landskap pembangunan aplikasi.

Phi-4-multimodal muncul sebagai penerokaan perintis Microsoft ke dalam bidang model bahasa multimodal. Model terobosan ini, dengan 5.6 bilion parameternya, menyepadukan pemprosesan pertuturan, penglihatan dan teks dengan lancar dalam satu seni bina yang padu. Pendekatan inovatif ini berpunca secara langsung daripada maklum balas pelanggan yang berharga, mencerminkan komitmen Microsoft terhadap penambahbaikan berterusan dan responsif terhadap keperluan pengguna.

Pembangunan Phi-4-multimodal memanfaatkan teknik pembelajaran silang modal termaju. Ini membolehkan model memupuk interaksi yang lebih semula jadi dan peka konteks. Peranti yang dilengkapi dengan Phi-4-multimodal boleh memahami dan menaakul merentasi pelbagai modaliti input secara serentak. Ia cemerlang dalam mentafsir bahasa pertuturan, menganalisis imej dan memproses maklumat teks. Tambahan pula, ia menyampaikan inferens kependaman rendah yang sangat cekap sambil mengoptimumkan untuk pelaksanaan pada peranti, dengan itu meminimumkan overhed pengiraan.

Salah satu ciri yang menentukan Phi-4-multimodal ialah seni bina bersepadunya. Tidak seperti pendekatan konvensional yang bergantung pada saluran paip yang kompleks atau model berasingan untuk modaliti yang berbeza, Phi-4-multimodal beroperasi sebagai entiti tunggal. Ia dengan cekap mengendalikan input teks, audio dan visual dalam ruang perwakilan yang sama. Reka bentuk yang diperkemas ini meningkatkan kecekapan dan memudahkan proses pembangunan.

Seni bina Phi-4-multimodal menggabungkan beberapa peningkatan untuk meningkatkan prestasi dan serba boleh. Ini termasuk:

  • Perbendaharaan Kata Lebih Besar: Memudahkan keupayaan pemprosesan yang lebih baik.
  • Sokongan Berbilang Bahasa: Meluaskan kebolehgunaan model merentasi konteks linguistik yang pelbagai.
  • Penaakulan Bahasa Bersepadu: Menggabungkan pemahaman bahasa dengan input multimodal.

Kemajuan ini dicapai dalam model yang padat dan sangat cekap, sesuai untuk digunakan pada peranti dan platform pengkomputeran pinggir. Keupayaan yang diperluaskan dan kebolehsuaian Phi-4-multimodal membuka banyak kemungkinan untuk pembangun aplikasi, perniagaan dan industri yang ingin memanfaatkan AI dengan cara yang inovatif.

Dalam domain tugas berkaitan pertuturan, Phi-4-multimodal telah menunjukkan kehebatan yang luar biasa, muncul sebagai pendahulu di kalangan model terbuka. Terutama, ia mengatasi model khusus seperti WhisperV3 dan SeamlessM4T-v2-Large dalam kedua-dua pengecaman pertuturan automatik (ASR) dan terjemahan pertuturan (ST). Ia telah memperoleh kedudukan teratas pada papan pendahulu HuggingFace OpenASR, mencapai kadar ralat perkataan yang mengagumkan iaitu 6.14%, mengatasi yang terbaik sebelumnya iaitu 6.5% (sehingga Februari 2025). Selain itu, ia adalah antara beberapa model terbuka terpilih yang mampu melaksanakan ringkasan pertuturan dengan jayanya, mencapai tahap prestasi yang setanding dengan model GPT-4o.

Walaupun Phi-4-multimodal mempamerkan jurang yang sedikit berbanding model seperti Gemini-2.0-Flash dan GPT-4o-realtime-preview dalam tugas menjawab soalan (QA) pertuturan, terutamanya disebabkan oleh saiznya yang lebih kecil dan akibatnya had dalam mengekalkan pengetahuan QA fakta, usaha berterusan tertumpu pada meningkatkan keupayaan ini dalam lelaran masa hadapan.

Selain pertuturan, Phi-4-multimodal mempamerkan keupayaan penglihatan yang luar biasa merentasi pelbagai penanda aras. Ia mencapai prestasi yang sangat kukuh dalam penaakulan matematik dan saintifik. Walaupun saiznya padat, model ini mengekalkan prestasi yang kompetitif dalam tugas multimodal am, termasuk:

  • Pemahaman dokumen dan carta
  • Pengecaman Aksara Optik (OCR)
  • Penaakulan sains visual

Ia sepadan atau melebihi prestasi model setanding seperti Gemini-2-Flash-lite-preview dan Claude-3.5-Sonnet.

Phi-4-Mini: Kuasa Padat untuk Tugas Berasaskan Teks

Melengkapkan Phi-4-multimodal ialah Phi-4-mini, model parameter 3.8 bilion yang direka untuk kelajuan dan kecekapan dalam tugas berasaskan teks. Transformer padat, penyahkod sahaja ini menampilkan:

  • Perhatian pertanyaan berkumpulan
  • Perbendaharaan kata 200,000 perkataan
  • Penyematan input-output yang dikongsi

Walaupun saiznya padat, Phi-4-mini secara konsisten mengatasi model yang lebih besar dalam pelbagai tugas berasaskan teks, termasuk:

  • Penaakulan
  • Matematik
  • Pengekodan
  • Mengikuti arahan
  • Panggilan fungsi

Ia menyokong urutan sehingga 128,000 token, memberikan ketepatan dan kebolehskalaan yang luar biasa. Ini menjadikannya penyelesaian yang ampuh untuk aplikasi AI lanjutan yang menuntut prestasi tinggi dalam pemprosesan teks.

Panggilan fungsi, mengikuti arahan, pemprosesan konteks panjang dan penaakulan adalah semua keupayaan kuat yang membolehkan model bahasa kecil seperti Phi-4-mini mengakses pengetahuan dan fungsi luaran, dengan berkesan mengatasi had yang dikenakan oleh saiznya yang padat. Melalui protokol piawai, panggilan fungsi memperkasakan model untuk disepadukan dengan lancar dengan antara muka pengaturcaraan berstruktur.

Apabila dibentangkan dengan permintaan pengguna, Phi-4-mini boleh:

  1. Menaakul melalui pertanyaan.
  2. Mengenal pasti dan menggunakan fungsi yang berkaitan dengan parameter yang sesuai.
  3. Menerima output fungsi.
  4. Menggabungkan keputusan ini ke dalam responsnya.

Ini mencipta sistem berasaskan ejen yang boleh diperluaskan, di mana keupayaan model boleh ditambah dengan menyambungkannya kepada alatan luaran, antara muka program aplikasi (API) dan sumber data melalui antara muka fungsi yang jelas. Contoh ilustrasi ialah ejen kawalan rumah pintar yang dikuasakan oleh Phi-4-mini, menguruskan pelbagai peranti dan fungsi dengan lancar.

Jejak yang lebih kecil bagi kedua-dua Phi-4-mini dan Phi-4-multimodal menjadikannya sangat sesuai untuk persekitaran inferens terhad pengiraan. Model ini amat berfaedah untuk penggunaan pada peranti, terutamanya apabila dioptimumkan lagi dengan ONNX Runtime untuk ketersediaan merentas platform. Keperluan pengiraan yang dikurangkan diterjemahkan kepada kos yang lebih rendah dan kependaman yang dipertingkatkan dengan ketara. Tetingkap konteks lanjutan membolehkan model memproses dan menaakul kandungan teks yang meluas, termasuk dokumen, halaman web, kod dan banyak lagi. Kedua-dua Phi-4-mini dan Phi-4-multimodal mempamerkan keupayaan penaakulan dan logik yang teguh, meletakkannya sebagai pesaing kuat untuk tugas analisis. Saiznya yang padat juga memudahkan dan mengurangkan kos penalaan halus atau penyesuaian.

Aplikasi Dunia Sebenar: Mengubah Industri

Reka bentuk model ini membolehkan mereka mengendalikan tugas rumit dengan cekap, menjadikannya sesuai untuk senario pengkomputeran pinggir dan persekitaran dengan sumber pengiraan yang terhad. Keupayaan yang diperluaskan bagi Phi-4-multimodal dan Phi-4-mini meluaskan ufuk aplikasi Phi merentasi pelbagai industri. Model ini disepadukan ke dalam ekosistem AI dan digunakan untuk meneroka pelbagai kes penggunaan.

Berikut ialah beberapa contoh yang menarik:

  • Integrasi ke dalam Windows: Model bahasa berfungsi sebagai enjin penaakulan yang berkuasa. Mengintegrasikan model bahasa kecil seperti Phi ke dalam Windows membolehkan penyelenggaraan keupayaan pengiraan yang cekap dan membuka jalan untuk masa depan kecerdasan berterusan yang disepadukan dengan lancar merentasi semua aplikasi dan pengalaman pengguna. PC Copilot+ akan memanfaatkan keupayaan Phi-4-multimodal, menyampaikan kuasa SLM termaju Microsoft tanpa penggunaan tenaga yang berlebihan. Integrasi ini akan meningkatkan produktiviti, kreativiti dan pengalaman pendidikan, mewujudkan standard baharu untuk platform pembangun.

  • Peranti Pintar: Bayangkan pengeluar telefon pintar membenamkan Phi-4-multimodal terus ke dalam peranti mereka. Ini akan memperkasakan telefon pintar untuk memproses dan memahami arahan suara, mengecam imej dan mentafsir teks dengan lancar. Pengguna boleh mendapat manfaat daripada ciri lanjutan seperti terjemahan bahasa masa nyata, analisis foto dan video yang dipertingkatkan, dan pembantu peribadi pintar yang mampu memahami dan bertindak balas kepada pertanyaan yang kompleks. Ini akan meningkatkan pengalaman pengguna dengan ketara dengan menyediakan keupayaan AI yang kuat terus pada peranti, memastikan kependaman rendah dan kecekapan tinggi.

  • Industri Automotif: Pertimbangkan syarikat automotif yang menyepadukan Phi-4-multimodal ke dalam sistem pembantu dalam keretanya. Model itu boleh membolehkan kenderaan memahami dan bertindak balas kepada arahan suara, mengecam gerak isyarat pemandu dan menganalisis input visual daripada kamera. Sebagai contoh, ia boleh meningkatkan keselamatan pemandu dengan mengesan rasa mengantuk melalui pengecaman muka dan memberikan makluman masa nyata. Selain itu, ia boleh menawarkan bantuan navigasi yang lancar, mentafsir papan tanda jalan dan menyediakan maklumat kontekstual, mewujudkan pengalaman pemanduan yang lebih intuitif dan selamat, sama ada apabila disambungkan ke awan dan di luar talian apabila sambungan tidak tersedia.

  • Perkhidmatan Kewangan Berbilang Bahasa: Bayangkan sebuah syarikat perkhidmatan kewangan memanfaatkan Phi-4-mini untuk mengautomasikan pengiraan kewangan yang kompleks, menjana laporan terperinci dan menterjemah dokumen kewangan ke dalam berbilang bahasa. Model itu boleh membantu penganalisis dengan melakukan pengiraan matematik yang rumit yang penting untuk penilaian risiko, pengurusan portfolio dan ramalan kewangan. Tambahan pula, ia boleh menterjemah penyata kewangan, dokumen kawal selia dan komunikasi pelanggan ke dalam pelbagai bahasa, dengan itu meningkatkan hubungan pelanggan global.

Memastikan Keselamatan dan Sekuriti

Azure AI Foundry menyediakan pengguna dengan set keupayaan yang teguh untuk membantu organisasi dalam mengukur, mengurangkan dan mengurus risiko AI sepanjang kitaran hayat pembangunan AI. Ini terpakai kepada kedua-dua pembelajaran mesin tradisional dan aplikasi AI generatif. Penilaian AI Azure dalam AI Foundry memperkasakan pembangun untuk menilai kualiti dan keselamatan model dan aplikasi secara berulang, menggunakan kedua-dua metrik terbina dalam dan tersuai untuk memaklumkan strategi mitigasi.

Kedua-dua Phi-4-multimodal dan Phi-4-mini telah menjalani ujian keselamatan dan sekuriti yang ketat yang dijalankan oleh pakar keselamatan dalaman dan luaran. Pakar ini menggunakan strategi yang direka oleh Pasukan Merah AI Microsoft (AIRT). Metodologi ini, yang diperhalusi daripada model Phi sebelumnya, menggabungkan perspektif global dan penutur asli semua bahasa yang disokong. Ia merangkumi pelbagai bidang, termasuk:

  • Keselamatan siber
  • Keselamatan negara
  • Keadilan
  • Keganasan

Penilaian ini menangani trend semasa melalui ujian berbilang bahasa. Memanfaatkan Kit Alat Pengenalpastian Risiko Python sumber terbuka AIRT (PyRIT) dan ujian manual, pasukan merah menjalankan kedua-dua serangan pusingan tunggal dan berbilang pusingan. Beroperasi secara bebas daripada pasukan pembangunan, AIRT terus berkongsi pandangan dengan pasukan model. Pendekatan ini menilai secara menyeluruh landskap keselamatan dan sekuriti AI baharu yang diperkenalkan oleh model Phi terkini, memastikan penyampaian keupayaan berkualiti tinggi dan selamat.

Kad model komprehensif untuk Phi-4-multimodal dan Phi-4-mini, bersama-sama dengan kertas teknikal yang disertakan, menyediakan garis besar terperinci tentang kegunaan dan had yang disyorkan bagi model ini. Ketelusan ini menekankan komitmen Microsoft terhadap pembangunan dan penggunaan AI yang bertanggungjawab. Model ini bersedia untuk memberi impak yang ketara kepada pembangunan AI.