Microsoft Lancar Phi-4-multimodal

Keluarga Phi Berkembang: Memperkenalkan Keupayaan Multimodal

Microsoft telah melancarkan model AI baharu yang direka untuk memproses pertuturan, penglihatan, dan teks secara terus pada peranti, dengan tuntutan pengiraan yang jauh lebih rendah berbanding pendahulunya. Perkembangan ini menandakan peralihan berterusan dalam landskap AI generatif, di mana inovasi tidak hanya tertumpu pada model bahasa besar (LLM) yang ditempatkan di pusat data yang luas. Evolusi yang selari, dan sama pentingnya, sedang berjalan, berpusat pada pembuatan model bahasa kecil (SLM) yang mampu beroperasi dengan cekap pada peranti dengan sumber yang terhad. Ini termasuk telefon mudah alih, komputer riba, dan pelbagai jenis perkakasan pengkomputeran pinggir.

Sumbangan Microsoft kepada bidang SLM yang semakin berkembang ini ialah keluarga Phi, satu set model padat. Generasi keempat Phi pada mulanya diperkenalkan pada bulan Disember, dan kini, Microsoft menambah barisan dengan dua tambahan penting: Phi-4-multimodal dan Phi-4-mini. Selaras dengan adik-beradiknya, model baharu ini akan mudah diakses melalui Azure AI Foundry, Hugging Face, dan Katalog API Nvidia, semuanya di bawah lesen MIT yang permisif.

Phi-4-multimodal, khususnya, menonjol. Ia adalah model 5.6 bilion parameter yang memanfaatkan teknik canggih yang dipanggil ‘mixture-of-LoRAs’ (Low-Rank Adaptations). Pendekatan ini membolehkan model memproses pertuturan, input visual dan data tekstual secara serentak. LoRA mewakili kaedah baharu untuk meningkatkan prestasi model bahasa besar dalam tugas tertentu, mengelakkan keperluan untuk penalaan halus yang meluas merentasi semua parameternya. Sebaliknya, pembangun yang menggunakan LoRA secara strategik memasukkan sejumlah kecil pemberat baharu ke dalam model. Hanya pemberat yang baru diperkenalkan ini menjalani latihan, menghasilkan proses yang jauh lebih cepat dan lebih cekap memori. Hasilnya ialah koleksi model yang lebih ringan yang jauh lebih mudah untuk disimpan, dikongsi dan digunakan.

Implikasi kecekapan ini adalah besar. Phi-4-multimodal mencapai inferens kependaman rendah – bermakna ia boleh memproses maklumat dan memberikan respons dengan sangat cepat – sambil dioptimumkan untuk pelaksanaan pada peranti. Ini diterjemahkan kepada pengurangan dramatik dalam overhed pengiraan, menjadikannya boleh dilaksanakan untuk menjalankan aplikasi AI yang canggih pada peranti yang sebelum ini kekurangan kuasa pemprosesan yang diperlukan.

Kes Penggunaan Berpotensi: Daripada Telefon Pintar ke Perkhidmatan Kewangan

Potensi aplikasi Phi-4-multimodal adalah pelbagai dan meluas. Bayangkan model beroperasi dengan lancar pada telefon pintar, memperkasakan ciri lanjutan dalam kenderaan, atau memacu aplikasi perusahaan yang ringan. Contoh yang menarik ialah aplikasi perkhidmatan kewangan berbilang bahasa, yang mampu memahami dan bertindak balas kepada pertanyaan pengguna dalam pelbagai bahasa, memproses data visual seperti dokumen, dan semuanya sambil beroperasi dengan cekap pada peranti pengguna.

Penganalisis industri mengiktiraf potensi transformatif Phi-4-multimodal. Ia dilihat sebagai satu langkah penting ke hadapan untuk pembangun, terutamanya mereka yang menumpukan pada mencipta aplikasi dipacu AI untuk peranti mudah alih atau persekitaran di mana sumber pengiraan adalah terhad.

Charlie Dai, Naib Presiden dan Penganalisis Utama di Forrester, menyerlahkan keupayaan model untuk menyepadukan pemprosesan teks, imej dan audio dengan keupayaan penaakulan yang mantap. Beliau menekankan bahawa gabungan ini meningkatkan aplikasi AI, menyediakan pembangun dan perusahaan dengan ‘penyelesaian serba boleh, cekap dan berskala.’

Yugal Joshi, rakan kongsi di Everest Group, mengakui kesesuaian model untuk digunakan dalam persekitaran yang terhad pengiraan. Walaupun beliau menyatakan bahawa peranti mudah alih mungkin bukan platform yang ideal untuk semua kes penggunaan AI generatif, beliau melihat SLM baharu sebagai cerminan Microsoft yang mendapat inspirasi daripada DeepSeek, satu lagi inisiatif yang memfokuskan pada meminimumkan pergantungan pada infrastruktur pengiraan berskala besar.

Penandaarasan Prestasi: Kekuatan dan Bidang untuk Pertumbuhan

Apabila ia berkaitan dengan prestasi penandaarasan, Phi-4-multimodal mempamerkan jurang prestasi berbanding model seperti Gemini-2.0-Flash dan GPT-4o-realtime-preview, khususnya dalam tugas menjawab soalan (QA) pertuturan. Microsoft mengakui bahawa saiz model Phi-4 yang lebih kecil secara semula jadi mengehadkan kapasiti mereka untuk mengekalkan pengetahuan fakta untuk menjawab soalan. Walau bagaimanapun, syarikat itu menekankan usaha berterusan untuk meningkatkan keupayaan ini dalam lelaran model masa hadapan.

Walaupun begitu, Phi-4-multimodal menunjukkan kekuatan yang mengagumkan dalam bidang lain. Terutama, ia mengatasi beberapa LLM popular, termasuk Gemini-2.0-Flash Lite dan Claude-3.5-Sonnet, dalam tugas yang melibatkan penaakulan matematik dan saintifik, pengecaman aksara optik (OCR), dan penaakulan sains visual. Ini adalah keupayaan penting untuk pelbagai aplikasi, daripada perisian pendidikan kepada alat penyelidikan saintifik.

Phi-4-mini: Saiz Padat, Prestasi Mengagumkan

Selain Phi-4-multimodal, Microsoft juga memperkenalkan Phi-4-mini. Model ini lebih padat, dengan 3.8 bilion parameter. Ia berdasarkan seni bina transformer penyahkod padat sahaja dan menyokong jujukan sehingga 128,000 token yang mengagumkan.

Weizhu Chen, Naib Presiden AI Generatif di Microsoft, menyerlahkan prestasi luar biasa Phi-4-mini walaupun saiznya kecil. Dalam catatan blog yang memperincikan model baharu itu, beliau menyatakan bahawa Phi-4-mini ‘terus mengatasi model yang lebih besar dalam tugas berasaskan teks, termasuk penaakulan, matematik, pengekodan, mengikut arahan dan panggilan fungsi.’ Ini menggariskan potensi model yang lebih kecil untuk menyampaikan nilai yang ketara dalam domain aplikasi tertentu.

Kemas Kini Granite IBM: Meningkatkan Keupayaan Penaakulan

Kemajuan dalam SLM tidak terhad kepada Microsoft. IBM juga telah mengeluarkan kemas kini kepada keluarga model asas Granitenya, memperkenalkan model Granite 3.2 2B dan 8B. Model baharu ini menampilkan keupayaan ‘rantaian pemikiran’ yang dipertingkatkan, aspek penting dalam meningkatkan kebolehan penaakulan. Penambahbaikan ini membolehkan model mencapai prestasi yang unggul berbanding pendahulunya.

Tambahan pula, IBM telah memperkenalkan model bahasa penglihatan (VLM) baharu yang direka khusus untuk tugas pemahaman dokumen. VLM ini menunjukkan prestasi yang sama ada sepadan atau mengatasi model yang jauh lebih besar, seperti Llama 3.2 11B dan Pixtral 12B, pada penanda aras seperti DocVQA, ChartQA, AI2D dan OCRBench1. Ini menyerlahkan trend yang semakin meningkat bagi model yang lebih kecil dan khusus yang memberikan prestasi yang kompetitif dalam domain tertentu.

Masa Depan AI Pada Peranti: Anjakan Paradigma

Pengenalan Phi-4-multimodal dan Phi-4-mini, bersama-sama dengan kemas kini Granite IBM, mewakili satu langkah penting ke arah masa depan di mana keupayaan AI yang berkuasa sedia ada pada pelbagai jenis peranti. Peralihan ini mempunyai implikasi yang mendalam untuk pelbagai industri dan aplikasi:

  • Demokrasi AI: Model yang lebih kecil dan lebih cekap menjadikan AI boleh diakses oleh pembangun dan pengguna yang lebih luas, bukan hanya mereka yang mempunyai akses kepada sumber pengkomputeran yang besar.
  • Privasi dan Keselamatan yang Dipertingkatkan: Pemprosesan pada peranti mengurangkan keperluan untuk menghantar data sensitif ke awan, meningkatkan privasi dan keselamatan.
  • Responsif dan Kependaman yang Dipertingkatkan: Pemprosesan setempat menghapuskan kelewatan yang berkaitan dengan AI berasaskan awan, membawa kepada masa tindak balas yang lebih pantas dan pengalaman pengguna yang lebih lancar.
  • Fungsi Luar Talian: AI pada peranti boleh beroperasi walaupun tanpa sambungan internet, membuka kemungkinan baharu untuk aplikasi dalam persekitaran terpencil atau sambungan rendah.
  • Penggunaan Tenaga Berkurangan: Model yang lebih kecil memerlukan kurang tenaga untuk beroperasi, menyumbang kepada hayat bateri yang lebih lama untuk peranti mudah alih dan mengurangkan kesan alam sekitar.
  • Aplikasi Pengkomputeran Pinggir: Ini termasuk sektor seperti pemanduan autonomi, pembuatan pintar dan penjagaan kesihatan jarak jauh.

Kemajuan dalam SLM memacu anjakan paradigma dalam landskap AI. Walaupun model bahasa besar terus memainkan peranan penting, kebangkitan model padat dan cekap seperti yang terdapat dalam keluarga Phi membuka jalan untuk masa depan di mana AI lebih meluas, boleh diakses dan disepadukan ke dalam kehidupan seharian kita. Tumpuan beralih daripada saiz semata-mata kepada kecekapan, pengkhususan dan keupayaan untuk menyampaikan keupayaan AI yang berkuasa secara terus pada peranti yang kita gunakan setiap hari. Trend ini berkemungkinan akan dipercepatkan, membawa kepada aplikasi yang lebih inovatif dan penggunaan AI yang lebih luas merentasi pelbagai sektor. Keupayaan untuk melaksanakan tugas yang kompleks, seperti memahami input multimodal, pada peranti yang terhad sumber membuka lembaran baharu dalam evolusi kecerdasan buatan.
Perlumbaan sedang berjalan untuk mencipta SLM yang semakin pintar dan berkebolehan, dan tawaran baharu Microsoft adalah satu langkah besar ke hadapan.