Microsoft Rilis Phi-4: AI Ringkas

Keluarga Phi Berkembang: Memperkenalkan Kemampuan Multimodal

Kontribusi Microsoft untuk bidang SLM yang sedang berkembang ini adalah keluarga Phi, serangkaian model yang ringkas. Generasi keempat Phi awalnya diperkenalkan pada bulan Desember, dan sekarang, Microsoft menambah jajaran tersebut dengan dua tambahan signifikan: Phi-4-multimodal dan Phi-4-mini. Konsisten dengan saudara-saudaranya, model-model baru ini akan mudah diakses melalui Azure AI Foundry, Hugging Face, dan Nvidia API Catalog, semuanya di bawah lisensi MIT yang permisif.

Phi-4-multimodal, khususnya, menonjol. Ini adalah model 5,6 miliar parameter yang memanfaatkan teknik canggih yang disebut ‘mixture-of-LoRAs’ (Low-Rank Adaptations). Pendekatan ini memungkinkan model untuk memproses ucapan, input visual, dan data tekstual secara bersamaan. LoRA mewakili metode baru untuk meningkatkan kinerja model bahasa besar dalam tugas-tugas tertentu, menghindari kebutuhan untuk fine-tuning yang ekstensif di semua parameternya. Sebagai gantinya, pengembang yang menggunakan LoRA secara strategis memasukkan sejumlah kecil bobot baru ke dalam model. Hanya bobot yang baru diperkenalkan ini yang menjalani pelatihan, menghasilkan proses yang jauh lebih cepat dan lebih hemat memori. Hasilnya adalah kumpulan model yang lebih ringan yang jauh lebih mudah untuk disimpan, dibagikan, dan digunakan.

Implikasi dari efisiensi ini sangat besar. Phi-4-multimodal mencapai inferensi latensi rendah – yang berarti dapat memproses informasi dan memberikan respons dengan sangat cepat – sambil dioptimalkan untuk eksekusi on-device. Ini berarti pengurangan dramatis dalam overhead komputasi, sehingga memungkinkan untuk menjalankan aplikasi AI yang canggih pada perangkat yang sebelumnya tidak memiliki daya pemrosesan yang diperlukan.

Potensi Kasus Penggunaan: Dari Smartphone hingga Layanan Keuangan

Potensi aplikasi Phi-4-multimodal beragam dan luas. Bayangkan model yang beroperasi dengan mulus di smartphone, mendukung fitur-fitur canggih di dalam kendaraan, atau mendorong aplikasi perusahaan yang ringan. Contoh yang menarik adalah aplikasi layanan keuangan multibahasa, yang mampu memahami dan menanggapi pertanyaan pengguna dalam berbagai bahasa, memproses data visual seperti dokumen, dan semuanya sambil beroperasi secara efisien di perangkat pengguna.

Analis industri mengakui potensi transformatif Phi-4-multimodal. Ini dipandang sebagai langkah maju yang signifikan bagi pengembang, terutama mereka yang berfokus pada pembuatan aplikasi berbasis AI untuk perangkat seluler atau lingkungan di mana sumber daya komputasi terbatas.

Charlie Dai, Wakil Presiden dan Analis Utama di Forrester, menyoroti kemampuan model untuk mengintegrasikan pemrosesan teks, gambar, dan audio dengan kemampuan penalaran yang kuat. Dia menekankan bahwa kombinasi ini meningkatkan aplikasi AI, menyediakan pengembang dan perusahaan dengan ‘solusi serbaguna, efisien, dan terukur.’

Yugal Joshi, mitra di Everest Group, mengakui kesesuaian model untuk digunakan di lingkungan yang terbatas komputasi. Sementara dia mencatat bahwa perangkat seluler mungkin bukan platform yang ideal untuk semua kasus penggunaan AI generatif, dia melihat SLM baru sebagai cerminan dari Microsoft yang mengambil inspirasi dari DeepSeek, inisiatif lain yang berfokus pada meminimalkan ketergantungan pada infrastruktur komputasi skala besar.

Perbandingan Kinerja: Kekuatan dan Area untuk Pertumbuhan

Dalam hal kinerja benchmark, Phi-4-multimodal menunjukkan kesenjangan kinerja dibandingkan dengan model seperti Gemini-2.0-Flash dan GPT-4o-realtime-preview, khususnya dalam tugas-tugas speech question answering (QA). Microsoft mengakui bahwa ukuran Phi-4 models yang lebih kecil secara inheren membatasi kapasitas mereka untuk menyimpan pengetahuan faktual untuk menjawab pertanyaan. Namun, perusahaan menekankan upaya berkelanjutan untuk meningkatkan kemampuan ini dalam iterasi model di masa depan.

Meskipun demikian, Phi-4-multimodal menunjukkan kekuatan yang mengesankan di bidang lain. Khususnya, ia mengungguli beberapa LLM populer, termasuk Gemini-2.0-Flash Lite dan Claude-3.5-Sonnet, dalam tugas-tugas yang melibatkan penalaran matematika dan ilmiah, optical character recognition (OCR), dan penalaran ilmu visual. Ini adalah kemampuan penting untuk berbagai aplikasi, dari perangkat lunak pendidikan hingga alat penelitian ilmiah.

Phi-4-mini: Ukuran Ringkas, Performa Mengesankan

Selain Phi-4-multimodal, Microsoft juga memperkenalkan Phi-4-mini. Model ini bahkan lebih ringkas, dengan 3,8 miliar parameter. Ini didasarkan pada arsitektur transformer dense decoder-only dan mendukung urutan hingga 128.000 token yang mengesankan.

Weizhu Chen, VP Generative AI di Microsoft, menyoroti kinerja luar biasa Phi-4-mini meskipun ukurannya kecil. Dalam posting blog yang merinci model-model baru, dia mencatat bahwa Phi-4-mini ‘terus mengungguli model yang lebih besar dalam tugas-tugas berbasis teks, termasuk penalaran, matematika, pengkodean, mengikuti instruksi, dan function-calling.’ Ini menggarisbawahi potensi model yang lebih kecil untuk memberikan nilai signifikan dalam domain aplikasi tertentu.

Pembaruan Granite IBM: Meningkatkan Kemampuan Penalaran

Kemajuan dalam SLM tidak terbatas pada Microsoft. IBM juga telah merilis pembaruan untuk keluarga model dasarnya, Granite, memperkenalkan model Granite 3.2 2B dan 8B. Model-model baru ini menampilkan kemampuan ‘chain of thought’ yang ditingkatkan, aspek penting untuk meningkatkan kemampuan penalaran. Peningkatan ini memungkinkan model untuk mencapai kinerja yang unggul dibandingkan dengan pendahulunya.

Selain itu, IBM telah meluncurkan model bahasa visi (VLM) baru yang dirancang khusus untuk tugas-tugas pemahaman dokumen. VLM ini menunjukkan kinerja yang cocok atau melampaui model yang jauh lebih besar, seperti Llama 3.2 11B dan Pixtral 12B, pada benchmark seperti DocVQA, ChartQA, AI2D, dan OCRBench1. Ini menyoroti tren yang berkembang dari model yang lebih kecil dan terspesialisasi yang memberikan kinerja kompetitif dalam domain tertentu.

Masa Depan AI On-Device: Pergeseran Paradigma

Pengenalan Phi-4-multimodal dan Phi-4-mini, bersama dengan pembaruan Granite IBM, merupakan langkah signifikan menuju masa depan di mana kemampuan AI yang kuat tersedia di berbagai perangkat. Pergeseran ini memiliki implikasi mendalam untuk berbagai industri dan aplikasi:

  • Demokratisasi AI: Model yang lebih kecil dan lebih efisien membuat AI dapat diakses oleh pengembang dan pengguna yang lebih luas, tidak hanya mereka yang memiliki akses ke sumber daya komputasi yang besar.
  • Peningkatan Privasi dan Keamanan: Pemrosesan on-device mengurangi kebutuhan untuk mengirimkan data sensitif ke cloud, meningkatkan privasi dan keamanan.
  • Peningkatan Responsivitas dan Latensi: Pemrosesan lokal menghilangkan penundaan yang terkait dengan AI berbasis cloud, menghasilkan waktu respons yang lebih cepat dan pengalaman pengguna yang lebih mulus.
  • Fungsionalitas Offline: AI on-device dapat beroperasi bahkan tanpa koneksi internet, membuka kemungkinan baru untuk aplikasi di lingkungan terpencil atau konektivitas rendah.
  • Pengurangan Konsumsi Energi: Model yang lebih kecil membutuhkan lebih sedikit energi untuk beroperasi, berkontribusi pada masa pakai baterai yang lebih lama untuk perangkat seluler dan mengurangi dampak lingkungan.
  • Aplikasi Edge Computing: Ini termasuk sektor-sektor seperti mengemudi otonom, manufaktur cerdas, dan perawatan kesehatan jarak jauh.

Kemajuan dalam SLM mendorong pergeseran paradigma dalam lanskap AI. Sementara model bahasa besar terus memainkan peran penting, munculnya model yang ringkas dan efisien seperti yang ada dalam keluarga Phi membuka jalan bagi masa depan di mana AI lebih meresap, dapat diakses, dan terintegrasi ke dalam kehidupan kita sehari-hari. Fokusnya bergeser dari ukuran semata ke efisiensi, spesialisasi, dan kemampuan untuk memberikan kemampuan AI yang kuat langsung pada perangkat yang kita gunakan setiap hari. Tren ini kemungkinan akan semakin cepat, mengarah pada aplikasi yang lebih inovatif dan adopsi AI yang lebih luas di berbagai sektor. Kemampuan untuk melakukan tugas-tugas kompleks, seperti memahami input multimodal, pada perangkat dengan sumber daya terbatas membuka babak baru dalam evolusi kecerdasan buatan.
Perlombaan sedang berlangsung untuk menciptakan SLM yang semakin cerdas dan mumpuni, dan penawaran baru Microsoft adalah langkah besar ke depan.