Setelah setahun memperkenalkan jajaran model bahasa kecil (SLM) dengan rilis Phi-3 di Azure AI Foundry, Microsoft telah meluncurkan model generasi berikutnya: Phi-4-reasoning, Phi-4-reasoning-plus, dan Phi-4-mini-reasoning. Inovasi ini menandai titik balik bagi SLM, mendefinisikan ulang apa yang dapat dicapai dengan AI yang ringkas dan efisien.
Era Baru Model Phi-Reasoning
Model Phi-reasoning baru dirancang untuk memanfaatkan penskalaan waktu inferensi untuk tugas-tugas kompleks yang membutuhkan dekomposisi multi-langkah dan refleksi internal. Model-model ini menunjukkan kemampuan luar biasa dalam penalaran matematis, menjadikan diri mereka sebagai fondasi untuk aplikasi seperti agen yang menangani tugas-tugas rumit dan multifaset. Secara historis, kemampuan semacam itu eksklusif untuk model yang jauh lebih besar. Model Phi-reasoning memperkenalkan kategori baru SLM yang memanfaatkan distilasi, pembelajaran penguatan, dan data berkualitas tinggi untuk mencapai keseimbangan antara ukuran dan kinerja. Ukurannya yang ringkas membuatnya cocok untuk lingkungan latensi rendah, sementara kemampuan penalaran yang kuat menyaingi model yang jauh lebih besar. Perpaduan antara efisiensi dan kemampuan ini memungkinkan bahkan perangkat dengan sumber daya terbatas untuk menjalankan tugas penalaran kompleks secara efektif.
Phi-4-Reasoning dan Phi-4-Reasoning-Plus: Penjelasan Lebih Dalam
Phi-4-Reasoning: Model Penalaran Bobot Terbuka
Phi-4-reasoning menonjol sebagai model penalaran bobot terbuka dengan 14 miliar parameter. Ini dirancang untuk bersaing dengan model yang jauh lebih besar dalam tugas penalaran kompleks. Model ini dilatih melalui fine-tuning yang diawasi dari Phi-4 pada contoh penalaran yang dikurasi dengan cermat yang berasal dari o3-mini OpenAI. Phi-4-reasoning menghasilkan rantai penalaran yang terperinci, secara efektif memanfaatkan waktu komputasi tambahan selama inferensi. Pencapaian ini menggarisbawahi bagaimana kurasi data yang tepat dan dataset sintetis berkualitas tinggi memberdayakan model yang lebih kecil untuk menyaingi model yang lebih besar.
Phi-4-Reasoning-Plus: Meningkatkan Penalaran dengan Pembelajaran Penguatan
Dibangun di atas kemampuan Phi-4-reasoning, Phi-4-reasoning-plus menjalani pelatihan lebih lanjut dengan pembelajaran penguatan untuk memanfaatkan waktu komputasi tambahan selama inferensi. Ia memproses 1,5 kali lebih banyak token daripada Phi-4-reasoning, menghasilkan peningkatan akurasi.
Tolok Ukur Kinerja
Meskipun ukurannya jauh lebih kecil, Phi-4-reasoning dan Phi-4-reasoning-plus mengungguli o1-mini OpenAI dan DeepSeek-R1-Distill-Llama-70B di berbagai tolok ukur, termasuk penalaran matematis dan pertanyaan ilmiah tingkat PhD. Hebatnya, mereka bahkan melampaui model DeepSeek-R1 penuh (dengan 671 miliar parameter) pada tes AIME 2025, yang berfungsi sebagai kompetisi kualifikasi untuk Olimpiade Matematika AS 2025. Kedua model ini mudah diakses di Azure AI Foundry dan Hugging Face.
Phi-4-Mini-Reasoning: Pusat Kekuatan Ringkas untuk Lingkungan Terbatas
Phi-4-mini-reasoning secara khusus dirancang untuk memenuhi permintaan akan model penalaran yang ringkas. Model bahasa berbasis transformer ini dioptimalkan untuk penalaran matematis dan menawarkan kemampuan pemecahan masalah langkah demi langkah berkualitas tinggi di lingkungan tempat daya komputasi atau latensi terbatas. Disesuaikan dengan menggunakan data sintetis yang dihasilkan oleh model Deepseek-R1, ia secara efektif menyeimbangkan efisiensi dengan kemampuan penalaran tingkat lanjut. Ini membuatnya ideal untuk aplikasi pendidikan, sistem bimbingan terpadu, dan penerapan ringan pada sistem edge atau seluler. Model ini dilatih pada lebih dari satu juta masalah matematika yang beragam, mulai dari tingkat sekolah menengah pertama hingga tingkat PhD, memastikan fleksibilitas dan efektivitasnya di berbagai konteks pendidikan.
Phi dalam Aksi: Memperluas Cakrawala
Evolusi Phi selama setahun terakhir secara konsisten mendorong batasan kualitas relatif terhadap ukuran, dengan keluarga yang berkembang untuk mencakup fitur-fitur baru yang disesuaikan dengan beragam kebutuhan. Model-model ini dapat dijalankan secara lokal pada CPU dan GPU di berbagai perangkat Windows 11, memberikan fleksibilitas dan aksesibilitas kepada pengguna dengan konfigurasi perangkat keras yang berbeda.
Integrasi dengan Copilot+ PC: Era Baru Komputasi Bertenaga AI
Model Phi merupakan bagian integral dari Copilot+ PC, memanfaatkan varian Phi Silica yang dioptimalkan NPU. Versi Phi yang sangat efisien ini, yang dikelola oleh sistem operasi, dirancang untuk dimuat sebelumnya ke dalam memori, menawarkan waktu respons yang cepat dan throughput token yang hemat energi. Ini memungkinkannya untuk dipanggil secara bersamaan dengan aplikasi lain di PC, meningkatkan kemampuan multitasking dan kinerja sistem secara keseluruhan.
Aplikasi Dunia Nyata
Model Phi sudah digunakan dalam pengalaman inti seperti Click to Do, yang menyediakan alat teks cerdas untuk semua konten di layar. Mereka juga tersedia sebagai API pengembang untuk integrasi tanpa batas ke dalam aplikasi. Model-model tersebut saat ini digunakan dalam berbagai aplikasi produktivitas seperti Outlook, di mana mereka menyediakan fitur ringkasan Copilot offline. Model Phi-4-reasoning dan Phi-4-mini-reasoning memanfaatkan optimasi bit rendah untuk Phi Silica dan akan segera tersedia untuk dijalankan pada Copilot+ PC NPU.
Komitmen Microsoft terhadap AI dan Keamanan yang Bertanggung Jawab
Di Microsoft, AI yang bertanggung jawab adalah prinsip mendasar yang memandu pengembangan dan penerapan sistem AI, termasuk model Phi. Model Phi dikembangkan selaras dengan prinsip AI Microsoft: akuntabilitas, transparansi, keadilan, keandalan dan keamanan, privasi dan keamanan, dan inklusivitas. Keluarga model Phi menggunakan pendekatan yang kuat terhadap keamanan pasca-pelatihan, memanfaatkan kombinasi Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), dan Reinforcement Learning from Human Feedback (RLHF) teknik untuk memastikan penggunaan yang bertanggung jawab dan etis.
Landasan Teknis Model Phi: Pemeriksaan Terperinci
Model Phi Microsoft mewakili kemajuan signifikan di bidang model bahasa kecil, khususnya dalam kemampuan mereka untuk melakukan tugas penalaran kompleks dengan parameter yang relatif sedikit. Bagian ini membahas detail teknis yang memungkinkan model ini mencapai kinerja yang begitu mengesankan.
Inovasi Arsitektur
Model Phi didasarkan pada arsitektur transformer, model pembelajaran mendalam yang telah merevolusi pemrosesan bahasa alami. Transformer unggul dalam menangkap ketergantungan jangka panjang dalam teks, memungkinkan model untuk memahami konteks dan nuansa bahasa.
Mekanisme Perhatian: Inti dari arsitektur transformer adalah mekanisme perhatian, yang memungkinkan model untuk fokus pada bagian input yang paling relevan saat menghasilkan output. Ini sangat penting untuk tugas penalaran, di mana model perlu mengidentifikasi informasi dan hubungan kunci untuk sampai pada kesimpulan yang benar.
Perhatian Dot-Product yang Diskalakan: Model Phi menggunakan perhatian dot-product yang diskalakan, versi yang disempurnakan dari mekanisme perhatian yang mencakup faktor penskalaan untuk mencegah produk titik menjadi terlalu besar, yang dapat menyebabkan ketidakstabilan selama pelatihan.
Perhatian Multi-Head: Untuk menangkap berbagai aspek dari input, model Phi menggunakan perhatian multi-head, di mana beberapa mekanisme perhatian beroperasi secara paralel. Setiap head berfokus pada subset input yang berbeda, memungkinkan model untuk mempelajari representasi yang lebih kompleks.
Jaringan Feed-Forward: Setelah lapisan perhatian, arsitektur transformer mencakup jaringan feed-forward yang selanjutnya memproses informasi. Jaringan ini terdiri dari beberapa lapisan neuron yang belajar untuk mengekstrak fitur dari output perhatian.
Metodologi Pelatihan: Pendekatan Multi-Faset
Pelatihan model Phi melibatkan kombinasi teknik, termasuk fine-tuning yang diawasi, pembelajaran penguatan, dan distilasi data.
Supervised Fine-Tuning (SFT): Supervised fine-tuning melibatkan pelatihan model pada dataset berlabel, di mana input adalah pertanyaan atau masalah, dan output adalah jawaban atau solusi yang benar. Ini membantu model belajar mengasosiasikan input tertentu dengan output yang sesuai.
Reinforcement Learning (RL): Reinforcement learning adalah teknik di mana model belajar membuat keputusan dengan berinteraksi dengan lingkungan dan menerima hadiah atau hukuman atas tindakannya. Dalam konteks model bahasa, lingkungan dapat berupa serangkaian aturan atau batasan, dan hadiah dapat didasarkan pada keakuratan respons model.
Data Distillation: Data distillation adalah teknik di mana model yang lebih kecil dilatih untuk meniru perilaku model yang lebih besar dan lebih kompleks. Ini memungkinkan model yang lebih kecil untuk mencapai kinerja yang sebanding dengan model yang lebih besar, sambil membutuhkan lebih sedikit sumber daya.
Kurasi Data: Landasan Kinerja
Kinerja model Phi sangat bergantung pada kualitas data yang digunakan untuk pelatihan. Microsoft telah menginvestasikan upaya signifikan dalam mengkurasi dataset berkualitas tinggi yang secara khusus dirancang untuk tugas penalaran.
Synthetic Data Generation: Untuk menambah data yang tersedia, Microsoft telah mengembangkan teknik untuk menghasilkan data sintetis yang meniru karakteristik data dunia nyata. Ini memungkinkan model untuk dilatih pada dataset yang lebih besar dan lebih beragam, yang meningkatkan kemampuan generalisasinya.
Data Filtering: Microsoft menggunakan teknik penyaringan data yang ketat untuk menghapus data yang bising atau tidak relevan dari dataset pelatihan. Ini memastikan bahwa model dilatih pada data yang bersih dan akurat, yang mengarah pada kinerja yang lebih baik.
Data Augmentation: Teknik augmentasi data digunakan untuk meningkatkan keragaman dataset pelatihan dengan menerapkan transformasi pada data yang ada. Ini membantu model menjadi lebih kuat terhadap variasi dalam input.
Teknik Optimasi: Menyeimbangkan Efisiensi dan Akurasi
Model Phi dioptimalkan untuk efisiensi dan akurasi, memungkinkan mereka untuk berjalan pada perangkat dengan sumber daya terbatas tanpa mengorbankan kinerja.
Quantization: Quantization adalah teknik di mana presisi parameter model dikurangi, yang mengurangi jejak memori dan persyaratan komputasi model.
Pruning: Pruning adalah teknik di mana koneksi yang kurang penting dalam model dihapus, yang mengurangi ukuran dan kompleksitas model.
Knowledge Distillation: Knowledge distillation melibatkan transfer pengetahuan dari model yang lebih besar dan lebih kompleks ke model yang lebih kecil. Ini memungkinkan model yang lebih kecil untuk mencapai kinerja yang sebanding dengan model yang lebih besar, sambil membutuhkan lebih sedikit sumber daya.
Phi Silica NPU: Pendekatan Sinergis Perangkat Keras-Perangkat Lunak
Model Phi Microsoft dirancang untuk diintegrasikan secara erat dengan Phi Silica NPU (Neural Processing Unit), akselerator perangkat keras khusus yang dioptimalkan untuk beban kerja pembelajaran mendalam.
Low-Bit Optimization: Phi Silica NPU mendukung optimasi bit rendah, yang memungkinkan model untuk berjalan dengan presisi yang lebih rendah, selanjutnya mengurangi jejak memori dan persyaratan komputasi mereka.
Pre-Loading into Memory: Model Phi dirancang untuk dimuat sebelumnya ke dalam memori, yang memungkinkan mereka untuk dipanggil dengan cepat dan efisien.
Operating System Management: Phi Silica NPU dikelola oleh sistem operasi, yang memungkinkannya untuk diintegrasikan secara mulus ke dalam pengalaman pengguna.
Singkatnya, model Phi Microsoft mewakili pencapaian signifikan di bidang model bahasa kecil. Dengan menggabungkan desain arsitektur inovatif, metodologi pelatihan yang ketat, kurasi data yang cermat, dan desain bersama perangkat keras-perangkat lunak, Microsoft telah menciptakan keluarga model yang kuat dan efisien, memungkinkan berbagai aplikasi bertenaga AI.