Microsoft Research telah memperkenalkan Phi-4, sebuah model bahasa kecil dengan 14 bilion parameter, yang direka untuk meningkatkan tahap penaakulan matematik. Model ini, yang pada awalnya tersedia di Azure AI Foundry, kini telah dibuka secara umum di Hugging Face di bawah lesen MIT.
Inovasi Phi-4
Menurut Microsoft, Phi-4 menunjukkan prestasi yang lebih baik dalam penaakulan matematik berbanding model yang setara dan lebih besar. Ini disebabkan oleh beberapa teknik inovatif yang digunakan dalam proses pelatihannya, termasuk:
- Latihan Pra dan Latihan Pertengahan Data Sintetik: Menggunakan data sintetik untuk latihan pra dan pertengahan, memberikan model laluan pembelajaran yang lebih berstruktur.
- Pengurusan Data Organik: Data organik dikurasi dan disaring dengan teliti untuk memastikan kualiti data latihan.
- Skema Latihan Pasca Baru: Menggunakan kaedah latihan pasca baru untuk meningkatkan prestasi model.
Inovasi ini membolehkan Phi-4 mengatasi model gurunya, GPT-4o, dalam keupayaan soalan-soalan berfokus STEM, membuktikan bahawa teknologi penjanaan dan latihan pasca data Microsoft bukan sekadar penyulingan pengetahuan.
Kelebihan Unik Data Sintetik
Penggunaan data sintetik dalam latihan model bahasa besar (LLM) bukanlah sesuatu yang baru, dan model Phi juga telah menggunakannya. Microsoft menyatakan bahawa data sintetik bukanlah alternatif yang murah, tetapi ia lebih baik daripada data organik dalam aspek berikut:
- Laluan Pembelajaran yang Lebih Progresif: Data sintetik dapat membimbing LLM untuk belajar secara berperingkat, dari penyataan masalah awal hingga penyelesaian akhir, menjadikannya lebih mudah untuk memahami proses penaakulan.
- Penjajaran yang Lebih Baik dengan Persekitaran Penaakulan: Berbeza dengan data organik yang mengandungi pernyataan masalah dan penyelesaian akhir, data sintetik dapat memberikan proses penaakulan langkah demi langkah yang lebih terperinci, lebih sejajar dengan senario penaakulan sebenar.
Data Organik yang Dikurasi dengan Teliti
Selain data sintetik, Microsoft juga menggunakan data organik yang dikurasi dengan teliti, termasuk puluhan juta masalah dan penyelesaian matematik berkualiti tinggi yang dikumpulkan dari laman web awam dan set data luaran. Untuk kes di mana tiada penyelesaian yang tepat, mereka menggunakan kaedah undian majoriti untuk menghasilkan penyelesaian, meningkatkan ketepatan. Selain itu, mereka juga mengumpulkan kertas akademik, forum pendidikan, dan tutorial pengaturcaraan.
Microsoft menekankan peranan penting data semula jadi berkualiti tinggi dalam penjanaan data sintetik, menyatakan bahawa walaupun kesilapan kecil boleh menyebabkan penurunan kualiti dokumen sintetik yang dihasilkan. Oleh itu, mereka telah melaburkan banyak usaha untuk memperhalusi pengurusan data web.
Fasa Latihan Pasca Phi-4
Fasa latihan pasca Phi-4 bertujuan untuk mengubahnya menjadi pembantu AI yang boleh dipercayai. Fasa ini merangkumi langkah-langkah berikut:
- Penalaan Halus: Model ditala halus menggunakan data berkualiti tinggi yang dihasilkan dari pelbagai domain seperti matematik, pengekodan, penaakulan, perbualan, identiti model, dan keselamatan.
- Pengoptimuman Keutamaan Langsung (DPO): Melaksanakan dua langkah DPO untuk menyelaraskan model dengan lebih baik dengan keutamaan manusia dan menghilangkan tingkah laku yang tidak diingini.
- Pencarian Token Penting: Dalam langkah pertama, Microsoft menggunakan teknologi baru yang disebut Pencarian Token Penting untuk menghasilkan pasangan hasil yang diingini/tidak diingini.
- GPT-4o sebagai Penilai: Dalam langkah kedua, mereka menggunakan GPT-4o sebagai penilai, memberikan label positif atau negatif untuk setiap pasangan hasil.
Penilaian Phi-4
Phi-4 dinilai menggunakan rangka kerja SIMPLE-EVALS OpenAI dan telah mengatasi Llama-3.1-405B dalam beberapa penanda aras. Selain itu, ia juga mengatasi model gurunya, GPT-4o, dalam penanda aras GPQA (soalan-soalan STEM peringkat siswazah) dan MATH (pertandingan matematik).
Perincian Data Latihan Model Phi-4
Microsoft menggunakan strategi data yang direka dengan teliti dalam melatih model Phi-4, yang berpusat pada data sintetik dan data sebenar yang dipilih. Pendekatan gabungan ini bertujuan untuk mengoptimumkan proses pembelajaran model dan menjadikannya cemerlang dalam penaakulan matematik.
Penjanaan Data Sintetik
Data sintetik memainkan peranan penting dalam latihan Phi-4. Pasukan Microsoft tidak melihat data sintetik sebagai pengganti mudah untuk data sebenar, tetapi sebagai alat yang dapat membimbing model untuk belajar secara berperingkat. Proses penjanaan data sintetik biasanya mengikuti langkah-langkah berikut:
- Penciptaan Masalah: Pertama, pelbagai masalah matematik dihasilkan berdasarkan peraturan dan templat yang telah ditetapkan. Masalah ini merangkumi pelbagai bidang matematik dan tahap kesukaran untuk memastikan pembelajaran model yang komprehensif.
- Penyelesaian Langkah demi Langkah: Untuk setiap masalah yang dihasilkan, penyelesaian langkah demi langkah dibuat, menjelaskan secara terperinci proses penaakulan dari pernyataan masalah hingga jawapan akhir. Penyelesaian langkah demi langkah ini bukan sahaja merangkumi jawapan akhir, tetapi juga langkah-langkah pertengahan dan logik penaakulan, membantu model memahami proses penyelesaian masalah.
- Peningkatan Data: Untuk meningkatkan kepelbagaian data, data sintetik juga dipertingkatkan, contohnya dengan mengubah kata-kata masalah, menyesuaikan nombor, atau menggunakan kaedah penyelesaian yang berbeza.
Data Sebenar yang Dipilih
Selain data sintetik, latihan Phi-4 juga menggunakan sejumlah besar data sebenar yang dipilih. Data ini diperoleh dari pelbagai laman web awam, kertas akademik, forum pendidikan, dan tutorial pengaturcaraan, termasuk jenis berikut:
- Masalah dan Penyelesaian Matematik: Berjuta-juta masalah matematik berkualiti tinggi dan penyelesaiannya dikumpulkan dari laman web awam dan set data luaran. Masalah ini merangkumi pelbagai bidang matematik dan tahap kesukaran.
- Kertas Akademik: Untuk meningkatkan pemahaman dan keupayaan penaakulan model, sejumlah besar kertas akademik juga dikumpulkan, yang menyediakan konsep dan teori matematik yang mendalam.
- Forum Pendidikan: Masalah yang dikemukakan oleh pelajar dan penyelesaian yang diberikan oleh pakar dikumpulkan dari forum pendidikan, membolehkan model memahami masalah matematik dari perspektif yang berbeza.
- Tutorial Pengaturcaraan: Untuk meningkatkan keupayaan pengaturcaraan model, sejumlah besar tutorial pengaturcaraan juga dikumpulkan, merangkumi pelbagai bahasa dan algoritma pengaturcaraan.
Kawalan Kualiti Data
Microsoft telah melaburkan banyak usaha dalam kawalan kualiti data untuk memastikan ketepatan dan konsistensi data latihan. Mereka telah mengambil langkah-langkah berikut:
- Semakan Manual: Untuk beberapa set data penting, semakan manual dilakukan untuk memastikan ketepatan dan kualiti data.
- Undian Majoriti: Untuk masalah yang tidak memberikan penyelesaian yang tepat, kaedah undian majoriti digunakan untuk menghasilkan penyelesaian, meningkatkan ketepatan.
- Pembersihan Data: Semua data dibersihkan untuk menghapus data duplikat, data salah, dan data yang tidak berkaitan.
Analisis Terperinci Strategi Latihan Pasca
Fasa latihan pasca Phi-4 bertujuan untuk mengubahnya menjadi pembantu AI yang boleh dipercayai, yang terdiri daripada penalaan halus dan Pengoptimuman Keutamaan Langsung (DPO).
Fasa Penalaan Halus
Tujuan fasa penalaan halus adalah untuk menyesuaikan model dengan pelbagai tugas dan domain yang berbeza. Dalam fasa ini, Microsoft menggunakan data berkualiti tinggi yang dihasilkan dari domain berikut:
- Matematik: Termasuk pelbagai masalah dan penyelesaian matematik, yang direka untuk meningkatkan keupayaan penaakulan matematik model.
- Pengekodan: Termasuk pelbagai masalah dan penyelesaian pengaturcaraan, yang direka untuk meningkatkan keupayaan penjanaan dan pemahaman kod model.
- Penaakulan: Termasuk pelbagai masalah penaakulan logik, yang direka untuk meningkatkan keupayaan pemikiran logik model.
- Perbualan: Termasuk pelbagai data perbualan, yang direka untuk meningkatkan pemahaman dan keupayaan penjanaan bahasa semula jadi model.
- Identiti Model: Termasuk pelbagai penerangan identiti model, yang direka untuk meningkatkan pemahaman model tentang keupayaannya sendiri.
- Keselamatan: Termasuk pelbagai masalah dan penyelesaian keselamatan, yang direka untuk meningkatkan keselamatan model.
Fasa Pengoptimuman Keutamaan Langsung (DPO)
Tujuan fasa Pengoptimuman Keutamaan Langsung (DPO) adalah untuk menyelaraskan tingkah laku model dengan lebih baik dengan keutamaan manusia, dan menghilangkan tingkah laku yang tidak diingini. Fasa ini merangkumi dua langkah:
- Pencarian Token Penting: Dalam langkah pertama, Microsoft menggunakan teknologi baru yang disebut Pencarian Token Penting untuk menghasilkan pasangan hasil yang diingini/tidak diingini. Teknologi ini mencari ruang keluaran model untuk mencari token kunci yang dapat membezakan tingkah laku yang diingini dan tidak diingini.
- GPT-4o sebagai Penilai: Dalam langkah kedua, mereka menggunakan GPT-4o sebagai penilai, memberikan label positif atau negatif untuk setiap pasangan hasil. GPT-4o dapat menilai keluaran model berdasarkan keutamaan manusia, membantu model mempelajari keutamaan manusia dengan lebih baik.
Penilaian Prestasi Phi-4
Untuk menilai prestasi Phi-4, Microsoft menggunakan rangka kerja SIMPLE-EVALS OpenAI, yang mengandungi pelbagai penanda aras yang berbeza, yang dapat menilai prestasi model dalam tugas yang berbeza.
Penanda Aras
Phi-4 menunjukkan prestasi yang cemerlang dalam penanda aras berikut:
- GPQA (Soalan-soalan STEM Peringkat Siswazah): Dalam penanda aras ini, Phi-4 mengatasi model gurunya, GPT-4o, membuktikan keupayaannya yang kuat dalam soalan-soalan dalam bidang STEM.
- MATH (Pertandingan Matematik): Dalam penanda aras ini, Phi-4 juga mengatasi model gurunya, GPT-4o, membuktikan keupayaannya yang luar biasa dalam menyelesaikan masalah matematik yang kompleks.
- Perbandingan dengan Model Lain: Dalam beberapa penanda aras, Phi-4 telah mengatasi Llama-3.1-405B, membuktikan prestasi keseluruhannya yang sangat kuat.
Analisis Prestasi
Melalui penilaian prestasi Phi-4, kesimpulan berikut dapat dibuat:
- Keupayaan Penaakulan Matematik yang Kuat: Phi-4 menunjukkan prestasi yang sangat baik dalam penaakulan matematik, berkat pendekatan inovatif yang digunakan dalam proses pelatihannya, termasuk data sintetik, data sebenar yang dipilih, dan strategi latihan pasca.
- Mengatasi Model Guru: Dalam beberapa penanda aras, Phi-4 telah mengatasi model gurunya, GPT-4o, membuktikan bahawa prestasinya bukan hanya penyulingan pengetahuan yang mudah.
- Perbandingan dengan Model Lain: Phi-4 telah mengatasi Llama-3.1-405B dalam beberapa penanda aras, membuktikan prestasi keseluruhannya yang sangat kuat.
Prospek Aplikasi Phi-4
Phi-4, sebagai model bahasa kecil yang direka khusus untuk penaakulan matematik yang kompleks, mempunyai prospek aplikasi yang luas. Ia boleh digunakan dalam bidang berikut:
- Pendidikan: Ia boleh berfungsi sebagai alat bimbingan matematik, membantu pelajar menyelesaikan masalah matematik, dan menyediakan pengalaman pembelajaran yang diperibadikan.
- Penyelidikan Saintifik: Ia boleh berfungsi sebagai alat penyelidikan saintifik, membantu penyelidik dalam pemodelan matematik dan analisis data.
- Kejuruteraan: Ia boleh berfungsi sebagai alat kejuruteraan, membantu jurutera dalam reka bentuk dan analisis.
- Kewangan: Ia boleh berfungsi sebagai alat kewangan, membantu penganalisis kewangan dalam penilaian risiko dan keputusan pelaburan.
- Bidang Lain: Ia juga boleh digunakan dalam bidang lain yang memerlukan penaakulan matematik yang kompleks, seperti perubatan, logistik, dan pembuatan.
Kesimpulan
Kemunculan Microsoft Phi-4 menandakan kemajuan besar dalam model bahasa kecil dalam bidang penaakulan matematik. Strategi latihan data yang unik dan kaedah latihan pasca telah membolehkannya mengatasi model yang setara dan lebih besar dalam prestasi, dan memberikan idea baru untuk pembangunan AI masa depan. Dengan pembukaan sumber Phi-4 di Hugging Face, diyakini bahawa ia akan membawa kemudahan kepada lebih banyak penyelidik dan pembangun, dan memacu aplikasi teknologi AI dalam pelbagai bidang.