Microsoft Research telah meluncurkan Phi-4, sebuah model bahasa kecil dengan 14 miliar parameter yang dirancang untuk meningkatkan kemampuan penalaran matematika. Model ini awalnya tersedia di Azure AI Foundry dan baru-baru ini dirilis di Hugging Face dengan lisensi MIT.
Inovasi Phi-4
Menurut Microsoft, Phi-4 menunjukkan kinerja yang lebih baik dalam penalaran matematika dibandingkan model sekelas dan bahkan model yang lebih besar. Hal ini berkat beberapa inovasi dalam proses pelatihannya, termasuk:
- Pelatihan awal dan menengah dengan data sintetis: Penggunaan data sintetis untuk pelatihan awal dan menengah memberikan jalur pembelajaran yang lebih terstruktur bagi model.
- Pengelolaan data organik: Kurasi dan penyaringan data organik yang cermat untuk memastikan kualitas data pelatihan.
- Skema pasca-pelatihan baru: Penerapan metode pasca-pelatihan baru untuk lebih meningkatkan kinerja model.
Inovasi-inovasi ini memungkinkan Phi-4 melampaui model gurunya, GPT-4o, dalam kemampuan tanya jawab yang berfokus pada STEM. Ini membuktikan bahwa teknik pembuatan data dan pasca-pelatihan Microsoft bukan sekadar distilasi pengetahuan.
Keunggulan Data Sintetis
Penggunaan data sintetis bukanlah hal baru dalam pelatihan model bahasa besar (LLM), dan model Phi sebelumnya juga telah menggunakannya. Microsoft menjelaskan bahwa data sintetis bukanlah pengganti yang murah. Data ini lebih unggul dari data organik dalam hal:
- Jalur pembelajaran yang lebih progresif: Data sintetis dapat membimbing LLM untuk belajar secara bertahap, dari pernyataan masalah awal hingga solusi akhir, sehingga lebih mudah memahami proses penalaran.
- Keselarasan yang lebih baik dengan lingkungan penalaran: Berbeda dengan data organik yang berisi pernyataan masalah dan solusi akhir, data sintetis dapat memberikan proses penalaran langkah demi langkah yang lebih rinci, yang lebih sesuai dengan skenario penalaran yang sebenarnya.
Data Organik yang Dikurasi dengan Cermat
Selain data sintetis, Microsoft juga menggunakan data organik yang dikurasi dengan cermat, termasuk puluhan juta soal dan solusi matematika berkualitas tinggi yang dikumpulkan dari situs web publik dan dataset eksternal. Untuk kasus di mana tidak ada solusi yang akurat, mereka menggunakan metode pemungutan suara mayoritas untuk menghasilkan solusi secara sintetis, sehingga meningkatkan akurasi. Selain itu, mereka juga mengumpulkan makalah akademis, forum pendidikan, dan tutorial pemrograman.
Microsoft menekankan peran penting data alami berkualitas tinggi dalam pembuatan data sintetis. Mereka menyatakan bahwa kesalahan kecil pun dapat menyebabkan penurunan kualitas dokumen sintetis yang dihasilkan. Oleh karena itu, mereka mencurahkan banyak upaya untuk menyempurnakan pengelolaan data web.
Tahap Pasca-Pelatihan Phi-4
Tahap pasca-pelatihan Phi-4 bertujuan untuk mengubahnya menjadi asisten AI yang andal. Tahap ini mencakup langkah-langkah berikut:
- Fine-tuning: Menggunakan data berkualitas tinggi yang dihasilkan dari berbagai bidang seperti matematika, pengkodean, penalaran, percakapan, identitas model, dan keamanan untuk melakukan fine-tuning model.
- Optimasi Preferensi Langsung (DPO): Melakukan dua langkah DPO untuk menyelaraskan model dengan preferensi manusia dan menghilangkan perilaku buruk.
- Pencarian Token Pivotal: Pada langkah pertama, Microsoft menggunakan teknik baru yang disebut Pencarian Token Pivotal untuk menghasilkan pasangan hasil yang diinginkan/tidak diinginkan.
- GPT-4o sebagai Penilai: Pada langkah kedua, mereka menggunakan GPT-4o sebagai penilai untuk memberi label positif atau negatif pada setiap pasangan hasil.
Evaluasi Phi-4
Phi-4 dievaluasi menggunakan kerangka kerja SIMPLE-EVALS dari OpenAI, dan melampaui Llama-3.1-405B dalam beberapa benchmark. Selain itu, Phi-4 juga melampaui model gurunya, GPT-4o, dalam benchmark GPQA (tanya jawab STEM tingkat pascasarjana) dan MATH (kompetisi matematika).
Rincian Data Pelatihan Model Phi-4
Microsoft menerapkan strategi data yang dirancang dengan cermat dalam melatih model Phi-4, yang berpusat pada data sintetis dan data nyata yang dipilih. Pendekatan kombinasi ini bertujuan untuk mengoptimalkan proses pembelajaran model dan membuatnya unggul dalam penalaran matematika.
Pembuatan Data Sintetis
Data sintetis memainkan peran penting dalam pelatihan Phi-4. Tim Microsoft tidak menganggap data sintetis sebagai pengganti data nyata yang sederhana, melainkan sebagai alat yang dapat memandu model untuk belajar secara bertahap. Proses pembuatan data sintetis biasanya mengikuti langkah-langkah berikut:
- Pembuatan Soal: Pertama, berbagai soal matematika dibuat berdasarkan aturan dan templat yang telah ditentukan. Soal-soal ini mencakup berbagai bidang matematika dan tingkat kesulitan, untuk memastikan pembelajaran model yang komprehensif.
- Solusi Bertahap: Untuk setiap soal yang dibuat, solusi bertahap dibuat, yang menjelaskan secara rinci proses penalaran dari pernyataan soal hingga jawaban akhir. Solusi bertahap ini tidak hanya mencakup jawaban akhir, tetapi juga langkah-langkah perantara dan logika penalaran, sehingga membantu model memahami proses pemecahan masalah.
- Augmentasi Data: Untuk meningkatkan keragaman data, data sintetis juga ditingkatkan, misalnya dengan mengubah kata-kata soal, menyesuaikan angka, atau menggunakan metode solusi yang berbeda.
Data Nyata yang Dipilih
Selain data sintetis, pelatihan Phi-4 juga menggunakan sejumlah besar data nyata yang dipilih. Data ini berasal dari berbagai situs web publik, makalah akademis, forum pendidikan, dan tutorial pemrograman, termasuk jenis berikut:
- Soal dan Jawaban Matematika: Jutaan soal matematika berkualitas tinggi dan jawabannya dikumpulkan dari situs web publik dan dataset eksternal. Soal-soal ini mencakup berbagai bidang matematika dan tingkat kesulitan.
- Makalah Akademis: Untuk meningkatkan kemampuan pemahaman dan penalaran model, sejumlah besar makalah akademis juga dikumpulkan, yang memberikan konsep dan teori matematika yang mendalam.
- Forum Pendidikan: Soal-soal yang diajukan oleh siswa dan jawaban yang diberikan oleh para ahli dikumpulkan dari forum pendidikan, sehingga memungkinkan model untuk memahami soal-soal matematika dari sudut pandang yang berbeda.
- Tutorial Pemrograman: Untuk meningkatkan kemampuan pemrograman model, sejumlah besar tutorial pemrograman juga dikumpulkan, yang mencakup berbagai bahasa dan algoritma pemrograman.
Kontrol Kualitas Data
Microsoft telah mencurahkan banyak upaya dalam kontrol kualitas data untuk memastikan keakuratan dan konsistensi data pelatihan. Mereka mengambil langkah-langkah berikut:
- Audit Manual: Audit manual dilakukan untuk beberapa dataset penting untuk memastikan keakuratan dan kualitas data.
- Pemungutan Suara Mayoritas: Untuk soal yang tidak memberikan solusi yang akurat, metode pemungutan suara mayoritas digunakan untuk menghasilkan solusi, sehingga meningkatkan akurasi.
- Pembersihan Data: Semua data dibersihkan untuk menghapus data duplikat, data yang salah, dan data yang tidak relevan.
Analisis Mendalam Strategi Pasca-Pelatihan
Tahap pasca-pelatihan Phi-4 bertujuan untuk mengubahnya menjadi asisten AI yang andal, yang terutama terdiri dari fine-tuning dan Optimasi Preferensi Langsung (DPO).
Tahap Fine-tuning
Tujuan dari tahap fine-tuning adalah untuk membuat model beradaptasi dengan berbagai tugas dan bidang yang berbeda. Pada tahap ini, Microsoft menggunakan data berkualitas tinggi yang dihasilkan dari bidang-bidang berikut:
- Matematika: Termasuk berbagai soal dan jawaban matematika yang bertujuan untuk meningkatkan kemampuan penalaran matematika model.
- Pengkodean: Termasuk berbagai soal dan jawaban pemrograman yang bertujuan untuk meningkatkan kemampuan pembuatan dan pemahaman kode model.
- Penalaran: Termasuk berbagai soal penalaran logis yang bertujuan untuk meningkatkan kemampuan berpikir logis model.
- Percakapan: Termasuk berbagai data percakapan yang bertujuan untuk meningkatkan kemampuan pemahaman dan pembuatan bahasa alami model.
- Identitas Model: Termasuk berbagai deskripsi identitas model yang bertujuan untuk meningkatkan pemahaman model tentang kemampuannya sendiri.
- Keamanan: Termasuk berbagai soal dan jawaban keamanan yang bertujuan untuk meningkatkan keamanan model.
Tahap Optimasi Preferensi Langsung (DPO)
Tujuan dari tahap Optimasi Preferensi Langsung (DPO) adalah untuk menyelaraskan perilaku model dengan preferensi manusia dan menghilangkan perilaku buruk. Tahap ini mencakup dua langkah:
- Pencarian Token Pivotal: Pada langkah pertama, Microsoft menggunakan teknik baru yang disebut Pencarian Token Pivotal untuk menghasilkan pasangan hasil yang diinginkan/tidak diinginkan. Teknik ini mencari ruang keluaran model untuk menemukan token kunci yang dapat membedakan perilaku yang diinginkan dan tidak diinginkan.
- GPT-4o sebagai Penilai: Pada langkah kedua, mereka menggunakan GPT-4o sebagai penilai untuk memberi label positif atau negatif pada setiap pasangan hasil. GPT-4o dapat mengevaluasi keluaran model berdasarkan preferensi manusia, sehingga membantu model mempelajari preferensi manusia dengan lebih baik.
Evaluasi Kinerja Phi-4
Untuk mengevaluasi kinerja Phi-4, Microsoft menggunakan kerangka kerja SIMPLE-EVALS dari OpenAI, yang berisi berbagai benchmark yang berbeda untuk mengevaluasi kinerja model dalam tugas yang berbeda.
Benchmark
Phi-4 menunjukkan kinerja yang sangat baik dalam benchmark berikut:
- GPQA (Tanya Jawab STEM Tingkat Pascasarjana): Dalam benchmark ini, Phi-4 melampaui model gurunya, GPT-4o, membuktikan bahwa kemampuan tanya jawabnya di bidang STEM sangat kuat.
- MATH (Kompetisi Matematika): Dalam benchmark ini, Phi-4 juga melampaui model gurunya, GPT-4o, membuktikan bahwa kemampuannya dalam menyelesaikan soal matematika yang kompleks sangat baik.
- Perbandingan dengan Model Lain: Dalam beberapa benchmark, Phi-4 melampaui Llama-3.1-405B, membuktikan bahwa kinerja keseluruhannya sangat kuat.
Analisis Kinerja
Melalui evaluasi kinerja Phi-4, dapat ditarik kesimpulan berikut:
- Kemampuan Penalaran Matematika yang Kuat: Phi-4 menunjukkan kinerja yang sangat baik dalam penalaran matematika, berkat metode inovatif yang diterapkan dalam proses pelatihannya, termasuk data sintetis, data nyata yang dipilih, dan strategi pasca-pelatihan.
- Melampaui Model Guru: Dalam beberapa benchmark, Phi-4 melampaui model gurunya, GPT-4o, membuktikan bahwa kinerjanya bukan sekadar distilasi pengetahuan.
- Perbandingan dengan Model Lain: Phi-4 melampaui Llama-3.1-405B dalam beberapa benchmark, membuktikan bahwa kinerja keseluruhannya sangat kuat.
Prospek Aplikasi Phi-4
Phi-4, sebagai model bahasa kecil yang dirancang khusus untuk penalaran matematika kompleks, memiliki prospek aplikasi yang luas. Model ini dapat diterapkan di bidang-bidang berikut:
- Pendidikan: Dapat digunakan sebagai alat bantu belajar matematika, membantu siswa memecahkan soal matematika, dan memberikan pengalaman belajar yang dipersonalisasi.
- Penelitian: Dapat digunakan sebagai alat penelitian, membantu peneliti dalam pemodelan matematika dan analisis data.
- Teknik: Dapat digunakan sebagai alat teknik, membantu para insinyur dalam desain dan analisis.
- Keuangan: Dapat digunakan sebagai alat keuangan, membantu analis keuangan dalam penilaian risiko dan keputusan investasi.
- Bidang Lain: Dapat juga diterapkan di bidang lain yang membutuhkan penalaran matematika kompleks, seperti medis, logistik, dan manufaktur.
Kesimpulan
Kemunculan Microsoft Phi-4 menandai kemajuan signifikan dalam model bahasa kecil di bidang penalaran matematika. Strategi pelatihan data dan metode pasca-pelatihannya yang unik memungkinkannya untuk melampaui model sekelas dan bahkan model yang lebih besar, dan memberikan ide-ide baru untuk pengembangan AI di masa depan. Dengan Phi-4 yang bersifat sumber terbuka di Hugging Face, diyakini akan memberikan kemudahan bagi lebih banyak peneliti dan pengembang, serta mendorong penerapan teknologi AI di berbagai bidang.