Model Kecil Microsoft Curi Perhatian

Meskipun DeepSeek-R2 masih belum dirilis, model-model kecil Microsoft membuat gelombang, menampilkan kemampuan penalaran yang mengesankan yang dilatih pada dataset yang sangat kecil.

Munculnya Model Penalaran Phi-4

Dunia AI saat ini terpikat oleh model penalaran, dan Microsoft baru-baru ini memperkenalkan keluarga model inferensi Phi-4. Ini termasuk Phi-4-reasoning, Phi-4-reasoning-plus, dan Phi-4-mini-reasoning. Yang sangat penting adalah bahwa bahkan model terbesar dari model-model ini, yang menawarkan hanya 14 miliar parameter, dapat berjalan dengan lancar di laptop berperforma tinggi. Selain itu, Phi-4-mini-reasoning dengan 3,8 miliar parameter melampaui model hasil distilasi DeepSeek-R1 dengan 8 miliar parameter dalam penalaran matematika, menyoroti kekuatan model yang lebih kecil dalam tugas inferensi.

Alih-alih menunggu rilis model penalaran DeepSeek-R2 generasi kedua pada bulan April, Microsoft meluncurkan serangkaian model penalaran Phi-4 baru. Model-model ini menunjukkan kinerja luar biasa dalam penalaran matematika, melampaui model hasil distilasi DeepSeek-R1, meskipun Phi-4-Mini-Reasoning memiliki skala parameter yang lebih kecil.

Ahmed Awadallah, Partner Research Manager di laboratorium Microsoft AI Frontiers, menggambarkan Phi-4-reasoning dan merangkum fitur-fitur model baru.

  • Model ini dilatih dengan Supervised Fine-tuning (menggunakan dataset contoh penalaran yang dipilih dengan cermat) dan Reinforcement Learning.
  • Kinerjanya baik dalam tolok ukur inferensi dan dapat dibandingkan dengan model-model top yang lebih besar seperti DeepSeek R1.
  • Ia terus berkinerja kuat pada tes baru (seperti AIME 2025, HMMT)
  • Kemampuan penalaran memiliki kemampuan transfer/generalisasi yang kuat, bahkan setelah hanya fine-tuning yang diawasi, ia dapat beradaptasi dengan tugas-tugas baru (seperti k-SAT, pemecahan persamaan matematika, penjadwalan, dll.)
  • Mempertahankan dan sangat meningkatkan kemampuan umum (seperti pemahaman dan pelaksanaan instruksi)

Dia menyatakan bahwa Phi-4 masih memiliki beberapa aspek yang perlu ditingkatkan, terutama dalam panjang konteks, kemampuan encoding, dan integrasi alat.

Selain model itu sendiri, Microsoft juga membagikan laporan teknis terperinci yang memberikan analisis mendalam tentang proses pelatihan dan evaluasi model.

Di X, Dimitris Papailiopoulos, Principal Researcher di laboratorium Microsoft Research AI Frontiers dan Associate Professor di University of Wisconsin, memperkenalkan lebih banyak informasi tentang model penalaran Phi-4.

Dia percaya bahwa Phi-4-reasoning telah sepenuhnya mencapai tingkat pascasarjana dan dapat dijalankan di PC lokal.

Ini melebihi ekspektasinya untuk pengembangan AI.

Model baru ini memiliki sedikit parameter tetapi kinerja yang kuat.

Pusat Kekuatan Kinerja

Meskipun ukurannya sederhana, model ini unggul dalam tolok ukur matematika seperti AIME, HMMT, dan OmniMath. Ia berkinerja setara atau melampaui model bobot terbuka yang lebih besar seperti QwQ-32B, R1-70B, dan R1, dan model tertutup seperti o1-mini dan sonnet 3.7.

Model ini berukuran kecil dan cocok untuk berjalan dengan lancar di laptop berperforma tinggi.

Pada saat yang sama, ia mampu memecahkan banyak teka-teki yang bahkan tidak dapat dipecahkan oleh model non-penalaran yang lebih besar dan beberapa model penalaran.

Itu juga lulus tes DimitrisEval!

Anehnya, penalaran tampaknya menjadi ‘meta-keterampilan’ yang benar-benar dapat ditransfer yang dapat dipelajari bahkan melalui fine-tuning SFT yang diawasi!

Bukti 1: Bahkan tanpa pelatihan khusus pada tugas-tugas non-penalaran, para peneliti masih mengamati peningkatan kinerja yang signifikan pada IFEval, FlenQA, dan PhiBench internal (peningkatan lebih dari 10 poin!).

Selain itu, ada sangat sedikit data yang terkait dengan pengkodean selama tahap SFT (dan tidak ada sama sekali selama tahap RL), tetapi model masih berkinerja baik dalam hal ini.

Selain itu, Dimitris Papailiopoulos mengungkapkan bahwa pemrograman adalah fokus utama untuk versi selanjutnya.

Bukti 2: Dalam kasus beberapa masalah spesifik yang tidak dilatih secara eksplisit (baik tahap SFT atau RL), seperti masalah salesman keliling, pemecahan labirin, k-SAT, perencanaan terbatas, dll., model berkinerja sangat baik dalam tugas-tugas ini!

Dan Phi-4 (dan bahkan GPT-4) tidak dapat melakukan ini.

Ini sepenuhnya menggambarkan bahwa kemampuan penalaran memang dapat ditransfer sebagai keterampilan!

Setelah putaran singkat pembelajaran penguatan (hanya menggunakan 6.000 sampel, dibandingkan dengan 1,4 juta contoh untuk SFT), mekanisme penalaran model tampaknya ‘terkunci’.

Ini membuat Dimitris Papailiopoulos sangat terkejut.

Dia merasa seolah-olah pembelajaran penguatan telah mengajari model untuk bernalar dalam ‘bahasanya sendiri’, meningkatkan akurasi sekitar 10% pada AIME dan HMMT, dan meningkatkan panjang jawaban rata-rata sebesar 50% dalam masalah yang sulit.

Pembelajaran penguatan sangat efektif!!

Fenomena mekanisme penalaran yang ‘terkunci’ biasanya membuat distribusi keluaran model lebih terkonsentrasi dan akurasinya juga lebih tinggi.

Fakta bahwa pembelajaran penguatan dapat secara signifikan meningkatkan kemampuan model juga tercermin dalam penelitian sebelumnya oleh Microsoft.

Pada tahap pembelajaran penguatan, model baru bahkan tidak dioptimalkan secara khusus untuk data: 6.000 pertanyaan hanya dipilih secara acak dari pilihan dataset yang lebih besar.

Jadi mengapa Microsoft tidak melakukan lebih banyak pelatihan pembelajaran penguatan?

Karena model menghasilkan jawaban untuk pertanyaan yang melebihi panjang konteks 32k (panjang yang tidak dilatih oleh model), mereka hanya dapat memotongnya.

Selain itu, dengan bantuan perhitungan penalaran paralel (seperti Maj@N), model penalaran baru hampir mencapai batas kinerja pada AIME 2025, dan bahkan melampaui kinerja pass@1 dari model gurunya (o3-mini).

Dan menyelesaikan semua pengumpulan data sebelum Februari 2025, dan begitu juga HMMT.

Dalam tugas-tugas lain, para peneliti juga mengamati fenomena ‘melampaui guru’, seperti tugas OmniMath dan Calendar Planning.

Desain prompt dalam tahap SFT, ditambah dengan proses pembelajaran penguatan berikutnya, tampaknya telah memberi model kemampuan untuk ‘meningkatkan diri sendiri’, melampaui cakupan pengetahuan yang diberikan oleh model guru.

Pada gambar di bawah ini, magenta mewakili o3-mini dan hijau mewakili Phi.

Fenomena yang menarik adalah bahwa: teks panjang dengan panjang respons di 25% teratas seringkali sangat berkorelasi dengan jawaban yang salah!

Namun, di sisi lain, dalam sebagian besar evaluasi, panjang jawaban rata-rata keseluruhan lebih panjang dan akurasinya lebih tinggi.

Dengan kata lain, meningkatkan sumber daya komputasi selama pengujian memang membantu, tetapi model juga rentan terhadap ‘mengoceh’ ketika ‘macet’.

Mengenai keterbatasan model, ada juga beberapa hal yang perlu diperhatikan:

  • Kemampuan untuk menangani panjang konteks yang melebihi 32k belum sepenuhnya diperluas atau diuji.
  • Model rentan terhadap ‘berpikir berlebihan’ ketika berhadapan dengan masalah sederhana, dan mungkin tampak terlalu bertele-tele dalam penilaian diri.
  • Kemampuan dialog multi-giliran belum diuji secara luas.

Tentu saja, ada lebih banyak ‘titik buta’ untuk ditemukan, tetapi secara keseluruhan, tim peneliti merasa bahwa mereka berada di jalur yang benar!

Kejutan Pelatihan

Suriya Gunasekar, Principal Research Manager di Microsoft Research dan termasuk dalam tim ‘AGI Physics’ yang bertanggung jawab untuk mengembangkan seri model Phi, berfokus pada pengenalan prinsip-prinsip inti dari pekerjaan tersebut.

Kali ini, tim Microsoft Phi berfokus pada tahap pasca-pelatihan dan meluncurkan Phi-4-reasoning (hanya menggunakan SFT) dan Phi-4-reasoning-plus (SFT + sedikit RL).

Keduanya adalah model 14B yang telah menunjukkan kemampuan yang kuat dalam penalaran dan tolok ukur tugas umum.

Inti dari pekerjaan ini terletak pada pemilihan prompt dan eksplorasi eksperimental keterampilan penalaran yang dapat ditransfer dan ditingkatkan sendiri.

Ada dua penemuan mengejutkan selama proses pelatihan:

Pertama, selama beberapa lintasan penalaran rantai panjang (CoT) yang dilatih domain digunakan, Phi-4 dapat mencapai peningkatan kinerja yang signifikan dalam berbagai tugas seperti penjadwalan, pemecahan labirin (tanpa input visual), IFEva, FlenQA, KITAB (pertanyaan berdasarkan pencarian), dan PhiBench internal;

Kedua, bahkan jika hanya 6.000 contoh matematika yang digunakan untuk pelatihan RL minimal, kinerja model ditingkatkan secara signifikan dalam beberapa tolok ukur, dengan peningkatan tertinggi mencapai 10% (tetapi penggunaan token meningkat sekitar 1,5 kali lipat), dan transfer keterampilan lintas domain juga diamati selama tahap RL.

Dengan kata lain, dibandingkan dengan pesaing utama seperti OpenAI dan Google, seri penalaran Microsoft Phi-4 menunjukkan kemungkinan baru: model kecil dapat menandingi atau bahkan melampaui model besar dalam tugas-tugas tertentu dengan menggunakan data berkualitas tinggi dan strategi pelatihan yang disempurnakan.

Metode Inti

Model penalaran Phi-4-reasoning memiliki 14 miliar parameter dan berkinerja kuat dalam tugas-tugas penalaran yang kompleks.

Model ini didasarkan pada Phi-4 untuk pelatihan fine-tuning yang diawasi, menggunakan seperangkat prompt ‘yang dapat diajarkan’ yang dipilih dengan cermat yang memiliki kompleksitas dan keragaman yang sesuai; contoh penalaran yang dihasilkan oleh o3-mini digunakan sebagai referensi selama proses pelatihan.

Phi-4-reasoning dapat menghasilkan rantai penalaran yang terperinci dan memanfaatkan sepenuhnya sumber daya komputasi selama proses penalaran.

Atas dasar ini, Microsoft selanjutnya mengembangkan Phi-4-reasoning-plus.

Ini ditingkatkan berdasarkan model asli melalui tahap kecil pembelajaran penguatan berbasis hasil, dan menghasilkan rantai penalaran yang lebih panjang dan lebih kuat.

Penelitian menunjukkan bahwa dataset SFT yang dirancang dengan baik dapat secara signifikan meningkatkan efek model bahasa penalaran, dan pembelajaran penguatan (RL) dapat lebih memperkuat peningkatan ini atas dasar ini.

Dalam percobaan SFT, bahkan dalam pengaturan pembuatan yang relatif sederhana ini, pemilihan yang cermat dan penyaringan yang ketat dari masalah benih masih menjadi kunci keberhasilan model.

Mereka telah menundukkan seluruh set data pelatihan ke proses dekontaminasi yang ketat untuk memastikan bahwa ia tidak mengandung data yang sangat tumpang tindih dengan penalaran yang banyak digunakan atau pertanyaan tolok ukur umum, termasuk beberapa tolok ukur yang tidak disebutkan dalam laporan ini.

Daftar lengkap tes tolok ukur yang telah didekontaminasi adalah sebagai berikut:

  • Matematika dan Penalaran: AIME-2024, MATH, GPQA, OmniMATH, GSM8k
  • Pemrograman: LiveCodeBench, Codeforces, HumanEval, MBPP
  • Pertanyaan dan Pengetahuan Umum: SimpleQA, DROP, AGIEval, ARC-Challenge, ARC-Easy, CommonsenseQA, OpenBookQA, PIQA, WinoGrande
  • Tugas Evaluasi Lainnya: SWE-Bench Verified, ArenaHard, MT-Bench, PhiBench

Melalui Supervised Finetuning (SFT) dari model Phi-4 dengan 14 miliar parameter, para peneliti memperoleh Phi-4-reasoning, tanpa pembelajaran penguatan sebelum itu.

Tujuan SFT adalah untuk menyempurnakan kemampuan penalaran terstruktur yang terkandung dalam model dasar.

Arsitektur Phi-4-reasoning sama dengan arsitektur model Phi-4, tetapi dengan dua modifikasi utama:

  • Token Penalaran: Dua token placeholder dalam model dasar digunakan kembali sebagai dan token, yang digunakan untuk menandai awal dan akhir proses penalaran (‘berpikir’).
  • Panjang Token yang Ditingkatkan: Panjang token maksimum yang awalnya didukung oleh model dasar (Phi-4) adalah 16K. Untuk mengakomodasi token penalaran tambahan, frekuensi dasar RoPE digandakan, dan model dilatih pada panjang token maksimum 32K.

Mereka menggunakan metode sintetik untuk menghasilkan sejumlah besar contoh penalaran rantai pemikiran.

Dataset SFT yang digunakan berisi lebih dari 1,4 juta pasangan prompt-respons, dengan total 8,3 miliar token unik, yang mencakup bidang penalaran seperti matematika dan pemrograman, serta data penyelarasan untuk AI yang aman dan bertanggung jawab.

Gambar 4a menunjukkan perubahan indikator kunci selama proses iterasi SFT.

Awal pelatihan, model mulai menggunakan token ‘berpikir’ eksplisit, yang menunjukkan bahwa model dengan cepat mempelajari format terstruktur dangkal ini.

Namun, seperti yang ditunjukkan pada Gambar 4a, efektivitas modul rantai pemikiran dan kemampuan penalaran model meningkat selama proses pelatihan, yang menunjukkan bahwa model tidak hanya menyalin format, tetapi benar-benar mempelajari keterampilan penalaran.

Menariknya, tidak seperti pembelajaran penguatan, para peneliti tidak melihat peningkatan panjang respons selama proses SFT.

Faktanya, seperti yang ditunjukkan pada Gambar 4b, panjang respons rata-rata sedikit menurun.

Ini menunjukkan bahwa seiring kemajuan pelatihan, model belajar untuk menggunakan anggaran tokennya dengan lebih efektif.

Untuk secara sistematis mengevaluasi strategi pelatihan yang berbeda, mereka menggunakan tolok ukur tetap - AIME 2024 dan berlian GPQA - sebagai indikator kemajuan.

Secara keseluruhan, metode eksperimen dapat dibagi menjadi dua tahap: eksplorasi dan penskalaan.

Pada tahap eksplorasi, para peneliti menggunakan siklus pelatihan yang lebih pendek dan sumber serta bidang data terbatas untuk dengan cepat beriterasi dan mengekstrak metode pelatihan yang kuat.

Dalam fase ekspansi berikutnya, para peneliti meringkas hasil eksperimen pengurangan risiko awal dan menyelesaikan pengaturan SFT.

Gambar 5 meringkas kemajuan ini, menyoroti eksperimen ablasi untuk beberapa pilihan desain utama.

Gambar 5 menunjukkan gambaran umum tingkat tinggi dari siklus eksperimen fine-tuning yang diawasi (SFT) Phi-4-reasoning, termasuk fase eksplorasi dan ekspansi, menggunakan beberapa contoh eksperimen untuk mewakili. Setiap gugus titik mewakili hasil eksperimen dari pilihan desain pelatihan tertentu.

Gambar 7 menunjukkan temuan utama model Phi-4-reasoning-plus selama proses pelatihan GRPO.

Mulai dari model dasar fine-tuning yang diawasi (SFT) Phi-4-reasoning, hanya 90 langkah pelatihan GRPO yang meningkatkan kinerja AIME lebih dari 10% (Gambar 7a).

Terus meningkatkan jumlah langkah pelatihan tidak membawa manfaat tambahan, yang menunjukkan bahwa potensi model SFT yang kuat mendekati batas kinerja. Perlu dicatat bahwa output dalam pelatihan GRPO dibatasi hingga 31k token, yang secara objektif membatasi ruang optimasi GRPO.

Seperti yang ditunjukkan pada Gambar 7c, panjang respons sangat berkorelasi dengan kinerja AIME, sedangkan korelasi antara skor hadiah dan skor AIME lemah. Efek pertumbuhan panjang respons ini adalah efek yang diharapkan dari pelatihan GRPO - model meningkatkan kemampuan penalaran dengan meningkatkan ‘waktu berpikir’.

Gambar 7d selanjutnya mengungkapkan bahwa karena desain model hadiah, panjang generasi jawaban yang salah tumbuh secara signifikan lebih cepat daripada jawaban yang benar (ketika jawaban model saat ini salah, sistem akan mendorongnya untuk berpikir lebih lama).

Faktanya, melakukan pengambilan sampel penolakan hanya berdasarkan panjang respons (terutama respons panjang yang secara signifikan melebihi median) dapat lebih meningkatkan kinerja GRPO.

Seperti yang ditunjukkan pada Gambar 7d, tren pertumbuhan respons yang lebih pendek (panjang yang terletak di kuantil 25% terendah) selama proses pelatihan mirip dengan panjang rata-rata jawaban yang benar, sedangkan panjang jawaban yang salah lebih dekat dengan kuantil 75% dari panjang respons keseluruhan.

Fenomena diferensiasi ini menunjukkan bahwa pengambilan sampel penolakan berbasis panjang dapat meningkatkan efisiensi model dengan menekan output yang salah yang terlalu panjang.