Model Kecil Microsoft Curi Perhatian: 'Kod Cepat' Matematik

Walaupun DeepSeek-R2 masih belum dapat dikesan, model Microsoft yang lebih kecil mencipta gelombang, mempamerkan keupayaan penaakulan yang mengagumkan yang dilatih pada set data yang sangat kecil.

Kebangkitan Model Penaakulan Phi-4

Dunia AI kini terpikat dengan model penaakulan, dan Microsoft baru-baru ini memperkenalkan keluarga model inferens Phi-4. Ini termasuk Phi-4-reasoning, Phi-4-reasoning-plus, dan Phi-4-mini-reasoning. Apa yang sangat ketara ialah model yang terbesar sekalipun, yang mempunyai hanya 14 bilion parameter, boleh berjalan dengan lancar pada komputer riba berprestasi tinggi. Lebih-lebih lagi, Phi-4-mini-reasoning dengan 3.8 bilion parameter mengatasi model suling DeepSeek-R1 dengan 8 bilion parameter dalam penaakulan matematik, menonjolkan kuasa model yang lebih kecil dalam tugas inferens.

Daripada menunggu pelancaran model penaakulan DeepSeek-R2 generasi kedua pada bulan April, Microsoft melancarkan siri model penaakulan Phi-4 yang baharu. Model-model ini mempamerkan prestasi yang luar biasa dalam penaakulan matematik, mengatasi model suling DeepSeek-R1, walaupun Phi-4-Mini-Reasoning mempunyai skala parameter yang lebih kecil.

Ahmed Awadallah, Pengurus Penyelidikan Rakan Kongsi di makmal Microsoft AI Frontiers, menerangkan tentang Phi-4-reasoning dan meringkaskan ciri-ciri model baharu tersebut.

  • Model ini dilatih dengan Penalaan Halus Terawasi (menggunakan set data contoh penaakulan yang dipilih dengan teliti) dan Pembelajaran Pengukuhan.
  • Ia berprestasi baik dalam tanda aras inferens dan boleh dibandingkan dengan model teratas yang lebih besar seperti DeepSeek R1.
  • Ia terus berprestasi dengan kuat pada ujian baharu (seperti AIME 2025, HMMT)
  • Keupayaan penaakulan mempunyai keupayaan pemindahan/generalisasi yang kuat, walaupun selepas penalaan halus terawasi sahaja, ia boleh menyesuaikan diri dengan tugas baharu (seperti k-SAT, penyelesaian persamaan matematik, penjadualan, dll.)
  • Mengekalkan dan meningkatkan keupayaan umum dengan ketara (seperti pemahaman dan pelaksanaan arahan)

Beliau menyatakan bahawa Phi-4 masih mempunyai beberapa aspek yang perlu diperbaiki, terutamanya dalam panjang konteks, keupayaan pengekodan, dan integrasi alat.

Selain daripada model itu sendiri, Microsoft juga berkongsi laporan teknikal terperinci yang menyediakan analisis mendalam tentang proses latihan dan penilaian model.

Di X, Dimitris Papailiopoulos, Penyelidik Utama di makmal Microsoft Research AI Frontiers dan Profesor Madya di Universiti Wisconsin, memperkenalkan lebih banyak maklumat tentang model penaakulan Phi-4.

Beliau percaya bahawa Phi-4-reasoning telah mencapai tahap siswazah sepenuhnya dan boleh dijalankan pada PC tempatan.

Ini melebihi jangkaannya untuk pembangunan AI.

Model baharu ini mempunyai parameter yang sedikit tetapi prestasi yang kuat.

Kuasa Prestasi

Walaupun saiznya sederhana, model ini cemerlang dalam tanda aras matematik seperti AIME, HMMT, dan OmniMath. Ia berprestasi setanding dengan atau mengatasi model berat terbuka yang lebih besar seperti QwQ-32B, R1-70B, dan R1, dan model tertutup seperti o1-mini dan sonnet 3.7.

Model ini kecil saiznya dan sesuai untuk berjalan dengan lancar pada komputer riba berprestasi tinggi.

Pada masa yang sama, ia mampu menyelesaikan banyak teka-teki yang model bukan penaakulan yang lebih besar dan beberapa model penaakulan tidak dapat selesaikan.

Ia juga lulus ujian DimitrisEval!

Anehnya, penaakulan nampaknya merupakan ‘kemahiran meta’ yang benar-benar boleh dipindahkan yang boleh dipelajari walaupun melalui penalaan halus terawasi SFT!

Bukti 1: Walaupun tanpa latihan khusus mengenai tugas bukan penaakulan, para penyelidik masih memerhatikan peningkatan prestasi yang ketara pada IFEval, FlenQA, dan PhiBench dalaman (peningkatan lebih daripada 10 mata!).

Selain itu, terdapat sangat sedikit data yang berkaitan dengan pengekodan semasa peringkat SFT (dan tidak ada sama sekali semasa peringkat RL), tetapi model masih berprestasi baik dalam hal ini.

Selain itu, Dimitris Papailiopoulos mendedahkan bahawa pengaturcaraan adalah fokus utama untuk versi seterusnya.

Bukti 2: Dalam kes beberapa masalah khusus yang tidak dilatih secara eksplisit (sama ada peringkat SFT atau RL), seperti masalah jurujual pengembara, penyelesaian labirin, k-SAT, perancangan terhad, dll., model berprestasi sangat baik dalam tugas-tugas ini!

Dan Phi-4 (dan juga GPT-4) tidak boleh melakukan ini.

Ini sepenuhnya menggambarkan bahawa keupayaan penaakulan sememangnya boleh dipindahkan sebagai kemahiran!

Selepas pusingan pembelajaran pengukuhan yang sangat pendek (menggunakan hanya 6,000 sampel, berbanding dengan 1.4 juta contoh untuk SFT), mekanisme penaakulan model nampaknya ‘dikunci’.

Ini membuatkan Dimitris Papailiopoulos sangat terkejut.

Beliau merasakan seolah-olah pembelajaran pengukuhan telah mengajar model untuk menaakul dalam ‘bahasa sendiri’, meningkatkan ketepatan sebanyak kira-kira 10% pada AIME dan HMMT, dan meningkatkan purata panjang jawapan sebanyak 50% dalam masalah yang sukar.

Pembelajaran pengukuhan sangat berkesan!!

Fenomena mekanisme penaakulan ‘dikunci’ biasanya menjadikan taburan output model lebih tertumpu dan ketepatan juga lebih tinggi.

Fakta bahawa pembelajaran pengukuhan boleh meningkatkan keupayaan model dengan ketara juga telah ditunjukkan dalam penyelidikan terdahulu oleh Microsoft.

Dalam peringkat pembelajaran pengukuhan, model baharu itu tidak pun dioptimumkan khas untuk data: 6,000 soalan hanya dipilih secara rawak daripada pemilihan set data yang lebih besar.

Jadi mengapa Microsoft tidak menjalankan lebih banyak latihan pembelajaran pengukuhan?

Kerana model menjana jawapan kepada soalan yang melebihi panjang konteks 32k (panjang yang model tidak dilatih), mereka hanya boleh memotongnya.

Selain itu, dengan bantuan pengiraan penaakulan selari (seperti Maj@N), model penaakulan baharu hampir mencapai had prestasi pada AIME 2025, dan malah mengatasi prestasi pass@1 model gurunya (o3-mini).

Dan menyelesaikan semua pengumpulan data sebelum Februari 2025, dan begitu juga HMMT.

Dalam tugas lain, para penyelidik juga telah memerhatikan fenomena ‘melampaui guru’, seperti tugas OmniMath dan Perancangan Kalendar.

Reka bentuk gesaan dalam peringkat SFT, ditambah dengan proses pembelajaran pengukuhan berikutnya, nampaknya telah memberi model keupayaan untuk ‘memperbaiki diri’, melebihi skop pengetahuan yang disediakan oleh model guru.

Dalam rajah di bawah, magenta mewakili o3-mini dan hijau mewakili Phi.

Fenomena yang menarik ialah: teks panjang dengan panjang respons dalam 25% teratas selalunya berkait rapat dengan jawapan yang salah!

Walau bagaimanapun, sebaliknya, dalam kebanyakan penilaian, purata panjang jawapan keseluruhan adalah lebih panjang dan ketepatannya lebih tinggi.

Dalam erti kata lain, meningkatkan sumber pengkomputeran semasa ujian memang membantu, tetapi model juga terdedah kepada ‘merapu’ apabila ia ‘tersekat’.

Mengenai batasan model, terdapat juga beberapa perkara yang perlu diberi perhatian:

  • Keupayaan untuk mengendalikan panjang konteks yang melebihi 32k belum diperluas atau diuji sepenuhnya.
  • Model terdedah kepada ‘berfikir berlebihan’ apabila berurusan dengan masalah mudah, dan mungkin kelihatan terlalu bertele-tele dalam penilaian kendiri.
  • Keupayaan dialog berbilang pusingan belum diuji secara meluas.

Sudah tentu, terdapat lebih banyak ‘titik buta’ untuk ditemui, tetapi secara keseluruhan, pasukan penyelidik merasakan bahawa mereka berada di landasan yang betul!

Kejutan Latihan

Suriya Gunasekar, Pengurus Penyelidikan Utama di Microsoft Research dan tergolong dalam pasukan ‘AGI Physics’ yang bertanggungjawab untuk membangunkan siri model Phi, menumpukan pada memperkenalkan prinsip teras kerja tersebut.

Kali ini, pasukan Microsoft Phi menumpukan pada peringkat selepas latihan dan melancarkan Phi-4-reasoning (hanya menggunakan SFT) dan Phi-4-reasoning-plus (SFT+ sejumlah kecil RL).

Kedua-duanya ialah model 14B yang telah menunjukkan keupayaan yang kuat dalam tanda aras penaakulan dan tugas umum.

Teras kerja ini terletak pada pemilihan gesaan dan penerokaan eksperimen mengenai kemahiran penaakulan yang boleh dipindahkan dan memperbaiki diri.

Terdapat dua penemuan mengejutkan semasa proses latihan:

Pertama, selagi beberapa trajektori penaakulan rantaian panjang (CoT) yang dilatih domain digunakan, Phi-4 boleh mencapai peningkatan prestasi yang ketara dalam pelbagai tugas seperti penjadualan, penyelesaian labirin (tanpa input visual), IFEva, FlenQA, KITAB (soalan dan jawapan berasaskan carian), dan PhiBench dalaman;

Kedua, walaupun hanya 6,000 contoh matematik digunakan untuk latihan RL minimum, prestasi model bertambah baik dengan ketara dalam beberapa tanda aras, dengan peningkatan tertinggi mencapai 10% (tetapi penggunaan token meningkat kira-kira 1.5 kali), dan pemindahan kemahiran merentas domain juga diperhatikan semasa peringkat RL.

Dalam erti kata lain, berbanding dengan pesaing utama seperti OpenAI dan Google, siri penaakulan Microsoft Phi-4 menunjukkan kemungkinan baharu: model kecil boleh menyamai atau bahkan mengatasi model besar dalam tugas tertentu dengan menggunakan data berkualiti tinggi dan strategi latihan yang diperhalusi.

Kaedah Teras

Model penaakulan Phi-4-reasoning mempunyai 14 bilion parameter dan berprestasi kuat dalam tugas penaakulan yang kompleks.

Model ini adalah berdasarkan Phi-4 untuk latihan penalaan halus terawasi, menggunakan set gesaan ‘boleh diajar’ yang dipilih dengan teliti yang mempunyai kerumitan dan kepelbagaian yang sesuai; contoh penaakulan yang dijana oleh o3-mini digunakan sebagai rujukan semasa proses latihan.

Phi-4-reasoning boleh menjana rantaian penaakulan terperinci dan menggunakan sumber pengkomputeran sepenuhnya semasa proses penaakulan.

Atas dasar ini, Microsoft membangunkan lagi Phi-4-reasoning-plus.

Ia dipertingkatkan berdasarkan model asal melalui peringkat kecil pembelajaran pengukuhan berasaskan hasil, dan menjana rantaian penaakulan yang lebih panjang dan lebih berkuasa.

Penyelidikan menunjukkan bahawa set data SFT yang direka dengan baik boleh meningkatkan kesan model bahasa penaakulan dengan ketara, dan pembelajaran pengukuhan (RL) boleh mempertingkatkan lagi peningkatan ini atas dasar ini.

Dalam eksperimen SFT, walaupun dalam tetapan penjanaan yang agak mudah ini, pemilihan teliti dan penapisan ketat masalah benih masih menjadi kunci kejayaan model.

Mereka telah menyerahkan keseluruhan set data latihan kepada proses penyahcemaran yang ketat untuk memastikan ia tidak mengandungi data yang bertindih dengan banyak dengan penaakulan yang digunakan secara meluas atau soalan tanda aras umum, termasuk beberapa tanda aras yang tidak disebutkan dalam laporan ini.

Senarai lengkap ujian tanda aras yang telah dinyahcemar adalah seperti berikut:

  • Matematik dan Penaakulan: AIME-2024, MATH, GPQA, OmniMATH, GSM8k
  • Pengaturcaraan: LiveCodeBench, Codeforces, HumanEval, MBPP
  • Soalan dan Jawapan dan Pengetahuan Umum: SimpleQA, DROP, AGIEval, ARC-Challenge, ARC-Easy, CommonsenseQA, OpenBookQA, PIQA, WinoGrande
  • Tugas Penilaian Lain: SWE-Bench Verified, ArenaHard, MT-Bench, PhiBench

Melalui Penalaan Halus Terawasi (SFT) model Phi-4 dengan 14 bilion parameter, para penyelidik memperoleh Phi-4-reasoning, tanpa sebarang pembelajaran pengukuhan sebelum itu.

Matlamat SFT adalah untuk memperhalusi keupayaan penaakulan berstruktur yang terkandung dalam model asas.

Seni bina Phi-4-reasoning adalah sama dengan model Phi-4, tetapi dengan dua pengubahsuaian utama:

  • Token penaakulan: Dua token pemegang tempat dalam model asas digunakan semula sebagai dan token, yang digunakan untuk menandakan permulaan dan akhir proses penaakulan (‘berfikir’).
  • Panjang Token yang Ditambah: Panjang token maksimum yang pada mulanya disokong oleh model asas (Phi-4) ialah 16K. Untuk menampung token penaakulan tambahan, frekuensi asas RoPE digandakan, dan model dilatih pada panjang token maksimum 32K.

Mereka menggunakan kaedah sintetik untuk menjana sejumlah besar contoh penaakulan rantaian pemikiran.

Set data SFT yang digunakan mengandungi lebih daripada 1.4 juta pasangan gesaan-respons, berjumlah 8.3 bilion token unik, meliputi bidang penaakulan seperti matematik dan pengaturcaraan, serta data penjajaran untuk AI yang selamat dan bertanggungjawab.

Rajah 4a menunjukkan perubahan dalam penunjuk utama sepanjang proses lelaran SFT.

Pada awal latihan, model mula menggunakan token ‘berfikir’ eksplisit, yang menunjukkan bahawa model dengan cepat mempelajari format berstruktur cetek ini.

Walau bagaimanapun, seperti yang ditunjukkan dalam Rajah 4a, keberkesanan modul rantaian pemikiran dan keupayaan penaakulan model bertambah baik sepanjang proses latihan, yang menunjukkan bahawa model bukan hanya menyalin format, tetapi sebenarnya mempelajari kemahiran penaakulan.

Menariknya, tidak seperti pembelajaran pengukuhan, para penyelidik tidak melihat peningkatan dalam panjang respons semasa proses SFT.

Malah, seperti yang ditunjukkan dalam Rajah 4b, purata panjang respons menurun sedikit.

Ini menunjukkan bahawa apabila latihan berlangsung, model sedang belajar untuk menggunakan bajet tokennya dengan lebih berkesan.

Untuk menilai secara sistematik strategi latihan yang berbeza, mereka menggunakan tanda aras tetap - AIME 2024 dan GPQA diamond - sebagai penunjuk kemajuan.

Secara keseluruhan, kaedah eksperimen boleh dibahagikan kepada dua peringkat: penerokaan dan penskalaan.

Dalam peringkat penerokaan, para penyelidik menggunakan kitaran latihan yang lebih pendek dan sumber dan bidang data yang terhad untuk berulang dengan cepat dan mengekstrak kaedah latihan yang teguh.

Dalam fasa pengembangan berikutnya, para penyelidik meringkaskan hasil eksperimen pengurangan risiko awal dan memuktamadkan tetapan SFT.

Rajah 5 meringkaskan kemajuan ini, menonjolkan eksperimen ablasi untuk beberapa pilihan reka bentuk utama.

Rajah 5 menunjukkan gambaran keseluruhan peringkat tinggi kitaran eksperimen penalaan halus terawasi (SFT) Phi-4-reasoning, termasuk fasa penerokaan dan pengembangan, menggunakan beberapa contoh eksperimen untuk mewakili. Setiap kluster titik mewakili hasil eksperimen pilihan reka bentuk latihan tertentu.

Rajah 7 menunjukkan penemuan utama model Phi-4-reasoning-plus semasa proses latihan GRPO.

Bermula daripada model asas penalaan halus terawasi (SFT) Phi-4-reasoning, hanya 90 langkah latihan GRPO meningkatkan prestasi AIME sebanyak lebih daripada 10% (Rajah 7a).

Terus meningkatkan bilangan langkah latihan tidak membawa faedah tambahan, yang menunjukkan bahawa potensi model SFT yang kuat hampir dengan siling prestasi. Perlu diingatkan bahawa output dalam latihan GRPO dihadkan kepada dalam 31k token, yang secara objektif menyekat ruang pengoptimuman GRPO.

Seperti yang ditunjukkan dalam Rajah 7c, panjang respons berkait rapat dengan prestasi AIME, manakala korelasi antara skor ganjaran dan skor AIME adalah lemah. Kesan pertumbuhan panjang respons ini adalah kesan yang diharapkan daripada latihan GRPO - model meningkatkan keupayaan penaakulan dengan meningkatkan ‘masa berfikir’.

Rajah 7d mendedahkan lagi bahawa disebabkan oleh reka bentuk model ganjaran, panjang penjanaan jawapan yang salah berkembang dengan ketara lebih cepat daripada jawapan yang betul (apabila jawapan semasa model salah, sistem akan menggalakkannya untuk berfikir lebih lama).

Malah, melakukan pensampelan penolakan berdasarkan panjang respons sahaja (terutamanya respons panjang yang melebihi median dengan ketara) boleh meningkatkan lagi prestasi GRPO.

Seperti yang ditunjukkan dalam Rajah 7d, trend pertumbuhan respons yang lebih pendek (panjang terletak di kuantil 25% terbawah) semasa proses latihan adalah serupa dengan purata panjang jawapan yang betul, manakala panjang jawapan yang salah adalah lebih dekat dengan kuantil 75% panjang respons keseluruhan.

Fenomena pembezaan ini menunjukkan bahawa pensampelan penolakan berasaskan panjang boleh meningkatkan kecekapan model dengan menindas output yang salah terlalu panjang.