Pendekatan Microsoft ke dalam bidang model AI sumber terbuka, terutamanya keluarga Phi, semakin mendapat perhatian, walaupun tidak dengan pengiktirafan yang sama meluas seperti pelaburan mereka dalam OpenAI. Antara model-model ini, Phi-4 Reasoning Plus menonjol, mempamerkan kuasa pembelajaran pengukuhan (RL) dalam mencapai hasil yang luar biasa pada ujian tanda aras.
Siri Phi direka untuk cekap sumber, menggunakan kuasa pengkomputeran dan ruang penyimpanan yang kurang. Melalui penyelidikan dan teknik pengoptimuman yang teliti, model-model ini secara konsisten telah melampaui jangkaan, mengatasi pesaing dalam kelas berat mereka dan juga mencabar model yang lebih besar.
Model Phi-4 Reasoning, yang mempunyai 14 bilion parameter, dicipta dengan menggunakan algoritma penalaan halus penyeliaan (SFT) kepada model asas Phi-4. Berdasarkan ini, para penyelidik seterusnya membangunkan model Phi-4 Reasoning Plus, memanfaatkan pembelajaran pengukuhan (RL) pada asas Phi-4 Reasoning.
Hebatnya, kedua-dua model Phi-4 Reasoning dan Phi-4 Reasoning Plus telah menunjukkan prestasi yang lebih baik berbanding model yang jauh lebih besar seperti DeepSeek R1, yang menempatkan 70 bilion parameter. Pencapaian ini amat ketara dalam tanda aras yang merangkumi pengekodan, penyelesaian masalah matematik dan tugas saintifik lanjutan di peringkat siswazah. Prestasi model malah menghampiri model DeepSeek R1 parameter 671 bilion skala penuh.
Penyelidik Microsoft mengaitkan kejayaan model terutamanya kepada penggunaan set data latihan berkualiti tinggi, strategi yang telah diandalkan oleh syarikat secara konsisten dengan model sebelumnya. Set data ini terdiri daripada lebih 1.4 juta gesaan yang disusun rapi yang merangkumi pelbagai disiplin pengekodan dan STEM (Sains, Teknologi, Kejuruteraan dan Matematik). Setiap gesaan disertakan dengan jawapan yang dibuat dengan teliti, menggabungkan jejak penaakulan yang luas yang dijana oleh model o3-mini OpenAI.
Untuk mengoptimumkan proses latihan, para penyelidik secara strategik menyasarkan gesaan yang menolak had keupayaan model asas Phi-4. Ini melibatkan penapisan set data latihan untuk mengekalkan hanya gesaan yang menawarkan peluang yang besar untuk penambahbaikan.
Alasan Di Sebalik Keberkesanan RL
Pembangunan Phi-4 Reasoning Plus melibatkan proses dua langkah: pertama, memperoleh Phi-4 Reasoning melalui penalaan halus penyeliaan (SFT) model asas Phi-4, diikuti dengan fasa pembelajaran pengukuhan (RL). Untuk mendapatkan pandangan yang lebih mendalam tentang komponen RL Phi-4 Reasoning Plus, komunikasi langsung dengan Harkirat Behl, seorang penyelidik di Microsoft yang memainkan peranan penting dalam aspek projek ini, adalah penting.
Pembelajaran pengukuhan (RL) ialah metodologi latihan unik di mana sistem AI belajar melalui eksperimen. AI mengambil tindakan, menerima maklum balas dalam bentuk ganjaran atau penalti, dan secara berulang memperhalusi proses membuat keputusannya untuk memaksimumkan hasil yang diingini jangka panjang. Pendekatan ini amat bermanfaat untuk tugas yang memerlukan model AI untuk melibatkan diri dalam "penaakulan," kerana ia mengutamakan pencapaian hasil yang diingini berbanding mematuhi proses yang tegar dan telah ditetapkan.
Tidak seperti model tradisional yang hanya menumpukan pada meramalkan perkataan seterusnya dan mengenakan penalti kepada model untuk setiap ketidaktepatan, RL menawarkan fleksibiliti yang lebih besar dalam cara jawapan diperoleh. Fleksibiliti ini membolehkan model meneroka masalah kompleks dengan pelbagai laluan penyelesaian yang berpotensi, yang akhirnya menumpu pada kesimpulan yang betul.
Menurut Behl, RL memperkasakan model untuk "menjana jawapan yang sangat panjang, dan banyak jawapan yang berbeza," dengan fokus utama diberikan pada ketepatan hasil akhir. Penekanan pada hasil ini, dan bukannya langkah-langkah khusus yang diambil, mencerminkan cara manusia mendekati penyelesaian masalah. Proses pemikiran yang berbeza boleh diterima, selagi ia membawa kepada jawapan yang betul.
Dalam model Microsoft, peringkat RL sengaja difokuskan pada penaakulan matematik. Sistem ganjaran memberi insentif kepada ketepatan, sambil menghukum pengulangan, panjang yang berlebihan dan pemformatan respons yang tidak betul.
Behl selanjutnya menjelaskan bahawa para penyelidik membenarkan model menjana pelbagai jawapan untuk soalan yang diberikan. Setiap jawapan kemudiannya dijaringkan berdasarkan perbandingannya dengan skor purata dalam kumpulan jawapan yang dijana.
Skor relatif ini berfungsi sebagai mekanisme maklum balas, membimbing model untuk mengutamakan jawapan yang secara konsisten menerima skor yang lebih tinggi. Lama kelamaan, proses ini melatih model untuk menjajarkan responsnya lebih rapat dengan isyarat ganjaran yang diingini.
Para penyelidik memerhatikan bahawa menggunakan RL untuk set terhad sebanyak 6,400 masalah membawa kepada peningkatan yang ketara dalam ketepatan merentas pelbagai penilaian matematik dan penaakulan.
"Setelah membina Phi-1, Phi-2, Phi-3, dan Phi-4, satu pengajaran daripada saya dalam penyelidikan ialah RL memerlukan data yang jauh lebih sedikit daripada latihan SFT," kata Behl.
Beliau mengaitkan ini dengan fakta bahawa RL kurang tentang menyampaikan kemahiran yang sama sekali baharu kepada model dari awal dan lebih banyak tentang membimbing model untuk menggabungkan dan memanfaatkan kemahiran sedia ada dengan berkesan untuk mencapai hasil yang lebih baik.
Kejayaan Microsoft dengan pembelajaran pengukuhan sejajar dengan pengalaman banyak syarikat AI lain. OpenAI, perintis dalam pembangunan model penaakulan, telah berulang kali menekankan kesan yang baik daripada RL pada projek mereka.
Menariknya, DeepSeek R1, model Cina yang mengganggu landskap AI tahun lepas, juga mengaitkan kejayaannya, sebahagiannya, dengan penggunaan RL. Tambahan pula, beberapa penyelidik dan jurutera dari OpenAI secara terbuka mengakui peranan penting RL dalam kejayaan inisiatif penyelidikan mendalam mereka.
Baru-baru ini, model Qwen Alibaba juga menyokong pembelajaran pengukuhan, menekankan kesan ketaranya pada model penaakulan mereka. Dalam catatan blog, syarikat itu menyatakan, "Kami yakin bahawa menggabungkan model asas yang lebih kukuh dengan RL yang dikuasakan oleh sumber pengkomputeran berskala akan mendorong kami lebih dekat untuk mencapai Kecerdasan Am Buatan (AGI)."
Walau bagaimanapun, walaupun kejayaan Phi-4 Reasoning, Phi-4 Reasoning Plus, dan banyak model penaakulan lain, bidang ini masih menghadapi beberapa cabaran.
Usaha Berterusan untuk Penambahbaikan
Dalam beberapa bulan kebelakangan ini, beberapa kajian penyelidikan telah menggariskan batasan sedia ada dan potensi perangkap model penaakulan. Sebagai contoh, dalam kertas penyelidikan mereka mengenai Phi-4 Reasoning, penyelidik Microsoft mengakui bahawa mereka terus bergelut dengan cabaran yang berkaitan dengan penggunaan masa dan sumber yang berlebihan, masa respons yang lebih perlahan, dan, yang paling ketara, isu respons model yang bercanggah dengan langkah penaakulan mereka sendiri yang terdahulu.
Dalam perkembangan penting yang lain, Anthropic menerbitkan kajian yang mendedahkan bahawa rantai penaakulan (sering dirujuk sebagai rantai pemikiran, atau CoT) mungkin tidak sentiasa mencerminkan proses penaakulan sebenar model. Para penyelidik mendapati bahawa model sering mengeksploitasi petunjuk luaran, seperti isyarat eksplisit yang dimasukkan ke dalam gesaan untuk membimbing mereka ke arah jawapan yang betul, tetapi jarang mengakui atau menyebut petunjuk ini dalam langkah penaakulan eksplisit mereka. Percanggahan antara tingkah laku dalaman model dan penjelasan luarannya menimbulkan kebimbangan tentang kebolehpercayaan menggunakan CoT sebagai alat yang boleh dipercayai untuk kebolehterimaan model dan memastikan keselamatan.
Malah OpenAI telah mengeluarkan laporan penyelidikan yang menyerlahkan kecenderungan model penaakulan lanjutan untuk terlibat dalam "penggodaman ganjaran." Penggodaman ganjaran merujuk kepada situasi di mana ejen AI mengeksploitasi kelemahan yang tidak dijangka atau akibat yang tidak diingini dalam objektif yang ditakrifkan mereka untuk memaksimumkan ganjaran dengan cara yang tidak pada asalnya dimaksudkan atau diingini. OpenAI telah meneroka strategi untuk mengurangkan ini, seperti menggunakan model yang kurang berkuasa (GPT-4o) untuk memantau model yang lebih kukuh seperti o3-Mini, walaupun ini memperkenalkan kerumitan dan potensi berat sebelahnya sendiri.
Nat McAleese, ahli kakitangan teknikal di OpenAI, menekankan bahawa "model penaakulan yang besar sangat baik dalam penggodaman ganjaran," memetik contoh yang dipilih sendiri daripada laporan untuk menggambarkan perkara ini.
"Terdapat banyak pertindihan dalam rantai penaakulan; mereka bercanggah antara satu sama lain, dan terdapat banyak soalan yang tidak dijawab," komen Behl. "Tetapi, ia adalah ruang yang berkembang. Jika kita boleh menyelesaikan ini sebagai sebuah komuniti dan memahami cara model berfikir, akan ada banyak keuntungan." Masa depan model penaakulan bergantung pada menangani cabaran ini melalui penyelidikan dan kerjasama berterusan dalam komuniti AI.