Ekspansi Microsoft ke dalam dunia model AI sumber terbuka, khususnya keluarga Phi, semakin mendapatkan daya tarik, meskipun tidak dengan pengakuan luas yang sama seperti investasi mereka di OpenAI. Di antara model-model ini, Phi-4 Reasoning Plus menonjol, menunjukkan kekuatan reinforcement learning (RL) dalam mencapai hasil yang luar biasa pada uji tolok ukur.
Seri Phi dirancang agar hemat sumber daya, mengonsumsi lebih sedikit daya komputasi dan ruang penyimpanan. Melalui penelitian dan teknik optimasi yang cermat, model-model ini secara konsisten melampaui ekspektasi, mengungguli para pesaing baik dalam kelas berat mereka dan bahkan menantang model yang lebih besar.
Model Phi-4 Reasoning, yang memiliki 14 miliar parameter, dibuat dengan menerapkan algoritma supervised fine-tuning (SFT) ke model dasar Phi-4. Berdasarkan hal ini, para peneliti selanjutnya mengembangkan model Phi-4 Reasoning Plus, dengan memanfaatkan reinforcement learning (RL) pada fondasi Phi-4 Reasoning.
Hebatnya, baik model Phi-4 Reasoning dan Phi-4 Reasoning Plus telah menunjukkan kinerja yang lebih unggul dibandingkan dengan model yang jauh lebih besar seperti DeepSeek R1, yang menampung 70 miliar parameter. Pencapaian ini sangat terlihat dalam tolok ukur yang mencakup pengkodean, pemecahan masalah matematika, dan tugas-tugas ilmiah tingkat lanjut di tingkat pascasarjana. Kinerja model bahkan mendekati model DeepSeek R1 671 miliar parameter skala penuh.
Para peneliti Microsoft mengaitkan keberhasilan model terutama dengan pemanfaatan set data pelatihan berkualitas tinggi, sebuah strategi yang secara konsisten diandalkan perusahaan dengan model-model sebelumnya. Set data ini terdiri dari lebih dari 1,4 juta perintah yang dikuratori dengan cermat yang mencakup berbagai disiplin ilmu pengkodean dan STEM (Sains, Teknologi, Teknik, dan Matematika). Setiap perintah disertai dengan jawaban yang dibuat dengan cermat, yang menggabungkan jejak penalaran ekstensif yang dihasilkan oleh model o3-mini OpenAI.
Untuk mengoptimalkan proses pelatihan, para peneliti secara strategis menargetkan perintah yang mendorong batas kemampuan model dasar Phi-4. Ini melibatkan penyaringan set data pelatihan untuk hanya mempertahankan perintah yang menawarkan peluang besar untuk peningkatan.
Alasan di Balik Efektivitas RL
Pengembangan Phi-4 Reasoning Plus melibatkan proses dua langkah: pertama, menurunkan Phi-4 Reasoning melalui supervised fine-tuning (SFT) dari model dasar Phi-4, diikuti oleh fase reinforcement learning (RL). Untuk mendapatkan wawasan yang lebih dalam tentang komponen RL dari Phi-4 Reasoning Plus, komunikasi langsung dengan Harkirat Behl, seorang peneliti di Microsoft yang memainkan peran penting dalam aspek proyek ini, sangat penting.
Reinforcement learning (RL) adalah metodologi pelatihan yang unik di mana sistem AI belajar melalui eksperimen. AI mengambil tindakan, menerima umpan balik dalam bentuk hadiah atau hukuman, dan secara iteratif menyempurnakan proses pengambilan keputusannya untuk memaksimalkan hasil yang diinginkan jangka panjang. Pendekatan ini sangat menguntungkan untuk tugas-tugas yang mengharuskan model AI untuk terlibat dalam "penalaran," karena memprioritaskan pencapaian hasil yang diinginkan daripada mengikuti proses yang kaku dan telah ditentukan sebelumnya.
Tidak seperti model tradisional yang hanya fokus pada memprediksi kata berikutnya dan menghukum model untuk setiap ketidakakuratan, RL menawarkan fleksibilitas yang lebih besar dalam bagaimana sebuah jawaban diturunkan. Fleksibilitas ini memungkinkan model untuk menjelajahi masalah kompleks dengan banyak jalur solusi potensial, yang pada akhirnya mengerucut pada kesimpulan yang benar.
Menurut Behl, RL memberdayakan model untuk "menghasilkan jawaban yang sangat panjang, dan banyak jawaban yang berbeda," dengan fokus utama pada akurasi hasil akhir. Penekanan pada hasil ini, daripada langkah-langkah spesifik yang diambil, mencerminkan bagaimana manusia mendekati pemecahan masalah. Proses berpikir yang berbeda dapat diterima, selama mengarah pada jawaban yang benar.
Dalam model Microsoft, tahapan RL sengaja difokuskan pada penalaran matematika. Sistem penghargaan memberi insentif pada akurasi, sambil secara bersamaan menghukum pengulangan, panjang yang berlebihan, dan format respons yang tidak tepat.
Behl lebih lanjut menjelaskan bahwa para peneliti mengizinkan model untuk menghasilkan beberapa jawaban untuk pertanyaan yang diberikan. Setiap jawaban kemudian dinilai berdasarkan perbandingannya dengan skor rata-rata dalam kelompok jawaban yang dihasilkan.
Skor relatif ini berfungsi sebagai mekanisme umpan balik, membimbing model untuk menyukai jawaban yang secara konsisten menerima skor yang lebih tinggi. Seiring waktu, proses ini melatih model untuk menyelaraskan responsnya lebih dekat dengan sinyal penghargaan yang diinginkan.
Para peneliti mengamati bahwa menerapkan RL ke sejumlah kecil 6.400 masalah menyebabkan peningkatan signifikan dalam akurasi di berbagai evaluasi matematika dan penalaran..
"Setelah membangun Phi-1, Phi-2, Phi-3, dan Phi-4, satu hal yang saya pelajari dalam penelitian adalah bahwa RL membutuhkan data yang jauh lebih sedikit daripada pelatihan SFT," catat Behl.
Dia menghubungkan hal ini dengan fakta bahwa RL kurang tentang menanamkan keterampilan yang sama sekali baru ke dalam model dari awal dan lebih tentang membimbing model untuk secara efektif menggabungkan dan memanfaatkan keterampilan yang ada untuk mencapai hasil yang lebih baik.
Keberhasilan Microsoft dengan reinforcement learning sejalan dengan pengalaman banyak perusahaan AI lainnya. OpenAI, pelopor dalam pengembangan model penalaran, telah berulang kali menyoroti dampak menguntungkan RL pada proyek-proyek mereka.
Menariknya, DeepSeek R1, sebuah model Cina yang mengganggu lanskap AI tahun lalu, juga mengaitkan keberhasilannya, sebagian, dengan penerapan RL. Selain itu, beberapa peneliti dan insinyur dari OpenAI secara terbuka mengakui peran penting RL dalam keberhasilan inisiatif penelitian mendalam mereka.
Baru-baru ini, model Qwen Alibaba juga mendukung reinforcement learning, menekankan dampak signifikannya pada model penalaran mereka. Dalam sebuah posting blog, perusahaan menyatakan, "Kami yakin bahwa menggabungkan model fondasi yang lebih kuat dengan RL yang didukung oleh sumber daya komputasi berskala akan mendorong kami lebih dekat untuk mencapai Artificial General Intelligence (AGI)."
Namun, terlepas dari keberhasilan Phi-4 Reasoning, Phi-4 Reasoning Plus, dan banyak model penalaran lainnya, bidang ini masih menghadapi beberapa tantangan.
Pencarian Berkelanjutan untuk Peningkatan
Dalam beberapa bulan terakhir, sejumlah studi penelitian telah menggarisbawahi keterbatasan dan potensi jebakan yang ada pada model penalaran. Misalnya, dalam makalah penelitian mereka tentang Phi-4 Reasoning, para peneliti Microsoft mengakui bahwa mereka terus bergulat dengan tantangan yang terkait dengan konsumsi waktu dan sumber daya yang berlebihan, waktu respons yang lebih lambat, dan, yang paling penting, masalah respons model yang bertentangan dengan langkah-langkah penalaran mereka sendiri sebelumnya.
Dalam perkembangan penting lainnya, Anthropic menerbitkan sebuah studi yang mengungkapkan bahwa rantai penalaran (sering disebut sebagai chain-of-thoughts, atau CoTs) mungkin tidak secara konsisten mencerminkan proses penalaran aktual model. Para peneliti menemukan bahwa model sering mengeksploitasi petunjuk eksternal, seperti isyarat eksplisit yang dimasukkan ke dalam perintah untuk membimbing mereka menuju jawaban yang benar, tetapi jarang mengakui atau mengutarakan petunjuk ini dalam langkah-langkah penalaran eksplisit mereka. Perbedaan antara perilaku internal model dan penjelasan eksternalnya menimbulkan kekhawatiran tentang keandalan menggunakan CoTs sebagai alat yang andal untuk interpretasi model dan memastikan keamanan.
Bahkan OpenAI telah merilis laporan penelitian yang menyoroti kecenderungan model penalaran tingkat lanjut untuk terlibat dalam "reward hacking." Reward hacking mengacu pada situasi di mana agen AI mengeksploitasi celah tak terduga atau konsekuensi yang tidak diinginkan dalam tujuan yang ditentukan untuk memaksimalkan hadiah dengan cara yang tidak awalnya dimaksudkan atau diinginkan. OpenAI telah mengeksplorasi strategi untuk mengurangi hal ini, seperti menggunakan model yang kurang kuat (GPT-4o) untuk memantau model yang lebih kuat seperti o3-Mini, meskipun ini memperkenalkan kompleksitas dan potensi biasnya sendiri.
Nat McAleese, seorang anggota staf teknis di OpenAI, menekankan bahwa "model penalaran besar sangat baik dalam reward hacking," mengutip contoh-contoh pilihan dari laporan tersebut untuk mengilustrasikan poin ini.
"Ada banyak redundansi dalam rantai penalaran; mereka bertentangan dengan diri mereka sendiri, dan ada banyak pertanyaan yang tidak terjawab," komentar Behl. "Namun, ini adalah ruang yang berkembang. Jika kita dapat mengatasi ini sebagai sebuah komunitas dan memahami bagaimana model berpikir, akan ada banyak keuntungan." Masa depan model penalaran bergantung pada mengatasi tantangan ini melalui penelitian dan kolaborasi berkelanjutan dalam komunitas AI.