Model penalaran, yang digembar-gemborkan sebagai lompatan besar berikutnya dalam evolusi model bahasa besar (LLM), telah menunjukkan kemajuan luar biasa, terutama dalam domain yang menuntut pemecahan masalah yang rumit, seperti matematika dan pemrograman komputer. Sistem canggih ini, yang dibedakan oleh fase “pelatihan penalaran” tambahan, memanfaatkan pembelajaran penguatan untuk menyempurnakan kemampuan mereka dalam mengatasi tantangan kompleks. o3 OpenAI menonjol sebagai contoh perintis, yang menunjukkan perolehan kinerja signifikan dibandingkan pendahulunya, o1, menurut evaluasi tolok ukur. Pertanyaan sentral yang sekarang membayangi bidang ini adalah keberlanjutan kemajuan ini. Dapatkah model-model ini terus maju pada tingkat yang sama hanya dengan meningkatkan kekuatan komputasi?
Epoch AI, sebuah organisasi penelitian yang berfokus pada dampak sosial kecerdasan buatan, telah mengambil tugas untuk menguraikan pertanyaan ini. Josh You, seorang analis data di Epoch AI, telah melakukan analisis komprehensif untuk menentukan tingkat investasi komputasi saat ini dalam pelatihan penalaran dan untuk menilai potensi ekspansi yang tersisa.
Lonjakan Komputasi di Balik Model Penalaran
OpenAI telah menyatakan secara publik bahwa o3 dilatih dengan sepuluh kali sumber daya komputasi yang didedikasikan untuk penalaran dibandingkan dengan o1—peningkatan substansial yang dicapai hanya dalam empat bulan. Grafik yang diproduksi OpenAI dengan jelas menggambarkan korelasi erat antara kekuatan komputasi dan kinerja pada tolok ukur matematika AIME. Epoch AI berhipotesis bahwa angka-angka ini secara khusus berkaitan dengan fase kedua pelatihan, pelatihan penalaran, daripada proses pelatihan model lengkap.
Untuk menempatkan angka-angka ini ke dalam perspektif, Epoch AI memeriksa model yang sebanding. DeepSeek-R1, misalnya, dilaporkan dilatih dengan sekitar 6e23 FLOP (operasi floating point per detik) dengan perkiraan biaya $1 juta, mencapai hasil tolok ukur yang mirip dengan o1.
Raksasa teknologi Nvidia dan Microsoft juga telah berkontribusi pada pengembangan model penalaran, menyediakan data pelatihan yang dapat diakses secara publik. Llama-Nemotron Ultra 253B Nvidia menggunakan sekitar 140.000 jam GPU H100, setara dengan sekitar 1e23 FLOP, untuk fase pelatihan penalarannya. Phi-4-reasoning Microsoft menggunakan daya komputasi yang lebih sedikit, di bawah 1e20 FLOP. Faktor penting yang membedakan model-model ini adalah ketergantungan berat mereka pada data pelatihan sintetis yang dihasilkan oleh sistem AI lainnya. Epoch AI menekankan bahwa ketergantungan ini membuat perbandingan langsung dengan model seperti o3 lebih sulit karena perbedaan inheren antara data nyata dan sintetis dan dampaknya pada pembelajaran dan generalisasi model.
Mendefinisikan "Pelatihan Penalaran": Area yang Tidak Jelas
Lapisan kompleksitas lain berasal dari kurangnya definisi “pelatihan penalaran” yang diterima secara universal. Selain pembelajaran penguatan, beberapa model menggabungkan teknik seperti penyetelan halus yang diawasi. Ambiguitas seputar komponen yang termasuk dalam perkiraan komputasi memperkenalkan inkonsistensi, membuatnya menantang untuk secara akurat membandingkan sumber daya di berbagai model.
Sampai sekarang, model penalaran masih mengkonsumsi daya komputasi yang jauh lebih sedikit daripada menjalankan pelatihan AI terluas, seperti Grok 3, yang melebihi 1e26 FLOP. Fase pelatihan penalaran kontemporer biasanya beroperasi antara 1e23 dan 1e24 FLOP, menyisakan ruang yang cukup besar untuk potensi ekspansi – atau begitulah tampaknya pada pandangan pertama.
Dario Amodei, CEO Anthropic, berbagi perspektif yang sama. Dia berpendapat bahwa investasi $1 juta dalam pelatihan penalaran dapat menghasilkan kemajuan yang signifikan. Namun, perusahaan secara aktif mencari cara untuk meningkatkan anggaran untuk fase pelatihan sekunder ini menjadi ratusan juta dolar dan lebih, yang menunjukkan masa depan di mana ekonomi pelatihan bergeser secara dramatis.
Jika tren saat ini dari peningkatan sekitar sepuluh kali lipat dalam kekuatan komputasi setiap tiga hingga lima bulan berlanjut, pelatihan penalaran komputasi berpotensi menyusul total pelatihan komputasi model terkemuka paling cepat tahun depan. Namun, Josh You mengantisipasi bahwa pertumbuhan pada akhirnya akan melambat menjadi sekitar peningkatan 4x per tahun, selaras dengan tren industri yang lebih luas. Deselerasi ini kemungkinan akan didorong oleh kombinasi faktor, termasuk berkurangnya pengembalian investasi dalam pelatihan, meningkatnya biaya sumber daya komputasi, dan keterbatasan data pelatihan yang tersedia.
Di Luar Komputasi: Hambatan di Cakrawala
Epoch AI menekankan bahwa kekuatan komputasi bukanlah satu-satunya faktor pembatas. Pelatihan penalaran membutuhkan sejumlah besar tugas berkualitas tinggi dan menantang. Memperoleh data semacam itu sulit; menghasilkannya secara sintetis bahkan lebih sulit. Masalah dengan data sintetis bukan hanya keaslian; banyak yang berpendapat kualitasnya buruk. Selain itu, efektivitas pendekatan ini di luar domain yang sangat terstruktur seperti matematika dan pemrograman komputer tetap tidak pasti. Meskipun demikian, proyek seperti “Deep Research” di ChatGPT, yang menggunakan versi o3 yang disetel khusus, menunjukkan potensi untuk penerapan yang lebih luas.
Tugas di balik layar yang padat karya, seperti memilih tugas yang sesuai, merancang fungsi hadiah, dan mengembangkan strategi pelatihan, juga menimbulkan tantangan. Biaya pengembangan ini, sering kali dikecualikan dari perkiraan komputasi, berkontribusi secara signifikan terhadap keseluruhan biaya pelatihan penalaran.
Terlepas dari tantangan ini, OpenAI dan pengembang lainnya tetap optimis. Seperti yang dicatat Epoch AI, kurva penskalaan untuk pelatihan penalaran saat ini menyerupai kemajuan log-linear klasik yang diamati dalam pra-pelatihan. Selain itu, o3 menunjukkan perolehan substansial tidak hanya dalam matematika tetapi juga dalam tugas perangkat lunak berbasis agen, yang menunjukkan potensi serbaguna dari pendekatan baru ini.
Masa depan kemajuan ini bergantung pada skalabilitas pelatihan penalaran – secara teknis, ekonomis, dan dalam hal konten. Poin-poin berikut mengeksplorasi beberapa faktor kunci yang akan menentukan masa depan model-model ini:
- Skalabilitas Teknis: Mengacu pada kemampuan untuk meningkatkan sumber daya komputasi yang digunakan dalam pelatihan tanpa menemui rintangan teknis yang tidak dapat diatasi. Ini termasuk kemajuan dalam perangkat keras, perangkat lunak, dan algoritma untuk secara efisien memanfaatkan dataset yang lebih besar dan infrastruktur komputasi yang lebih kuat. Saat model tumbuh dalam ukuran dan kompleksitas, skalabilitas teknis menjadi semakin penting untuk kemajuan berkelanjutan. Arsitektur dasar akan perlu berevolusi untuk mengimbangi skala model yang luar biasa.
- Skalabilitas Ekonomi: Melibatkan kelayakan untuk meningkatkan sumber daya komputasi dalam batasan anggaran yang wajar. Jika biaya pelatihan meningkat secara linier atau eksponensial dengan ukuran model, mungkin menjadi sangat mahal untuk mengejar perolehan lebih lanjut. Dengan demikian, pelatihan yang lebih murah dan lebih efisien mungkin diperlukan. Inovasi dalam perangkat keras dan teknik optimasi yang mengurangi biaya per FLOP sangat penting untuk skalabilitas ekonomi. Trennya adalah fokus pada model yang semakin besar tetapi dengan anggaran terbatas, insentif akan bergeser ke pelatihan model yang paling efisien.
- Skalabilitas Konten: Menyoroti ketersediaan data pelatihan berkualitas tinggi yang secara efektif dapat mendorong perolehan kemampuan penalaran. Saat model menjadi lebih canggih, dataset yang lebih sulit dan beragam diperlukan untuk menantang mereka dan mencegah overfitting. Ketersediaan dataset semacam itu terbatas, terutama dalam domain yang membutuhkan penalaran kompleks. Teknik pembuatan data sintetis dapat membantu meringankan hambatan ini, tetapi mereka harus dirancang dengan hati-hati untuk menghindari bias atau ketidakakuratan yang dapat menurunkan kinerja model.
Masa Depan Komputasi
Mudah bagi orang awam untuk berpikir bahwa kita berada di jalur komputasi tak terbatas. Namun, pada kenyataannya, itu terbatas, dan di masa depan, batasan itu mungkin menjadi lebih jelas. Di bagian ini, kita akan menjelajahi beberapa cara komputasi dapat berkembang di masa depan dan bagaimana perubahan itu akan memengaruhi industri LLM.
Komputasi Kuantum
Komputasi kuantum mewakili perubahan paradigma dalam komputasi, memanfaatkan prinsip-prinsip mekanika kuantum untuk memecahkan masalah yang tidak dapat dipecahkan oleh komputer klasik. Meskipun masih dalam tahap awal, komputasi kuantum memiliki potensi besar untuk mempercepat beban kerja AI, termasuk pelatihan model penalaran. Algoritme kuantum seperti quantum annealing dan variational quantum eigensolvers (VQEs) berpotensi mengoptimalkan parameter model lebih efisien daripada metode optimasi klasik, mengurangi sumber daya komputasi yang diperlukan untuk pelatihan. Misalnya, algoritme pembelajaran mesin kuantum dapat meningkatkan optimasi jaringan saraf yang kompleks, yang mengarah ke waktu pelatihan yang lebih cepat dan berpotensi kinerja model yang lebih baik.
Namun, tantangan signifikan tetap ada dalam meningkatkan komputer kuantum dan mengembangkan algoritme kuantum yang kuat. Teknologi ini masih sebagian besar eksperimental, dan komputer kuantum praktis dengan qubit (bit kuantum) dan waktu koherensi yang cukup belum tersedia. Selain itu, mengembangkan algoritme kuantum yang disesuaikan dengan tugas AI tertentu membutuhkan keahlian khusus dan merupakan area penelitian yang sedang berlangsung. Adopsi komputasi kuantum secara luas dalam AI tetap beberapa tahun lagi dan hanya mungkin praktis setelah komputer tersedia.
Komputasi Neuromorfik
Komputasi neuromorfik meniru struktur dan fungsi otak manusia untuk melakukan komputasi. Tidak seperti komputer tradisional yang bergantung pada logika biner dan pemrosesan sekuensial, chip neuromorfik menggunakan neuron dan sinapsis buatan untuk memproses informasi secara paralel dan hemat energi. Arsitektur ini sangat cocok untuk tugas AI yang melibatkan pengenalan pola, pembelajaran, dan adaptasi, seperti pelatihan model penalaran. Chip neuromorfik berpotensi mengurangi konsumsi energi dan latensi yang terkait dengan pelatihan model AI besar, menjadikannya lebih layak secara ekonomi dan berkelanjutan lingkungan.
Loihi Intel dan TrueNorth IBM adalah contoh chip neuromorfik yang telah menunjukkan hasil yang menjanjikan dalam aplikasi AI. Chip ini mampu melakukan tugas AI yang kompleks dengan konsumsi daya yang jauh lebih rendah dibandingkan dengan CPU dan GPU tradisional. Namun, komputasi neuromorfik masih merupakan bidang yang relatif baru, dan tantangan tetap ada dalam mengembangkan alat pemrograman yang kuat dan mengoptimalkan algoritme untuk arsitektur neuromorfik. Selain itu, ketersediaan terbatas perangkat keras neuromorfik dan kurangnya keahlian yang luas dalam komputasi neuromorfik telah menghambat adopsi teknologi ini dalam aplikasi AI arus utama.
Komputasi Analog
Komputasi analog menggunakan kuantitas fisik berkelanjutan, seperti tegangan atau arus, untuk mewakili dan memproses informasi, daripada sinyal digital diskrit. Komputer analog dapat melakukan operasi matematika tertentu, seperti persamaan diferensial dan aljabar linier, jauh lebih cepat dan lebih efisien daripada komputer digital, terutama dalam tugas-tugas yang mungkin berguna untuk penalaran. Komputasi analog dapat berguna untuk melatih model atau untuk menjalankan inferensi saat diperlukan.
Namun, komputasi analog menghadapi tantangan dalam presisi, skalabilitas, dan pemrograman. Sirkuit analog rentan terhadap kebisingan dan melayang, yang dapat menurunkan akurasi komputasi. Meningkatkan komputer analog untuk menangani model AI yang besar dan kompleks juga merupakan tantangan teknis. Selain itu, memprogram komputer analog biasanya membutuhkan keahlian khusus dan lebih sulit daripada memprogram komputer digital. Terlepas dari tantangan ini, ada minat yang berkembang dalam komputasi analog sebagai alternatif potensial untuk komputasi digital untuk aplikasi AI tertentu, khususnya yang menuntut kecepatan dan efisiensi energi tinggi.
Komputasi Terdistribusi
Komputasi terdistribusi melibatkan pendistribusian beban kerja AI di beberapa mesin atau perangkat yang terhubung melalui jaringan. Pendekatan ini memungkinkan organisasi untuk memanfaatkan kekuatan komputasi kolektif dari sejumlah besar sumber daya untuk mempercepat pelatihan dan inferensi AI. Komputasi terdistribusi sangat penting untuk melatih model bahasa besar (LLM) dan model AI kompleks lainnya yang membutuhkan dataset besar dan sumber daya komputasi.
Kerangka kerja seperti TensorFlow, PyTorch, dan Apache Spark menyediakan alat dan API untuk mendistribusikan beban kerja AI di seluruh kluster mesin. Kerangka kerja ini memungkinkan organisasi untuk meningkatkan kemampuan AI mereka dengan menambahkan lebih banyak sumber daya komputasi sesuai kebutuhan. Namun, komputasi terdistribusi memperkenalkan tantangan dalam manajemen data, overhead komunikasi, dan sinkronisasi. Secara efisien mendistribusikan data di beberapa mesin dan meminimalkan penundaan komunikasi sangat penting untuk memaksimalkan kinerja sistem AI terdistribusi. Selain itu, memastikan bahwa mesin atau perangkat yang berbeda disinkronkan dan dikoordinasikan dengan benar sangat penting untuk mencapai hasil yang akurat dan andal.
Kesimpulan
Lintasan model penalaran tidak dapat disangkal terkait dengan ketersediaan dan skalabilitas sumber daya komputasi. Sementara laju kemajuan saat ini yang didorong oleh peningkatan komputasi sangat mengesankan, beberapa faktor, termasuk kelangkaan data pelatihan berkualitas tinggi, meningkatnya biaya komputasi, dan munculnya paradigma komputasi alternatif, menunjukkan bahwa era penskalaan komputasi yang tak terkendali mungkin mendekati batasnya. Masa depan model penalaran kemungkinan akan bergantung pada kemampuan kita untuk mengatasi keterbatasan ini dan menjelajahi pendekatan baru untuk meningkatkan kemampuan AI. Dengan semua informasi ini, kita dapat berasumsi bahwa peningkatan kemampuan model penalaran mungkin segera mulai melambat karena salah satu dari banyak batasan yang dibahas.