Skala dan Cakupan GPT-4.5
GPT-4.5 merepresentasikan upaya OpenAI yang paling ambisius hingga saat ini dalam hal ukuran. Meskipun detail pasti mengenai arsitektur dan data pelatihannya masih langka, diketahui bahwa proses pelatihannya sangat intensif secara komputasi sehingga memerlukan distribusi di beberapa pusat data. Ini saja mengisyaratkan sumber daya monumental yang dicurahkan untuk pengembangannya.
Struktur harga model ini semakin menggarisbawahi posisinya sebagai penawaran premium. Biayanya jauh lebih tinggi daripada pendahulunya, melebihi GPT-4o dengan faktor 15-30X, o1 dengan 3-5X, dan Claude 3.7 Sonnet dengan 10-25X. Akses saat ini dibatasi untuk pelanggan ChatGPT Pro (dengan biaya $200 per bulan) dan klien API yang bersedia membayar berdasarkan per-token.
Namun, peningkatan kinerja, setidaknya di beberapa area, belum cukup sesuai dengan label harganya. Tolok ukur awal mengungkapkan hanya peningkatan sederhana dibandingkan GPT-4o dan bahkan menunjukkan GPT-4.5 tertinggal di belakang model seperti o1 dan o3-mini dalam tugas penalaran.
Memahami Tujuan GPT-4.5
Penting untuk diketahui bahwa OpenAI tidak pernah secara eksplisit memasarkan GPT-4.5 sebagai model andalannya yang serba guna. Faktanya, versi awal dari posting blog mereka mengklarifikasi bahwa itu tidak dimaksudkan untuk menjadi ‘model perbatasan’ yang mendorong batas-batas absolut kemampuan. Selain itu, model ini tidak dirancang terutama sebagai model penalaran, membuat perbandingan langsung dengan model yang dioptimalkan untuk tujuan itu (seperti o3 dan DeepSeek-R1) agak menyesatkan.
OpenAI telah mengindikasikan bahwa GPT-4.5 akan menjadi model non-chain-of-thought terakhirnya. Ini berarti pelatihannya sangat berfokus pada penyematan sejumlah besar pengetahuan dunia dan penyelarasan dengan preferensi pengguna, daripada mengembangkan kemampuan penalaran yang kompleks.
Di Mana GPT-4.5 Mungkin Bersinar: Pengetahuan dan Nuansa
Keunggulan utama model yang lebih besar seringkali terletak pada kapasitasnya yang diperluas untuk akuisisi pengetahuan. GPT-4.5, sejalan dengan prinsip ini, menunjukkan kecenderungan yang berkurang untuk berhalusinasi dibandingkan dengan model yang lebih kecil. Ini membuatnya berpotensi berharga dalam skenario di mana kepatuhan yang ketat terhadap fakta dan informasi kontekstual sangat penting.
Selain itu, GPT-4.5 menunjukkan kemampuan yang ditingkatkan untuk mengikuti instruksi dan preferensi pengguna. Ini telah dipamerkan dalam berbagai demonstrasi oleh OpenAI dan dikuatkan oleh pengalaman pengguna yang dibagikan secara online. Model ini tampaknya memahami nuansa maksud pengguna dengan lebih efektif, menghasilkan output yang lebih disesuaikan dan relevan.
Perdebatan tentang Kualitas Prosa: Subjektivitas dan Potensi
Diskusi yang hidup telah muncul mengenai kemampuan GPT-4.5 untuk menghasilkan prosa yang unggul. Beberapa eksekutif OpenAI telah memuji kualitas output model, dengan CEO Sam Altman bahkan menyarankan bahwa berinteraksi dengannya memberikan sekilas ‘AGI’ (Artificial General Intelligence) untuk beberapa penguji yang cerdas.
Namun, reaksi yang lebih luas sangat beragam. Co-founder OpenAI, Andrej Karpathy, mengantisipasi peningkatan dalam tugas-tugas yang kurang bergantung pada penalaran murni, menekankan area-area seperti ‘EQ’ (kecerdasan emosional), kreativitas, pembuatan analogi, dan humor – aspek-aspek yang seringkali terhambat oleh pengetahuan dunia dan pemahaman umum.
Menariknya, survei selanjutnya yang dilakukan oleh Karpathy mengungkapkan preferensi umum pengguna untuk respons GPT-4o daripada GPT-4.5 dalam hal kualitas penulisan. Ini menyoroti subjektivitas yang melekat dalam mengevaluasi prosa dan menunjukkan bahwa rekayasa prompt yang terampil dapat memperoleh kualitas yang sebanding dari model yang lebih kecil dan lebih efisien.
Karpathy sendiri mengakui ambiguitas hasil, menyarankan berbagai kemungkinan penjelasan: penguji ‘bercita rasa tinggi’ mungkin merasakan peningkatan struktural halus yang terlewatkan oleh orang lain, contoh yang diuji mungkin tidak ideal, atau perbedaannya mungkin terlalu halus untuk dilihat dalam ukuran sampel yang kecil.
Batasan Penskalaan dan Masa Depan LLM
Peluncuran GPT-4.5, dalam beberapa hal, menggarisbawahi potensi keterbatasan dari sekadar meningkatkan model yang dilatih pada dataset besar. Ilya Sutskever, co-founder OpenAI lainnya dan mantan kepala ilmuwan, dengan terkenal menyatakan di NeurIPS 2024 bahwa ‘pra-pelatihan seperti yang kita ketahui tidak diragukan lagi akan berakhir… Kita telah mencapai puncak data dan tidak akan ada lagi. Kita harus berurusan dengan data yang kita miliki. Hanya ada satu internet.’
Pengembalian yang semakin berkurang yang diamati dengan GPT-4.5 berfungsi sebagai bukti tantangan penskalaan model tujuan umum yang dilatih terutama pada data internet dan disesuaikan untuk penyelarasan melalui pembelajaran penguatan dari umpan balik manusia (RLHF).
Batas berikutnya untuk large language models tampaknya adalah penskalaan waktu pengujian (atau penskalaan waktu inferensi). Ini melibatkan pelatihan model untuk ‘berpikir’ untuk durasi yang lebih lama dengan menghasilkan token chain-of-thought (CoT). Penskalaan waktu pengujian meningkatkan kemampuan model untuk mengatasi masalah penalaran yang kompleks dan telah menjadi faktor kunci dalam keberhasilan model seperti o1 dan R1.
Bukan Kegagalan, tapi Fondasi
Meskipun GPT-4.5 mungkin bukan pilihan optimal untuk setiap tugas, penting untuk mengenali peran potensialnya sebagai elemen dasar untuk kemajuan di masa depan. Basis pengetahuan yang kuat sangat penting untuk pengembangan model penalaran yang lebih canggih.
Bahkan jika GPT-4.5 itu sendiri tidak menjadi model yang digunakan untuk sebagian besar aplikasi, ia dapat berfungsi sebagai blok bangunan penting untuk model penalaran berikutnya. Bahkan masuk akal bahwa itu sudah digunakan dalam model seperti o3.
Seperti yang dijelaskan oleh Mark Chen, Chief Research Officer OpenAI, ‘Anda membutuhkan pengetahuan untuk membangun penalaran di atasnya. Sebuah model tidak bisa masuk secara membabi buta dan hanya belajar penalaran dari awal. Jadi kami menemukan kedua paradigma ini cukup saling melengkapi, dan kami pikir mereka memiliki umpan balik satu sama lain.’
Oleh karena itu, pengembangan GPT-4.5 bukanlah jalan buntu, melainkan langkah strategis dalam evolusi large language models yang sedang berlangsung. Ini adalah bukti sifat iteratif dari penelitian AI, di mana setiap langkah, bahkan jika tampaknya tidak memuaskan secara terpisah, berkontribusi pada kemajuan yang lebih luas menuju sistem AI yang lebih mampu dan serbaguna. Fokusnya sekarang bergeser ke arah memanfaatkan fondasi pengetahuan yang kuat ini untuk membangun model yang tidak hanya dapat mengingat informasi tetapi juga bernalar dan memecahkan masalah dengan efektivitas yang belum pernah terjadi sebelumnya. Perjalanan menuju AI yang benar-benar cerdas terus berlanjut, dan GPT-4.5, terlepas dari penerimaannya yang beragam, memainkan peran penting dalam perjalanan itu.
Fokusnya sekarang bukan hanya pada seberapa banyak yang diketahui model, tetapi seberapa baik ia dapat menggunakan pengetahuan itu. Ini adalah tantangan inti yang sedang dihadapi oleh komunitas AI, dan GPT-4.5, meskipun bukan solusi yang sempurna, memberikan wawasan berharga dan fondasi yang kuat untuk terobosan di masa depan. Jalan ke depan melibatkan kombinasi pendekatan: menyempurnakan teknik yang ada, mengeksplorasi arsitektur baru, dan mengembangkan metode yang lebih canggih untuk pelatihan dan evaluasi. Tujuan utamanya tetap sama: untuk menciptakan sistem AI yang tidak hanya dapat memahami dan menghasilkan bahasa manusia tetapi juga bernalar, belajar, dan beradaptasi dengan cara yang dulunya dianggap sebagai domain eksklusif kecerdasan manusia.