GPT-4.5 Gagal? Analisis Model OpenAI

Skala dan Skop GPT-4.5

GPT-4.5 mewakili usaha OpenAI yang paling bercita-cita tinggi setakat ini dari segi saiz. Walaupun butiran tepat mengenai seni bina dan data latihannya masih terhad, diketahui bahawa proses latihan sangat intensif dari segi pengiraan sehingga memerlukan pengedaran di pelbagai pusat data. Ini sahaja menunjukkan sumber yang besar yang dicurahkan ke dalam pembangunannya.

Struktur harga model ini juga menekankan kedudukannya sebagai tawaran premium. Kosnya jauh lebih tinggi daripada pendahulunya, melebihi GPT-4o sebanyak 15-30X, o1 sebanyak 3-5X, dan Claude 3.7 Sonnet sebanyak 10-25X. Akses kini terhad kepada pelanggan ChatGPT Pro (dengan harga $200 sebulan) dan pelanggan API yang bersedia membayar berdasarkan setiap token.

Walau bagaimanapun, peningkatan prestasi, sekurang-kurangnya dalam beberapa bidang, tidak sepadan dengan tanda harga. Penanda aras awal mendedahkan hanya peningkatan sederhana berbanding GPT-4o dan malah menunjukkan GPT-4.5 ketinggalan di belakang model seperti o1 dan o3-mini dalam tugas penaakulan.

Memahami Tujuan GPT-4.5

Adalah penting untuk mengakui bahawa OpenAI tidak pernah secara eksplisit memasarkan GPT-4.5 sebagai model utama, serba guna. Malah, versi awal catatan blog mereka menjelaskan bahawa ia tidak bertujuan untuk menjadi ‘model perbatasan’ yang menolak sempadan keupayaan mutlak. Tambahan pula, ia tidak direka terutamanya sebagai model penaakulan, menjadikan perbandingan langsung dengan model yang dioptimumkan untuk tujuan itu (seperti o3 dan DeepSeek-R1) agak mengelirukan.

OpenAI telah menunjukkan bahawa GPT-4.5 akan menjadi model bukan rantaian pemikiran (non-chain-of-thought) terakhirnya. Ini bermakna latihannya sangat tertumpu pada membenamkan sejumlah besar pengetahuan dunia dan menyelaraskan dengan keutamaan pengguna, dan bukannya membangunkan kebolehan penaakulan yang kompleks.

Di Mana GPT-4.5 Mungkin Bersinar: Pengetahuan dan Nuansa

Kelebihan utama model yang lebih besar selalunya terletak pada kapasiti yang diperluaskan untuk pemerolehan pengetahuan. GPT-4.5, selaras dengan prinsip ini, menunjukkan kecenderungan yang berkurangan untuk berhalusinasi berbanding dengan rakan sejawatannya yang lebih kecil. Ini menjadikannya berpotensi berharga dalam senario di mana pematuhan ketat terhadap fakta dan maklumat kontekstual adalah penting.

Selain itu, GPT-4.5 mempamerkan keupayaan yang dipertingkatkan untuk mengikuti arahan dan keutamaan pengguna. Ini telah dipamerkan dalam pelbagai demonstrasi oleh OpenAI dan disokong oleh pengalaman pengguna yang dikongsi dalam talian. Model ini nampaknya memahami nuansa niat pengguna dengan lebih berkesan, membawa kepada output yang lebih disesuaikan dan relevan.

Perdebatan Mengenai Kualiti Prosa: Subjektiviti dan Potensi

Perbincangan yang meriah telah muncul mengenai keupayaan GPT-4.5 untuk menjana prosa yang unggul. Beberapa eksekutif OpenAI telah memuji kualiti output model, dengan CEO Sam Altman malah mencadangkan bahawa berinteraksi dengannya memberikan gambaran ‘AGI’ (Artificial General Intelligence) untuk beberapa penguji yang arif.

Walau bagaimanapun, reaksi yang lebih luas telah bercampur-campur. Pengasas bersama OpenAI, Andrej Karpathy menjangkakan peningkatan dalam tugas yang kurang bergantung pada penaakulan tulen, menekankan bidang seperti ‘EQ’ (kecerdasan emosi), kreativiti, pembuatan analogi, dan humor – aspek yang sering disekat oleh pengetahuan dunia dan pemahaman umum.

Menariknya, tinjauan seterusnya yang dijalankan oleh Karpathy mendedahkan keutamaan pengguna umum untuk respons GPT-4o berbanding GPT-4.5 dari segi kualiti penulisan. Ini menyerlahkan subjektiviti yang wujud dalam menilai prosa dan mencadangkan bahawa kejuruteraan prompt yang mahir mungkin memperoleh kualiti yang setanding daripada model yang lebih kecil dan lebih cekap.

Karpathy sendiri mengakui kekaburan keputusan, mencadangkan pelbagai penjelasan yang mungkin: penguji ‘bercita rasa tinggi’ mungkin melihat peningkatan struktur halus yang terlepas oleh orang lain, contoh yang diuji mungkin tidak ideal, atau perbezaannya mungkin terlalu halus untuk dilihat dalam saiz sampel yang kecil.

Had Penskalaan dan Masa Depan LLM

Keluaran GPT-4.5, dalam beberapa aspek, menggariskan potensi batasan hanya meningkatkan model yang dilatih pada set data yang besar. Ilya Sutskever, seorang lagi pengasas bersama OpenAI dan bekas ketua saintis, dengan terkenal menyatakan di NeurIPS 2024 bahawa ‘pra-latihan seperti yang kita tahu akan berakhir… Kita telah mencapai data puncak dan tidak akan ada lagi. Kita perlu berurusan dengan data yang kita ada. Hanya ada satu internet.’

Pulangan berkurangan yang diperhatikan dengan GPT-4.5 berfungsi sebagai bukti cabaran penskalaan model tujuan umum yang dilatih terutamanya pada data internet dan diperhalusi untuk penjajaran melalui pembelajaran pengukuhan daripada maklum balas manusia (RLHF).

Sempadan seterusnya untuk model bahasa besar nampaknya adalah penskalaan masa ujian (atau penskalaan masa inferens). Ini melibatkan model latihan untuk ‘berfikir’ untuk tempoh yang lebih lama dengan menjana token rantaian pemikiran (CoT). Penskalaan masa ujian meningkatkan keupayaan model untuk menangani masalah penaakulan yang kompleks dan telah menjadi faktor utama dalam kejayaan model seperti o1 dan R1.

Bukan Kegagalan, tetapi Asas

Walaupun GPT-4.5 mungkin bukan pilihan optimum untuk setiap tugas, adalah penting untuk mengiktiraf potensi peranannya sebagai elemen asas untuk kemajuan masa depan. Pangkalan pengetahuan yang teguh adalah penting untuk pembangunan model penaakulan yang lebih canggih.

Walaupun GPT-4.5 sendiri tidak menjadi model pilihan untuk kebanyakan aplikasi, ia boleh berfungsi sebagai blok binaan penting untuk model penaakulan seterusnya. Malah munasabah bahawa ia sudah digunakan dalam model seperti o3.

Seperti yang dijelaskan oleh Mark Chen, Ketua Pegawai Penyelidikan OpenAI, ‘Anda memerlukan pengetahuan untuk membina penaakulan di atasnya. Model tidak boleh masuk buta dan hanya belajar penaakulan dari awal. Jadi kami mendapati kedua-dua paradigma ini agak pelengkap, dan kami fikir mereka mempunyai gelung maklum balas antara satu sama lain.’

Oleh itu, pembangunan GPT-4.5 bukanlah jalan buntu, tetapi langkah strategik dalam evolusi berterusan model bahasa besar. Ia adalah bukti sifat lelaran penyelidikan AI, di mana setiap langkah, walaupun kelihatan tidak memberangsangkan secara berasingan, menyumbang kepada kemajuan yang lebih luas ke arah sistem AI yang lebih berkebolehan dan serba boleh. Tumpuan kini beralih ke arah memanfaatkan asas pengetahuan yang kukuh ini untuk membina model yang bukan sahaja boleh mengingat maklumat tetapi juga menaakul dan menyelesaikan masalah dengan keberkesanan yang belum pernah terjadi sebelumnya. Perjalanan ke arah AI yang benar-benar pintar diteruskan, dan GPT-4.5, walaupun penerimaannya bercampur-campur, memainkan peranan penting dalam perjalanan itu.
Tumpuan kini bukan sahaja pada berapa banyak yang diketahui oleh model, tetapi sejauh mana ia boleh menggunakan pengetahuan itu. Ini adalah cabaran utama yang sedang dihadapi oleh komuniti AI, dan GPT-4.5, walaupun bukan penyelesaian yang sempurna, memberikan pandangan berharga dan asas yang kukuh untuk penemuan masa depan. Laluan ke hadapan melibatkan gabungan pendekatan: memperhalusi teknik sedia ada, meneroka seni bina baharu dan membangunkan kaedah yang lebih canggih untuk latihan dan penilaian. Matlamat utama tetap sama: untuk mencipta sistem AI yang bukan sahaja boleh memahami dan menjana bahasa manusia tetapi juga menaakul, belajar dan menyesuaikan diri dengan cara yang pernah dianggap sebagai domain eksklusif kecerdasan manusia.