GPT-4.5 OpenAI: Peningkatan Mahal?

Peningkatan Performa: Tinjauan Lebih Dekat

Benchmark internal OpenAI menunjukkan bahwa GPT-4.5 memang mengungguli GPT-4o di beberapa area utama. Salah satu peningkatan penting adalah performanya pada tes MMMLU (pengetahuan umum) multibahasa. GPT-4.5 mencapai skor 85,1%, melampaui 81,5% milik GPT-4o. Ini menunjukkan pemahaman pengetahuan umum yang lebih luas dan lebih dalam di berbagai bahasa.

Selain tes terstandarisasi, OpenAI mengklaim bahwa GPT-4.5 menunjukkan pengurangan ‘konfabulasi’, yang lebih dikenal sebagai halusinasi. Ini berarti model tersebut cenderung tidak menghasilkan informasi yang salah atau menyesatkan, sebuah kemajuan penting untuk aplikasi yang membutuhkan akurasi faktual. Lebih sedikit contoh respons yang dibuat-buat menandai langkah menuju keandalan yang lebih besar.

Pengalaman pengguna juga mengalami peningkatan, meskipun sedikit. Evaluasi OpenAI menunjukkan bahwa pengguna lebih menyukai respons GPT-4.5 daripada GPT-4o di sekitar 57% interaksi. Meskipun bukan kemenangan telak, preferensi ini menunjukkan peningkatan nyata dalam kualitas dan relevansi keseluruhan output model. Interaksi terasa lebih alami dan selaras dengan harapan pengguna.

Lompatan signifikan lainnya terlihat pada Simple QA Accuracy. Di sini, GPT-4.5 mendapat skor 62,5%, peningkatan substansial dari 38,2% milik GPT-4o. Ini menunjukkan peningkatan yang nyata dalam kemampuan model untuk memberikan jawaban yang akurat atas pertanyaan langsung, menampilkan peningkatan pemahaman dan kemampuan pengambilan.

Kecerdasan Emosional: Interaksi yang Lebih Mirip Manusia

GPT-4.5 membedakan dirinya tidak hanya melalui metrik kinerja mentah, tetapi juga melalui peningkatan kecerdasan emosional (EQ). Model ini dirancang untuk mengadopsi nada yang lebih alami dan empatik, membuat interaksi terasa kurang robotik dan lebih menarik. Ini adalah langkah signifikan menuju penciptaan AI yang terasa lebih mirip manusia dalam komunikasinya.

  • Nada Alami: Percakapan mengalir lebih lancar, dengan respons yang lebih baik meniru pola percakapan manusia.
  • Respons Empatik: Model ini menunjukkan kapasitas yang lebih besar untuk memahami dan merespons nada emosional percakapan.
  • Interaksi yang Menarik: Pengalaman keseluruhan dirancang agar lebih menawan, menarik perhatian pengguna dan mendorong interaksi yang lebih positif.

Peningkatan EQ ini membuat GPT-4.5 sangat cocok untuk aplikasi di mana interaksi seperti manusia sangat penting. Layanan pelanggan, asisten virtual, dan bahkan aplikasi terapeutik dapat memperoleh manfaat dari pendekatan yang lebih bernuansa dan cerdas secara emosional ini.

Selain itu, GPT-4.5 unggul dalam ‘steerability’. Ini mengacu pada kemampuan model untuk menafsirkan dan menanggapi prompt yang bernuansa dengan presisi yang lebih besar. Pengguna telah mengamati bahwa GPT-4.5 menunjukkan pemahaman yang lebih kuat tentang kehalusan, memungkinkannya untuk menangani kueri yang kompleks atau ambigu dengan lebih efektif. Ia dapat lebih baik membedakan maksud yang mendasari sebuah pertanyaan, yang mengarah ke respons yang lebih relevan dan bermanfaat.

Gajah di Dalam Ruangan: Kekhawatiran Harga

Terlepas dari kemajuannya, harga GPT-4.5 telah menjadi poin perdebatan utama. Meskipun menawarkan peningkatan dibandingkan GPT-4o, perbedaan biayanya cukup besar. Untuk pemrosesan input, GPT-4.5 kira-kira 30 kali lebih mahal, dan untuk pembuatan output, 15 kali lebih mahal. Model penetapan harga ini menimbulkan pertanyaan serius tentang proposisi nilai model baru.

Masalah intinya adalah salah satu diminishing returns. Sementara GPT-4.5 tidak diragukan lagi lebih besar dan lebih kompleks daripada pendahulunya, peningkatan kinerja tampaknya tidak berskala secara proporsional dengan kenaikan biaya. Perbedaan ini telah menyebabkan banyak orang di komunitas AI mempertanyakan apakah keuntungan marjinal membenarkan kenaikan harga yang eksponensial.

Harga yang mahal memiliki implikasi yang signifikan untuk aksesibilitas. Banyak pengembang, terutama mereka yang bekerja secara independen atau untuk bisnis kecil, mungkin menganggap GPT-4.5 tidak terjangkau. Ini menciptakan penghalang untuk masuk, berpotensi menghambat inovasi dan membatasi adopsi teknologi secara luas.

Pertimbangkan contoh praktis: meringkas novel 300.000 kata (kira-kira 450.000 token) dan menghasilkan laporan analisis 50.000 token. Dengan GPT-4.5, tugas ini akan menelan biaya sekitar $41,25. Tugas yang sama menggunakan GPT-4 akan menelan biaya hanya $1,6. Perbedaan mencolok ini menyoroti beban keuangan yang diberikan GPT-4.5 kepada pengguna, terutama untuk proyek berskala besar.

Strategi penetapan harga ini menimbulkan kekhawatiran tentang keterjangkauan dan inklusivitas dalam lanskap pengembangan AI. Entitas yang lebih kecil dan peneliti individu mungkin terpaksa memilih alternatif yang lebih murah, meskipun kurang kuat, yang berpotensi menghambat kemampuan mereka untuk bersaing dengan organisasi yang lebih besar yang mampu membayar biaya premium.

Kemampuan Penalaran: Sebuah Pekerjaan yang Sedang Berlangsung

Sementara GPT-4.5 menampilkan kemajuan di beberapa area, penting untuk mengakui keterbatasannya. Model ini dikembangkan menggunakan pretraining, supervised fine-tuning, dan Reinforcement Learning from Human Feedback (RLHF). Namun, model ini belum dioptimalkan untuk tugas penalaran tingkat lanjut.

Ini berarti bahwa rilis saat ini tidak membawa peningkatan yang signifikan dalam domain yang sangat bergantung pada keterampilan penalaran yang kuat, seperti matematika dan pengkodean. Area ini membutuhkan tingkat deduksi logis dan pemecahan masalah yang lebih dalam yang belum sepenuhnya dimiliki oleh GPT-4.5, dalam keadaannya saat ini.

Untuk tugas yang menuntut kemampuan penalaran yang kuat, GPT-4o tetap menjadi model terdepan. Tampaknya strategi OpenAI melibatkan pendekatan bertahap, dengan rilis awal GPT-4.5 berfokus pada area seperti pengetahuan umum, pengalaman pengguna, dan kecerdasan emosional. Perusahaan kemungkinan akan mengalihkan fokusnya untuk menerapkan pelatihan RL tambahan ke GPT-4.5 secara khusus untuk meningkatkan kemampuan penalarannya dalam iterasi berikutnya. Ini menunjukkan komitmen untuk perbaikan berkelanjutan, dengan pembaruan di masa mendatang yang berpotensi mengatasi keterbatasan saat ini dalam tugas-tugas yang intensif penalaran.
Harapannya adalah bahwa peningkatan di masa depan akan mempersempit kesenjangan, yang pada akhirnya memposisikan GPT-4.5 sebagai pemimpin dalam aplikasi berbasis penalaran juga.

Keseluruhan:

Peluncuran GPT-4.5 menghadirkan gambaran yang kompleks. Ini menampilkan kemajuan di area tertentu, terutama dalam hal pengalaman pengguna dan kecerdasan emosional. Namun, model penetapan harga menimbulkan kekhawatiran yang signifikan tentang aksesibilitas dan proposisi nilai secara keseluruhan. Sementara model tersebut mewakili langkah maju, efektivitas biayanya tetap menjadi bahan perdebatan dalam komunitas AI. Keterbatasan dalam kemampuan penalaran juga menyoroti proses pengembangan yang sedang berlangsung, dengan pembaruan di masa mendatang diharapkan dapat mengatasi kekurangan ini. Lintasan GPT-4.5 akan bergantung pada bagaimana OpenAI menavigasi keseimbangan antara kinerja, biaya, dan aksesibilitas, yang pada akhirnya menentukan dampaknya pada lanskap AI yang lebih luas.