Melihat Lebih Dekat Kontroversi
Baru-baru ini, seorang karyawan di OpenAI melontarkan tuduhan terhadap xAI, usaha AI Elon Musk. Klaimnya? Bahwa xAI telah menyajikan hasil benchmark yang menyesatkan untuk model AI terbarunya, Grok 3. Hal ini memicu perdebatan, dengan salah satu pendiri xAI, Igor Babushkin, dengan tegas membela posisi perusahaan.
Kenyataan dari situasi tersebut, seperti yang sering terjadi, terletak pada jalan tengah yang lebih bernuansa.
Dalam sebuah postingan blog, xAI memamerkan grafik yang menggambarkan kinerja Grok 3 pada AIME 2025. Ini adalah serangkaian soal matematika yang menantang yang berasal dari ujian matematika invitasi baru-baru ini. Sementara beberapa ahli telah meragukan validitas AIME sebagai tolok ukur AI yang definitif, AIME, bersama dengan versi tes yang lebih lama, tetap menjadi alat yang umum digunakan untuk menilai kecakapan matematika suatu model.
Membaca Grafik xAI
Grafik yang disajikan oleh xAI menampilkan dua variasi Grok 3 – Grok 3 Reasoning Beta dan Grok 3 mini Reasoning – yang tampaknya mengungguli model OpenAI yang tersedia dengan kinerja terbaik, o3-mini-high, pada AIME 2025. Namun, karyawan OpenAI dengan cepat bereaksi di media sosial, mencatat kelalaian yang mencolok: grafik xAI tidak menyertakan skor AIME 2025 o3-mini-high pada “cons@64.”
Apa sebenarnya “cons@64” itu? Ini adalah singkatan dari “consensus@64,” sebuah metode yang pada dasarnya memberi model 64 upaya untuk menyelesaikan setiap soal dalam benchmark. Jawaban yang paling sering dihasilkan kemudian dipilih sebagai jawaban akhir. Seperti yang diperkirakan, cons@64 sering kali secara signifikan meningkatkan skor benchmark model. Menghilangkannya dari grafik perbandingan dapat menciptakan ilusi bahwa satu model melampaui yang lain, padahal, itu mungkin tidak terjadi.
Klaim “AI Tercerdas di Dunia”
Ketika mempertimbangkan skor AIME 2025 pada “@1” – yang menunjukkan skor pertama yang dicapai model pada benchmark – baik Grok 3 Reasoning Beta maupun Grok 3 mini Reasoning tidak memenuhi skor o3-mini-high. Selain itu, Grok 3 Reasoning Beta hanya sedikit tertinggal di belakang model o1 OpenAI yang diatur ke komputasi “sedang”. Terlepas dari hasil ini, xAI secara aktif mempromosikan Grok 3 sebagai “AI tercerdas di dunia.”
Babushkin, melalui media sosial, membantah bahwa OpenAI, di masa lalu, telah menerbitkan grafik benchmark yang menyesatkan serupa. Namun, grafik tersebut digunakan untuk membandingkan kinerja model OpenAI sendiri. Seorang pengamat yang lebih netral dalam perdebatan membuat grafik yang lebih “akurat”, yang menampilkan kinerja hampir setiap model di cons@64.
Metrik yang Hilang: Biaya Komputasi
Peneliti AI Nathan Lambert menyoroti poin penting: metrik yang paling penting tetap diselimuti misteri. Ini adalah biaya komputasi (dan finansial) yang dikeluarkan oleh setiap model untuk mencapai skor terbaiknya. Ini menggarisbawahi masalah mendasar dengan sebagian besar tolok ukur AI – mereka mengungkapkan sangat sedikit tentang batasan model, atau dalam hal ini, kekuatannya.
Perdebatan tentang tolok ukur Grok 3 menyoroti masalah yang lebih luas dalam komunitas AI: kebutuhan akan transparansi dan standarisasi yang lebih besar dalam cara model AI dievaluasi dan dibandingkan.
Menyelami Lebih Dalam Tolok Ukur AI
Kontroversi seputar presentasi xAI tentang kinerja Grok 3 menimbulkan beberapa pertanyaan penting tentang sifat tolok ukur AI itu sendiri. Apa yang dimaksud dengan tolok ukur yang baik? Bagaimana seharusnya hasil disajikan untuk menghindari salah tafsir? Dan apa batasan mengandalkan semata-mata pada skor tolok ukur untuk menilai kemampuan model AI?
Tujuan Tolok Ukur:
Tolok ukur, secara teori, berfungsi sebagai cara standar untuk mengukur dan membandingkan kinerja model AI yang berbeda pada tugas-tugas tertentu. Mereka menyediakan tolok ukur umum, yang memungkinkan para peneliti dan pengembang untuk melacak kemajuan, mengidentifikasi kekuatan dan kelemahan, dan pada akhirnya mendorong inovasi. Namun, efektivitas tolok ukur bergantung pada beberapa faktor:
- Relevansi: Apakah tolok ukur secara akurat mencerminkan tugas dan tantangan dunia nyata?
- Kelengkapan: Apakah tolok ukur mencakup berbagai kemampuan yang relevan dengan tujuan penggunaan model AI?
- Objektivitas: Apakah tolok ukur dirancang dan dikelola dengan cara yang meminimalkan bias dan memastikan perbandingan yang adil?
- Replikabilitas: Dapatkah hasil tolok ukur direplikasi secara konsisten oleh peneliti independen?
Tantangan Tolok Ukur AI:
Terlepas dari tujuan yang dimaksudkan, tolok ukur AI seringkali penuh dengan tantangan:
- Overfitting: Model dapat dilatih secara khusus untuk unggul dalam tolok ukur tertentu, tanpa harus memperoleh kecerdasan asli atau kemampuan yang dapat digeneralisasikan. Fenomena ini, yang dikenal sebagai “overfitting,” dapat menyebabkan skor yang meningkat yang tidak mencerminkan kinerja dunia nyata.
- Kurangnya Standarisasi: Perkembangan berbagai tolok ukur, masing-masing dengan metodologi dan sistem penilaiannya sendiri, mempersulit perbandingan hasil di seluruh model dan laboratorium penelitian.
- Mempermainkan Sistem: Seperti yang diilustrasikan oleh kontroversi xAI, ada godaan bagi perusahaan untuk secara selektif menyajikan hasil tolok ukur dengan cara yang menguntungkan model mereka sendiri, yang berpotensi menyesatkan publik dan menghalangi evaluasi yang objektif.
- Ruang Lingkup Terbatas: Tolok ukur seringkali berfokus pada tugas-tugas yang sempit dan terdefinisi dengan baik, gagal menangkap kompleksitas dan nuansa kecerdasan manusia. Mereka mungkin tidak cukup menilai aspek-aspek seperti kreativitas, penalaran akal sehat, atau kemampuan beradaptasi dengan situasi baru.
Kebutuhan akan Transparansi dan Evaluasi Holistik
Insiden Grok 3 menggarisbawahi kebutuhan kritis akan transparansi yang lebih besar dan pendekatan yang lebih holistik untuk mengevaluasi model AI. Hanya mengandalkan skor tolok ukur tunggal, terutama yang disajikan tanpa konteks lengkap, bisa sangat menyesatkan.
Bergerak Melampaui Tolok Ukur:
Meskipun tolok ukur dapat menjadi alat yang berguna, tolok ukur tidak boleh menjadi satu-satunya penentu kemampuan model AI. Evaluasi yang lebih komprehensif harus mempertimbangkan:
- Kinerja Dunia Nyata: Bagaimana kinerja model dalam aplikasi dan skenario praktis?
- Analisis Kualitatif: Evaluasi ahli terhadap output model, menilai faktor-faktor seperti koherensi, kreativitas, dan kemampuan penalaran.
- Pertimbangan Etis: Apakah model menunjukkan bias atau menghasilkan konten yang berbahaya?
- Penjelasan: Dapatkah proses pengambilan keputusan model dipahami dan ditafsirkan?
- Ketahanan: Seberapa baik model menangani input yang berisik atau tidak terduga?
Mempromosikan Transparansi:
Laboratorium AI harus mengupayakan transparansi yang lebih besar dalam praktik tolok ukur mereka. Ini termasuk:
- Mendefinisikan Metodologi dengan Jelas: Memberikan informasi terperinci tentang pengaturan tolok ukur, termasuk kumpulan data spesifik yang digunakan, metrik evaluasi, dan langkah-langkah pra-pemrosesan.
- Melaporkan Hasil Lengkap: Menyajikan semua skor yang relevan, termasuk yang diperoleh dengan menggunakan konfigurasi atau metode yang berbeda (seperti cons@64).
- Mengungkapkan Biaya Komputasi: Mengungkapkan sumber daya komputasi yang diperlukan untuk mencapai hasil yang dilaporkan.
- Tolok Ukur Sumber Terbuka: Membuat kumpulan data tolok ukur dan alat evaluasi tersedia untuk umum untuk memfasilitasi verifikasi dan perbandingan independen.
Pengejaran kecerdasan buatan adalah bidang yang kompleks dan berkembang pesat. Tolok ukur, meskipun tidak sempurna, berperan dalam mengukur kemajuan. Namun, penting untuk mengenali keterbatasan mereka dan mengupayakan pendekatan yang lebih bernuansa dan transparan untuk mengevaluasi model AI. Tujuan utamanya adalah untuk mengembangkan sistem AI yang tidak hanya kuat tetapi juga andal, etis, dan bermanfaat bagi masyarakat. Fokusnya harus bergeser dari sekadar mengejar skor tolok ukur yang lebih tinggi ke membangun AI yang benar-benar memahami dan berinteraksi dengan dunia dengan cara yang bermakna.