Adakah xAI Berbohong Tentang Tanda Aras Grok 3

Melihat Lebih Dekat Kontroversi

Makmal kecerdasan buatan (AI) semakin kerap mendapati diri mereka terjerumus dalam pertikaian awam mengenai penanda aras AI, dan lebih khusus lagi, cara penanda aras ini dibentangkan kepada dunia yang lebih luas.

Baru-baru ini, seorang pekerja di OpenAI melemparkan tuduhan terhadap xAI, usaha AI Elon Musk. Dakwaannya? Bahawa xAI telah membentangkan keputusan penanda aras yang mengelirukan untuk model AI terbarunya, Grok 3. Ini mencetuskan perdebatan, dengan salah seorang pengasas bersama xAI, Igor Babushkin, dengan tegas mempertahankan kedudukan syarikat.

Realiti keadaan, seperti yang sering berlaku, terletak pada titik tengah yang lebih bernuansa.

Dalam catatan blog, xAI mempamerkan graf yang menggambarkan prestasi Grok 3 pada AIME 2025. Ini adalah satu set masalah matematik yang mencabar yang diperoleh daripada peperiksaan matematik jemputan baru-baru ini. Walaupun sesetengah pakar telah meragui kesahihan AIME sebagai penanda aras AI yang muktamad, ia, bersama-sama dengan versi ujian yang lebih lama, kekal sebagai alat yang biasa digunakan untuk menilai kehebatan matematik model.

Mentafsir Graf xAI

Graf yang dibentangkan oleh xAI memaparkan dua variasi Grok 3 – Grok 3 Reasoning Beta dan Grok 3 mini Reasoning – kelihatan mengatasi model OpenAI yang berprestasi terbaik, o3-mini-high, pada AIME 2025. Walau bagaimanapun, pekerja OpenAI cepat bertindak balas di media sosial, menyedari peninggalan yang ketara: graf xAI tidak termasuk skor AIME 2025 o3-mini-high pada “cons@64.”

Apakah sebenarnya “cons@64”? Ia adalah singkatan untuk “consensus@64,” kaedah yang pada asasnya memberikan model 64 percubaan untuk menyelesaikan setiap masalah dalam penanda aras. Jawapan yang paling kerap dijana kemudiannya dipilih sebagai jawapan akhir. Seperti yang dijangkakan, cons@64 selalunya meningkatkan skor penanda aras model dengan ketara. Mengeluarkannya daripada graf perbandingan boleh mewujudkan ilusi bahawa satu model mengatasi yang lain, padahal, sebenarnya, itu mungkin tidak berlaku.

Dakwaan “AI Terpintar di Dunia”

Apabila mempertimbangkan skor AIME 2025 pada “@1” – menunjukkan skor pertama yang dicapai oleh model pada penanda aras – kedua-dua Grok 3 Reasoning Beta dan Grok 3 mini Reasoning tidak mencapai skor o3-mini-high. Tambahan pula, Grok 3 Reasoning Beta hanya sedikit di belakang set model o1 OpenAI kepada pengkomputeran “sederhana”. Walaupun keputusan ini, xAI secara aktif mempromosikan Grok 3 sebagai “AI terpintar di dunia.”

Babushkin, menggunakan media sosial, membalas bahawa OpenAI, pada masa lalu, telah menerbitkan carta penanda aras yang mengelirukan. Walau bagaimanapun, carta tersebut digunakan untuk membandingkan prestasi model OpenAI sendiri. Pemerhati yang lebih saksama dalam perdebatan mencipta graf yang lebih “tepat”, mempamerkan prestasi hampir setiap model pada cons@64.

Metrik yang Hilang: Kos Pengiraan

Penyelidik AI Nathan Lambert menekankan perkara penting: metrik yang paling penting kekal diselubungi misteri. Ini adalah kos pengiraan (dan kewangan) yang ditanggung oleh setiap model untuk mencapai skor terbaiknya. Ini menggariskan isu asas dengan kebanyakan penanda aras AI – ia mendedahkan sangat sedikit tentang batasan model, atau dalam hal itu, kekuatannya.

Perdebatan mengenai penanda aras Grok 3 menyerlahkan isu yang lebih luas dalam komuniti AI: keperluan untuk ketelusan dan penyeragaman yang lebih besar dalam cara model AI dinilai dan dibandingkan.

Menyelidiki Lebih Dalam Penandaarasan AI

Kontroversi yang menyelubungi pembentangan xAI tentang prestasi Grok 3 menimbulkan beberapa persoalan penting tentang sifat penandaarasan AI itu sendiri. Apakah yang membentuk penanda aras yang baik? Bagaimanakah keputusan harus dibentangkan untuk mengelakkan salah tafsir? Dan apakah batasan bergantung semata-mata pada skor penanda aras untuk menilai keupayaan model AI?

Tujuan Penanda Aras:

Penanda aras, secara teori, berfungsi sebagai cara piawai untuk mengukur dan membandingkan prestasi model AI yang berbeza pada tugas tertentu. Mereka menyediakan kayu ukur yang sama, membolehkan penyelidik dan pembangun menjejaki kemajuan, mengenal pasti kekuatan dan kelemahan, dan akhirnya memacu inovasi. Walau bagaimanapun, keberkesanan penanda aras bergantung pada beberapa faktor:

  • Kerelevanan: Adakah penanda aras mencerminkan tugas dan cabaran dunia sebenar dengan tepat?
  • Komprehensif: Adakah penanda aras merangkumi pelbagai keupayaan yang berkaitan dengan penggunaan model AI yang dimaksudkan?
  • Keobjektifan: Adakah penanda aras direka dan ditadbir dengan cara yang meminimumkan berat sebelah dan memastikan perbandingan yang adil?
  • Kebolehulangan: Bolehkah keputusan penanda aras direplikasi secara konsisten oleh penyelidik bebas?

Cabaran Penandaarasan AI:

Walaupun tujuan yang dimaksudkan, penanda aras AI selalunya penuh dengan cabaran:

  • Terlalu Padan (Overfitting): Model boleh dilatih secara khusus untuk cemerlang pada penanda aras tertentu, tanpa semestinya memperoleh kecerdasan tulen atau keupayaan yang boleh digeneralisasikan. Fenomena ini, yang dikenali sebagai “terlalu padan,” boleh membawa kepada skor yang meningkat yang tidak mencerminkan prestasi dunia sebenar.
  • Kekurangan Penyeragaman: Percambahan penanda aras yang berbeza, masing-masing dengan metodologi dan sistem pemarkahan sendiri, menyukarkan untuk membandingkan keputusan merentas model dan makmal penyelidikan.
  • Mempermainkan Sistem: Seperti yang digambarkan oleh kontroversi xAI, terdapat godaan untuk syarikat membentangkan keputusan penanda aras secara terpilih dengan cara yang memihak kepada model mereka sendiri, yang berpotensi mengelirukan orang ramai dan menghalang penilaian objektif.
  • Skop Terhad: Penanda aras selalunya memfokuskan pada tugas yang sempit dan jelas, gagal menangkap kerumitan dan nuansa penuh kecerdasan manusia. Mereka mungkin tidak menilai aspek seperti kreativiti, penaakulan akal, atau kebolehsuaian kepada situasi baru dengan secukupnya.

Keperluan untuk Ketelusan dan Penilaian Holistik

Insiden Grok 3 menggariskan keperluan kritikal untuk ketelusan yang lebih besar dan pendekatan yang lebih holistik untuk menilai model AI. Hanya bergantung pada skor penanda aras tunggal, terutamanya yang dibentangkan tanpa konteks penuh, boleh menjadi sangat mengelirukan.

Melangkaui Penanda Aras:

Walaupun penanda aras boleh menjadi alat yang berguna, ia tidak seharusnya menjadi penentu tunggal keupayaan model AI. Penilaian yang lebih komprehensif harus mempertimbangkan:

  • Prestasi Dunia Sebenar: Bagaimanakah prestasi model dalam aplikasi dan senario praktikal?
  • Analisis Kualitatif: Penilaian pakar terhadap output model, menilai faktor seperti koheren, kreativiti dan keupayaan penaakulan.
  • Pertimbangan Etika: Adakah model mempamerkan berat sebelah atau menjana kandungan berbahaya?
  • Kebolehterangan: Bolehkah proses membuat keputusan model difahami dan ditafsirkan?
  • Keteguhan: Sejauh manakah model mengendalikan input yang bising atau tidak dijangka?

Menggalakkan Ketelusan:

Makmal AI harus berusaha untuk ketelusan yang lebih besar dalam amalan penandaarasan mereka. Ini termasuk:

  • Mentakrifkan Metodologi dengan Jelas: Menyediakan maklumat terperinci tentang persediaan penanda aras, termasuk set data khusus yang digunakan, metrik penilaian dan sebarang langkah prapemprosesan.
  • Melaporkan Keputusan Penuh: Membentangkan semua skor yang berkaitan, termasuk yang diperoleh menggunakan konfigurasi atau kaedah yang berbeza (seperti cons@64).
  • Mendedahkan Kos Pengiraan: Mendedahkan sumber pengiraan yang diperlukan untuk mencapai keputusan yang dilaporkan.
  • Penanda Aras Sumber Terbuka: Menjadikan set data penanda aras dan alat penilaian tersedia secara umum untuk memudahkan pengesahan dan perbandingan bebas.

Usaha kecerdasan buatan adalah bidang yang kompleks dan berkembang pesat. Penanda aras, walaupun tidak sempurna, memainkan peranan dalam mengukur kemajuan. Walau bagaimanapun, adalah penting untuk mengiktiraf had mereka dan berusaha untuk pendekatan yang lebih bernuansa dan telus untuk menilai model AI. Matlamat utama adalah untuk membangunkan sistem AI yang bukan sahaja berkuasa tetapi juga boleh dipercayai, beretika dan bermanfaat kepada masyarakat. Tumpuan mesti beralih daripada hanya mengejar skor penanda aras yang lebih tinggi kepada membina AI yang benar-benar memahami dan berinteraksi dengan dunia dengan cara yang bermakna.