Memikirkan Kembali Tolok Ukur AI: Pencarian Pengukuran Bermakna

Tujuan untuk kecerdasan buatan (AI) yang unggul seringkali didorong oleh skor tolok ukur, tetapi apakah skor-skor ini benar-benar menunjukkan kemampuan dunia nyata? Komunitas AI bergulat dengan pertanyaan ini karena tolok ukur tradisional menghadapi pengawasan yang meningkat.

SWE-Bench, yang diperkenalkan pada November 2024, dengan cepat mendapatkan daya tarik sebagai alat populer untuk menilai kemampuan pengkodean model AI. Ia memanfaatkan lebih dari 2.000 tantangan pemrograman otentik yang diekstraksi dari repositori GitHub publik di selusin proyek berbasis Python. Skor SWE-Bench yang kuat telah menjadi lencana yang didambakan, ditampilkan secara mencolok dalam rilis model utama dari pengembang AI terkemuka seperti OpenAI, Anthropic, dan Google. Di luar raksasa ini, perusahaan AI yang berspesialisasi dalam penyempurnaan terus bersaing untuk supremasi di papan peringkat SWE-Bench.

Namun, semangat seputar tolok ukur ini mungkin menyesatkan. John Yang, seorang peneliti di Princeton University yang terlibat dalam pengembangan SWE-Bench, mencatat bahwa persaingan ketat untuk posisi teratas telah menyebabkan "permainan" sistem. Hal ini menimbulkan kekhawatiran tentang apakah tolok ukur ini secara akurat mencerminkan pencapaian AI yang sebenarnya.

Masalahnya bukanlah kecurangan yang terang-terangan, melainkan pengembangan strategi yang secara khusus disesuaikan untuk mengeksploitasi keterbatasan tolok ukur. Misalnya, SWE-Bench awal hanya berfokus pada kode Python, mendorong pengembang untuk melatih model mereka secara eksklusif pada Python. Yang mengamati bahwa model-model dengan skor tinggi ini seringkali gagal ketika dihadapkan dengan bahasa pemrograman yang berbeda, mengungkap pemahaman dangkal yang ia gambarkan sebagai "berlapis emas."

"Awalnya terlihat bagus dan mengkilap, tetapi kemudian Anda mencoba menjalankannya pada bahasa yang berbeda dan semuanya berantakan," jelas Yang. "Pada titik itu, Anda tidak merancang agen rekayasa perangkat lunak. Anda merancang untuk membuat agen SWE-Bench, yang jauh kurang menarik."

"Masalah SWE-Bench" ini mencerminkan tantangan yang lebih luas dalam evaluasi AI. Tolok ukur, yang dulunya dianggap sebagai indikator kemajuan yang andal, semakin terpisah dari kemampuan dunia nyata. Memperburuk masalah, kekhawatiran tentang transparansi telah muncul, semakin mengikis kepercayaan pada metrik ini. Terlepas dari masalah ini, tolok ukur terus memainkan peran penting dalam pengembangan model, meskipun banyak ahli mempertanyakan nilai inherennya. Pendiri OpenAI, Andrej Karpathy, bahkan menyebut situasi saat ini sebagai "krisis evaluasi," menyesalkan kurangnya metode tepercaya untuk mengukur kemampuan AI dan tidak adanya jalur yang jelas ke depan.

Vanessa Parli, direktur penelitian di Institute for Human-Centered AI Universitas Stanford, bertanya, "Secara historis, tolok ukur adalah cara kami mengevaluasi sistem AI. Apakah itu cara yang kita inginkan untuk mengevaluasi sistem ke depan? Dan jika tidak, apa caranya?"

Sejumlah akademisi dan peneliti AI yang berkembang mendukung pendekatan yang lebih terfokus, mengambil inspirasi dari ilmu sosial. Mereka mengusulkan untuk memprioritaskan "validitas," sebuah konsep sentral dalam ilmu sosial kuantitatif, yang menilai seberapa baik alat pengukuran secara akurat menangkap konstruk yang dimaksud. Penekanan pada validitas ini dapat menantang tolok ukur yang mengevaluasi konsep yang didefinisikan secara samar seperti "penalaran" atau "pengetahuan ilmiah." Meskipun mungkin meredam pengejaran kecerdasan umum buatan (AGI), itu akan memberikan dasar yang lebih kuat untuk mengevaluasi model individu.

Abigail Jacobs, seorang profesor di Universitas Michigan dan suara terkemuka dalam dorongan untuk validitas, menegaskan, "Mengambil validitas dengan serius berarti meminta orang-orang di akademisi, industri, atau di mana pun untuk menunjukkan bahwa sistem mereka melakukan apa yang mereka katakan. Saya pikir itu menunjukkan kelemahan di dunia AI jika mereka ingin mundur dari menunjukkan bahwa mereka dapat mendukung klaim mereka."

Batasan Pengujian Tradisional

Ketergantungan industri AI pada tolok ukur berasal dari keberhasilan masa lalu mereka, khususnya dalam tantangan seperti ImageNet.

ImageNet, yang diluncurkan pada tahun 2010, menyajikan kepada para peneliti database lebih dari 3 juta gambar yang dikategorikan ke dalam 1.000 kelas yang berbeda. Tantangannya adalah agnostik metode, memungkinkan setiap algoritma yang berhasil untuk mendapatkan kredibilitas terlepas dari pendekatan yang mendasarinya. Terobosan AlexNet pada tahun 2012, yang menggunakan bentuk pelatihan GPU yang tidak konvensional, menjadi landasan AI modern. Sementara hanya sedikit yang dapat memperkirakan bahwa jaringan saraf konvolusional AlexNet akan membuka pengenalan gambar, skor tingginya membungkam keraguan apa pun. (Khususnya, salah satu pengembang AlexNet kemudian menjadi salah satu pendiri OpenAI.)

Efektivitas ImageNet berasal dari keselarasan yang erat antara tantangan dan tugas pengenalan gambar dunia nyata. Bahkan dengan perdebatan tentang metode, model dengan skor tertinggi selalu menunjukkan kinerja yang unggul dalam aplikasi praktis.

Namun, dalam tahun-tahun sejak itu, peneliti AI telah menerapkan pendekatan agnostik metode yang sama ini ke tugas-tugas yang semakin umum. SWE-Bench, misalnya, sering digunakan sebagai proksi untuk kemampuan pengkodean yang lebih luas, sementara tolok ukur gaya ujian lainnya digunakan untuk mengukur kemampuan penalaran. Ruang lingkup yang luas ini membuatnya sulit untuk secara ketat mendefinisikan apa yang diukur oleh tolok ukur tertentu, menghambat interpretasi temuan yang bertanggung jawab.

Di Mana Hal-hal Rusak

Anka Reuel, seorang mahasiswa PhD di Stanford, berpendapat bahwa dorongan menuju generalitas adalah akar dari masalah evaluasi. "Kami telah beralih dari model khusus tugas ke model tujuan umum," kata Reuel. "Ini bukan tentang satu tugas lagi tetapi banyak tugas, jadi evaluasi menjadi lebih sulit."

Seperti Jacobs, Reuel percaya bahwa "masalah utama dengan tolok ukur adalah validitas, bahkan lebih dari implementasi praktis," mencatat: "Di situlah banyak hal rusak." Untuk tugas-tugas kompleks seperti pengkodean, hampir tidak mungkin untuk mencakup setiap skenario yang dapat dibayangkan dalam set masalah. Akibatnya, menjadi sulit untuk membedakan apakah skor model yang lebih tinggi mencerminkan keterampilan pengkodean yang sebenarnya atau hanya manipulasi cerdas dari set masalah. Tekanan intens untuk mencapai skor rekor semakin mendorong jalan pintas.

Pengembang berharap bahwa keberhasilan di berbagai tolok ukur tertentu akan diterjemahkan ke dalam model yang berkemampuan umum. Namun, kebangkitan AI agentik, di mana satu sistem dapat menggabungkan serangkaian model yang kompleks, membuatnya sulit untuk mengevaluasi apakah peningkatan pada tugas-tugas tertentu akan digeneralisasi. "Ada lebih banyak kenop yang dapat Anda putar," kata Sayash Kapoor, seorang ilmuwan komputer di Princeton dan seorang kritikus praktik ceroboh di industri AI. "Ketika datang ke agen, mereka telah menyerah pada praktik terbaik untuk evaluasi."

Dalam sebuah makalah yang diterbitkan Juli lalu, Kapoor menyoroti masalah khusus dengan bagaimana model AI mendekati tolok ukur WebArena pada tahun 2024, yang menguji kemampuan agen AI untuk menavigasi web. Tolok ukur terdiri dari lebih dari 800 tugas yang dilakukan di situs web kloning yang meniru Reddit, Wikipedia, dan lainnya. Kapoor dan timnya menemukan bahwa model pemenang, STeP, mengeksploitasi struktur URL Reddit untuk langsung mengakses halaman profil pengguna, persyaratan yang sering dalam tugas WebArena.

Meskipun bukan kecurangan langsung, Kapoor menganggap ini sebagai "kesalahan representasi yang serius tentang seberapa baik agen akan bekerja seandainya agen tersebut melihat tugas-tugas di WebArena untuk pertama kalinya." Terlepas dari ini, agen web OpenAI, Operator, sejak itu mengadopsi kebijakan serupa.

Lebih lanjut mengilustrasikan masalah dengan tolok ukur AI, Kapoor dan tim peneliti baru-baru ini menerbitkan sebuah makalah yang mengungkapkan masalah signifikan di Chatbot Arena, sistem evaluasi crowdsourced populer. Temuan mereka mengindikasikan bahwa papan peringkat sedang dimanipulasi, dengan beberapa model dasar teratas terlibat dalam pengujian pribadi yang tidak diungkapkan dan secara selektif merilis skor mereka.

Bahkan ImageNet, tolok ukur yang memulai semuanya, sekarang menghadapi masalah validitas. Sebuah studi tahun 2023 oleh para peneliti di Universitas Washington dan Google Research menemukan bahwa algoritma pemenang ImageNet menunjukkan "sedikit atau tidak ada kemajuan" ketika diterapkan ke enam dataset dunia nyata, menunjukkan bahwa validitas eksternal pengujian telah mencapai batasnya.

Mengecil

Untuk mengatasi masalah validitas, beberapa peneliti mengusulkan untuk menghubungkan kembali tolok ukur ke tugas-tugas tertentu. Seperti yang dikatakan Reuel, pengembang AI "harus menggunakan tolok ukur tingkat tinggi ini yang hampir tidak berarti bagi konsumen hilir, karena pengembang tolok ukur tidak dapat lagi mengantisipasi tugas hilir."

Pada November 2024, Reuel meluncurkan BetterBench, sebuah proyek peringkat publik yang mengevaluasi tolok ukur berdasarkan berbagai kriteria, termasuk kejelasan dokumentasi kode dan, yang terpenting, validitas tolok ukur dalam mengukur kemampuan yang dinyatakannya. BetterBench menantang desainer untuk dengan jelas mendefinisikan apa yang diuji oleh tolok ukur mereka dan bagaimana kaitannya dengan tugas-tugas yang terdiri dari tolok ukur.

"Anda harus memiliki rincian struktural dari kemampuan," kata Reuel. "Apa keterampilan sebenarnya yang Anda pedulikan, dan bagaimana Anda mengoperasionalkannya menjadi sesuatu yang dapat kita ukur?"

Hasilnya mengungkapkan. Arcade Learning Environment (ALE), yang didirikan pada tahun 2013 untuk menguji kemampuan model untuk belajar cara memainkan game Atari 2600, muncul sebagai salah satu tolok ukur dengan skor tertinggi. Sebaliknya, tolok ukur Massive Multitask Language Understanding (MMLU), sebuah tes yang banyak digunakan untuk keterampilan bahasa umum, menerima salah satu skor terendah karena hubungan yang kurang jelas antara pertanyaan dan keterampilan yang mendasarinya.

Sementara BetterBench belum secara signifikan memengaruhi reputasi tolok ukur tertentu, ia telah berhasil membawa validitas ke garis depan diskusi tentang cara meningkatkan tolok ukur AI. Reuel telah bergabung dengan kelompok penelitian baru yang diselenggarakan oleh Hugging Face, Universitas Edinburgh, dan EleutherAI, di mana ia akan lebih mengembangkan ide-idenya tentang validitas dan evaluasi model AI.

Irene Solaiman, kepala kebijakan global Hugging Face, mengatakan kelompok itu akan fokus membangun tolok ukur yang valid yang melampaui pengukuran kemampuan langsung. "Ada begitu banyak kelaparan untuk tolok ukur yang baik dari rak yang sudah berfungsi," kata Solaiman. "Banyak evaluasi mencoba melakukan terlalu banyak."

Industri yang lebih luas tampaknya menyatu pada pandangan ini. Dalam sebuah makalah yang diterbitkan pada bulan Maret, para peneliti dari Google, Microsoft, Anthropic, dan lainnya menguraikan kerangka kerja baru untuk meningkatkan evaluasi, dengan validitas sebagai landasan.

"Ilmu evaluasi AI harus," para peneliti berpendapat, "bergerak melampaui klaim kasar tentang ‘kecerdasan umum’ menuju ukuran kemajuan yang lebih spesifik tugas dan relevan dengan dunia nyata."

Mengukur Hal-hal yang "Lembek"

Untuk memfasilitasi perubahan ini, beberapa peneliti beralih ke alat ilmu sosial. Sebuah makalah posisi Februari berpendapat bahwa "mengevaluasi sistem GenAI adalah tantangan pengukuran ilmu sosial," secara khusus mengeksplorasi bagaimana sistem validitas ilmu sosial dapat diterapkan pada tolok ukur AI.

Para penulis, terutama dari cabang penelitian Microsoft tetapi juga termasuk akademisi dari Stanford dan Universitas Michigan, menunjuk pada standar yang digunakan ilmuwan sosial untuk mengukur konsep-konsep yang diperdebatkan seperti ideologi, demokrasi, dan bias media. Diterapkan pada tolok ukur AI, prosedur yang sama ini dapat memberikan cara untuk mengukur konsep-konsep seperti "penalaran" dan "kemahiran matematika" tanpa menggunakan generalisasi yang kabur.

Literatur ilmu sosial menekankan pentingnya mendefinisikan secara ketat konsep yang diukur. Misalnya, tes yang dirancang untuk mengukur tingkat demokrasi dalam suatu masyarakat harus terlebih dahulu menetapkan definisi yang jelas tentang "masyarakat demokratis" dan kemudian merumuskan pertanyaan yang relevan dengan definisi itu.

Untuk menerapkan ini pada tolok ukur seperti SWE-Bench, desainer perlu meninggalkan pendekatan pembelajaran mesin tradisional untuk mengumpulkan masalah pemrograman dari GitHub dan membuat skema untuk memvalidasi jawaban. Sebaliknya, mereka pertama-tama akan mendefinisikan apa yang ingin diukur oleh tolok ukur (misalnya, "kemampuan untuk menyelesaikan masalah yang ditandai dalam perangkat lunak"), memecahnya menjadi subketerampilan (misalnya, berbagai jenis masalah atau struktur program), dan kemudian menyusun pertanyaan yang secara akurat mencakup subketerampilan tersebut.

Bagi para peneliti seperti Jacobs, pergeseran mendalam dari bagaimana peneliti AI biasanya mendekati tolok ukur inilah intinya. "Ada ketidakcocokan antara apa yang terjadi di industri teknologi dan alat-alat dari ilmu sosial ini," katanya. "Kami memiliki puluhan tahun dan puluhan tahun berpikir tentang bagaimana kami ingin mengukur hal-hal lembek tentang manusia ini."

Meskipun dampak yang semakin besar dari ide-ide ini di komunitas penelitian, pengaruh mereka pada bagaimana perusahaan AI benar-benar menggunakan tolok ukur telah lambat.

Rilis model terbaru dari OpenAI, Anthropic, Google, dan Meta terus sangat bergantung pada tolok ukur pengetahuan pilihan ganda seperti MMLU, pendekatan yang justru coba dihindari oleh para peneliti validitas. Rilis model, sebagian besar, masih berfokus pada demonstrasi peningkatan kecerdasan umum, dan tolok ukur luas digunakan untuk mendukung klaim ini.

Beberapa pengamat menganggap ini memuaskan. Profesor Wharton, Ethan Mollick, menyarankan bahwa tolok ukur, meskipun "ukuran yang buruk dari hal-hal, juga yang kita miliki." Dia menambahkan, "Pada saat yang sama, model-model itu semakin baik. Banyak dosa dimaafkan oleh kemajuan pesat."

Untuk saat ini, fokus industri yang telah lama ada pada kecerdasan umum buatan tampaknya membayangi pendekatan yang lebih terfokus dan berbasis validitas. Selama model AI terus maju dalam kecerdasan umum, aplikasi spesifik tampak kurang menarik, bahkan jika praktisi menggunakan alat yang tidak lagi mereka percayai sepenuhnya.

"Ini adalah tali ketat yang kita jalani," kata Solaiman dari Hugging Face. "Terlalu mudah untuk membuang sistem, tetapi evaluasi sangat membantu dalam memahami model kita, bahkan dengan batasan-batasan ini."