Memikir Semula Penanda Aras AI: Usaha Pengukuran Bermakna

Pencarian kecerdasan buatan (AI) yang unggul sering kali didorong oleh skor penanda aras, tetapi adakah skor-skor ini benar-benar menunjukkan keupayaan dunia sebenar? Komuniti AI sedang bergelut dengan persoalan ini kerana penanda aras tradisional menghadapi penelitian yang semakin meningkat.

SWE-Bench, yang diperkenalkan pada November 2024, dengan cepat mendapat tarikan sebagai alat yang popular untuk menilai kehebatan pengekodan model AI. Ia memanfaatkan lebih daripada 2,000 cabaran pengaturcaraan asli yang diekstrak daripada repositori GitHub awam merentasi sedozen projek berasaskan Python. Skor SWE-Bench yang kukuh telah menjadi lencana yang didambakan, yang dipaparkan dengan jelas dalam keluaran model utama daripada pembangun AI terkemuka seperti OpenAI, Anthropic, dan Google. Di luar gergasi ini, firma AI yang pakar dalam penalaan halus sentiasa bersaing untuk penguasaan di papan pendahulu SWE-Bench.

Walau bagaimanapun, keghairahan di sekeliling penanda aras ini mungkin mengelirukan. John Yang, seorang penyelidik di Princeton University yang terlibat dalam pembangunan SWE-Bench, menyatakan bahawa persaingan sengit untuk tempat teratas telah membawa kepada “permainan” sistem. Ini menimbulkan kebimbangan tentang sama ada penanda aras ini mencerminkan dengan tepat pencapaian AI yang tulen.

Isu ini tidak semestinya penipuan secara terang-terangan, tetapi lebih kepada pembangunan strategi yang direka khusus untuk mengeksploitasi batasan penanda aras. Sebagai contoh, SWE-Bench awal memberi tumpuan semata-mata pada kod Python, mendorong pembangun untuk melatih model mereka secara eksklusif pada Python. Yang memerhatikan bahawa model-model yang mendapat skor tinggi ini sering kali goyah apabila berhadapan dengan bahasa pengaturcaraan yang berbeza, mendedahkan pemahaman yang cetek yang beliau gambarkan sebagai “disadur.”

"Ia kelihatan bagus dan berkilat pada pandangan pertama, tetapi kemudian anda cuba menjalankannya pada bahasa yang berbeza dan semuanya runtuh," jelas Yang. "Pada ketika itu, anda tidak mereka bentuk ejen kejuruteraan perisian. Anda mereka bentuk untuk membuat ejen SWE-Bench, yang kurang menarik."

"Isu SWE-Bench" ini mencerminkan cabaran yang lebih luas dalam penilaian AI. Penanda aras, yang dahulunya dianggap sebagai penunjuk kemajuan yang boleh dipercayai, semakin terpisah daripada keupayaan dunia sebenar. Memburukkan lagi masalah ini, kebimbangan tentang ketelusan telah timbul, yang seterusnya menghakis kepercayaan terhadap metrik ini. Walaupun terdapat isu-isu ini, penanda aras terus memainkan peranan penting dalam pembangunan model, walaupun ramai pakar mempersoalkan nilai intrinsik mereka. Pengasas bersama OpenAI, Andrej Karpathy, malah menggelar keadaan semasa sebagai "krisis penilaian," meratapi kekurangan kaedah yang dipercayai untuk mengukur keupayaan AI dan ketiadaan laluan yang jelas ke hadapan.

Vanessa Parli, pengarah penyelidikan di Institut AI Berpusatkan Manusia Universiti Stanford, bertanya, "Dari segi sejarah, penanda aras adalah cara kami menilai sistem AI. Adakah itu cara kami mahu menilai sistem pada masa hadapan? Dan jika tidak, apakah caranya?"

Kontinjen akademik dan penyelidik AI yang semakin meningkat menyokong pendekatan yang lebih fokus, dengan mengambil inspirasi daripada sains sosial. Mereka mencadangkan mengutamakan "kesahan," konsep yang penting kepada sains sosial kuantitatif, yang menilai sejauh mana alat pengukuran menangkap dengan tepat konstruk yang dimaksudkan. Penekanan pada kesahan ini boleh mencabar penanda aras yang menilai konsep yang kurang jelas seperti "penaakulan" atau "pengetahuan saintifik." Walaupun ia mungkin meredakan usaha kecerdasan umum buatan (AGI), ia akan menyediakan asas yang lebih kukuh untuk menilai model individu.

Abigail Jacobs, seorang profesor di University of Michigan dan suara utama dalam usaha untuk kesahan, menegaskan, "Mengambil kesahan dengan serius bermakna meminta orang dalam bidang akademik, industri, atau di mana sahaja untuk menunjukkan bahawa sistem mereka melakukan apa yang mereka katakan. Saya fikir ia menunjukkan kelemahan dalam dunia AI jika mereka mahu berundur daripada menunjukkan bahawa mereka boleh menyokong tuntutan mereka."

Had Ujian Tradisional

Kebergantungan industri AI pada penanda aras berpunca daripada kejayaan masa lalu mereka, terutamanya dalam cabaran seperti ImageNet.

ImageNet, yang dilancarkan pada tahun 2010, membentangkan penyelidik dengan pangkalan data lebih 3 juta imej yang dikategorikan ke dalam 1,000 kelas yang berbeza. Cabarannya adalah agnostik kaedah, membenarkan mana-mana algoritma yang berjaya untuk mendapatkan kredibiliti tanpa mengira pendekatan yang mendasarinya. Kejayaan AlexNet pada tahun 2012, yang menggunakan bentuk latihan GPU yang tidak konvensional, menjadi asas AI moden. Walaupun sedikit yang dapat meramalkan bahawa rangkaian saraf konvolusi AlexNet akan membuka kunci pengecaman imej, skor tingginya membungkam sebarang keraguan. (Terutamanya, salah seorang pembangun AlexNet kemudiannya menjadi pengasas bersama OpenAI.)

Keberkesanan ImageNet berpunca daripada penjajaran yang rapat antara cabaran dan tugas pengecaman imej dunia sebenar. Walaupun dengan perdebatan tentang kaedah, model yang mendapat skor tertinggi sentiasa menunjukkan prestasi yang unggul dalam aplikasi praktikal.

Walau bagaimanapun, dalam tahun-tahun sejak itu, penyelidik AI telah menggunakan pendekatan agnostik kaedah yang sama ini kepada tugas yang semakin umum. SWE-Bench, sebagai contoh, sering digunakan sebagai proksi untuk keupayaan pengekodan yang lebih luas, manakala penanda aras gaya peperiksaan yang lain digunakan untuk mengukur keupayaan penaakulan. Skop yang luas ini menyukarkan untuk mentakrifkan dengan ketat apa yang diukur oleh penanda aras tertentu, menghalang tafsiran yang bertanggungjawab terhadap penemuan.

Di Mana Perkara Runtuh

Anka Reuel, seorang pelajar PhD di Stanford, berpendapat bahawa usaha ke arah keumuman adalah punca masalah penilaian. "Kami telah beralih daripada model khusus tugas kepada model tujuan umum," kata Reuel. "Ia bukan lagi tentang satu tugas tetapi sekumpulan tugas, jadi penilaian menjadi lebih sukar."

Seperti Jacobs, Reuel percaya bahawa "isu utama dengan penanda aras adalah kesahan, malah lebih daripada pelaksanaan praktikal," sambil menyatakan: "Di situlah banyak perkara runtuh." Untuk tugas yang kompleks seperti pengekodan, hampir mustahil untuk merangkumi setiap senario yang boleh dibayangkan dalam set masalah. Akibatnya, menjadi sukar untuk membezakan sama ada skor model yang lebih tinggi mencerminkan kemahiran pengekodan yang tulen atau hanya manipulasi pintar set masalah. Tekanan yang kuat untuk mencapai skor rekod seterusnya mendorong jalan pintas.

Pembangun berharap kejayaan merentasi pelbagai penanda aras khusus akan diterjemahkan kepada model yang berkebolehan secara umum. Walau bagaimanapun, kebangkitan AI beragentik, di mana sistem tunggal boleh menggabungkan pelbagai model yang kompleks, menyukarkan untuk menilai sama ada peningkatan pada tugas tertentu akan umum. "Terdapat lebih banyak tombol yang boleh anda putar," kata Sayash Kapoor, seorang saintis komputer di Princeton dan pengkritik amalan cuai dalam industri AI. "Apabila ia datang kepada ejen, mereka telah menyerah kalah pada amalan terbaik untuk penilaian."

Dalam kertas kerja yang diterbitkan pada Julai lalu, Kapoor menyerlahkan isu khusus dengan cara model AI mendekati penanda aras WebArena pada tahun 2024, yang menguji keupayaan ejen AI untuk menavigasi web. Penanda aras ini terdiri daripada lebih 800 tugas yang dilakukan di laman web klon yang meniru Reddit, Wikipedia, dan lain-lain. Kapoor dan pasukannya mendapati bahawa model yang menang, STeP, mengeksploitasi struktur URL Reddit untuk terus mengakses halaman profil pengguna, keperluan yang kerap dalam tugas WebArena.

Walaupun bukan penipuan secara terang-terangan, Kapoor menganggap ini sebagai "salah nyata yang serius tentang sejauh mana ejen akan berfungsi sekiranya ia melihat tugas dalam WebArena untuk kali pertama." Walaupun begitu, ejen web OpenAI, Operator, sejak itu telah menerima pakai dasar yang sama.

Selanjutnya menggambarkan masalah dengan penanda aras AI, Kapoor dan pasukan penyelidik baru-baru ini menerbitkan kertas kerja yang mendedahkan isu ketara dalam Chatbot Arena, sistem penilaian penyumberan luar yang popular. Penemuan mereka menunjukkan bahawa papan pendahulu sedang dimanipulasi, dengan beberapa model asas teratas terlibat dalam ujian peribadi yang tidak didedahkan dan mengeluarkan skor mereka secara selektif.

Malah ImageNet, penanda aras yang memulakan semuanya, kini menghadapi masalah kesahan. Kajian 2023 oleh penyelidik di University of Washington dan Google Research mendapati bahawa algoritma pemenang ImageNet menunjukkan "sedikit atau tiada kemajuan" apabila digunakan pada enam set data dunia sebenar, menunjukkan bahawa kesahan luaran ujian telah mencapai hadnya.

Pergi Lebih Kecil

Untuk menangani masalah kesahan, sesetengah penyelidik mencadangkan menyambungkan semula penanda aras kepada tugas tertentu. Seperti yang dinyatakan oleh Reuel, pembangun AI "terpaksa menggunakan penanda aras peringkat tinggi ini yang hampir tidak bermakna bagi pengguna hiliran, kerana pembangun penanda aras tidak dapat menjangkakan tugas hiliran lagi."

Pada November 2024, Reuel melancarkan BetterBench, projek kedudukan awam yang menilai penanda aras berdasarkan pelbagai kriteria, termasuk kejelasan dokumentasi kod dan, yang penting, kesahan penanda aras dalam mengukur keupayaan yang dinyatakan. BetterBench mencabar pereka untuk mentakrifkan dengan jelas apa yang diuji oleh penanda aras mereka dan bagaimana ia berkaitan dengan tugas yang terdiri daripada penanda aras.

"Anda perlu mempunyai pecahan struktur keupayaan," kata Reuel. "Apakah kemahiran sebenar yang anda peduli, dan bagaimana anda mengoperasikannya menjadi sesuatu yang boleh kita ukur?"

Keputusan mendedahkan. Persekitaran Pembelajaran Arked (ALE), yang ditubuhkan pada tahun 2013 untuk menguji keupayaan model untuk belajar cara bermain permainan Atari 2600, muncul sebagai salah satu penanda aras yang mendapat skor tertinggi. Sebaliknya, penanda aras Pemahaman Bahasa Pelbagai Tugas Besar-besaran (MMLU), ujian yang digunakan secara meluas untuk kemahiran bahasa umum, menerima salah satu skor terendah disebabkan oleh hubungan yang kurang jelas antara soalan dan kemahiran yang mendasarinya.

Walaupun BetterBench belum memberi kesan yang ketara kepada reputasi penanda aras tertentu, ia telah berjaya membawa kesahan ke barisan hadapan perbincangan tentang cara meningkatkan penanda aras AI. Reuel telah menyertai kumpulan penyelidik baharu yang dihoskan oleh Hugging Face, University of Edinburgh, dan EleutherAI, di mana beliau akan mengembangkan lagi idea beliau tentang kesahan dan penilaian model AI.

Irene Solaiman, ketua dasar global Hugging Face, berkata kumpulan itu akan memberi tumpuan kepada membina penanda aras yang sah yang melangkaui pengukuran keupayaan yang mudah. "Terdapat begitu banyak kelaparan untuk penanda aras yang baik dari rak yang sudah berfungsi," kata Solaiman. "Banyak penilaian cuba melakukan terlalu banyak."

Industri yang lebih luas nampaknya menumpu pada pandangan ini. Dalam kertas kerja yang diterbitkan pada bulan Mac, penyelidik dari Google, Microsoft, Anthropic, dan lain-lain menggariskan rangka kerja baharu untuk meningkatkan penilaian, dengan kesahan sebagai asasnya.

"Sains penilaian AI mesti," kata penyelidik, "bergerak melangkaui tuntutan bergred kasar tentang ‘kecerdasan umum’ ke arah ukuran kemajuan yang lebih khusus tugas dan relevan dunia sebenar."

Mengukur Perkara \"Squishy\"

Untuk memudahkan peralihan ini, sesetengah penyelidik beralih kepada alat sains sosial. Kertas kedudukan Februari berpendapat bahawa "menilai sistem GenAI adalah cabaran pengukuran sains sosial," khususnya meneroka cara sistem kesahan sains sosial boleh digunakan untuk penanda aras AI.

Penulis, terutamanya daripada cawangan penyelidikan Microsoft tetapi juga termasuk ahli akademik dari Stanford dan University of Michigan, menunjuk kepada piawaian yang digunakan oleh saintis sosial untuk mengukur konsep yang dipertikaikan seperti ideologi, demokrasi, dan berat sebelah media. Digunakan untuk penanda aras AI, prosedur yang sama ini boleh menyediakan cara untuk mengukur konsep seperti "penaakulan" dan "kemahiran matematik" tanpa menggunakan generalisasi yang kabur.

Kesusasteraan sains sosial menekankan kepentingan mentakrifkan dengan ketat konsep yang diukur. Sebagai contoh, ujian yang direka untuk mengukur tahap demokrasi dalam masyarakat mesti terlebih dahulu mewujudkan definisi yang jelas tentang "masyarakat demokratik" dan kemudian merumuskan soalan yang berkaitan dengan definisi itu.

Untuk menerapkan ini pada penanda aras seperti SWE-Bench, pereka bentuk perlu meninggalkan pendekatan pembelajaran mesin tradisional untuk mengumpul masalah pengaturcaraan daripada GitHub dan mencipta skim untuk mengesahkan jawapan. Sebaliknya, mereka akan terlebih dahulu mentakrifkan apa yang ingin diukur oleh penanda aras (contohnya, "keupayaan untuk menyelesaikan isu yang ditandakan dalam perisian"), memecahkannya kepada subkemahiran (contohnya, jenis masalah atau struktur program yang berbeza), dan kemudian membina soalan yang merangkumi subkemahiran tersebut dengan tepat.

Bagi penyelidik seperti Jacobs, peralihan mendalam ini daripada cara penyelidik AI biasanya mendekati penanda aras adalah tepat pada masanya. "Terdapat ketidakpadanan antara apa yang berlaku dalam industri teknologi dan alat-alat dari sains sosial ini," katanya. "Kami mempunyai dekad demi dekad pemikiran tentang bagaimana kami mahu mengukur perkara-perkara yang "squishy" tentang manusia ini."

Walaupun kesan idea-idea ini yang semakin meningkat dalam komuniti penyelidikan, pengaruh mereka terhadap cara syarikat AI sebenarnya menggunakan penanda aras adalah perlahan.

Keluaran model baru-baru ini daripada OpenAI, Anthropic, Google, dan Meta terus bergantung sangat pada penanda aras pengetahuan aneka pilihan seperti MMLU, pendekatan yang mana penyelidik kesahan cuba untuk melangkaui. Keluaran model, sebahagian besarnya, masih memberi tumpuan kepada menunjukkan peningkatan dalam kecerdasan umum, dan penanda aras yang luas digunakan untuk menyokong tuntutan ini.

Sesetengah pemerhati mendapati ini memuaskan. Profesor Wharton, Ethan Mollick mencadangkan bahawa penanda aras, walaupun "ukuran yang buruk tentang sesuatu, juga adalah apa yang kita ada." Beliau menambah, "Pada masa yang sama, model-model menjadi lebih baik. Banyak dosa diampunkan oleh kemajuan pesat."

Buat masa ini, tumpuan industri yang telah lama wujud pada kecerdasan umum buatan nampaknya membayangi pendekatan yang lebih fokus dan berasaskan kesahan. Selagi model AI terus maju dalam kecerdasan umum, aplikasi khusus nampaknya kurang menarik, walaupun pengamal menggunakan alat yang mereka tidak lagi percayai sepenuhnya.

"Ini adalah tali ketat yang kita jalani," kata Solaiman dari Hugging Face. "Terlalu mudah untuk membuang sistem itu, tetapi penilaian sangat membantu dalam memahami model kita, walaupun dengan batasan ini."