Menguji Batas: Evolusi Tolok Ukur AI

Kemunculan model bahasa besar (LLM) seperti GPT-4 OpenAI dan Llama-3 Meta, bersama dengan model penalaran yang lebih baru seperti o1 dan DeepSeek-R1, tidak dapat disangkal telah mendorong batasan dari apa yang dapat dicapai oleh kecerdasan buatan. Namun, bahkan dengan kemajuan ini, rintangan yang signifikan tetap ada, terutama dalam menangani bidang pengetahuan khusus. Model-model ini, meskipun mengesankan dalam banyak hal, sering kali tersandung ketika dihadapkan dengan kerumitan dan nuansa domain tertentu. Keterbatasan ini menggarisbawahi kebutuhan kritis untuk evaluasi sistem AI yang cermat dan spesifik konteks, terutama saat mereka bertransisi dari LLM dasar ke sistem yang lebih otonom dan agentik.

Tolok Ukur Spesifik Domain dan Industri

Benchmarking memainkan peran penting dalam penilaian LLM, menyediakan metode terstruktur untuk mengevaluasi kekuatan dan kelemahan di berbagai aplikasi. Tolok ukur yang dibangun dengan baik memberi pengembang cara yang efisien dan hemat biaya untuk melacak kemajuan model, mengidentifikasi area untuk perbaikan, dan membandingkan kinerja dengan model lain. Sementara bidang ini telah melihat kemajuan substansial dalam menciptakan tolok ukur untuk kemampuan LLM umum, masih ada kesenjangan yang mencolok dalam domain khusus. Domain-domain ini, yang mencakup bidang-bidang seperti akuntansi, keuangan, kedokteran, hukum, fisika, ilmu alam, dan pengembangan perangkat lunak, menuntut tingkat pengetahuan yang mendalam dan memerlukan metode evaluasi yang kuat yang sering kali melampaui cakupan tolok ukur tujuan umum.

Misalnya, bahkan matematika tingkat universitas, area yang tampaknya fundamental, tidak dinilai secara memadai oleh tolok ukur umum yang ada. Ini sering berfokus pada masalah yang belum sempurna atau tugas yang sangat menantang, seperti yang ditemukan dalam kompetisi tingkat Olimpiade. Ini meninggalkan kekosongan dalam mengevaluasi matematika terapan yang relevan dengan kurikulum universitas dan aplikasi dunia nyata.

Untuk mengatasi kesenjangan ini, tolok ukur khusus, U-MATH, dikembangkan untuk memberikan penilaian komprehensif tentang kemampuan matematika tingkat universitas. Tes yang dilakukan menggunakan tolok ukur ini pada LLM terkemuka, termasuk o1 dan R1, menghasilkan wawasan yang menarik. Hasilnya jelas menunjukkan bahwa sistem penalaran menempati kategori yang berbeda. o1 OpenAI memimpin, berhasil memecahkan 77,2% tugas, diikuti oleh DeepSeek R1 pada 73,7%. Khususnya, kinerja R1 pada U-MATH tertinggal di belakang o1, berbeda dengan skornya yang lebih tinggi pada tolok ukur matematika lainnya seperti AIME dan MATH-500. Model berkinerja terbaik lainnya menunjukkan kesenjangan kinerja yang signifikan, dengan Gemini 1.5 Pro memecahkan 60% tugas dan GPT-4 mencapai 43%. Menariknya, model yang lebih kecil dan khusus matematika dari keluarga Qwen 2.5 Math juga menunjukkan hasil yang kompetitif.

Temuan ini memiliki implikasi praktis yang signifikan untuk pengambilan keputusan. Tolok ukur khusus domain memberdayakan para insinyur untuk memahami bagaimana model yang berbeda bekerja dalam konteks spesifik mereka. Untuk domain khusus yang tidak memiliki tolok ukur yang andal, tim pengembangan dapat melakukan evaluasi sendiri atau berkolaborasi dengan mitra data untuk membuat tolok ukur khusus. Tolok ukur khusus ini kemudian dapat digunakan untuk membandingkan model mereka dengan model lain dan untuk terus menilai versi model baru setelah iterasi fine-tuning. Pendekatan yang disesuaikan ini memastikan bahwa proses evaluasi relevan langsung dengan aplikasi yang dimaksud, memberikan wawasan yang lebih bermakna daripada tolok ukur umum.

Tolok Ukur Keamanan

Pentingnya keamanan dalam sistem AI tidak dapat dilebih-lebihkan, dan gelombang baru tolok ukur muncul untuk mengatasi aspek kritis ini. Tolok ukur ini bertujuan untuk membuat evaluasi keamanan lebih mudah diakses dan terstandarisasi. Salah satu contohnya adalah AILuminate, alat yang dirancang untuk menilai risiko keamanan LLM tujuan umum. AILuminate mengevaluasi kecenderungan model untuk mendukung perilaku berbahaya di seluruh spektrum 12 kategori, yang mencakup kejahatan kekerasan, pelanggaran privasi, dan area perhatian lainnya. Alat ini memberikan skor 5 poin, mulai dari ‘Buruk’ hingga ‘Sangat Baik,’ untuk setiap kategori. Skor ini memungkinkan pengambil keputusan untuk membandingkan model dan mendapatkan pemahaman yang lebih jelas tentang risiko keamanan relatif mereka.

Sementara AILuminate mewakili langkah maju yang signifikan sebagai salah satu tolok ukur keamanan tujuan umum yang paling komprehensif yang tersedia, ia tidak menyelidiki risiko individu yang terkait dengan domain atau industri tertentu. Karena solusi AI menjadi semakin terintegrasi ke dalam berbagai sektor, perusahaan menyadari perlunya evaluasi keamanan yang lebih bertarget. Ada permintaan yang meningkat untuk keahlian eksternal dalam penilaian keamanan yang memberikan pemahaman yang lebih dalam tentang bagaimana LLM bekerja dalam konteks khusus. Ini memastikan bahwa sistem AI memenuhi persyaratan keamanan unik dari audiens dan kasus penggunaan tertentu, mengurangi potensi risiko dan menumbuhkan kepercayaan.

Tolok Ukur Agen AI

Pertumbuhan agen AI yang diantisipasi di tahun-tahun mendatang mendorong pengembangan tolok ukur khusus yang disesuaikan dengan kemampuan unik mereka. Agen AI adalah sistem otonom yang dapat menafsirkan lingkungannya, membuat keputusan berdasarkan informasi, dan melakukan tindakan untuk mencapai tujuan tertentu. Contohnya termasuk asisten virtual di smartphone yang memproses perintah suara, menjawab pertanyaan, dan melakukan tugas seperti menjadwalkan pengingat atau mengirim pesan.

Tolok ukur untuk agen AI harus melampaui sekadar mengevaluasi kemampuan LLM yang mendasarinya. Mereka perlu mengukur seberapa baik agen-agen ini beroperasi dalam skenario praktis dan dunia nyata yang selaras dengan domain dan aplikasi yang dimaksudkan. Kriteria kinerja untuk asisten SDM, misalnya, akan berbeda secara signifikan dari kriteria untuk agen perawatan kesehatan yang mendiagnosis kondisi medis, yang mencerminkan tingkat risiko yang berbeda-beda yang terkait dengan setiap aplikasi.

Kerangka kerja benchmarking yang kuat akan sangat penting dalam menyediakan alternatif yang lebih cepat dan lebih terukur untuk evaluasi manusia. Kerangka kerja ini akan memungkinkan pengambil keputusan untuk menguji sistem agen AI secara efisien setelah tolok ukur ditetapkan untuk kasus penggunaan tertentu. Skalabilitas ini penting untuk mengimbangi kemajuan pesat dalam teknologi agen AI.

Benchmarking Adalah Proses Adaptif

Benchmarking berfungsi sebagai landasan dalam memahami kinerja dunia nyata dari model bahasa besar. Selama beberapa tahun terakhir, fokus benchmarking telah berkembang dari menguji kemampuan umum hingga menilai kinerja di area tertentu, termasuk pengetahuan industri khusus, keamanan, dan kemampuan agen.

Seiring sistem AI terus maju, metodologi benchmarking harus beradaptasi agar tetap relevan dan efektif. Tolok ukur yang sangat kompleks, seperti Humanity’s Last Exam dan FrontierMath, telah menarik perhatian signifikan dalam industri, menyoroti fakta bahwa LLM masih jauh dari keahlian manusia pada pertanyaan yang menantang. Namun, tolok ukur ini tidak memberikan gambaran yang lengkap.

Keberhasilan dalam masalah yang sangat kompleks tidak selalu berarti kinerja tinggi dalam aplikasi praktis. Tolok ukur GAIA untuk asisten AI umum menunjukkan bahwa sistem AI canggih mungkin unggul dalam pertanyaan yang menantang sambil berjuang dengan tugas yang lebih sederhana. Oleh karena itu, ketika mengevaluasi sistem AI untuk penerapan di dunia nyata, sangat penting untuk memilih tolok ukur dengan hati-hati yang selaras dengan konteks spesifik aplikasi. Ini memastikan bahwa proses evaluasi secara akurat mencerminkan kemampuan dan keterbatasan sistem di lingkungan yang dimaksud. Pengembangan dan penyempurnaan tolok ukur yang berkelanjutan sangat penting untuk memastikan bahwa sistem AI dapat diandalkan, aman, dan bermanfaat di berbagai industri dan aplikasi.