Analisis Mendalam Model AI Terkemuka Vector Institute

Vector Institute Kanada baru-baru ini merilis temuan dari penilaian independennya terhadap model bahasa besar (LLM) terkemuka, memberikan perspektif yang tidak memihak tentang bagaimana model AI mutakhir ini diukur terhadap serangkaian tolok ukur kinerja yang komprehensif. Studi ini dengan cermat memeriksa kemampuan model-model ini melalui pengujian yang semakin menantang yang mencakup pengetahuan umum, kemahiran coding, ketahanan keamanan siber, dan domain penting lainnya. Hasilnya menawarkan wawasan penting tentang kekuatan dan keterbatasan agen AI terkemuka ini.

Maraknya Model AI dan Kebutuhan akan Tolok Ukur

Lanskap AI menyaksikan lonjakan yang belum pernah terjadi sebelumnya dalam pengembangan dan rilis LLM baru dan semakin kuat. Setiap model baru menjanjikan peningkatan kemampuan, mulai dari pembuatan teks yang lebih mirip manusia hingga kemampuan pemecahan masalah dan pengambilan keputusan yang canggih. Kemajuan pesat ini menggarisbawahi kebutuhan kritis akan tolok ukur yang diadopsi secara luas dan dipercaya untuk memastikan keamanan AI. Tolok ukur ini berfungsi sebagai alat penting bagi para peneliti, pengembang, dan pengguna, memungkinkan mereka untuk secara menyeluruh memahami karakteristik kinerja model-model ini dalam hal akurasi, keandalan, dan keadilan. Pemahaman seperti itu sangat penting untuk penerapan teknologi AI yang bertanggung jawab.

Studi Evaluasi Keadaan Vector Institute

Dalam studi ‘Evaluasi Keadaan’ yang komprehensif, tim Rekayasa AI Vector melakukan tugas mengevaluasi 11 LLM terkemuka dari berbagai penjuru dunia. Pemilihan tersebut mencakup model yang dapat diakses publik (‘terbuka’), seperti DeepSeek-R1 dan Command R+ Cohere, dan model yang tersedia secara komersial (‘tertutup’), termasuk GPT-4o OpenAI dan Gemini 1.5 dari Google. Setiap agen AI menjalani proses pengujian yang ketat yang melibatkan 16 tolok ukur kinerja yang berbeda, menjadikannya salah satu evaluasi paling lengkap dan independen yang dilakukan hingga saat ini.

Tolok Ukur Utama dan Kriteria Evaluasi

16 tolok ukur kinerja yang digunakan dalam studi ini dipilih dengan cermat untuk menilai berbagai kemampuan yang penting untuk penerapan model AI yang efektif dan bertanggung jawab. Tolok ukur ini termasuk:

  • Pengetahuan Umum: Tes yang dirancang untuk mengevaluasi kemampuan model untuk mengakses dan memanfaatkan informasi faktual di berbagai domain.
  • Kemahiran Coding: Penilaian yang mengukur kemampuan model untuk memahami, menghasilkan, dan men-debug kode dalam berbagai bahasa pemrograman.
  • Ketahanan Keamanan Siber: Evaluasi yang difokuskan untuk mengidentifikasi kerentanan dan menilai ketahanan model terhadap potensi ancaman dunia maya.
  • Penalaran dan Pemecahan Masalah: Tolok ukur yang menguji kemampuan model untuk menganalisis skenario kompleks, menarik kesimpulan logis, dan mengembangkan solusi yang efektif.
  • Pemahaman Bahasa Alami: Penilaian yang mengukur kemampuan model untuk memahami dan menafsirkan bahasa manusia, termasuk ekspresi bernuansa dan isyarat kontekstual.
  • Bias dan Keadilan: Evaluasi yang dirancang untuk mengidentifikasi dan mengurangi potensi bias dalam keluaran model, memastikan hasil yang adil dan setara untuk beragam populasi.

Dengan menundukkan setiap model ke rangkaian tolok ukur yang komprehensif ini, Vector Institute bertujuan untuk memberikan pemahaman yang holistik dan bernuansa tentang kemampuan dan keterbatasan mereka.

Pentingnya Evaluasi Independen dan Objektif

Deval Pandya, Wakil Presiden Rekayasa AI Vector, menekankan peran penting evaluasi independen dan objektif dalam memahami kemampuan sebenarnya dari model AI. Dia menyatakan bahwa evaluasi semacam itu ‘sangat penting untuk memahami bagaimana kinerja model dalam hal akurasi, keandalan, dan keadilan’. Ketersediaan tolok ukur yang kuat dan evaluasi yang mudah diakses memberdayakan para peneliti, organisasi, dan pembuat kebijakan untuk mendapatkan pemahaman yang lebih dalam tentang kekuatan, kelemahan, dan dampak dunia nyata dari model dan sistem AI yang berkembang pesat ini. Pada akhirnya, ini menumbuhkan kepercayaan yang lebih besar pada teknologi AI dan mempromosikan pengembangan dan penerapan yang bertanggung jawab.

Sumber Terbuka Hasil untuk Transparansi dan Inovasi

Dalam langkah inovatif, Vector Institute telah membuat hasil studinya, tolok ukur yang digunakan, dan kode yang mendasarinya tersedia secara terbuka melalui papan peringkat interaktif. Inisiatif ini bertujuan untuk mempromosikan transparansi dan mendorong kemajuan dalam inovasi AI. Dengan membuka sumber informasi berharga ini, Vector Institute memungkinkan para peneliti, pengembang, regulator, dan pengguna akhir untuk secara independen memverifikasi hasil, membandingkan kinerja model, dan mengembangkan tolok ukur dan evaluasi mereka sendiri. Pendekatan kolaboratif ini diharapkan dapat mendorong peningkatan dalam model AI dan meningkatkan akuntabilitas di lapangan.

John Willes, Manajer Infrastruktur AI dan Rekayasa Penelitian Vector, yang mempelopori proyek ini, menyoroti manfaat dari pendekatan sumber terbuka ini. Dia mencatat bahwa hal itu memungkinkan para pemangku kepentingan untuk ‘memverifikasi hasil secara independen, membandingkan kinerja model, dan membangun tolok ukur dan evaluasi mereka sendiri untuk mendorong peningkatan dan akuntabilitas’.

Papan Peringkat Interaktif

Papan peringkat interaktif menyediakan platform yang mudah digunakan untuk menjelajahi hasil studi. Pengguna dapat:

  • Bandingkan Kinerja Model: Lihat perbandingan berdampingan dari kinerja model AI yang berbeda di berbagai tolok ukur.
  • Analisis Hasil Tolok Ukur: Telusuri hasil tolok ukur individual untuk mendapatkan pemahaman yang lebih rinci tentang kemampuan model.
  • Unduh Data dan Kode: Akses data dan kode yang mendasarinya yang digunakan dalam studi untuk melakukan analisis dan eksperimen mereka sendiri.
  • Kontribusikan Tolok Ukur Baru: Kirimkan tolok ukur mereka sendiri untuk dimasukkan dalam evaluasi mendatang.

Dengan menyediakan sumber daya ini, Vector Institute membina ekosistem kolaboratif yang mempercepat kemajuan teknologi AI dan mempromosikan inovasi yang bertanggung jawab.

Membangun Kepemimpinan Vector dalam Keamanan AI

Proyek ini merupakan perpanjangan alami dari kepemimpinan Vector yang mapan dalam pengembangan tolok ukur yang banyak digunakan di seluruh komunitas keamanan AI global. Tolok ukur ini termasuk MMLU-Pro, MMMU, dan OS-World, yang dikembangkan oleh Anggota Fakultas Vector Institute dan Ketua AI CIFAR Kanada Wenhu Chen dan Victor Zhong. Studi ini juga dibangun di atas pekerjaan terbaru oleh tim Rekayasa AI Vector untuk mengembangkan Inspect Evals, platform pengujian keamanan AI sumber terbuka yang dibuat bekerja sama dengan UK AI Security Institute. Platform ini bertujuan untuk menstandarisasi evaluasi keselamatan global dan memfasilitasi kolaborasi di antara para peneliti dan pengembang.

MMLU-Pro, MMMU, dan OS-World

Tolok ukur ini telah menjadi alat penting untuk mengevaluasi kemampuan dan keterbatasan model AI di berbagai domain:

  • MMLU-Pro: Tolok ukur yang dirancang untuk menilai kemampuan model AI untuk menjawab pertanyaan di berbagai subjek, termasuk humaniora, ilmu sosial, dan bidang STEM.
  • MMMU: Tolok ukur yang difokuskan untuk mengevaluasi kemampuan model AI untuk memahami dan bernalar tentang data multimodal, seperti gambar dan teks.
  • OS-World: Tolok ukur yang menguji kemampuan model AI untuk beroperasi di lingkungan kompleks dan terbuka, mengharuskan mereka untuk belajar dan beradaptasi dengan situasi baru.

Dengan menyumbangkan tolok ukur ini ke komunitas keamanan AI, Vector Institute telah memainkan peran penting dalam memajukan pemahaman dan pengembangan teknologi AI yang bertanggung jawab.

Inspect Evals: Platform Kolaboratif untuk Pengujian Keamanan AI

Inspect Evals adalah platform sumber terbuka yang dirancang untuk menstandarisasi evaluasi keselamatan AI dan memfasilitasi kolaborasi di antara para peneliti dan pengembang. Platform ini menyediakan kerangka kerja untuk membuat, menjalankan, dan berbagi tes keamanan AI, memungkinkan para peneliti untuk:

  • Kembangkan Evaluasi Standar: Buat evaluasi yang ketat dan standar yang dapat digunakan untuk membandingkan keamanan model AI yang berbeda.
  • Bagikan Evaluasi dan Hasil: Bagikan evaluasi dan hasil mereka dengan komunitas AI yang lebih luas, membina kolaborasi dan transparansi.
  • Identifikasi dan Kurangi Risiko: Identifikasi dan kurangi potensi risiko yang terkait dengan teknologi AI, mempromosikan pengembangan dan penerapan yang bertanggung jawab.

Dengan membina kolaborasi dan standarisasi, Inspect Evals bertujuan untuk mempercepat pengembangan sistem AI yang lebih aman dan lebih andal.

Peran Vector dalam Memungkinkan Adopsi AI yang Aman dan Bertanggung Jawab

Ketika organisasi semakin berusaha untuk membuka manfaat transformatif dari AI, Vector berada dalam posisi yang unik untuk memberikan keahlian independen dan tepercaya yang memungkinkan mereka melakukannya dengan aman dan bertanggung jawab. Pandya menyoroti program-program institut di mana mitra industrinya berkolaborasi dengan para ahli peneliti di garis depan keamanan dan aplikasi AI. Program-program ini menyediakan lingkungan sandbox yang berharga di mana mitra dapat bereksperimen dan menguji model dan teknik untuk mengatasi tantangan bisnis terkait AI spesifik mereka.

Program Kemitraan Industri

Program kemitraan industri Vector menawarkan berbagai manfaat, termasuk:

  • Akses ke Para Ahli Peneliti: Kolaborasi dengan para ahli peneliti AI terkemuka yang dapat memberikan bimbingan dan dukungan tentang keamanan dan aplikasi AI.
  • Lingkungan Sandbox: Akses ke lingkungan yang aman dan terkendali untuk bereksperimen dengan model dan teknik AI.
  • Solusi yang Disesuaikan: Pengembangan solusi AI yang disesuaikan dengan kebutuhan dan tantangan spesifik setiap mitra.
  • Transfer Pengetahuan: Peluang untuk transfer pengetahuan dan pembangunan kapasitas, memungkinkan mitra untuk mengembangkan keahlian AI mereka sendiri.

Dengan menyediakan sumber daya ini, Vector membantu organisasi untuk memanfaatkan kekuatan AI sambil mengurangi potensi risiko dan memastikan penerapan yang bertanggung jawab.

Mengatasi Tantangan Bisnis Spesifik

Mitra industri Vector berasal dari beragam sektor, termasuk layanan keuangan, inovasi teknologi, dan perawatan kesehatan. Mitra-mitra ini memanfaatkan keahlian Vector untuk mengatasi berbagai tantangan bisnis terkait AI, seperti:

  • Deteksi Penipuan: Mengembangkan model AI untuk mendeteksi dan mencegah aktivitas penipuan dalam transaksi keuangan.
  • Pengobatan yang Dipersonalisasi: Menggunakan AI untuk mempersonalisasi rencana perawatan dan meningkatkan hasil pasien dalam perawatan kesehatan.
  • Optimalisasi Rantai Pasokan: Mengoptimalkan operasi rantai pasokan menggunakan perkiraan bertenaga AI dan manajemen logistik.
  • Deteksi Ancaman Keamanan Siber: Mengembangkan sistem AI untuk mendeteksi dan merespons ancaman keamanan siber secara real-time.

Dengan bekerja sama secara erat dengan mitra industrinya, Vector membantu mendorong inovasi dan membuka potensi transformatif AI di berbagai industri. Vector Institute berkomitmen untuk memastikan bahwa AI dikembangkan dan digunakan dengan cara yang aman, bertanggung jawab, dan bermanfaat bagi masyarakat. Melalui penelitian, pendidikan, dan kolaborasi, Vector memainkan peran penting dalam membentuk masa depan AI.