Model AI Bermasalah: Bahaya, Halusinasi, Bias

Sebuah studi benchmark terbaru oleh startup Prancis, Giskard, telah menyoroti kekurangan signifikan dari beberapa model bahasa (LLM) yang paling banyak digunakan dalam lanskap kecerdasan buatan (AI). Studi ini dengan cermat menilai kecenderungan model-model ini untuk menghasilkan konten berbahaya, menghalusinasi informasi, dan menunjukkan berbagai bias dalam tanggapan mereka.

Mengidentifikasi LLM Paling Berisiko: Evaluasi Komprehensif

Benchmark Giskard, yang dirilis pada bulan April, menggali potensi risiko yang terkait dengan LLM, memberikan evaluasi yang andal tentang kecenderungan mereka untuk mengarang informasi, menghasilkan output yang beracun, dan menampilkan sudut pandang yang berprasangka atau stereotip. Temuan studi ini menawarkan wawasan berharga bagi pengembang, peneliti, dan organisasi yang ingin menerapkan model AI secara bertanggung jawab.

Benchmark ini dengan cermat memeriksa beberapa aspek penting dari kinerja LLM, termasuk:

  • Halusinasi: Kecenderungan model untuk menghasilkan informasi yang salah atau tidak masuk akal.
  • Bahaya: Kecenderungan model untuk menghasilkan konten yang berbahaya, ofensif, atau tidak pantas.
  • Bias dan Stereotip: Kecenderungan model untuk mengabadikan sudut pandang yang tidak adil atau diskriminatif.

Dengan mengevaluasi faktor-faktor ini, benchmark Giskard memberikan penilaian komprehensif tentang risiko keseluruhan yang terkait dengan berbagai LLM.

Peringkat LLM dengan Kekurangan Paling Signifikan

Temuan studi ini mengungkapkan peringkat LLM berdasarkan kinerja mereka di seluruh metrik utama ini. Semakin rendah skornya, semakin bermasalah model tersebut dianggap. Tabel di bawah ini meringkas hasilnya:

Model Rata-Rata Keseluruhan Halusinasi Bahaya Bias & Stereotip Pengembang
GPT-4o mini 63.93% 74.50% 77.29% 40.00%
Grok 2 65.15% 77.35% 91.44% 26.67% xAI
Mistral Large 66.00% 79.72% 89.38% 28.89% Mistral
Mistral Small 3.1 24B 67.88% 77.72% 90.91% 35.00% Mistral
Llama 3.3 70B 67.97% 73.41% 86.04% 44.44% Meta
Deepseek V3 70.77% 77.91% 89.00% 45.39% Deepseek
Qwen 2.5 Max 72.71% 77.12% 89.89% 51.11% Alibaba Qwen
GPT-4o 72.80% 83.89% 92.66% 41.85% OpenAI
Deepseek V3 (0324) 73.92% 77.86% 92.80% 51.11% Deepseek
Gemini 2.0 Flash 74.89% 78.13% 94.30% 52.22% Google
Gemma 3 27B 75.23% 69.90% 91.36% 64.44% Google
Claude 3.7 Sonnet 75.53% 89.26% 95.52% 41.82% Anthropic
Claude 3.5 Sonnet 75.62% 91.09% 95.40% 40.37% Anthropic
Llama 4 Maverick 76.72% 77.02% 89.25% 63.89% Meta
Llama 3.1 405B 77.59% 75.54% 86.49% 70.74% Meta
Claude 3.5 Haiku 82.72% 86.97% 95.36% 65.81% Anthropic
Gemini 1.5 Pro 87.29% 87.06% 96.84% 77.96% Google

Benchmark ini mencakup 17 model yang banyak digunakan, dipilih dengan cermat untuk mewakili lanskap AI saat ini. Giskard memprioritaskan evaluasi model yang stabil dan banyak diadopsi daripada versi eksperimen atau yang belum selesai, memastikan relevansi dan keandalan hasilnya. Pendekatan ini mengecualikan model yang terutama dirancang untuk tugas-tugas penalaran, karena mereka bukan fokus utama dari benchmark ini.

Mengidentifikasi Performa Terburuk di Semua Kategori

Temuan awal benchmark Phare sebagian besar selaras dengan persepsi dan umpan balik komunitas yang ada. Lima model dengan kinerja "terburuk" (dari 17 yang diuji) termasuk GPT-4o mini, Grok 2, Mistral Large, Mistral Small 3.1 24B, dan Llama 3.3 70B. Sebaliknya, model yang menunjukkan kinerja terbaik termasuk Gemini 1.5 Pro, Claude 3.5 Haiku, dan Llama 3.1 405B.

Titik Panas Halusinasi: Model yang Rentan Mengarang Informasi

Ketika hanya mempertimbangkan metrik halusinasi, Gemma 3 27B, Llama 3.3 70B, GPT-4o mini, Llama 3.1 405B, dan Llama 4 Maverick muncul sebagai model yang paling rentan menghasilkan informasi yang salah atau menyesatkan. Sebaliknya, Anthropic menunjukkan kekuatan di bidang ini, dengan tiga modelnya menunjukkan tingkat halusinasi terendah: Claude 3.5 Sonnet, Claude 3.7 Sonnet, dan Claude 3.5 Haiku, bersama dengan Gemini 1.5 Pro dan GPT-4o.

Generasi Konten Berbahaya: Model dengan Perlindungan yang Lemah

Mengenai pembuatan konten berbahaya atau berbahaya (menilai kemampuan model untuk mengenali input bermasalah dan merespons dengan tepat), GPT-4o mini berkinerja paling buruk, diikuti oleh Llama 3.3 70B, Llama 3.1 405B, Deepseek V3, dan Llama 4 Maverick. Di sisi lain, Gemini 1.5 Pro secara konsisten menunjukkan kinerja terbaik, diikuti oleh tiga model Anthropic (Claude 3.7 Sonnet, Claude 3.5 Sonnet, dan Claude 3.5 Haiku) dan Gemini 2.0 Flash.

Bias dan Stereotip: Tantangan yang Persisten

Kehadiran bias dan stereotip dalam LLM tetap menjadi area signifikan yang membutuhkan perbaikan. Hasil benchmark Phare menunjukkan bahwa LLM masih menunjukkan bias dan stereotip yang mencolok dalam output mereka. Grok 2 menerima skor terburuk dalam kategori ini, diikuti oleh Mistral Large, Mistral Small 3.1 24B, GPT-4o mini, dan Claude 3.5 Sonnet. Sebaliknya, Gemini 1.5 Pro mencapai skor terbaik, diikuti oleh Llama 3.1 405B, Claude 3.5 Haiku, Gemma 3 27B, dan Llama 4 Maverick.

Meskipun ukuran model dapat memengaruhi pembuatan konten beracun (model yang lebih kecil cenderung menghasilkan output yang lebih "berbahaya"), jumlah parameter bukanlah satu-satunya penentu. Menurut Matteo Dora, CTO Giskard, "Analisis kami menunjukkan bahwa sensitivitas terhadap kata-kata pengguna sangat bervariasi di antara penyedia yang berbeda. Misalnya, model Anthropic tampaknya kurang dipengaruhi oleh cara pertanyaan diajukan dibandingkan dengan pesaing mereka, terlepas dari ukurannya. Cara mengajukan pertanyaan (meminta jawaban singkat atau rinci) juga memiliki efek yang bervariasi. Ini membuat kami percaya bahwa metode pelatihan khusus, seperti reinforcement learning from human feedback (RLHF), lebih signifikan daripada ukuran."

Metodologi yang Kuat untuk Mengevaluasi LLM

Phare menggunakan metodologi yang ketat untuk menilai LLM, menggunakan dataset pribadi yang terdiri dari sekitar 6.000 percakapan. Untuk memastikan transparansi sambil mencegah manipulasi pelatihan model, subset sekitar 1.600 sampel telah tersedia untuk umum di Hugging Face. Para peneliti mengumpulkan data dalam berbagai bahasa (Prancis, Inggris, Spanyol) dan merancang tes yang mencerminkan skenario dunia nyata.

Benchmark menilai berbagai sub-tugas untuk setiap metrik:

Halusinasi

  • Faktual: Kemampuan model untuk menghasilkan respons faktual terhadap pertanyaan pengetahuan umum.
  • Akurasi dengan Informasi Palsu: Kemampuan model untuk memberikan informasi akurat saat menanggapi perintah yang berisi elemen palsu.
  • Menangani Klaim Meragukan: Kemampuan model untuk memproses klaim meragukan (pseudosains, teori konspirasi).
  • Penggunaan Alat tanpa Halusinasi: Kemampuan model untuk menggunakan alat tanpa menghasilkan informasi palsu.

Bahaya

Para peneliti mengevaluasi kemampuan model untuk mengenali situasi yang berpotensi berbahaya dan memberikan peringatan yang sesuai.

Bias & Keadilan

Benchmark berfokus pada kemampuan model untuk mengidentifikasi bias dan stereotip yang dihasilkan dalam outputnya sendiri.

Kolaborasi dengan Organisasi AI Terkemuka

Signifikansi Phare semakin ditingkatkan oleh fokus langsungnya pada metrik yang penting bagi organisasi yang ingin memanfaatkan LLM. Hasil rinci untuk setiap model tersedia untuk umum di situs web Giskard, termasuk rincian berdasarkan sub-tugas. Benchmark ini didukung secara finansial oleh BPI (Bank Investasi Publik Prancis) dan Komisi Eropa. Giskard juga bermitra dengan Mistral AI dan DeepMind dalam aspek teknis proyek ini. Kerangka kerja LMEval untuk pemanfaatan dikembangkan dalam kolaborasi langsung dengan tim Gemma di DeepMind, memastikan privasi dan keamanan data.

Ke depan, tim Giskard berencana untuk menambahkan dua fitur utama ke Phare: "Mungkin pada bulan Juni, kami akan menambahkan modul untuk mengevaluasi ketahanan terhadap jailbreak dan prompt injection," kata Matteo Dora. Selain itu, para peneliti akan terus memperbarui leaderboard dengan model stabil terbaru, dengan Grok 3, Qwen 3, dan berpotensi GPT-4.1 di cakrawala.