Satu kajian penanda aras baru-baru ini oleh syarikat permulaan Perancis, Giskard, telah menyoroti kelemahan ketara beberapa model bahasa (LLM) yang paling banyak digunakan dalam landskap kecerdasan buatan. Kajian ini dengan teliti menilai kecenderungan model-model ini untuk menghasilkan kandungan berbahaya, menghalusinasi maklumat, dan mempamerkan pelbagai bias dalam respons mereka.
Mengenal Pasti LLM yang Paling Berisiko: Penilaian Komprehensif
Penanda aras Giskard, yang dikeluarkan pada bulan April, mendalami potensi risiko yang berkaitan dengan LLM, menyediakan penilaian yang boleh dipercayai tentang kecenderungan mereka untuk mereka maklumat, menghasilkan output toksik, dan memaparkan pandangan yang prejudis atau stereotaip. Penemuan kajian ini menawarkan pandangan berharga untuk pembangun, penyelidik, dan organisasi yang ingin menggunakan model AI secara bertanggungjawab.
Penanda aras dengan teliti memeriksa beberapa aspek kritikal prestasi LLM, termasuk:
- Halusinasi: Kecenderungan model untuk menghasilkan maklumat palsu atau tidak masuk akal.
- Bahaya: Kecenderungan model untuk menghasilkan kandungan yang berbahaya, ofensif, atau tidak sesuai.
- Bias dan Stereotaip: Kecenderungan model untuk mengekalkan pandangan yang tidak adil atau diskriminasi.
Dengan menilai faktor-faktor ini, penanda aras Giskard menyediakan penilaian komprehensif tentang risiko keseluruhan yang berkaitan dengan LLM yang berbeza.
Ranking LLM dengan Kecacatan Paling Ketara
Penemuan kajian ini mendedahkan ranking LLM berdasarkan prestasi mereka merentasi metrik utama ini. Semakin rendah skor, semakin bermasalah model itu dianggap. Jadual di bawah meringkaskan hasilnya:
Model | Purata Keseluruhan | Halusinasi | Bahaya | Bias & Stereotaip | Pembangun |
---|---|---|---|---|---|
GPT-4o mini | 63.93% | 74.50% | 77.29% | 40.00% | |
Grok 2 | 65.15% | 77.35% | 91.44% | 26.67% | xAI |
Mistral Large | 66.00% | 79.72% | 89.38% | 28.89% | Mistral |
Mistral Small 3.1 24B | 67.88% | 77.72% | 90.91% | 35.00% | Mistral |
Llama 3.3 70B | 67.97% | 73.41% | 86.04% | 44.44% | Meta |
Deepseek V3 | 70.77% | 77.91% | 89.00% | 45.39% | Deepseek |
Qwen 2.5 Max | 72.71% | 77.12% | 89.89% | 51.11% | Alibaba Qwen |
GPT-4o | 72.80% | 83.89% | 92.66% | 41.85% | OpenAI |
Deepseek V3 (0324) | 73.92% | 77.86% | 92.80% | 51.11% | Deepseek |
Gemini 2.0 Flash | 74.89% | 78.13% | 94.30% | 52.22% | |
Gemma 3 27B | 75.23% | 69.90% | 91.36% | 64.44% | |
Claude 3.7 Sonnet | 75.53% | 89.26% | 95.52% | 41.82% | Anthropic |
Claude 3.5 Sonnet | 75.62% | 91.09% | 95.40% | 40.37% | Anthropic |
Llama 4 Maverick | 76.72% | 77.02% | 89.25% | 63.89% | Meta |
Llama 3.1 405B | 77.59% | 75.54% | 86.49% | 70.74% | Meta |
Claude 3.5 Haiku | 82.72% | 86.97% | 95.36% | 65.81% | Anthropic |
Gemini 1.5 Pro | 87.29% | 87.06% | 96.84% | 77.96% |
Penanda aras merangkumi 17 model yang digunakan secara meluas, dipilih dengan teliti untuk mewakili landskap AI semasa. Giskard mengutamakan penilaian model yang stabil dan diterima pakai secara meluas berbanding versi eksperimen atau belum dimuktamadkan, memastikan perkaitan dan kebolehpercayaan hasilnya. Pendekatan ini mengecualikan model yang direka terutamanya untuk tugas penaakulan, kerana ia bukan fokus utama penanda aras ini.
Mengenal Pasti Prestasi Terburuk Merentasi Semua Kategori
Penemuan awal penanda aras Phare sebahagian besarnya sejajar dengan persepsi dan maklum balas komuniti yang sedia ada. Lima model berprestasi "terburuk" teratas (daripada 17 yang diuji) termasuk GPT-4o mini, Grok 2, Mistral Large, Mistral Small 3.1 24B, dan Llama 3.3 70B. Sebaliknya, model yang menunjukkan prestasi terbaik termasuk Gemini 1.5 Pro, Claude 3.5 Haiku, dan Llama 3.1 405B.
Titik Panas Halusinasi: Model Cenderung Mereka Maklumat
Apabila hanya mempertimbangkan metrik halusinasi, Gemma 3 27B, Llama 3.3 70B, GPT-4o mini, Llama 3.1 405B, dan Llama 4 Maverick muncul sebagai model yang paling cenderung untuk menghasilkan maklumat palsu atau mengelirukan. Sebaliknya, Anthropic menunjukkan kekuatan dalam bidang ini, dengan tiga modelnya mempamerkan kadar halusinasi terendah: Claude 3.5 Sonnet, Claude 3.7 Sonnet, dan Claude 3.5 Haiku, bersama-sama dengan Gemini 1.5 Pro dan GPT-4o.
Penjanaan Kandungan Berbahaya: Model dengan Perlindungan Lemah
Berkenaan dengan penjanaan kandungan berbahaya atau memudaratkan (menilai keupayaan model untuk mengenali input bermasalah dan bertindak balas dengan sewajarnya), GPT-4o mini menunjukkan prestasi terburuk, diikuti oleh Llama 3.3 70B, Llama 3.1 405B, Deepseek V3, dan Llama 4 Maverick. Sebaliknya, Gemini 1.5 Pro secara konsisten menunjukkan prestasi terbaik, diikuti rapat oleh tiga model Anthropic (Claude 3.7 Sonnet, Claude 3.5 Sonnet, dan Claude 3.5 Haiku) dan Gemini 2.0 Flash.
Bias dan Stereotaip: Cabaran Berterusan
Kehadiran bias dan stereotaip dalam LLM kekal sebagai bidang penting yang memerlukan penambahbaikan. Hasil penanda aras Phare menunjukkan bahawa LLM masih mempamerkan bias dan stereotaip yang ketara dalam output mereka. Grok 2 menerima skor terburuk dalam kategori ini, diikuti oleh Mistral Large, Mistral Small 3.1 24B, GPT-4o mini, dan Claude 3.5 Sonnet. Sebaliknya, Gemini 1.5 Pro mencapai skor terbaik, diikuti oleh Llama 3.1 405B, Claude 3.5 Haiku, Gemma 3 27B, dan Llama 4 Maverick.
Walaupun saiz model boleh mempengaruhi penjanaan kandungan toksik (model yang lebih kecil cenderung menghasilkan output yang lebih "berbahaya"), bilangan parameter bukanlah penentu tunggal. Menurut Matteo Dora, CTO Giskard, "Analisis kami menunjukkan bahawa sensitiviti terhadap perkataan pengguna berbeza dengan ketara merentasi pembekal yang berbeza. Sebagai contoh, model Anthropic nampaknya kurang dipengaruhi oleh cara soalan dirumuskan berbanding pesaing mereka, tanpa mengira saiznya. Cara menanyakan soalan (meminta jawapan ringkas atau terperinci) juga mempunyai kesan yang berbeza-beza. Ini membawa kami untuk mempercayai bahawa kaedah latihan tertentu, seperti pembelajaran pengukuhan daripada maklum balas manusia (RLHF), adalah lebih penting daripada saiz."
Metodologi Teguh untuk Menilai LLM
Phare menggunakan metodologi yang ketat untuk menilai LLM, menggunakan set data peribadi kira-kira 6,000 perbualan. Untuk memastikan ketelusan sambil mencegah manipulasi latihan model, subset kira-kira 1,600 sampel telah disediakan secara terbuka di Hugging Face. Para penyelidik mengumpul data dalam pelbagai bahasa (Perancis, Inggeris, Sepanyol) dan mereka bentuk ujian yang mencerminkan senario dunia sebenar.
Penanda aras menilai pelbagai sub-tugas untuk setiap metrik:
Halusinasi
- Faktualitas: Keupayaan model untuk menghasilkan respons faktual kepada soalan pengetahuan am.
- Ketepatan dengan Maklumat Palsu: Keupayaan model untuk memberikan maklumat yang tepat apabila bertindak balas kepada gesaan yang mengandungi unsur palsu.
- Mengendalikan Tuntutan Meragukan: Keupayaan model untuk memproses tuntutan meragukan (pseudosains, teori konspirasi).
- Penggunaan Alat tanpa Halusinasi: Keupayaan model untuk menggunakan alat tanpa menjana maklumat palsu.
Bahaya
Para penyelidik menilai keupayaan model untuk mengenali situasi yang berpotensi berbahaya dan memberikan amaran yang sesuai.
Bias & Keadilan
Penanda aras memfokuskan pada keupayaan model untuk mengenal pasti bias dan stereotaip yang dijana dalam outputnya sendiri.
Kerjasama dengan Organisasi AI Terkemuka
Kepentingan Phare dipertingkatkan lagi oleh tumpuannya secara langsung pada metrik yang penting bagi organisasi yang ingin menggunakan LLM. Hasil terperinci untuk setiap model tersedia secara terbuka di laman web Giskard, termasuk pecahan mengikut sub-tugas. Penanda aras disokong dari segi kewangan oleh BPI (Bank Pelaburan Awam Perancis) dan Suruhanjaya Eropah. Giskard juga telah bekerjasama dengan Mistral AI dan DeepMind mengenai aspek teknikal projek. Rangka kerja LMEval untuk penggunaan telah dibangunkan dengan kerjasama langsung dengan pasukan Gemma di DeepMind, memastikan privasi dan keselamatan data.
Melangkah ke hadapan, pasukan Giskard merancang untuk menambah dua ciri utama kepada Phare: "Mungkin menjelang Jun, kami akan menambah modul untuk menilai ketahanan terhadap jailbreak dan suntikan gesaan," kata Matteo Dora. Selain itu, para penyelidik akan terus mengemas kini papan pendahulu dengan model stabil terkini, dengan Grok 3, Qwen 3, dan berpotensi GPT-4.1 di kaki langit.