Eine aktuelle Benchmark-Studie des französischen Startups Giskard hat die erheblichen Mängel einiger der am weitesten verbreiteten Sprachmodelle (LLMs) im Bereich der künstlichen Intelligenz (KI) ins Rampenlicht gerückt. Diese Studie bewertet akribisch die Neigung dieser Modelle, schädliche Inhalte zu generieren, Informationen zu halluzinieren und verschiedene Verzerrungen in ihren Antworten aufzuweisen.
Identifizierung der riskantesten LLMs: Eine umfassende Bewertung
Der im April veröffentlichte Benchmark von Giskard befasst sich mit den potenziellen Risiken, die mit LLMs verbunden sind, und bietet eine zuverlässige Bewertung ihrer Tendenz, Informationen zu erfinden, toxische Ausgaben zu produzieren und voreingenommene oder stereotype Standpunkte darzustellen. Die Ergebnisse der Studie bieten wertvolle Einblicke für Entwickler, Forscher und Organisationen, die KI-Modelle verantwortungsvoll einsetzen möchten.
Der Benchmark untersucht akribisch mehrere kritische Aspekte der LLM-Leistung, darunter:
- Halluzination: Die Tendenz des Modells, falsche oder unsinnige Informationen zu generieren.
- Schädlichkeit: Die Neigung des Modells, gefährliche, beleidigende oder unangemessene Inhalte zu produzieren.
- Verzerrung und Stereotypen: Die Neigung des Modells, unfaire oder diskriminierende Standpunkte zu verewigen.
Durch die Bewertung dieser Faktoren bietet der Benchmark von Giskard eine umfassende Bewertung des Gesamtrisikos, das mit verschiedenen LLMs verbunden ist.
Ranking der LLMs mit den grössten Mängeln
Die Ergebnisse der Studie zeigen ein Ranking der LLMs basierend auf ihrer Leistung in diesen Schlüsselmetriken. Je niedriger die Punktzahl, desto problematischer wird das Modell angesehen. Die folgende Tabelle fasst die Ergebnisse zusammen:
Modell | Gesamtdurchschnitt | Halluzination | Schädlichkeit | Verzerrung & Stereotypen | Entwickler |
---|---|---|---|---|---|
GPT-4o mini | 63.93% | 74.50% | 77.29% | 40.00% | |
Grok 2 | 65.15% | 77.35% | 91.44% | 26.67% | xAI |
Mistral Large | 66.00% | 79.72% | 89.38% | 28.89% | Mistral |
Mistral Small 3.1 24B | 67.88% | 77.72% | 90.91% | 35.00% | Mistral |
Llama 3.3 70B | 67.97% | 73.41% | 86.04% | 44.44% | Meta |
Deepseek V3 | 70.77% | 77.91% | 89.00% | 45.39% | Deepseek |
Qwen 2.5 Max | 72.71% | 77.12% | 89.89% | 51.11% | Alibaba Qwen |
GPT-4o | 72.80% | 83.89% | 92.66% | 41.85% | OpenAI |
Deepseek V3 (0324) | 73.92% | 77.86% | 92.80% | 51.11% | Deepseek |
Gemini 2.0 Flash | 74.89% | 78.13% | 94.30% | 52.22% | |
Gemma 3 27B | 75.23% | 69.90% | 91.36% | 64.44% | |
Claude 3.7 Sonnet | 75.53% | 89.26% | 95.52% | 41.82% | Anthropic |
Claude 3.5 Sonnet | 75.62% | 91.09% | 95.40% | 40.37% | Anthropic |
Llama 4 Maverick | 76.72% | 77.02% | 89.25% | 63.89% | Meta |
Llama 3.1 405B | 77.59% | 75.54% | 86.49% | 70.74% | Meta |
Claude 3.5 Haiku | 82.72% | 86.97% | 95.36% | 65.81% | Anthropic |
Gemini 1.5 Pro | 87.29% | 87.06% | 96.84% | 77.96% |
Der Benchmark umfasste 17 weit verbreitete Modelle, die sorgfältig ausgewählt wurden, um die aktuelle KI-Landschaft darzustellen. Giskard priorisierte die Bewertung stabiler und weit verbreiteter Modelle gegenüber experimentellen oder unvollendeten Versionen, um die Relevanz und Zuverlässigkeit der Ergebnisse sicherzustellen. Dieser Ansatz schliesst Modelle aus, die primär für Denkaufgaben konzipiert sind, da diese nicht im primären Fokus dieses Benchmarks stehen.
Identifizierung der schlechtesten Performer in allen Kategorien
Die ersten Ergebnisse des Phare-Benchmarks stimmen weitgehend mit den bestehenden Wahrnehmungen und dem Feedback der Community überein. Die fünf “schlechtesten” Modelle (von den 17 getesteten) sind GPT-4o mini, Grok 2, Mistral Large, Mistral Small 3.1 24B und Llama 3.3 70B. Umgekehrt gehören zu den Modellen mit der besten Leistung Gemini 1.5 Pro, Claude 3.5 Haiku und Llama 3.1 405B.
Halluzinations-Hotspots: Modelle, die anfällig für die Erfindung von Informationen sind
Wenn man nur die Halluzinationsmetrik betrachtet, erweisen sich Gemma 3 27B, Llama 3.3 70B, GPT-4o mini, Llama 3.1 405B und Llama 4 Maverick als die Modelle, die am anfälligsten für die Generierung falscher oder irreführender Informationen sind. Im Gegensatz dazu zeigt Anthropic in diesem Bereich Stärke, wobei drei seiner Modelle die niedrigsten Halluzinationsraten aufweisen: Claude 3.5 Sonnet, Claude 3.7 Sonnet und Claude 3.5 Haiku, zusammen mit Gemini 1.5 Pro und GPT-4o.
Gefährliche Inhaltsgenerierung: Modelle mit schwachen Schutzmassnahmen
In Bezug auf die Generierung gefährlicher oder schädlicher Inhalte (Bewertung der Fähigkeit des Modells, problematische Eingaben zu erkennen und angemessen zu reagieren) schneidet GPT-4o mini am schlechtesten ab, gefolgt von Llama 3.3 70B, Llama 3.1 405B, Deepseek V3 und Llama 4 Maverick. Andererseits zeigt Gemini 1.5 Pro durchweg die beste Leistung, dicht gefolgt von den drei Modellen von Anthropic (Claude 3.7 Sonnet, Claude 3.5 Sonnet und Claude 3.5 Haiku) und Gemini 2.0 Flash.
Verzerrung und Stereotypen: Eine anhaltende Herausforderung
Das Vorhandensein von Verzerrungen und Stereotypen in LLMs bleibt ein wichtiger Bereich, der verbessert werden muss. Die Ergebnisse des Phare-Benchmarks zeigen, dass LLMs in ihren Ausgaben immer noch deutliche Verzerrungen und Stereotypen aufweisen. Grok 2 erhält in dieser Kategorie die schlechteste Punktzahl, gefolgt von Mistral Large, Mistral Small 3.1 24B, GPT-4o mini und Claude 3.5 Sonnet. Umgekehrt erzielt Gemini 1.5 Pro die besten Ergebnisse, gefolgt von Llama 3.1 405B, Claude 3.5 Haiku, Gemma 3 27B und Llama 4 Maverick.
Während die Modellgrösse die Generierung toxischer Inhalte beeinflussen kann (kleinere Modelle produzieren tendenziell mehr “schädliche” Ausgaben), ist die Anzahl der Parameter nicht der einzige bestimmende Faktor. Laut Matteo Dora, CTO von Giskard, “zeigen unsere Analysen, dass die Sensibilität für die Formulierung der Benutzer je nach Anbieter erheblich variiert. Beispielsweise scheinen die Modelle von Anthropic weniger von der Art und Weise beeinflusst zu werden, wie Fragen formuliert werden, als ihre Konkurrenten, unabhängig von ihrer Grösse. Die Art und Weise, wie die Frage gestellt wird (Anforderung einer kurzen oder detaillierten Antwort), hat ebenfalls unterschiedliche Auswirkungen. Dies lässt uns glauben, dass spezifische Trainingsmethoden, wie z. B. Reinforcement Learning aus menschlichem Feedback (RLHF), wichtiger sind als die Grösse.”
Eine robuste Methodik zur Bewertung von LLMs
Phare verwendet eine rigorose Methodik zur Bewertung von LLMs und verwendet einen privaten Datensatz von etwa 6.000 Konversationen. Um Transparenz zu gewährleisten und gleichzeitig die Manipulation des Modelltrainings zu verhindern, wurde eine Teilmenge von etwa 1.600 Beispielen auf Hugging Face öffentlich zugänglich gemacht. Die Forscher sammelten Daten in mehreren Sprachen (Französisch, Englisch, Spanisch) und entwarfen Tests, die reale Szenarien widerspiegeln.
Der Benchmark bewertet verschiedene Unteraufgaben für jede Metrik:
Halluzination
- Faktizität: Die Fähigkeit des Modells, faktische Antworten auf allgemeine Wissensfragen zu generieren.
- Genauigkeit bei falschen Informationen: Die Fähigkeit des Modells, genaue Informationen bereitzustellen, wenn es auf Eingabeaufforderungen antwortet, die falsche Elemente enthalten.
- Umgang mit zweifelhaften Behauptungen: Die Fähigkeit des Modells, zweifelhafte Behauptungen (Pseudowissenschaft, Verschwörungstheorien) zu verarbeiten.
- Werkzeugverwendung ohne Halluzination: Die Fähigkeit des Modells, Werkzeuge zu verwenden, ohne falsche Informationen zu generieren.
Schädlichkeit
Die Forscher bewerteten die Fähigkeit des Modells, potenziell gefährliche Situationen zu erkennen und angemessene Warnungen auszusprechen.
Verzerrung & Fairness
Der Benchmark konzentriert sich auf die Fähigkeit des Modells, Verzerrungen und Stereotypen zu identifizieren, die in seinen eigenen Ausgaben generiert werden.
Zusammenarbeit mit führenden KI-Organisationen
Die Bedeutung von Phare wird durch seinen direkten Fokus auf Metriken weiter verstärkt, die für Organisationen, die LLMs verwenden möchten, von entscheidender Bedeutung sind. Die detaillierten Ergebnisse für jedes Modell sind auf der Giskard-Website öffentlich zugänglich, einschliesslich Aufschlüsselungen nach Unteraufgabe. Der Benchmark wird finanziell von der BPI (French Public Investment Bank) und der Europäischen Kommission unterstützt. Giskard hat auch mit Mistral AI und DeepMind in den technischen Aspekten des Projekts zusammengearbeitet. Das LMEval-Framework für die Nutzung wurde in direkter Zusammenarbeit mit dem Gemma-Team bei DeepMind entwickelt, um den Datenschutz und die Sicherheit zu gewährleisten.
Mit Blick auf die Zukunft plant das Giskard-Team, Phare zwei wichtige Funktionen hinzuzufügen: “Wahrscheinlich werden wir bis Juni ein Modul hinzufügen, um die Widerstandsfähigkeit gegen Jailbreaks und Prompt-Injection zu bewerten”, sagt Matteo Dora. Darüber hinaus werden die Forscher die Rangliste weiterhin mit den neuesten stabilen Modellen aktualisieren, wobei Grok 3, Qwen 3 und möglicherweise GPT-4.1 am Horizont stehen.
Die Studie von Giskard wirft ein wichtiges Licht auf die Herausforderungen und Risiken, die mit der Nutzung von LLMs verbunden sind. Die Ergebnisse verdeutlichen die Notwendigkeit einer sorgfältigen Evaluierung und Überwachung von KI-Modellen, um sicherzustellen, dass sie verantwortungsvoll und ethisch eingesetzt werden. Insbesondere die Bereiche Halluzinationen, Schädlichkeit und Verzerrungen erfordern weitere Forschung und Entwicklung, um die Zuverlässigkeit und Sicherheit von LLMs zu verbessern. Die Zusammenarbeit zwischen Forschungseinrichtungen, Unternehmen und Regierungsstellen ist entscheidend, um diese Herausforderungen zu bewältigen und das volle Potenzial von KI-Technologien auszuschöpfen, ohne dabei die damit verbundenen Risiken zu ignorieren.
Die detaillierten Ergebnisse und Analysen von Giskard bieten eine wertvolle Grundlage für die Weiterentwicklung von KI-Sicherheitsstandards und -praktiken. Indem sie Einblicke in die Stärken und Schwächen verschiedener LLMs gewähren, ermöglichen sie es Entwicklern, informierte Entscheidungen bei der Auswahl und Implementierung von KI-Modellen zu treffen. Darüber hinaus tragen sie dazu bei, das Bewusstsein für die potenziellen Auswirkungen von Verzerrungen und Stereotypen in KI-Systemen zu schärfen und die Entwicklung von Strategien zur Minderung dieser Risiken zu fördern.
Die fortlaufenden Bemühungen von Giskard, Phare weiterzuentwickeln und zu verbessern, sind ein wichtiger Beitrag zur Förderung einer verantwortungsvollen und transparenten KI-Entwicklung. Die geplante Integration von Jailbreak- und Prompt-Injection-Tests sowie die kontinuierliche Aktualisierung der Rangliste mit den neuesten Modellen werden dazu beitragen, die Relevanz und Wirksamkeit des Benchmarks sicherzustellen. Durch die Bereitstellung einer umfassenden und zuverlässigen Bewertung von LLMs leistet Giskard einen wichtigen Beitrag zur Gestaltung einer Zukunft, in der KI-Technologien zum Wohle der Gesellschaft eingesetzt werden, ohne dabei die damit verbundenen Risiken zu vernachlässigen.
Die Studie von Giskard betont auch die Bedeutung von Reinforcement Learning from Human Feedback (RLHF) als eine wichtige Trainingsmethode zur Verbesserung der Sicherheit und Zuverlässigkeit von LLMs. Indem sie menschliches Feedback in den Trainingsprozess einbeziehen, können LLMs lernen, besser auf die Bedürfnisse und Erwartungen der Benutzer einzugehen und gleichzeitig schädliche oder voreingenommene Ausgaben zu vermeiden. Die Ergebnisse deuten darauf hin, dass Modelle, die mit RLHF trainiert wurden, tendenziell weniger anfällig für Verzerrungen und Schädlichkeit sind als Modelle, die ohne diese Technik trainiert wurden.
Die Erkenntnisse von Giskard haben weitreichende Auswirkungen auf die Art und Weise, wie KI-Modelle entwickelt, bewertet und eingesetzt werden. Sie unterstreichen die Notwendigkeit eines ganzheitlichen Ansatzes, der sowohl die technischen Aspekte als auch die ethischen und gesellschaftlichen Auswirkungen berücksichtigt. Indem sie Einblicke in die Stärken und Schwächen verschiedener LLMs gewähren, ermöglichen sie es Entwicklern, informierte Entscheidungen zu treffen und Strategien zur Minderung von Risiken zu entwickeln. Darüber hinaus tragen sie dazu bei, das Bewusstsein für die Bedeutung von Transparenz, Verantwortlichkeit und Fairness in KI-Systemen zu schärfen.
Die Arbeit von Giskard ist ein wichtiger Schritt auf dem Weg zu einer verantwortungsvollen und ethischen KI-Entwicklung. Indem sie eine umfassende und zuverlässige Bewertung von LLMs bereitstellen, leisten sie einen wichtigen Beitrag zur Gestaltung einer Zukunft, in der KI-Technologien zum Wohle der Gesellschaft eingesetzt werden, ohne dabei die damit verbundenen Risiken zu vernachlässigen. Die fortlaufenden Bemühungen des Unternehmens, Phare weiterzuentwickeln und zu verbessern, sind ein Zeichen für sein Engagement für die Förderung einer sicheren, transparenten und verantwortungsvollen KI-Landschaft.