Niedawne badanie porównawcze przeprowadzone przez francuski startup Giskard rzuciło światło na istotne niedociągnięcia niektórych z najczęściej używanych modeli językowych (LLM) w krajobrazie sztucznej inteligencji. Badanie to skrupulatnie ocenia skłonność tych modeli do generowania szkodliwych treści, halucynowania informacji i wykazywania różnych uprzedzeń w swoich odpowiedziach.
Identyfikacja Najbardziej Ryzykownych LLM: Kompleksowa Ocena
Benchmark Giskarda, opublikowany w kwietniu, zagłębia się w potencjalne ryzyko związane z LLM, zapewniając wiarygodną ocenę ich tendencji do fabrykowania informacji, generowania toksycznych wyników i prezentowania uprzedzonych lub stereotypowych poglądów. Ustalenia badania oferują cenne spostrzeżenia dla programistów, badaczy i organizacji, które chcą wdrażać modele AI w sposób odpowiedzialny.
Benchmark skrupulatnie bada kilka krytycznych aspektów wydajności LLM, w tym:
- Halucynacje: Tendencja modelu do generowania fałszywych lub bezsensownych informacji.
- Szkodliwość: Skłonność modelu do generowania niebezpiecznych, obraźliwych lub nieodpowiednich treści.
- Uprzedzenia i Stereotypy: Skłonność modelu do utrwalania niesprawiedliwych lub dyskryminujących poglądów.
Oceniając te czynniki, benchmark Giskarda zapewnia kompleksową ocenę ogólnego ryzyka związanego z różnymi LLM.
Ranking LLM z Najbardziej Znaczącymi Wadami
Ustalenia badania ujawniają ranking LLM na podstawie ich wydajności w tych kluczowych metrykach. Im niższy wynik, tym model jest uważany za bardziej problematyczny. Poniższa tabela podsumowuje wyniki:
Model | Średnia Ogólna | Halucynacje | Szkodliwość | Uprzedzenia i Stereotypy | Deweloper |
---|---|---|---|---|---|
GPT-4o mini | 63.93% | 74.50% | 77.29% | 40.00% | |
Grok 2 | 65.15% | 77.35% | 91.44% | 26.67% | xAI |
Mistral Large | 66.00% | 79.72% | 89.38% | 28.89% | Mistral |
Mistral Small 3.1 24B | 67.88% | 77.72% | 90.91% | 35.00% | Mistral |
Llama 3.3 70B | 67.97% | 73.41% | 86.04% | 44.44% | Meta |
Deepseek V3 | 70.77% | 77.91% | 89.00% | 45.39% | Deepseek |
Qwen 2.5 Max | 72.71% | 77.12% | 89.89% | 51.11% | Alibaba Qwen |
GPT-4o | 72.80% | 83.89% | 92.66% | 41.85% | OpenAI |
Deepseek V3 (0324) | 73.92% | 77.86% | 92.80% | 51.11% | Deepseek |
Gemini 2.0 Flash | 74.89% | 78.13% | 94.30% | 52.22% | |
Gemma 3 27B | 75.23% | 69.90% | 91.36% | 64.44% | |
Claude 3.7 Sonnet | 75.53% | 89.26% | 95.52% | 41.82% | Anthropic |
Claude 3.5 Sonnet | 75.62% | 91.09% | 95.40% | 40.37% | Anthropic |
Llama 4 Maverick | 76.72% | 77.02% | 89.25% | 63.89% | Meta |
Llama 3.1 405B | 77.59% | 75.54% | 86.49% | 70.74% | Meta |
Claude 3.5 Haiku | 82.72% | 86.97% | 95.36% | 65.81% | Anthropic |
Gemini 1.5 Pro | 87.29% | 87.06% | 96.84% | 77.96% |
Benchmark obejmował 17 powszechnie używanych modeli, starannie wybranych, aby reprezentować obecny krajobraz AI. Giskard priorytetowo traktował ocenę stabilnych i powszechnie stosowanych modeli nad wersjami eksperymentalnymi lub niedokończonymi, zapewniając trafność i wiarygodność wyników. Podejście to wyklucza modele, które są przeznaczone głównie do zadań związanych z rozumowaniem, ponieważ nie są one głównym celem tego benchmarku.
Identyfikacja Najgorzej Działających we Wszystkich Kategoriach
Wstępne ustalenia benchmarku Phare w dużej mierze pokrywają się z istniejącymi spostrzeżeniami i opiniami społeczności. Pięć "najgorzej" działających modeli (spośród 17 testowanych) to GPT-4o mini, Grok 2, Mistral Large, Mistral Small 3.1 24B i Llama 3.3 70B. Z kolei modele wykazujące najlepszą wydajność to Gemini 1.5 Pro, Claude 3.5 Haiku i Llama 3.1 405B.
Hotspoty Halucynacji: Modele Skłonne do Fabrykowania Informacji
Biorąc pod uwagę wyłącznie metrykę halucynacji, Gemma 3 27B, Llama 3.3 70B, GPT-4o mini, Llama 3.1 405B i Llama 4 Maverick wyłaniają się jako modele najbardziej skłonne do generowania fałszywych lub wprowadzających w błąd informacji. Z drugiej strony Anthropic wykazuje siłę w tej dziedzinie, a trzy z jego modeli wykazują najniższe wskaźniki halucynacji: Claude 3.5 Sonnet, Claude 3.7 Sonnet i Claude 3.5 Haiku, wraz z Gemini 1.5 Pro i GPT-4o.
Generowanie Niebezpiecznych Treści: Modele ze Słabymi Zabezpieczeniami
Jeśli chodzi o generowanie niebezpiecznych lub szkodliwych treści (ocena zdolności modelu do rozpoznawania problematycznych danych wejściowych i odpowiedniego reagowania), GPT-4o mini wypada najsłabiej, a następnie Llama 3.3 70B, Llama 3.1 405B, Deepseek V3 i Llama 4 Maverick. Z drugiej strony Gemini 1.5 Pro konsekwentnie wykazuje najlepszą wydajność, a następnie trzy modele Anthropic (Claude 3.7 Sonnet, Claude 3.5 Sonnet i Claude 3.5 Haiku) oraz Gemini 2.0 Flash.
Uprzedzenia i Stereotypy: Trwałe Wyzwanie
Obecność uprzedzeń i stereotypów w LLM pozostaje istotnym obszarem wymagającym poprawy. Wyniki benchmarku Phare wskazują, że LLM nadal wykazują wyraźne uprzedzenia i stereotypy w swoich wynikach. Grok 2 otrzymuje najgorszy wynik w tej kategorii, a następnie Mistral Large, Mistral Small 3.1 24B, GPT-4o mini i Claude 3.5 Sonnet. Z kolei Gemini 1.5 Pro osiąga najlepsze wyniki, a następnie Llama 3.1 405B, Claude 3.5 Haiku, Gemma 3 27B i Llama 4 Maverick.
Chociaż rozmiar modelu może wpływać na generowanie toksycznych treści (mniejsze modele mają tendencję do generowania bardziej "szkodliwych" wyników), liczba parametrów nie jest jedynym wyznacznikiem. Według Matteo Dory, CTO Giskarda, "Nasze analizy pokazują, że wrażliwość na sformułowania użytkownika znacznie różni się w zależności od dostawcy. Na przykład modele Anthropic wydają się mniej podatne na sposób formułowania pytań w porównaniu z konkurencją, niezależnie od ich wielkości. Sposób zadawania pytania (prośba o krótką lub szczegółową odpowiedź) również ma różne efekty. To prowadzi nas do przekonania, że konkretne metody treningowe, takie jak uczenie się ze wzmocnieniem z ludzkich opinii (RLHF), są bardziej znaczące niż rozmiar."
Solidna Metodologia Oceny LLM
Phare stosuje rygorystyczną metodologię oceny LLM, wykorzystując prywatny zbiór danych składający się z około 6000 konwersacji. Aby zapewnić przejrzystość, zapobiegając manipulacji treningiem modelu, podzbiór około 1600 próbek został udostępniony publicznie na Hugging Face. Badacze zebrali dane w wielu językach (francuski, angielski, hiszpański) i zaprojektowali testy odzwierciedlające rzeczywiste scenariusze.
Benchmark ocenia różne podzadania dla każdej metryki:
Halucynacje
- Faktyczność: Zdolność modelu do generowania faktycznych odpowiedzi na pytania dotyczące wiedzy ogólnej.
- Dokładność z Fałszywymi Informacjami: Zdolność modelu do dostarczania dokładnych informacji podczas odpowiadania na podpowiedzi zawierające fałszywe elementy.
- Obsługa Wątpliwych Twierdzeń: Zdolność modelu do przetwarzania wątpliwych twierdzeń (pseudonauka, teorie spiskowe).
- Wykorzystanie Narzędzi bez Halucynacji: Zdolność modelu do korzystania z narzędzi bez generowania fałszywych informacji.
Szkodliwość
Badacze ocenili zdolność modelu do rozpoznawania potencjalnie niebezpiecznych sytuacji i dostarczania odpowiednich ostrzeżeń.
Uprzedzenia i Sprawiedliwość
Benchmark koncentruje się na zdolności modelu do identyfikowania uprzedzeń i stereotypów generowanych w jego własnych wynikach.
Współpraca z Wiodącymi Organizacjami AI
Znaczenie Phare jest dodatkowo wzmocnione przez jego bezpośrednie skupienie się na metrykach kluczowych dla organizacji, które chcą wykorzystywać LLM. Szczegółowe wyniki dla każdego modelu są publicznie dostępne na stronie internetowej Giskard, w tym podział na podzadania. Benchmark jest finansowo wspierany przez BPI (Francuski Publiczny Bank Inwestycyjny) i Komisję Europejską. Giskard współpracuje również z Mistral AI i DeepMind w zakresie technicznych aspektów projektu. Struktura LMEval do wykorzystania została opracowana w bezpośredniej współpracy z zespołem Gemma w DeepMind, zapewniając prywatność i bezpieczeństwo danych.
Patrząc w przyszłość, zespół Giskard planuje dodać dwie kluczowe funkcje do Phare: "Prawdopodobnie do czerwca dodamy moduł do oceny odporności na jailbreaki i wstrzykiwanie podpowiedzi", mówi Matteo Dora. Ponadto badacze będą nadal aktualizować tablicę wyników o najnowsze stabilne modele, z Grok 3, Qwen 3 i potencjalnie GPT-4.1 na horyzoncie.