Modele AI: Zagrożenia, Halucynacje i Uprzedzenia

Niedawne badanie porównawcze przeprowadzone przez francuski startup Giskard rzuciło światło na istotne niedociągnięcia niektórych z najczęściej używanych modeli językowych (LLM) w krajobrazie sztucznej inteligencji. Badanie to skrupulatnie ocenia skłonność tych modeli do generowania szkodliwych treści, halucynowania informacji i wykazywania różnych uprzedzeń w swoich odpowiedziach.

Identyfikacja Najbardziej Ryzykownych LLM: Kompleksowa Ocena

Benchmark Giskarda, opublikowany w kwietniu, zagłębia się w potencjalne ryzyko związane z LLM, zapewniając wiarygodną ocenę ich tendencji do fabrykowania informacji, generowania toksycznych wyników i prezentowania uprzedzonych lub stereotypowych poglądów. Ustalenia badania oferują cenne spostrzeżenia dla programistów, badaczy i organizacji, które chcą wdrażać modele AI w sposób odpowiedzialny.

Benchmark skrupulatnie bada kilka krytycznych aspektów wydajności LLM, w tym:

  • Halucynacje: Tendencja modelu do generowania fałszywych lub bezsensownych informacji.
  • Szkodliwość: Skłonność modelu do generowania niebezpiecznych, obraźliwych lub nieodpowiednich treści.
  • Uprzedzenia i Stereotypy: Skłonność modelu do utrwalania niesprawiedliwych lub dyskryminujących poglądów.

Oceniając te czynniki, benchmark Giskarda zapewnia kompleksową ocenę ogólnego ryzyka związanego z różnymi LLM.

Ranking LLM z Najbardziej Znaczącymi Wadami

Ustalenia badania ujawniają ranking LLM na podstawie ich wydajności w tych kluczowych metrykach. Im niższy wynik, tym model jest uważany za bardziej problematyczny. Poniższa tabela podsumowuje wyniki:

Model Średnia Ogólna Halucynacje Szkodliwość Uprzedzenia i Stereotypy Deweloper
GPT-4o mini 63.93% 74.50% 77.29% 40.00%
Grok 2 65.15% 77.35% 91.44% 26.67% xAI
Mistral Large 66.00% 79.72% 89.38% 28.89% Mistral
Mistral Small 3.1 24B 67.88% 77.72% 90.91% 35.00% Mistral
Llama 3.3 70B 67.97% 73.41% 86.04% 44.44% Meta
Deepseek V3 70.77% 77.91% 89.00% 45.39% Deepseek
Qwen 2.5 Max 72.71% 77.12% 89.89% 51.11% Alibaba Qwen
GPT-4o 72.80% 83.89% 92.66% 41.85% OpenAI
Deepseek V3 (0324) 73.92% 77.86% 92.80% 51.11% Deepseek
Gemini 2.0 Flash 74.89% 78.13% 94.30% 52.22% Google
Gemma 3 27B 75.23% 69.90% 91.36% 64.44% Google
Claude 3.7 Sonnet 75.53% 89.26% 95.52% 41.82% Anthropic
Claude 3.5 Sonnet 75.62% 91.09% 95.40% 40.37% Anthropic
Llama 4 Maverick 76.72% 77.02% 89.25% 63.89% Meta
Llama 3.1 405B 77.59% 75.54% 86.49% 70.74% Meta
Claude 3.5 Haiku 82.72% 86.97% 95.36% 65.81% Anthropic
Gemini 1.5 Pro 87.29% 87.06% 96.84% 77.96% Google

Benchmark obejmował 17 powszechnie używanych modeli, starannie wybranych, aby reprezentować obecny krajobraz AI. Giskard priorytetowo traktował ocenę stabilnych i powszechnie stosowanych modeli nad wersjami eksperymentalnymi lub niedokończonymi, zapewniając trafność i wiarygodność wyników. Podejście to wyklucza modele, które są przeznaczone głównie do zadań związanych z rozumowaniem, ponieważ nie są one głównym celem tego benchmarku.

Identyfikacja Najgorzej Działających we Wszystkich Kategoriach

Wstępne ustalenia benchmarku Phare w dużej mierze pokrywają się z istniejącymi spostrzeżeniami i opiniami społeczności. Pięć "najgorzej" działających modeli (spośród 17 testowanych) to GPT-4o mini, Grok 2, Mistral Large, Mistral Small 3.1 24B i Llama 3.3 70B. Z kolei modele wykazujące najlepszą wydajność to Gemini 1.5 Pro, Claude 3.5 Haiku i Llama 3.1 405B.

Hotspoty Halucynacji: Modele Skłonne do Fabrykowania Informacji

Biorąc pod uwagę wyłącznie metrykę halucynacji, Gemma 3 27B, Llama 3.3 70B, GPT-4o mini, Llama 3.1 405B i Llama 4 Maverick wyłaniają się jako modele najbardziej skłonne do generowania fałszywych lub wprowadzających w błąd informacji. Z drugiej strony Anthropic wykazuje siłę w tej dziedzinie, a trzy z jego modeli wykazują najniższe wskaźniki halucynacji: Claude 3.5 Sonnet, Claude 3.7 Sonnet i Claude 3.5 Haiku, wraz z Gemini 1.5 Pro i GPT-4o.

Generowanie Niebezpiecznych Treści: Modele ze Słabymi Zabezpieczeniami

Jeśli chodzi o generowanie niebezpiecznych lub szkodliwych treści (ocena zdolności modelu do rozpoznawania problematycznych danych wejściowych i odpowiedniego reagowania), GPT-4o mini wypada najsłabiej, a następnie Llama 3.3 70B, Llama 3.1 405B, Deepseek V3 i Llama 4 Maverick. Z drugiej strony Gemini 1.5 Pro konsekwentnie wykazuje najlepszą wydajność, a następnie trzy modele Anthropic (Claude 3.7 Sonnet, Claude 3.5 Sonnet i Claude 3.5 Haiku) oraz Gemini 2.0 Flash.

Uprzedzenia i Stereotypy: Trwałe Wyzwanie

Obecność uprzedzeń i stereotypów w LLM pozostaje istotnym obszarem wymagającym poprawy. Wyniki benchmarku Phare wskazują, że LLM nadal wykazują wyraźne uprzedzenia i stereotypy w swoich wynikach. Grok 2 otrzymuje najgorszy wynik w tej kategorii, a następnie Mistral Large, Mistral Small 3.1 24B, GPT-4o mini i Claude 3.5 Sonnet. Z kolei Gemini 1.5 Pro osiąga najlepsze wyniki, a następnie Llama 3.1 405B, Claude 3.5 Haiku, Gemma 3 27B i Llama 4 Maverick.

Chociaż rozmiar modelu może wpływać na generowanie toksycznych treści (mniejsze modele mają tendencję do generowania bardziej "szkodliwych" wyników), liczba parametrów nie jest jedynym wyznacznikiem. Według Matteo Dory, CTO Giskarda, "Nasze analizy pokazują, że wrażliwość na sformułowania użytkownika znacznie różni się w zależności od dostawcy. Na przykład modele Anthropic wydają się mniej podatne na sposób formułowania pytań w porównaniu z konkurencją, niezależnie od ich wielkości. Sposób zadawania pytania (prośba o krótką lub szczegółową odpowiedź) również ma różne efekty. To prowadzi nas do przekonania, że konkretne metody treningowe, takie jak uczenie się ze wzmocnieniem z ludzkich opinii (RLHF), są bardziej znaczące niż rozmiar."

Solidna Metodologia Oceny LLM

Phare stosuje rygorystyczną metodologię oceny LLM, wykorzystując prywatny zbiór danych składający się z około 6000 konwersacji. Aby zapewnić przejrzystość, zapobiegając manipulacji treningiem modelu, podzbiór około 1600 próbek został udostępniony publicznie na Hugging Face. Badacze zebrali dane w wielu językach (francuski, angielski, hiszpański) i zaprojektowali testy odzwierciedlające rzeczywiste scenariusze.

Benchmark ocenia różne podzadania dla każdej metryki:

Halucynacje

  • Faktyczność: Zdolność modelu do generowania faktycznych odpowiedzi na pytania dotyczące wiedzy ogólnej.
  • Dokładność z Fałszywymi Informacjami: Zdolność modelu do dostarczania dokładnych informacji podczas odpowiadania na podpowiedzi zawierające fałszywe elementy.
  • Obsługa Wątpliwych Twierdzeń: Zdolność modelu do przetwarzania wątpliwych twierdzeń (pseudonauka, teorie spiskowe).
  • Wykorzystanie Narzędzi bez Halucynacji: Zdolność modelu do korzystania z narzędzi bez generowania fałszywych informacji.

Szkodliwość

Badacze ocenili zdolność modelu do rozpoznawania potencjalnie niebezpiecznych sytuacji i dostarczania odpowiednich ostrzeżeń.

Uprzedzenia i Sprawiedliwość

Benchmark koncentruje się na zdolności modelu do identyfikowania uprzedzeń i stereotypów generowanych w jego własnych wynikach.

Współpraca z Wiodącymi Organizacjami AI

Znaczenie Phare jest dodatkowo wzmocnione przez jego bezpośrednie skupienie się na metrykach kluczowych dla organizacji, które chcą wykorzystywać LLM. Szczegółowe wyniki dla każdego modelu są publicznie dostępne na stronie internetowej Giskard, w tym podział na podzadania. Benchmark jest finansowo wspierany przez BPI (Francuski Publiczny Bank Inwestycyjny) i Komisję Europejską. Giskard współpracuje również z Mistral AI i DeepMind w zakresie technicznych aspektów projektu. Struktura LMEval do wykorzystania została opracowana w bezpośredniej współpracy z zespołem Gemma w DeepMind, zapewniając prywatność i bezpieczeństwo danych.

Patrząc w przyszłość, zespół Giskard planuje dodać dwie kluczowe funkcje do Phare: "Prawdopodobnie do czerwca dodamy moduł do oceny odporności na jailbreaki i wstrzykiwanie podpowiedzi", mówi Matteo Dora. Ponadto badacze będą nadal aktualizować tablicę wyników o najnowsze stabilne modele, z Grok 3, Qwen 3 i potencjalnie GPT-4.1 na horyzoncie.