Най-проблемните AI модели: Рискове и пристрастия

Неотдавнашно проучване на френския стартъп Giskard хвърли светлина върху значителните недостатъци на някои от най-широко използваните езикови модели (LLM) в сферата на изкуствения интелект. Това проучване старателно оценява склонността на тези модели да генерират вредно съдържание, да халюцинират информация и да проявяват различни пристрастия в отговорите си.

Идентифициране на най-рисковите LLM: Всеобхватна оценка

Бенчмаркът на Giskard, публикуван през април, разглежда потенциалните рискове, свързани с LLM, предоставяйки надеждна оценка на тяхната склонност да фабрикуват информация, да генерират токсични резултати и да показват предубедени или стереотипни възгледи. Констатациите от проучването предлагат ценна информация за разработчици, изследователи и организации, които се стремят да внедряват AI модели отговорно.

Бенчмаркът старателно разглежда няколко критични аспекта от представянето на LLM, включително:

  • Халюцинации: Склонността на модела да генерира невярна или безсмислена информация.
  • Вредност: Склонността на модела да генерира опасно, обидно или неподходящо съдържание.
  • Пристрастия и стереотипи: Склонността на модела да увековечава несправедливи или дискриминационни възгледи.

Чрез оценката на тези фактори, бенчмаркът на Giskard предоставя всеобхватна оценка на общия риск, свързан с различните LLM.

Класиране на LLM с най-значителни недостатъци

Констатациите от проучването разкриват класиране на LLM въз основа на тяхното представяне в тези ключови показатели. Колкото по-нисък е резултатът, толкова по-проблематичен се счита моделът. Таблицата по-долу обобщава резултатите:

Модел Общ среден резултат Халюцинации Вредност Пристрастия & стереотипи Разработчик
GPT-4o mini 63.93% 74.50% 77.29% 40.00%
Grok 2 65.15% 77.35% 91.44% 26.67% xAI
Mistral Large 66.00% 79.72% 89.38% 28.89% Mistral
Mistral Small 3.1 24B 67.88% 77.72% 90.91% 35.00% Mistral
Llama 3.3 70B 67.97% 73.41% 86.04% 44.44% Meta
Deepseek V3 70.77% 77.91% 89.00% 45.39% Deepseek
Qwen 2.5 Max 72.71% 77.12% 89.89% 51.11% Alibaba Qwen
GPT-4o 72.80% 83.89% 92.66% 41.85% OpenAI
Deepseek V3 (0324) 73.92% 77.86% 92.80% 51.11% Deepseek
Gemini 2.0 Flash 74.89% 78.13% 94.30% 52.22% Google
Gemma 3 27B 75.23% 69.90% 91.36% 64.44% Google
Claude 3.7 Sonnet 75.53% 89.26% 95.52% 41.82% Anthropic
Claude 3.5 Sonnet 75.62% 91.09% 95.40% 40.37% Anthropic
Llama 4 Maverick 76.72% 77.02% 89.25% 63.89% Meta
Llama 3.1 405B 77.59% 75.54% 86.49% 70.74% Meta
Claude 3.5 Haiku 82.72% 86.97% 95.36% 65.81% Anthropic
Gemini 1.5 Pro 87.29% 87.06% 96.84% 77.96% Google

Бенчмаркът обхвана 17 широко използвани модела, внимателно подбрани да представят настоящата AI среда. Giskard даде приоритет на оценката на стабилни и широко възприети модели пред експериментални или незавършени версии, осигурявайки уместността и надеждността на резултатите. Този подход изключва модели, които са основно предназначени за задачи за разсъждение, тъй като те не са основният фокус на този бенчмарк.

Идентифициране на най-слабо представящите се във всички категории

Първоначалните констатации на бенчмарка Phare до голяма степен се привеждат в съответствие със съществуващите обществени възприятия и обратна връзка. Петте „най-лошо“ представящи се модела (от тестваните 17) включват GPT-4o mini, Grok 2, Mistral Large, Mistral Small 3.1 24B и Llama 3.3 70B. Обратно, моделите, демонстриращи най-добро представяне, включват Gemini 1.5 Pro, Claude 3.5 Haiku и Llama 3.1 405B.

Горещи точки на халюцинации: Модели, склонни към фабрикуване на информация

Когато се разглежда единствено показателят за халюцинации, Gemma 3 27B, Llama 3.3 70B, GPT-4o mini, Llama 3.1 405B и Llama 4 Maverick се очертават като моделите, най-склонни да генерират невярна или подвеждаща информация. За разлика от тях, Anthropic демонстрира сила в тази област, като три от нейните модели показват най-ниските нива на халюцинации: Claude 3.5 Sonnet, Claude 3.7 Sonnet и Claude 3.5 Haiku, заедно с Gemini 1.5 Pro и GPT-4o.

Генериране на опасно съдържание: Модели със слаби предпазни мерки

По отношение на генерирането на опасно или вредно съдържание (оценка на способността на модела да разпознава проблематични входни данни и да реагира по подходящ начин), GPT-4o mini се представя най-зле, последван от Llama 3.3 70B, Llama 3.1 405B, Deepseek V3 и Llama 4 Maverick. От друга страна, Gemini 1.5 Pro последователно демонстрира най-добро представяне, следван плътно от трите модела на Anthropic (Claude 3.7 Sonnet, Claude 3.5 Sonnet и Claude 3.5 Haiku) и Gemini 2.0 Flash.

Пристрастия и стереотипи: Постоянно предизвикателство

Наличието на пристрастия и стереотипи в LLM остава значителна област, изискваща подобрение. Резултатите от бенчмарка Phare показват, че LLM все още проявяват забележими пристрастия и стереотипи в своите резултати. Grok 2 получава най-лошия резултат в тази категория, последван от Mistral Large, Mistral Small 3.1 24B, GPT-4o mini и Claude 3.5 Sonnet. Обратно, Gemini 1.5 Pro постига най-добрите резултати, последван от Llama 3.1 405B, Claude 3.5 Haiku, Gemma 3 27B и Llama 4 Maverick.

Въпреки че размерът на модела може да повлияе на генерирането на токсично съдържание (по-малките модели са склонни да генерират повече „вредни“ резултати), броят на параметрите не е единственият определящ фактор. Според Матео Дора, главен технологичен директор на Giskard, „Нашите анализи показват, че чувствителността към формулировката на потребителите варира значително при различните доставчици. Например, моделите на Anthropic изглеждат по-малко повлияни от начина, по който са формулирани въпросите, в сравнение с техните конкуренти, независимо от техния размер. Начинът на задаване на въпроса (заявка за кратък или подробен отговор) също има различни ефекти. Това ни кара да вярваме, че специфични методи на обучение, като обучение с подсилване от обратна връзка от хора (RLHF), са по-значими от размера.“

Надеждна методология за оценка на LLM

Phare използва строга методология за оценка на LLM, използвайки частен набор от данни от приблизително 6000 разговора. За да се осигури прозрачност, като същевременно се предотврати манипулиране на обучението на модела, подмножество от приблизително 1600 проби е направено публично достъпно в Hugging Face. Изследователите събраха данни на няколко езика (френски, английски, испански) и проектираха тестове, които отразяват сценарии от реалния свят.

Бенчмаркът оценява различни подзадачи за всеки показател:

Халюцинации

  • Фактология: Способността на модела да генерира фактически отговори на въпроси с общи познания.
  • Точност с невярна информация: Способността на модела да предоставя точна информация, когато отговаря на подкани, съдържащи неверни елементи.
  • Обработка на съмнителни твърдения: Способността на модела да обработва съмнителни твърдения (псевдонаука, конспиративни теории).
  • Използване на инструменти без халюцинации: Способността на модела да използва инструменти, без да генерира невярна информация.

Вредност

Изследователите оцениха способността на модела да разпознава потенциално опасни ситуации и да предоставя подходящи предупреждения.

Пристрастия и справедливост

Бенчмаркът се фокусира върху способността на модела да идентифицира пристрастия и стереотипи, генерирани в неговите собствени резултати.

Сътрудничество с водещи AI организации

Значението на Phare е допълнително подсилено от прекия му фокус върху показатели, които са от решаващо значение за организации, които се стремят да използват LLM. Подробните резултати за всеки модел са публично достъпни на уебсайта на Giskard, включително разбивки по подзадачи. Бенчмаркът е финансово подкрепен от BPI (Френска публична инвестиционна банка) и Европейската комисия. Giskard също си партнира с Mistral AI и DeepMind по техническите аспекти на проекта. Рамката LMEval за използване е разработена в пряко сътрудничество с екипа на Gemma в DeepMind, осигурявайки поверителност и сигурност на данните.

В бъдеще екипът на Giskard планира да добави две ключови функции към Phare: „Вероятно до юни ще добавим модул за оценка на устойчивостта на jailbreaks и prompt injection“, казва Матео Дора. Освен това, изследователите ще продължат да актуализират класацията с най-новите стабилни модели, като Grok 3, Qwen 3 и потенциално GPT-4.1 са на хоризонта.