Недавнее исследование французского стартапа Giskard пролило свет на существенные недостатки некоторых из наиболее широко используемых языковых моделей (LLM) в сфере искусственного интеллекта (AI). Это исследование тщательно оценивает склонность этих моделей генерировать вредоносный контент, галлюцинировать информацию и демонстрировать различные предвзятости в своих ответах.
Выявление наиболее рискованных LLM: всесторонняя оценка
Бенчмарк Giskard, опубликованный в апреле, углубляется в потенциальные риски, связанные с LLM, предоставляя надежную оценку их склонности фабриковать информацию, выдавать токсичные результаты и демонстрировать предвзятые или стереотипные взгляды. Результаты исследования предлагают ценную информацию для разработчиков, исследователей и организаций, стремящихся ответственно развертывать модели AI.
Бенчмарк тщательно изучает несколько критических аспектов производительности LLM, включая:
- Галлюцинации: Склонность модели генерировать ложную или бессмысленную информацию.
- Вредоносность: Склонность модели создавать опасный, оскорбительный или неподобающий контент.
- Предвзятость и стереотипы: Склонность модели увековечивать несправедливые или дискриминационные взгляды.
Оценивая эти факторы, бенчмарк Giskard предоставляет всестороннюю оценку общего риска, связанного с различными LLM.
Рейтинг LLM с наиболее значительными недостатками
Результаты исследования выявляют рейтинг LLM на основе их производительности по этим ключевым показателям. Чем ниже балл, тем более проблематичной считается модель. В таблице ниже приведены сводные результаты:
Модель | Общий средний | Галлюцинации | Вредоносность | Предвзятость и стереотипы | Разработчик |
---|---|---|---|---|---|
GPT-4o mini | 63.93% | 74.50% | 77.29% | 40.00% | |
Grok 2 | 65.15% | 77.35% | 91.44% | 26.67% | xAI |
Mistral Large | 66.00% | 79.72% | 89.38% | 28.89% | Mistral |
Mistral Small 3.1 24B | 67.88% | 77.72% | 90.91% | 35.00% | Mistral |
Llama 3.3 70B | 67.97% | 73.41% | 86.04% | 44.44% | Meta |
Deepseek V3 | 70.77% | 77.91% | 89.00% | 45.39% | Deepseek |
Qwen 2.5 Max | 72.71% | 77.12% | 89.89% | 51.11% | Alibaba Qwen |
GPT-4o | 72.80% | 83.89% | 92.66% | 41.85% | OpenAI |
Deepseek V3 (0324) | 73.92% | 77.86% | 92.80% | 51.11% | Deepseek |
Gemini 2.0 Flash | 74.89% | 78.13% | 94.30% | 52.22% | |
Gemma 3 27B | 75.23% | 69.90% | 91.36% | 64.44% | |
Claude 3.7 Sonnet | 75.53% | 89.26% | 95.52% | 41.82% | Anthropic |
Claude 3.5 Sonnet | 75.62% | 91.09% | 95.40% | 40.37% | Anthropic |
Llama 4 Maverick | 76.72% | 77.02% | 89.25% | 63.89% | Meta |
Llama 3.1 405B | 77.59% | 75.54% | 86.49% | 70.74% | Meta |
Claude 3.5 Haiku | 82.72% | 86.97% | 95.36% | 65.81% | Anthropic |
Gemini 1.5 Pro | 87.29% | 87.06% | 96.84% | 77.96% |
Бенчмарк охватывал 17 широко используемых моделей, тщательно отобранных для представления текущей ситуации в области AI. Giskard отдавал приоритет оценке стабильных и широко распространенных моделей, а не экспериментальным или незавершенным версиям, обеспечивая релевантность и надежность результатов. Этот подход исключает модели, которые в первую очередь предназначены для задач рассуждения, поскольку они не являются основным направлением этого бенчмарка.
Выявление худших результатов по всем категориям
Первоначальные результаты бенчмарка Phare в значительной степени совпадают с существующими представлениями и отзывами сообщества. В пятерку "худших" моделей (из 17 протестированных) входят GPT-4o mini, Grok 2, Mistral Large, Mistral Small 3.1 24B и Llama 3.3 70B. И наоборот, модели, демонстрирующие наилучшую производительность, включают Gemini 1.5 Pro, Claude 3.5 Haiku и Llama 3.1 405B.
Галлюцинационные точки: модели, склонные к фабрикации информации
Если рассматривать только показатель галлюцинаций, Gemma 3 27B, Llama 3.3 70B, GPT-4o mini, Llama 3.1 405B и Llama 4 Maverick оказываются моделями, наиболее склонными к генерированию ложной или вводящей в заблуждение информации. В отличие от этого, Anthropic демонстрирует силу в этой области, причем три из ее моделей демонстрируют самые низкие показатели галлюцинаций: Claude 3.5 Sonnet, Claude 3.7 Sonnet и Claude 3.5 Haiku, а также Gemini 1.5 Pro и GPT-4o.
Создание опасного контента: модели со слабыми мерами безопасности
Что касается генерации опасного или вредоносного контента (оценка способности модели распознавать проблематичные входные данные и реагировать соответствующим образом), GPT-4o mini показывает худшие результаты, за которым следуют Llama 3.3 70B, Llama 3.1 405B, Deepseek V3 и Llama 4 Maverick. С другой стороны, Gemini 1.5 Pro неизменно демонстрирует наилучшую производительность, за ним вплотную следуют три модели Anthropic (Claude 3.7 Sonnet, Claude 3.5 Sonnet и Claude 3.5 Haiku) и Gemini 2.0 Flash.
Предвзятость и стереотипы: постоянная проблема
Наличие предвзятости и стереотипов в LLM остается значительной областью, требующей улучшения. Результаты бенчмарка Phare показывают, что LLM по-прежнему демонстрируют выраженные предвзятости и стереотипы в своих результатах. Grok 2 получает худший балл в этой категории, за которым следуют Mistral Large, Mistral Small 3.1 24B, GPT-4o mini и Claude 3.5 Sonnet. И наоборот, Gemini 1.5 Pro достигает лучших результатов, за которым следуют Llama 3.1 405B, Claude 3.5 Haiku, Gemma 3 27B и Llama 4 Maverick.
Хотя размер модели может влиять на генерацию токсичного контента (более мелкие модели, как правило, производят больше "вредоносных" результатов), количество параметров не является единственным определяющим фактором. По словам Маттео Дора, технического директора Giskard, "наш анализ показывает, что чувствительность к формулировкам пользователей значительно варьируется у разных поставщиков. Например, модели Anthropic, похоже, меньше подвержены влиянию того, как сформулированы вопросы, по сравнению с их конкурентами, независимо от их размера. Способ задавания вопроса (запрос краткого или подробного ответа) также оказывает различное воздействие. Это приводит нас к убеждению, что конкретные методы обучения, такие как обучение с подкреплением на основе обратной связи с человеком (RLHF), более значимы, чем размер."
Надежная методология для оценки LLM
Phare использует строгую методологию для оценки LLM, используя частный набор данных, состоящий примерно из 6000 разговоров. Чтобы обеспечить прозрачность, предотвращая при этом манипулирование обучением модели, подмножество примерно из 1600 образцов было сделано общедоступным на Hugging Face. Исследователи собрали данные на нескольких языках (французском, английском, испанском) и разработали тесты, отражающие реальные сценарии.
Бенчмарк оценивает различные подзадачи для каждой метрики:
Галлюцинации
- Фактологичность: Способность модели генерировать фактические ответы на вопросы общих знаний.
- Точность с ложной информацией: Способность модели предоставлять точную информацию при ответе на подсказки, содержащие ложные элементы.
- Обработка сомнительных утверждений: Способность модели обрабатывать сомнительные утверждения (псевдонаука, теории заговора).
- Использование инструментов без галлюцинаций: Способность модели использовать инструменты без генерирования ложной информации.
Вредоносность
Исследователи оценили способность модели распознавать потенциально опасные ситуации и предоставлять соответствующие предупреждения.
Предвзятость и справедливость
Бенчмарк фокусируется на способности модели выявлять предвзятости и стереотипы, генерируемые в ее собственных результатах.
Сотрудничество с ведущими AI организациями
Значение Phare еще больше усиливается его прямой направленностью на показатели, имеющие решающее значение для организаций, стремящихся использовать LLM. Подробные результаты для каждой модели общедоступны на веб-сайте Giskard, включая разбивку по подзадачам. Бенчмарк финансово поддерживается BPI (Французский государственный инвестиционный банк) и Европейской комиссией. Giskard также сотрудничает с Mistral AI и DeepMind по техническим аспектам проекта. Структура LMEval для использования была разработана в прямом сотрудничестве с командой Gemma в DeepMind, обеспечивая конфиденциальность и безопасность данных.
Заглядывая вперед, команда Giskard планирует добавить две ключевые функции в Phare: "Вероятно, к июню мы добавим модуль для оценки устойчивости к взломам и инъекциям подсказок", - говорит Маттео Дора. Кроме того, исследователи продолжат обновлять таблицу лидеров последними стабильными моделями, причем Grok 3, Qwen 3 и, возможно, GPT-4.1 уже на горизонте.