Излъга ли xAI за тестовете на Grok 3

Поглед отблизо към противоречието

Лабораториите за изкуствен интелект (AI) все по-често се оказват въвлечени в публични спорове относно бенчмарковете за AI и по-конкретно, начина, по който тези бенчмаркове се представят на широката общественост.

Наскоро служител на OpenAI отправи обвинение срещу xAI, AI начинанието на Илон Мъск. Какво твърди? Че xAI е представила подвеждащи резултати от бенчмаркове за най-новия си AI модел, Grok 3. Това предизвика дебат, като един от съоснователите на xAI, Игор Бабушкин, категорично защити позицията на компанията.

Реалността на ситуацията, както често се случва, се крие в по-нюансирана средна позиция.

В публикация в блог xAI показа графика, изобразяваща представянето на Grok 3 на AIME 2025. Това е набор от трудни математически задачи, извлечени от скорошен изпит по математика с покани. Докато някои експерти изразяват съмнения относно валидността на AIME като окончателен AI бенчмарк, той, заедно с по-стари версии на теста, остава често използван инструмент за оценка на математическите способности на модела.

Декодиране на графиката на xAI

Графиката, представена от xAI, показва две разновидности на Grok 3 – Grok 3 Reasoning Beta и Grok 3 mini Reasoning – които изглежда превъзхождат най-добре представящия се наличен модел на OpenAI, o3-mini-high, на AIME 2025. Служителите на OpenAI обаче реагираха бързо в социалните медии, отбелязвайки очевиден пропуск: графиката на xAI не включва резултата на o3-mini-high от AIME 2025 при „cons@64“.

Какво точно е “cons@64”? Това е съкращение от “consensus@64”, метод, който по същество дава на модела 64 опита да реши всеки проблем в рамките на бенчмарк. Отговорите, генерирани най-често, след това се избират като окончателни отговори. Както може да се очаква, cons@64 често значително повишава резултатите от бенчмарковете на модела. Пропускането му от сравнителна графика може да създаде илюзията, че един модел превъзхожда друг, когато всъщност това може да не е така.

Твърдението за „най-умния AI в света“

Когато се разглеждат резултатите от AIME 2025 при “@1” – което показва първия резултат, който моделите са постигнали на бенчмарка – както Grok 3 Reasoning Beta, така и Grok 3 mini Reasoning не достигат резултата на o3-mini-high. Освен това Grok 3 Reasoning Beta изостава незначително от модела o1 на OpenAI, настроен на „средно“ изчисление. Въпреки тези резултати, xAI активно популяризира Grok 3 като „най-умния AI в света“.

Бабушкин, използвайки социалните медии, контрира, че OpenAI в миналото е публикувала подобни подвеждащи графики за бенчмаркове. Тези графики обаче са били използвани за сравняване на производителността на собствените модели на OpenAI. По-безпристрастен наблюдател в дебата създаде по-“точна” графика, показваща представянето на почти всеки модел при cons@64.

Липсващата метрика: Изчислителна цена

Изследователят на AI Нейтън Ламбърт подчерта критична точка: най-важната метрика остава забулена в мистерия. Това е изчислителната (и финансова) цена, направена от всеки модел, за да постигне най-добрия си резултат. Това подчертава фундаментален проблем с повечето AI бенчмаркове – те разкриват много малко за ограниченията на модела или, в този смисъл, за неговите силни страни.

Дебатът относно бенчмарковете на Grok 3 подчертава по-широк проблем в AI общността: необходимостта от по-голяма прозрачност и стандартизация в начина, по който AI моделите се оценяват и сравняват.

По-задълбочено в AI бенчмаркинга

Противоречието около представянето на резултатите на Grok 3 от xAI повдига няколко важни въпроса относно същността на самия AI бенчмаркинг. Какво представлява добрият бенчмарк? Как трябва да се представят резултатите, за да се избегнат погрешни тълкувания? И какви са ограниченията на разчитането единствено на резултатите от бенчмарковете за оценка на възможностите на AI моделите?

Целта на бенчмарковете:

Бенчмарковете, на теория, служат като стандартизиран начин за измерване и сравняване на производителността на различни AI модели при конкретни задачи. Те предоставят общ критерий, позволяващ на изследователите и разработчиците да проследяват напредъка, да идентифицират силните и слабите страни и в крайна сметка да стимулират иновациите. Ефективността на бенчмарка обаче зависи от няколко фактора:

  • Релевантност: Дали бенчмаркът точно отразява задачите и предизвикателствата от реалния свят?
  • Изчерпателност: Дали бенчмаркът обхваща широк спектър от възможности, свързани с предназначението на AI модела?
  • Обективност: Дали бенчмаркът е проектиран и администриран по начин, който минимизира пристрастията и осигурява справедливо сравнение?
  • Възпроизводимост: Могат ли резултатите от бенчмарка да бъдат последователно възпроизведени от независими изследователи?

Предизвикателствата на AI бенчмаркинга:

Въпреки предназначението си, AI бенчмарковете често са изпълнени с предизвикателства:

  • Пренастройване (Overfitting): Моделите могат да бъдат специално обучени да се справят отлично с определени бенчмаркове, без непременно да придобиват истински интелект или обобщаващи се способности. Това явление, известно като “пренастройване”, може да доведе до завишени резултати, които не отразяват реалната производителност.
  • Липса на стандартизация: Разпространението на различни бенчмаркове, всеки със своя собствена методология и система за оценяване, затруднява сравняването на резултатите между моделите и изследователските лаборатории.
  • Манипулиране на системата: Както илюстрира противоречието с xAI, съществува изкушение за компаниите да представят избирателно резултатите от бенчмарковете по начин, който благоприятства техните собствени модели, което може да подведе обществеността и да възпрепятства обективната оценка.
  • Ограничен обхват: Benchmarks често се фокусират върху тесни, добре дефинирани задачи, които не успяват да уловят цялата сложност на човешкия интелект.
  • Ограничен обхват: Бенчмарковете често се фокусират върху тесни, добре дефинирани задачи, като не успяват да уловят пълната сложност и нюанси на човешкия интелект. Те може да не оценяват адекватно аспекти като креативност, здрав разум или адаптивност към нови ситуации.

Необходимостта от прозрачност и холистична оценка

Инцидентът с Grok 3 подчертава критичната нужда от по-голяма прозрачност и по-холистичен подход към оценката на AI моделите. Простото разчитане на един-единствен резултат от бенчмарк, особено такъв, представен без пълен контекст, може да бъде силно подвеждащо.

Отвъд бенчмарковете:

Въпреки че бенчмарковете могат да бъдат полезен инструмент, те не трябва да бъдат единственият определящ фактор за възможностите на AI модела. По-изчерпателната оценка трябва да вземе предвид:

  • Реална производителност: Как се представя моделът в практически приложения и сценарии?
  • Качествен анализ: Експертна оценка на резултатите на модела, оценяваща фактори като последователност, креативност и способност за разсъждение.
  • Етични съображения: Дали моделът проявява пристрастия или генерира вредно съдържание?
  • Обяснимост: Може ли процесът на вземане на решения на модела да бъде разбран и интерпретиран?
  • Устойчивост: Колко добре моделът се справя с шумни или неочаквани входове?

Насърчаване на прозрачността:

AI лабораториите трябва да се стремят към по-голяма прозрачност в своите практики за бенчмаркинг. Това включва:

  • Ясно дефиниране на методологията: Предоставяне на подробна информация за настройката на бенчмарка, включително конкретния използван набор от данни, показателите за оценка и всички стъпки за предварителна обработка.
  • Отчитане на пълните резултати: Представяне на всички съответни резултати, включително тези, получени с помощта на различни конфигурации или методи (като cons@64).
  • Разкриване на изчислителните разходи: Разкриване на изчислителните ресурси, необходими за постигане на отчетените резултати.
  • Отворен код на бенчмарковете: Предоставяне на набори от данни за бенчмаркове и инструменти за оценка на обществено достъпни, за да се улесни независимата проверка и сравнение.

Стремежът към изкуствен интелект е сложна и бързо развиваща се област. Бенчмарковете, макар и несъвършени, играят роля в измерването на напредъка. Важно е обаче да се признаят техните ограничения и да се стремим към по-нюансиран и прозрачен подход към оценката на AI моделите. Крайната цел трябва да бъде да се разработят AI системи, които са не само мощни, но и надеждни, етични и полезни за обществото. Фокусът трябва да се измести от простото преследване на по-високи резултати от бенчмарковете към изграждането на AI, който наистина разбира и взаимодейства със света по смислен начин.