ChatGPT и тест Тьюринга: последние данные

Считается, что успешное прохождение ChatGPT теста Тьюринга становится все более вероятным. Некоторые исследователи уже убеждены, что это достижение свершилось.

Эволюция чат-ботов, примером которой является ChatGPT, демонстрирует значительный скачок в развитии интеллекта, естественности и человеческих качеств. Этот прогресс вполне логичен, учитывая, что люди являются архитекторами больших языковых моделей (LLMs), которые составляют основу этих AI чат-ботов. По мере того, как эти инструменты совершенствуют свои возможности “рассуждения” и имитируют человеческую речь с большей точностью, возникает важный вопрос: достаточно ли они развиты, чтобы пройти тест Тьюринга?

На протяжении десятилетий тест Тьюринга был важным критерием оценки машинного интеллекта. В настоящее время исследователи активно подвергают LLMs, такие как ChatGPT, этой строгой оценке. Успешный результат стал бы монументальным этапом в области развития AI.

Итак, способен ли ChatGPT пройти тест Тьюринга? Некоторые исследователи утверждают, что да. Однако результаты остаются открытыми для интерпретации. Тест Тьюринга не предлагает простого бинарного результата, что делает выводы несколько неоднозначными. Более того, даже если ChatGPT пройдет тест Тьюринга, это может не дать окончательного указания на “человеческие” качества, присущие LLM.

Давайте углубимся в детали.

Разбор теста Тьюринга

Суть теста Тьюринга на удивление проста.

Задуманный британским математиком Аланом Тьюрингом, пионером в области информатики, игра в имитацию, как она первоначально называлась, служит лакмусовой бумажкой для машинного интеллекта. Тест Тьюринга включает в себя взаимодействие человека-оценщика в разговорах как с человеком, так и с машиной, не зная, кто есть кто. Если оценщик не может отличить машину от человека, считается, что машина прошла тест Тьюринга. В исследовательской среде этот тест проводится несколько раз с разными оценщиками.

Важно понимать, что этот тест окончательно не определяет, обладает ли LLM тем же уровнем интеллекта, что и человек. Вместо этого он оценивает способность LLM убедительно имитировать человека.

Процесс мышления LLMs

LLMs, по своей природе, не имеют физического мозга, сознания или всестороннего понимания мира. Они лишены самосознания и не обладают подлинными мнениями или убеждениями.

Эти модели обучаются на обширных наборах данных, охватывающих широкий спектр информационных источников, включая книги, онлайн-статьи, документы и стенограммы. Когда пользователь предоставляет текстовый ввод, модель AI использует свои возможности “рассуждения”, чтобы определить наиболее вероятное значение и намерение, стоящие за вводом. Впоследствии модель генерирует ответ на основе этой интерпретации.

В своей основе LLMs функционируют как сложные механизмы предсказания слов. Используя свои обширные данные обучения, они вычисляют вероятности для начального “токена” (обычно одного слова)ответа, опираясь на свой словарь. Этот итеративный процесс продолжается до тех пор, пока не будет сформулирован полный ответ. Хотя это объяснение упрощено, оно отражает суть того, как LLMs генерируют ответы на основе статистических вероятностей, а не подлинного понимания мира.

Поэтому неверно предполагать, что LLMs “думают” в общепринятом смысле.

Эмпирические данные: ChatGPT и тест Тьюринга

Многочисленные исследования изучали производительность ChatGPT в тесте Тьюринга, и многие из них дали положительные результаты. Это привело некоторых ученых-компьютерщиков к утверждению, что LLMs, такие как GPT-4 и GPT-4.5, теперь превзошли порог теста Тьюринга.

Большинство этих оценок сосредоточено на модели GPT-4 от OpenAI, которая обеспечивает большинство взаимодействий ChatGPT. Исследование, проведенное UC San Diego, показало, что люди-оценщики часто не могли отличить GPT-4 от человека. В этом исследовании GPT-4 был ошибочно идентифицирован как человек в 54% случаев. Однако эта производительность по-прежнему отставала от производительности реальных людей, которые были правильно идентифицированы как люди в 67% случаев.

После выпуска GPT-4.5 исследователи UC San Diego повторили исследование. На этот раз LLM был идентифицирован как человек в 73% случаев, превзойдя производительность реальных людей. Исследование также показало, что LLaMa-3.1-405B от Meta способна пройти тест.

Аналогичные исследования, проведенные независимо от UC San Diego, также присвоили GPT проходные баллы. Исследование 2024 года, проведенное University of Reading, включало генерацию GPT-4 ответов на домашние задания для курсов бакалавриата. Оценщики не знали об эксперименте и отметили только одну из 33 представленных работ. ChatGPT получил оценки выше среднего за остальные 32 работы.

Являются ли эти исследования убедительными? Не совсем. Некоторые критики утверждают, что эти результаты исследований менее впечатляющие, чем кажутся. Этот скептицизм не позволяет нам окончательно заявить, что ChatGPT прошел тест Тьюринга.

Тем не менее, очевидно, что в то время как предыдущие поколения LLMs, такие как GPT-4, иногда проходили тест Тьюринга, успешные результаты становятся все более распространенными по мере того, как LLMs продолжают развиваться. С появлением передовых моделей, таких как GPT-4.5, мы быстро приближаемся к точке, когда модели могут последовательно проходить тест Тьюринга.

OpenAI предвидит будущее, в котором станет невозможно отличить человека от AI. Это видение отражено в инвестициях генерального директора OpenAI Сэма Альтмана в проект проверки личности человека с использованием устройства для сканирования глаз под названием The Orb.

Самооценка ChatGPT

На вопрос, может ли он пройти тест Тьюринга, ChatGPT ответил утвердительно, хотя и с оговорками, которые уже обсуждались. Когда AI чат-бот (используя модель 4o) ответил на вопрос: “Может ли ChatGPT пройти тест Тьюринга?”, он заявил, что “ChatGPT может пройти тест Тьюринга в некоторых сценариях, но не надежно или повсеместно”. Чат-бот заключил, что “он может пройти тест Тьюринга со средним пользователем в обычных условиях, но решительный и вдумчивый следователь почти всегда может его разоблачить”.

Ограничения теста Тьюринга

Некоторые ученые-компьютерщики теперь считают тест Тьюринга устаревшим и имеющим ограниченную ценность при оценке LLMs. Гэри Маркус, американский психолог, когнитивный ученый, автор и комментатор AI, кратко изложил эту точку зрения в недавнем сообщении в блоге, заявив, что “как я (и многие другие) говорили в течение многих лет, тест Тьюринга - это тест на доверчивость человека, а не тест на интеллект”.

Также важно помнить, что тест Тьюринга фокусируется на восприятии интеллекта, а не на фактическом интеллекте. Это различие имеет решающее значение. Модель, такая как ChatGPT 4o, может пройти тест просто имитируя человеческую речь. Кроме того, успех LLM в тесте будет зависеть от темы обсуждения и оценщика. ChatGPT может преуспеть в непринужденной беседе, но испытывать трудности во взаимодействии, требующем подлинного эмоционального интеллекта. Более того, современные системы AI все чаще используются для приложений, выходящих за рамки простого разговора, особенно по мере того, как мы движемся к миру агентского AI.

Это не означает, что тест Тьюринга совершенно не актуален. Он остается значительным историческим эталоном, и примечательно, что LLMs способны пройти его. Однако тест Тьюринга не является окончательной мерой машинного интеллекта.

За пределами теста Тьюринга: поиск лучшего эталона

Тест Тьюринга, хотя и имеет историческое значение, все чаще рассматривается как неадекватная мера истинного искусственного интеллекта. Его акцент на имитации человеческого разговора упускает из виду важные аспекты интеллекта, такие как решение проблем, креативность и адаптивность. Зависимость теста от обмана также вызывает этические вопросы, поскольку он поощряет системы AI притворяться человеческими качествами, а не развивать подлинный интеллект.

Необходимость новых метрик

По мере развития технологии AI необходимость в более всесторонних и релевантных эталонах становится все более очевидной. Эти новые метрики должны устранить недостатки теста Тьюринга и обеспечить более точную оценку возможностей AI. Некоторые потенциальные направления для будущих эталонов включают:

  • Решение реальных проблем: Тесты, которые требуют от систем AI решения сложных реальных проблем, таких как проектирование устойчивой энергетической сети или разработка лекарства от болезни.
  • Творческие задачи: Оценки, которые оценивают способность AI генерировать оригинальный и творческий контент, такой как написание романа, сочинение музыки или создание произведений искусства.
  • Адаптивность и обучение: Метрики, которые измеряют способность AI учиться на новом опыте и адаптироваться к изменяющейся среде.
  • Этические соображения: Оценки, которые оценивают способность AI принимать этические решения и избегать предвзятости.

Примеры появляющихся эталонов

Появляется несколько новых эталонов для устранения ограничений теста Тьюринга. К ним относятся:

  • The Winograd Schema Challenge: Этот тест фокусируется на способности AI понимать неоднозначные местоимения в предложениях.
  • The AI2 Reasoning Challenge: Этот эталон оценивает способность AI рассуждать и отвечать на вопросы на основе сложных текстов.
  • The Commonsense Reasoning Challenge: Этот тест оценивает понимание AI здравого смысла и его способность делать выводы.

Будущее оценки AI

Будущее оценки AI, вероятно, будет включать в себя комбинацию различных эталонов, каждый из которых предназначен для оценки конкретных аспектов интеллекта. Эти эталоны должны постоянно развиваться, чтобы идти в ногу с быстрым развитием технологии AI. Кроме того, крайне важно привлекать к разработке и оценке эталонов AI различные заинтересованные стороны, включая исследователей, политиков и общественность.

Движение за пределы имитации

В конечном счете, целью исследований AI должно быть разработка систем, которые не только интеллектуальны, но и полезны для человечества. Это требует выхода за рамки стремления к человеческой имитации и сосредоточения внимания на разработке систем AI, которые могут решать реальные проблемы, повышать креативность и продвигать принятие этических решений. Принимая новые эталоны и сосредотачиваясь на этих более широких целях, мы можем раскрыть весь потенциал AI и создать будущее, где AI и люди будут работать вместе, чтобы создать лучший мир.