Нарастващото мнение е, че ChatGPT успешно ще премине теста на Turing. Някои изследователи са убедени, че вече го е постигнал.
Еволюцията на чатботите, като ChatGPT, показва забележителен скок в интелигентността, естествеността и човешките качества. Това е логично, тъй като хората са архитектите на големите езикови модели (LLMs), които са основата на тези AI чатботове. Тъй като тези инструменти усъвършенстват своите възможности за “разсъждение” и подражават на човешката реч с по-голяма прецизност, възниква критичен въпрос: Достатъчно ли са напреднали, за да преминат теста на Turing?
В продължение на десетилетия тестът на Turing е основен показател в оценката на машинната интелигентност. В момента изследователите активно подлагат LLMs като ChatGPT на тази стриктна оценка. Успешният резултат ще представлява монументален крайъгълен камък в сферата на развитието на AI.
И така, способен ли е ChatGPT да премине теста на Turing? Някои изследователи твърдят, че е. Резултатите обаче остават отворени за тълкуване. Тестът на Turing не предлага ясен двоичен резултат, което прави констатациите донякъде двусмислени. Освен това, дори ако ChatGPT премине теста на Turing, това може да не предостави окончателна индикация за “човешките” качества, присъщи на LLM.
Нека се задълбочим в сложностите.
Разшифроване на теста на Turing
Същността на теста на Turing е забележително проста.
Замислен от британския математик Alan Turing, пионер в компютърните науки, Imitation Game, както е известен първоначално, служи като лакмусов тест за машинната интелигентност. Тестът на Turing включва човешки оценител, който води разговори както с човек, така и с машина, без да знае кой кой е. Ако оценителът не е в състояние да различи машината от човека, се счита, че машината е преминала теста на Turing. В изследователска среда този тест се провежда многократно с различни оценители.
Изключително важно е да се признае, че този тест не установява окончателно дали LLM притежава същото ниво на интелигентност като човек. Вместо това той оценява способността на LLM убедително да се представя за човек.
Процесът на мислене на LLMs
LLMs, по самата си природа, нямат физически мозък, съзнание или цялостно разбиране за света. Те са лишени от самосъзнание и не притежават истински мнения или убеждения.
Тези модели са обучени на огромни набори от данни, обхващащи широк спектър от източници на информация, включително книги, онлайн статии, документи и преписи. Когато потребител предостави текстов вход, AI моделът използва своите способности за “разсъждение”, за да разбере най-вероятното значение и намерение зад входа. Впоследствие моделът генерира отговор въз основа на тази интерпретация.
По същество LLMs функционират като сложни машини за предсказване на думи. Използвайки своите обширни данни за обучение, те изчисляват вероятностите за първия “токен” (обикновено една дума) на отговора, като черпят от своя речник. Този итеративен процес продължава, докато не се формулира пълен отговор. Въпреки че това обяснение е опростено, то улавя същността на това как LLMs генерират отговори въз основа на статистически вероятности, а не истинско разбиране за света.
Следователно е неточно да се твърди, че LLMs “мислят” в конвенционалния смисъл.
Емпирични доказателства: ChatGPT и тестът на Turing
Многобройни проучвания са изследвали представянето на ChatGPT на теста на Turing, като много от тях са дали положителни резултати. Това накара някои компютърни учени да твърдят, че LLMs като GPT-4 и GPT-4.5 вече са надминали прага на теста на Turing.
Повечето от тези оценки се концентрират върху модела GPT-4 на OpenAI, който захранва по-голямата част от взаимодействията на ChatGPT. Проучване, проведено от UC San Diego, разкри, че човешките оценители често не са в състояние да различат GPT-4 от човек. В това проучване GPT-4 е погрешно идентифициран като човек в 54% от случаите. Това представяне обаче все още изостава от това на действителните хора, които са правилно идентифицирани като хора в 67% от случаите.
След пускането на GPT-4.5, изследователите от UC San Diego повториха проучването. Този път LLM беше идентифициран като човек в 73% от случаите, надминавайки представянето на действителните хора. Проучването също така показва, че LLaMa-3.1-405B на Meta е способен да премине теста.
Подобни проучвания, проведени независимо от UC San Diego, също са дали положителни оценки на GPT. Проучване от 2024 г. на University of Reading включва GPT-4, генериращ отговори на домашни оценки за бакалавърски курсове. Оценяващите не са знаели за експеримента и са отбелязали само едно от 33 подадени. ChatGPT получи оценки над средните за останалите 32 записа.
Дали тези проучвания са окончателни? Не съвсем. Някои критици твърдят, че тези изследователски открития са по-малко впечатляващи, отколкото изглеждат. Този скептицизъм ни пречи да заявим окончателно, че ChatGPT е преминал теста на Turing.
Въпреки това е очевидно, че докато предишните поколения LLMs, като GPT-4, понякога преминаваха теста на Turing, успешните резултати стават все по-разпространени, тъй като LLMs продължават да напредват. С появата на авангардни модели като GPT-4.5, бързо се приближаваме до момент, в който моделите могат последователно да преминават теста на Turing.
OpenAI предвижда бъдеще, в което разграничаването между човек и AI става невъзможно. Тази визия е отразена в инвестицията на CEO на OpenAI Sam Altman в проект за проверка на хора, включващ устройство за сканиране на очната ябълка, известно като The Orb.
Самооценка на ChatGPT
Когато бъде попитан дали може да премине теста на Turing, ChatGPT отговори утвърдително, макар и с уговорките, които вече бяха обсъдени. Когато бъде подканен с въпроса “Може ли ChatGPT да премине теста на Turing?”, AI чатботът (използвайки модела 4o) заяви, че “ChatGPT може да премине теста на Turing в някои сценарии, но не надеждно или универсално”. Чатботът заключи, че “Може да премине теста на Turing със среден потребител при случайни условия, но решен и внимателен разпитващ почти винаги би могъл да го разкрие”.
Ограничения на теста на Turing
Някои компютърни учени сега считат теста на Turing за остарял и с ограничена стойност при оценката на LLMs. Gary Marcus, американски психолог, когнитивен учен, автор и AI коментатор, накратко обобщи тази перспектива в скорошна публикация в блог, заявявайки, че “както аз (и много други) казваме от години, тестът на Turing е тест за човешка наивност, а не тест за интелигентност”.
Също така е важно да запомните, че тестът на Turing се фокусира върху възприятието за интелигентност, а не върху действителната интелигентност. Това разграничение е от решаващо значение. Модел като ChatGPT 4o може да премине теста просто като имитира човешката реч. Освен това, успехът на LLM на теста ще зависи от темата на дискусия и оценителът. ChatGPT може да се отличи в непринуден разговор, но да се бори с взаимодействия, изискващи истинска емоционална интелигентност. Освен това, съвременните AI системи все повече се използват за приложения извън обикновения разговор, особено когато се движим към свят на агентски AI.
Това не означава, че тестът на Turing е напълно без значение. Той остава важен исторически еталон и е забележително, че LLMs са способни да го преминат. Тестът на Turing обаче не е върховната мярка за машинната интелигентност.
Отвъд теста на Turing: Търсене на по-добър показател
Тестът на Turing, макар и исторически значим, все повече се разглежда като неадекватна мярка за истинска изкуствена интелигентност. Неговият фокус върху имитирането на човешки разговор пренебрегва решаващи аспекти на интелигентността, като решаване на проблеми, творчество и адаптивност. Разчитането на теста на измама също поражда етични проблеми, тъй като насърчава AI системите да се преструват на човешки качества, вместо да развиват истинска интелигентност.
Необходимост от нови показатели
Тъй като AI технологията напредва, необходимостта от по-изчерпателни и уместни показатели става все по-очевидна. Тези нови показатели трябва да адресират недостатъците на теста на Turing и да предоставят по-точна оценка на възможностите на AI. Някои потенциални насоки за бъдещи показатели включват:
- Решаване на проблеми в реалния свят: Тестове, които изискват от AI системите да решават сложни проблеми в реалния свят, като например проектиране на устойчива енергийна мрежа или разработване на лек за болест.
- Творчески задачи: Оценки, които оценяват способността на AI да генерира оригинално и въображаемо съдържание, като например писане на роман, композиране на музика или създаване на произведения на изкуството.
- Адаптивност и учене: Показатели, които измерват способността на AI да се учи от нови преживявания и да се адаптира към променящи се среди.
- Етични съображения: Оценки, които оценяват способността на AI да взема етични решения и да избягва пристрастия.
Примери за нововъзникващи показатели
Няколко нови показателя се появяват, за да адресират ограниченията на теста на Turing. Те включват:
- Winograd Schema Challenge: Този тест се фокусира върху способността на AI да разбира двусмислени местоимения в изречения.
- The AI2 Reasoning Challenge: Този показател оценява способността на AI да разсъждава и да отговаря на въпроси въз основа на сложни текстове.
- The Commonsense Reasoning Challenge: Този тест оценява разбирането на AI за общоизвестни знания и способността му да прави заключения.
Бъдещето на AI оценката
Бъдещето на AI оценката вероятно ще включва комбинация от различни показатели, всеки от които е проектиран да оценява специфични аспекти на интелигентността. Тези показатели трябва постоянно да се развиват, за да бъдат в крак с бързия напредък в AI технологията. Освен това е от решаващо значение да се включат различни заинтересовани страни, включително изследователи, политици и обществеността, в разработването и оценката на AI показатели.
Отвъд имитацията
В крайна сметка целта на AI изследванията трябва да бъде да се разработват системи, които са не само интелигентни, но и полезни за човечеството. Това изисква да се премине отвъд стремежа към човешка имитация и да се фокусира върху разработването на AI системи, които могат да решават проблеми в реалния свят, да подобряват творчеството и да насърчават етичното вземане на решения. Като възприемем нови показатели и се фокусираме върху тези по-широки цели, можем да отключим пълния потенциал на AI и да създадем бъдеще, в което AI и хората работят заедно, за да създадат по-добър свят.