Неотдавнашни изследвания разкриха тревожна тенденция: по-новите модели на ChatGPT показват по-висок процент на халюцинации в сравнение с предшествениците си. Това откритие повдига важни въпроси относно компромисите между усъвършенстваните възможности и надеждността в големите езикови модели (LLMs). Нека се задълбочим в подробностите на тези открития и да проучим потенциалните последици.
Разбиране на феномена
Вътрешните тестове на OpenAI, както е посочено в скорошна статия, подчертават значително увеличение на процентите на халюцинации в модели като o3 и o4-mini. Тези модели, проектирани с усъвършенствани възможности за разсъждение и мултимодални възможности, представляват върха на AI технологията. Те могат да генерират изображения, да извършват уеб търсения, да автоматизират задачи, да запомнят минали разговори и да решават сложни проблеми. Въпреки това, тези подобрения изглежда идват на цена.
За да се определи количествено степента на тези халюцинации, OpenAI използва специфичен тест, наречен PersonQA. Този тест включва подаване на модела набор от факти за различни лица и след това задаване на въпроси за тези лица. След това точността на модела се оценява въз основа на способността му да предоставя верни отговори.
При предишни оценки моделът o1 постигна похвална степен на точност от 47% с процент на халюцинации само 16%. Въпреки това, когато o3 и o4-mini бяха подложени на същата оценка, резултатите бяха значително различни.
Моделът o4-mini, бидейки по-малък вариант с по-малко познания за света, се очакваше да покаже по-висок процент на халюцинации. И все пак, действителният процент от 48% беше изненадващо висок, като се има предвид, че o4-mini е комерсиално достъпен продукт, широко използван за уеб търсения и извличане на информация.
Пълноразмерният модел o3 също демонстрира тревожна тенденция да халюцинира. В 33% от отговорите си моделът фабрикува информация, ефективно удвоявайки процента на халюцинации на модела o1. Въпреки това, o3 също постигна висок процент на точност, което OpenAI приписва на склонността му да прави повече твърдения като цяло.
Дефиниране на халюцинации
Терминът ‘халюцинация’, в контекста на AI, се отнася до тенденцията на модел да генерира отговори, които са фактически неверни или безсмислени без видим източник или обосновка. Това не са просто грешки, произтичащи от лоши данни или погрешно тълкуване. Вместо това, халюцинациите представляват по-фундаментален недостатък в процеса на разсъждение на модела.
Докато неточна информация със сигурност може да произхожда от различни източници, като например статии в Wikipedia или нишки в Reddit, тези случаи са по-скоро като проследими грешки, които могат да бъдат приписани на конкретни точки от данни. Халюцинациите, от друга страна, се характеризират с измислянето на факти от AI модела в моменти на несигурност, феномен, който някои експерти наричат ‘креативно запълване на празнини’.
За да илюстрираме този момент, помислете върху въпроса: ‘Кои са седемте модела iPhone 16, налични в момента?’ Тъй като само Apple знае какъв ще бъде следващият iPhone, LLM вероятно ще предостави някои реални отговори - и след това ще измисли допълнителни модели, за да завърши задачата. Това е ясен пример за халюцинация, при която моделът фабрикува информация, за да завърши задачата, или това, което се нарича ‘креативно запълване на празнини’.
Ролята на данните за обучение
Чатботовете като ChatGPT са обучени върху огромни количества интернет данни. Тези данни информират съдържанието на техните отговори, но също така оформят начина, по който те отговарят. Моделите са изложени на безброй примери за заявки и съответстващи идеални отговори, което подсилва специфични тонове, нагласи и нива на учтивост.
Този процес на обучение може неволно да допринесе за проблема с халюцинациите. Моделите се насърчават да предоставят уверени отговори, които директно отговарят на въпроса. Това може да ги накара да дадат приоритет на отговора на въпроса, дори ако трябва да измислят информация, за да го направят, вместо да признаят, че не знаят отговора.
По същество, процесът на обучение може неволно да възнагради уверени и привидно знаещи отговори, дори ако те са фактически неверни. Това може да създаде пристрастие към генерирането на отговори, независимо от тяхната точност, което може да влоши проблема с халюцинациите.
Същността на AI грешките
Изкушаващо е да се направят паралели между AI грешките и човешките грешки. В крайна сметка, хората не са непогрешими и не трябва да очакваме AI да бъде перфектен. Въпреки това, е изключително важно да се признае, че AI грешките произтичат от фундаментално различни процеси от човешките грешки.
AI моделите не лъжат, не развиват погрешни схващания или не си спомнят погрешно информацията по същия начин, както хората. Те нямат когнитивните способности и контекстуалната осведоменост, които са в основата на човешкото разсъждение. Вместо това, те работят въз основа на вероятности, предсказвайки следващата дума в изречението въз основа на модели, наблюдавани в техните данни за обучение.
Този вероятностен подход означава, че AI моделите не притежават истинско разбиране за точност или неточност. Те просто генерират най-вероятната последователност от думи въз основа на статистическите връзки, които са научили от своите данни за обучение. Това може да доведе до генериране на привидно кохерентни отговори, които всъщност са фактически неверни.
Докато моделите се захранват с цялата информация на интернет, те не са информирани коя информация е добра или лоша, точна или неточна - не са им казани нищо. Те също така нямат съществуващи основни знания или набор от основни принципи, които да им помогнат да сортират информацията сами. Всичко е просто игра на числа - моделите на думи, които съществуват най-често в даден контекст, се превръщат в ‘истината’ на LLM.
Справяне с предизвикателството
Нарастващият процент на халюцинации в усъвършенстваните AI модели представлява значително предизвикателство. OpenAI и други AI разработчици активно работят, за да разберат и смекчат този проблем. Въпреки това, основните причини за халюцинациите не са напълно разбрани и намирането на ефективни решения остава текущо усилие.
Един потенциален подход е да се подобри качеството и разнообразието на данните за обучение. Като излагат моделите на по-точна и изчерпателна информация, разработчиците могат да намалят вероятността те да научат и увековечат невярна информация.
Друг подход е да се разработят по-усъвършенствани техники за откриване и предотвратяване на халюцинации. Това може да включва обучение на моделите да разпознават кога не са сигурни за конкретна част от информация и да се въздържат от отправяне на твърдения без достатъчно доказателства.
Междувременно OpenAI може да се наложи да търси краткосрочно решение, както и да продължи изследванията си върху първопричината. В крайна сметка, тези модели са продукти, които печелят пари, и те трябва да бъдат в използваемо състояние. Една идея би била да се създаде някакъв агрегиран продукт - чат интерфейс, който има достъп до множество различни OpenAI модели.
Когато заявка изисква усъвършенствано разсъждение, тя ще се обърне към GPT-4o, а когато иска да минимизира шансовете за халюцинации, тя ще се обърне към по-стар модел като o1. Може би компанията ще може да стане дори по-измислена и да използва различни модели, за да се погрижи за различни елементи на една заявка, и след това да използва допълнителен модел, за да го съедини в края. Тъй като това по същество ще бъде работа в екип между множество AI модели, може би може да се внедри и някаква система за проверка на фактите.
Повишаването на процентите на точност не е основната цел. Основната цел е да се намалят процентите на халюцинации, което означава, че трябва да ценим отговорите, които казват ‘Не знам’, както и отговорите с верните отговори.
Важността на проверката на фактите
Нарастващото разпространение на халюцинации в AI моделите подчертава важността на проверката на фактите. Въпреки че тези модели могат да бъдат ценни инструменти за извличане на информация и автоматизация на задачи, те не трябва да се третират като непогрешими източници на истина.
Потребителите винаги трябва да бъдат внимателни, когато тълкуват изхода на AI моделите, и трябва независимо да проверяват всяка информация, която получават. Това е особено важно, когато се занимавате с чувствителни или последващи въпроси.
Като възприемаме критичен и скептичен подход към генерираното от AI съдържание, можем да смекчим рисковете, свързани с халюцинациите, и да гарантираме, че вземаме информирани решения въз основа на точна информация. Ако обичате LLM, няма нужда да спирате да ги използвате - но не позволявайте желанието да спестите време да надделее над необходимостта да проверите фактите в резултатите. Винаги проверявайте фактите!
Последици за бъдещето на AI
Предизвикателството на халюцинациите има значителни последици за бъдещето на AI. Тъй като AI моделите стават все по-интегрирани в живота ни, от съществено значение е те да бъдат надеждни и заслужаващи доверие. Ако AI моделите са склонни да генерират невярна или подвеждаща информация, това може да подкопае общественото доверие и да възпрепятства широкото им приемане.
Справянето с проблема с халюцинациите е не само от решаващо значение за подобряване на точността на AI моделите, но и за осигуряване на тяхното етично и отговорно използване. Като разработваме AI системи, които са по-малко склонни към халюцинации, можем да използваме техния потенциал за добро, като същевременно смекчаваме рисковете от дезинформация и измама.