Стремежът към AI суверенитет: Тайван отговаря

Предизвикателството DeepSeek

Представянето на DeepSeek-R1 през януари предизвика значителен интерес в технологичната общност. Предишни китайски езикови модели, като Ernie на Baidu и Doubao на ByteDance, показаха обещаващи резултати в приложения на китайски език, математика и програмиране, но бяха ограничени от по-слабо владеене на английски език и ограничен достъп. DeepSeek-R1 обаче отбеляза важен момент като първият китайски LLM, който получи международно признание.

Един от най-забележителните аспекти на DeepSeek-R1 беше неговата ниска цена за разработка. За разлика от GPT-4o на OpenAI, чието обучение струва над 100 милиона щатски долара, изследователите на DeepSeek твърдяха, че техният чатбот е разработен за едва 5,6 милиона щатски долара. Инженерите на DeepSeek обучиха модела R1, използвайки процесори от среден клас като Nvidia H800, вместо чипове от най-висок клас, използвани в модели като GPT-4o или Claude на Anthropic. Въпреки ограниченията на САЩ върху износа на високопроизводителни чипове за Китай, DeepSeek-R1 успя да превъзхожда други водещи ботове, използвайки само 2048 процесора, разпределени в 256 сървъра.

Тази забележителна ефективност и по-ниски разходи за разработка се дължат до голяма степен на сложни техники за програмиране, включително PTX, език, подобен на асемблер, който позволява на разработчиците да настройват фино производителността и да увеличават максимално използването на хардуера.

Малко след излизането си, приложението DeepSeek-R1 се изкачи до върха в класациите за безплатно изтегляне на U.S. Apple App Store, надминавайки ChatGPT, TikTok и социалните медийни платформи на Meta. Nasdaq отбеляза спад, а акциите на Nvidia се сринаха след дебюта на DeepSeek-R1.

Поставяне под въпрос твърденията на DeepSeek

Въпреки първоначалния ентусиазъм, много наблюдатели повдигнаха въпроси относно валидността на твърденията на DeepSeek относно неговия LLM. Анализаторите предполагат, че посочените цифри вероятно отчитат само разходите за изчисления, като същевременно изключват или подценяват разходите за инфраструктура, хардуер и човешки ресурси.

Уесли Куо, основател и главен изпълнителен директор на Ubitus, доставчик на генеративен AI и услуги за облачни игри със седалище в Тайпе, повтори тези опасения, като заяви, че действителните разходи вероятно са много по-високи от съобщените. Ubitus, с подкрепата на Nvidia, подкрепи Project TAME, локализиран LLM, използващ традиционни китайски йероглифи. Те предоставиха H100 CPUs и данни за игри. Ubitus също си сътрудничи с Foxlink и Shinfox Energy за създаване на Ubilink.AI, изграждайки най-големия център за услуги за AI суперкомпютри, захранван от зелена енергия, в Тайван в сътрудничество с Asus.

Куо подчертава участието на компанията в разработването на LLM приложения и модели за правителства, включително японското правителство, в сектори като игри, туризъм и търговия на дребно, като подчертава потенциала на AI за справяне с недостига на работна ръка и застаряващото население.

Проблеми с целостта на данните

Куо е съгласен с OpenAI и Microsoft, че DeepSeek може да са придобили данни чрез дестилация на модели. Този процес включва обучение на по-малки езикови модели да имитират резултатите на по-големи модели. OpenAI и Microsoft твърдят, че DeepSeek са използвали интерфейса за програмиране на приложения на OpenAI, за да улеснят развитието си.

Куо твърди, че DeepSeek са получили данни от OpenAI и че има неразбиране около твърденията на компанията за ефективност. Той посочва, че DeepSeek-R1, с неговите 670 милиарда параметри, е значително по-голям от Llama 3.1 405B на Meta AI. Параметрите са вътрешни числени стойности, които моделът научава по време на обучението, за да прави прогнози. Куо също предполага, че моделите на DeepSeek може да са били дестилирани от Llama 3.1.

Освен тези опровержения, възникнаха опасения и относно възможностите на DeepSeek-R1. Експертите предполагат, че подобно на своите предшественици, R1 се отличава в специализирани, специфични за задачата функции, но изостава от версиите на GPT-4o в обща производителност.

Основно ограничение на моделите на DeepSeek е ограничението на свободния достъп до информация. Потребителите откриха, че запитванията за чувствителни политически теми са посрещнати с уклончиви отговори. По теми като статута на уйгурското малцинство в Синдзян и Тайван, отговорите на DeepSeek отразяват официалните позиции на Китайската комунистическа партия. Изследванията показват, че значителна част от изходите на DeepSeek са цензурирани, за да се потисне информация, свързана с демокрацията, правата на човека и оспорваните претенции на Китай за суверенитет.

Алтернативата на Тайван: TAIDE и отвъд

В отговор, разработените в Тайван LLM, като TAME, се появиха като алтернативи на DeepSeek в рамките на Sinosphere. Trustworthy AI Dialogue Engine (TAIDE), стартиран през юни 2023 г. от National Institute of Applied Research, има за цел да разработи модел, съобразен със социалните, културните и езиковите норми на Тайван.

Въпреки че работата по TAIDE изглежда е спряла, тя послужи като важен еталон за Project TAME. TAME, разработен от Machine Intelligence and Understanding Laboratory (MiuLab) в National Taiwan University, с финансиране от различни организации, е обучен на 500 милиарда токени. Той превъзхожда конкурентите, включително GPT-4o, в 39 оценки, постигайки по-високи резултати на университетски входни изпити, изпити за адвокати и традиционна китайска медицина.

Една от целите на TAME е да популяризира местната култура. Отключването на местните езикови възможности е важна стъпка. Куо споменава разработването на тайвански гласов LLM, базиран на Whisper, който е постигнал положителни резултати в разбирането на устния тайвански. Полагат се усилия за разработване на разпознаване на езика хака.

Тези усилия бяха добре приети от институции в региони, където тези езици са разпространени. Има и усилия за обучение на модела за разпознаване на местни езици, но ограничените данни остават пречка. Обучението на AI да научи нов език изисква значително количество гласови записи, сдвоени с текст.

Достъпът до исторически данни в правителствените архиви предоставя друга възможност. Някои данни обаче са защитени от авторски права. Появата на изкуствен общ интелект предлага потенциала да помогне за възраждането на застрашени и изчезнали езици.

Стремежът към AI суверенитет

Пресечната точка на езика и културата подчертава значението на AI суверенитета като средство за укрепване на тайванската идентичност, комуникиране на разказа на Тайван и защита на неговата информационна среда.

Джулиан Чу, индустриален консултант и директор в Market Intelligence & Consulting Institute (MIC), подчертава потенциала за пристрастия в LLM моделите и данните за обучение. Той отбелязва, че дори когато се използват традиционни йероглифи, изходите на LLM могат да отразяват стила на Китайската народна република и да не успеят да уловят културата на Тайван. Целта е тайванските компании да използват тайвански език или данни за обучение на LLM и изграждане на AI суверенитет.

Чу споменава Formosa Foundation Model (FFM-Llama2) като друг обещаващ тайвански LLM. Пуснат през септември 2023 г. от Taiwan Web Service, той има за цел да демократизира AI. Foxconn също пусна своя LLM, FoxBrain, през март. Някои коментатори обаче остават скептични относно начинанията на големите корпорации в LLM.

Лин Йен-тинг, член на екипа на MiuLab, разработил TAME, подчертава необходимостта да се преодолее празнината в информационната среда по отношение на Тайван. Той отбелязва, че DeepSeek-R1 и други китайски LLM представят изкривена гледна точка за Тайван. Разработените в САЩ модели също понякога могат да представят погрешно Тайван. Моделите с отворен код може да не дават приоритет на Тайван и данните за обучение са доминирани от Китай.

Следователно е важно селективно да се включи тайванско съдържание и да се преобучи в модела. Този проактивен подход гарантира, че уникалният културен и езиков пейзаж на Тайван е точно представен в дигиталната сфера, насърчавайки чувството за национална идентичност и запазвайки неговото distinct heritage в лицето на глобалното развитие на AI. Тази отдаденост на запазването на тайванската идентичност гарантира, че уникалната култура и ценности на островната държава не са засенчени от доминиращите разкази.

Предизвикателствата, присъщи на това начинание, са значителни. Изграждането на наистина представителен AI модел изисква значителна инвестиция на ресурси, включително достъп до огромни набори от данни от локализирано съдържание и експертни познания в обработката на естествен език. Освен това, постоянната необходимост от противодействие на дезинформацията и пристрастната информация изисква непрекъснат процес на усъвършенстване и адаптация.

Въпреки тези предизвикателства, ангажиментът на Тайван към AI суверенитета остава непоколебим. Разработването на TAME и други локализирани LLM представлява важна стъпка към гарантиране, че бъдещето на изкуствения интелект отразява уникалната културна идентичност на острова, демократичните ценности и непоколебимия ангажимент за запазване на distinct place in the world. Като дава приоритет на AI суверенитета, Тайван не само защитава своето културно наследство, но и се позиционира като ключов играч в глобалния AI пейзаж, демонстрирайки, че технологичният напредък може да бъде съгласуван със запазването на културната идентичност и демократичните принципи.

Продължаване на пътуването

Пътуването към пълен AI суверенитет продължава. Допълнителните изследвания, развитие и сътрудничество са от решаващо значение за преодоляване на предизвикателствата и осигуряване на дългосрочния успех на тези инициативи. Като продължава да дава приоритет на AI суверенитета, Тайван може да създаде дигитален пейзаж, който наистина отразява неговата уникална културна идентичност и демократични ценности, давайки пример за други нации, стремящи се да запазят своя distinct place in an increasingly interconnected world.