Вызов DeepSeek
Представление DeepSeek-R1 в январе вызвало значительный интерес в техническом сообществе. Предыдущие китайские языковые модели, такие как Ernie от Baidu и Doubao от ByteDance, продемонстрировали многообещающие результаты в китайских языковых приложениях, математике и программировании, но были ограничены более слабой английской грамотностью и ограниченной доступностью. DeepSeek-R1, однако, стал важной вехой, поскольку стал первой китайской LLM, получившей международное признание.
Одним из самых поразительных аспектов DeepSeek-R1 была его якобы низкая стоимость разработки. В отличие от GPT-4o OpenAI, обучение которого, как утверждается, стоило более 100 миллионов долларов США, исследователи DeepSeek заявили, что их чат-бот был разработан всего за 5,6 миллиона долларов США. Дополнительно подпитывая нарратив об эффективности, инженеры DeepSeek обучили модель R1 с использованием процессоров среднего класса, таких как Nvidia H800, а не чипов высшего уровня, используемых в моделях, таких как GPT-4o или Claude от Anthropic. Несмотря на ограничения США на экспорт высокопроизводительных чипов в Китай, DeepSeek-R1 удалось превзойти другие ведущие боты, используя всего 2048 процессоров, распределенных по 256 серверам.
Эта замечательная эффективность и более низкая стоимость разработки во многом объяснялись сложными методами программирования, включая PTX, язык, похожий на ассемблер, который позволяет разработчикам точно настраивать производительность и максимально использовать аппаратное обеспечение.
Вскоре после выпуска приложение DeepSeek-R1 взлетело на вершину бесплатных загрузок в американском Apple App Store, обогнав ChatGPT, TikTok и социальные медиа-платформы Meta. Nasdaq испытал снижение, а акции Nvidia упали после дебюта DeepSeek-R1.
Под вопросом утверждения DeepSeek
Несмотря на первоначальный энтузиазм, многие наблюдатели подняли вопросы о достоверности заявлений DeepSeek относительно своей LLM. Аналитики предположили, что заявленные цифры, вероятно, учитывают только вычислительные затраты, при этом исключая или занижая расходы на инфраструктуру, оборудование и человеческие ресурсы.
Уэсли Куо, основатель и генеральный директор Ubitus, поставщика услуг генеративного ИИ и облачных игр из Тайбэя, поддержал эти опасения, заявив, что фактическая стоимость, вероятно, намного выше, чем сообщается. Ubitus, при поддержке Nvidia, поддержал Project TAME, локализованную LLM, использующую традиционные китайские иероглифы. Они предоставили H100 CPUs и игровые данные. Ubitus также сотрудничал с Foxlink и Shinfox Energy для создания Ubilink.AI, строя крупнейший на Тайване центр суперкомпьютерных услуг с использованием зеленой энергии в сотрудничестве с Asus.
Куо подчеркивает участие компании в разработке LLM-приложений и моделей для правительств, в том числе для правительства Японии, в таких секторах, как игры, туризм и розничная торговля, подчеркивая потенциал ИИ в решении проблемы нехватки рабочей силы и старения населения.
Проблемы с целостностью данных
Куо согласен с OpenAI и Microsoft в том, что DeepSeek, возможно, приобрела данные с помощью дистилляции моделей. Этот процесс включает обучение меньших языковых моделей для имитации результатов больших моделей. OpenAI и Microsoft утверждают, что DeepSeek использовала интерфейс программирования приложений OpenAI для облегчения своей разработки.
Куо утверждает, что DeepSeek получила данные от OpenAI и что существуют недоразумения относительно заявлений компании об эффективности. Он указывает, что DeepSeek-R1 с его 670 миллиардами параметров значительно больше, чем Llama 3.1 405B от Meta AI. Параметры - это внутренние числовые значения, которые модель изучает во время обучения для прогнозирования. Куо также предполагает, что модели DeepSeek, возможно, были дистиллированы из Llama 3.1.
Помимо этих опровержений, также возникли опасения относительно возможностей DeepSeek-R1. Эксперты предполагают, что, как и ее предшественники, R1 превосходит в специализированных, узкоспециализированных функциях, но отстает от версий GPT-4o по производительности общего назначения.
Основным ограничением моделей DeepSeek является ограничение на свободный доступ к информации. Пользователи обнаружили, что на запросы о чувствительных политических темах давались уклончивые ответы. По таким темам, как статус уйгурского меньшинства в Синьцзяне и Тайване, ответы DeepSeek отражают официальные позиции Коммунистической партии Китая. Исследования показывают, что значительная часть результатов DeepSeek подвергается цензуре для подавления информации, связанной с демократией, правами человека и оспариваемыми Китаем претензиями на суверенитет.
Альтернатива Тайваня: TAIDE и далее
В ответ на это разработанные на Тайване LLM, такие как TAME, стали альтернативой DeepSeek в рамках Синосферы. Trustworthy AI Dialogue Engine (TAIDE), запущенный в июне 2023 года Национальным институтом прикладных исследований, направлен на разработку модели, соответствующей социальным, культурным и лингвистическим нормам Тайваня.
Хотя работа над TAIDE, похоже, застопорилась, она послужила важным ориентиром для Project TAME. TAME, разработанный Лабораторией машинного интеллекта и понимания (MiuLab) в Национальном университете Тайваня при финансировании различных организаций, был обучен на 500 миллиардах токенов. Он превзошел конкурентов, включая GPT-4o, по 39 оценкам, достигнув более высоких результатов на университетских вступительных экзаменах, экзаменах на адвоката и экзаменах по традиционной китайской медицине.
Одной из целей TAME является продвижение местной культуры. Разблокировка возможностей местного языка - важный шаг. Куо упоминает разработку тайваньской голосовой LLM на основе Whisper, которая достигла положительных результатов в понимании устного тайваньского языка. Ведутся работы по разработке распознавания языка хакка.
Эти усилия были хорошо восприняты учреждениями в регионах, где эти языки широко распространены. Также предпринимаются усилия по обучению модели распознаванию языков коренных народов, но ограниченные данные остаются препятствием. Для обучения ИИ новому языку требуется значительное количество голосовых записей в сочетании с текстом.
Доступ к историческим данным в государственных архивах представляет собой еще одну возможность. Однако некоторые данные защищены авторским правом. Появление искусственного общего интеллекта открывает потенциал для оказания помощи в возрождении находящихся под угрозой исчезновения и вымерших языков.
Стремление к суверенитету в области ИИ
Пересечение языка и культуры подчеркивает важность суверенитета в области ИИ как средства укрепления тайваньской идентичности, передачи нарратива Тайваня и защиты его информационной среды.
Джулиан Чу, отраслевой консультант и директор в Market Intelligence & Consulting Institute (MIC), подчеркивает потенциал предвзятости в моделях LLM и обучающих данных. Он отмечает, что даже при использовании традиционных символов результаты LLM могут отражать стиль Китайской Народной Республики и не отражать культуру Тайваня. Цель состоит в том, чтобы тайваньские компании использовали тайваньский язык или данные для обучения LLM и построения суверенитета в области ИИ.
Чу упоминает Formosa Foundation Model (FFM-Llama2) как еще одну многообещающую тайваньскую LLM. Выпущенная в сентябре 2023 года Taiwan Web Service, она была направлена на демократизацию ИИ. Foxconn также запустила свою LLM, FoxBrain, в марте. Однако некоторые комментаторы по-прежнему скептически относятся к предприятиям крупных корпораций в LLM.
Лин Йен-тинг, член команды MiuLab, разработавшей TAME, подчеркивает необходимость устранения пробела в информационной среде в отношении Тайваня. Он отмечает, что DeepSeek-R1 и другие китайские LLM представляют искаженное представление о Тайване. Разработанные в США модели также иногда могут искажать представление о Тайване. Модели с открытым исходным кодом могут не уделять приоритетного внимания Тайваню, а в обучающих данных доминирует Китай.
Поэтому важно выборочно включать тайваньский контент и переучивать его в модель. Этот проактивный подход гарантирует, что уникальный культурный и лингвистический ландшафт Тайваня будет точно представлен в цифровой сфере, укрепляя чувство национальной идентичности и сохраняя его самобытное наследие перед лицом глобального развития ИИ. Эта приверженность сохранению тайваньской идентичности гарантирует, что уникальная культура и ценности островного государства не будут затмеваться доминирующими нарративами.
Проблемы, присущие этому начинанию, существенны. Для создания действительно представительной модели ИИ требуются значительные инвестиции ресурсов, включая доступ к огромным наборам данных локализованного контента и экспертные знания в области обработки естественного языка. Кроме того, постоянная необходимость противодействия дезинформации и предвзятой информации требует непрерывного процесса совершенствования и адаптации.
Несмотря на эти проблемы, приверженность Тайваня суверенитету в области ИИ остается непоколебимой. Разработка TAME и других локализованных LLM представляет собой важный шаг на пути к обеспечению того, чтобы будущее искусственного интеллекта отражало уникальную культурную идентичность острова, демократические ценности и непоколебимую приверженность сохранению своего особого места в мире. Отдавая приоритет суверенитету в области ИИ, Тайвань не только защищает свое культурное наследие, но и позиционирует себя как ключевого игрока в глобальном ландшафте ИИ, демонстрируя, что технологический прогресс может быть согласован с сохранением культурной идентичности и демократических принципов.
Продолжение пути
Путь к полному суверенитету в области ИИ продолжается. Дальнейшие исследования, разработки и сотрудничество имеют решающее значение для преодоления проблем и обеспечения долгосрочного успеха этих инициатив. Продолжая уделять приоритетное внимание суверенитету в области ИИ, Тайвань может создать цифровую среду, которая действительно отражает его уникальную культурную идентичность и демократические ценности, подавая пример другим странам, стремящимся сохранить свое особое место во все более взаимосвязанном мире.