От Джайпура к DeepSeek: призыв к Open Source

Литературный фестиваль, откровение ИИ

Несколько недель назад оживленный Джайпурский литературный фестиваль (JLF) в Индии стал неожиданным форумом для важного обсуждения будущего искусственного интеллекта. Во время дискуссии, формально посвященной наследию империи, разговор резко изменился. Аудитория, увлеченная книгой Панкаджа Мишры ‘Из руин империи: восстание против Запада и перестройка Азии’, задала ряд острых вопросов, но не о литературе, а о DeepSeek, новой генеративной модели ИИ из Китая.

Эти вопросы – Как мы дошли до этого? Как нам выбрать наилучший путь развития ИИ? Почему открытый исходный код играет ключевую роль в разработке ИИ? – нашли отклик далеко за пределами фестиваля. Они затронули глубоко укоренившееся историческое соперничество, стремление к самодостаточности и растущее глобальное движение, выступающее за более открытый и совместный подход к разработке ИИ.

Исторические корни восприятия DeepSeek

Появление DeepSeek на литературном фестивале может показаться необычным. Однако его известность тесно связана с историческими событиями и давним соперничеством, особенно между Азией и Западом. В то время как европейские лаборатории ИИ получили признание за свои прорывы в области открытого исходного кода, восприятие DeepSeek в Азии имеет гораздо более глубокий исторический резонанс.

Запуск DeepSeek получил широкое освещение в СМИ. Его прием на JLF выявил настроения, выходящие за рамки простых обсуждений производительности ИИ. Индийские писатели и журналисты, часто критикующие Китай, оказались объединены общей борьбой против доминирования американских корпораций ИИ (AIC). Этот энтузиазм по поводу DeepSeek в Азии коренится в колониальной истории и, в последнее время, в провокационных заявлениях корпораций.

ИИ: современная борьба за самодостаточность

Для Стивена Платта, автора книги ‘Имперские сумерки: опиумная война и конец последнего золотого века Китая’, технологические амбиции Китая неотделимы от его исторических шрамов. Опиумные войны (1839–1860 гг.) служат ярким символом того, как технологическое и военное превосходство Великобритании унизило Китай. Это ‘Столетие унижения’ подпитывает нынешнее стремление Китая к самодостаточности, его агрессивные инвестиции в ИИ, полупроводники и другие критически важные технологии. Это решимость избежать зависимости от западных технологий, урок, запечатленный в национальном сознании.

Индийские участники дискуссии на JLF нашли общий язык в этом повествовании. Как и Китай, Индия несет на себе темный след влияния Ост-Индской компании. Кроме того, британская журналистка Анита Ананд выделила скандальное видео, в котором генеральный директор OpenAI Сэм Альтман пренебрежительно отозвался о потенциале Индии конкурировать с AIC в обучении базовых моделей, заявив, что это ‘совершенно безнадежно’. Подобные замечания только укрепили решимость региона к самообеспечению.

Open Source AI: символ сопротивления

DeepSeek и предшествовавшие ему европейские лаборатории дали луч надежды в гонке ИИ. Их выбор в пользу открытого исходного кода стал мощным символом сопротивления доминированию проприетарных моделей ИИ.

Релиз DeepSeek R1 необходимо понимать в контексте глубоко укоренившегося соперничества, особенно с Соединенными Штатами. Это соперничество настолько глубоко, что Европа часто упускается из виду в дискуссиях о конкуренции с американскими технологиями.

Доминирование AIC даже вызвало сравнения с колониализмом на Западе. В статье, опубликованной в августе 2024 года под названием ‘Подъем техноколониализма’, Герман Хаузер, член Европейского совета по инновациям, и Хазем Дэнни Накиб, старший научный сотрудник Университетского колледжа Лондона (UCL), написали: ‘В отличие от колониализма прошлого, техноколониализм заключается не в захвате территории, а в контроле над технологиями, которые лежат в основе мировой экономики и нашей повседневной жизни. Для достижения этой цели США и Китай все чаще переносят на свою территорию наиболее инновационные и сложные сегменты глобальных цепочек поставок, создавая тем самым стратегические узкие места’.

Новаторский подход к открытому исходному коду европейских лабораторий ИИ, таких как Mistral, kyutai и Meta’s FAIR Paris, а теперь и DeepSeek, представил убедительную альтернативу стратегии проприетарных моделей ИИ, используемой AIC. Эти вклады в открытый исходный код находят отклик во всем мире и еще больше укрепили принятие открытого исходного кода ИИ как символа сопротивления американскому доминированию в области ИИ.

Аргументы в пользу Open Source: история повторяется

Технологическое сотрудничество процветает благодаря энергии и скорости, что присуще эволюции программного кода.

Французский лауреат Нобелевской премии по экономике Жан Тироль, первоначально озадаченный появлением открытого исходного кода, задался вопросом в своей статье 2000 года, написанной совместно с Джошем Лернером, ‘Простая экономика открытого исходного кода’: ‘Почему тысячи первоклассных программистов должны бесплатно вносить свой вклад в предоставление общественного блага? Любое объяснение, основанное на альтруизме, заходит лишь до определенного предела’.

Хотя в то время это было понятно, любой, кто следил за прогрессом ИИ в последние годы, особенно после выпуска DeepSeek R1, счел бы ответ самоочевидным. Влияние FAIR Paris на открытие исходного кода Llama компанией Meta, стремительный взлет Mistral и его основателей благодаря открытию исходного кода 7B модели изучения языка (LLM) и DeepSeek R1 демонстрируют убедительные причины, стоящие за приверженностью этих программистов и ученых открытому исходному коду.

Это также проясняет, почему Сэм Альтман и его соучредители выбрали название ‘OpenAI’, чтобы привлечь таланты. Добились ли бы какие-либо из этих передовых лабораторий такой громкой огласки и создали ли бы такие сильные личные бренды в сообществе ИИ, если бы они выбрали проприетарный подход? Ответ – решительное нет.

Две сильные цитаты 1999 года, программиста Ричарда Столлмана и разработчика Эрика Рэймонда, соответственно, включенные в начало статьи, проливают свет на прием DeepSeek на JLF и подчеркивают более глубокие идеологические силы, действующие в игре:

  • ‘Идея о том, что социальная система проприетарного программного обеспечения – система, которая говорит, что вам не разрешено делиться или изменять программное обеспечение, – является антисоциальной, что она неэтична, что она просто неправильна, может удивить некоторых людей. Но что еще мы можем сказать о системе, основанной на разделении общества и удержании пользователей в беспомощном состоянии?’ - Ричард Столлман

  • ‘Функция полезности, которую максимизируют хакеры Linux, не является классически экономической, а является нематериальной ценностью их собственного удовлетворения эго и репутации среди других хакеров. … Добровольные культуры, которые работают таким образом, на самом деле не редкость; одна из других, в которой я долгое время участвовал, – это фэндом научной фантастики, который, в отличие от хакерства, явно признает egoboo (повышение своей репутации среди других фанатов)’. - Эрик Рэймонд

Траектория развития Unix в 1970-х и 1980-х годах представляет собой убедительную аналогию с текущим состоянием ИИ. Первоначальное продвижение и бесплатное распространение Unix компанией AT&T в академических кругах способствовали инновациям и внедрению. Однако, когда AT&T ввела проприетарную лицензию в конце 1970-х годов, это неизбежно привело к тому, что Берклиевский университет запустил BSD Unix, открытую альтернативу, и, в конечном итоге, Линус Торвальдс создал Linux. Разработка Торвальдсом Linux в Европе сместила эпицентр программного обеспечения с открытым исходным кодом из США.

Параллели поразительны, даже географически, с эволюцией ИИ. Однако на этот раз появились новые географические регионы: TII из Абу-Даби с его моделями Falcon, DeepSeek из Китая, Qwen от Alibaba и, совсем недавно, Krutrim AI Lab из Индии с ее моделями с открытым исходным кодом для индийских языков.

Команда Meta FAIR Paris, наряду с ведущими европейскими лабораториями ИИ и новыми передовыми лабораториями (DeepSeek, Falcon, Qwen, Krutrim), значительно ускорили инновации в области ИИ. Открыто делясь исследовательскими работами и кодом, они:

  • Обучили новое поколение инженеров и исследователей ИИ самым современным методам ИИ.
  • Создали экосистему открытого сотрудничества, обеспечивающую быстрое развитие за пределами проприетарных лабораторий ИИ.
  • Предоставили альтернативные модели ИИ, гарантируя, что ИИ не будет монополизирован американскими корпорациями ИИ.

Эти четыре экосистемы (Европа, Индия, Абу-Даби и Китай) могли бы создать мощный альянс ИИ с открытым исходным кодом, чтобы бросить вызов доминирующим AIC, все еще работающим в рамках проприетарного мышления в области ИИ.

В опроснике Ask Me Anything (AMA) 31 января 2025 года, после выпуска DeepSeek R1, Альтман признал, что подход к проприетарным моделям ИИ оказался на неправильной стороне истории.

Со временем лаборатории ИИ по всему миру могут решить присоединиться к этому альянсу, чтобы совместно продвигать эту область. Это был бы не первый случай, когда научная область выходит за рамки границ и политических идеологий благодаря некоммерческой инициативе. Он предлагает способ конкуренции, который позволяет избежать возникновения антиколониальных обид, часто выражаемых Глобальным Югом.

Исторические прецеденты: проект ‘Геном человека’ как модель для ИИ

Как биолог, я особенно хорошо осведомлен о достижениях проекта ‘Геном человека’ (HGP) и о том, как он в конечном итоге превзошел коммерческую инициативу Celera Genomics, принеся пользу этой области и человечеству в целом.

HGP был новаторской международной исследовательской инициативой, которая картировала и секвенировала весь геном человека. Завершенный в 2003 году после 13 лет сотрудничества, он принес почти 800 миллиардов долларов экономического эффекта от инвестиций в 3 миллиарда долларов, согласно отчету 2011 года, обновленному в 2013 году (возврат инвестиций в экономику США составил 141 к одному – каждый 1 доллар федеральных инвестиций в HGP способствовал созданию 141 доллара в экономике). Он произвел революцию в медицине, биотехнологии и генетике, обеспечив достижения в области персонализированной медицины, профилактики заболеваний и геномных исследований. Работы по секвенированию и исследования проводились 20 лабораториями в шести странах: США, Великобритании, Франции, Германии, Японии и Китае.

В то время как Celera Genomics пыталась секвенировать геномные последовательности с целью получения прибыли, HGP отдавал приоритет открытому обмену данными, закрепленному в его Бермудских принципах. Эти принципы, установленные во время Международного стратегического совещания по секвенированию генома человека на Бермудских островах в феврале 1996 года, сыграли решающую роль в формировании политики обмена данными для HGP и оказали долгосрочное влияние на практику геномных исследований во всем мире. Его ключевыми принципами были:

  1. Немедленный выпуск данных: Все данные о геномной последовательности человека, сгенерированные HGP, должны были быть опубликованы в общедоступных базах данных, желательно в течение 24 часов после генерации. Это быстрое распространение было направлено на ускорение научных открытий и максимизацию социальных выгод.
  2. Свободный и неограниченный доступ: Данные должны были быть предоставлены в свободном доступе мировому научному сообществу и общественности без каких-либо ограничений на их использование в целях исследований или разработок.
  3. Предотвращение претензий на интеллектуальную собственность: Участники согласились с тем, что никакие права интеллектуальной собственности не будут заявлены на первичные данные геномной последовательности, что способствует развитию духа открытой науки и предотвращению потенциальных препятствий для исследований из-за патентования.

С точки зрения управления, HGP был совместной и скоординированной научной инициативой, а не отдельной организацией или корпорацией. Это была децентрализованная работа, финансируемая за счет государственных грантов и контрактов с различными исследовательскими институтами. Часть его бюджета (3–5%) была направлена на изучение и решение этических, правовых и социальных проблем, связанных с секвенированием генома человека.

Соединение безопасности ИИ и Open Source AI

Еще одним важным преимуществом ИИ с открытым исходным кодом является его роль в исследованиях безопасности ИИ.

Сеульский саммит по ИИ в 2024 году был посвящен исключительно экзистенциальным рискам в то время, когда AIC имели значительное преимущество перед остальным миром. Еще в мае 2024 года бывший генеральный директор Google Эрик Шмидт утверждал, что США опережают Китай в области ИИ на 2–3 года, в то время как Европа слишком озабочена регулированием, чтобы иметь значение. Если бы саммит увенчался успехом, он бы фактически передал контроль над решениями в области безопасности ИИ этим корпорациям. К счастью, этого не произошло.

Теперь, когда ИИ с открытым исходным кодом преодолевает технологический разрыв, обсуждения безопасности больше не будут диктоваться исключительно горсткой доминирующих игроков. Вместо этого более широкая и разнообразная группа заинтересованных сторон – включая исследователей, политиков и лаборатории ИИ из Европы, Индии, Китая и Абу-Даби – имеет возможность формировать дискуссию наряду с AIC.

Кроме того, ИИ с открытым исходным кодом расширяет глобальные возможности сдерживания, гарантируя, что ни один субъект не сможет монополизировать или злоупотребить передовыми системами ИИ без ответственности. Этот децентрализованный подход к безопасности ИИ поможет смягчить потенциальные экзистенциальные угрозы, более справедливо распределяя как возможности, так и надзор по всей глобальной экосистеме ИИ.

Проект ‘Human AI Project’ с Парижскими принципами

Какую роль может сыграть Парижский саммит по действиям в области ИИ на следующей неделе в формировании будущего ИИ?

Это предоставляет решающую возможность создать проект ‘Human AI Project’, смоделированный по образцу проекта ‘Геном человека’, для продвижения и поддержки разработки ИИ с открытым исходным кодом в глобальном масштабе. Текущие вклады в открытый исходный код, от новаторских европейских лабораторий ИИ до DeepSeek, уже ускоряют развитие этой области и помогают сократить разрыв с AIC.

Возможности ИИ значительно расширяются благодаря зрелости общей экосистемы с открытым исходным кодом, с тысячами зрелых проектов, специализированными моделями управления и глубокой интеграцией в предприятия, академические круги и правительство.

Экосистема ИИ с открытым исходным кодом также выигрывает от таких платформ, как Github и Gitlab. Совсем недавно специализированные платформы для ИИ с открытым исходным кодом, такие как Hugging Face – американская корпорация, соучредителями которой являются три французских предпринимателя, – начали играть жизненно важную роль в качестве платформ распространения для сообщества.

Учитывая относительную зрелость экосистемы ИИ с открытым исходным кодом по сравнению с секвенированием генома человека в начале 1990-х годов, как ИИ с открытым исходным кодом может извлечь выгоду из проекта ‘Human AI Project’?

Во-первых, Европейский союз часто подвергается критике со стороны AIC и собственных передовых лабораторий ИИ за регулирование открытого исходного кода. Проект ‘Human AI Project’ мог бы посвятить совместные усилия разработке согласования нормативных требований и стандартов в странах и регионах-участниках. Скоординированный подход, с первоначальным вкладом Европы, Индии, Абу-Даби и Китая, мог бы способствовать распространению моделей с открытым исходным кодом в этом общем регулируемом регионе (своего рода зоне свободной торговли для открытого исходного кода).

Хотя это и не доказано окончательно, существуют параллели с динамикой, обусловленной соперничеством, которая сформировала реакцию на DeepSeek на JLF. Аналогичным образом, регулирование ИИ могло бы быть разработано с акцентом на стимулирование инноваций и максимизацию общественной пользы – как для предприятий, так и для потребителей, – а не служить потенциальным механизмом, препятствующим прогрессу AIC или мешающим доморощенным чемпионам ИИ, стремящимся сократить разрыв.

Проект мог бы также способствовать обмену талантами и финансировать общую вычислительную инфраструктуру (связанную с энергетической инфраструктурой) для ИИ с открытым исходным кодом. Из приведенной ниже диаграммы видно, что талантливые выпускники STEM в некоторых частях мира могут в настоящее время испытывать трудности с доступом к инфраструктуре ИИ мирового класса, которой не хватает их стране.

Еще одной областью сотрудничества было бы установление передового опыта в отношении стандартов открытого доступа к моделям и наборам данных, охватывающих веса, код и документацию.

Проект мог бы также способствовать глобальному сотрудничеству в области исследований безопасности ИИ. Вместо того, чтобы тайно соревноваться в устранении проблем согласования, исследователи из Парижа, Пекина и Бангалора могли бы работать вместе над оценкой моделей и снижением рисков. Все результаты исследований в области безопасности (например, методы снижения вредных результатов или инструменты для интерпретируемости) могли бы быть оперативно опубликованы в открытом доступе.

Этот принцип признал бы, что безопасность ИИ является глобальным общественным благом – прорыв в одной лаборатории (скажем, новый алгоритм, делающий рассуждения ИИ прозрачными) должен приносить пользу всем, а не оставаться проприетарным. Могли бы быть организованы совместные тесты безопасности и мероприятия-вызовы, чтобы поощрять культуру коллективной ответственности. Объединив исследования в области безопасности, проект был бы направлен на то, чтобы опережать потенциальное неправильное использование или аварии ИИ, заверяя общественность в том, что мощные системы ИИ управляются с осторожностью.

Акцент на экзистенциальном риске на саммите по безопасности ИИ в Великобритании в 2023 году в Блетчли-парке, чрезмерно подчеркивая аналогию с распространением ядерного оружия, упустил возможность изучить другие области, где безопасность считается общественным благом: кибербезопасность, антибиотики и иммунология (с несколькими интересными инициативами после Covid-19) и безопасность полетов.

Проект мог бы также сотрудничать и способствовать работе, проводимой в настоящее время частным фондом ARC Prize Foundation, для содействия разработке безопасных и передовых систем ИИ. Премия ARC, соучредителями которой являются Франсуа Шолле, создатель библиотеки Keras с открытым исходным кодом, и Майк Кнуп, соучредитель компании-разработчика программного обеспечения Zapier, – это некоммерческая организация, которая проводит публичные конкурсы для продвижения исследований в области общего искусственного интеллекта (AGI). Их флагманское мероприятие, конкурс ARC Prize, предлагает более 1 миллиона долларов участникам, которые смогут разработать и открыть исходный код решений для эталона ARC-AGI – теста, предназначенного для оценки способности системы ИИ обобщать и эффективно приобретать новые навыки.

Акцент ARC Prize Foundation на решениях с открытым исходным кодом и публичных конкурсах органично сочетается с целями проекта ‘Human AI Project’ по содействию международному сотрудничеству и прозрачности в разработке ИИ, как указано на веб-сайте ARC Prize Foundation в разделе ‘AGI’:

‘LLM обучаются на невообразимо огромных объемах данных, но при этом не могут адаптироваться к простым проблемам, на которых они не обучались, или делать новые изобретения, какими бы базовыми они ни были. Сильные рыночные стимулы подтолкнули передовые исследования ИИ к закрытию исходного кода. Внимание и ресурсы исследований направляются в тупик. Премия ARC призвана вдохновить исследователей на открытие новых технических подходов, которые продвигают прогресс открытого AGI’.

Как и HGP, проект ‘Human AI Project’ выделил бы часть своего финансирования на этическое управление и надзор. Это включало бы обсуждения об авторском праве. Проект мог бы помочь обществу рассмотреть этические аспекты бесплатного доступа к лучшему источнику информации при обучении, одновременно разрабатывая проприетарные модели на его основе. В области биологии хорошо известно, что Protein Data Bank, который был критически важен для модели AlphaFold компании Google DeepMind для прогнозирования структуры белка, вероятно, потребовал эквивалента 10 миллиардов долларов финансирования в течение 50 лет. Проект мог бы помочь в размышлениях о том, как мы продолжаем финансировать разработку ИИ или как проприетарные AIC должны делиться доходами с создателями оригинальных работ.

Вместе эти Парижские принципы и проект ‘Human AI Project’ помогли бы продвигать ИИ во всем мире более открытым, совместным и этичным образом. Они основывались бы на достижениях ведущих участников разработки открытого исходного кода от Европы до Ближнего Востока, Индии, а теперь и Китая, в рамках существующих платформ и платформ, специфичных для программного обеспечения с открытым исходным кодом и ИИ.

История рифмуется с ИИ

Перед нами открываются огромные возможности. Mistral AI, kyutai, BFL, Stability, а с недавних пор и DeepSeek дали общественности надежду на то, что будущее, в котором сотрудничество соперничает или даже превосходит проприетарные AIC, возможно.

Мы все еще находимся на ранних стадиях этого технологического прорыва. Мы должны быть благодарны за вклад, который AIC внесли в эту область. Саммит по действиям в области ИИ должен стать возможностью способствовать совместным инновациям в беспрецедентных масштабах и привлечь как можно больше игроков на правильную сторону истории.

Это снова 1789 год. Мы являемся свидетелями борьбы за технологический суверенитет, децентрализации власти и призыва к ИИ как к общественному благу. И, как и в 1789 году, эту революцию не удастся сдержать.