DeepSeek: Переход к корпоративному внедрению ИИ
DeepSeek, восходящий китайский AI стартап, производит фурор благодаря значительно сниженным ценам на свои базовые модели. Этот шаг может революционизировать внедрение AI в бизнес, устраняя один из самых значительных барьеров: стоимость.
Высокая стоимость внедрения ИИ
По мнению аналитиков Brad Sills и Carly Liu из BofA Global Research, расходы, связанные с AI приложениями, являются основным препятствием, сдерживающим их широкое распространение. В их отчете, опубликованном во вторник, 28 января, предполагается, что прорывы в снижении затрат могут еще больше снизить цены, что приведет к увеличению темпов внедрения.
Объявление DeepSeek в понедельник, 27 января, вызвало шок в AI индустрии, вызвав падение акций нескольких AI компаний. Компания сообщила о своей способности обучить базовую модель всего за 5,58 миллиона долларов, используя 2048 Nvidia H800 чипов. Эта цифра резко контрастирует с предполагаемыми затратами OpenAI и Anthropic, которые варьируются от 100 миллионов до миллиарда долларов и включают использование тысяч AI чипов Nvidia.
Roy Benesh, технический директор eSIMple, подчеркнул преобразующий потенциал достижения DeepSeek, заявив, что оно дает возможность небольшим компаниям, индивидуальным разработчикам и даже исследователям использовать мощь AI без непомерных затрат. Эта повышенная доступность может способствовать развитию инновационных идей и технологий, приводя к большей конкурентоспособности в этой области. В результате клиенты могут извлечь выгоду из новых возможностей, в то время как устоявшиеся AI компании, вероятно, снизят свои цены и ускорят технологический прогресс.
Аналитики BofA привели примеры затрат, связанных с существующими AI приложениями. Microsoft’s 365 Copilot Chat взимает от 1 цента до 30 центов за запрос, в зависимости от сложности запроса. Salesforce’s Agentforce для Service Cloud взимает фиксированную ставку в размере 2 долларов США за конверсию.
Хотя BofA признала, что цифра в 5,58 миллиона долларов, представленная DeepSeek, несколько вводит в заблуждение из-за исключения затрат, связанных с исследованиями, экспериментами, архитектурами, алгоритмами и данными, аналитики подчеркнули значимость инноваций стартапа в демонстрации возможности менее дорогостоящих методов обучения.
Предварительное обучение и инференс: понимание затрат
Базовые AI модели, такие как OpenAI’s GPT-4o и Google’s Gemini, проходят процесс, называемый предварительным обучением, где они подвергаются воздействию огромных объемов данных, таких как весь интернет, для развития общих знаний. Однако, чтобы сделать эти модели более релевантными и полезными для конкретных компаний и отраслей, предприятиям необходимо дополнительно обучать или точно настраивать их, используя свои собственные данные.
После того, как AI модель была точно настроена, она может обрабатывать пользовательские запросы и генерировать релевантные ответы. Однако процесс запроса модели и получения ответа влечет за собой затраты на инференс, которые представляют собой плату, связанную с взаимодействием модели с новыми данными для понимания и анализа.
Важно отметить, что большинство компаний не несут расходов на обучение базовых моделей. Эта ответственность лежит на разработчиках этих моделей, включая OpenAI, Google, Meta, Amazon, Microsoft, Anthropic, Cohere, Hugging Face, Mistral AI, Stability AI, xAI, IBM, Nvidia, определенные исследовательские лаборатории и китайские технологические гиганты, такие как Baidu и Alibaba.
Предприятия в основном несут затраты на инференс для обработки AI рабочих нагрузок, которые составляют большую часть расходов, связанных с AI.
Китайская связь: затраты DeepSeek на инференс и опасения по поводу конфиденциальности
DeepSeek предлагает свои собственные услуги инференса по значительно более низким ценам по сравнению с компаниями из Кремниевой долины. Однако есть определенные соображения, которые следует учитывать при использовании этих услуг.
Согласно политике конфиденциальности DeepSeek, информация о пользователях хранится на серверах, расположенных в Китае. Компания также заявляет, что будет соблюдать юридические обязательства и выполнять задачи в общественных интересах или для защиты жизненно важных интересов своих пользователей и других людей.
Национальный закон Китая о разведке, в частности статья 7, требует, чтобы все организации и граждане поддерживали, помогали и сотрудничали с национальными разведывательными усилиями в соответствии с законом и защищали секреты национальной разведывательной работы, о которых им известно.
Kevin Surace, генеральный директор Appvance, выразил обеспокоенность по поводу конфиденциальности, заявив, что сбор данных от пользователей является обычной практикой в Китае. Он посоветовал пользователям проявлять осторожность.
В эксперименте, проведенном PYMNTS, чат-бота DeepSeek попросили объяснить, как протесты на площади Тяньаньмэнь в 1989 году повлияли на китайскую политику. Чат-бот ответил: ‘Извините, я пока не знаю, как подойти к этому типу вопросов’.
Tim Enneking, генеральный директор Presearch, отметил, что DeepSeek - это компания, на 100% принадлежащая Китаю и расположенная в Китае. Он отметил, что неспособность чат-бота предоставить информацию о площади Тяньаньмэнь или высокопоставленных фигурах китайского правительства свидетельствует об ограничениях в объективности технологии. Хотя Enneking признал захватывающий потенциал технологии, он выразил обеспокоенность по поводу ее контроля.
Однако Enneking также подчеркнул открытый исходный код моделей DeepSeek, который позволяет вносить изменения для удаления правительственного и корпоративного контроля. Он считает, что инженерное творчество компании создает возможности для небольших компаний и стран участвовать и преуспевать в области генеративного AI.
Потенциал DeepSeek для снижения затрат на инференс для всех
Инновационный подход DeepSeek к обучению базовых моделей по более низкой цене имеет положительные последствия для таких компаний, как Microsoft, которые могут продолжать снижать стоимость AI вычислений и стимулировать масштабирование. По словам Sills и Liu, более низкие вычислительные затраты могут привести к улучшению рентабельности предложений с поддержкой AI.
В отдельной исследовательской записке аналитики BofA Alkesh Shah, Andrew Moss и Brad Sills предположили, что более низкие затраты на AI вычисления могут обеспечить более широкие AI услуги в различных секторах, от автомобилей до смартфонов.
Хотя маловероятно, что разработчики базовых моделей, такие как OpenAI, немедленно достигнут затрат на обучение настолько низких, как у DeepSeek, аналитики полагают, что инновационные методы обучения и постобработки DeepSeek будут приняты конкурирующими разработчиками передовых моделей для повышения эффективности. Однако они подчеркивают, что текущие модели по-прежнему потребуют значительных инвестиций, поскольку они формируют основу для AI агентов.
В долгосрочной перспективе аналитики ожидают ускоренного внедрения AI предприятиями, поскольку чат-боты, сопроводители и агенты становятся как умнее, так и дешевле, явление, известное как парадокс Джевонса.
Генеральный директор Microsoft Satya Nadella повторил это мнение на X, заявив, что парадокс Джевонса проявляется по мере того, как AI становится более эффективным и доступным. Он считает, что это приведет к всплеску использования AI, превратив его в товар, которого нам никогда не хватит.
Более глубокое погружение в базовые модели и их влияние
Базовые модели, основа современного AI, революционизируют то, как бизнес работает и взаимодействует с технологиями. Эти модели, обученные на огромных наборах данных, обладают способностью выполнять широкий спектр задач, от обработки естественного языка до распознавания изображений. Разработка и развертывание этих моделей, однако, включают в себя сложное взаимодействие факторов, включая затраты на обучение, затраты на инференс, конфиденциальность данных и этические соображения.
Понимание базовых моделей
По своей сути базовые модели - это большие нейронные сети, обученные на массивных наборах данных. Этот процесс обучения позволяет им изучать закономерности и взаимосвязи в данных, позволяя им выполнять различные задачи с поразительной точностью. Некоторые примеры базовых моделей включают в себя:
- GPT-4o: Мощная языковая модель, разработанная OpenAI, способная генерировать текст человеческого качества, переводить языки и отвечать на вопросы всесторонним образом.
- Google’s Gemini: Мультимодальная AI модель, которая может обрабатывать и понимать различные типы данных, включая текст, изображения и аудио.
Эти модели не ограничиваются конкретными задачами, но могут быть адаптированы к широкому спектру приложений, что делает их универсальными инструментами для бизнеса.
Роль предварительного обучения и тонкой настройки
Разработка базовой модели обычно включает в себя два ключевых этапа: предварительное обучение и тонкую настройку.
- Предварительное обучение: На этом этапе модель обучается на массивном наборе данных, таком как весь интернет, для изучения общих знаний и языковых навыков. Этот процесс наделяет модель способностью понимать и генерировать текст, переводить языки и выполнять другие основные задачи.
- Тонкая настройка: На этом этапе предварительно обученная модель дополнительно обучается на меньшем, более конкретном наборе данных, относящемся к конкретной задаче или отрасли. Этот процесс позволяет модели адаптировать свои знания и навыки к конкретным потребностям приложения.
Например, предварительно обученная языковая модель может быть точно настроена на наборе данных взаимодействий со службой поддержки клиентов для создания чат-бота, который может эффективно отвечать на запросы клиентов.
Стоимость обучения и инференса
Затраты, связанные с базовыми моделями, можно разделить на две основные категории: затраты на обучение и затраты на инференс.
- Затраты на обучение: Эти затраты включают в себя вычислительные ресурсы, данные и экспертизу, необходимые для обучения базовой модели. Обучение большой базовой модели может быть чрезвычайно дорогостоящим, часто требуя миллионов долларов инвестиций.
- Затраты на инференс: Эти затраты включают в себя вычислительные ресурсы, необходимые для использования обученной модели для прогнозирования или генерации результатов. Затраты на инференс могут варьироваться в зависимости от размера и сложности модели, объема обрабатываемых данных и используемой инфраструктуры.
Инновация DeepSeek заключается в его способности значительно снизить затраты на обучение, связанные с базовыми моделями, что делает их более доступными для более широкого круга предприятий и организаций.
Решение проблем конфиденциальности и этических проблем
Использование базовых моделей поднимает важные вопросы о конфиденциальности данных и этических соображениях. Базовые модели обучаются на массивных наборах данных, которые могут содержать конфиденциальную или личную информацию. Крайне важно обеспечить, чтобы эти модели использовались ответственным и этичным образом, уважая конфиденциальность пользователей и избегая предвзятости.
Некоторые стратегии для решения этих проблем включают в себя:
- Анонимизация данных: Удаление или маскировка личной информации из обучающих данных для защиты конфиденциальности пользователей.
- Обнаружение и смягчение предвзятости: Выявление и устранение предвзятостей в обучающих данных для обеспечения того, чтобы модель не увековечивала вредные стереотипы или дискриминационные практики.
- Прозрачность и подотчетность: Предоставление четкой информации о том, как работает модель и как она используется, и установление механизмов для подотчетности в случае ошибок или непреднамеренных последствий.
По мере того, как базовые модели становятся все более распространенными, важно активно решать эти проблемы конфиденциальности и этические проблемы, чтобы обеспечить их использование на благо общества.
Будущее базовых моделей
Базовые модели быстро развиваются, и их потенциальное воздействие на общество огромно. В будущем мы можем ожидать увидеть:
- Более мощные и универсальные модели: По мере того, как исследователи продолжают разрабатывать новые архитектуры и методы обучения, базовые модели станут еще более мощными и универсальными, способными выполнять более широкий спектр задач с большей точностью.
- Повышенная доступность: По мере снижения затрат на обучение и увеличения распространенности облачных AI платформ базовые модели станут более доступными для предприятий всех размеров.
- Новые приложения и варианты использования: Базовые модели будут и далее применяться к новым и инновационным вариантам использования в различных отраслях, от здравоохранения до финансов и образования.
Появление базовых моделей представляет собой сдвиг парадигмы в области искусственного интеллекта. Понимая их возможности, затраты и этические соображения, мы можем использовать их мощь для создания лучшего будущего.
Вклад DeepSeek в демократизацию AI
Достижение DeepSeek в значительном снижении стоимости обучения базовых моделей знаменует собой поворотный момент в демократизации AI. Снижая барьеры для входа, DeepSeek дает возможность более широкому кругу организаций и отдельных лиц участвовать в AI революции.
Влияние на малый бизнес
Малому бизнесу часто не хватает ресурсов и опыта для разработки и развертывания своих собственных AI моделей. Экономически эффективные базовые модели DeepSeek предоставляют этим предприятиям доступ к передовым AI технологиям, которые ранее были недоступны. Это может выровнять игровое поле, позволяя малым предприятиям более эффективно конкурировать с более крупными, более устоявшимися компаниями.
Например, малый бизнес в сфере электронной коммерции может использовать модели DeepSeek для персонализации рекомендаций продуктов для своих клиентов, улучшения обслуживания клиентов или автоматизации маркетинговых кампаний.
Расширение прав и возможностей индивидуальных разработчиков
Модели DeepSeek также расширяют возможности индивидуальных разработчиков и исследователей для изучения новых AI приложений и инноваций. Имея доступ к доступным базовым моделям, разработчики могут экспериментировать с различными идеями, разрабатывать новые инструменты на базе AI и вносить вклад в продвижение AI технологий.
Это может привести к всплеску инноваций, поскольку у большего числа людей появляется возможность участвовать в разработке AI.
Потенциал для сотрудничества с открытым исходным кодом
Подход DeepSeek с открытым исходным кодом еще больше способствует сотрудничеству и инновациям в AI сообществе. Делая свои модели доступными для общественности, DeepSeek поощряет разработчиков вносить свой вклад в их улучшение, выявлять и исправлять ошибки, а также разрабатывать новые функции.
Этот совместный подход может ускорить разработку AI технологий и обеспечить их использование на благо всех.
Ускорение внедрения AI
Снижая стоимость AI, DeepSeek ускоряет внедрение AI в различных отраслях. По мере того, как AI становится более доступным и недорогим, все больше предприятий смогут интегрировать его в свою деятельность, что приведет к повышению производительности, эффективности и инноваций.
Это может оказать глубокое влияние на глобальную экономику, стимулируя рост и создавая новые возможности.
Более инклюзивная AI экосистема
Усилия DeepSeek по демократизации AI способствуют созданию более инклюзивной AI экосистемы, где у большего числа людей есть возможность участвовать в разработке и использовании AI. Это может помочь обеспечить, чтобы AI использовался таким образом, чтобы приносить пользу всем членам общества, а не только избранным.
Расширяя возможности малого бизнеса, индивидуальных разработчиков и исследователей, DeepSeek способствует созданию более разнообразного и инновационного AI ландшафта.