Sarvam AI: Индийская Суверенная LLM

Индия встала на путь преобразований с целью создания собственного независимого потенциала в области искусственного интеллекта, доверив Sarvam AI, начинающему стартапу из Бангалуру, ключевую роль в разработке первой в стране суверенной большой языковой модели (LLM) под эгидой IndiaAI Mission. Этот амбициозный проект подчеркивает стремление Индии к укреплению технологической самодостаточности и использованию возможностей ИИ на благо своих граждан.

Видение отечественного ИИ

В основе этой инициативы лежит глубокое видение: создать модель ИИ, которая была бы не только отечественной, но и обладала передовыми способностями к рассуждению, сложными возможностями обработки речи и безупречным владением широким спектром индийских языков. Эта модель будет глубоко укоренена в индийском лингвистическом и культурном ландшафте, отражая уникальную самобытность и наследие нации.

Для содействия реализации этого видения Sarvam AI получит доступ к внушительному арсеналу вычислительных ресурсов, включающему 4086 графических процессоров NVIDIA H100, в течение шестимесячного периода. Этот доступ позволит стартапу построить LLM с нуля, адаптировав ее к конкретным потребностям и устремлениям индийского контекста.

Три различных варианта

Разработка этой суверенной LLM будет охватывать три различных варианта, каждый из которых предназначен для удовлетворения определенного набора приложений и требований:

  • Sarvam-Large: Этот вариант будет спроектирован для превосходства в сложных задачах рассуждения и генерации, позволяя ему решать сложные проблемы и генерировать сложный контент.

  • Sarvam-Small: Этот вариант будет оптимизирован для интерактивных приложений в режиме реального времени, обеспечивая быстрое и оперативное взаимодействие с пользователями в различных сценариях.

  • Sarvam-Edge: Этот вариант будет адаптирован для работы на устройствах, позволяя ему бесперебойно функционировать на устройствах с ограниченными ресурсами, не требуя постоянного подключения к облаку.

В рамках совместных усилий Sarvam AI будет сотрудничать с AI4Bharat, инициативой IIT Madras, чтобы обеспечить глубокое внедрение моделей в индийский лингвистический и культурный контекст. Это сотрудничество будет использовать опыт AI4Bharat в области обработки естественного языка и его богатую базу ресурсов индийского языка.

Подтвержденный послужной список Sarvam AI

Sarvam AI уже зарекомендовала себя как лидер в индийском ландшафте ИИ, особенно в области многоязычного ИИ. История инноваций компании и ее приверженность решению уникальных задач индийского контекста позиционируют ее как естественный выбор для руководства этим амбициозным проектом.

В октябре 2024 года Sarvam AI представила Sarvam-1, LLM с 2 миллиардами параметров, специально разработанную и оптимизированную для индийских языков. Эта модель поддерживает десять основных индийских языков, включая бенгальский, гуджарати, хинди, каннада, малаялам, маратхи, ория, панджаби, тамильский и телугу, а также английский.

В отличие от многих существующих моделей, которые испытывают трудности с неэффективностью токенов при обработке индийских сценариев, Sarvam-1 достигает коэффициента рождаемости от 1,4 до 2,1 токенов на слово. Этот замечательный подвиг значительно повышает эффективность обработки, позволяя модели обрабатывать индийские языки с большей скоростью и точностью.

Внутреннее обучение и инфраструктура

Sarvam-1 был полностью обучен в Индии с использованием отечественной инфраструктуры ИИ на базе NVIDIA H100 Tensor Core GPU, центров обработки данных Yotta и языковых ресурсов AI4Bharat. Этот сквозной отечественный подход подчеркивает растущие возможности Индии в разработке ИИ и ее стремление к созданию самодостаточной экосистемы ИИ.

Результаты сравнительного анализа показали, что Sarvam-1 не только соответствует, но в некоторых случаях и превосходит более крупные модели, такие как Meta’s Llama 3.1 8B и Google’s Gemma-2-9B, особенно в задачах, связанных с индийскими языками. Эта впечатляющая производительность подчеркивает эффективность подхода Sarvam AI и его способность конкурировать с мировыми лидерами в области ИИ.

В тесте TriviaQA на индийских языках Sarvam-1 достиг точности 86,11, превзойдя результат Llama-3.1 8B в 61,47. Этот значительный отрыв демонстрирует превосходные возможности Sarvam-1 в понимании и обработке информации на индийских языках.

Предстоящие задачи

Хотя Sarvam AI продемонстрировала свои возможности с Sarvam-1, задача создания первой отечественной базовой модели сопряжена с определенными трудностями. Преодоление этих проблем потребует изобретательности, настойчивости и духа сотрудничества.

Масштабирование инфраструктуры

Одним из наиболее значительных препятствий является масштабирование инфраструктуры для удовлетворения потребностей обучения больших моделей. Обучение этих моделей требует доступа к огромной вычислительной мощности в течение длительного периода. Хотя предоставление правительством тысяч графических процессоров NVIDIA H100 является важным шагом вперед, управление, оптимизация и обслуживание таких высокопроизводительных ресурсов являются сложной задачей.

Эффективное управление ресурсами будет иметь решающее значение для обеспечения эффективности и экономичности процесса обучения. Это повлечет за собой оптимизацию использования графических процессоров, управление распределением памяти и реализацию стратегий по смягчению потенциальных узких мест.

Курирование данных

Еще одна важная задача заключается в курировании высококачественных, разнообразных наборов данных. Языковой ландшафт Индии невероятно сложен, с различиями не только между языками, но и внутри диалектов, культур и стилей письма. Создание сбалансированного набора данных, который действительно отражает это разнообразие без внесения предвзятости, является важным, но чрезвычайно сложным.

Набор данных должен быть репрезентативным для различных регионов, сообществ и социальных групп в Индии. Он также должен быть свободен от предвзятости, которая может привести к несправедливым или дискриминационным результатам. Следует уделять пристальное внимание отбору и аннотированию данных, чтобы гарантировать их соответствие этим критериям.

Лингвистические нюансы

Кроме того, модели должны быть способны улавливать тонкие нюансы индийских языков, включая идиомы, метафоры и культурные отсылки. Это требует глубокого понимания культурного контекста, в котором используются эти языки.

Сотрудничество Sarvam AI с AI4Bharat сыграет важную роль в решении этих проблем. Опыт AI4Bharat в области индийских языков и его доступ к обширной базе лингвистических ресурсов окажут ценную поддержку в разработке суверенной LLM.

Последствия для Индии

Разработка суверенной LLM имеет огромные последствия для технологического ландшафта Индии и ее роли на мировой арене ИИ. Эта инициатива может преобразовать различные секторы, включая образование, здравоохранение, финансы и управление.

Экономический рост

Содействуя инновациям и стимулируя экономический рост, суверенная LLM может создать новые возможности для индийских предприятий и предпринимателей. Она также может помочь преодолеть цифровой разрыв, предоставив доступ к информации и услугам на местных языках.

Расширение прав и возможностей

Кроме того, LLM может расширить возможности граждан, предоставив им доступ к персонализированному образованию, здравоохранению и другим основным услугам. Она также может помочь содействовать социальной интеграции, устраняя языковые барьеры и способствуя общению между различными сообществами.

Стратегическая независимость

В конечном счете, разработка суверенной LLM является стратегическим императивом для Индии. Это позволит стране развивать свои собственные возможности в области ИИ, снижая ее зависимость от иностранных технологий и обеспечивая ее цифровой суверенитет.

Совместная экосистема

Успех этого амбициозного предприятия зависит от создания совместной экосистемы, объединяющей правительство, промышленность, научные круги и стартап-сообщество. Работая вместе, эти заинтересованные стороны могут использовать свой коллективный опыт и ресурсы для стимулирования инноваций и ускорения развития ИИ в Индии.

Поддержка правительством Sarvam AI и его приверженность обеспечению доступа к вычислительным ресурсам являются важными факторами, способствующими созданию этой экосистемы. Отраслевые партнерства могут обеспечить доступ к данным реального мира и опыту, а академические институты могут внести вклад в передовые исследования и таланты.

Будущее, основанное на ИИ

Вступая на этот путь преобразований, Индия готова раскрыть огромный потенциал ИИ и создать будущее, основанное на инновациях, инклюзивности и самообеспеченности. Разработка суверенной LLM является свидетельством амбиций Индии и ее непоколебимой приверженности формированию своей собственной судьбы в эпоху искусственного интеллекта.