Unveiling Gemini: Google’s Next-Gen AI Family
Gemini – это амбициозный проект Google в области ИИ-моделей следующего поколения. Разработанный совместными усилиями DeepMind и Google Research, ведущих исследовательских лабораторий Google в области ИИ, Gemini представляет собой не монолитную сущность, а семейство моделей, каждая из которых предназначена для конкретных задач и уровней производительности. Это семейство включает:
- Gemini Ultra: Самая мощная модель семейства, предназначенная для очень сложных задач, требующих значительных вычислительных ресурсов. (В настоящее время недоступна)
- Gemini Pro: Надежная модель, меньше, чем Ultra, но способная справляться с широким спектром задач. Gemini 2.0 Pro, последняя итерация, в настоящее время является флагманом Google.
- Gemini Flash: Оптимизированная, ‘дистиллированная’ версия Pro, ориентированная на скорость и эффективность.
- Gemini Flash-Lite: Немного уменьшенная и более быстрая версия Gemini Flash.
- Gemini Flash Thinking: Модель, демонстрирующая способности к ‘рассуждению’.
- Gemini Nano: Состоит из двух компактных моделей, Nano-1 и немного более мощной Nano-2, разработанных для автономной работы на устройствах.
Определяющей характеристикой всех моделей Gemini является их врожденная мультимодальность. В отличие от моделей, обученных исключительно на текстовых данных, таких как LaMDA от Google, модели Gemini умеют обрабатывать и анализировать различные типы данных. Они были обучены на обширном наборе данных, включающем общедоступные, проприетарные и лицензированные аудио, изображения, видео, кодовые базы и текст на нескольких языках.
Эта мультимодальная природа позволяет Gemini преодолеть ограничения моделей, работающих только с текстом. В то время как LaMDA ограничена вводом и выводом текста, модели Gemini, особенно новые версии Flash и Pro, могут изначально генерировать изображения и аудио наряду с текстом.
Однако этические и юридические последствия обучения моделей ИИ на общедоступных данных, зачастую без явного согласия владельцев данных, остаются сложным вопросом. Хотя Google предлагает политику возмещения ущерба в области ИИ для защиты определенных клиентов Google Cloud от потенциальных судебных исков, эта политика имеет ограничения. Пользователи, особенно те, кто намеревается использовать Gemini в коммерческих целях, должны проявлять осторожность.
Gemini Apps vs. Gemini Models: Understanding the Distinction
Важно различать модели Gemini и приложения Gemini, доступные в Интернете и на мобильных платформах (ранее известные как Bard).
Приложения Gemini функционируют как клиенты, подключаясь к различным моделям Gemini и представляя удобный интерфейс, похожий на чат-бота. Они служат интерфейсом для взаимодействия с возможностями генеративного ИИ Google.
На устройствах Android приложение Gemini заменяет приложение Google Assistant. На iOS приложения Google и Google Search выступают в качестве клиентов Gemini.
Пользователи Android могут вызвать оверлей Gemini, чтобы задать вопросы о контенте, отображаемом на экране, например, о видео YouTube. Этот оверлей запускается нажатием и удержанием кнопки питания поддерживаемого смартфона или с помощью голосовой команды ‘Hey Google’.
Приложения Gemini универсальны, принимая изображения, голосовые команды и текст в качестве входных данных. Они могут обрабатывать файлы, такие как PDF-файлы, загруженные напрямую или импортированные из Google Drive, и генерировать изображения. Беседы, начатые с приложениями Gemini на мобильном устройстве, плавно синхронизируются с Gemini в Интернете, при условии, что пользователь вошел в ту же учетную запись Google.
Gemini Advanced: Unlocking Premium AI Features
Приложения Gemini — не единственный способ использовать возможности моделей Gemini. Google постепенно интегрирует функции на базе Gemini в свои основные приложения и сервисы, включая Gmail и Google Docs.
Чтобы в полной мере использовать эти возможности, пользователям обычно требуется план Google One AI Premium. Этот план, технически являющийся компонентом Google One, стоит 20 долларов в месяц и предоставляет доступ к Gemini в приложениях Google Workspace, таких как Docs, Maps, Slides, Sheets, Drive и Meet. Он также разблокирует ‘Gemini Advanced’, предоставляя доступ к более сложным моделям Gemini Google в приложениях Gemini.
Пользователи Gemini Advanced пользуются дополнительными преимуществами, такими как приоритетный доступ к новым функциям и моделям, возможность выполнять и изменять код Python непосредственно в Gemini, а также расширенные лимиты для NotebookLM, инструмента Google для преобразования PDF-файлов в подкасты, сгенерированные ИИ. Недавним дополнением к Gemini Advanced является функция памяти, которая сохраняет пользовательские предпочтения и позволяет Gemini ссылаться на прошлые разговоры, обеспечивая контекст для текущих взаимодействий.
Одной из наиболее привлекательных функций, эксклюзивных для Gemini Advanced, является ‘Deep Research’. Эта функция использует модели Gemini с расширенными возможностями рассуждения для создания подробных сводок. В ответ на запрос, например, ‘Как мне переделать кухню?’, Deep Research формулирует многоэтапный план исследования, просматривает Интернет и составляет исчерпывающий ответ.
В Gmail Gemini находится на боковой панели, способной составлять электронные письма и обобщать цепочки сообщений. Аналогичная панель появляется в Docs, помогая с написанием, уточнением и мозговым штурмом контента. В Slides Gemini создает слайды и пользовательские изображения. В Google Sheets он помогает в отслеживании данных, организации и создании формул.
Присутствие Gemini распространяется на Google Maps, где он агрегирует отзывы о местных предприятиях и предлагает рекомендации, например, предложения маршрутов для посещения иностранного города. Возможности чат-бота также охватывают Drive, где он может обобщать файлы и папки и предоставлять краткую информацию о проектах.
Gemini недавно был интегрирован в браузер Google Chrome в качествеинструмента для написания ИИ. Этот инструмент можно использовать для создания совершенно нового контента или переписывания существующего текста, принимая во внимание контекст текущей веб-страницы для предоставления индивидуальных рекомендаций.
Помимо этих основных приложений, следы Gemini можно найти в продуктах Google для баз данных, инструментах облачной безопасности и платформах разработки приложений (включая Firebase и Project IDX). Он также поддерживает функции в таких приложениях, как Google Photos (поиск запросов на естественном языке), YouTube (мозговой штурм идей для видео) и Meet (перевод субтитров).
Code Assist (ранее Duet AI for Developers), набор инструментов Google на базе ИИ для завершения и генерации кода, использует Gemini для вычислительно сложных задач. Аналогичным образом, продукты безопасности Google, такие как Gemini in Threat Intelligence, используют Gemini для анализа потенциально вредоносного кода и облегчения поиска угроз и индикаторов компрометации на естественном языке.
Gemini Extensions and Gems: Tailoring the AI Experience
Пользователи Gemini Advanced имеют возможность создавать ‘Gems’, пользовательские чат-боты на базе моделей Gemini, доступные как на настольных, так и на мобильных платформах. Gems можно создавать из описаний на естественном языке, например, ‘Ты мой тренер по бегу. Дай мне ежедневный план бега’, и ими можно делиться с другими пользователями или сохранять в тайне.
Приложения Gemini могут интегрироваться с различными сервисами Google через ‘расширения Gemini’. Эти расширения позволяют Gemini взаимодействовать с Drive, Gmail, YouTube и другими сервисами, позволяя ему отвечать на такие запросы, как ‘Не могли бы вы подвести итог моих последних трех писем?’.
Gemini Live: Engaging in In-Depth Voice Conversations
‘Gemini Live’ предлагает иммерсивный опыт, позволяя пользователям вести подробные голосовые разговоры с Gemini. Эта функция доступна в приложениях Gemini на мобильных устройствах и на Pixel Buds Pro 2, где к ней можно получить доступ, даже когда телефон заблокирован.
С помощью Gemini Live пользователи могут прервать Gemini, пока он говорит, чтобы задать уточняющие вопросы, и чат-бот адаптируется к речевым моделям в режиме реального времени. Live также предназначен для работы в качестве виртуального тренера, помогая с подготовкой к мероприятиям, мозговым штурмом и другими задачами. Например, Live может предложить навыки, которые следует выделить во время собеседования, и дать советы по публичным выступлениям.
Gemini for Teens: A Tailored AI Experience for Students
Google предоставляет специализированный интерфейс Gemini, предназначенный для подростков-студентов.
Эта версия Gemini, ориентированная на подростков, включает ‘дополнительные политики и меры безопасности’, в том числе индивидуальный процесс адаптации и руководство по грамотности в области ИИ. Помимо этих модификаций, он очень похож на стандартный интерфейс Gemini, включая функцию ‘двойной проверки’, которая проверяет точность ответов Gemini путем перекрестной ссылки на информацию в Интернете.
Exploring the Capabilities of the Gemini Models
Мультимодальная природа моделей Gemini позволяет им выполнять широкий спектр задач, от транскрипции речи до субтитров изображений и видео в реальном времени. Многие из этих возможностей уже включены в продукты Google, и в ближайшем будущем обещают дальнейшие усовершенствования.
Однако важно признать, что Google, как и его конкуренты, не полностью решил некоторые из неотъемлемых проблем, связанных с технологией генеративного ИИ, таких как закодированные предубеждения и склонность к фабрикации информации (галлюцинации). Эти ограничения следует учитывать при оценке использования Gemini, особенно для критически важных приложений.
Gemini Pro’s Prowess
Google утверждает, что его последняя модель Pro, Gemini 2.0 Pro, представляет собой его самое передовое предложение для кодирования и обработки сложных запросов. 2.0 Pro превосходит своего предшественника, Gemini 1.5 Pro, в тестах, оценивающих программирование, рассуждение, математику и точность фактов.
В рамках платформы Google Vertex AI разработчики могут настраивать Gemini Pro для конкретных контекстов и вариантов использования посредством точной настройки или ‘заземления’. Например, Pro (наряду с другими моделями Gemini) можно проинструктировать использовать данные от сторонних поставщиков, таких как Moody’s, Thomson Reuters, ZoomInfo и MSCI, или получать информацию из корпоративных наборов данных или Google Search вместо своей более широкой базы знаний. Gemini Pro также можно подключить к внешним сторонним API для выполнения определенных действий, таких как автоматизация внутренних рабочих процессов.
Платформа Google AI Studio предоставляет шаблоны для создания структурированных запросов чата с помощью Pro. Разработчики могут контролировать творческий диапазон модели, приводить примеры для определения тона и стиля, а также настраивать параметры безопасности Pro.
Gemini Flash: Lightweight Efficiency and Gemini Flash Thinking’s Reasoning Abilities
Gemini 2.0 Flash способен использовать поиск Google и другие внешние API. Несмотря на то, что он меньше, он превосходит некоторые из более крупных моделей 1.5 в тестах, измеряющих кодирование и анализ изображений. Как производная от Gemini Pro, Flash разработан для обеспечения эффективности, ориентируясь на узкие, высокочастотные задачи генеративного ИИ.
Google подчеркивает пригодность Flash для таких приложений, как обобщение, чат-приложения, субтитры изображений и видео, а также извлечение данных из длинных документов и таблиц. Между тем, Gemini 2.0 Flash-Lite, более компактная итерация Flash, превосходит Gemini 1.5 Flash по производительности, сохраняя при этом ту же цену и скорость, по данным Google.
В декабре прошлого года Google представил ‘мыслящий’ вариант Gemini 2.0 Flash, наделенный способностями к ‘рассуждению’. Эта модель ИИ тратит несколько секунд на то, чтобы проработать проблему в обратном направлении, прежде чем дать ответ, что потенциально повышает ее надежность.
Gemini Nano: On-Device AI Power
Gemini Nano — это удивительно компактная версия Gemini, предназначенная для работы непосредственно на совместимых устройствах, устраняя необходимость отправки задач на удаленный сервер. В настоящее время Nano поддерживает несколько функций на Pixel 8 Pro, Pixel 8, Pixel 9 Pro, Pixel 9 и Samsung Galaxy S24, включая Summarize in Recorder и Smart Reply in Gboard.
Приложение Recorder, которое позволяет пользователям записывать и расшифровывать аудио, включает функцию обобщения на базе Gemini для записанных разговоров, интервью, презентаций и других аудиофрагментов. Эти сводки создаются даже без подключения к сети, и в интересах конфиденциальности никакие данные не покидают устройство пользователя во время процесса.
Nano также находит свое место в Gboard, замене клавиатуры Google, где он поддерживает Smart Reply. Эта функция предлагает ответы в приложениях для обмена сообщениями, таких как WhatsApp, оптимизируя общение.
В будущей итерации Android планируется использовать Nano для оповещения пользователей о потенциальных мошенничествах во время телефонных звонков. Новое приложение погоды на телефонах Pixel использует Gemini Nano для создания персонализированных прогнозов погоды. Кроме того, TalkBack, служба специальных возможностей Google, использует Nano для создания звуковых описаний объектов для пользователей с нарушениями зрения.
Gemini Ultra: Awaiting its Return
Gemini Ultra в последние месяцы относительно отсутствовал в центре внимания. Модель в настоящее время недоступна в приложениях Gemini, а также не указана на странице цен на Gemini API Google. Однако это не исключает возможности того, что Google вновь представит Ultra в будущем.
Pricing Structure for the Gemini Models
Gemini 1.5 Pro, 1.5 Flash, 2.0 Flash и 2.0 Flash-Lite доступны через Gemini API Google для разработки приложений и сервисов. Они работают по принципу оплаты по мере использования. Базовые цены, без учета надстроек, по состоянию на 22 февраля 2025 года следующие:
- Gemini 1.5 Pro: 1,25 доллара США за 1 миллион входных токенов (для запросов до 128 тыс. токенов) или 2,50 доллара США за 1 миллион входных токенов (для запросов длиной более 128 тыс. токенов); 5 долларов США за 1 миллион выходных токенов (для запросов до 128 тыс. токенов) или 10 долларов США за 1 миллион выходных токенов (для запросов длиной более 128 тыс. токенов)
- Gemini 1.5 Flash: 7,5 центов за 1 миллион входных токенов (для запросов до 128 тыс. токенов), 15 центов за 1 миллион входных токенов (для запросов длиной более 128 тыс. токенов), 30 центов за 1 миллион выходных токенов (для запросов до 128 тыс. токенов), 60 центов за 1 миллион выходных токенов (для запросов длиной более 128 тыс. токенов)
- Gemini 2.0 Flash: 10 центов за 1 миллион входных токенов, 40 центов за 1 миллион выходных токенов. Для аудио 70 центов за 1 миллион входных токенов.
- Gemini 2.0 Flash-Lite: 7,5 центов за 1 миллион входных токенов, 30 центов за 1 миллион выходных токенов.
Токены представляют собой подразделенные единицы необработанных данных, такие как слоги ‘fan’, ‘tas’ и ‘tic’ в слове ‘fantastic’. Один миллион токенов примерно эквивалентен 750 000 слов. ‘Вход’ относится к токенам, подаваемым в модель, а ‘выход’ обозначает токены, сгенерированные моделью.
Цены на 2.0 Pro еще не объявлены, а Nano остается в раннем доступе.
Gemini’s Potential Arrival on the iPhone
Перспектива интеграции Gemini с iPhone — вполне реальная возможность.
Apple указала, что ведет переговоры о потенциальном использовании Gemini и других сторонних моделей для различных функций в своем наборе Apple Intelligence. После основного доклада на WWDC 2024 старший вице-президент Apple Крейг Федериги подтвердил планы сотрудничества с моделями, включая Gemini, но воздержался от разглашения дальнейших подробностей.