Google Gemini быстро развился из инструмента, улучшающего веб-поиск, во всеобъемлющего AI-чат-бота, способного справляться с широким спектром задач. Теперь он может обрабатывать файлы, генерировать видео со звуком и решать сложные проблемы, при этом пользуясь преимуществами облачного хранилища и беспрепятственной интеграции с приложениями Google. От ответов на вопросы о страницах Chrome до управления Gmail, Gemini предлагает унифицированный опыт AI. Однако, возможности поиска источников для исследований и создания изображений не всегда блестящи, и, как и другие чат-боты, он иногда может предоставлять неточную информацию.
Gemini как виртуальный помощник
Представьте Gemini как продвинутого виртуального помощника, умеющего выполнять самые разнообразные задачи. Он может анализировать документы, отвечать на вопросы, генерировать изображения и видео, проводить исследования, помогать в написании текстов, искать в интернете и решать математические задачи. Он доступен посредством текста или голоса, аналогично Microsoft Copilot или ChatGPT.
Gemini также обладает функциями, разработанными специально для программистов, включая Gemini Code Assist и асинхронного кодировщика Jules. Эти инструменты могут помочь с такими задачами, как создание пользовательских плагинов WordPress и отладка кода.
Cуть функциональности: подсказки и ответы
По сути, Gemini получает пользовательские подсказки и генерирует ответы, подкрепленные большими языковыми моделями (LLMs), обученными на огромных наборах данных. Эти модели предоставляют Gemini доступ к огромному объему информации по различным темам, дополненному поиском в интернете в реальном времени.
Чем больше пользователи взаимодействуют с Gemini, тем лучше он становится. Вовлечение пользователей помогает обучать основные модели, позволяя Gemini предоставлять более точные ответы и уменьшать количество ошибок с течением времени. Этот непрерывный процесс обучения является постепенным, но необходимым.
Линии моделей Gemini: Flash и Pro
Gemini использует две основные линии моделей: Flash и Pro. Линия Flash предназначена для разговорного взаимодействия, а линия Pro специализируется на сложных задачах рассуждения, таких как кодирование, математика и наука. Каждая модель в этих линиях обладает уникальными сильными сторонами. Новейшие модели - 2.5 Flash и 2.5 Pro, при этом тестирование часто фокусируется на модели 2.5 Flash по умолчанию и на 2.5 Pro для специализированных задач.
Бесплатная и Премиум: что вы получаете?
Gemini предлагает как бесплатные, так и премиум-планы, при этом премиум-планы открывают дополнительные функции.
Бесплатный план
Бесплатные пользователи имеют доступ к модели 2.5 Flash, ограниченный доступ к модели 2.5 Pro, голосовому режиму (Gemini Live), ограниченным возможностям глубокого исследования и пользовательским AI-помощникам (Gems). Они также получают ограниченный доступ к инструменту анимации Whisk и 15 ГБ облачного хранилища Google Drive.
Премиум-планы
Премиум-планы включают Google AI Pro (19,99 долл. в месяц) и Google AI Ultra (249,99 долл. в месяц). Уровень AI Pro предусматривает более высокие лимиты использования, инструмент Flow для кинопроизводства, Gemini в Google Chrome, создание видеос помощью модели Veo 2 от Gemini и большее контекстное окно для сложных подсказок. Объем облачного хранилища Google Drive увеличивается до 2 ТБ с AI Pro, а Gemini интегрируется с приложениями Google Workspace, такими как Gmail, Календарь, Документы и Таблицы.
План AI Ultra включает в себя все, что есть в AI Pro, с еще более высокими лимитами использования и несколькими новыми функциями: 30 ТБ облачного хранилища Google Drive, ранний доступ к агенту Gemini для оптимизации задач, эксклюзивный доступ к предстоящему режиму 2.5 Pro Deep Think от Gemini, новейшая модель генерации видео Veo 3 от Google и YouTube Premium. План AI Pro обычно является более экономичным для большинства пользователей. Подписка Google One, ориентированная на облачное хранилище через Google Drive, позволяет получить Gemini AI Pro с более чем 2 ТБ облачного хранилища, например, 5 ТБ (25 долл. в месяц) или 10 ТБ (50 долл. в месяц).
Ценностное предложение: Gemini против конкурентов
Основные чат-боты, такие как Copilot, ChatGPT и Gemini, имеют стоимость около 20 долларов в месяц для своих премиум-планов. Gemini и Copilot выделяются своей интеграцией с приложениями Google и Microsoft 365 соответственно. ChatGPT фокусируется исключительно на функциональности чат-бота. Хотя Copilot Pro имеет уникальные функции, интеграция облачного хранилища Gemini предлагает исключительную ценность.
Доступность: веб, мобильные устройства и интеграции
Gemini доступен через веб- и мобильные приложения (Apple и Android). Хотя нет ни настольного приложения, ни официального расширения для браузера, Chrome предлагает интеграцию с Gemini. Gemini можно использовать в приложениях Google, таких как Календарь, Документы, Диск, Gmail, Карты, Keep, Фотографии, Таблицы и YouTube Music.
Начало работы: Интерфейс и пользовательский опыт
Gemini не требует учетной записи, но рекомендуется войти в систему, чтобы изменить модели, использовать углубленные исследования и сохранить чаты.
Интерфейс прост и состоит из текстового поля "Спросите Gemini" и последних чатов на боковой панели. Кликабельные примеры подсказок предлагают рекомендации о том, что может делать Gemini. Ответы, как правило, быстрые, особенно при создании изображений. Пользователи могут копировать, прослушивать, восстанавливать или обмениваться ответами. Иногда могут возникать проблемы с сервером, из-за которых ответы зависают, как и в ChatGPT и Copilot.
Тон и память
Gemini более прямой и менее разговорчивый, чем ChatGPT. Персонализировать тон Gemini невозможно, но определенная пользовательская информация может быть сохранена, чтобы Gemini запомнил ее. Надежная память Gemini обеспечивает более приятный опыт общения, запоминая прошлые чаты даже при запуске новых.
Голосовой режим: Gemini Live
Иконка микрофона позволяет вводить текст голосом, а Gemini Live, как и голосовой режим ChatGPT или Copilot Voice, позволяет пользователям естественно разговаривать разными голосами.
Gemini Live поддерживает совместное использование камеры и экрана, позволяя пользователям обсуждать темы реального мира. Хотя возможности распознавания изображений у Gemini в целом достойные, эта функция в большей степени служит для экономии времени.
Project Mariner: агент по оптимизации задач
Project Mariner, эксклюзивный для пользователей AI Ultra, - это AI-помощник, который выполняет такие задачи, как поиск работы или поиск квартиры. Google называет Project Mariner "исследовательским прототипом", указывая на то, что он все еще нуждается в дальнейшей доработке.
Веб-поиск и поиск информации
Веб-поиск является стандартной функцией всех основных чат-ботов. Gemini, ChatGPT и Copilot могут отвечать на вопросы о текущих событиях. Хотя на большинство вопросов даются правильные ответы, некоторые могут поставить чат-ботов в тупик.
Ответы Gemini и Copilot, как правило, короткие и по существу, а ChatGPT предоставляет более подробную информацию. И Gemini, и ChatGPT имеют иконки источников, которые ссылаются на связанные статьи, но интерфейс ChatGPT показывает название источника и полное название статьи.
AI Mode и покупки
AI Mode на странице поиска Google, созданный на базе Gemini, доступен через кнопку AI Mode. Он позволяет пользователям задавать вопросы на основе результатов поиска в интернете, при этом связанные заголовки статей и соответствующие изображения в ответах аналогичны ChatGPT. Он также обеспечивает удобный доступ к поиску Google и поиску изображений.
Gemini также может помочь с покупками, предоставляя советы по покупке вместе с плитками Google Shopping с отзывами пользователей, ссылками на розничных продавцов и отслеживанием цен. Функция покупок Gemini предлагает соответствующие рекомендации.
Глубокие исследования: углубленные отчеты
Глубокие исследования - ценная функция AI-чат-ботов, позволяющая пользователям задавать вопросы или предлагать темы для исследований и отчетов Gemini. Отчеты могут ссылаться на многочисленные источники и генерируются примерно за 10 минут.
Оба чат-бота с легкостью справляются с простыми темами исследований, но вопросы без однозначных ответов и требующие разнообразных источников являются более сложными.
Gemini цитирует больше источников, но источники ChatGPT более удобны для пользователя. Gemini позволяет экспортировать отчеты в Google Docs, но интерфейс глубоких исследований ChatGPT - это, по сути, всего лишь полоса загрузки.
Тон отчета значительно отличается: отчеты Gemini напоминают академические работы, а отчеты ChatGPT - сообщения на форуме.
Создание изображений: визуальное сравнение
Создание изображений - еще одна основная функция AI-чат-ботов. Тесты фокусируются на фотореалистичных и сложных иллюстрациях.
При создании фотореалистичных изображений Gemini быстро генерирует визуально привлекательные изображения, хотя и может содержать ошибки.
Для сложных иллюстраций комикс Gemini, как правило, бессвязный, тогда как комикс ChatGPT ближе к выполнению своей цели.
При создании технических диаграмм ChatGPT создает очень точные диаграммы, что укрепляет его сильные стороны.
Создание видео: развивающаяся область
AI-создание видео - это все более распространенная функция. Gemini обладает инструментом для кинопроизводства Flow, моделью создания видео Veo 3 и AI-аниматором Whisk. Его способность создавать видео со звуком отличает его от создания видео Sora ChatGPT, хотя это эксклюзивно для подписчиков AI Ultra.
Veo 3 представляет собой значительный скачок вперед, но требует тщательной калибровки подсказок. Каждая генерация требует 150 кредитов (12 500 кредитов в месяц с AI Ultra).
Flow позволяет обрезать видеоклипы и удлинять их на основе новых подсказок. При наличии достаточного количества кредитов фильм можно было бы снять полностью с помощью Flow.
Whisk, инструмент AI-анимации от Google, позволяет пользователям загружать изображения. Результаты могут быть забавными, но имеют ошибки и искажения.
Анализ файлов: понимание загруженного контента
Gemini может анализировать и понимать загруженные файлы, рецензируя резюме, интерпретируя изображения или переводя текст.
При распознавании изображений чат-боты тестируются на их способность идентифицировать компоненты на загруженном изображении. ChatGPT может включать больший объем деталей.
Для обработки документов чат-ботам ставится задача отвечать на вопросы, основываясь исключительно на загруженных документах. И Gemini, и ChatGPT дают правильные ответы, но при загрузке файлов следует соблюдать осторожность. ChatGPT может иметь небольшое преимущество в обработке файлов по сравнению с Gemini, но это небольшой перевес.
Творческое письмо: создание стихов
AI-чат-боты могут помочь в творческом письме, включая шутки, монологи и стихи.
При создании стихотворения в свободной форме ChatGPT более точно следует инструкциям. В стихотворении Gemini не используется пунктуация, а стихотворение Copilot кажется недостаточным из-за разбивки строки.
Сложные рассуждения: Экзаменационные вопросы
Сложные рассуждения проверяются путем предоставления чат-ботам вопросов из экзаменов для получения степени бакалавра в области информатики, математики и физики.
Чат-боты показывают очень хорошие результаты, эффективно отвечая на все вопросы по физике. ChatGPT возвращает наименьшее количество неправильных ответов в целом.
Gemini в Chrome: бесшовная интеграция
Chrome теперь интегрирует Gemini. Держатели платной учетной записи могут щелкнуть значок Gemini, чтобы открыть окно чата, взаимодействуя с Gemini как обычно и запрашивая содержимое активной вкладки. Интеграция Gemini в Chrome позволяет пользователям устранить необходимость открывать новую вкладку, чтобы спросить что-то у Gemini, благодаря функциональности, аналогичной Copilot Vision в Edge, хотя функция Gemini Live недоступна в ее веб-интерфейсе.
Текстовые ответы впечатляюще быстры. Скорость ответов заставляет меня задуматься, есть ли у Gemini какой-то уровень доступа к веб-страницам до того, как вы поделитесь ими с ним.
Хотя у Gemini в Chrome есть некоторые ограничения; Gemini не может понимать видео, а ответы с Live не такие быстрые, как по тексту, в целом это полезно тем, что устраняет необходимость копировать и вставлять. Однако, если вы не используете Gemini постоянно, время, которое вы экономите, имея его под рукой, может быть не таким уж и важным. Функциональность Live также полезна, позволяя мне задавать вопросы о том, что я вижу, без необходимости касаться клавиатуры.
Gemini в Chrome имеет несколько ограничений на то, что он может видеть и понимать. В результате Gemini может казаться навязчивым, поскольку Gemini может видеть определенные вкладки и отвечать на вопросы о них, как только вы ими поделитесь.
Интеграция с приложениями Google: повышение производительности
Подписчики плана AI Pro получают функции AI во всех приложениях Google, включая Календарь, Документы, Диск, Gmail, Карты, Keep, Фотографии, Таблицы и YouTube Music.
Google выделяет интеграции на собственном сайте Gemini. Вы можете добавлять события в Календарь Google на основе флаера, создавать списки покупок в Google Keep или позволять Gemini составлять плей-листы в YouTube Music. Gemini в Документах, Gmail, Таблицах и Слайдах отражает Copilot в приложениях Microsoft 365, создавая слайды на основе подсказок, составляя электронные письма, генерируя текст и предлагая формулы.
Gemini в Gmail выделяется тем, что предоставляет Gemini полный доступ к вашей истории электронной почты, позволяя ему искать конкретную информацию или предоставлять советы по очистке почтового ящика. Однако это не всемогущая функция. Gemini не может делать все. Эта интеграция кажется вторжением в частную жизнь.
В зависимости от того, в какой степени вы используете доступные интеграции Gemini; могут быть те, которые не соответствуют вашим конкретным требованиям. Однако это может быть выгодно из-за множества функций.
Gems: Пользовательские AI- эксперты
Gems - это пользовательские версии Gemini, адаптированные для конкретных целей. Инструкторы могут добавлять файлы и создавать PC Builder Gem, чтобы помочь начинающим сборщикам компьютеров.
Ответы незначительно отличаются от разговора с Gemini. Для тех, кто планирует поговорить с Gemini на определенную тему, можно создать Gem. Тем не менее, кажется, что Gems не оправдывают обещания Google.
Безопасность и конфиденциальность
Gemini не обладает сознанием и не может думать или понимать вещи, как человек.
Контент для взрослых, незаконная деятельность, реалистичные изображения людей и табуированные темы противоречат политикам Gemini, Gemini наименее строг в своей системе фильтрации.
У Gemini есть контекстное окно. Контекстное окно Gemini в плане AI Pro может обрабатывать до 1500 страниц текста или 30 000 строк кода одновременно с оплатой. Подписчики могут столкнуться с препятствиями, если бесплатная версия используется интенсивно.
Google собирает данные, когда вы используете Gemini, включая файлы, информацию о местоположении, использование продукта и чаты. Эти данные используются для улучшения продуктов Google и технологий машинного обучения.
Пользователи могут отключить Gemini Apps Activity. По умолчанию Google хранит данные чата в течение 18 месяцев.
Что касается интеграции Google Workspace с Gemini, например, в Gmail, Документах, Диске, Таблицах и Слайдах, Google обещает не использовать обученные модели, не продавать их и не использовать для таргетированной рекламы.
У Google в прошлом возникали проблемы, которые включают злоумышленников, которые использовали ошибки Google chrome, итальянских регулирующих органов, которые цитировали Google за его практику работы с данными, и сбор данных без согласия, приводящий к потерям в миллиарды. В связи с этим рекомендуется не передавать конфиденциальные данные.