Google Gemini: Обзор на AI

Разкриване на Gemini: AI семейството от следващо поколение на Google

Gemini е амбициозният набег на Google в следващото поколение AI модели. Разработен чрез съвместните усилия на DeepMind и Google Research, водещите изследователски лаборатории за AI на Google, Gemini не е монолитна единица, а по-скоро семейство от модели, всеки пригоден за специфични задачи и нива на производителност. Това семейство включва:

  • Gemini Ultra: Най-мощният модел от семейството, предназначен за изключително сложни задачи, изискващи значителна изчислителнамощ. (Понастоящем липсва)
  • Gemini Pro: Здрав модел, по-малък от Ultra, но способен да се справи с широк спектър от задачи. Gemini 2.0 Pro, най-новата итерация, понастоящем е водещият модел на Google.
  • Gemini Flash: Опростена, “дестилирана” версия на Pro, приоритизираща скорост и ефективност.
  • Gemini Flash-Lite: Леко редуцирана и по-бърза версия на Gemini Flash.
  • Gemini Flash Thinking: Модел, демонстриращ способности за “разсъждение”.
  • Gemini Nano: Състои се от два компактни модела, Nano-1 и малко по-мощният Nano-2, проектирани за офлайн работа на устройства.

Определяща характеристика на всички модели Gemini е тяхната присъща мултимодалност. За разлика от моделите, обучени единствено на текстови данни, като LaMDA на Google, моделите Gemini са умели в обработката и анализа на различни типове данни. Те са обучени на огромен набор от данни, обхващащ публично достъпни, собствени и лицензирани аудио, изображения, видеоклипове, кодови бази и текст на множество езици.

Тази мултимодална природа позволява на Gemini да надхвърли ограниченията на моделите, работещи само с текст. Докато LaMDA е ограничен до текстов вход и изход, моделите Gemini, особено по-новите версии на Flash и Pro, могат естествено да генерират изображения и аудио заедно с текст.

Въпреки това, етичните и правни последици от обучението на AI модели върху публично достъпни данни, често без изричното съгласие на собствениците на данни, остават сложен въпрос. Въпреки че Google предлага политика за обезщетение за AI, за да защити определени клиенти на Google Cloud от потенциални съдебни дела, тази политика има ограничения. Потребителите, особено тези, които възнамеряват да използват Gemini за търговски цели, трябва да бъдат предпазливи.

Приложения Gemini срещу модели Gemini: Разбиране на разликата

Важно е да се разграничат моделите Gemini от приложенията Gemini, налични в уеб и мобилни платформи (по-рано известни като Bard).

Приложенията Gemini функционират като клиенти, свързващи се с различни модели Gemini и представящи удобен за потребителя интерфейс, подобен на чатбот. Те служат като преден край за взаимодействие с възможностите за генеративен AI на Google.

На устройства с Android приложението Gemini замества приложението Google Assistant. На iOS приложенията Google и Google Search действат като клиенти на Gemini.

Потребителите на Android могат да извикат наслагване на Gemini, за да задават въпроси относно съдържанието, показано на екрана им, като например видеоклип в YouTube. Това наслагване се задейства чрез натискане и задържане на бутона за захранване на поддържан смартфон или чрез използване на гласовата команда ‘Hey Google’.

Приложенията Gemini са универсални, приемайки изображения, гласови команди и текст като вход. Те могат да обработват файлове като PDF файлове, или качени директно, или импортирани от Google Drive, и да генерират изображения. Разговорите, инициирани с приложения Gemini на мобилни устройства, се синхронизират безпроблемно с Gemini в мрежата, при условие че потребителят е влязъл в същия акаунт в Google.

Gemini Advanced: Отключване на премиум AI функции

Приложенията Gemini не са единственият портал за използване на силата на моделите Gemini. Google постепенно интегрира функции, задвижвани от Gemini, в своите основни приложения и услуги, включително Gmail и Google Docs.

За да се възползват напълно от тези възможности, потребителите обикновено се нуждаят от плана Google One AI Premium. Този план, технически компонент на Google One, струва $20 на месец и предоставя достъп до Gemini в приложенията на Google Workspace като Docs, Maps, Slides, Sheets, Drive и Meet. Той също така отключва ‘Gemini Advanced’, предоставяйки достъп до по-сложните модели Gemini на Google в приложенията Gemini.

Потребителите на Gemini Advanced се радват на допълнителни предимства, като приоритетен достъп до нови функции и модели, възможност за изпълнение и модифициране на Python код директно в Gemini и разширени лимити за NotebookLM, инструмента на Google за трансформиране на PDF файлове в AI-генерирани подкасти. Неотдавнашно допълнение към Gemini Advanced е функция за памет, която съхранява предпочитанията на потребителите и позволява на Gemini да се позовава на минали разговори, предоставяйки контекст за текущите взаимодействия.

Една от най-завладяващите функции, ексклузивни за Gemini Advanced, е ‘Deep Research’. Тази функция използва модели Gemini с подобрени възможности за разсъждение, за да генерира подробни брифинги. В отговор на подкана, като например ‘Как да препроектирам кухнята си?’, Deep Research формулира многостъпков план за изследване, претърсва мрежата и съставя изчерпателен отговор.

В Gmail Gemini се намира в страничен панел, способен да съставя имейли и да обобщава нишки от съобщения. Подобен панел се появява в Docs, подпомагайки писането, усъвършенстването и брейнсторминга на съдържание. В Slides Gemini генерира слайдове и персонализирани изображения. В Google Sheets помага при проследяване на данни, организация и създаване на формули.

Присъствието на Gemini се простира до Google Maps, където обобщава отзиви за местни фирми и предлага препоръки, като например предложения за маршрути за посещение на чужд град. Възможностите на чатбота обхващат и Drive, където може да обобщава файлове и папки и да предоставя кратка информация за проекти.

Gemini наскоро беше интегриран в браузъра Chrome на Google като инструмент за писане с AI. Този инструмент може да се използва за създаване на изцяло ново съдържание или пренаписване на съществуващ текст, като се взема предвид контекстът на текущата уеб страница, за да се предоставят персонализирани препоръки.

Освен тези основни приложения, следи от Gemini могат да бъдат намерени в продуктите за бази данни на Google, инструментите за сигурност в облака и платформите за разработка на приложения (включително Firebase и Project IDX). Той също така захранва функции в приложения като Google Photos (заявки за търсене на естествен език), YouTube (брейнсторминг на идеи за видео) и Meet (превод на субтитри).

Code Assist (по-рано Duet AI for Developers), пакетът от инструменти, задвижвани от AI, на Google за завършване и генериране на код, разчита на Gemini за изчислително интензивни задачи. По подобен начин продуктите за сигурност на Google, като Gemini in Threat Intelligence, използват Gemini за анализ на потенциално злонамерен код и улесняване на търсенето на заплахи и индикатори за компрометиране на естествен език.

Разширения и Gems на Gemini: Персонализиране на AI изживяването

Потребителите на Gemini Advanced имат възможността да създават ‘Gems’, персонализирани чатботове, задвижвани от модели Gemini, достъпни както на настолни, така и на мобилни платформи. Gems могат да бъдат генерирани от описания на естествен език, като например ‘Ти си моят треньор по бягане. Дай ми дневен план за бягане’, и могат да бъдат споделяни с други потребители или да се пазят частни.

Приложенията Gemini могат да се интегрират с различни услуги на Google чрез ‘Gemini extensions’. Тези разширения позволяват на Gemini да взаимодейства с Drive, Gmail, YouTube и други услуги, позволявайки му да отговаря на запитвания като ‘Можеш ли да обобщиш последните ми три имейла?’.

Gemini Live: Участие в задълбочени гласови разговори

‘Gemini Live’ предлага завладяващо изживяване, позволявайки на потребителите да участват в подробни гласови разговори с Gemini. Тази функция е налична в приложенията Gemini на мобилни устройства и на Pixel Buds Pro 2, където може да бъде достъпна дори когато телефонът е заключен.

С Gemini Live потребителите могат да прекъсват Gemini, докато говори, за да задават уточняващи въпроси, а чатботът се адаптира към моделите на речта в реално време. Live също е проектиран да функционира като виртуален треньор, подпомагайки подготовката за събития, брейнсторминга и други задачи. Например, Live може да предложи умения, които да се подчертаят по време на интервю за работа, и да предостави съвети за публично говорене.

Gemini за тийнейджъри: Персонализирано AI изживяване за ученици

Google предоставя специализирано Gemini изживяване, пригодено за тийнейджъри ученици.

Тази версия на Gemini, фокусирана върху тийнейджъри, включва ‘допълнителни политики и предпазни мерки’, включително персонализиран процес на въвеждане и ръководство за AI грамотност. Освен тези модификации, тя много прилича на стандартното Gemini изживяване, включително функцията ‘double-check’, която проверява точността на отговорите на Gemini чрез кръстосано препращане на информация в мрежата.

Проучване на възможностите на моделите Gemini

Мултимодалната природа на моделите Gemini им дава възможност да изпълняват широк спектър от задачи, вариращи от транскрипция на реч до надписи на изображения и видео в реално време. Много от тези възможности вече са включени в продуктите на Google, като в близко бъдеще се обещават по-нататъшни подобрения.

Въпреки това е важно да се признае, че Google, подобно на своите конкуренти, не е напълно разрешил някои от присъщите предизвикателства, свързани с технологията за генеративен AI, като кодирани пристрастия и склонността към измисляне на информация (халюцинации). Тези ограничения трябва да се вземат предвид при оценката на използването на Gemini, особено за критични приложения.

Способностите на Gemini Pro

Google твърди, че най-новият му модел Pro, Gemini 2.0 Pro, представлява най-усъвършенстваното му предложение за кодиране и обработка на сложни подкани. 2.0 Pro превъзхожда своя предшественик, Gemini 1.5 Pro, в бенчмаркове, оценяващи програмиране, разсъждение, математика и фактическа точност.

В рамките на платформата Vertex AI на Google разработчиците могат да персонализират Gemini Pro за специфични контексти и случаи на употреба чрез фина настройка или ‘заземяване’. Например, Pro (заедно с други модели Gemini) може да бъде инструктиран да използва данни от доставчици на трети страни като Moody’s, Thomson Reuters, ZoomInfo и MSCI, или да извлича информация от корпоративни набори от данни или Google Search вместо от по-широката си база знания. Gemini Pro може също да бъде свързан с външни API на трети страни, за да изпълнява специфични действия, като например автоматизиране на бек-офис работни потоци.

Платформата AI Studio на Google предоставя шаблони за създаване на структурирани подкани за чат с Pro. Разработчиците могат да контролират творческия обхват на модела, да предоставят примери за насочване на тона и стила и да настройват фино настройките за безопасност на Pro.

Gemini Flash: Лека ефективност и способности за разсъждение на Gemini Flash Thinking

Gemini 2.0 Flash е способен да използва Google търсене и други външни API. Въпреки че е по-малък, той превъзхожда някои от по-големите 1.5 модели в бенчмаркове, измерващи кодиране и анализ на изображения. Като производно на Gemini Pro, Flash е проектиран за ефективност, насочен към тесни, високочестотни задачи за генеративен AI.

Google подчертава пригодността на Flash за приложения като обобщаване, приложения за чат, надписи на изображения и видео и извличане на данни от дълги документи и таблици. Междувременно Gemini 2.0 Flash-Lite, по-компактна итерация на Flash, превъзхожда Gemini 1.5 Flash по производителност, като същевременно поддържа същата цена и скорост, според Google.

През декември миналата година Google представи ‘мислещ’ вариант на Gemini 2.0 Flash, надарен с възможности за ‘разсъждение’. Този AI модел отнема няколко секунди, за да работи назад през проблем, преди да предостави отговор, което потенциално повишава неговата надеждност.

Gemini Nano: AI мощност на устройството

Gemini Nano е забележително компактна версия на Gemini, проектирана да работи директно на съвместими устройства, елиминирайки необходимостта от изпращане на задачи към отдалечен сървър. Понастоящем Nano захранва няколко функции на Pixel 8 Pro, Pixel 8, Pixel 9 Pro, Pixel 9 и Samsung Galaxy S24, включително Summarize in Recorder и Smart Reply in Gboard.

Приложението Recorder, което позволява на потребителите да записват и транскрибират аудио, включва функция за обобщаване, задвижвана от Gemini, за записани разговори, интервюта, презентации и други аудио фрагменти. Тези резюмета се генерират дори без мрежова връзка и в интерес на поверителността, никакви данни не напускат устройството на потребителя по време на процеса.

Nano също намира своето място в Gboard, клавиатурната замяна на Google, където захранва Smart Reply. Тази функция предлага отговори в приложения за съобщения като WhatsApp, рационализирайки разговорите.

Бъдеща итерация на Android е планирана да използва Nano, за да предупреждава потребителите за потенциални измами по време на телефонни разговори. Новото приложение за времето на телефоните Pixel използва Gemini Nano, за да генерира персонализирани прогнози за времето. Освен това TalkBack, услугата за достъпност на Google, използва Nano, за да създава слухови описания на обекти за потребители със зрителни увреждания.

Gemini Ultra: В очакване на завръщането му

Gemini Ultra е относително отсъстващ от светлината на прожекторите през последните месеци. Моделът понастоящем не е наличен в приложенията Gemini, нито е посочен на страницата с цени на Gemini API на Google. Това обаче не изключва възможността Google да въведе отново Ultra в бъдеще.

Ценова структура за моделите Gemini

Gemini 1.5 Pro, 1.5 Flash, 2.0 Flash и 2.0 Flash-Lite са достъпни чрез Gemini API на Google за разработване на приложения и услуги. Те работят на база плащане при използване. Базовата цена, без добавките, към 22 февруари 2025 г., е както следва:

  • Gemini 1.5 Pro: $1.25 на 1 милион входни токена (за подкани до 128K токена) или $2.50 на 1 милион входни токена (за подкани, по-дълги от 128K токена); $5 на 1 милион изходни токена (за подкани до 128K токена) или $10 на 1 милион изходни токена (за подкани, по-дълги от 128K токена)
  • Gemini 1.5 Flash: 7.5 цента на 1 милион входни токена (за подкани до 128K токена), 15 цента на 1 милион входни токена (за подкани, по-дълги от 128K токена), 30 цента на 1 милион изходни токена (за подкани до 128K токена), 60 цента на 1 милион изходни токена (за подкани, по-дълги от 128K токена)
  • Gemini 2.0 Flash: 10 цента на 1 милион входни токена, 40 цента на 1 милион изходни токена. За аудио, 70 цента на 1 милион входни токена.
  • Gemini 2.0 Flash-Lite: 7.5 цента на 1 милион входни токена, 30 цента на 1 милион изходни токена.

Токените представляват подразделени единици от необработени данни, като сричките ‘fan’, ‘tas’ и ‘tic’ в думата ‘fantastic’. Един милион токена са приблизително еквивалентни на 750 000 думи. ‘Вход’ се отнася до токени, подадени към модела, докато ‘изход’ означава токени, генерирани от модела.

Ценообразуването за 2.0 Pro все още не е обявено, а Nano остава в ранен достъп.

Потенциалното пристигане на Gemini на iPhone

Перспективата за интегриране на Gemini с iPhone е различна възможност.

Apple посочи, че участва в дискусии за потенциално използване на Gemini и други модели на трети страни за различни функции в своя пакет Apple Intelligence. След основна презентация на WWDC 2024, старши вицепрезидентът на Apple Крейг Федериги потвърди плановете за сътрудничество с модели, включително Gemini, но се въздържа от разкриване на допълнителни подробности.