В I/O 2025, Google представи поредица от революционни актуализации на своята серия модели Gemini 2.5, заедно с иновативна експериментална функция, известна като Deep Think, предназначена да подобри възможностите за разсъждение на модела 2.5 Pro. Тези постижения бележат значителен скок напред в областта на изкуствения интелект, предлагайки на разработчиците и потребителите безпрецедентни нива на производителност, ефективност и гъвкавост.
Моделът Gemini 2.5 Pro получи широко признание от разработчиците като водещо решение за задачи за кодиране, докато моделът 2.5 Flash ще получи значително надграждане. Освен това, Google въвежда редица нови възможности във всички свои модели, включително Deep Think, експериментален подобрен режим на разсъждение, специално пригоден за модела 2.5 Pro.
В предишно съобщение, Google представи Gemini 2.5 Pro, своя най-интелигентен модел до момента, и ускори пускането на своята актуализация I/O, за да даде възможност на разработчиците да създават изключителни уеб приложения. Днес компанията споделя допълнителни подобрения в серията модели Gemini 2.5, отличаващи се със забележителни постижения:
Gemini 2.5 Pro надмина всички очаквания, демонстрирайки изключителна производителност на академични бенчмаркове. Сега заема първото място в класациите WebDev Arena и LMArena, затвърждавайки статута си на водещият модел в света за кодиране и помощ при учене.
Нови функции се интегрират както в 2.5 Pro, така и в 2.5 Flash, включително естествен аудио изход за по-естествено и ангажиращо разговорно изживяване, разширени мерки за сигурност и интегрирането на възможностите за използване на компютъра на Project Mariner. Моделът 2.5 Pro ще бъде допълнително подобрен с Deep Think, експериментален режим, предназначен да подобри разсъжденията за сложни математически и кодиращи проблеми.
Google остава ангажирана да подобрява разработчишкото изживяване чрез включването на обобщения на мислите в Gemini API и Vertex AI. Тези обобщения предлагат повишена прозрачност, удължени бюджети за мислене за 2.5 Pro, за да се осигури по-голям контрол, и поддръжка за MCP инструменти в Gemini API и SDK за достъп до по-широк набор от инструменти с отворен код.
Моделът 2.5 Flash вече е всеобщо достъпен в приложението Gemini. Актуализирана версия скоро ще бъде налична в Google AI Studio за разработчици и във Vertex AI за предприятия, насрочена за началото на юни, а 2.5 Pro ще последва скоро след това.
Този забележителен напредък е резултат от неуморната отдаденост на екипите на Google, които са ангажирани непрекъснато да подобряват своите технологии и да ги внедряват по безопасен и отговорен начин.
Разкриване на превъзходната производителност на 2.5 Pro
Моделът 2.5 Pro наскоро беше актуализиран, за да даде възможност на разработчиците да създават по-интерактивни и богати на функции уеб приложения. Положителната обратна връзка, получена от потребителите и разработчиците, е високо оценена и текущите подобрения ще продължат да се прилагат въз основа на потребителски данни.
В допълнение към изключителната си производителност на академични бенчмаркове, последната итерация на 2.5 Pro завоюва първото място в популярната класация за кодиране, WebDev Arena, с впечатляващ ELO резултат от 1415. Той също така води във всички класации на LMArena, която оценява човешките предпочитания въз основа на различни критерии. Освен това, оборудван с контекстов прозорец от 1 милион токена, 2.5 Pro осигурява най-съвременна производителност при дълъг контекст и разбиране на видео.
Чрез интегриране на LearnLM, семейство модели, разработени в сътрудничество с образователни експерти, 2.5 Pro се превърна във водещия модел за учене. При директни сравнения, оценяващи неговата педагогика и ефективност, преподавателите и експертите предпочетоха Gemini 2.5 Pro пред други модели в разнообразен набор от сценарии. Той също така надмина водещите модели във всичките пет принципа на науката за ученето, които се използват за конструиране на AI системи за учене. Това подчертава неговата ефективност в образователни контексти, предлагайки персонализирани и ефективни стратегии за обучение.
Deep Think: Разширяване на границите на разсъжденията
Google активно проучва границите на когнитивните възможности на Gemini и започва да експериментира с подобрен режим на разсъждение, наречен Deep Think. Този иновативен режим използва авангардни техники за научни изследвания, позволяващи на модела да оцени множество хипотези, преди да формулира отговор. Този подход подобрява процесите на вземане на решения, позволявайки по-сложни и нюансирани резултати в сложни ситуации.
Gemini 2.5 Pro Deep Think постигна впечатляващ резултат на USAMO 2025, широко признат като един от най-предизвикателните математически бенчмаркове. Той също така се отличава с LiveCodeBench, взискателен бенчмарк за кодиране на ниво състезание, и постига резултат от 84.0% на MMMU, който оценява мултимодалното разсъждение. Тези резултати подчертават изключителната производителност на Deep Think при справяне със сложни задачи, което предполага обещаващо бъдеще за усъвършенстваното решаване на проблеми с изкуствен интелект.
Като се има предвид, че 2.5 Pro Deep Think разширява границите на възможното, Google отделя допълнително време за провеждане на задълбочени оценки на безопасността и изисква допълнителна информация от експерти по безопасността. Компанията също така ще предостави на избрани тестери достъп до Gemini API, за да събере обратна връзка, преди да го направи широко достъпен. Този предпазлив и обмислен подход има за цел да осигури отговорното внедряване на усъвършенствана AI технология.
Представяне на подобрена 2.5 Flash
Моделът 2.5 Flash, известен със своята ефективност и рентабилност, е подобрен в множество измерения. Той показа подобрения в критични бенчмаркове за разсъждение, мултимодалност, обработка на код и дълъг контекст, като същевременно стана по-ефективен, използвайки между 20-30% по-малко токени в оценките. Това подчертава неговата оптимизирана производителност и управление на ресурсите.
Новият 2.5 Flash е достъпен за предварителен преглед в Google AI Studio за разработчици, във Vertex AI за корпоративни приложения и в приложението Gemini за обикновени потребители. Той е насрочен за обща достъпност в началото на юни, което го прави достъпен за производствени среди.
Нови възможности на Gemini 2.5
Подобрения в Native Audio Output и Live API
Live API въвежда версия за предварителен преглед на аудио-визуален вход и естествен аудио изходен диалог, което позволява на потребителите да създават разговорни преживявания с по-естествен и изразителен Gemini. Тази функция позволява по-ангажиращи и интерактивни приложения. Способността на AI да произвежда реалистични аудио отговори значително подобрява потребителското взаимодействие, като създава по-интуитивен начин за комуникация.
Live API дава възможност на потребителите да управляват тона, акцента и стила на говорене на модела. Например, моделът може да бъде инструктиран да приеме драматичен глас, когато разказва история. Той също така поддържа използването на инструменти, което му позволява да извършва търсения от името на потребителя. Гъвкавостта в гласовия контрол и достъпа до външни инструменти прави модела изключително универсален и ценен в различни сценарии на приложение.
Потребителите могат да експериментират с различни ранни функции, включително:
Affective Dialogue: Моделът открива емоция в гласа на потребителя и реагира съответно. Тази функционалност добавя слоеве на емоционална интелигентност към AI, което прави взаимодействието по-персонализирано.
Proactive Audio: Моделът игнорира фоновите разговори и знае кога да отговори, минимизирайки прекъсванията и подобрявайки яснотата. Тази функция подобрява качеството на взаимодействието, позволявайки по-ефективна и фокусирана комуникация.
Thinking in the Live API: Моделът използва възможностите за мислене на Gemini, за да поддържа по-сложни задачи. Това позволява по-задълбочен анализ и обмисляне при справяне със сложни задачи, което го прави изключително ценен в области, изискващи прецизни и проницателни решения.
Google също така пуска нови визуализации за функционалност текст-към-говор както в 2.5 Pro, така и в 2.5 Flash. Те предоставят първата по рода си поддръжка за множество говорители, позволявайки текст-към-говор с два гласа чрез естествен аудио изход. Тази функция е особено ценна за създаване на увлекателни разкази и диалози в мултимедийни приложения.
Подобно на Native Audio dialogue, текст-към-говор е експресивен и може да улови фини нюанси като шепот. Той поддържа над 24 езика и безпроблемно превключва между тях, което го прави универсален инструмент за глобална комуникация. Тези тънкости в използването на езика обогатяват потребителското изживяване, улеснявайки по-нюансиран и персонализиран комуникационен процес.
Тази възможност текст-към-говор ще бъде достъпна по-късно днес в Gemini API.
Подобрен компютърен интерфейс
Google въвежда възможностите за използване на компютър на Project Mariner в Gemini API и Vertex AI. Далекогледни компании като Automation Anywhere, UiPath, Browserbase, Autotab, The Interaction Company и Cartwheel проучват неговия потенциал. Google очаква с нетърпение по-широко разпространение за разработчици, за да експериментират с тази възможност това лято, проправяйки пътя за иновативни проекти и решения. Способността за интегриране на AI модели директно с компютърни интерфейси води до по-рационализирани и продуктивни решения за работен процес в различни индустрии.
Превъзходни мерки за сигурност
Google значително засили защитите си срещу заплахи за сигурността, като например косвени инжекции на подкани. Това включва вграждане на злонамерени инструкции в данни, извлечени от AI модел. Новият подход за сигурност на Google значително повиши степента на защита на Gemini срещу косвени атаки за инжектиране на подкани по време на използване на инструменти, което прави Gemini 2.5 най-сигурното семейство модели до момента. Тази подобрена сигурност уверява потребителите в безопасно, надеждно изживяване при приемане на управлявани от AI решения.
Подобрено изживяване за разработчици
Обобщения на мислите
И 2.5 Pro, и Flash вече ще включват обобщения на мислите в Gemini API и във Vertex AI. Тези обобщения вземат необмислените мисли на модела и ги организират в ясен формат със заглавки, основни детайли и информация за действията на модела, като например кога използват инструменти. Като предлагат информация за аналитичния процес на AI, обобщенията на мислите помагат при разбирането и отстраняването на грешки в AI системите, подобрявайки ефективността и системното проектиране.
С по-структуриран, рационализиран формат на мисловния процес на модела, разработчиците и потребителите ще намерят взаимодействията с моделите на Gemini по-лесни за разбиране и отстраняване на грешки.
Бюджети за мислене
Google стартира 2.5 Flash с бюджети за мислене, за да даде на разработчиците по-голям контрол върху разходите, като балансира латентността и качеството. Тази възможност вече е разширена до 2.5 Pro, което ви дава по-големи възможности за фина настройка. Чрез контролиране на използваните токени и оптимизиране на ресурсите, разработчиците могат да постигнат подходящия баланс между изчислителните разходи и ефективността на решението, което прави внедряването на AI едновременно икономично и ефективно.
Това позволява пълен контрол върху броя на токените, които един модел използва за мислене, преди да отговори, или дори да изключи възможностите си за мислене.
Gemini 2.5 Pro с бюджети ще бъде общодостъпен за стабилна производствена употреба през следващите седмици, заедно с общодостъпния модел.
Поддръжка за MCP инструменти
Google добави собствена SDK поддръжка за дефиниции на Model Context Protocol (MCP) в Gemini API за по-лесна интеграция с инструменти с отворен код. Различни методи за внедряване, като MCP сървъри и хоствани инструменти, се проучват, за да се улесни потребителите да създават агентни приложения. Това подобрява средата за AI разработка чрез по-широк набор от опции за интеграция на инструменти и сътрудничество по проекти.
Непрекъснатите иновации са ключът към продължаващия ангажимент за подобряване на моделите и изживяването за разработчици, което ги прави по-ефективни, производителни и отговарящи на обратната връзка от разработчиците. Удвоете широчината и дълбочината на фундаменталните изследвания, за да разширите границите на възможностите на Gemini. Има още какво да се очаква в бъдеще.