Desvelando Gemini: La Familia de IA de Próxima Generación de Google
Gemini es la ambiciosa incursión de Google en la próxima generación de modelos de IA. Desarrollado a través de los esfuerzos colaborativos de DeepMind y Google Research, los principales laboratorios de investigación de IA de Google, Gemini no es una entidad monolítica, sino más bien una familia de modelos, cada uno adaptado para tareas y niveles de rendimiento específicos. Esta familia incluye:
- Gemini Ultra: El peso pesado de la familia, diseñado para tareas altamente complejas que requieren una potencia computacional sustancial. (Actualmente no disponible)
- Gemini Pro: Un modelo robusto, más pequeño que Ultra, pero capaz de manejar una amplia gama de tareas. Gemini 2.0 Pro, la última iteración, se erige actualmente como el buque insignia de Google.
- Gemini Flash: Una versión optimizada y ‘destilada’ de Pro, que prioriza la velocidad y la eficiencia.
- Gemini Flash-Lite: Una versión ligeramente reducida y más rápida de Gemini Flash.
- Gemini Flash Thinking: Un modelo que muestra habilidades de ‘razonamiento’.
- Gemini Nano: Compuesto por dos modelos compactos, Nano-1 y el ligeramente más potente Nano-2, diseñados para funcionar sin conexión en dispositivos.
Una característica definitoria de todos los modelos Gemini es su multimodalidad inherente. A diferencia de los modelos entrenados únicamente con datos de texto, como LaMDA de Google, los modelos Gemini son expertos en procesar y analizar diversos tipos de datos. Han sido entrenados con un vasto conjunto de datos que abarca audio, imágenes, videos, bases de código y texto en múltiples idiomas, tanto públicos como propietarios y con licencia.
Esta naturaleza multimodal permite a Gemini trascender las limitaciones de los modelos de solo texto. Mientras que LaMDA se limita a la entrada y salida basadas en texto, los modelos Gemini, particularmente las versiones más nuevas de Flash y Pro, pueden generar imágenes y audio de forma nativa junto con el texto.
Sin embargo, las implicaciones éticas y legales del entrenamiento de modelos de IA con datos disponibles públicamente, a menudo sin el consentimiento explícito de los propietarios de los datos, siguen siendo un tema complejo. Si bien Google ofrece una política de indemnización de IA para proteger a ciertos clientes de Google Cloud de posibles demandas, esta política tiene limitaciones. Los usuarios, especialmente aquellos que pretenden utilizar Gemini con fines comerciales, deben tener precaución.
Aplicaciones Gemini vs. Modelos Gemini: Entendiendo la Distinción
Es crucial diferenciar entre los modelos Gemini y las aplicaciones Gemini disponibles en plataformas web y móviles (anteriormente conocidas como Bard).
Las aplicaciones Gemini funcionan como clientes, conectándose a varios modelos Gemini y presentando una interfaz amigable para el usuario, similar a un chatbot. Sirven como la interfaz para interactuar con las capacidades de IA generativa de Google.
En los dispositivos Android, la aplicación Gemini reemplaza a la aplicación Google Assistant. En iOS, las aplicaciones Google y Google Search actúan como clientes de Gemini.
Los usuarios de Android pueden invocar una superposición de Gemini para hacer preguntas sobre el contenido que se muestra en su pantalla, como un video de YouTube. Esta superposición se activa presionando y manteniendo presionado el botón de encendido de un teléfono inteligente compatible o usando el comando de voz ‘Hey Google’.
Las aplicaciones Gemini son versátiles y aceptan imágenes, comandos de voz y texto como entrada. Pueden procesar archivos como PDF, ya sea cargados directamente o importados desde Google Drive, y generar imágenes. Las conversaciones iniciadas con las aplicaciones Gemini en dispositivos móviles se sincronizan sin problemas con Gemini en la web, siempre que el usuario haya iniciado sesión en la misma cuenta de Google.
Gemini Advanced: Desbloqueando Funciones de IA Premium
Las aplicaciones Gemini no son la única puerta de entrada para aprovechar el poder de los modelos Gemini. Google está integrando progresivamente funciones impulsadas por Gemini en sus aplicaciones y servicios principales, incluidos Gmail y Google Docs.
Para aprovechar al máximo estas capacidades, los usuarios normalmente requieren el plan Google One AI Premium. Este plan, técnicamente un componente de Google One, cuesta $20 por mes y otorga acceso a Gemini dentro de las aplicaciones de Google Workspace como Docs, Maps, Slides, Sheets, Drive y Meet. También desbloquea ‘Gemini Advanced’, que brinda acceso a los modelos Gemini más sofisticados de Google dentro de las aplicaciones Gemini.
Los usuarios de Gemini Advanced disfrutan de beneficios adicionales, como acceso prioritario a nuevas funciones y modelos, la capacidad de ejecutar y modificar código Python directamente dentro de Gemini y límites ampliados para NotebookLM, la herramienta de Google para transformar archivos PDF en podcasts generados por IA. Una adición reciente a Gemini Advanced es una función de memoria que almacena las preferencias del usuario y permite a Gemini hacer referencia a conversaciones pasadas, proporcionando contexto para las interacciones actuales.
Una de las características más convincentes exclusivas de Gemini Advanced es ‘Deep Research’. Esta función aprovecha los modelos Gemini con capacidades de razonamiento mejoradas para generar informes detallados. En respuesta a una pregunta, como ‘¿Cómo debería rediseñar mi cocina?’, Deep Research formula un plan de investigación de varios pasos, busca en la web y compila una respuesta completa.
Dentro de Gmail, Gemini reside en un panel lateral, capaz de redactar correos electrónicos y resumir hilos de mensajes. Un panel similar aparece en Docs, ayudando con la escritura, el refinamiento y la lluvia de ideas de contenido. En Slides, Gemini genera diapositivas e imágenes personalizadas. En Google Sheets, ayuda en el seguimiento, la organización y la creación de fórmulas de datos.
La presencia de Gemini se extiende a Google Maps, donde agrega reseñas sobre negocios locales y ofrece recomendaciones, como sugerencias de itinerarios para visitar una ciudad extranjera. Las capacidades del chatbot también abarcan Drive, donde puede resumir archivos y carpetas y proporcionar información concisa sobre proyectos.
Gemini se ha integrado recientemente en el navegador Chrome de Google como una herramienta de escritura de IA. Esta herramienta se puede utilizar para crear contenido completamente nuevo o reescribir texto existente, teniendo en cuenta el contexto de la página web actual para proporcionar recomendaciones personalizadas.
Más allá de estas aplicaciones principales, se pueden encontrar rastros de Gemini en los productos de bases de datos de Google, las herramientas de seguridad en la nube y las plataformas de desarrollo de aplicaciones (incluidos Firebase y Project IDX). También impulsa funciones en aplicaciones como Google Photos (consultas de búsqueda en lenguaje natural), YouTube (lluvia de ideas para videos) y Meet (traducción de subtítulos).
Code Assist (anteriormente Duet AI for Developers), el conjunto de herramientas de Google con tecnología de IA para completar y generar código, se basa en Gemini para tareas computacionalmente intensivas. De manera similar, los productos de seguridad de Google, como Gemini in Threat Intelligence, utilizan Gemini para analizar código potencialmente malicioso y facilitar las búsquedas en lenguaje natural de amenazas e indicadores de compromiso.
Extensiones y Gems de Gemini: Personalizando la Experiencia de IA
Los usuarios de Gemini Advanced tienen la capacidad de crear ‘Gems’, chatbots personalizados impulsados por modelos Gemini, accesibles tanto en plataformas de escritorio como móviles. Los Gems se pueden generar a partir de descripciones en lenguaje natural, como ‘Eres mi entrenador de carrera. Dame un plan de carrera diario’, y se pueden compartir con otros usuarios o mantener privados.
Las aplicaciones Gemini pueden integrarse con varios servicios de Google a través de ‘extensiones Gemini’. Estas extensiones permiten que Gemini interactúe con Drive, Gmail, YouTube y otros servicios, lo que le permite responder a consultas como ‘¿Podrías resumir mis últimos tres correos electrónicos?’.
Gemini Live: Participando en Conversaciones de Voz en Profundidad
‘Gemini Live’ ofrece una experiencia inmersiva, que permite a los usuarios participar en conversaciones de voz detalladas con Gemini. Esta función está disponible dentro de las aplicaciones Gemini en dispositivos móviles y en los Pixel Buds Pro 2, donde se puede acceder incluso cuando el teléfono está bloqueado.
Con Gemini Live, los usuarios pueden interrumpir a Gemini mientras habla para hacer preguntas aclaratorias, y el chatbot se adapta a los patrones de habla en tiempo real. Live también está diseñado para funcionar como un entrenador virtual, ayudando con la preparación de eventos, la lluvia de ideas y otras tareas. Por ejemplo, Live puede sugerir habilidades para destacar durante una entrevista de trabajo y brindar consejos para hablar en público.
Gemini para Adolescentes: Una Experiencia de IA Personalizada para Estudiantes
Google ofrece una experiencia Gemini especializada y adaptada para estudiantes adolescentes.
Esta versión de Gemini centrada en los adolescentes incorpora ‘políticas y salvaguardas adicionales’, incluido un proceso de incorporación personalizado y una guía de alfabetización en IA. Aparte de estas modificaciones, se asemeja mucho a la experiencia estándar de Gemini, incluida la función de ‘doble verificación’ que verifica la precisión de las respuestas de Gemini haciendo referencias cruzadas de información en la web.
Explorando las Capacidades de los Modelos Gemini
La naturaleza multimodal de los modelos Gemini les permite realizar una amplia gama de tareas, desde la transcripción de voz hasta la subtitulación de imágenes y videos en tiempo real. Muchas de estas capacidades ya se han incorporado a los productos de Google, y se prometen más avances en un futuro próximo.
Sin embargo, es importante reconocer que Google, al igual que sus competidores, no ha abordado por completo algunos de los desafíos inherentes asociados con la tecnología de IA generativa, como los sesgos codificados y la tendencia a fabricar información (alucinaciones). Estas limitaciones deben considerarse al evaluar el uso de Gemini, particularmente para aplicaciones críticas.
La Destreza de Gemini Pro
Google afirma que su último modelo Pro, Gemini 2.0 Pro, representa su oferta más avanzada para la codificación y el manejo de indicaciones complejas. 2.0 Pro supera a su predecesor, Gemini 1.5 Pro, en puntos de referencia que evalúan la programación, el razonamiento, las matemáticas y la precisión fáctica.
Dentro de la plataforma Vertex AI de Google, los desarrolladores pueden personalizar Gemini Pro para contextos y casos de uso específicos a través del ajuste fino o la ‘conexión a tierra’. Por ejemplo, a Pro (junto con otros modelos Gemini) se le puede indicar que utilice datos de proveedores externos como Moody’s, Thomson Reuters, ZoomInfo y MSCI, o que obtenga información de conjuntos de datos corporativos o de la Búsqueda de Google en lugar de su base de conocimientos más amplia. Gemini Pro también se puede conectar a API externas de terceros para realizar acciones específicas, como la automatización de flujos de trabajo administrativos.
La plataforma AI Studio de Google proporciona plantillas para crear indicaciones de chat estructuradas con Pro. Los desarrolladores pueden controlar el rango creativo del modelo, proporcionar ejemplos para guiar el tono y el estilo, y ajustar la configuración de seguridad de Pro.
Gemini Flash: Eficiencia Ligera y las Habilidades de Razonamiento de Gemini Flash Thinking
Gemini 2.0 Flash es capaz de utilizar la búsqueda de Google y otras API externas. Aunque es más pequeño, supera a algunos de los modelos 1.5 más grandes en puntos de referencia que miden la codificación y el análisis de imágenes. Como derivado de Gemini Pro, Flash está diseñado para la eficiencia, apuntando a tareas de IA generativa estrechas y de alta frecuencia.
Google destaca la idoneidad de Flash para aplicaciones como la resumen, aplicaciones de chat, subtítulos de imágenes y videos, y extracción de datos de documentos y tablas extensos. Mientras tanto, Gemini 2.0 Flash-Lite, una iteración más compacta de Flash, supera a Gemini 1.5 Flash en rendimiento manteniendo el mismo precio y velocidad, según Google.
En diciembre del año anterior, Google presentó una variante ‘pensante’ de Gemini 2.0 Flash, dotada de capacidades de ‘razonamiento’. Este modelo de IA tarda unos segundos en retroceder a través de un problema antes de proporcionar una respuesta, lo que potencialmente mejora su fiabilidad.
Gemini Nano: Potencia de IA en el Dispositivo
Gemini Nano es una versión notablemente compacta de Gemini, diseñada para operar directamente en dispositivos compatibles, eliminando la necesidad de enviar tareas a un servidor remoto. Actualmente, Nano impulsa varias funciones en el Pixel 8 Pro, Pixel 8, Pixel 9 Pro, Pixel 9 y Samsung Galaxy S24, incluida la función Resumir en la Grabadora y la Respuesta Inteligente en Gboard.
La aplicación Grabadora, que permite a los usuarios grabar y transcribir audio, incorpora una función de resumen impulsada por Gemini para conversaciones grabadas, entrevistas, presentaciones y otros fragmentos de audio. Estos resúmenes se generan incluso sin una conexión de red y, en aras de la privacidad, ningún dato sale del dispositivo del usuario durante el proceso.
Nano también encuentra su lugar en Gboard, el reemplazo de teclado de Google, donde impulsa la Respuesta Inteligente. Esta función sugiere respuestas en aplicaciones de mensajería como WhatsApp, agilizando las conversaciones.
Una futura iteración de Android está programada para aprovechar Nano para alertar a los usuarios sobre posibles estafas durante las llamadas telefónicas. La nueva aplicación meteorológica en los teléfonos Pixel utiliza Gemini Nano para generar informes meteorológicos personalizados. Además, TalkBack, el servicio de accesibilidad de Google, emplea Nano para crear descripciones auditivas de objetos para usuarios con discapacidades visuales.
Gemini Ultra: Esperando su Regreso
Gemini Ultra ha estado relativamente ausente del centro de atención en los últimos meses. El modelo no está disponible actualmente dentro de las aplicaciones Gemini, ni figura en la página de precios de la API de Gemini de Google. Sin embargo, esto no excluye la posibilidad de que Google reintroduzca Ultra en el futuro.
Estructura de Precios para los Modelos Gemini
Gemini 1.5 Pro, 1.5 Flash, 2.0 Flash y 2.0 Flash-Lite son accesibles a través de la API de Gemini de Google para desarrollar aplicaciones y servicios. Operan con un modelo de pago por uso. El precio base, excluyendo complementos, a partir del 22 de febrero de 2025, es el siguiente:
- Gemini 1.5 Pro: $1.25 por 1 millón de tokens de entrada (para indicaciones de hasta 128K tokens) o $2.50 por 1 millón de tokens de entrada (para indicaciones de más de 128K tokens); $5 por 1 millón de tokens de salida (para indicaciones de hasta 128K tokens) o $10 por 1 millón de tokens de salida (para indicaciones de más de 128K tokens)
- Gemini 1.5 Flash: 7.5 centavos por 1 millón de tokens de entrada (para indicaciones de hasta 128K tokens), 15 centavos por 1 millón de tokens de entrada (para indicaciones de más de 128K tokens), 30 centavos por 1 millón de tokens de salida (para indicaciones de hasta 128K tokens), 60 centavos por 1 millón de tokens de salida (para indicaciones de más de 128K tokens)
- Gemini 2.0 Flash: 10 centavos por 1 millón de tokens de entrada, 40 centavos por 1 millón de tokens de salida. Para audio, 70 centavos por 1 millón de tokens de entrada.
- Gemini 2.0 Flash-Lite: 7.5 centavos por 1 millón de tokens de entrada, 30 centavos por 1 millón de tokens de salida.
Los tokens representan unidades subdivididas de datos brutos, como las sílabas ‘fan’, ‘tas’ y ‘tic’ en la palabra ‘fantástico’. Un millón de tokens equivalen aproximadamente a 750,000 palabras. ‘Entrada’ se refiere a los tokens introducidos en el modelo, mientras que ‘salida’ denota los tokens generados por el modelo.
Aún no se ha anunciado el precio de 2.0 Pro, y Nano permanece en acceso anticipado.
La Posible Llegada de Gemini al iPhone
La perspectiva de la integración de Gemini con los iPhones es una posibilidad distinta.
Apple ha indicado que está en conversaciones para utilizar potencialmente Gemini y otros modelos de terceros para varias funciones dentro de su suite Apple Intelligence. Tras una presentación en la WWDC 2024, el vicepresidente senior de Apple, Craig Federighi, confirmó los planes de colaborar con modelos, incluido Gemini, pero se abstuvo de divulgar más detalles.