Google Gemini ha evolucionado rápidamente desde un potenciador de búsqueda web hasta un chatbot de IA integral capaz de manejar una amplia gama de tareas. Ahora puede procesar archivos, generar videos con sonido y abordar problemas complejos, todo mientras se beneficia del almacenamiento en la nube y la perfecta integración con las aplicaciones de Google. Desde responder preguntas sobre las páginas de Chrome hasta administrar Gmail, Gemini ofrece una experiencia de IA unificada. Sin embargo, sus capacidades de abastecimiento de investigación y generación de imágenes no siempre brillan, y al igual que otros chatbots, a veces puede proporcionar información inexacta.
Gemini como Asistente Virtual
Piensa en Gemini como un asistente virtual avanzado experto en el manejo de una variedad de tareas. Puede analizar documentos, responder preguntas, generar imágenes y videos, realizar investigaciones, ayudar con la escritura creativa, buscar en la web y resolver problemas matemáticos. Es accesible a través de texto o voz, similar a Microsoft Copilot o ChatGPT.
Gemini también cuenta con funciones diseñadas para codificadores, incluidos Gemini Code Assist y el agente de codificación asíncrono Jules. Estas herramientas pueden ayudar con tareas como la creación de complementos personalizados de WordPress y la depuración de código.
La Funcionalidad Central: Indicaciones y Respuestas
En su núcleo, Gemini recibe indicaciones del usuario y genera respuestas, impulsado por modelos de lenguaje grandes (LLM) entrenados en vastos conjuntos de datos. Estos modelos proporcionan a Gemini acceso a una gran cantidad de información sobre diversos temas, complementada con búsquedas en Internet en tiempo real.
Cuanto más interactúan los usuarios con Gemini, mejor se vuelve. La participación del usuario ayuda a entrenar los modelos subyacentes, lo que permite a Gemini ofrecer respuestas más precisas y reducir los errores con el tiempo. Este proceso de aprendizaje continuo es gradual pero esencial.
Líneas de Modelo de Gemini: Flash y Pro
Gemini emplea dos líneas de modelo principales: Flash y Pro. La línea Flash está diseñada para interacciones conversacionales, mientras que la línea Pro se especializa en tareas de razonamiento complejas como la codificación, las matemáticas y la ciencia. Cada modelo dentro de estas líneas exhibe fortalezas únicas. Los modelos más nuevos son 2.5 Flash y 2.5 Pro, y las pruebas a menudo se centran en el 2.5 Flash predeterminado y el 2.5 Pro para tareas especializadas.
Gratis Versus Premium: ¿Qué Obtienes?
Gemini ofrece planes gratuitos y premium, y los planes premium desbloquean funciones adicionales.
Plan Gratuito
Los usuarios gratuitos tienen acceso al modelo 2.5 Flash, acceso limitado al modelo 2.5 Pro, modo de voz (Gemini Live), capacidades de investigación profunda limitadas y asistentes personalizados de IA (Gems). También reciben acceso limitado a la herramienta de animación Whisk y 15 GB de almacenamiento en la nube de Google Drive.
Planes Premium
Los planes premium incluyen Google AI Pro ($19.99 por mes) y Google AI Ultra ($249.99 por mes). El nivel AI Pro proporciona límites de uso más altos, la herramienta de filmación Flow, Gemini en Google Chrome, generación de video a través del modelo Veo 2 de Gemini y una ventana de contexto más grande para indicaciones complejas. El almacenamiento en la nube de Google Drive aumenta a 2 TB con AI Pro, y Gemini se integra con aplicaciones de Google Workspace como Gmail, Calendar, Docs y Sheets.
El plan AI Ultra incluye todo en AI Pro, con límites de uso aún más altos y varias funciones nuevas: 30TB de almacenamiento en la nube de Google Drive, acceso anticipado al agente de optimización de tareas de Gemini, acceso exclusivo al próximo modo 2.5 Pro Deep Think de Gemini, el último modelo de generación de video Veo 3 de Google y YouTube Premium. El plan AI Pro es generalmente más rentable para la mayoría de los usuarios. Una suscripción de Google One, centrada en el almacenamiento en la nube a través de Google Drive, le permite obtener Gemini AI Pro con más de 2 TB de almacenamiento en la nube, como 5 TB ($25 por mes) o 10 TB ($50 por mes).
Propuesta de Valor: Gemini vs. Competidores
Los principales chatbots como Copilot, ChatGPT y Gemini tienen un precio de alrededor de $20 por mes para sus planes premium. Gemini y Copilot se destacan por su integración con las aplicaciones de Google y Microsoft 365, respectivamente. ChatGPT se centra únicamente en la funcionalidad del chatbot. Si bien Copilot Pro tiene características únicas, la integración de almacenamiento en la nube de Gemini ofrece un valor excepcional.
Accesibilidad: Web, Móvil e Integraciones
Se puede acceder a Gemini a través de aplicaciones web y móviles (Apple y Android). Si bien no hay una aplicación de escritorio o una extensión de navegador oficial, Chrome ofrece una integración de Gemini. Gemini se puede utilizar dentro de las aplicaciones de Google como Calendar, Docs, Drive, Gmail, Maps, Keep, Photos, Sheets y YouTube Music.
Primeros Pasos: Interfaz y Experiencia del Usuario
Gemini no requiere una cuenta, pero se recomienda iniciar sesión para cambiar los modelos, utilizar la investigación profunda y guardar los chats.
La interfaz es simple, con un campo de texto “Preguntar a Gemini” y chats recientes en la barra lateral. Las indicaciones de muestra en las que se puede hacer clic ofrecen orientación sobre lo que Gemini puede hacer. Las respuestas suelen ser rápidas, especialmente para la generación de imágenes. Los usuarios pueden copiar, escuchar, regenerar o compartir respuestas. Los problemas ocasionales del servidor pueden hacer que las respuestas se cuelguen, de forma similar a ChatGPT y Copilot.
Tono y Memoria
Gemini es más directo y menos conversacional que ChatGPT. No es posible personalizar el tono de Gemini, pero cierta información del usuario se puede guardar para que Gemini la recuerde. La sólida memoria de Gemini permite experiencias de chat más satisfactorias, recordando conversaciones pasadas incluso al comenzar otras nuevas.
Modo de Voz: Gemini Live
El icono del micrófono permite la entrada de voz a texto, y Gemini Live, como el modo de voz de ChatGPT o Copilot Voice, permite a los usuarios conversar de forma natural con diferentes voces.
Gemini Live admite el uso compartido de la cámara y la pantalla, lo que permite a los usuarios discutir temas del mundo real. Si bien las capacidades de reconocimiento de imágenes de Gemini son generalmente competentes, la función sirve más como un ahorro de tiempo.
Proyecto Mariner: Un Agente de Optimización de Tareas
Project Mariner, exclusivo para usuarios de AI Ultra, es un asistente de IA que completa tareas como la búsqueda de empleo o la búsqueda de apartamentos. Google llama a Project Mariner un "prototipo de investigación", lo que indica que aún necesita más refinamiento.
Búsqueda Web y Recuperación de Información
La búsqueda web es una característica estándar de todos los chatbots convencionales. Gemini, ChatGPT y Copilot pueden responder preguntas sobre eventos actuales. Si bien la mayoría de las preguntas se responden correctamente, algunas pueden confundir a los chatbots.
Las respuestas de Gemini y Copilot suelen ser breves y directas, mientras que ChatGPT proporciona información más detallada. Gemini y ChatGPT tienen iconos de origen que enlazan con artículos conectados, pero la interfaz de ChatGPT muestra el nombre de la fuente y el título completo del artículo.
Modo IA y Compras
Se puede acceder al Modo IA en la página de búsqueda de Google, impulsado por Gemini, a través de un botón Modo IA. Permite a los usuarios hacer preguntas basadas en los resultados de la web, con mosaicos de artículos relacionados e imágenes relevantes en las respuestas similares a ChatGPT. También proporciona un acceso conveniente a la búsqueda de Google y la búsqueda de imágenes.
Gemini también puede ayudar con las compras proporcionando consejos de compra junto con mosaicos de Google Shopping con reseñas de usuarios, enlaces de minoristas y seguimiento de precios. La función de compras de Gemini ofrece recomendaciones relevantes.
Investigación Profunda: Informes Detallados
La investigación profunda es una característica valiosa de los chatbots de IA, que permite a los usuarios plantear preguntas o sugerir temas para que Gemini investigue e informe. Los informes pueden citar numerosas fuentes y generarse en unos 10 minutos.
Ambos chatbots manejan temas de investigación simples con facilidad, pero las preguntas sin respuestas definitivas y que requieren diversas fuentes son más desafiantes.
Gemini cita más fuentes, pero el abastecimiento de ChatGPT es más fácil de usar. Gemini permite exportar informes a Google Docs, pero la interfaz de investigación profunda de ChatGPT es esencialmente solo una barra de carga.
El tono del informe difiere significativamente, con los informes de Gemini que se asemejan a los documentos académicos y los de ChatGPT que se asemejan a las publicaciones del foro.
Generación de Imágenes: Una Comparación Visual
La generación de imágenes es otra característica básica de los chatbots de IA. Las pruebas se centran en ilustraciones fotorrealistas y complejas.
En la generación de imágenes fotorrealistas, Gemini genera imágenes de forma rápida y visualmente atractiva aunque puede contener errores.
Para ilustraciones complejas, el cómic de Gemini tiende a ser incoherente, mientras que el cómic de ChatGPT se acerca más a cumplir su objetivo.
En la generación de diagramas técnicos, ChatGPT produce diagramas muy precisos, solidificando su fuerza.
Generación de Video: Un Campo en Auge
La generación de video con IA es una característica cada vez más importante. Gemini tiene la herramienta de filmación Flow, el modelo de generación de video Veo 3 y el animador de IA Whisk. Su capacidad para generar videos con audio lo distingue de la generación de video Sora de ChatGPT, aunque es exclusivo para los suscriptores de AI Ultra.
Veo 3 representa un avance significativo, pero requiere una calibración cuidadosa de las indicaciones. Cada generación requiere 150 créditos (12,500 créditos por mes con AI Ultra).
Flow permite recortar clips de video y extenderlos en función de nuevas indicaciones. Con suficientes créditos, se podría hacer una película por completo con Flow.
Whisk, la herramienta de animación de IA de Google, permite a los usuarios cargar imágenes. Los resultados pueden ser divertidos pero tienen errores y distorsiones.
Análisis de Archivos: Comprensión del Contenido Cargado
Gemini puede analizar y comprender archivos cargados, criticar currículums, interpretar imágenes o traducir texto.
En el reconocimiento de imágenes, los chatbots se prueban en su capacidad para identificar componentes en una imagen cargada. ChatGPT puede incluir un mayor volumen de detalles.
Para el procesamiento de documentos, los chatbots tienen la tarea de responder preguntas basadas únicamente en los documentos cargados. Tanto Gemini como ChatGPT proporcionan respuestas correctas, pero se recomienda precaución al cargar archivos. ChatGPT puede tener una ligera ventaja en el procesamiento de archivos sobre Gemini, pero es un margen delgado.
Escritura Creativa: Generación de Poemas
Los chatbots de IA pueden ayudar con la escritura creativa, incluidos chistes, monólogos y poemas.
Cuando se le encarga escribir un poema en verso libre, ChatGPT se adhiere más estrechamente a las instrucciones. El poema de Gemini no usa puntuación, mientras que el poema de Copilot se siente carente con sus saltos de línea.
Razonamiento Complejo: Preguntas de Examen
El razonamiento complejo se prueba presentando a los chatbots preguntas de examen de pregrado en informática, matemáticas y física.
Los chatbots funcionan muy bien, respondiendo eficazmente todas las preguntas de física. ChatGPT devuelve la menor cantidad de respuestas incorrectas en general.
Gemini en Chrome: Integración Perfecta
Chrome ahora integra Gemini. Los titulares de cuentas pagas pueden hacer clic en el icono de Gemini para abrir una ventana de chat, interactuar con Gemini como de costumbre y consultar el contenido de la pestaña activa. La integración de Gemini en Chrome permite a los usuarios eliminar la necesidad de abrir una nueva pestaña para preguntarle algo a Gemini a través de una funcionalidad similar a Copilot Vision en Edge, aunque la función Live de Gemini no está disponible en su interfaz web.
Las respuestas de texto son impresionantemente rápidas. La velocidad de las respuestas me hace preguntarme si Gemini tiene algún nivel de acceso a las páginas web antes de que las comparta con él.
Aunque Gemini en Chrome tiene algunas limitaciones; Gemini no puede entender videos, y las respuestas con Live no son tan rápidas como lo son a través de texto, en general es útil ya que elimina la necesidad de copiar y pegar. Sin embargo, a menos que use Gemini todo el tiempo, el tiempo que ahorra tenerlo a un clic de distancia podría no ser un gran problema. La funcionalidad Live es igualmente útil, lo que me permite hacer preguntas sobre lo que estoy viendo sin necesidad de tocar un teclado.
Gemini en Chrome tiene algunas restricciones sobre lo que puede ver y entender. Como resultado, Gemini, puede sentirse invasivo. Gemini puede ver y responder a preguntas sobre ciertas pestañas una vez que las comparte.
Integración con Aplicaciones de Google: Productividad Mejorada
Los suscriptores del plan AI Pro obtienen funciones de IA en las aplicaciones de Google, incluidas Calendar, Docs, Drive, Gmail, Maps, Keep, Photos, Sheets y YouTube Music.
Google destaca las integraciones en el propio sitio de Gemini. Puede agregar eventos a Google Calendar en función de un folleto, generar listas de compras en Google Keep o dejar que Gemini cree listas de reproducción en YouTube Music. Gemini en Docs, Gmail, Sheets y Slides reflejan Copilot en las aplicaciones de Microsoft 365, creando diapositivas basadas en indicaciones, redactando correos electrónicos, generando texto y sugiriendo fórmulas.
Gemini en Gmail se destaca, otorgando a Gemini acceso completo a su historial de correo electrónico, lo que le permite buscar información específica o proporcionar asesoramiento de limpieza de la bandeja de entrada. Sin embargo, no es una función todopoderosa. Gemini no puede hacer todo. Esta integración se siente como una invasión de la privacidad.
Dependiendo del grado en que utilice las integraciones disponibles de Gemini; puede que no haya ninguna que satisfaga sus demandas específicas. Sin embargo, puede ser beneficioso debido a la multitud de características.
Gems: Expertos en IA Personalizados
Gems son versiones personalizadas de Gemini adaptadas para fines específicos. Los instructores pueden agregar archivos y crear un PC Builder Gem para ayudar a los constructores de computadoras por primera vez.
Las respuestas son marginalmente diferentes de hablar con Gemini. Aquellos que planean hablar con Gemini sobre un tema específico, pueden crear una Gem. Sin embargo, Gems no sienten que realmente cumplen la promesa de Google.
Seguridad y Privacidad
Gemini no es consciente y no puede pensar o entender las cosas como un humano.
El contenido para adultos, las actividades ilegales, las imágenes realistas de personas y los temas tabú están en contra de las políticas de Gemini. Gemini es el más laxo con su sistema de filtrado.
Gemini tiene una ventana de contexto. La ventana de contexto de Gemini en su plan AI Pro puede manejar hasta 1,500 páginas de texto o 30,000 líneas de código a la vez con pago. Los suscriptores pueden encontrar obstáculos si la versión gratuita se utiliza ampliamente.
Google recopila datos cuando utiliza Gemini, incluidos archivos, información de ubicación, uso del producto y chats. Estos datos se utilizan para mejorar los productos de Google y las tecnologías de aprendizaje automático.
Los usuarios pueden desactivar la actividad de las aplicaciones de Gemini. De forma predeterminada, Google almacena los datos de chat durante 18 meses.
En cuanto a las integraciones de Google Workspace de Gemini, como en Gmail, Docs, Drive, Sheets y Slides, Google promete no utilizar modelos entrenados, venderlos ni utilizarlos para anuncios dirigidos.
Google ha experimentado en el pasado problemas que incluyen, actores maliciosos que han explotado fallas en Google Chrome, reguladores italianos que citaron a Google por sus prácticas de datos y la recopilación de datos sin consentimiento que condujo a pérdidas de miles de millones. Como tal, se recomienda no compartir datos confidenciales.