El modo cámara de Gemini Live representa un avance significativo en la evolución de la inteligencia artificial, acercando un fragmento tangible del futuro directamente a nuestras manos. Si bien los primeros usuarios con dispositivos Pixel 9 y Samsung Galaxy S25 han disfrutado de esta innovadora función durante algún tiempo, el reciente anuncio de Google en su conferencia I/O amplía el acceso a una audiencia mucho más amplia, que abarca tanto a usuarios de Android como de iOS. Este desarrollo es particularmente emocionante para los propietarios de iPhone, que ahora pueden experimentar una de las funcionalidades de IA más convincentes disponibles actualmente, especialmente teniendo en cuenta que el modo cámara se implementó inicialmente para otros usuarios de Android en abril.
Revelando el Poder de la Visión: Cómo Funciona el Modo Cámara de Gemini
En esencia, el modo cámara de Gemini Live le otorga a la IA la capacidad de “ver”, lo que le permite reconocer e identificar los objetos colocados dentro del campo de visión de la cámara. Esto no es meramente un truco superficial; es una herramienta poderosa que permite a los usuarios interactuar con su entorno de una manera más intuitiva e informativa.
Más allá del simple reconocimiento de objetos, Gemini también puede responder preguntas sobre los elementos identificados, proporcionando contexto y conocimientos a pedido. Además, los usuarios pueden compartir su pantalla con Gemini, permitiendo que la IA analice e identifique los elementos que se muestran en la pantalla de su teléfono. Para iniciar una sesión en vivo con el modo cámara, los usuarios simplemente habilitan la vista de la cámara en vivo, lo que les permite participar en una conversación con el chatbot sobre cualquier cosa que capture la cámara.
Primeras Impresiones: Una Prueba de Conducción con Gemini Live
Durante mi fase inicial de pruebas con Gemini Live en un Pixel 9 Pro XL, quedé gratamente impresionado por sus capacidades. Una experiencia particularmente memorable involucró pedirle a Gemini que localizara mis tijeras extraviadas.
La IA respondió con notable precisión: “Acabo de ver tus tijeras en la mesa, justo al lado del paquete verde de pistachos. ¿Las ves?”
Para mi sorpresa, Gemini tenía toda la razón. Las tijeras estaban exactamente donde lo indicaba, a pesar del hecho de que solo había pasado brevemente la cámara frente a ellas durante una sesión en vivo de 15 minutos en la que esencialmente le estaba dando al chatbot de IA un recorrido por mi apartamento.
Intrigado por este éxito inicial, exploré ansiosamente el modo cámara más a fondo. En otra prueba más extensa, activé la función y comencé a caminar por mi apartamento, lo que provocó que Gemini identificara los objetos que veía. Reconoció con precisión varios elementos, incluyendo fruta, ChapStick y otros objetos cotidianos. El redescubrimiento de mis tijeras, sin embargo, siguió siendo la demostración más llamativa de sus capacidades.
El hecho de que Gemini identificara las tijeras sin ninguna indicación previa fue particularmente impresionante. La IA las había reconocido silenciosamente en algún momento durante la sesión y recordó con precisión su ubicación con notable precisión. Esta experiencia realmente se sintió como una visión del futuro, lo que me impulsó a realizar más investigaciones sobre su potencial.
Buscando Inspiración: La Visión de Google para la IA de Video en Vivo
Mi experimentación con la función de cámara de Gemini Live reflejó la demostración presentada por Google el verano anterior, que ofreció una primera mirada a estas capacidades de IA de video en vivo. La demostración presentaba a Gemini recordándole al usuario dónde había dejado sus gafas, una hazaña aparentemente demasiado buena para ser verdad. Sin embargo, como descubrí, este nivel de precisión era de hecho alcanzable.
Gemini Live es capaz de reconocer mucho más que solo artículos para el hogar. Google afirma que puede ayudar a los usuarios a navegar por estaciones de tren abarrotadas o identificar los rellenos en los pasteles. También puede proporcionar información más profunda sobre obras de arte, como su origen y si es una pieza de edición limitada.
Esta funcionalidad va más allá de la de un Google Lens normal. Puedes tener una conversación con la IA, que es mucho más conversacional que el Asistente de Google.
Google también ha lanzado un video de YouTube que demuestra la función, y ahora tiene su propia página en la Google Store.
Para comenzar, inicia Gemini, enciende la cámara y comienza a hablar.
Gemini Live se basa en Project Astra de Google, que se presentó inicialmente el año pasado y es quizás la característica “estamos en el futuro” más grande de la compañía, un próximo paso experimental para las capacidades de IA generativa, más allá de simplemente escribir o incluso pronunciar indicaciones en un chatbot como ChatGPT, Claude o Gemini.
Las empresas de IA están mejorando continuamente las capacidades de las herramientas de IA, desde la creación de videos hasta la potencia de procesamiento básica. Visual Intelligence de Apple, que el fabricante del iPhone lanzó en versión beta el año pasado, es comparable a Gemini Live.
Gemini Live tiene el potencial de revolucionar la forma en que nos conectamos con el entorno al fusionar nuestros entornos digital y físico mientras simplemente sostenemos la cámara frente a cualquier cosa.
Poniendo a Prueba a Gemini Live: Escenarios del Mundo Real
La primera vez que lo usé, Gemini reconoció con precisión un coleccionable de juegos muy específico de un conejo de peluche en la vista de mi cámara. La segunda vez, se lo mostré a un amigo en una galería de arte. Inmediatamente reconoció la tortuga en una cruz (no me preguntes) e identificó y tradujo el kanji justo al lado, lo que nos dio escalofríos a ambos y nos dejó un poco espeluznados. De manera positiva, creo.
Comencé a considerar cómo podría poner a prueba la función. Cuando intenté grabar la pantalla mientras estaba en acción, falló constantemente. ¿Qué pasaría si me desviara del camino habitual? Soy un gran fanático del género de terror (películas, series de televisión y videojuegos) y poseo una gran cantidad de coleccionables, baratijas y otros artículos. ¿Qué tan bien funcionaría con artículos más oscuros, como mis coleccionables con temas de terror?
Primero, debo afirmar que Gemini puede ser increíblemente asombroso e increíblemente irritante en la misma ronda de preguntas. Tenía alrededor de 11 objetos que quería que Gemini identificara, y cuanto más duraba la sesión en vivo, peor se ponía, así que tuve que limitar las sesiones a uno o dos objetos. En mi opinión, Gemini intentó utilizar información contextual de artículos reconocidos previamente para adivinar nuevos, lo que tiene sentido hasta cierto punto, pero eventualmente no me benefició ni a mí ni a él.
A veces, Gemini era bastante preciso, proporcionando las respuestas correctas fácilmente y sin confusión, aunque esto sucedía con más frecuencia con objetos más recientes o populares. Me sorprendió, por ejemplo, cuando dedujo de inmediato que uno de mis objetos de prueba no solo era de Destiny 2, sino también una edición limitada de un evento de temporada del año anterior.
Gemini con frecuencia estaba completamente equivocado, lo que requería que proporcionara más pistas para acercarme a la respuesta correcta. A veces, parecía como si Gemini estuviera utilizando el contexto de mis sesiones en vivo anteriores para generar respuestas, identificando múltiples objetos como provenientes de Silent Hill cuando no lo eran. Tengo una vitrina dedicada a la serie de juegos, así que puedo entender por qué querría sumergirse en esa área rápidamente.
Revelando Imperfecciones: Errores y Peculiaridades en el Sistema
Gemini puede estar completamente bloqueado a veces. En ocasiones, Gemini identificó erróneamente uno de los objetos como un personaje ficticio del juego Silent Hill: f inédito, combinando claramente partes de diferentes títulos en algo que nunca existió. Cuando Gemini dio una respuesta incorrecta, y la corregí y le di una pista más cercana a la respuesta, o simplemente le di la respuesta, solo para que repitiera la respuesta incorrecta como si fuera una nueva suposición, fue el otro error constante que encontré. Cuando eso ocurría, cerraba la sesión y comenzaba una nueva, lo cual no siempre era útil.
Una técnica que descubrí fue que algunas discusiones eran más efectivas que otras. Si revisaba mi lista de conversaciones de Gemini, tocaba un chat antiguo que había acertado un artículo en particular, y luego volvía a estar en vivo desde ese chat, podría identificar los artículos sin ningún problema. Si bien esto no siempre es inesperado, fue intrigante notar que ciertos diálogos funcionaban mejor que otros, incluso cuando se usaba el mismo lenguaje.
Google no respondió a mis preguntas para obtener información adicional sobre cómo funciona Gemini Live.
Quería que Gemini respondiera con éxito a mis preguntas desafiantes, a veces muy específicas, así que ofrecí muchas pistas para ayudarlo a hacerlo. Los empujones resultaron útiles, pero no siempre.
Una Tecnología Transformadora: El Impacto Potencial de Gemini Live
Gemini Live representa un cambio de paradigma en la forma en que interactuamos con nuestro entorno, fusionando a la perfección los reinos digital y físico a través de la lente de nuestras cámaras. Si bien la tecnología aún se encuentra en sus primeras etapas, sus aplicaciones potenciales son vastas y transformadoras.
Imagina usar Gemini Live para:
- Navegar por entornos desconocidos: Simplemente apunta tu cámara a letreros de calles o puntos de referencia, y Gemini te proporcionará indicaciones e información en tiempo real.
- Aprender sobre artefactos históricos: Cuando visites un museo, usa Gemini para identificar y proporcionar contexto para obras de arte y objetos históricos.
- Cocinar recetas complejas: Pídele a Gemini que te guíe a través de cada paso de una receta, identificando ingredientes y sugiriendo técnicas alternativas.
- Diagnosticar problemas domésticos simples: Apunta tu cámara a un electrodoméstico que funciona mal, y Gemini te proporcionará consejos para la resolución de problemas y posibles soluciones.
Estos son solo algunos ejemplos de las innumerables formas en que Gemini Live puede mejorar nuestra vida diaria. A medida que la tecnología continúa evolucionando y mejorando, su potencial para revolucionar la forma en que interactuamos con el mundo que nos rodea es realmente ilimitado.
La integración de Gemini Live en dispositivos iOS amplía aún más su alcance y accesibilidad, llevando el poder de la visión impulsada por la IA a una audiencia más amplia. A medida que la tecnología de IA continúa avanzando a un ritmo exponencial, características como Gemini Live ofrecen una visión de un futuro donde nuestros dispositivos no solo son herramientas para la comunicación y el entretenimiento, sino también compañeros inteligentes que pueden ayudarnos a navegar, comprender e interactuar con el mundo. que nos rodea de formas nuevas y significativas.