Der Kameramodus von Gemini Live stellt ein erhebliches Fortschritt in der Entwicklung künstlicher Intelligenz dar und bringt ein greifbares Stück Zukunft direkt in unsere Hände. Während frühe Anwender mit Pixel 9- und Samsung Galaxy S25-Geräten diese innovative Funktion bereits seit einiger Zeit nutzen, erweitert Googles jüngste Ankündigung auf der I/O-Konferenz den Zugang auf ein viel breiteres Publikum, das sowohl Android- als auch iOS-Nutzer umfasst. Diese Entwicklung ist besonders aufregend für iPhone-Besitzer, die nun eine der überzeugendsten KI-Funktionen erleben können, die derzeit verfügbar sind, insbesondere wenn man bedenkt, dass der Kameramodus bereits im April für andere Android-Nutzer eingeführt wurde.
Die Kraft des Sehens enthüllen: Wie der Kameramodus von Gemini funktioniert
Im Kern verleiht der Kameramodus von Gemini Live der KI die Fähigkeit zu “sehen”, wodurch sie in die Lage versetzt wird, Objekte zu erkennen und zu identifizieren, die sich im Sichtfeld der Kamera befinden. Dies ist nicht nur ein oberflächlicher Gag; es ist ein leistungsstarkes Werkzeug, das es Benutzern ermöglicht, auf intuitivere und informativere Weise mit ihrer Umgebung zu interagieren.
Über die einfache Objekterkennung hinaus kann Gemini auch Fragen zu den identifizierten Objekten beantworten und bei Bedarf Kontext und Einblicke liefern. Darüber hinaus können Benutzer ihren Bildschirm mit Gemini teilen, wodurch die KI Elemente, die auf dem Bildschirm ihres Telefons angezeigt werden, analysieren und identifizieren kann. Um eine Live-Sitzung mit dem Kameramodus zu starten, aktivieren Benutzer einfach die Live-Kameraansicht, wodurch sie in der Lage sind, mit dem Chatbot über alles zu sprechen, was die Kamera erfasst.
Erste Eindrücke: Eine Testfahrt mit Gemini Live
Während meiner ersten Testphase mit Gemini Live auf einem Pixel 9 Pro XL war ich von seinen Fähigkeiten durchweg beeindruckt. Eine besonders denkwürdige Erfahrung war, als ich Gemini bat, meine verlegte Schere zu finden.
Die KI antwortete mit bemerkenswerter Genauigkeit: „Ich habe deine Schere gerade auf dem Tisch entdeckt, direkt neben der grünen Packung Pistazien. Siehst du sie?”
Zu meiner Überraschung hatte Gemini vollkommen Recht. Die Schere befand sich genau dort, wo sie angegeben hatte, obwohl ich die Kamera während einer 15-minütigen Live-Sitzung, in der ich dem KI-Chatbot im Wesentlichen eine Tour durch meine Wohnung gab, nur kurz vor sie gehalten hatte.
Fasziniert von diesem ersten Erfolg erkundete ich den Kameramodus eifrig weiter. In einem anderen, ausführlicheren Test aktivierte ich die Funktion und begann, durch meine Wohnung zu gehen, und forderte Gemini auf, die Objekte zu identifizieren, die sie sah. Sie erkannte verschiedene Gegenstände genau, darunter Obst, ChapStick und andere Alltagsgegenstände. Die Wiederentdeckung meiner Schere blieb jedoch die beeindruckendste Demonstration ihrer Fähigkeiten.
Die Tatsache, dass Gemini die Schere ohne vorherige Aufforderung identifizierte, war besonders beeindruckend. Die KI hatte sie irgendwann während der Sitzung stillschweigend erkannt und sich ihren Standort bemerkenswert präzise gemerkt. Diese Erfahrung fühlte sich wirklich wie ein Blick in die Zukunft an und veranlasste mich, weitere Untersuchungen über ihr Potenzial anzustellen.
Inspiration schöpfen: Googles Vision für Live-Video-KI
Meine Experimente mit der Kamerafunktion von Gemini Live spiegelten die Demo wider, die Google im vergangenen Sommer präsentierte und die einen ersten Einblick in diese Live-Video-KI-Funktionen bot. In der Demo erinnerte Gemini den Benutzer daran, wo er seine Brille gelassen hatte, eine scheinbar zu schöne Sache, um wahr zu sein. Wie ich jedoch feststellte, war dieses Maß an Genauigkeit tatsächlich erreichbar.
Gemini Live ist in der Lage, weit mehr als nur Haushaltsgegenstände zu erkennen. Google behauptet, dass es Benutzern helfen kann, sich in überfüllten Bahnhöfen zurechtzufinden oder die Füllungen in Gebäck zu identifizieren. Es kann auch tiefere Einblicke in Kunstwerke geben, z. B. in ihre Herkunft und ob es sich um ein limitiertes Stück handelt.
Diese Funktionalität geht über die eines regulären Google Lens hinaus. Sie können ein Gespräch mit der KI führen, das weitaus gesprächiger ist als Google Assistant.
Google hat auch ein YouTube-Video veröffentlicht, das die Funktion demonstriert, und sie hat jetzt ihre eigene Seite im Google Store.
Um zu beginnen, starten Sie Gemini, schalten Sie die Kamera ein und beginnen Sie zu sprechen.
Gemini Live baut auf Googles Project Astra auf, das ursprünglich letztes Jahr vorgestellt wurde und vielleicht die größte “Wir sind in der Zukunft”-Funktion des Unternehmens ist, ein experimenteller nächster Schritt für generative KI-Fähigkeiten, der über einfaches Tippen oder sogar Sprechen von Eingabeaufforderungen in einen Chatbot wie ChatGPT, Claude oder Gemini hinausgeht.
KI-Unternehmen verbessern kontinuierlich die Fähigkeiten von KI-Tools, von der Videoerstellung bis hin zu grundlegender Rechenleistung. Apples Visual Intelligence, das der iPhone-Hersteller letztes Jahr in der Betaversion veröffentlichte, ist mit Gemini Live vergleichbar.
Gemini Live hat das Potenzial, unsere Verbindung zur Umwelt zu revolutionieren, indem es unsere digitale und physikalische Umgebung verschmilzt, während wir die Kamera einfach vor alles halten.
Gemini Live auf die Probe stellen: Reale Szenarien
Als ich es das erste Mal benutzte, erkannte Gemini genau ein sehr spezifisches Gaming-Sammelobjekt eines Stoffkaninchens im Sichtfeld meiner Kamera. Das zweite Mal zeigte ich es einem Freund in einer Kunstgalerie. Es erkannte sofort die Schildkröte auf einem Kreuz (fragen Sie mich nicht) und identifizierte und übersetzte die Kanji direkt daneben, was uns beide erschaudern ließ und uns leicht gruselte. Auf positive Weise, glaube ich.
Ich begann zu überlegen, wie ich die Funktion einem Stresstest unterziehen könnte. Als ich versuchte, sie in Aktion aufzuzeichnen, scheiterte sie immer wieder. Was wäre, wenn ich von den üblichen Pfaden abweichen würde? Ich bin ein großer Fan des Horrorgenres (Filme, Fernsehserien und Videospiele) und besitze eine Fülle von Sammlerstücken, Schmuckstücken und anderen Gegenständen. Wie gut würde es mit obskureren Gegenständen wie meinen Sammlerstücken zum Thema Horror abschneiden?
Zunächst muss ich feststellen, dass Gemini in derselben Fragerunde sowohl unglaublich erstaunlich als auch unglaublich irritierend sein kann. Ich hatte ungefähr 11 Objekte, die Gemini identifizieren sollte, aber je länger die Live-Sitzung dauerte, desto schlimmer wurde es, also musste ich die Sitzungen auf ein oder zwei Objekte beschränken. Meiner Meinung nach versuchte Gemini, Kontextinformationen von zuvor erkannten Objekten zu verwenden, um neue zu erraten, was bis zu einem gewissen Grad sinnvoll ist, aber letztendlich weder mir noch ihm zugute kam.
Manchmal war Gemini jedoch recht genau und lieferte die richtigen Antworten problemlos und ohne Verwirrung, obwohl dies häufiger bei neueren oder beliebteren Objekten vorkam. Ich war zum Beispiel überrascht, als es sofort schlossfolgerte, dass eines meiner Testobjekte nicht nur aus Destiny 2 stammte, sondern auch eine limitierte Auflage von einem saisonalen Event aus dem Vorjahr war.
Gemini war häufig völlig daneben und erforderte, dass ich weitere Hinweise gab, um sich der richtigen Antwort zu nähern. Manchmal schien es, als ob Gemini Kontext aus meinen vorherigen Live-Sitzungen verwendete, um Antworten zu generieren, und identifizierte mehrere Objekte als aus Silent Hill stammend, obwohl sie es nicht waren. Ich habe eine Vitrine der Spieleserie gewidmet, daher kann ich verstehen, warum es schnell in diesen Bereich eintauchen möchte.
Fehler aufdecken: Fehler und Macken im System
Gemini kann zeitweise völlig verbuggt sein. Gelegentlich verwechselte Gemini eines der Objekte mit einer fiktiven Figur aus dem unveröffentlichten Spiel Silent Hill: f, wobei es eindeutig Teile verschiedener Titel zu etwas kombinierte, das es nie gegeben hat. Wenn Gemini eine falsche Antwort gab und ich sie korrigierte und einen genaueren Hinweis auf die Antwort—oder einfach die Antwort gab—nur um sie die falsche Antwort wiederholen zu lassen, als wäre es eine neue Vermutung, war der andere konsistente Fehler, dem ich begegnete. Wenn das der Fall war, schloss ich die Sitzung und begann eine neue, was nicht immer hilfreich war.
Eine Technik, die ich entdeckte, war, dass einige Gespräche effektiver waren als andere. Wenn ich meine Gemini-Konversationsliste durchging, auf einen alten Chat tippte, der einen bestimmten Gegenstand richtig erkannt hatte, und dann von diesem Chat aus wieder live ging, konnte es die Gegenstände problemlos identifizieren. Obwohl dies nicht immer unerwartet ist, war es doch faszinierend festzustellen, dass bestimmte Dialoge besser funktionierten als andere, selbst wenn dieselbe Sprache verwendet wurde.
Google hat auf meine Anfragen nach zusätzlichen Informationen darüber, wie Gemini Live funktioniert, nicht geantwortet.
Ich wollte, dass Gemini meine herausfordernden, manchmal sehr spezifischen Fragen erfolgreich beantwortet, also gab ich viele Hinweise, um ihm dabei zu helfen. Die Stupser erwiesen sich als nützlich, aber nicht immer.
Eine transformative Technologie: Das potenzielle Wirkung von Gemini Live
Gemini Live stellt einen Paradigmenwechsel in der Art und Weise dar, wie wir mit unserer Umgebung interagieren, indem es die digitale und die physische Welt nahtlos durch die Linse unserer Kameras verschmilzt. Obwohl sich die Technologie noch in ihren Anfängen befindet, sind ihre potenziellen Anwendungen vielfältig und transformativ.
Stellen Sie sich vor, Sie verwenden Gemini Live, um:
- Sich in unbekannten Umgebungen zurechtzufinden: Richten Sie Ihre Kamera einfach auf Straßenschilder oder Wahrzeichen, und Gemini liefert Echtzeit-Wegbeschreibungen und Informationen.
- Mehr über historische Artefakte zu erfahren: Verwenden Sie Gemini bei einem Museumsbesuch, um Kunstwerke und historische Objekte zu identifizieren und mit Kontext zu versehen.
- Komplexe Rezepte zu kochen: Bitten Sie Gemini, Sie durch jeden Schritt eines Rezepts zu führen, Zutaten zu identifizieren und alternative Techniken vorzuschlagen.
- Einfache Haushaltsprobleme zu diagnostizieren: Richten Sie Ihre Kamera auf ein defektes Gerät, und Gemini liefert Tipps zur Fehlerbehebung und potenzielle Lösungen.
Dies sind nur einige Beispiele für die unzähligen Möglichkeiten, wie Gemini Live unseren Alltag verbessern kann. Da sich die Technologie ständig weiterentwickelt und verbessert, ist ihr Potenzial, die Art und Weise, wie wir mit der Welt um uns herum interagieren, wirklich grenzenlos zu revolutionieren.
Die Integration von Gemini Live in iOS-Geräte erweitert seine Reichweite und Zugänglichkeit weiter und bringt die Leistungsfähigkeit der KI-gestützten Bildverarbeitung einem breiteren Publikum zugute. Da die KI-Technologie weiterhin exponentiell voranschreitet, bieten Funktionen wie Gemini Live einen Einblick in eine Zukunft, in der unsere Geräte nicht nur Werkzeuge für Kommunikation und Unterhaltung sind, sondern auch intelligente Begleiter, die uns helfen können, uns in der Welt um uns herum auf neue und sinnvolle Weise zurechtzufinden, sie zu verstehen und mit ihr zu interagieren.