Google Gemini: KI-Power im Alltag

Google Gemini hat sich rasant von einem Web-Such-Assistenten zu einem umfassenden KI-Chatbot entwickelt, der eine breite Palette von Aufgaben bewältigen kann. Es kann jetzt Dateien verarbeiten, Videos mit Ton generieren und komplexe Probleme lösen, alles unter Nutzung von Cloud-Speicher und nahtloser Integration in Google-Apps. Von der Beantwortung von Fragen zu Chrome-Seiten bis zur Verwaltung von Gmail bietet Gemini eine einheitliche KI-Erfahrung. Allerdings sind seine Recherche- und Bildgenerierungsfähigkeiten nicht immer optimal, und wie andere Chatbots kann es manchmal ungenaue Informationen liefern.

Gemini als virtueller Assistent

Stellen Sie sich Gemini als einen fortschrittlichen virtuellen Assistenten vor, der eine Vielzahl von Aufgaben beherrscht. Es kann Dokumente analysieren, Fragen beantworten, Bilder und Videos generieren, Recherchen durchführen, bei kreativem Schreiben helfen, das Web durchsuchen und mathematische Probleme lösen. Es ist per Text oder Sprache zugänglich, ähnlich wie Microsoft Copilot oder ChatGPT.

Gemini bietet auch Funktionen, die auf Programmierer zugeschnitten sind, darunter Gemini Code Assist und den asynchronen Coding-Agenten Jules. Diese Tools können bei Aufgaben wie dem Erstellen benutzerdefinierter WordPress-Plug-ins und dem Debuggen von Code helfen.

Die Kernfunktionalität: Prompts und Antworten

Im Kern empfängt Gemini Benutzer-Prompts und generiert Antworten, angetrieben von Large Language Models (LLMs), die auf riesigen Datensätzen trainiert wurden. Diese Modelle verschaffen Gemini Zugriff auf eine Fülle von Informationen zu verschiedenen Themen, ergänzt durch Echtzeit-Internetrecherchen.

Je mehr Benutzer mit Gemini interagieren, desto besser wird es. Die Interaktion der Benutzer hilft, die zugrunde liegenden Modelle zu trainieren, wodurch Gemini genauere Antworten liefern und Fehler im Laufe der Zeit reduzieren kann. Dieser kontinuierliche Lernprozess ist zwar allmählich, aber unerlässlich.

Die Gemini-Modellreihen: Flash und Pro

Gemini verwendet zwei primäre Modellreihen: Flash und Pro. Die Flash-Reihe ist für die Konversation konzipiert, während sich die Pro-Reihe auf komplexe Denkaufgaben wie Codierung, Mathematik und Naturwissenschaften spezialisiert hat. Jedes Modell innerhalb dieser Reihen weist einzigartige Stärken auf. Die neuesten Modelle sind 2.5 Flash und 2.5 Pro, wobei sich die Tests oft auf den Standard 2.5 Flash und den 2.5 Pro für spezielle Aufgaben konzentrieren.

Kostenlos versus Premium: Was bekommt man?

Gemini bietet sowohl kostenlose als auch Premium-Pläne an, wobei Premium-Pläne zusätzliche Funktionen freischalten.

Kostenloser Plan

Kostenlose Benutzer haben Zugriff auf das Modell 2.5 Flash, eingeschränkten Zugriff auf das Modell 2.5 Pro, den Sprachmodus (Gemini Live), eingeschränkte Deep-Research-Funktionen und benutzerdefinierte KI-Assistenten (Gems). Sie erhalten außerdem eingeschränkten Zugriff auf das Whisk-Animationstool und 15 GB Google Drive Cloud-Speicher.

Premium-Pläne

Premium-Pläne umfassen Google AI Pro (19,99 USD pro Monat) und Google AI Ultra (249,99 USD pro Monat). Die AI Pro-Stufe bietet höhere Nutzungslimits, das Flow-Filmemacher-Tool, Gemini in Google Chrome, Videogenerierung über das Veo 2-Modell von Gemini und ein größeres Kontextfenster für komplexe Prompts. Der Google Drive Cloud-Speicher erhöht sich bei AI Pro auf 2 TB, und Gemini lässt sich in Google Workspace-Apps wie Gmail, Kalender, Docs und Sheets integrieren.

Der AI Ultra-Plan beinhaltet alles von AI Pro, mit noch höheren Nutzungslimits und einigen neuen Funktionen: 30 TB Google Drive Cloud-Speicher, frühzeitiger Zugriff auf den Task-Streamlining-Agenten von Gemini, exklusiver Zugriff auf den kommenden 2.5 Pro Deep Think-Modus von Gemini, das neueste Veo 3-Videogenerierungsmodell von Google und YouTube Premium. Der AI Pro-Plan ist für die meisten Benutzer im Allgemeinen kostengünstiger. Ein Google One-Abonnement, das sich auf Cloud-Speicher über Google Drive konzentriert, ermöglicht den Erhalt von Gemini AI Pro mit mehr als 2 TB Cloud-Speicher, z. B. 5 TB (25 USD pro Monat) oder 10 TB (50 USD pro Monat).

Value Proposition: Gemini vs. Wettbewerber

Wichtige Chatbots wie Copilot, ChatGPT und Gemini kosten für ihre Premium-Pläne etwa 20 US-Dollar pro Monat. Gemini und Copilot zeichnen sich durch ihre Integration in Google- bzw. Microsoft 365-Apps aus. ChatGPT konzentriert sich ausschließlich auf die Chatbot-Funktionalität. Während Copilot Pro einzigartige Funktionen bietet, bietet Geminis Cloud-Storage-Integration einen außergewöhnlichen Mehrwert.

Zugänglichkeit: Web, Mobile und Integrationen

Gemini ist über Web- und mobile Apps (Apple und Android) zugänglich. Obwohl es keine Desktop-App oder offizielle Browsererweiterung gibt, bietet Chrome eine Gemini-Integration. Gemini kann in Google-Apps wie Kalender, Docs, Drive, Gmail, Maps, Keep, Fotos, Tabellen und YouTube Music verwendet werden.

Erste Schritte: Benutzeroberfläche und Benutzererfahrung

Gemini erfordert kein Konto, es wird jedoch empfohlen, sich anzumelden, um Modelle zu ändern, Deep-Research zu nutzen und Chats zu speichern.

Die Benutzeroberfläche ist einfach und bietet ein Textfeld "Ask Gemini" und aktuelle Chats in der Seitenleiste. Anklickbare Beispiel-Prompts geben Hinweise darauf, was Gemini kann. Die Antworten erfolgen in der Regel schnell, insbesondere bei der Bildgenerierung. Benutzer können Antworten kopieren, anhören, neu generieren oder freigeben. Gelegentliche Serverprobleme können dazu führen, dass sich Antworten aufhängen, ähnlich wie bei ChatGPT und Copilot.

Ton und Gedächtnis

Gemini ist direkter und weniger gesprächig als ChatGPT. Es ist nicht möglich, den Ton von Gemini zu personalisieren, aber bestimmte Benutzerinformationen können gespeichert werden, damit Gemini sie sich merkt. Das robuste Gedächtnis von Gemini ermöglicht zufriedenstellendere Chat-Erlebnisse und speichert vergangene Chats auch beim Start neuer Chats.

Sprachmodus: Gemini Live

Das Mikrofonsymbol ermöglicht die Spracheingabe, und Gemini Live, wie der Sprachmodus von ChatGPT oder Copilot Voice, ermöglicht es Benutzern, auf natürliche Weise mit verschiedenen Stimmen zu kommunizieren.

Gemini Live unterstützt die Freigabe von Kamera und Bildschirm, sodass Benutzer reale Themen diskutieren können. Obwohl die Bilderkennungsfähigkeiten von Gemini im Allgemeinen kompetent sind, dient die Funktion eher als Zeitersparnis.

Project Mariner: Ein Task-Streamlining-Agent

Project Mariner, exklusiv für AI Ultra-Benutzer verfügbar, ist ein KI-Assistent, der Aufgaben wie Jobsuche oder Wohnungssuche erledigt. Google bezeichnet Project Mariner als „Forschungsprototyp", was darauf hindeutet, dass er noch weiter verfeinert werden muss.

Websuche und Informationsabruf

Die Websuche ist ein Standardmerkmal aller gängigen Chatbots. Gemini, ChatGPT und Copilot können Fragen zu aktuellen Ereignissen beantworten. Während die meisten Fragen richtig beantwortet werden, können einige die Chatbots vor Rätsel stellen.

Die Antworten von Gemini und Copilot sind in der Regel kurz und prägnant, während ChatGPT detailliertere Informationen liefert. Gemini und ChatGPT haben beide Quellensymbole, die zu verknüpften Artikeln führen, aber die Benutzeroberfläche von ChatGPT zeigt den Namen der Quelle und den vollständigen Titel des Artikels an.

AI Mode und Shopping

Der AI Mode auf der Suchseite von Google, der von Gemini betrieben wird, kann über eine AI Mode-Schaltfläche aufgerufen werden. Es ermöglicht Benutzern, Fragen basierend auf Web-Ergebnissen zu stellen, mit zugehörigen Artikelkacheln und relevanten Bildern in Antworten ähnlich wie ChatGPT. Es bietet auch einen bequemen Zugriff auf die Google-Suche und die Bildersuche.

Gemini kann auch beim Einkaufen helfen, indem es neben Google Shopping-Kacheln mit Benutzerbewertungen, Händlerlinks und Preisverfolgung Kaufberatung gibt. Die Shopping-Funktion von Gemini bietet relevante Empfehlungen.

Deep Research: Detaillierte Berichterstattung

Deep Research ist eine wertvolle Funktion von KI-Chatbots, mit der Benutzer Fragen stellen oder Themen vorschlagen können, die Gemini recherchieren und darüber berichten soll. Berichte können zahlreiche Quellen zitieren und in etwa 10 Minuten generiert werden.

Beide Chatbots bewältigen einfache Recherchethemen problemlos, aber Fragen ohne definitive Antworten und die vielfältige Quellen erfordern, sind anspruchsvoller.

Gemini zitiert mehr Quellen, aber die Quellenangabe von ChatGPT ist benutzerfreundlicher. Gemini ermöglicht den Export von Berichten in Google Docs, aber die Deep-Research-Oberfläche von ChatGPT ist im Wesentlichen nur eine Ladeleiste.

Der Berichtston unterscheidet sich erheblich, wobei die Berichte von Gemini akademischen Arbeiten ähneln und die von ChatGPT Forenbeiträgen ähneln.

Bildgenerierung: Ein visueller Vergleich

Die Bildgenerierung ist ein weiteres wichtiges Merkmal von KI-Chatbots. Die Tests konzentrieren sich auf fotorealistische und komplexe Illustrationen.

Bei der fotorealistischen Bildgenerierung generiert Gemini schnell und visuell ansprechende Bilder, die jedoch Fehler enthalten können.

Bei komplexen Illustrationen ist der Comic von Gemini tendenziell inkohärent, während der Comic von ChatGPT seinem Ziel näher kommt.

Bei der Generierung technischer Diagramme erstellt ChatGPT äußerst genaue Diagramme, was seine Stärke untermauert.

Videogenerierung: Ein aufstrebendes Feld

Die KI-Videogenerierung ist ein zunehmend gängiges Merkmal. Gemini verfügt über das Flow-Filmemacher-Tool, das Veo 3-Videogenerierungsmodell und den Whisk AI-Animator. Seine Fähigkeit, Videos mit Audio zu generieren, unterscheidet es von der Sora-Videogenerierung von ChatGPT, obwohl es exklusiv für AI Ultra-Abonnenten verfügbar ist.

Veo 3 stellt einen bedeutenden Fortschritt dar, erfordert jedoch eine sorgfältige Promptkalibrierung. Jede Generation benötigt 150 Credits (12.500 Credits pro Monat mit AI Ultra).

Flow ermöglicht das Zuschneiden von Videoclips und das Erweitern basierend auf neuen Prompts. Mit genügend Credits könnte ein Film theoretisch vollständig mit Flow gemacht werden.

Mit Whisk, dem KI-Animationstool von Google, können Benutzer Bilder hochladen. Die Ergebnisse können amüsant sein, weisen aber Fehler und Verzerrungen auf.

Dateianalyse: Hochgeladene Inhalte verstehen

Gemini kann hochgeladene Dateien analysieren und verstehen, Lebensläufe kritisieren, Bilder interpretieren oder Texte übersetzen.

Bei der Bilderkennung werden Chatbots auf ihre Fähigkeit getestet, Komponenten in einem hochgeladenen Bild zu identifizieren. ChatGPT kann ein größeres Detailvolumen einbeziehen.

Bei der Dokumentenverarbeitung werden Chatbots beauftragt, Fragen zu beantworten, die ausschließlich auf hochgeladenen Dokumenten basieren. Sowohl Gemini als auch ChatGPT liefern korrekte Antworten, bei hochgeladenen Dateien ist jedoch Vorsicht geboten. ChatGPT kann einen leichten Vorteil bei der Verarbeitung von Dateien gegenüber Gemini haben, aber es ist ein geringer Vorsprung.

Kreatives Schreiben: Gedichtgenerierung

KI-Chatbots können beim kreativen Schreiben helfen, einschließlich Witzen, Monologen und Gedichten.

Wenn es darum geht, ein Gedicht in freier Form zu schreiben, hält sich ChatGPT genauer an die Anweisungen. Das Gedicht von Gemini verwendet keine Interpunktion, während sich das Gedicht von Copilot mit seinen Zeilenumbrüchen mangelhaft anfühlt.

Komplexe Schlussfolgerungen: Prüfungsfragen

Komplexe Schlussfolgerungen werden getestet, indem Chatbots mit Bachelor-Prüfungsfragen in Informatik, Mathematik und Physik konfrontiert werden.

Chatbots schneiden sehr gut ab und beantworten alle Physikfragen effektiv. ChatGPT liefert insgesamt die wenigsten falschen Antworten.

Gemini in Chrome: Nahtlose Integration

Chrome integriert jetzt Gemini. Benutzer mit einem kostenpflichtigen Konto können auf das Gemini-Symbol klicken, um ein Chatfenster zu öffnen, wie gewohnt mit Gemini zu interagieren und den Inhalt des aktiven Tabs abzufragen. Die Gemini-Integration in Chrome ermöglicht es Benutzern, die Notwendigkeit zu beseitigen, einen neuen Tab zu öffnen, um Gemini etwas über eine Funktionalität zu fragen, die Copilot Vision in Edge ähnelt, obwohl die Live-Funktion von Gemini in seiner Web-Oberfläche nicht verfügbar ist.

Textantworten sind beeindruckend schnell. Die Reaktionsgeschwindigkeit lässt mich fragen, ob Gemini gewissermaßen Zugriff auf Webseiten hat, bevor Sie sie mit ihm teilen.

Obwohl Gemini in Chrome einige Einschränkungen hat; Gemini kann Videos nicht verstehen, und Antworten mit Live sind nicht ganz so knackig wie über Text, ist es insgesamt nützlich, da es die Notwendigkeit des Kopierens und Einfügens eliminiert. Wenn Sie Gemini jedoch nicht ständig verwenden, ist die Zeitersparnis, es mit einem Klick zur Verfügung zu haben, möglicherweise keine große Sache. Die Live-Funktionalität ist ähnlich hilfreich, da ich Fragen zu dem stellen kann, was ich mir ansehe, ohne eine Tastatur berühren zu müssen.

Gemini in Chrome hat einige Einschränkungen, was es anzeigen und verstehen kann. Infolgedessen kann sich Gemini aufdringlich anfühlen. Gemini kann Fragen zu bestimmten Tabs anzeigen und beantworten, sobald Sie sie freigeben.

Google Apps-Integration: Erhöhte Produktivität

AI Pro-Plan-Abonnenten erhalten KI-Funktionen in allen Google-Apps, einschließlich Kalender, Docs, Drive, Gmail, Maps, Keep, Fotos, Tabellenkalkulationen und YouTube Music.

Google hebt die Integrationen auf der eigenen Website von Gemini hervor. Sie können Ereignisse zu Google Kalender basierend auf einem Flyer hinzufügen, Einkaufslisten in Google Keep erstellen oder Gemini Playlists in YouTube Music erstellen lassen. Gemini in Docs, Gmail, Tabellenkalkulationen und Präsentationen spiegeln Copilot in Microsoft 365-Apps wider, erstellen Folien basierend auf Prompts, entwerfen E-Mails, generieren Text und schlagen Formeln vor.

Gemini in Gmail sticht hervor und gewährt Gemini vollen Zugriff auf Ihre E-Mail-Historie, sodass es nach bestimmten Informationen suchen oder Ratschläge zur Postfachbereinigung geben kann. Es ist jedoch keine allmächtige Funktion. Gemini kann nicht alles tun. Diese Integration fühlt sich wie eine Verletzung der Privatsphäre an.

Abhängig vom Grad, in dem Sie die verfügbaren Integrationen von Gemini nutzen, gibt es möglicherweise keine, die Ihre spezifischen Anforderungen erfüllen. Es kann jedoch aufgrund der vielfältigen Funktionen von Vorteil sein.

Gems: Benutzerdefinierte KI-Experten

Gems sind benutzerdefinierte Versionen von Gemini, die auf bestimmte Zwecke zugeschnitten sind. Kursleiter können Dateien hinzufügen und einen PC Builder Gem erstellen, um Erstkäufern von Computern zu helfen.

Die Antworten unterscheiden sich geringfügig von der Kommunikation mit Gemini. Wer vorhat, mit Gemini über ein bestimmtes Thema zu sprechen, kann einen Gem erstellen. Gems scheinen das Versprechen von Google jedoch nicht wirklich zu erfüllen.

Sicherheit und Datenschutz

Gemini ist nicht bewusst und kann nicht wie ein Mensch denken oder Dinge verstehen.

Inhalte für Erwachsene, illegale Aktivitäten, realistische Bilder von Menschen und Tabuthemen verstoßen gegen die Richtlinien von Gemini. Gemini ist am wenigsten streng mit seinem Filtersystem.

Gemini hat ein Kontextfenster. Das Kontextfenster von Gemini in seinem AI Pro-Plan kann mit Paid bis zu 1.500 Textseiten oder 30.000 Codezeilen gleichzeitig verarbeiten. Abonnenten stoßen möglicherweise auf Hindernisse, wenn die kostenlose Version ausgiebig verwendet wird.

Google erfasst Daten, wenn Sie Gemini verwenden, einschließlich Dateien, Standortinformationen, Produktnutzung und Chats. Diese Daten werden verwendet, um Google-Produkte und Technologien des maschinellen Lernens zu verbessern.

Benutzer können Gemini-App-Aktivitäten deaktivieren. Standardmäßig speichert Google Chatdaten für 18 Monate.

Wie für die Google Workspace-Integrationen von Gemini, z. B. in Gmail, Docs, Drive, Tabellenkalkulationen und Präsentationen, verspricht Google, keine trainierten Modelle zu verwenden, diese zu verkaufen oder für zielgerichtete Anzeigen zu verwenden.

Google hat in der Vergangenheit Probleme erlebt, darunter böswillige Akteure, die Google Chrome-Fehler ausgenutzt haben, italienische Aufsichtsbehörden, die Google wegen seiner Datenpraktiken zitiert haben, und Datenerfassung ohne Zustimmung, die zu Verlusten in Milliardenhöhe geführt hat. Daher wird empfohlen, keine sensiblen Daten freizugeben.