Google Gemini: KI-Kraftpaket

Enthüllung von Gemini: Googles KI-Familie der nächsten Generation

Gemini ist Googles ambitionierter Vorstoß in die nächste Generation von KI-Modellen. Entwickelt durch die Zusammenarbeit von DeepMind und Google Research, Googles führenden KI-Forschungslabors, ist Gemini keine monolithische Einheit, sondern eine Familie von Modellen, die jeweils auf spezifische Aufgaben und Leistungsniveaus zugeschnitten sind. Diese Familie umfasst:

  • Gemini Ultra: Das Schwergewicht der Familie, konzipiert für hochkomplexe Aufgaben, die erhebliche Rechenleistung erfordern. (Derzeit nicht verfügbar)
  • Gemini Pro: Ein robustes Modell, kleiner als Ultra, aber in der Lage, eine breite Palette von Aufgaben zu bewältigen. Gemini 2.0 Pro, die neueste Iteration, ist derzeit Googles Flaggschiff.
  • Gemini Flash: Eine optimierte, “destillierte” Version von Pro, die Geschwindigkeit und Effizienz priorisiert.
  • Gemini Flash-Lite: Eine leicht reduzierte und schnellere Version von Gemini Flash.
  • Gemini Flash Thinking: Ein Modell, das “Reasoning”-Fähigkeiten demonstriert.
  • Gemini Nano: Bestehend aus zwei kompakten Modellen, Nano-1 und dem etwas leistungsstärkeren Nano-2, entwickelt für den Offline-Betrieb auf Geräten.

Ein entscheidendes Merkmal aller Gemini-Modelle ist ihre inhärente Multimodalität. Im Gegensatz zu Modellen, die ausschließlich auf Textdaten trainiert wurden, wie Googles LaMDA, sind die Gemini-Modelle in der Lage, verschiedene Datentypen zu verarbeiten und zu analysieren. Sie wurden auf einem riesigen Datensatz trainiert, der öffentliche, proprietäre und lizenzierte Audiodaten, Bilder, Videos, Codebasen und Texte in mehreren Sprachen umfasst.

Diese multimodale Natur ermöglicht es Gemini, die Beschränkungen von reinen Textmodellen zu überwinden. Während LaMDA auf textbasierte Eingabe und Ausgabe beschränkt ist, können Gemini-Modelle, insbesondere die neueren Versionen von Flash und Pro, nativ Bilder und Audio neben Text generieren.

Die ethischen und rechtlichen Implikationen des Trainings von KI-Modellen auf öffentlich zugänglichen Daten, oft ohne die ausdrückliche Zustimmung der Dateneigentümer, bleiben jedoch ein komplexes Thema. Obwohl Google eine KI-Schadensersatzrichtlinie anbietet, um bestimmte Google Cloud-Kunden vor potenziellen Klagen zu schützen, hat diese Richtlinie Einschränkungen. Benutzer, insbesondere diejenigen, die Gemini für kommerzielle Zwecke nutzen möchten, sollten Vorsicht walten lassen.

Gemini Apps vs. Gemini Modelle: Den Unterschied verstehen

Es ist wichtig, zwischen den Gemini-Modellen und den Gemini-Apps zu unterscheiden, die auf Web- und mobilen Plattformen verfügbar sind (früher bekannt als Bard).

Die Gemini-Apps fungieren als Clients, die sich mit verschiedenen Gemini-Modellen verbinden und eine benutzerfreundliche, Chatbot-ähnliche Oberfläche bieten. Sie dienen als Frontend für die Interaktion mit Googles generativen KI-Fähigkeiten.

Auf Android-Geräten ersetzt die Gemini-App die Google Assistant-App. Auf iOS fungieren die Google- und Google Search-Apps als Gemini-Clients.

Android-Benutzer können ein Gemini-Overlay aufrufen, um Fragen zu Inhalten zu stellen, die auf ihrem Bildschirm angezeigt werden, z. B. zu einem YouTube-Video. Dieses Overlay wird ausgelöst, indem man die Einschalttaste eines unterstützten Smartphones gedrückt hält oder den Sprachbefehl “Hey Google” verwendet.

Die Gemini-Apps sind vielseitig und akzeptieren Bilder, Sprachbefehle und Text als Eingabe. Sie können Dateien wie PDFs verarbeiten, die entweder direkt hochgeladen oder aus Google Drive importiert wurden, und Bilder generieren. Konversationen, die mit Gemini-Apps auf dem Handy gestartet wurden, werden nahtlos mit Gemini im Web synchronisiert, vorausgesetzt, der Benutzer ist im selben Google-Konto angemeldet.

Gemini Advanced: Premium-KI-Funktionen freischalten

Die Gemini-Apps sind nicht der einzige Zugang, um die Leistungsfähigkeit der Gemini-Modelle zu nutzen. Google integriert zunehmend Gemini-gestützte Funktionen in seine Kernanwendungen und -dienste, einschließlich Gmail und Google Docs.

Um diese Funktionen voll auszuschöpfen, benötigen Benutzer in der Regel den Google One AI Premium Plan. Dieser Plan, technisch gesehen eine Komponente von Google One, kostet 20 US-Dollar pro Monat und gewährt Zugriff auf Gemini innerhalb von Google Workspace-Anwendungen wie Docs, Maps, Slides, Sheets, Drive und Meet. Er schaltet auch “Gemini Advanced” frei und bietet Zugriff auf Googles anspruchsvollere Gemini-Modelle innerhalb der Gemini-Apps.

Gemini Advanced-Benutzer genießen zusätzliche Vorteile, wie z. B. vorrangigen Zugriff auf neue Funktionen und Modelle, die Möglichkeit, Python-Code direkt in Gemini auszuführen und zu ändern, und erweiterte Limits für NotebookLM, Googles Tool zur Umwandlung von PDFs in KI-generierte Podcasts. Eine kürzlich hinzugefügte Funktion in Gemini Advanced ist eine Speicherfunktion, die Benutzereinstellungen speichert und es Gemini ermöglicht, auf frühere Konversationen zu verweisen, um Kontext für aktuelle Interaktionen bereitzustellen.

Eine der überzeugendsten Funktionen, die exklusiv für Gemini Advanced verfügbar sind, ist “Deep Research”. Diese Funktion nutzt Gemini-Modelle mit erweiterten Reasoning-Fähigkeiten, um detaillierte Briefings zu generieren. Als Reaktion auf eine Aufforderung wie “Wie soll ich meine Küche umgestalten?” formuliert Deep Research einen mehrstufigen Forschungsplan, durchsucht das Web und erstellt eine umfassende Antwort.

Innerhalb von Gmail befindet sich Gemini in einem Seitenbereich und kann E-Mails verfassen und Nachrichten-Threads zusammenfassen. Ein ähnlicher Bereich erscheint in Docs und hilft beim Schreiben, Verfeinern und Brainstormen von Inhalten. In Slides generiert Gemini Folien und benutzerdefinierte Bilder. In Google Sheets hilft es bei der Datenverfolgung, Organisation und Formelerstellung.

Geminis Präsenz erstreckt sich auf Google Maps, wo es Bewertungen über lokale Unternehmen zusammenfasst und Empfehlungen anbietet, z. B. Vorschläge für Reiserouten für den Besuch einer fremden Stadt. Die Fähigkeiten des Chatbots umfassen auch Drive, wo er Dateien und Ordner zusammenfassen und prägnante Informationen über Projekte bereitstellen kann.

Gemini wurde kürzlich als KI-Schreibwerkzeug in Googles Chrome-Browser integriert. Dieses Tool kann verwendet werden, um völlig neue Inhalte zu erstellen oder vorhandenen Text umzuschreiben, wobei der Kontext der aktuellen Webseite berücksichtigt wird, um maßgeschneiderte Empfehlungen zu geben.

Über diese Kernanwendungen hinaus finden sich Spuren von Gemini in Googles Datenbankprodukten, Cloud-Sicherheitstools und App-Entwicklungsplattformen (einschließlich Firebase und Project IDX). Es unterstützt auch Funktionen in Apps wie Google Fotos (natürlichsprachliche Suchanfragen), YouTube (Brainstorming von Videoideen) und Meet (Übersetzung von Untertiteln).

Code Assist (früher Duet AI for Developers), Googles Suite von KI-gestützten Tools für die Code-Vervollständigung und -Generierung, stützt sich auf Gemini für rechenintensive Aufgaben. In ähnlicher Weise verwenden Googles Sicherheitsprodukte, wie Gemini in Threat Intelligence, Gemini, um potenziell bösartigen Code zu analysieren und natürlichsprachliche Suchen nach Bedrohungen und Indikatoren für eine Kompromittierung zu ermöglichen.

Gemini-Erweiterungen und Gems: Die KI-Erfahrung anpassen

Gemini Advanced-Benutzer haben die Möglichkeit, “Gems” zu erstellen, benutzerdefinierte Chatbots, die von Gemini-Modellen unterstützt werden und sowohl auf Desktop- als auch auf mobilen Plattformen zugänglich sind. Gems können aus natürlichsprachlichen Beschreibungen generiert werden, z. B. “Du bist mein Lauftrainer. Gib mir einen täglichen Laufplan”, und können mit anderen Benutzern geteilt oder privat gehalten werden.

Die Gemini-Apps können über “Gemini-Erweiterungen” in verschiedene Google-Dienste integriert werden. Diese Erweiterungen ermöglichen es Gemini, mit Drive, Gmail, YouTube und anderen Diensten zu interagieren, sodass es auf Fragen wie “Könntest du meine letzten drei E-Mails zusammenfassen?” antworten kann.

Gemini Live: In ausführliche Sprachgespräche eintauchen

“Gemini Live” bietet ein immersives Erlebnis, das es Benutzern ermöglicht, detaillierte Sprachgespräche mit Gemini zu führen. Diese Funktion ist in den Gemini-Apps auf Mobilgeräten und auf den Pixel Buds Pro 2 verfügbar, wo sie auch dann zugänglich ist, wenn das Telefon gesperrt ist.

Mit Gemini Live können Benutzer Gemini unterbrechen, während es spricht, um klärende Fragen zu stellen, und der Chatbot passt sich in Echtzeit an Sprachmuster an. Live ist auch als virtueller Coach konzipiert, der bei der Vorbereitung von Veranstaltungen, beim Brainstorming und bei anderen Aufgaben hilft. Zum Beispiel kann Live Fähigkeiten vorschlagen, die während eines Vorstellungsgesprächs hervorgehoben werden sollten, und Tipps für öffentliche Reden geben.

Gemini für Teenager: Eine maßgeschneiderte KI-Erfahrung für Schüler

Google bietet eine spezielle Gemini-Erfahrung, die auf jugendliche Schüler zugeschnitten ist.

Diese auf Teenager ausgerichtete Version von Gemini enthält “zusätzliche Richtlinien und Sicherheitsvorkehrungen”, einschließlich eines angepassten Onboarding-Prozesses und eines KI-Alphabetisierungsleitfadens. Abgesehen von diesen Modifikationen ähnelt es stark der Standard-Gemini-Erfahrung, einschließlich der Funktion “Double-Check”, die die Genauigkeit der Antworten von Gemini überprüft, indem sie Informationen im Web abgleicht.

Die Fähigkeiten der Gemini-Modelle erkunden

Die multimodale Natur der Gemini-Modelle ermöglicht es ihnen, eine breite Palette von Aufgaben auszuführen, von der Sprachtranskription bis zur Echtzeit-Bild- und Videobeschriftung. Viele dieser Fähigkeiten wurden bereits in Googles Produkte integriert, und weitere Fortschritte sind für die nahe Zukunft versprochen.

Es ist jedoch wichtig anzuerkennen, dass Google, wie seine Konkurrenten, einige der inhärenten Herausforderungen, die mit generativer KI-Technologie verbunden sind, wie z. B. kodierte Verzerrungen und die Tendenz, Informationen zu fabrizieren (Halluzinationen), noch nicht vollständig angegangen ist. Diese Einschränkungen sollten bei der Bewertung der Verwendung von Gemini berücksichtigt werden, insbesondere für kritische Anwendungen.

Gemini Pros Fähigkeiten

Google behauptet, dass sein neuestes Pro-Modell, Gemini 2.0 Pro, sein fortschrittlichstes Angebot für das Codieren und die Handhabung komplexer Prompts darstellt. 2.0 Pro übertrifft seinen Vorgänger, Gemini 1.5 Pro, in Benchmarks, die Programmierung, Reasoning, Mathematik und faktische Genauigkeit bewerten.

Innerhalb von Googles Vertex AI-Plattform können Entwickler Gemini Pro für spezifische Kontexte und Anwendungsfälle durch Feinabstimmung oder “Grounding” anpassen. Zum Beispiel kann Pro (zusammen mit anderen Gemini-Modellen) angewiesen werden, Daten von Drittanbietern wie Moody’s, Thomson Reuters, ZoomInfo und MSCI zu verwenden oder Informationen aus Unternehmensdatensätzen oder der Google-Suche anstelle seiner breiteren Wissensbasis zu beziehen. Gemini Pro kann auch mit externen, Drittanbieter-APIs verbunden werden, um bestimmte Aktionen auszuführen, z. B. die Automatisierung von Backoffice-Workflows.

Googles AI Studio-Plattform bietet Vorlagen für die Erstellung strukturierter Chat-Prompts mit Pro. Entwickler können den kreativen Bereich des Modells steuern, Beispiele bereitstellen, um Ton und Stil zu leiten, und die Sicherheitseinstellungen von Pro feinabstimmen.

Gemini Flash: Leichte Effizienz und Gemini Flash Thinkings Reasoning-Fähigkeiten

Gemini 2.0 Flash ist in der Lage, die Google-Suche und andere externe APIs zu nutzen. Obwohl es kleiner ist, übertrifft es einige der größeren 1.5-Modelle in Benchmarks, die Codierung und Bildanalyse messen. Als Derivat von Gemini Pro ist Flash auf Effizienz ausgelegt und zielt auf enge, hochfrequente generative KI-Aufgaben ab.

Google hebt die Eignung von Flash für Anwendungen wie Zusammenfassung, Chat-Anwendungen, Bild- und Videobeschriftung und Datenextraktion aus langen Dokumenten und Tabellen hervor. Gemini 2.0 Flash-Lite, eine kompaktere Iteration von Flash, übertrifft Gemini 1.5 Flash in der Leistung und behält gleichzeitig den gleichen Preis und die gleiche Geschwindigkeit bei, so Google.

Im Dezember des vergangenen Jahres stellte Google eine “denkende” Variante von Gemini 2.0 Flash vor, die mit “Reasoning”-Fähigkeiten ausgestattet ist. Dieses KI-Modell braucht ein paar Sekunden, um ein Problem rückwärts zu durchdenken, bevor es eine Antwort gibt, was seine Zuverlässigkeit potenziell erhöht.

Gemini Nano: KI-Leistung auf dem Gerät

Gemini Nano ist eine bemerkenswert kompakte Version von Gemini, die entwickelt wurde, um direkt auf kompatiblen Geräten zu arbeiten, wodurch die Notwendigkeit entfällt, Aufgaben an einen Remote-Server zu senden. Derzeit unterstützt Nano mehrere Funktionen auf dem Pixel 8 Pro, Pixel 8, Pixel 9 Pro, Pixel 9 und Samsung Galaxy S24, einschließlich Summarize in Recorder und Smart Reply in Gboard.

Die Recorder-App, mit der Benutzer Audio aufnehmen und transkribieren können, enthält eine Gemini-gestützte Zusammenfassungsfunktion für aufgezeichnete Gespräche, Interviews, Präsentationen und andere Audioschnipsel. Diese Zusammenfassungen werden auch ohne Netzwerkverbindung generiert, und im Interesse der Privatsphäre verlassen keine Daten das Gerät des Benutzers während des Prozesses.

Nano findet auch seinen Platz in Gboard, Googles Tastaturersatz, wo es Smart Reply unterstützt. Diese Funktion schlägt Antworten in Messaging-Apps wie WhatsApp vor und optimiert so Konversationen.

Eine zukünftige Iteration von Android soll Nano nutzen, um Benutzer während Telefongesprächen auf potenzielle Betrügereien aufmerksam zu machen. Die neue Wetter-App auf Pixel-Telefonen verwendet Gemini Nano, um personalisierte Wetterberichte zu generieren. Darüber hinaus verwendet TalkBack, Googles Barrierefreiheitsdienst, Nano, um akustische Beschreibungen von Objekten für Benutzer mit Sehbehinderungen zu erstellen.

Gemini Ultra: Warten auf seine Rückkehr

Gemini Ultra war in den letzten Monaten relativ wenig im Rampenlicht. Das Modell ist derzeit weder in den Gemini-Apps verfügbar, noch wird es auf Googles Gemini-API-Preisseite aufgeführt. Dies schließt jedoch nicht aus, dass Google Ultra in Zukunft wieder einführt.

Preisstruktur für die Gemini-Modelle

Gemini 1.5 Pro, 1.5 Flash, 2.0 Flash und 2.0 Flash-Lite sind über Googles Gemini-API für die Entwicklung von Anwendungen und Diensten zugänglich. Sie arbeiten auf Pay-as-you-go-Basis. Die Basispreise, ohne Add-ons, sind (Stand 22. Februar 2025):

  • Gemini 1.5 Pro: 1,25 $ pro 1 Million Eingabe-Token (für Prompts bis zu 128K Token) oder 2,50 $ pro 1 Million Eingabe-Token (für Prompts, die länger als 128K Token sind); 5 $ pro 1 Million Ausgabe-Token (für Prompts bis zu 128K Token) oder 10 $ pro 1 Million Ausgabe-Token (für Prompts, die länger als 128K Token sind)
  • Gemini 1.5 Flash: 7,5 Cent pro 1 Million Eingabe-Token (für Prompts bis zu 128K Token), 15 Cent pro 1 Million Eingabe-Token (für Prompts, die länger als 128K Token sind), 30 Cent pro 1 Million Ausgabe-Token (für Prompts bis zu 128K Token), 60 Cent pro 1 Million Ausgabe-Token (für Prompts, die länger als 128K Token sind)
  • Gemini 2.0 Flash: 10 Cent pro 1 Million Eingabe-Token, 40 Cent pro 1 Million Ausgabe-Token. Für Audio 70 Cent pro 1 Million Eingabe-Token.
  • Gemini 2.0 Flash-Lite: 7,5 Cent pro 1 Million Eingabe-Token, 30 Cent pro 1 Million Ausgabe-Token.

Token stellen unterteilte Einheiten von Rohdaten dar, wie z. B. die Silben “fan”, “tas” und “tic” im Wort “fantastic”. Eine Million Token entsprechen ungefähr 750.000 Wörtern. “Eingabe” bezieht sich auf Token, die in das Modell eingespeist werden, während “Ausgabe” Token bezeichnet, die vom Modell generiert werden.

Die Preise für 2.0 Pro müssen noch bekannt gegeben werden, und Nano befindet sich noch im Early Access.

Geminis mögliche Ankunft auf dem iPhone

Die Aussicht auf die Integration von Gemini in iPhones ist eine deutliche Möglichkeit.

Apple hat angedeutet, dass es Gespräche führt, um Gemini und andere Drittanbieter-Modelle potenziell für verschiedene Funktionen innerhalb seiner Apple Intelligence-Suite zu nutzen. Nach einer Keynote-Präsentation auf der WWDC 2024 bestätigte Apple SVP Craig Federighi Pläne zur Zusammenarbeit mit Modellen, einschließlich Gemini, verzichtete jedoch auf die Bekanntgabe weiterer Details.