Googles neue Roboter-KI: Geschicklichkeit

Die Suche nach verkörperter KI: Ein ehrgeiziges Ziel

Seit Jahren verfolgt die Robotikindustrie das schwer fassbare Ziel der ‘verkörperten KI’ – die Schaffung künstlicher Intelligenz, die in der Lage ist, Roboter autonom durch eine Vielzahl neuartiger und unvorhersehbarer Szenarien zu steuern, und das alles unter Wahrung von Sicherheit und Präzision. Dieses Bestreben, das von Unternehmen wie Nvidia aktiv verfolgt wird, bleibt ein ‘heiliger Gral’ mit dem Potenzial, Roboter in vielseitige Arbeitskräfte zu verwandeln, die in der Lage sind, eine breite Palette von Aufgaben in der realen Welt zu erledigen.

Gemini Robotics: Aufbauend auf einer Grundlage aus Sprache und Vision

Googles neue Modelle nutzen die Leistungsfähigkeit des großen Sprachmodells Gemini 2.0 und erweitern seine Fähigkeiten, um die spezifischen Anforderungen von Roboteranwendungen zu erfüllen. Gemini Robotics beinhaltet das, was Google als ‘Vision-Language-Action’ (VLA)-Fähigkeiten bezeichnet. Dies ermöglicht es dem Modell, visuelle Eingaben zu verarbeiten, Befehle in natürlicher Sprache zu interpretieren und diese Eingaben in präzise physische Bewegungen zu übersetzen. Im Gegensatz dazu konzentriert sich Gemini Robotics-ER auf ‘Embodied Reasoning’ und verfügt über ein verbessertes räumliches Verständnis, das eine nahtlose Integration mit bestehenden Robotersteuerungssystemen ermöglicht.

Vom Verstehen zum Handeln: Eine neue Ära der Geschicklichkeit

Die praktischen Auswirkungen dieser Fortschritte sind tiefgreifend. Stellen Sie sich vor, Sie weisen einen mit Gemini Robotics ausgestatteten Roboter an: ‘Nimm die Banane und lege sie in den Korb.’ Der Roboter würde mithilfe seiner kamerabasierten Sicht die Banane identifizieren und seinen Roboterarm geschickt führen, um die Aufgabe auszuführen. Oder betrachten Sie den Befehl: ‘Falte einen Origami-Fuchs.’ Der Roboter würde, gestützt auf sein Wissen über Origami und die filigrane Kunst des Papierfaltens, die komplizierte Aufgabe akribisch ausführen.

Im Jahr 2023 markierte Googles RT-2-Modell einen bedeutenden Schritt in Richtung generalisierter Roboterfähigkeiten. Durch die Nutzung von Internetdaten ermöglichte RT-2 Robotern, Sprachbefehle zu verstehen und sich an neue Situationen anzupassen, wodurch die Leistung bei ungesehenen Aufgaben im Vergleich zu seinem Vorgänger verdoppelt wurde. Zwei Jahre später scheint Gemini Robotics einen weiteren wesentlichen Sprung gemacht zu haben, der über das bloße Verstehen hinausgeht und die Ausführung komplexer physischer Manipulationen umfasst, die explizit außerhalb der Reichweite von RT-2 lagen.

Während RT-2 darauf beschränkt war, zuvor geübte physische Bewegungen wiederzuverwenden, zeigt Gemini Robotics Berichten zufolge eine bemerkenswerte Verbesserung der Geschicklichkeit. Diese neu gewonnene Geschicklichkeit ermöglicht bisher unerreichbare Aufgaben, wie die filigrane Kunst des Origami-Faltens und das präzise Verpacken von Snacks in Zip-Loc-Beutel. Dieser Übergang – von Robotern, die lediglich Befehle verstehen, zu Robotern, die in der Lage sind, filigrane physische Aufgaben auszuführen – deutet darauf hin, dass DeepMind möglicherweise kurz davor steht, eine der hartnäckigsten Herausforderungen in der Robotik zu lösen: Roboter in die Lage zu versetzen, ihr ‘Wissen’ in sorgfältige, präzise Bewegungen in der realen Welt umzusetzen.

Generalisierung: Der Schlüssel zur Anpassungsfähigkeit in der realen Welt

DeepMind betont, dass das neue Gemini Robotics-System eine deutlich verbesserte Generalisierung zeigt – die Fähigkeit, neuartige Aufgaben auszuführen, für die es nicht explizit trainiert wurde. Dies ist ein entscheidender Fortschritt. Laut der Ankündigung des Unternehmens ‘übertrifft Gemini Robotics die Leistung anderer hochmoderner Vision-Language-Action-Modelle in einem umfassenden Generalisierungs-Benchmark um mehr als das Doppelte’.

Generalisierung ist von größter Bedeutung, da Roboter, die sich an neue Szenarien anpassen können, ohne für jede Situation ein spezifisches Training zu benötigen, der Schlüssel für einen effektiven Betrieb in unvorhersehbaren realen Umgebungen sind. Diese Anpassungsfähigkeit unterscheidet einen spezialisierten, aufgabenspezifischen Roboter von einer wirklich vielseitigen und anpassungsfähigen Maschine.

Ein generalistisches Robotergehirn: Googles ehrgeizige Vision

Googles Bemühungen zielen eindeutig darauf ab, ein ‘generalistisches Robotergehirn’ zu schaffen – eine vielseitige KI, die in der Lage ist, eine breite Palette von Roboterplattformen zu steuern. Im Einklang mit dieser Vision hat das Unternehmen eine Partnerschaft mit Apptronik, einem führenden Robotikunternehmen, angekündigt, um ‘die nächste Generation humanoider Roboter mit Gemini 2.0 zu bauen’.

Obwohl Gemini Robotics hauptsächlich auf einer bimanuellen Roboterplattform namens ALOHA 2 trainiert wurde, gibt Google an, dass es die Vielseitigkeit besitzt, verschiedene Robotertypen zu steuern. Dazu gehören forschungsorientierte Franka-Roboterarme und anspruchsvollere humanoide Systeme wie der Apollo-Roboter von Apptronik. Diese Anpassungsfähigkeit unterstreicht das Potenzial von Gemini Robotics, ein universelles ‘Gehirn’ für eine breite Palette von Roboteranwendungen zu werden.

Die Landschaft der humanoiden Robotik: Hardware und Software konvergieren

Das Streben nach humanoider Robotik ist ein kollaboratives Unterfangen, bei dem zahlreiche Unternehmen zu verschiedenen Aspekten der Herausforderung beitragen. Unternehmen wie Figure AI und Boston Dynamics (ehemals eine Alphabet-Tochtergesellschaft) haben fleißig an der Entwicklung fortschrittlicher humanoider Roboterhardware gearbeitet. Ein wirklich effektiver KI-‘Treiber’ – die Softwarekomponente, die diesen Robotern Intelligenz und Autonomie verleiht – blieb jedoch ein entscheidendes fehlendes Teil.

Googles Bemühungen in diesem Bereich gewinnen an Fahrt. Das Unternehmen hat führenden Robotikunternehmen, darunter Boston Dynamics, Agility Robotics und Enchanted Tools, über ein ‘Trusted Tester’-Programm eingeschränkten Zugriff auf Gemini Robotics-ER gewährt. Dieser kollaborative Ansatz deutet auf eine konzertierte Anstrengung hin, die Entwicklung und den Einsatz wirklich leistungsfähiger humanoider Roboter zu beschleunigen.

Sicherheit geht vor: Ein mehrschichtiger Ansatz für verantwortungsvolle Robotik

Google erkennt die überragende Bedeutung der Sicherheit in der Robotik an und betont einen ‘mehrschichtigen, ganzheitlichen Ansatz’, der traditionelle Robotersicherheitsmaßnahmen beinhaltet. Diese Maßnahmen umfassen Kollisionsvermeidung und Kraftbegrenzungen, um sicherzustellen, dass Roboter innerhalb sicherer Parameter arbeiten.

Darüber hinaus beschreibt das Unternehmen die Entwicklung eines ‘Robot Constitution’-Frameworks. Dieses Framework, inspiriert von Isaac Asimovs drei Gesetzen der Robotik, bietet eine Reihe von Leitprinzipien für die ethische und sichere Entwicklung und den Einsatz von Robotern. In Verbindung mit diesem Framework hat Google einen Datensatz mit dem treffenden Namen ‘ASIMOV’ veröffentlicht, der Forschern helfen soll, die Sicherheitsauswirkungen von Roboteraktionen zu bewerten.

Der ASIMOV-Datensatz: Standardisierung der Sicherheitsbewertung

Der ASIMOV-Datensatz stellt Googles Bestreben dar, standardisierte Methoden zur Bewertung der Robotersicherheit zu etablieren, die über die Verhinderung von körperlichem Schaden hinausgehen. Der Datensatz soll Forschern helfen zu bewerten, wie gut KI-Modelle die potenziellen Folgen der Aktionen eines Roboters in verschiedenen Szenarien verstehen. Laut Googles Ankündigung wird der Datensatz ‘Forschern helfen, die Sicherheitsauswirkungen von Roboteraktionen in realen Szenarien rigoros zu messen’. Diese Initiative unterstreicht Googles Engagement für verantwortungsvolle Innovation im Bereich der Robotik.

Die Zukunft der Robotik: Ein Blick in die Möglichkeiten

Obwohl Google noch keine konkreten Zeitpläne oder kommerziellen Anwendungen für die neuen KI-Modelle angekündigt hat, die sich derzeit noch in einer Forschungsphase befinden, sind die gezeigten Fortschritte unbestreitbar signifikant. Die von Google veröffentlichten Demo-Videos zeigen bemerkenswerte Fortschritte bei KI-gesteuerten Fähigkeiten. Es ist jedoch wichtig anzuerkennen, dass diese Demonstrationen in kontrollierten Forschungsumgebungen durchgeführt wurden. Der wahre Test dieser Systeme wird darin bestehen, ob sie in der Lage sind, in den unvorhersehbaren und dynamischen Umgebungen der realen Welt zuverlässig und sicher zu funktionieren.

Die Entwicklung von Gemini Robotics und Gemini Robotics-ER stellt einen entscheidenden Moment in der Evolution der Robotik dar. Diese Modelle haben das Potenzial, eine neue Ära der Geschicklichkeit, Anpassungsfähigkeit und Autonomie einzuleiten und den Weg für Roboter zu ebnen, sich nahtlos in unser Leben zu integrieren und zu einer Vielzahl von Aufgaben beizutragen. Während die Forschung voranschreitet und diese Technologien reifen, können wir eine Zukunft erwarten, in der Roboter eine immer wichtigere Rolle in unseren Häusern, Arbeitsplätzen und Gemeinschaften spielen. Die Reise zur wirklich verkörperten KI ist noch nicht abgeschlossen, aber Googles neueste Fortschritte bieten einen überzeugenden Einblick in die aufregenden Möglichkeiten, die vor uns liegen. Die Verschmelzung von ausgefeilter Hardware und immer intelligenterer Software ist bereit, die Robotiklandschaft zu verändern und uns einer Zukunft näher zu bringen, in der Roboter nicht nur Werkzeuge, sondern vielseitige Partner in unserem täglichen Leben sind.