Google's Gemini 2.0: Advancing AI Assistants for Everyday Tasks

Google hat angekündigt, dass die neue Generation ihres KI-Systems, genannt Gemini, in der Lage sein wird, als Assistent bestimmte Aufgaben eigenständig zu erledigen. Diese Ankündigung erfolgte zum Jahrestag der ersten Präsentation von Gemini in Mountain View. Ein Beispiel für die Möglichkeiten dieser KI-Agenten ist, dass sie Bauteile für ein Hobbyprojekt in Online-Stores finden und in den Warenkorb legen können. Der eigentliche Bestellvorgang muss jedoch weiterhin von der Nutzerin oder dem Nutzer durchgeführt werden.

Google-CEO Sundar Pichai erklärte, dass es bei der ersten Generation von Gemini darum ging, Informationen zu organisieren und zu verstehen. Mit Gemini 2.0 soll die KI jedoch viel nützlicher werden. Diese neuartigen KI-Assistenten sind Teil von Project Mariner, das mit der neuen KI-Generation umgesetzt wurde. Gemini 2.0 wurde für das Zeitalter der Agenten entwickelt, sagte Google-Managerin Tulsee Doshi. Das System kann intelligente Tools nutzen und direkt auf Google-Produkte wie die Suche zugreifen. Es kann sogar Programm-Code ausführen. Diese Fähigkeiten ermöglichen es den Agenten, zu denken, sich zu erinnern, zu planen und sogar im Namen der Nutzerinnen und Nutzer Maßnahmen zu ergreifen.

Mariner verhält sich genauso, wie es menschliche Nutzer in einem Browser tun würden, betonte Doshi. Es kann klicken, tippen und scrollen, genau wie ein Mensch. Dabei identifiziert das System jedoch auch Aufgaben, die der Agent nicht im Namen eines Nutzers übernehmen sollte. Ein gutes Beispiel hierfür ist, dass Mariner einen Kauf nicht abschließt, ohne den Nutzer zuvor zu fragen, ob er dies auch wirklich möchte. Mariner wird zuerst mit vertrauenswürdigen Testpersonen ausprobiert, bevor es einer größeren Öffentlichkeit zur Verfügung gestellt wird.

Im Rahmen von Project Astra treibt Google nun auf Basis von Gemini 2.0 ein Forschungsvorhaben zur Erkundung der Umgebung voran. Dieses wurde erstmals im vergangenen Frühjahr auf der Entwicklerkonferenz Google I/O vorgestellt. Künftig sollen die Nutzer nicht nur auf einem Smartphone nützliche Informationen eingeblendet bekommen, sondern auch auf einer smarten Brille. Diese Brille ähnelt der Ray-Ban-Brille vom Facebook-Konzern Meta, die Bauwerke oder Kunstwerke erkennen oder beim Kochen helfen kann.

Für Softwareentwickler, die auf Basis der Google-KI eigene Lösungen anbieten, ist vor allem die Systemvariante Gemini Flash relevant. Diese kann nicht nur auf großen Computern im Rechenzentrum laufen, sondern auch lokal auf Personal Computern oder bestimmten Smartphone-Modellen. Google präsentierte am 11. Dezember Gemini Flash 2.0, das eine verbesserte Leistung bei ähnlich schnellen Reaktionszeiten bietet.

Google setzt mit diesen Entwicklungen auf eine Zukunft, in der KI-Agenten den Nutzern helfen, alltägliche Aufgaben effizienter zu erledigen. Diese Fortschritte in der KI-Technologie könnten den Alltag der Menschen erheblich erleichtern, indem sie zeitaufwendige Aufgaben automatisieren und die Interaktion mit digitalen Geräten intuitiver gestalten.