OpenAI hat die langerwartete Echtzeit-Video-Funktion für ChatGPT offiziell freigegeben, sieben Monate nachdem diese erstmals demonstriert wurde. Bei einer Livestream-Präsentation präsentierte das Unternehmen das neue Feature „Advanced Voice Mode“ mit visuellen Fähigkeiten. Nutzer von ChatGPT Plus, Team oder Pro können ab sofort ihre Smartphones auf Objekte richten und erhalten von ChatGPT nahezu in Echtzeit Antworten.
Mit der neuen Funktion kann ChatGPT nicht nur echte Objekte erkennen, sondern auch Inhalte auf dem Bildschirm eines Geräts analysieren und beschreiben. Dies kann beispielsweise Erklärungen zu verschiedenen Menüeinstellungen oder Lösungsvorschläge bei mathematischen Problemen umfassen.
Der Zugang zu Advanced Voice Mode mit visuellen Fähigkeiten erfolgt über ein Antippen des Sprachsymbols neben der Chatleiste und anschließend das Videosymbol unten links. Um Inhalte zu teilen, kann der Bildschirm mittels Auswahl über das Drei-Punkte-Menü freigegeben werden.
Allerdings schlägt nicht jeder Nutzer in den Genuss dieser neuen Möglichkeiten. Während die Einführung der Funktion bereits begonnen hat, müssen sich ChatGPT Enterprise- und Edu-Abonnenten bis Januar gedulden. Nutzer aus der EU, der Schweiz, Island, Norwegen und Liechtenstein müssen ebenso auf unbestimmte Zeit warten.
Ein öffentlichkeitswirksamer Test des neuen Features wurde kürzlich in der Sendung „60 Minutes“ auf CNN gezeigt, als OpenAI-Präsident Greg Brockman Anderson Cooper mit einer anatomischen Zeichnungsaufgabe herausforderte. ChatGPT erkannte die Skizzen sofort, offenbarte jedoch auch Schwächen bei mathematischen Aufgabenstellungen, was auf mögliche Ungenauigkeiten hinweist.
Ursprünglich sollte die Funktion bereits im Frühjahr verfügbar sein, wurde jedoch mehrfach verschoben. Als die Voice-Only-Version im Herbst für einige Nutzer veröffentlicht wurde, fehlte die visuelle Komponente noch. Während OpenAI seine Bemühungen verstärkt, haben auch Konkurrenten wie Google und Meta ähnliche Technologien in der Entwicklung. Gerade erst hat Google sein Projekt „Astra“, eine Echtzeit-Videoanalyse-AI, für ausgewählte Tester auf Android verfügbar gemacht.