02. Oktober, 2024

KI

OpenAI startet Echtzeit-Sprachassistenz für Entwickler

OpenAI startet Echtzeit-Sprachassistenz für Entwickler

OpenAI ermöglicht es ab sofort Unternehmen und Entwicklern, seinen Echtzeit-Sprachassistenten in eigene Anwendungen zu integrieren. Dies ebnet den Weg für realistische Sprachinteraktionen mit einem KI-System für eine Vielzahl von Aufgaben. Die neue Funktion wurde auf der Entwicklerkonferenz von OpenAI in San Francisco vorgestellt.

Ab heute steht diese Funktion über die OpenAI-API zur Verfügung, was es Firmen ermöglicht, Anwendungen wie sprachbasierte Kundenservice-Bots oder Reise-Apps, die Anrufe im Namen der Nutzer tätigen, zu entwickeln. Erste Unternehmen wie die Gesundheits-Coaching-App Healthify und die Sprachlern-App Speak testen bereits die neue Fähigkeit.

Die Sprachintegration ist eine von mehreren Neuerungen, die OpenAI auf dem Event ankündigt. Es handelt sich um eine strategische Maßnahme, um sich in einem zunehmend umkämpften Markt für KI-Software zu behaupten und um eine groß angelegte Finanzierungsrunde abzuschließen. Bemerkenswert ist, dass mehrere Führungskräfte, einschließlich der Chief Technology Officer Mira Murati, kürzlich ihre geplante Abreise angekündigt haben.

Im Gegensatz zum letzten Jahr, als OpenAI ein neues KI-Modell eingeführt hat, liegt der Schwerpunkt diesmal auf verbesserten API-Funktionen und dem Austausch mit rund 3 Millionen Entwicklern weltweit. Insgesamt sollen drei Events stattfinden, die nächsten Stationen sind London und Singapur.

Im Vorfeld der Konferenz demonstrierte OpenAI die Sprachfunktion an einer fiktiven Reise-App. Romain Huet, Verantwortlicher für die Entwickler-Erfahrung bei OpenAI, ließ die App ein gefälschtes Geschäft namens Ilan's Strawberries anrufen und 400 schokoladenüberzogene Erdbeeren für unter 1.500 Dollar bestellen. Die App tätigte den Anruf über eine API des Cloud-Kommunikationsunternehmens Twilio, und Huet simulierte den Empfang des Anrufs.

Bemerkenswert ist, dass die vorgeführte Stimme sich nicht als KI ausgab, was Bedenken hinsichtlich Transparenz und Datenschutz aufwirft. OpenAI erklärte, dass es keine festen Vorgaben zur Offenlegung gibt, aber die Nutzungsrichtlinien verlangen, dass Nutzer im Allgemeinen informiert werden müssen, es sei denn, der KI-Charakter des Gesprächs ist offensichtlich.

Bereits im Mai hatte OpenAI eine Echtzeit-Sprachfunktion für ChatGPT angedeutet, jedoch im darauffolgenden Monat die Markteinführung aufgrund von Sicherheitsbedenken verzögert. Besonders wurde darauf hingewiesen, dass das System nicht die Stimmen anderer Personen imitieren kann und neue Filter eingebaut wurden, um urheberrechtlich geschützte Inhalte zu erkennen und abzulehnen.

Im Juli erhielten erste ChatGPT Plus-Kunden Zugang zur Funktion, und seit dem letzten Monat wird sie für alle zahlenden ChatGPT-Nutzer ausgerollt.