ChatGPT enthüllt Upgrades mit Sprach- und Bildintegration
OpenAI hat kürzlich Erweiterungen für ChatGPT vorgestellt, die Sprachbefehle und Bilderkennung einführen, um den Nutzern ein personalisiertes Erlebnis zu bieten.
Ein wichtiges Highlight ist die Sprachinteraktion, die von einem Text-to-Speech-Modell und Whisper, dem Spracherkennungssystem von OpenAI, unterstützt wird.
Um potenziellen Missbrauch einzudämmen, sind die Sprachfunktionen zunächst auf die Voice-Chat-Plattform von OpenAI begrenzt. Die Plattform arbeitet mit professionellen Synchronsprechern, um die Authentizität und Sicherheit der Stimme zu erhöhen. Bildübermittlungen an ChatGPT sind ebenfalls möglich, obwohl Bedenken hinsichtlich des Datenschutzes dazu führen, dass Aussagen über Personen nur eingeschränkt möglich sind.
OpenAI erkennt die Möglichkeit von Betrug und Nachahmung an und begegnet diesen Risiken durch eine sorgfältige Implementierung von Sprachfunktionen.
Sie nennen dazu ein Beispiel: Spotify, das Sprachfunktionen nutzt, um Podcasts in verschiedene Sprachen zu übersetzen, wobei die Stimme des ursprünglichen Moderators erhalten bleibt.
LESEN SIE WEITER: Amazon investiert 4 Milliarden Dollar in KI-Startup
Die Antworten von ChatGPT sind vielleicht nicht immer völlig korrekt, aber sie bieten wertvolle allgemeine Bildbeschreibungen, wie ihre Arbeit mit Be My Eyes, einer App für Sehbehinderte, zeigt.
OpenAI plant, diese Funktionen innerhalb von zwei Wochen für ChatGPT Plus und Enterprise-Abonnements einzuführen. Die Sprachfunktionen werden auf iOS und Android als Opt-in-Funktion verfügbar sein, während die Bildfunktionen auf allen Plattformen zugänglich sein werden.
Diese Entwicklungen stellen einen bedeutenden Schritt nach Vorne bei der Verbesserung der Fähigkeiten und der Benutzererfahrung von ChatGPT dar.