Neue Version von ChatGPT kann sprechen
OpenAIs Sprach-KI bekommt neue Funktionen. GPT-4o kann nun Unterhaltungen führen, Emotionen nachahmen, übersetzen – und singen.
Inhaltsverzeichnis
OpenAI hat eine neue Version seiner Sprach-KI ChatGPT vorgestellt. Die verfügt nun über futuristische Features wie eine Sprachausgabe, die Emotionen simuliert oder eine natürlich gesprochene Übersetzungsfunktion. Technisch beeindruckt die neueste Generation, die auf den Namen GPT-4o hört, mit einer extrem kurzen Reaktionszeit. Kamen Sprachassistentin wie Amazons Alexa oder Apples Siri nach Aufforderung noch ins Grübeln, ehe sie antworteten, nähert sich der Austausch mit GPT-4o einem natürlichen Gespräch immer mehr an.
Neue Version von GPT-4o kann auf Kommando mitfühlen
Bei der Präsentation übertrug die KI Englisch fließend ins Italienische und konnte zwischen einer anteilnehmenden Stimmlage und einem erregten Redefluss variieren. Außerdem kann die OpenAI-KI nun auch Informationen der Smartphone-Kamera verarbeiten. Das kann so manchem Schüler nützlich werden. In der Demo zeigten die GPT-4o-Macher nämlich, wie ihr Algorithmus mathematische Gleichungen via Kamera erfassen und lösen kann. Auf Wunsch hält die KI das Rechenergebnis auch zurück und gibt nur Tipps für den richtigen Lösungsweg. Die Kamera verfolgt dabei jeden Schritt des Anwenders und greift entsprechend korrigierend ein. Die KI soll auch Emotionen von den Gesichtern der Nutzer ablesen können. In der Demo funktionierte das einigermaßen. Ob GPT-4o den Gesichtsausdruck rechnender Teenager richtig deuten kann und vielleicht sogar tröstende Worte für frustrierte Schüler findet, bleibt aber abzuwarten.
GPT-4o wird auch in der Gratisversion nutzbar sein
Von den Fähigkeiten GPT-4os können sich schon bald alle Anwender überzeugen. Denn die neuen Funktionen werden für angemeldete Nutzer gratis verfügbar sein. Mit einem Roll-out ist in den kommenden Wochen zu rechnen. Dann kann die KI auch beim Vorlesen von Texten auf Wunsch das Tempo und die Spannung erhöhen oder den Vortrag eher einschläfernd gestalten. Genau das war ein weiterer Anwendungsfall, der in der Präsentation vorgestellt wurde. Die KI erfand eine Gute-Nacht-Geschichte und trug sie dann vor. Auf Kommando konnte sie den Text sogar singen.
Auch Googles Gemini soll Sprachausgabe und Kamera nutzen
OpenAI-Chef Sam Altman sprach davon, die KI werde Milliarden von Menschen bedienen und es würden jede Menge Anwendungen entstehen, mit denen sich Geld verdienen lasse. Bislang hat ChatGPT etwa 100 Mio. Nutzer. Ob GPT-4o tatsächlich der große Wurf gelungen ist, wird sich auch im Vergleich mit der Konkurrenz zeigen. Googles KI Gemini soll in der nächsten Version ebenfalls gesprochene und visuelle Informationen verarbeiten können.