Warum KI unsere Sprache gefährdet
Martin Eisenlauer beschreibt sich selbst als Nerd. In seiner Kolumne für VDI nachrichten verspricht der erfahrene Techredakteur, die skurrilen und häufig missverstandenen Aspekte der technologischen Welt auf humorvolle Art zu beleuchten.
Moderne Sprachmodelle wie ChatGPT, Gemini oder Mistral sind unglaublich mächtig. Die Systeme beantworten mühelos komplexe Fragen, erstellen umfangreiche Texte und das alles in nahezu beliebig vielen Sprachen – dachte ich.
Doch dann habe ich in der vergangenen Woche eine Mail bekommen, die mit den Worten „es ist uns mit Bedauern mitzuteilen“ begann. Zuerst habe ich mich über die ungelenke Formulierung gewundert, dann kam mir die Idee: Das wurde wahrscheinlich per KI aus dem Englischen übersetzt. Dort ist die Formulierung „It is with regret that we have to inform you“ durchaus gebräuchlich.
Seitdem verfolgen mich diese schlimmen Eindeutschungen englischer Formulierungen – oder vielleicht achte ich auch nur sensibler darauf. Mein Mailanbieter bietet mir die Option „stumm es für später“ und eine Webseite verweist auf ihre „Führungsnabe“ (immerhin hat das System bei der ersten Worthälfte noch die -ung-Variante gewählt), die doch eigentlich ein „Guide Hub“ sein sollte.
Früher steckten hinter schlechten Übersetzungen einfach schlechte Übersetzer. Heute sind es künstliche Intelligenzen, die ja gemeinhin immer besser werden. Also werden diese schlimmen Einenglischungen schon bald verschwunden sein? Wahrscheinlich nicht.
Das Problem ist nämlich weit mehr als die Kinderkrankheit einer neuen Technologie. Eine aktuelle Studie des AI Labs von Amazon Web Services kam zu dem Ergebnis, dass bereits über 57 % des Internets aus übersetztem Content besteht, der eindeutige Sprachparallelen mit dem Englischen aufweist – und dessen Qualität sich beständig verschlechtert, je weniger weit verbreitet die jeweilige Zielsprache ist.
So weit, so schlecht. Doch das ist erst der Anfang einer Todesspirale. Denn um Sprachmodelle zu trainieren, werden Milliarden von Datensätzen benötigt. So steht jetzt zu befürchten, dass die schlechten Übersetzungen wiederum zu Trainingsdaten werden und so das Problem weiter verschärfen.
Die Amazon-KI-Forscher sprechen von „schockierenden“ Ergebnissen ihrer Studie. Sie warnen, dass Massenübersetzungen aus dem Englischen nicht nur das Internet zumüllen. Die KI-Dolmetscher beschädigen auch zukünftige Qualität von Sprachmodellen in seltener gesprochenen Sprachen – und ja, dazu zählt global betrachtet auch Deutsch.
Programmierer kennen das Phänomen schon länger. Der Fachmann sagt: „Shit in, Shit out“. Eine Redewendung, die wir wahrscheinlich auch bald in holprig-deutschen Übersetzungen genießen dürfen. Wie oben schon geschrieben: Die neuen KI-Systeme liefern teils unglaubliche Ergebnisse. Leider.