Für Sie getestet: Live-Untertitel – Wie gut sind sie wirklich?

Wir haben für Sie insgesamt zehn moderne Untertitel Tools in unserem Büro bei optimalen akustischen Bedingungen getestet und sie haben bestens funktioniert. Im Alltag einer schwerhörigen Person sieht die Situation jedoch anders aus.

Von Menschen geschriebene Untertitel sind mittlerweile weit verbreitet. Etwa bei den Programmen der SRG oder an öffentlichen Anlässen. Wie schön wäre es, wenn man Untertitel auch im Alltag, bei Gesprächen, im Büro oder im Studium automatisch anzeigen lassen könnte? Die gute Nachricht: Es gibt heute bereits diverse Tools und Apps, die genau dies machen.

Wir haben insgesamt zehn solche Tools getestet und deren «Word Error Rate» (WER) gemessen, also wie viele Fehler das Tool macht. Je niedriger der Wert ist, desto genauer ist die Transkription. Dafür haben wir einen Text aus unserem Magazin Dezibel auf Hochdeutsch aufgenommen und allen Tools einmal vorgespielt. Einmal unter perfekten akustischen Bedingungen und einmal mit Hintergrundgeräuschen. Für alle Messungen wurde das gleiche externe Mikrofon verwendet.

Das beste Resultat insgesamt erzielte die Microsoft Teams Untertitelfunktion mit einer Word Error Rate (WER) von 2.3%, gefolgt von den Zoom Untertiteln (3.4%) und den Apple Live Untertiteln (3.8%).

Mit Hintergrundgeräuschen wird das Resultat deutlich schlechter. Mit englischsprachiger Musik im Hintergrund haben die Apple Live Untertitel (iPhone) mit 8.3% das beste Resultat erzielt, gefolgt von Android Live Transcribe (10.6%) und den PowerPoint-Untertiteln (11.7%). Die Transkription geschieht entweder On Device (keine Internetverbindung nötig) oder in der Cloud (Internetverbindung nötig). Eine lokale Transkription hat den Vorteil, dass die aufgenommenen Gespräche nicht auf einen Server geschickt werden, sondern komplett bei Ihnen bleiben.

ToolTranskriptionWord Error Rate (WER)
Optimale Bedingungen
Word Error Rate (WER )
mit Hintergrundgeräuschen
Apple Live-Untertitel (iPhone)On Device3.8%8.3%
Apple Live-Untertitel (MacBook)On Device3.8%14.7%
Android Live TranscribeOn Device5.7%10.6%
Windows Live CaptionOn Device7.2%22.6%
Apple Diktat (iPhone-Tastatur)On Device9.8%13.2%
MS Teams UntertitelCloud2.3%13.6%
Zoom UntertitelCloud3.4%22.6%
Google DiktierfunktionCloud6.8%15.5%
Word DiktierfunktionCloud7.2%25.2%
PowerPoint UntertitelCloud7.5%11.7%

Alle Resultate als Liste finden Sie hier.

Gravierende Fehler

Auf den ersten Blick erscheinen die Zahlen ausgesprochen gut. Allerdings erzählen sie auch eine unvollständige Geschichte und täuschen eine falsche Korrektheit vor. Die Tools machen zwar nicht mehr so viele Fehler wie früher, aber sie machen kritischere Fehler als eine menschliche Person. Einige Beispiele:

«Er macht alle im Team auf seine Hörhilfen aufmerksam»
wird transkribiert zu
«Er macht alle intim auf seine Hörhilfen aufmerksam»

«Das Restgehör war weg»
wird transkribiert zu
«Das Restgehirn war weg»

Es ist selbsterklärend, dass solche Fehler nicht passieren dürfen, weder am Fernsehen noch in der Transkription eines Events oder während des Studiums.

Im Alltag herrschen keine optimalen Bedingungen

Die angegebenen Werte sind im Alltag nicht erreichbar. Der Sprecher müsste dazu jederzeit direkt (20cm Entfernung) in ein qualitativ hochstehendes Mikrofon sprechen, um möglichst viele Störgeräusche auszublenden. In einer Gruppendiskussion müsste das Mikrofon dauernd weitergereicht werden. Es darf pro Mikrofon nur immer eine Person sprechen, sonst funktioniert das Tool nicht mehr. Auch wenn zu schnell, zu undeutlich oder in einem Dialekt gesprochen wird, funktionieren die Untertitel nur noch beschränkt oder gar nicht mehr.

Hintergrundgeräusche: Musik wird gefiltert, Stimmen nicht

Moderne Tools sind verhältnismässig gut im Herausfiltern von Hintergrundgeräuschen wie z.B. Musik. Wird im Hintergrund auf Englisch gesungen, hatten wir eine Verschlechterung der Transkription. Wird im Hintergrund auf Deutsch gesungen oder wird in der Nähe laut gesprochen, funktioniert das Tool praktisch nicht mehr. Es kann die Stimmen nicht auseinanderhalten.

Schweizerdeutsch ist noch schwierig

Einige Tools, wie die Apple Live Untertitel, beherrschen bereits Schweizerdeutsch und können dies auf Hochdeutsch transkribieren. Die Fehlerrate ist jedoch deutlich höher, da nicht nur transkribiert, sondern auch von Schweizerdeutsch auf Hochdeutsch übersetzt werden muss. Gemäss Schweizer Fachhochschulen (ZHAW und FHNW) werden bei Open Source Modellen WER-Werte bis 21.1 % erreicht. Mit speziell trainierten Modellen (die der Forschung zur Verfügung stehen) können aktuell bis 17.1% erreicht werden. Das heisst, dass noch immer rund jedes fünfte Wort falsch transkribiert wird.

Anwendung im Alltag

Wir haben die Apple Live Untertitel am Feierabend gleich auch noch unter realen Bedingungen im Zug ausprobiert. Die Zugansage war auf Hochdeutsch: «Das Zugteam der SBB begrüsst Sie im Interregio 35 nach Thalwil, Wädenswil, Pfäffikon, Siebnen, Wangen, Landquart, Chur und wünscht Ihnen eine angenehme Reise. Nächster Halt Thalwil. Das Resultat war hier schlecht, es entspricht einem WER Wert von 51%.

Die automatische Transkription macht im Alltag noch viele Fehler

Fazit

Eine automatische Untertitelung im Alltag ist heute noch nicht zuverlässig möglich. Obwohl die Modelle bei optimalen Bedingungen sehr gut abschneiden, genügt es den Ansprüchen einer schwerhörigen Person im Alltag noch nicht.