Von Menschen geschriebene Untertitel sind mittlerweile weit verbreitet. Etwa bei den Programmen der SRG oder an öffentlichen Anlässen. Wie schön wäre es, wenn man Untertitel auch im Alltag, bei Gesprächen, im Büro oder im Studium automatisch anzeigen lassen könnte? Die gute Nachricht: Es gibt heute bereits diverse Tools und Apps, die genau dies machen.
Wir haben insgesamt zehn solche Tools getestet und deren «Word Error Rate» (WER) gemessen, also wie viele Fehler das Tool macht. Je niedriger der Wert ist, desto genauer ist die Transkription. Dafür haben wir einen Text aus unserem Magazin Dezibel auf Hochdeutsch aufgenommen und allen Tools einmal vorgespielt. Einmal unter perfekten akustischen Bedingungen und einmal mit Hintergrundgeräuschen. Für alle Messungen wurde das gleiche externe Mikrofon verwendet.
Das beste Resultat insgesamt erzielte die Microsoft Teams Untertitelfunktion mit einer Word Error Rate (WER) von 2.3%, gefolgt von den Zoom Untertiteln (3.4%) und den Apple Live Untertiteln (3.8%).
Mit Hintergrundgeräuschen wird das Resultat deutlich schlechter. Mit englischsprachiger Musik im Hintergrund haben die Apple Live Untertitel (iPhone) mit 8.3% das beste Resultat erzielt, gefolgt von Android Live Transcribe (10.6%) und den PowerPoint-Untertiteln (11.7%). Die Transkription geschieht entweder On Device (keine Internetverbindung nötig) oder in der Cloud (Internetverbindung nötig). Eine lokale Transkription hat den Vorteil, dass die aufgenommenen Gespräche nicht auf einen Server geschickt werden, sondern komplett bei Ihnen bleiben.
| Tool | Transkription | Word Error Rate (WER) Optimale Bedingungen | Word Error Rate (WER ) mit Hintergrundgeräuschen |
| Apple Live-Untertitel (iPhone) | On Device | 3.8% | 8.3% |
| Apple Live-Untertitel (MacBook) | On Device | 3.8% | 14.7% |
| Android Live Transcribe | On Device | 5.7% | 10.6% |
| Windows Live Caption | On Device | 7.2% | 22.6% |
| Apple Diktat (iPhone-Tastatur) | On Device | 9.8% | 13.2% |
| MS Teams Untertitel | Cloud | 2.3% | 13.6% |
| Zoom Untertitel | Cloud | 3.4% | 22.6% |
| Google Diktierfunktion | Cloud | 6.8% | 15.5% |
| Word Diktierfunktion | Cloud | 7.2% | 25.2% |
| PowerPoint Untertitel | Cloud | 7.5% | 11.7% |
Alle Resultate als Liste finden Sie hier.
Gravierende Fehler
Auf den ersten Blick erscheinen die Zahlen ausgesprochen gut. Allerdings erzählen sie auch eine unvollständige Geschichte und täuschen eine falsche Korrektheit vor. Die Tools machen zwar nicht mehr so viele Fehler wie früher, aber sie machen kritischere Fehler als eine menschliche Person. Einige Beispiele:
«Er macht alle im Team auf seine Hörhilfen aufmerksam»
wird transkribiert zu
«Er macht alle intim auf seine Hörhilfen aufmerksam»
«Das Restgehör war weg»
wird transkribiert zu
«Das Restgehirn war weg»
Es ist selbsterklärend, dass solche Fehler nicht passieren dürfen, weder am Fernsehen noch in der Transkription eines Events oder während des Studiums.
Im Alltag herrschen keine optimalen Bedingungen
Die angegebenen Werte sind im Alltag nicht erreichbar. Der Sprecher müsste dazu jederzeit direkt (20cm Entfernung) in ein qualitativ hochstehendes Mikrofon sprechen, um möglichst viele Störgeräusche auszublenden. In einer Gruppendiskussion müsste das Mikrofon dauernd weitergereicht werden. Es darf pro Mikrofon nur immer eine Person sprechen, sonst funktioniert das Tool nicht mehr. Auch wenn zu schnell, zu undeutlich oder in einem Dialekt gesprochen wird, funktionieren die Untertitel nur noch beschränkt oder gar nicht mehr.
Hintergrundgeräusche: Musik wird gefiltert, Stimmen nicht
Moderne Tools sind verhältnismässig gut im Herausfiltern von Hintergrundgeräuschen wie z.B. Musik. Wird im Hintergrund auf Englisch gesungen, hatten wir eine Verschlechterung der Transkription. Wird im Hintergrund auf Deutsch gesungen oder wird in der Nähe laut gesprochen, funktioniert das Tool praktisch nicht mehr. Es kann die Stimmen nicht auseinanderhalten.
Schweizerdeutsch ist noch schwierig
Einige Tools, wie die Apple Live Untertitel, beherrschen bereits Schweizerdeutsch und können dies auf Hochdeutsch transkribieren. Die Fehlerrate ist jedoch deutlich höher, da nicht nur transkribiert, sondern auch von Schweizerdeutsch auf Hochdeutsch übersetzt werden muss. Gemäss Schweizer Fachhochschulen (ZHAW und FHNW) werden bei Open Source Modellen WER-Werte bis 21.1 % erreicht. Mit speziell trainierten Modellen (die der Forschung zur Verfügung stehen) können aktuell bis 17.1% erreicht werden. Das heisst, dass noch immer rund jedes fünfte Wort falsch transkribiert wird.
Anwendung im Alltag
Wir haben die Apple Live Untertitel am Feierabend gleich auch noch unter realen Bedingungen im Zug ausprobiert. Die Zugansage war auf Hochdeutsch: «Das Zugteam der SBB begrüsst Sie im Interregio 35 nach Thalwil, Wädenswil, Pfäffikon, Siebnen, Wangen, Landquart, Chur und wünscht Ihnen eine angenehme Reise. Nächster Halt Thalwil. Das Resultat war hier schlecht, es entspricht einem WER Wert von 51%.

Fazit
Eine automatische Untertitelung im Alltag ist heute noch nicht zuverlässig möglich. Obwohl die Modelle bei optimalen Bedingungen sehr gut abschneiden, genügt es den Ansprüchen einer schwerhörigen Person im Alltag noch nicht.