Alle Artikel

WER (Word Error Rate): Wie die Genauigkeit der Spracherkennung gemessen wird

·14 Min. Lesezeit

Die Word Error Rate (WER) ist der Goldstandard zur Bewertung der Spracherkennungsqualitaet. Wir erklaeren die Formel, gehen anhand realer Beispiele durch die Berechnung, erlaeutern, was verschiedene WER-Werte in der Praxis bedeuten, und behandeln die Faktoren, die die Transkriptionsgenauigkeit bestimmen. Wenn Sie sich jemals gefragt haben, warum ein Transkriptionsdienst nahezu perfekten Text liefert, waehrend ein anderer unverstaendlichen Wortsalat produziert, liegt die Antwort fast immer in drei Buchstaben: WER.


Was ist WER

Word Error Rate (WER, Wortfehlerrate) ist die Standardmetrik zur Messung der Genauigkeit automatischer Spracherkennungssysteme (ASR — Automatic Speech Recognition). Vereinfacht ausgedrueckt zeigt WER an, welchen Prozentsatz der Woerter das System falsch erkannt hat.

Das Konzept ist einfach: Man nimmt einen Referenztext (was tatsaechlich gesagt wurde), vergleicht ihn mit der Systemausgabe (was das ASR produziert hat) und zaehlt die Fehler. Je niedriger die WER, desto besser die Erkennung.

WER wird ueberall verwendet — in wissenschaftlichen Arbeiten, in der API-Dokumentation von Spracherkennungsdiensten, in Modellvergleichs-Benchmarks und Produktbewertungen. Es ist die Lingua franca der ASR-Branche, die gemeinsame Sprache von Forschern, Entwicklern und Endanwendern.


Die WER-Formel

Die WER-Formel lautet:

WER = (S + D + I) / N x 100%

Dabei ist:

Beachten Sie: Der Zaehler enthaelt drei Fehlertypen, waehrend der Nenner nur die Referenzwortanzahl ist. Das bedeutet, dass WER theoretisch 100% ueberschreiten kann (bei vielen Einfuegungen), obwohl dies in der Praxis selten vorkommt.


Wie WER berechnet wird: Ein praktisches Beispiel

Gehen wir ein konkretes Beispiel durch.

Referenz (was tatsaechlich gesagt wurde): "Ich moechte einen Flug nach Berlin buchen"

ASR-Ausgabe: "Ich moechte einen Zug nach Berlin buchen"

Wort-fuer-Wort-Vergleich:

PositionReferenzErkanntFehlertyp
1IchIchKorrekt
2moechtemoechteKorrekt
3eineneinenKorrekt
4FlugZugErsetzung (S)
5nachnachKorrekt
6BerlinBerlinKorrekt
7buchenbuchenKorrekt

Ergebnis:

WER = (1 + 0 + 0) / 7 x 100% = 14,3%

Betrachten wir nun ein komplexeres Beispiel mit allen drei Fehlertypen:

Referenz: "Die Besprechung findet morgen um zehn Uhr statt"

ASR-Ausgabe: "Die Besprechung findet um zehn Uhr dreissig statt"

PositionReferenzErkanntFehlertyp
1DieDieKorrekt
2BesprechungBesprechungKorrekt
3findetfindetKorrekt
4morgenLoeschung (D)
5umumKorrekt
6zehnzehnKorrekt
7UhrUhrKorrekt
8dreissigEinfuegung (I)
9stattstattKorrekt

WER = (0 + 1 + 1) / 7 x 100% = 28,6%

Beachten Sie: Das System hat "morgen" ausgelassen — ein Wort mit kritischer Bedeutung — waehrend das eingefuegte "dreissig" die Uhrzeit veraendert hat. Beide Fehler aendern den Sinn erheblich, werden aber von WER gleich behandelt.


Was verschiedene WER-Werte bedeuten

Nicht alle WER-Werte haben die gleiche praktische Auswirkung. Hier ist eine allgemeine Skala:

WERQualitaetPraktische Bedeutung
Unter 5%AusgezeichnetProfessionell nutzbar ohne Bearbeitung. Veroeffentlichungsreif
5–10%GutMinimale Bearbeitung erforderlich. Geeignet fuer Notizen, Protokolle, Untertitel
10–20%AkzeptabelMerkliche Fehler, aber Kernaussage verstaendlich. Erhebliche Bearbeitung noetig
20–30%SchlechtErneutes Anhoeren und umfangreiche Korrekturen erforderlich
Ueber 30%UnbrauchbarSchneller von Hand zu tippen

Der Kontext ist entscheidend. Fuer medizinische Dokumentation kann selbst 5% WER inakzeptabel sein — ein falscher Medikamentenname ist ein Patientensicherheitsproblem. Fuer persoenliche Sprachnotizen sind 15% WER voellig in Ordnung, solange die Hauptgedanken uebermittelt werden.


Faktoren, die WER beeinflussen

Die Transkriptionsgenauigkeit haengt von vielen Faktoren ab. Das Verstaendnis dieser Faktoren hilft bei der Auswahl des richtigen Tools und der Vorbereitung des Audios fuer bestmoegliche Ergebnisse.

Audioqualitaet

Dies ist der wichtigste Einzelfaktor — oft einflussreicher als die Modellwahl.

Hintergrundgeraeusche sind der haeufigste Genauigkeitskiller. Klimaanlagenbrummen, Gespraeche im Nebenraum, Strassenlaerm, Hintergrundmusik — all dies fuegt dem WER je nach Intensitaet 5–20 Prozentpunkte hinzu. Ein Signal-Rausch-Verhaeltnis (SNR) unter 10 dB macht die Transkription fuer die meisten Systeme praktisch unbrauchbar.

Mikrofonqualitaet macht einen erheblichen Unterschied. Ein gutes externes Mikrofon nah am Sprecher kann die WER um 3–10% senken im Vergleich zum eingebauten Laptop-Mikrofon auf Armlaenge. Headsets und Ansteckmikrofone sind die besten Freunde der Transkription.

Nachhall und Echo fuegen 5–15% zur WER hinzu. Aufnahmen in grossen leeren Raeumen oder ueber Freisprecheinrichtung verschlechtern die Erkennung erheblich. Weiche Oberflaechen, Teppiche, Vorhaenge — alles was Schall absorbiert — hilft.

Sprecheigenschaften

Akzent und Dialekt erhoehen die WER um 5–15%. Modelle werden ueberwiegend mit Standardaussprache trainiert. Ein starker regionaler Akzent oder Dialekt — ob Bayerisch, Saechsisch oder Schweizerdeutsch — verringert die Genauigkeit merklich. Auch nicht-muttersprachliche Akzente wirken sich aus.

Sprechgeschwindigkeit fuegt bei hohem Tempo 3–10% zur WER hinzu. Wenn Menschen schnell sprechen, verschmelzen Woerter, Grenzen zwischen ihnen werden unscharf, und Modelle haben Schwierigkeiten sie zu trennen.

Ueberlappendes Sprechen ist das schwierigste Szenario fuer ASR-Systeme. Wenn zwei Personen gleichzeitig sprechen, kann die WER um 10–30% steigen. Selbst Modelle mit Diarisierung (Sprechertrennung) haben Probleme mit Kreuzgespraechen.

Fachvokabular — Fachbegriffe, Abkuerzungen, Firmen- und Produktnamen — fuegt 5–15% zur WER hinzu. Das Modell kennt moeglicherweise Woerter wie "Dekontamination" oder den Medikamentennamen "Amoxicillin" nicht und ersetzt sie durch etwas phonetisch Aehnliches.

Sprache

Nicht alle Sprachen werden gleich gut erkannt.

Englisch zeigt durchgehend die besten Ergebnisse, weil die meisten Trainingsdaten vorliegen. Whisper large-v3 erreicht 3–4% WER bei sauberem englischem Audio.

Deutsch gehoert zu den gut unterstuetzten Sprachen, stellt aber durch zusammengesetzte Substantive (Kompositabildung) besondere Herausforderungen dar. Whisper large-v3 zeigt 5–6% WER bei sauberem Audio. Bei realen Aufnahmen (Meetings, Telefongespraeche) steigt der Wert auf 12–20%.

Ressourcenarme Sprachen zeigen deutlich hoehere WER — von 15% bis ueber 40% selbst bei sauberem Audio, einfach weil die Modelle mit weit weniger Daten trainiert wurden.


WER bei verschiedenen Modellen

Vergleichsergebnisse populaerer Modelle auf Standard-Benchmarks (saubere Sprache, Studioqualitaet):

ModellEnglischRussischSpanischDeutsch
Whisper large-v33–4%5–7%4–5%5–6%
Google Speech-to-Text (V2)4–5%6–8%5–7%6–8%
Azure Speech4–5%6–9%5–7%5–7%
Deepgram Nova-23–4%7–10%5–7%6–8%

Wichtiger Hinweis: Diese Zahlen gelten fuer sauberes Audio unter kontrollierten Bedingungen. Bei realen Aufnahmen ist mit 1,5–3-fach hoeherer WER zu rechnen. Verschiedene Benchmarks liefern zudem unterschiedliche Ergebnisse, daher ist beim Vergleich von Zahlen aus verschiedenen Quellen Vorsicht geboten. Einen detaillierten Vergleich von Transkriptionsmodellen und -diensten fuer die russische Sprache finden Sie in unserem Marktleitfaden.


Einschraenkungen von WER als Metrik

Trotz ihrer Allgegenwaertigkeit ist WER keine perfekte Metrik. Sie hat erhebliche Einschraenkungen.

Ignoriert Zeichensetzung. WER vergleicht nur Woerter und ignoriert Kommas, Punkte und andere Satzzeichen. Dabei kann Zeichensetzung den Sinn grundlegend aendern.

Ignoriert Gross-/Kleinschreibung. "Berlin" und "berlin" sind fuer WER identisch, obwohl dies im deutschen Text besonders wichtig ist (Substantivgrossschreibung).

Unterscheidet nicht nach Fehlerschwere. Die Ersetzung von "Konferenz" durch "Konferenzen" (Flexionsform) und die Ersetzung von "genehmigt" durch "abgelehnt" zaehlen beide als eine Substitution — obwohl die zweite die Bedeutung komplett veraendert.

Beruecksichtigt keine Normalisierung. "15" und "fuenfzehn", "Herr" und "Hr.", "%" und "Prozent" — dies sind verschiedene Zeichenketten fuer WER, obwohl sie semantisch identisch sind.

WER kann 100% ueberschreiten. Fuegt das System viele zusaetzliche Woerter ein, kann der Zaehler den Nenner uebersteigen. In der Praxis selten, aber formal moeglich.

Spiegelt nicht die Lesbarkeit wider. Ein Transkript mit 10% WER, bei dem Fehler gleichmaessig verteilt sind, kann besser lesbar sein als eines mit 5% WER, bei dem alle Fehler in einem einzigen wichtigen Absatz konzentriert sind.


Alternative Metriken

Aufgrund der Einschraenkungen von WER verwenden Forscher und Entwickler auch andere Metriken.

CER (Character Error Rate — Zeichenfehlerrate)

Das zeichenbasierte Aequivalent von WER. Gleiche Formel, aber einzelne Zeichen statt Woerter werden gezaehlt. CER ist besonders nuetzlich fuer Sprachen ohne Worttrennung durch Leerzeichen (Chinesisch, Japanisch, Thailaendisch) und fuer die Bewertung morphologischer Fehler in flektierenden Sprachen: "Buch" vs "Buecher" ist ein 100%-Fehler bei WER, aber nur etwa 33% bei CER.

MER (Match Error Rate — Zuordnungsfehlerrate)

Eine normalisierte Version von WER, die die Zuordnung zwischen Referenz- und Hypothesenwoertern beruecksichtigt. MER bleibt immer im Bereich 0–1, anders als WER, die 100% ueberschreiten kann.

WIL (Word Information Lost — Verlorene Wortinformation)

Eine Metrik, die sowohl Praezision (Precision) als auch Vollstaendigkeit (Recall) der Erkennung beruecksichtigt. WIL zeigt an, welcher Anteil der Information verloren ging. Sie gilt als ausgewogenere Bewertung als WER.

Subjektive Bewertung

MOS (Mean Opinion Score) — eine durchschnittliche menschliche Bewertung auf einer Skala von 1 bis 5. Eine Gruppe von Bewertern benotet die Transkriptionsqualitaet und ihre Bewertungen werden gemittelt. Teuer und langsam, aber die genaueste Widerspiegelung der realen Qualitaet.

Lesbarkeitsbewertung — anstelle eines Wort-fuer-Wort-Vergleichs bewerten Experten, wie gut der Text die Bedeutung des Originals vermittelt und wie leicht er zu lesen ist.


Wie Sie WER fuer Ihre Aufgaben verbessern koennen

Wenn die Transkriptionsqualitaet Ihren Anforderungen nicht genuegt, koennen Sie Folgendes tun — in der Reihenfolge der Wirksamkeit.

1. Audioqualitaet verbessern. Dies ist der wirkungsvollste Schritt. Verwenden Sie ein externes Mikrofon, minimieren Sie Hintergrundgeraeusche, nehmen Sie in einem ruhigen Raum auf. Allein der Wechsel vom eingebauten Laptop-Mikrofon zu einem Ansteckmikrofon kann die WER um 5–10% senken.

2. Das richtige Modell waehlen. Fuer maximale Genauigkeit verwenden Sie grosse Modelle: Whisper large-v3 fuer mehrsprachige Aufgaben. Kleinere Modelle (tiny, small) sind schneller, machen aber mehr Fehler.

3. Nachbearbeitung anwenden. Automatische Zeichensetzung, Zahlennormalisierung, Abkuerzungsaufloesung, Korrektur haeufiger Fehler — all dies verbessert die Lesbarkeit, auch wenn es die WER formal nicht senkt.

4. Fine-Tuning verwenden. Wenn Sie mit Fachvokabular arbeiten (Medizin, Recht, IT), kann das Feinabstimmen eines Modells auf Ihre Terminologie die WER fuer diese Begriffe um 20–40% relativ senken.

5. Einen optimierten Dienst nutzen. Dienste wie Diktovka kombinieren Whisper large-v3 mit Sprecherdiarisierung, Normalisierung und KI-Zusammenfassung, um ohne manuelle Einstellungen bestmoegliche Ergebnisse zu liefern.


Zusammenfassung

WER bleibt trotz ihrer Einschraenkungen der Goldstandard zur Bewertung der Spracherkennungsqualitaet. Das Verstaendnis dieser Metrik hilft Ihnen:

Denken Sie daran: 5% WER bedeutet nicht, dass der Text perfekt ist — es bedeutet, dass etwa jedes 20. Wort einen Fehler enthaelt. Bei einer kurzen Aufnahme faellt das kaum auf. Bei einem einstuendigen Vortrag sind das Dutzende Fehler. Kontext, Audioqualitaet und die richtige Werkzeugwahl machen den entscheidenden Unterschied.

FAQ

Was ist ein guter WER-Wert fuer Spracherkennung?

WER unter 5% ist ausgezeichnete Qualitaet — der Text kann ohne Bearbeitung verwendet werden. 5-10% ist gut mit minimalem Korrekturaufwand. 10-20% ist akzeptabel, die Kernaussage bleibt verstaendlich. Ueber 20% ist schlechte Qualitaet.

Wie wird WER berechnet?

WER = (S + D + I) / N x 100%, wobei S Ersetzungen (falsch erkannte Woerter), D Loeschungen (uebersprungene Woerter), I Einfuegungen (hinzugefuegte Woerter) und N die Gesamtzahl der Woerter im Referenztext sind.

Was ist der Unterschied zwischen WER und CER?

WER zaehlt Fehler auf Wortebene, waehrend CER (Character Error Rate) Fehler auf Zeichenebene zaehlt. CER ist nuetzlicher fuer die Bewertung morphologischer Fehler: 'Buch' zu 'Buecher' ist ein 100%-Fehler bei WER, aber nur etwa 33% bei CER.

Warum kann WER 100% ueberschreiten?

WER kann 100% ueberschreiten, weil der Zaehler der Formel Einfuegungen enthaelt — Woerter, die das System hinzugefuegt hat, obwohl sie im Original nicht vorkamen. Bei vielen Einfuegungen wird der Zaehler groesser als der Nenner. In der Praxis ist das selten.

Welche WER-Werte erreichen moderne Modelle fuer wichtige Sprachen?

Whisper large-v3 erreicht 3-4% WER bei sauberem englischem Audio und 5-6% fuer Deutsch. Bei realen Aufnahmen (Meetings, Telefongespraeche) sind aufgrund von Laerm, Akzenten und Ueberlappendem Sprechen 12-20% zu erwarten.