Tous les articles

WER (Word Error Rate) : comment mesure-t-on la precision de la reconnaissance vocale

·14 min de lecture

Le Word Error Rate (WER) est la metrique de reference pour evaluer la qualite de la reconnaissance vocale. Nous detaillons la formule, parcourons des exemples concrets, expliquons ce que signifient differentes valeurs de WER en pratique et couvrons les facteurs qui determinent la precision de la transcription. Si vous vous etes deja demande pourquoi un service de transcription produit un texte quasi parfait tandis qu'un autre livre un charabia incomprehensible, la reponse tient presque toujours en trois lettres : WER.


Qu'est-ce que le WER

Le Word Error Rate (WER, Taux d'Erreur par Mots) est la metrique standard utilisee pour mesurer la precision des systemes de reconnaissance automatique de la parole (ASR — Automatic Speech Recognition). En termes simples, le WER indique quel pourcentage de mots le systeme a mal reconnus.

Le concept est simple : on prend un texte de reference (ce qui a reellement ete dit), on le compare a la sortie du systeme (ce que l'ASR a produit) et on compte les erreurs. Plus le WER est bas, meilleure est la reconnaissance.

Le WER est utilise partout — dans les articles academiques, la documentation d'API de reconnaissance vocale, les comparatifs de modeles et les evaluations de produits. C'est la lingua franca de l'industrie ASR, le langage commun partage par les chercheurs, les developpeurs et les utilisateurs finaux.


La formule du WER

La formule du WER est la suivante :

WER = (S + D + I) / N x 100%

Ou :

Notez que le numerateur contient trois types d'erreurs, tandis que le denominateur n'est que le nombre de mots de reference. Cela signifie que le WER peut theoriquement depasser 100% (s'il y a beaucoup d'insertions), bien que cela soit rare en pratique.


Comment le WER est calcule : un exemple pratique

Parcourons un exemple concret.

Reference (ce qui a reellement ete dit) : "Je voudrais reserver un billet de train pour Lyon"

Sortie ASR : "Je voudrais reserver un billet d'avion pour Lyon"

Comparaison mot par mot :

PositionReferenceReconnuType d'erreur
1JeJeCorrect
2voudraisvoudraisCorrect
3reserverreserverCorrect
4ununCorrect
5billetbilletCorrect
6ded'Substitution (S)
7trainavionSubstitution (S)
8pourpourCorrect
9LyonLyonCorrect

Resultat :

WER = (2 + 0 + 0) / 9 x 100% = 22,2%

Considerons maintenant un exemple plus complexe avec les trois types d'erreurs :

Reference : "La reunion aura lieu demain a dix heures du matin"

Sortie ASR : "La reunion aura lieu a dix heures et demie du matin"

PositionReferenceReconnuType d'erreur
1LaLaCorrect
2reunionreunionCorrect
3auraauraCorrect
4lieulieuCorrect
5demainSuppression (D)
6aaCorrect
7dixdixCorrect
8heuresheuresCorrect
9etInsertion (I)
10demieInsertion (I)
11duduCorrect
12matinmatinCorrect

WER = (0 + 1 + 2) / 10 x 100% = 30%

Point important : le systeme a omis "demain" — un mot porteur d'une information critique sur le moment de la reunion — et a modifie l'horaire. Le WER traite toutes ces erreurs de maniere egale, ce qui constitue l'une de ses limitations connues.


Que signifient differentes valeurs de WER

Toutes les valeurs de WER n'ont pas le meme impact pratique. Voici une echelle generale :

WERQualiteSignification pratique
Moins de 5%ExcellenteUtilisation professionnelle sans retouche. Pret a publier
5–10%BonneRetouche minimale necessaire. Convient pour les notes, comptes rendus, sous-titres
10–20%AcceptableErreurs notables mais le sens principal est clair. Retouche significative necessaire
20–30%MauvaiseNecessite une reecoute et des corrections substantielles
Plus de 30%InutilisablePlus rapide de taper a la main

Le contexte est determinant. Pour la documentation medicale, meme 5% de WER peut etre inacceptable — un nom de medicament errone est un probleme de securite du patient. Pour des notes vocales personnelles, 15% de WER est tout a fait acceptable si les idees principales sont transmises.


Les facteurs qui affectent le WER

La precision de la transcription depend de nombreux facteurs. Les comprendre aide a choisir le bon outil et a preparer l'audio pour obtenir les meilleurs resultats.

Qualite audio

C'est le facteur le plus important — souvent plus influent que le choix du modele.

Le bruit de fond est l'ennemi le plus courant de la precision. Le bourdonnement de la climatisation, les conversations dans la piece voisine, le bruit de la rue, la musique d'ambiance — tout cela ajoute de 5 a 20 points de pourcentage au WER selon l'intensite. Un rapport signal-bruit (SNR) inferieur a 10 dB rend la transcription pratiquement inutile pour la plupart des systemes.

La qualite du microphone fait une difference significative. Un bon microphone externe place pres du locuteur peut reduire le WER de 3 a 10% par rapport au microphone integre d'un ordinateur portable tenu a bout de bras. Les casques et les microphones-cravates sont les meilleurs allies de la transcription.

La reverberation et l'echo ajoutent de 5 a 15% au WER. Enregistrer dans une grande piece vide ou utiliser le haut-parleur du telephone degrade significativement la reconnaissance. Les surfaces souples, moquettes, rideaux — tout ce qui absorbe le son — aide.

Caracteristiques de la parole

L'accent et le dialecte augmentent le WER de 5 a 15%. Les modeles sont entraines principalement sur la prononciation standard. Un fort accent regional reduit notablement la precision. Pour le francais, les differences entre le francais metropolitain, quebecois, belge, suisse et africain peuvent affecter significativement les performances du modele.

La vitesse de parole a un rythme rapide ajoute de 3 a 10% au WER. Lorsque les gens parlent vite, les mots se fondent, les limites entre eux deviennent floues et les modeles peinent a les segmenter.

Le chevauchement de parole est le scenario le plus difficile pour les systemes ASR. Lorsque deux personnes parlent en meme temps, le WER peut augmenter de 10 a 30%. Meme les modeles avec diarisation (separation des locuteurs) gerent mal les conversations croisees.

Le vocabulaire specialise — termes techniques, abreviations, noms d'entreprises et de produits — ajoute de 5 a 15% au WER. Le modele peut ne pas connaitre le mot "decontamination" ou le nom du medicament "Amoxicilline" et le remplacer par quelque chose de phonetiquement similaire.

Langue

Toutes les langues ne sont pas reconnues avec la meme precision.

L'anglais montre systematiquement les meilleurs resultats car il dispose du plus grand volume de donnees d'entrainement. Whisper large-v3 atteint 3–4% de WER sur de l'audio anglais propre.

Le francais est l'une des langues bien prises en charge, avec 4–6% de WER sur de l'audio propre. Les liaisons, les elisions et les homophones (ou/ou, a/a, ses/ces/c'est/s'est) posent des defis specifiques pour l'ASR. Sur des enregistrements du monde reel (reunions, appels telephoniques), le WER peut monter a 12–20%.

Les langues a faibles ressources montrent un WER significativement plus eleve — de 15% a plus de 40% meme sur de l'audio propre, simplement parce que les modeles ont ete entraines sur beaucoup moins de donnees.


Le WER selon les differents modeles

Resultats comparatifs des modeles populaires sur des benchmarks standards (parole propre, qualite studio) :

ModeleAnglaisRusseEspagnolAllemand
Whisper large-v33–4%5–7%4–5%5–6%
Google Speech-to-Text (V2)4–5%6–8%5–7%6–8%
Azure Speech4–5%6–9%5–7%5–7%
Deepgram Nova-23–4%7–10%5–7%6–8%

Note importante : ces chiffres concernent de l'audio propre dans des conditions controlees. Sur des enregistrements reels, attendez-vous a un WER 1,5 a 3 fois plus eleve. Differents benchmarks donnent egalement des resultats differents, donc la comparaison de chiffres provenant de sources differentes requiert de la prudence. Pour une comparaison detaillee des modeles et services de transcription pour la langue russe, consultez notre guide du marche.


Limites du WER en tant que metrique

Malgre son omni presence, le WER est loin d'etre une metrique parfaite. Il comporte des limitations significatives.

Ignore la ponctuation. Le WER ne compare que les mots, ignorant virgules, points et autres signes de ponctuation. Or la ponctuation peut fondamentalement changer le sens.

Ignore la casse. "Paris" et "paris" sont identiques pour le WER, bien que cela puisse avoir de l'importance dans le texte.

Ne distingue pas la gravite des erreurs. Remplacer "conference" par "conferences" (forme flexionnelle) et remplacer "approuve" par "annule" comptent toutes deux comme une substitution, bien que la seconde change completement le sens.

Ne tient pas compte de la normalisation. "15" et "quinze", "M." et "Monsieur", "%" et "pour cent" — ce sont des chaines differentes pour le WER, bien qu'elles soient semantiquement identiques.

Le WER peut depasser 100%. Si le systeme insere de nombreux mots supplementaires, le numerateur peut depasser le denominateur. Rare en pratique, mais formellement possible.

Ne reflete pas la lisibilite. Un texte avec 10% de WER ou les erreurs sont uniformement reparties peut etre plus lisible qu'un texte avec 5% de WER ou toutes les erreurs sont concentrees dans un seul paragraphe critique.


Metriques alternatives

En raison des limitations du WER, chercheurs et developpeurs utilisent egalement d'autres metriques.

CER (Character Error Rate — Taux d'Erreur par Caracteres)

L'equivalent du WER au niveau des caracteres. Meme formule, mais comptant les caracteres individuels au lieu des mots. Le CER est particulierement utile pour les langues qui ne separent pas les mots par des espaces (chinois, japonais, thai) et pour evaluer les erreurs morphologiques dans les langues flexionnelles : "livre" vs "livres" est une erreur de 100% en WER mais seulement environ 17% en CER (un caractere modifie sur six).

MER (Match Error Rate — Taux d'Erreur de Correspondance)

Une version normalisee du WER qui tient compte de l'alignement entre les mots de reference et ceux de l'hypothese. Le MER reste toujours dans la plage 0–1, contrairement au WER qui peut depasser 100%.

WIL (Word Information Lost — Information de Mots Perdue)

Une metrique qui prend en compte a la fois la precision et le rappel de la reconnaissance. Le WIL indique quelle proportion d'information a ete perdue. Elle est consideree comme une evaluation plus equilibree que le WER.

Evaluation subjective

MOS (Mean Opinion Score) — une note humaine moyenne sur une echelle de 1 a 5. Un groupe d'evaluateurs note la qualite de la transcription et leurs notes sont moyennees. Couteux et lent, mais le reflet le plus fidele de la qualite reelle.

Evaluation de la lisibilite — au lieu d'une comparaison mot a mot, des experts evaluent dans quelle mesure le texte transmet le sens de l'original et dans quelle mesure il est facile a lire.


Comment ameliorer le WER pour vos besoins

Si la qualite de transcription ne repond pas a vos besoins, voici ce que vous pouvez faire — par ordre d'efficacite.

1. Ameliorer la qualite audio. C'est l'etape la plus efficace. Utilisez un microphone externe, minimisez le bruit de fond, enregistrez dans une piece calme. Le simple fait de passer du microphone integre de l'ordinateur portable a un micro-cravate peut reduire le WER de 5 a 10%.

2. Choisir le bon modele. Pour une precision maximale, utilisez des modeles de grande taille : Whisper large-v3 pour les taches multilingues. Les modeles plus petits (tiny, small) sont plus rapides mais commettent plus d'erreurs.

3. Appliquer un post-traitement. Ponctuation automatique, normalisation des nombres, developpement des abreviations, correction des erreurs courantes — tout cela ameliore la lisibilite meme si cela ne reduit pas formellement le WER.

4. Utiliser le fine-tuning. Si vous travaillez avec un vocabulaire specialise (medical, juridique, informatique), l'affinage d'un modele sur votre terminologie peut reduire le WER de 20 a 40% relatif pour ces termes.

5. Utiliser un service optimise. Des services comme Diktovka combinent Whisper large-v3 avec la diarisation des locuteurs, la normalisation et le resume par IA pour offrir les meilleurs resultats possibles sans reglage manuel.


Points cles a retenir

Le WER reste la reference pour evaluer la qualite de la reconnaissance vocale, malgre ses limites. Comprendre cette metrique vous aide a :

Rappelez-vous : 5% de WER ne signifie pas que le texte est parfait — cela signifie qu'environ un mot sur 20 contiendra une erreur. Pour un court enregistrement, cela peut etre imperceptible. Pour une conference d'une heure, ce sont des dizaines d'erreurs. Le contexte, la qualite audio et le choix du bon outil font toute la difference.

FAQ

Quel WER est considere comme bon pour la reconnaissance vocale ?

Un WER inferieur a 5% est une qualite excellente — le texte est utilisable sans retouche. 5-10% est bon avec des corrections minimales. 10-20% est acceptable, le sens principal reste clair. Au-dessus de 20%, la qualite est mauvaise.

Comment le WER est-il calcule ?

WER = (S + D + I) / N x 100%, ou S represente les substitutions (mots mal reconnus), D les suppressions (mots omis), I les insertions (mots ajoutes en trop) et N le nombre total de mots dans le texte de reference.

Quelle est la difference entre WER et CER ?

Le WER compte les erreurs au niveau des mots, tandis que le CER (Character Error Rate) les compte au niveau des caracteres individuels. Le CER est plus utile pour evaluer les erreurs morphologiques : changer 'livre' en 'livres' est une erreur de 100% en WER mais d'environ 17% seulement en CER.

Pourquoi le WER peut-il depasser 100% ?

Le WER peut depasser 100% car le numerateur de la formule inclut les insertions — des mots que le systeme a ajoutes sans qu'ils soient dans l'original. Avec beaucoup d'insertions, le numerateur depasse le denominateur. En pratique, c'est rare.

Quel WER les modeles actuels atteignent-ils pour les principales langues ?

Whisper large-v3 atteint 3-4% de WER sur de l'audio anglais propre et 4-6% pour le francais. Sur des enregistrements reels (reunions, appels telephoniques), comptez 12-20% en raison du bruit, des accents et du chevauchement de parole.