Todos los artículos

WER (Word Error Rate): Como se mide la precision del reconocimiento de voz

·14 min de lectura

El Word Error Rate (WER) es la metrica de referencia para evaluar la calidad del reconocimiento de voz. Desglosamos la formula, recorremos ejemplos reales, explicamos que significan los diferentes valores de WER en la practica y cubrimos los factores que determinan la precision de la transcripcion. Si alguna vez se ha preguntado por que un servicio de transcripcion produce texto casi perfecto mientras otro entrega un revoltijo de palabras sin sentido, la respuesta casi siempre se reduce a tres letras: WER.


Que es el WER

Word Error Rate (WER, Tasa de Error de Palabras) es la metrica estandar utilizada para medir la precision de los sistemas de reconocimiento automatico del habla (ASR — Automatic Speech Recognition). En terminos simples, el WER indica que porcentaje de palabras el sistema reconocio incorrectamente.

El concepto es directo: se toma un texto de referencia (lo que realmente se dijo), se compara con la salida del sistema (lo que produjo el ASR) y se cuentan los errores. Cuanto menor sea el WER, mejor sera el reconocimiento.

El WER se utiliza en todas partes — en articulos academicos, documentacion de APIs de reconocimiento de voz, comparativas de modelos y evaluaciones de productos. Es la lingua franca de la industria ASR, el lenguaje comun compartido por investigadores, desarrolladores y usuarios finales.


La formula del WER

La formula del WER es:

WER = (S + D + I) / N x 100%

Donde:

Observe que el numerador contiene tres tipos de errores, mientras que el denominador es solo el conteo de palabras de referencia. Esto significa que el WER puede teoricamente superar el 100% (si hay muchas inserciones), aunque esto es raro en la practica.


Como se calcula el WER: un ejemplo practico

Veamos un ejemplo concreto.

Referencia (lo que realmente se dijo): "Quiero reservar un billete de tren para Madrid"

Salida del ASR: "Quiero reservar un billete de avion para Madrid"

Comparacion palabra por palabra:

PosicionReferenciaReconocidoTipo de error
1QuieroQuieroCorrecto
2reservarreservarCorrecto
3ununCorrecto
4billetebilleteCorrecto
5dedeCorrecto
6trenavionSustitucion (S)
7paraparaCorrecto
8MadridMadridCorrecto

Resultado:

WER = (1 + 0 + 0) / 8 x 100% = 12,5%

Ahora consideremos un ejemplo mas complejo con los tres tipos de errores:

Referencia: "La reunion sera manana a las diez de la manana"

Salida del ASR: "La reunion sera a las diez y media de la manana"

PosicionReferenciaReconocidoTipo de error
1LaLaCorrecto
2reunionreunionCorrecto
3seraseraCorrecto
4mananaEliminacion (D)
5aaCorrecto
6laslasCorrecto
7diezdiezCorrecto
8yInsercion (I)
9mediaInsercion (I)
10dedeCorrecto
11lalaCorrecto
12mananamananaCorrecto

WER = (0 + 1 + 2) / 9 x 100% = 33,3%

Punto importante: el sistema elimino "manana" — una palabra con significado critico sobre cuando ocurre la reunion — y anadio "y media" que cambia la hora. El WER trata todos estos errores por igual, lo cual es una de sus limitaciones conocidas.


Que significan los diferentes valores de WER

No todos los valores de WER tienen el mismo impacto practico. Aqui hay una escala general:

WERCalidadSignificado practico
Menos del 5%ExcelenteUso profesional sin edicion. Listo para publicar
5–10%BuenoEdicion minima necesaria. Adecuado para notas, actas, subtitulos
10–20%AceptableErrores notorios pero el sentido principal es claro. Edicion significativa necesaria
20–30%MaloRequiere volver a escuchar y correcciones sustanciales
Mas del 30%InutilizableMas rapido escribir desde cero

El contexto importa enormemente. Para documentacion medica, incluso un 5% de WER puede ser inaceptable — un nombre de medicamento incorrecto es un problema de seguridad del paciente. Para notas de voz personales, un 15% de WER es perfectamente aceptable si se transmiten las ideas principales.


Factores que afectan el WER

La precision de la transcripcion depende de muchos factores. Comprenderlos ayuda a elegir la herramienta correcta y preparar el audio para obtener los mejores resultados.

Calidad del audio

Este es el factor mas importante — a menudo mas influyente que el modelo utilizado.

El ruido de fondo es el enemigo mas comun de la precision. El zumbido del aire acondicionado, conversaciones en la habitacion contigua, ruido de la calle, musica de fondo — todo esto anade entre 5 y 20 puntos porcentuales al WER segun la intensidad. Una relacion senal-ruido (SNR) inferior a 10 dB hace que la transcripcion sea practicamente inutil para la mayoria de los sistemas.

La calidad del microfono marca una diferencia significativa. Un buen microfono externo colocado cerca del hablante puede reducir el WER entre 3 y 10% en comparacion con el microfono integrado de un portatil a la distancia de un brazo. Los auriculares con microfono y los microfonos de solapa son los mejores aliados de la transcripcion.

La reverberacion y el eco anaden entre 5 y 15% al WER. Grabar en una sala grande y vacia o usar el altavoz del telefono degrada significativamente el reconocimiento. Las superficies blandas, alfombras y cortinas — todo lo que absorba sonido — ayuda.

Caracteristicas del habla

El acento y dialecto aumentan el WER entre 5 y 15%. Los modelos se entrenan principalmente con pronunciacion estandar. Un fuerte acento regional o dialectal reduce notablemente la precision. En el mundo hispanohablante, las diferencias entre el espanol de Espana, Mexico, Argentina o Colombia pueden afectar el rendimiento del modelo.

La velocidad del habla anade entre 3 y 10% al WER cuando es rapida. Cuando las personas hablan rapido, las palabras se fusionan, los limites entre ellas se difuminan y los modelos tienen dificultades para segmentarlas.

El habla superpuesta es el escenario mas dificil para los sistemas ASR. Cuando dos personas hablan simultaneamente, el WER puede aumentar entre 10 y 30%. Incluso los modelos con diarizacion (separacion de hablantes) manejan mal la conversacion cruzada.

El vocabulario especializado — terminos tecnicos, abreviaturas, nombres de empresas y productos — anade entre 5 y 15% al WER. El modelo puede no conocer la palabra "descontaminacion" o el nombre del medicamento "Amoxicilina" y sustituirlo por algo foneticamente similar.

Idioma

No todos los idiomas se reconocen con la misma precision.

El ingles muestra consistentemente los mejores resultados porque tiene la mayor cantidad de datos de entrenamiento. Whisper large-v3 alcanza un 3–4% de WER en audio limpio en ingles.

El espanol es uno de los idiomas bien soportados, con 5–6% de WER en audio limpio. Sin embargo, la gran diversidad dialectal del espanol (castellano, mexicano, rioplatense, caribeno, andino) puede causar variaciones significativas en los resultados. En grabaciones del mundo real (reuniones, llamadas telefonicas), el WER puede subir al 12–20%.

Los idiomas con pocos recursos muestran un WER significativamente mas alto — del 15% al 40%+ incluso en audio limpio, simplemente porque los modelos fueron entrenados con muchos menos datos.


WER en diferentes modelos

Resultados comparativos de modelos populares en benchmarks estandar (habla limpia, calidad de estudio):

ModeloInglesRusoEspanolAleman
Whisper large-v33–4%5–7%4–5%5–6%
Google Speech-to-Text (V2)4–5%6–8%5–7%6–8%
Azure Speech4–5%6–9%5–7%5–7%
Deepgram Nova-23–4%7–10%5–7%6–8%

Nota importante: estas cifras corresponden a audio limpio en condiciones controladas. En grabaciones del mundo real, espere un WER 1,5–3 veces mayor. Diferentes benchmarks tambien arrojan resultados distintos, por lo que comparar cifras de diferentes fuentes requiere precaucion. Para una comparacion detallada de modelos y servicios de transcripcion para el idioma ruso, consulte nuestra guia de mercado.


Limitaciones del WER como metrica

A pesar de su ubicuidad, el WER esta lejos de ser una metrica perfecta. Tiene limitaciones significativas.

Ignora la puntuacion. El WER compara solo palabras, ignorando comas, puntos y otros signos de puntuacion. Sin embargo, la puntuacion puede cambiar fundamentalmente el significado.

Ignora las mayusculas. "Madrid" y "madrid" son lo mismo para el WER, aunque en el texto esto puede ser importante.

No distingue la gravedad del error. Sustituir "conferencia" por "conferencias" (forma flexiva) y sustituir "aprobado" por "cancelado" cuentan ambas como una sustitucion, aunque la segunda cambia completamente el significado.

No tiene en cuenta la normalizacion. "15" y "quince", "Sr." y "Senor", "%" y "por ciento" — son cadenas diferentes para el WER, aunque son semanticamente identicas.

El WER puede superar el 100%. Si el sistema inserta muchas palabras adicionales, el numerador puede superar al denominador. Raro en la practica, pero formalmente posible.

No refleja la legibilidad. Un texto con 10% de WER donde los errores estan distribuidos uniformemente puede leerse mejor que uno con 5% de WER donde todos los errores estan concentrados en un unico parrafo critico.


Metricas alternativas

Debido a las limitaciones del WER, investigadores y desarrolladores tambien utilizan otras metricas.

CER (Character Error Rate — Tasa de Error de Caracteres)

El equivalente del WER a nivel de caracteres. La misma formula, pero contando caracteres individuales en lugar de palabras. El CER es especialmente util para idiomas que no separan palabras con espacios (chino, japones, tailandes) y para evaluar errores morfologicos en idiomas flexivos: "libro" vs "libros" es un error del 100% en WER pero solo alrededor del 17% en CER (un caracter cambiado de seis).

MER (Match Error Rate — Tasa de Error de Coincidencia)

Una version normalizada del WER que tiene en cuenta la alineacion entre las palabras de referencia y las de hipotesis. El MER siempre permanece en el rango 0–1, a diferencia del WER que puede superar el 100%.

WIL (Word Information Lost — Informacion de Palabras Perdida)

Una metrica que considera tanto la precision como la exhaustividad del reconocimiento. El WIL indica que proporcion de informacion se perdio. Se considera una evaluacion mas equilibrada que el WER.

Evaluacion subjetiva

MOS (Mean Opinion Score) — una puntuacion humana promedio en una escala de 1 a 5. Un grupo de evaluadores califica la calidad de la transcripcion y sus puntuaciones se promedian. Costoso y lento, pero el reflejo mas preciso de la calidad real.

Evaluacion de legibilidad — en lugar de una comparacion palabra por palabra, los expertos evaluan que tan bien el texto transmite el significado del original y que tan facil es de leer.


Como mejorar el WER para sus tareas

Si la calidad de la transcripcion no cumple con sus necesidades, aqui esta lo que puede hacer — en orden de efectividad.

1. Mejorar la calidad del audio. Este es el paso mas efectivo. Use un microfono externo, minimice el ruido de fondo, grabe en una habitacion tranquila. Simplemente cambiar del microfono integrado del portatil a un microfono de solapa puede reducir el WER entre 5 y 10%.

2. Elegir el modelo adecuado. Para maxima precision, use modelos grandes: Whisper large-v3 para tareas multilingues. Los modelos mas pequenos (tiny, small) son mas rapidos pero cometen mas errores.

3. Aplicar posprocesamiento. Puntuacion automatica, normalizacion de numeros, expansion de abreviaturas, correccion de errores comunes — todo esto mejora la legibilidad aunque no reduzca formalmente el WER.

4. Usar fine-tuning. Si trabaja con vocabulario especializado (medicina, derecho, tecnologia), el ajuste fino de un modelo con su terminologia puede reducir el WER entre un 20 y 40% relativo para esos terminos.

5. Usar un servicio optimizado. Servicios como Diktovka combinan Whisper large-v3 con diarizacion de hablantes, normalizacion y resumen con IA para ofrecer los mejores resultados posibles sin ajustes manuales.


Conclusiones clave

El WER sigue siendo el estandar de referencia para evaluar la calidad del reconocimiento de voz, a pesar de sus limitaciones. Comprender esta metrica le ayuda a:

Recuerde: un 5% de WER no significa que el texto sea perfecto — significa que aproximadamente una de cada 20 palabras contendra un error. Para una grabacion corta, puede ser imperceptible. Para una conferencia de una hora, son docenas de errores. El contexto, la calidad del audio y la eleccion de la herramienta correcta marcan toda la diferencia.

FAQ

Que WER se considera bueno para el reconocimiento de voz?

Un WER inferior al 5% es excelente — el texto puede usarse sin editar. 5-10% es bueno con correcciones minimas. 10-20% es aceptable, el sentido principal queda claro. Por encima del 20% la calidad es mala.

Como se calcula el WER?

WER = (S + D + I) / N x 100%, donde S son sustituciones (palabras mal reconocidas), D son eliminaciones (palabras omitidas), I son inserciones (palabras anadidas de mas) y N es el numero total de palabras en el texto de referencia.

Cual es la diferencia entre WER y CER?

WER cuenta errores a nivel de palabras, mientras que CER (Character Error Rate) los cuenta a nivel de caracteres individuales. CER es mas util para evaluar errores morfologicos: cambiar 'libro' por 'libros' es un error del 100% en WER pero solo alrededor del 17% en CER.

Por que el WER puede superar el 100%?

El WER puede superar el 100% porque el numerador de la formula incluye inserciones — palabras que el sistema anadio sin estar en el original. Si hay muchas inserciones, el numerador supera al denominador. En la practica, esto es poco frecuente.

Que WER alcanzan los modelos actuales para los principales idiomas?

Whisper large-v3 alcanza un 3-4% de WER en audio limpio en ingles y un 4-5% en espanol. En grabaciones del mundo real (reuniones, llamadas telefonicas), se puede esperar un 12-20% debido al ruido, los acentos y el habla superpuesta.