Todos os artigos

WER (Word Error Rate): como a precisao do reconhecimento de fala e medida

·14 min de leitura

O Word Error Rate (WER) e a metrica padrao-ouro para avaliar a qualidade do reconhecimento de fala. Explicamos a formula, percorremos exemplos reais, esclarecemos o que diferentes valores de WER significam na pratica e cobrimos os fatores que determinam a precisao da transcricao. Se voce alguma vez se perguntou por que um servico de transcricao produz texto quase perfeito enquanto outro entrega um amontoado de palavras sem sentido, a resposta quase sempre se resume a tres letras: WER.


O que e WER

Word Error Rate (WER, Taxa de Erro de Palavras) e a metrica padrao utilizada para medir a precisao de sistemas de reconhecimento automatico de fala (ASR — Automatic Speech Recognition). Em termos simples, o WER indica qual percentual de palavras o sistema reconheceu incorretamente.

O conceito e direto: pega-se um texto de referencia (o que realmente foi dito), compara-se com a saida do sistema (o que o ASR produziu) e contam-se os erros. Quanto menor o WER, melhor o reconhecimento.

O WER e utilizado em todos os lugares — em artigos academicos, documentacao de APIs de reconhecimento de fala, benchmarks comparativos de modelos e avaliacoes de produtos. E a lingua franca da industria ASR, a linguagem comum compartilhada por pesquisadores, desenvolvedores e usuarios finais.


A formula do WER

A formula do WER e:

WER = (S + D + I) / N x 100%

Onde:

Observe que o numerador contem tres tipos de erros, enquanto o denominador e apenas a contagem de palavras de referencia. Isso significa que o WER pode teoricamente ultrapassar 100% (se houver muitas insercoes), embora isso seja raro na pratica.


Como o WER e calculado: um exemplo pratico

Vamos percorrer um exemplo concreto.

Referencia (o que realmente foi dito): "Eu quero reservar uma passagem de trem para Lisboa"

Saida do ASR: "Eu quero reservar uma passagem de aviao para Lisboa"

Comparacao palavra por palavra:

PosicaoReferenciaReconhecidoTipo de erro
1EuEuCorreto
2queroqueroCorreto
3reservarreservarCorreto
4umaumaCorreto
5passagempassagemCorreto
6dedeCorreto
7tremaviaoSubstituicao (S)
8paraparaCorreto
9LisboaLisboaCorreto

Resultado:

WER = (1 + 0 + 0) / 9 x 100% = 11,1%

Agora consideremos um exemplo mais complexo com os tres tipos de erros:

Referencia: "A reuniao sera amanha as dez horas da manha"

Saida do ASR: "A reuniao sera as dez e meia da manha"

PosicaoReferenciaReconhecidoTipo de erro
1AACorreto
2reuniaoreuniaoCorreto
3seraseraCorreto
4amanhaDelecao (D)
5asasCorreto
6dezdezCorreto
7horaseSubstituicao (S)
8meiaInsercao (I)
9dadaCorreto
10manhamanhaCorreto

WER = (1 + 1 + 1) / 8 x 100% = 37,5%

Ponto importante: o sistema omitiu "amanha" — uma palavra com significado critico sobre quando a reuniao acontecera — e alterou o horario. O WER trata todos esses erros igualmente, o que e uma de suas limitacoes conhecidas.


O que diferentes valores de WER significam

Nem todos os valores de WER tem o mesmo impacto pratico. Aqui esta uma escala geral:

WERQualidadeSignificado pratico
Abaixo de 5%ExcelenteUso profissional sem edicao. Pronto para publicacao
5–10%BomEdicao minima necessaria. Adequado para notas, atas, legendas
10–20%AceitavelErros notaveis, mas o sentido principal e claro. Edicao significativa necessaria
20–30%RuimRequer nova audicao e correcoes substanciais
Acima de 30%InutilizavelMais rapido digitar do zero

O contexto importa enormemente. Para documentacao medica, ate 5% de WER pode ser inaceitavel — um nome de medicamento errado e uma questao de seguranca do paciente. Para notas de voz pessoais, 15% de WER e perfeitamente aceitavel se as ideias principais forem transmitidas.


Fatores que afetam o WER

A precisao da transcricao depende de muitos fatores. Compreende-los ajuda a escolher a ferramenta certa e preparar o audio para obter os melhores resultados.

Qualidade do audio

Este e o fator mais importante — frequentemente mais impactante do que o modelo utilizado.

Ruido de fundo e o inimigo mais comum da precisao. Zumbido do ar-condicionado, conversas no comodo ao lado, barulho da rua, musica de fundo — tudo isso adiciona de 5 a 20 pontos percentuais ao WER dependendo da intensidade. Uma relacao sinal-ruido (SNR) abaixo de 10 dB torna a transcricao praticamente inutil para a maioria dos sistemas.

Qualidade do microfone faz uma diferenca significativa. Um bom microfone externo posicionado proximo ao falante pode reduzir o WER de 3 a 10% em comparacao com o microfone embutido de um notebook a distancia de um braco. Headsets e microfones de lapela sao os melhores amigos da transcricao.

Reverberacao e eco adicionam de 5 a 15% ao WER. Gravar em uma sala grande e vazia ou usar viva-voz degrada significativamente o reconhecimento. Superficies macias, tapetes, cortinas — tudo que absorve som — ajuda.

Caracteristicas da fala

Sotaque e dialeto aumentam o WER de 5 a 15%. Os modelos sao treinados principalmente com pronuncia padrao. Um forte sotaque regional reduz notavelmente a precisao. No mundo lusofono, as diferencas entre o portugues europeu e o brasileiro, bem como os diversos sotaques regionais dentro de cada pais, podem afetar significativamente o desempenho do modelo.

Velocidade da fala em ritmo rapido adiciona de 3 a 10% ao WER. Quando as pessoas falam rapido, as palavras se fundem, os limites entre elas ficam indefinidos e os modelos tem dificuldade em segmenta-las.

Fala sobreposta e o cenario mais dificil para sistemas ASR. Quando duas pessoas falam simultaneamente, o WER pode aumentar de 10 a 30%. Mesmo modelos com diarizacao (separacao de falantes) lidam mal com conversas cruzadas.

Vocabulario especializado — termos tecnicos, abreviacoes, nomes de empresas e produtos — adiciona de 5 a 15% ao WER. O modelo pode nao conhecer a palavra "descontaminacao" ou o nome do medicamento "Amoxicilina" e substitui-los por algo foneticamente similar.

Idioma

Nem todos os idiomas sao reconhecidos com a mesma precisao.

Ingles mostra consistentemente os melhores resultados porque possui a maior quantidade de dados de treinamento. O Whisper large-v3 alcanca 3–4% de WER em audio limpo em ingles.

Portugues e um dos idiomas bem suportados, com 5–7% de WER em audio limpo. As diferencas entre portugues brasileiro e europeu (pronomes, gerundio vs infinitivo, vocabulario) podem causar variacoes nos resultados. Em gravacoes do mundo real (reunioes, chamadas telefonicas), o WER pode subir para 12–20%.

Idiomas com poucos recursos mostram WER significativamente maior — de 15% a mais de 40% mesmo em audio limpo, simplesmente porque os modelos foram treinados com muito menos dados.


WER em diferentes modelos

Resultados comparativos de modelos populares em benchmarks padrao (fala limpa, qualidade de estudio):

ModeloInglesRussoEspanholAlemao
Whisper large-v33–4%5–7%4–5%5–6%
Google Speech-to-Text (V2)4–5%6–8%5–7%6–8%
Azure Speech4–5%6–9%5–7%5–7%
Deepgram Nova-23–4%7–10%5–7%6–8%

Nota importante: esses numeros sao para audio limpo em condicoes controladas. Em gravacoes do mundo real, espere WER 1,5 a 3 vezes maior. Diferentes benchmarks tambem geram resultados diferentes, portanto a comparacao de numeros de fontes distintas requer cautela. Para uma comparacao detalhada de modelos e servicos de transcricao para o idioma russo, consulte nosso guia de mercado.


Limitacoes do WER como metrica

Apesar de sua ubiquidade, o WER esta longe de ser uma metrica perfeita. Tem limitacoes significativas.

Ignora a pontuacao. O WER compara apenas palavras, ignorando virgulas, pontos e outros sinais de pontuacao. No entanto, a pontuacao pode mudar fundamentalmente o significado.

Ignora maiusculas e minusculas. "Lisboa" e "lisboa" sao iguais para o WER, embora isso possa importar na saida de texto.

Nao distingue a gravidade do erro. Substituir "conferencia" por "conferencias" (forma flexional) e substituir "aprovado" por "cancelado" contam ambas como uma substituicao, embora a segunda mude completamente o significado.

Nao considera a normalizacao. "15" e "quinze", "Sr." e "Senhor", "%" e "por cento" — sao strings diferentes para o WER, apesar de serem semanticamente identicas.

O WER pode ultrapassar 100%. Se o sistema inserir muitas palavras extras, o numerador pode exceder o denominador. Raro na pratica, mas formalmente possivel.

Nao reflete a legibilidade. Um texto com 10% de WER onde os erros estao distribuidos uniformemente pode ser mais legivel do que um com 5% de WER onde todos os erros estao concentrados em um unico paragrafo critico.


Metricas alternativas

Devido as limitacoes do WER, pesquisadores e desenvolvedores tambem utilizam outras metricas.

CER (Character Error Rate — Taxa de Erro de Caracteres)

O equivalente do WER no nivel de caracteres. Mesma formula, mas contando caracteres individuais em vez de palavras. O CER e especialmente util para idiomas que nao separam palavras com espacos (chines, japones, tailandes) e para avaliar erros morfologicos em linguas flexivas: "livro" vs "livros" e um erro de 100% no WER mas apenas cerca de 17% no CER (um caractere alterado em seis).

MER (Match Error Rate — Taxa de Erro de Correspondencia)

Uma versao normalizada do WER que considera o alinhamento entre as palavras de referencia e as de hipotese. O MER sempre permanece no intervalo de 0 a 1, diferente do WER que pode ultrapassar 100%.

WIL (Word Information Lost — Informacao de Palavras Perdida)

Uma metrica que considera tanto a precisao quanto a abrangencia do reconhecimento. O WIL indica que proporcao de informacao foi perdida. E considerada uma avaliacao mais equilibrada do que o WER.

Avaliacao subjetiva

MOS (Mean Opinion Score) — uma pontuacao humana media em uma escala de 1 a 5. Um grupo de avaliadores classifica a qualidade da transcricao e suas notas sao calculadas em media. Caro e lento, mas o reflexo mais preciso da qualidade no mundo real.

Avaliacao de legibilidade — em vez de uma comparacao palavra por palavra, especialistas avaliam quao bem o texto transmite o significado do original e quao facil e de ler.


Como melhorar o WER para suas tarefas

Se a qualidade da transcricao nao esta atendendo suas necessidades, aqui esta o que voce pode fazer — em ordem de eficacia.

1. Melhorar a qualidade do audio. Este e o passo mais impactante. Use um microfone externo, minimize o ruido de fundo, grave em um ambiente silencioso. Simplesmente trocar o microfone embutido do notebook por um microfone de lapela pode reduzir o WER de 5 a 10%.

2. Escolher o modelo certo. Para maxima precisao, use modelos grandes: Whisper large-v3 para tarefas multilinguais. Modelos menores (tiny, small) sao mais rapidos, mas cometem mais erros.

3. Aplicar pos-processamento. Pontuacao automatica, normalizacao de numeros, expansao de abreviacoes, correcao de erros comuns — tudo isso melhora a legibilidade mesmo que nao reduza formalmente o WER.

4. Usar fine-tuning. Se voce trabalha com vocabulario especializado (medicina, direito, TI), o ajuste fino de um modelo com sua terminologia pode reduzir o WER de 20 a 40% relativo para esses termos.

5. Usar um servico otimizado. Servicos como o Diktovka combinam Whisper large-v3 com diarizacao de falantes, normalizacao e resumo com IA para entregar os melhores resultados possiveis sem ajustes manuais.


Conclusoes principais

O WER permanece como o padrao-ouro para avaliar a qualidade do reconhecimento de fala, apesar de suas limitacoes. Compreender essa metrica ajuda voce a:

Lembre-se: 5% de WER nao significa que o texto e perfeito — significa que aproximadamente uma em cada 20 palavras contera um erro. Para uma gravacao curta, pode ser imperceptivel. Para uma palestra de uma hora, sao dezenas de erros. O contexto, a qualidade do audio e a escolha da ferramenta certa fazem toda a diferenca.

FAQ

Qual e um bom WER para reconhecimento de fala?

WER abaixo de 5% e qualidade excelente — o texto pode ser usado sem edicao. 5-10% e bom com correcoes minimas. 10-20% e aceitavel, o sentido principal fica claro. Acima de 20% e qualidade ruim que exige nova audicao.

Como o WER e calculado?

WER = (S + D + I) / N x 100%, onde S sao substituicoes (palavras reconhecidas incorretamente), D sao delecoes (palavras omitidas), I sao insercoes (palavras extras adicionadas) e N e o numero total de palavras no texto de referencia.

Qual e a diferenca entre WER e CER?

WER conta erros no nivel de palavras, enquanto CER (Character Error Rate) conta no nivel de caracteres individuais. CER e mais util para avaliar erros morfologicos: mudar 'livro' para 'livros' e um erro de 100% no WER mas apenas cerca de 17% no CER.

Por que o WER pode ultrapassar 100%?

O WER pode ultrapassar 100% porque o numerador da formula inclui insercoes — palavras que o sistema adicionou sem estarem no original. Se houver muitas insercoes, o numerador ultrapassa o denominador. Na pratica, isso e raro.

Qual WER os modelos atuais alcancam para os principais idiomas?

O Whisper large-v3 alcanca 3-4% de WER em audio limpo em ingles e 5-7% para portugues. Em gravacoes do mundo real (reunioes, chamadas telefonicas), espere 12-20% devido a ruido, sotaques e fala sobreposta.