Все статьи

WER (Word Error Rate): как измеряют точность распознавания речи

·14 мин чтения

Word Error Rate (WER) — главная метрика качества распознавания речи. Разбираем формулу, считаем на примере, объясняем, что означают разные значения WER и от чего зависит точность транскрибации. Если вы когда-нибудь задавались вопросом, почему один сервис транскрибации выдаёт почти идеальный текст, а другой — кашу из слов, ответ почти всегда кроется в трёх буквах: WER.


Что такое WER

Word Error Rate (WER, коэффициент пословной ошибки) — это стандартная метрика, которой измеряют точность систем автоматического распознавания речи (ASR — Automatic Speech Recognition). Проще говоря, WER показывает, какой процент слов система распознала неправильно.

Идея проста: берём эталонный текст (то, что было сказано на самом деле), сравниваем его с тем, что выдала система, и считаем количество ошибок. Чем ниже WER — тем лучше работает распознавание.

WER используется повсеместно: в научных статьях, в документации к API распознавания речи, в сравнительных обзорах моделей. Это lingua franca индустрии — единый язык, на котором говорят разработчики, исследователи и пользователи.


Формула WER

Формула WER выглядит так:

WER = (S + D + I) / N x 100%

Где:

Обратите внимание: в числителе — три типа ошибок, а в знаменателе — только количество слов в эталоне. Это означает, что теоретически WER может превышать 100% (если вставок очень много), хотя на практике такое встречается редко.


Как считается WER: разбор на примере

Рассмотрим конкретный пример.

Эталон (что было сказано): "Я хочу заказать билет на поезд"

Результат распознавания: "Я хочу заказать билеты на поезда"

Сравниваем слово за словом:

ПозицияЭталонРаспознаноТип ошибки
1ЯЯВерно
2хочухочуВерно
3заказатьзаказатьВерно
4билетбилетыЗамена (S)
5нанаВерно
6поездпоездаЗамена (S)

Итого:

WER = (2 + 0 + 0) / 6 x 100% = 33.3%

Это довольно высокий WER — система перепутала падежные формы двух слов. Для человека текст вполне понятен, но формально треть слов распознана неверно.

Рассмотрим другой пример, где встречаются все три типа ошибок:

Эталон: "Встреча состоится завтра в десять утра"

Распознано: "Встреча состоится в десять часов утра"

ПозицияЭталонРаспознаноТип ошибки
1ВстречаВстречаВерно
2состоитсясостоитсяВерно
3завтраПропуск (D)
4ввВерно
5десятьдесятьВерно
6часовВставка (I)
7утраутраВерно

WER = (0 + 1 + 1) / 6 x 100% = 33.3%

Интересно, что WER одинаковый, но ошибки совершенно разные. В первом случае текст читаем, во втором — потерян важный смысл (слово "завтра"). Это одно из ограничений WER как метрики, о которых мы поговорим ниже.


Что означают разные значения WER

Не все значения WER равнозначны по практическому влиянию. Вот ориентировочная шкала:

WERКачествоПрактическое значение
менее 5%ОтличноеПрофессиональное использование без правки. Текст можно публиковать как есть
5–10%ХорошееМинимальная правка. Подходит для заметок, протоколов, субтитров
10–20%ПриемлемоеНужна значительная правка, но основной смысл понятен
20–30%ПлохоеТекст требует переслушивания и существенной редактуры
более 30%НеприемлемоеПрактически бесполезно — быстрее набрать вручную

Важно понимать контекст. Для медицинской документации даже 5% WER может быть недопустимым — ошибка в названии лекарства критична. Для личных заметок 15% WER вполне терпимы, если основные мысли переданы верно.


Факторы, влияющие на WER

Точность распознавания речи зависит от множества факторов. Понимание этих факторов помогает не только выбрать правильный инструмент, но и подготовить аудио для лучшего результата.

Качество аудио

Это главный фактор, влияющий на WER больше, чем выбор модели.

Фоновый шум — самый распространённый враг точности. Шум кондиционера, разговоры за стеной, уличный шум, музыка — всё это увеличивает WER на 5–20 процентных пунктов в зависимости от интенсивности. Соотношение сигнал/шум (SNR) ниже 10 дБ делает транскрибацию практически бессмысленной для большинства систем.

Качество микрофона существенно влияет на результат. Хороший микрофон с близким расположением к говорящему снижает WER на 3–10% по сравнению со встроенным микрофоном ноутбука на расстоянии метра. Гарнитура или петличка — лучшие друзья транскрибации.

Реверберация и эхо добавляют 5–15% к WER. Запись в большом пустом помещении или по громкой связи (speakerphone) значительно ухудшает распознавание. Мягкие поверхности, ковры, шторы — всё, что поглощает звук, помогает.

Характеристики речи

Акцент и диалект увеличивают WER на 5–15%. Модели обучены преимущественно на стандартном произношении. Сильный региональный акцент, говор или иностранный акцент при речи на русском заметно снижают точность.

Скорость речи при быстром темпе добавляет 3–10% к WER. Когда человек тараторит, слова сливаются, границы между ними размываются, и модели сложнее их разделить.

Перебивания и наложение речи — самый сложный случай для ASR-систем. Когда два человека говорят одновременно, WER может вырасти на 10–30%. Даже модели с диаризацией (разделением по спикерам) справляются с перебиваниями плохо.

Специализированная лексика — профессиональные термины, аббревиатуры, названия компаний и продуктов добавляют 5–15% к WER. Модель может не знать слово "деконтаминация" или название лекарства "Амоксиклав" и заменить их на что-то похожее по звучанию.

Язык

Не все языки распознаются одинаково хорошо.

Английский традиционно показывает лучшие результаты, потому что на нём обучено больше всего данных. Whisper large-v3 достигает 3–4% WER на чистом английском аудио.

Русский — один из хорошо поддерживаемых языков. Whisper large-v3 показывает 4–6% WER на чистом аудио, хотя на реальных записях (совещания, телефонные звонки) показатель может достигать 12–18%. Специализированные модели вроде GigaAM от Sber демонстрируют ещё лучшие результаты на русском — около 8% WER на сложных датасетах.

Редкие и малоресурсные языки показывают значительно более высокий WER — от 15% до 40%+ даже на чистом аудио, просто потому что модели обучены на гораздо меньшем объёме данных.


WER для разных моделей

Сравнительные результаты популярных моделей на стандартных бенчмарках (чистая речь, студийное качество):

МодельАнглийскийРусскийИспанскийНемецкий
Whisper large-v33–4%5–7%4–5%5–6%
Google Speech-to-Text (V2)4–5%6–8%5–7%6–8%
Azure Speech4–5%6–9%5–7%5–7%
Deepgram Nova-23–4%7–10%5–7%6–8%
GigaAM2 (Sber)4–6%

Важно: эти цифры — на чистом аудио в контролируемых условиях. На реальных записях WER будет выше в 1.5–3 раза. Также разные бенчмарки дают разные результаты, поэтому сравнивать цифры из разных источников нужно с осторожностью. Развёрнутое сравнение моделей для русского языка с учётом реальных датасетов — в нашем полном гиде по инструментам транскрибации.


Ограничения WER как метрики

Несмотря на повсеместное использование, WER — далеко не идеальная метрика. У неё есть существенные ограничения.

Не учитывает пунктуацию. WER сравнивает только слова, игнорируя запятые, точки и другие знаки препинания. А ведь пунктуация может кардинально менять смысл: "казнить нельзя помиловать".

Не учитывает регистр. "Москва" и "москва" для WER — одно и то же, хотя в тексте это может быть важно.

Не различает серьёзность ошибок. Замена "конференция" на "конференции" (падежная форма) и замена "одобрено" на "отменено" считаются одинаковыми ошибками, хотя вторая полностью меняет смысл.

Не учитывает нормализацию. "15" и "пятнадцать", "г-н" и "господин", "%" и "процентов" — это разные строки с точки зрения WER, хотя семантически идентичны.

WER может превышать 100%. Если система добавляет много лишних слов (insertions), числитель может оказаться больше знаменателя. На практике это редкость, но формально возможно.

Не отражает читаемость. Текст с WER 10%, где ошибки равномерно распределены, может читаться лучше, чем текст с WER 5%, где все ошибки сконцентрированы в одном ключевом абзаце.


Альтернативные метрики

Из-за ограничений WER исследователи и разработчики используют и другие метрики.

CER (Character Error Rate)

Аналог WER, но на уровне отдельных символов, а не слов. Формула та же, только вместо слов считаются символы. CER особенно полезен для языков, где слова не разделяются пробелами (китайский, японский, тайский), а также для оценки морфологических ошибок в флективных языках вроде русского: "билет" vs "билеты" — это 100% ошибка по WER, но всего около 17% по CER (изменился один символ из шести).

MER (Match Error Rate)

Нормализованная версия WER, которая учитывает соответствие между словами эталона и гипотезы. MER всегда находится в диапазоне от 0 до 1, в отличие от WER, который может превышать 100%.

WIL (Word Information Lost)

Метрика, которая учитывает не только точность (precision), но и полноту (recall) распознавания. WIL показывает, какая доля информации была потеряна. Она считается более сбалансированной оценкой, чем WER.

Субъективная оценка

MOS (Mean Opinion Score) — средняя экспертная оценка по шкале от 1 до 5. Группа людей оценивает качество транскрипции, и их оценки усредняются. Это дорого и медленно, но наиболее точно отражает реальное качество.

Оценка читаемости — вместо пословного сравнения эксперты оценивают, насколько текст передаёт смысл оригинала и насколько легко его читать. Иногда текст с более высоким WER может быть более читаемым, чем текст с низким WER, но плохой пунктуацией.


Как улучшить WER для ваших задач

Если вас не устраивает качество транскрибации, вот что можно сделать — в порядке убывания эффективности.

1. Улучшить качество аудио. Это самый действенный способ. Используйте внешний микрофон, минимизируйте фоновый шум, запишите в тихом помещении. Один только переход с встроенного микрофона ноутбука на петличку может снизить WER на 5–10%.

2. Выбрать подходящую модель. Для максимальной точности используйте крупные модели: Whisper large-v3 для мультиязычных задач, GigaAM для русского. Модели меньшего размера (tiny, small) работают быстрее, но и ошибаются чаще.

3. Применить постобработку. Автоматическая расстановка пунктуации, нормализация чисел и аббревиатур, исправление типичных ошибок — всё это улучшает читаемость текста, даже если формально не снижает WER.

4. Использовать fine-tuning. Если вы работаете с узкоспециализированной лексикой (медицина, юриспруденция, IT), дообучение модели на вашей терминологии может снизить WER на 20–40% относительно для таких терминов.

5. Использовать готовый сервис с оптимизированным пайплайном. Сервисы вроде Диктовки комбинируют Whisper large-v3 с диаризацией спикеров, нормализацией и AI-суммаризацией, чтобы дать максимально качественный результат без ручных настроек. Это самый простой способ получить низкий WER без технических знаний.


Итоги

WER остаётся золотым стандартом оценки качества распознавания речи, несмотря на свои ограничения. Понимание этой метрики помогает:

Помните: WER 5% не означает, что текст идеален — это значит, что из каждых 20 слов одно будет с ошибкой. Для коротких записей это может быть незаметно, для часовой лекции — это десятки ошибок. Контекст, качество аудио и правильный выбор инструмента решают всё.

FAQ

Какой WER считается хорошим для распознавания речи?

WER менее 5% — отличное качество, текст можно использовать без правки. 5-10% — хорошее качество с минимальной правкой. 10-20% — приемлемое, основной смысл понятен. Выше 20% — плохое качество, требующее переслушивания.

Как рассчитать WER?

WER = (S + D + I) / N x 100%, где S — замены (неправильно распознанные слова), D — пропуски (пропущенные слова), I — вставки (лишние слова), N — общее количество слов в эталонном тексте.

Чем WER отличается от CER?

WER считает ошибки на уровне слов, а CER (Character Error Rate) — на уровне отдельных символов. CER полезнее для оценки морфологических ошибок: замена «билет» на «билеты» — это 100% ошибка по WER, но всего около 17% по CER.

Почему WER может быть больше 100%?

WER может превышать 100%, потому что в числителе формулы учитываются вставки — слова, которые система добавила, хотя в оригинале их не было. Если вставок очень много, числитель становится больше знаменателя. На практике такое встречается редко.

Какой WER у современных моделей для русского языка?

Whisper large-v3 показывает 5-7% WER на чистом русском аудио, GigaAM от Sber — 4-6%. На реальных записях (совещания, телефонные звонки) показатель достигает 12-18% из-за шума, акцентов и перебиваний.