Усе артыкулы

WER (Word Error Rate): як вымяраюць дакладнасць распазнавання маулення

·14 хв чытання

Word Error Rate (WER) — галоуная метрыка якасці распазнавання маулення. Разбіраем формулу, лічым на прыкладзе, тлумачым, што азначаюць розныя значэнні WER і ад чаго залежыць дакладнасць транскрыбавання. Калі вы калі-небудзь задумваліся, чаму адзін сэрвіс транскрыбавання выдае амаль ідэальны тэкст, а іншы — кашу са слоу, адказ амаль заусёды крыецца у трох літарах: WER.


Што такое WER

Word Error Rate (WER, каэфіцыент паслоунай памылкі) — гэта стандартная метрыка, якой вымяраюць дакладнасць сістэм аутаматычнага распазнавання маулення (ASR — Automatic Speech Recognition). Прасцей кажучы, WER паказвае, які працэнт слоу сістэма распазнала няправільна.

Ідэя простая: бяром эталонны тэкст (тое, што было сказана на самай справе), параунуваем яго з тым, што выдала сістэма, і лічым колькасць памылак. Чым ніжэй WER — тым лепш працуе распазнаванне.

WER выкарыстоуваецца паусюдна: у навуковых артыкулах, у дакументацыі да API распазнавання маулення, у параунальных аглядах мадэляу. Гэта lingua franca індустрыі — адзіная мова, на якой гавораць распрацоушчыкі, даследчыкі і карыстальнікі.


Формула WER

Формула WER выглядае так:

WER = (S + D + I) / N x 100%

Дзе:

Звярніце увагу: у лічніку — тры тыпы памылак, а у назоуніку — толькі колькасць слоу у эталоне. Гэта азначае, што тэарэтычна WER можа перавышаць 100% (калі устáвак вельмі шмат), хаця на практыцы такое здараецца рэдка.


Як лічыцца WER: разбор на прыкладзе

Разгледзім канкрэтны прыклад.

Эталон (што было сказана): "Я хачу замовіць білет на цягнік"

Вынік распазнавання: "Я хачу замовіць білеты на цягнікі"

Параунуваем слова за словам:

ПазіцыяЭталонРаспазнанаТып памылкі
1ЯЯПравільна
2хачухачуПравільна
3замовіцьзамовіцьПравільна
4білетбілетыЗамена (S)
5нанаПравільна
6цягнікцягнікіЗамена (S)

Вынік:

WER = (2 + 0 + 0) / 6 x 100% = 33,3%

Гэта даволі высокі WER — сістэма пераблытала склонавыя формы двух слоу. Для чалавека тэкст цалкам зразумелы, але фармальна трэць слоу распазнана няверна.

Разгледзім іншы прыклад, дзе сустракаюцца усе тры тыпы памылак:

Эталон: "Сустрэча адбудзецца заутра а дзесятай раніцы"

Распазнана: "Сустрэча адбудзецца а дзесятай гадзіне раніцы"

ПазіцыяЭталонРаспазнанаТып памылкі
1СустрэчаСустрэчаПравільна
2адбудзеццаадбудзеццаПравільна
3заутраПропуск (D)
4ааПравільна
5дзесятайдзесятайПравільна
6гадзінеУстаука (I)
7раніцыраніцыПравільна

WER = (0 + 1 + 1) / 6 x 100% = 33,3%

Цікава, што WER аднолькавы, але памылкі зусім розныя. У першым выпадку тэкст чытэльны, у другім — страчаны важны сэнс (слова "заутра"). Гэта адно з абмежаванняу WER як метрыкі, пра якія мы пагаворым ніжэй.


Што азначаюць розныя значэнні WER

Не усе значэнні WER раунозначныя па практычным уплыве. Вось арыенціровачная шкала:

WERЯкасцьПрактычнае значэнне
менш за 5%ВыдатнаяПрафесійнае выкарыстанне без праукі. Тэкст можна публікаваць як ёсць
5–10%ДобраяМінімальная праука. Падыходзіць для нататак, пратаколау, субцітрау
10–20%ПрымальнаяПатрэбна значная праука, але асноуны сэнс зразумелы
20–30%ДрэннаяТэкст патрабуе перапраслухоування і істотнай рэдактуры
больш за 30%НепрымальнаяПрактычна бескарысна — хутчэй набраць уручную

Важна разумець кантэкст. Для медычнай дакументацыі нават 5% WER можа быць недапушчальным — памылка у назве лекау крытычная. Для асабістых нататак 15% WER цалкам дапушчальна, калі асноуныя думкі перададзены верна.


Фактары, якія уплываюць на WER

Дакладнасць распазнавання маулення залежыць ад мноства фактарау. Разуменне гэтых фактарау дапамагае не толькі абраць правільны інструмент, але і падрыхтаваць аудыё для лепшага выніку.

Якасць аудыё

Гэта галоуны фактар, які уплывае на WER больш, чым выбар мадэлі.

Фонавы шум — самы распаусюджаны вораг дакладнасці. Шум кандыцыянера, размовы за сцяной, вулічны шум, музыка — усё гэта павялічвае WER на 5–20 працэнтных пунктау у залежнасці ад інтэнсіунасці. Суадносіны сігнал/шум (SNR) ніжэй 10 дБ робіць транскрыбаванне практычна бессэнсоуным для большасці сістэм.

Якасць мікрафона істотна уплывае на вынік. Добры мікрафон з блізкім размяшчэннем да мауца зніжае WER на 3–10% у параунанні з убудаваным мікрафонам наутбука на адлегласці метра. Гарнітура або петлічка — лепшыя сябры транскрыбавання.

Рэверберацыя і рэха дадаюць 5–15% да WER. Запіс у вялікім пустым памяшканні або па гучнай сувязі (speakerphone) значна пагаршае распазнаванне.

Характарыстыкі маулення

Акцэнт і дыялект павялічваюць WER на 5–15%. Мадэлі навучаны пераважна на стандартным вымауленні. Моцны рэгіянальны акцэнт або дыялект прыкметна зніжае дакладнасць. Для беларускай мовы гэта датычыць адрозненняу паміж рэгіянальнымі гаворкамі, а таксама трасянкі.

Хуткасць маулення пры хуткім тэмпе дадае 3–10% да WER. Калі чалавек таратарыць, словы зліваюцца, межы паміж імі размываюцца, і мадэлі складаней іх раздзяліць.

Перабіванні і накладанне маулення — самы складаны выпадак для ASR-сістэм. Калі дзве асобы гавораць адначасова, WER можа вырасці на 10–30%.

Спецыялізаваная лексіка — прафесійныя тэрміны, абрэвіятуры, назвы кампаній і прадуктау дадаюць 5–15% да WER.

Мова

Не усе мовы распазнаюцца аднолькава добра.

Англійская традыцыйна паказвае лепшыя вынікі, таму што на ёй навучана найбольш дадзеных. Whisper large-v3 дасягае 3–4% WER на чыстым англійскім аудыё.

Беларуская — мова з абмежаванай падтрымкай у большасці ASR-сістэм. Whisper large-v3 уключае беларускую мову, але з-за адносна невялікага аб'ёму навучальных дадзеных вынікі горшыя за рускую ці украінскую. На чыстым аудыё можна чакаць прыкладна 12–20% WER, на рэальных запісах — значна вышэй. Спецыфічныя выклікі: дзеканне і цеканне, аканне, мяккі знак, гістарычныя і сучасныя варыянты правапісу.

Маларэсурсныя мовы паказваюць значна вышэйшы WER — ад 15% да 40%+ нават на чыстым аудыё.


WER для розных мадэляу

Параунальныя вынікі папулярных мадэляу на стандартных бенчмарках (чыстае маулленне, студыйная якасць):

МадэльАнглійскаяРускаяІспанскаяНямецкая
Whisper large-v33–4%5–7%4–5%5–6%
Google Speech-to-Text (V2)4–5%6–8%5–7%6–8%
Azure Speech4–5%6–9%5–7%5–7%
Deepgram Nova-23–4%7–10%5–7%6–8%

Важна: гэтыя лічбы — на чыстым аудыё ва умовах кантролю. На рэальных запісах WER будзе вышэйшым у 1,5–3 разы. Падрабязнае параунанне мадэляу і сэрвісау транскрыбавання для рускай мовы глядзіце у нашым аглядзе рынку.


Абмежаванні WER як метрыкі

Нягледзячы на паусюднае выкарыстанне, WER — далёка не ідэальная метрыка. У яе ёсць істотныя абмежаванні.

Не улічвае пунктуацыю. WER параунувае толькі словы, ігнаруючы коскі, кропкі і іншыя знакі прыпынку. А пунктуацыя можа кардынальна мяняць сэнс.

Не улічвае рэгістр. "Мінск" і "мінск" для WER — адно і тое ж, хаця у тэксце гэта можа быць важна.

Не адрознівае сур'ёзнасць памылак. Замена "канферэнцыя" на "канферэнцыі" (склонавая форма) і замена "ухвалена" на "адменена" лічацца аднолькавымі памылкамі, хаця другая цалкам мяняе сэнс.

Не улічвае нармалізацыю. "15" і "пятнаццаць", "спадар" і "сп.", "%" і "працэнтау" — гэта розныя радкі з пункту гледжання WER, хаця семантычна ідэнтычныя.

WER можа перавышаць 100%. Калі сістэма дадае шмат лішніх слоу (insertions), лічнік можа аказацца большым за назоунік.

Не адлюстроувае чытэльнасць. Тэкст з WER 10%, дзе памылкі раунамерна размеркаваны, можа чытацца лепш, чым тэкст з WER 5%, дзе усе памылкі сканцэнтраваны у адным ключавым абзацы.


Альтэрнатыуныя метрыкі

З-за абмежаванняу WER даследчыкі і распрацоушчыкі выкарыстоуваюць і іншыя метрыкі.

CER (Character Error Rate)

Аналаг WER, але на узроуні асобных сімвалау, а не слоу. Формула тая ж, толькі замест слоу лічацца сімвалы. CER асабліва карысны для моу, дзе словы не раздзяляюцца прабеламі (кітайская, японская, тайская), а таксама для ацэнкі марфалагічных памылак у флектыуных мовах на кшталт беларускай: "білет" vs "білеты" — гэта 100% памылка па WER, але толькі каля 17% па CER.

MER (Match Error Rate)

Нармалізаваная версія WER, якая улічвае адпаведнасць паміж словамі эталону і гіпотэзы. MER заусёды знаходзіцца у дыяпазоне ад 0 да 1.

WIL (Word Information Lost)

Метрыка, якая улічвае не толькі дакладнасць (precision), але і паунату (recall) распазнавання. WIL паказвае, якая доля інфармацыі была страчана.

Суб'ектыуная ацэнка

MOS (Mean Opinion Score) — сярэдняя экспертная ацэнка па шкале ад 1 да 5. Група людзей ацэньвае якасць транскрыпцыі, і іх ацэнкі усярэдняюцца. Гэта дорага і павольна, але найбольш дакладна адлюстроувае рэальную якасць.


Як палепшыць WER для вашых задач

Калі вас не задавальняе якасць транскрыбавання, вось што можна зрабіць — у парадку змяншэння эфектыунасці.

1. Палепшыць якасць аудыё. Гэта самы дзейсны спосаб. Выкарыстоувайце знешні мікрафон, мінімізуйце фонавы шум, запісвайце у ціхім памяшканні. Адзін толькі пераход з убудаванага мікрафона наутбука на петлічку можа знізіць WER на 5–10%.

2. Абраць адпаведную мадэль. Для максімальнай дакладнасці выкарыстоувайце вялікія мадэлі: Whisper large-v3 для мультымоуных задач. Мадэлі меншага памеру (tiny, small) працуюць хутчэй, але і памыляюцца часцей.

3. Прымяніць постапрацоуку. Аутаматычная расстаноука пунктуацыі, нармалізацыя лічбау і абрэвіятур, выпрауленне тыповых памылак — усё гэта паляпшае чытэльнасць тэксту.

4. Выкарыстаць fine-tuning. Калі вы працуеце з вузкаспецыялізаванай лексікай (медыцына, юрыспрудэнцыя, IT), данавучанне мадэлі на вашай тэрміналогіі можа знізіць WER на 20–40% адносна для такіх тэрмінау.

5. Скарыстацца гатовым сэрвісам з аптымізаваным пайплайнам. Сэрвісы накшталт Дыктоукі камбінуюць Whisper large-v3 з дыярызацыяй мауцоу, нармалізацыяй і AI-сумарызацыяй, каб даць максімальна якасны вынік без ручных наладак.


Вынікі

WER застаецца залатым стандартам ацэнкі якасці распазнавання маулення, нягледзячы на свае абмежаванні. Разуменне гэтай метрыкі дапамагае:

Памятайце: WER 5% не азначае, што тэкст ідэальны — гэта значыць, што з кожных 20 слоу адно будзе з памылкай. Для кароткіх запісау гэта можа быць непрыкметна, для гадзіннай лекцыі — гэта дзясяткі памылак. Кантэкст, якасць аудыё і правільны выбар інструмента вырашаюць усё.

FAQ

Які WER лічыцца добрым для распазнавання маулення?

WER менш за 5% — выдатная якасць, тэкст можна выкарыстоуваць без праукі. 5-10% — добрая якасць з мінімальнай праукай. 10-20% — прымальна, асноуны сэнс зразумелы. Вышэй за 20% — дрэнная якасць, патрабуе перапраслухоування.

Як разлічыць WER?

WER = (S + D + I) / N x 100%, дзе S — замены (няправільна распазнаныя словы), D — пропускі (прапушчаныя словы), I — устаукі (лішнія словы), N — агульная колькасць слоу у эталонным тэксце.

Чым WER адрозніваецца ад CER?

WER лічыць памылкі на узроуні слоу, а CER (Character Error Rate) — на узроуні асобных сімвалау. CER больш карысны для ацэнкі марфалагічных памылак: замена «білет» на «білеты» — гэта 100% памылка па WER, але толькі каля 17% па CER.

Чаму WER можа перавышаць 100%?

WER можа перавышаць 100%, таму што у лічніку формулы улічваюцца устаукі — словы, якія сістэма дадала, хаця у арыгінале іх не было. Калі устáвак вельмі шмат, лічнік становіцца большым за назоунік. На практыцы такое здараецца рэдка.

Які WER паказваюць сучасныя мадэлі для асноуных моу?

Whisper large-v3 паказвае 3-4% WER на чыстым англійскім аудыё і 5-7% для рускай. На рэальных запісах (нарады, тэлефонныя званкі) чакайце 12-18% з-за шуму, акцэнтау і перабіванняу.