WER (Word Error Rate): як вымяраюць дакладнасць распазнавання маулення
Word Error Rate (WER) — галоуная метрыка якасці распазнавання маулення. Разбіраем формулу, лічым на прыкладзе, тлумачым, што азначаюць розныя значэнні WER і ад чаго залежыць дакладнасць транскрыбавання. Калі вы калі-небудзь задумваліся, чаму адзін сэрвіс транскрыбавання выдае амаль ідэальны тэкст, а іншы — кашу са слоу, адказ амаль заусёды крыецца у трох літарах: WER.
Што такое WER
Word Error Rate (WER, каэфіцыент паслоунай памылкі) — гэта стандартная метрыка, якой вымяраюць дакладнасць сістэм аутаматычнага распазнавання маулення (ASR — Automatic Speech Recognition). Прасцей кажучы, WER паказвае, які працэнт слоу сістэма распазнала няправільна.
Ідэя простая: бяром эталонны тэкст (тое, што было сказана на самай справе), параунуваем яго з тым, што выдала сістэма, і лічым колькасць памылак. Чым ніжэй WER — тым лепш працуе распазнаванне.
WER выкарыстоуваецца паусюдна: у навуковых артыкулах, у дакументацыі да API распазнавання маулення, у параунальных аглядах мадэляу. Гэта lingua franca індустрыі — адзіная мова, на якой гавораць распрацоушчыкі, даследчыкі і карыстальнікі.
Формула WER
Формула WER выглядае так:
WER = (S + D + I) / N x 100%
Дзе:
- S (Substitutions, замены) — словы, якія сістэма распазнала няправільна, замяніушы адно слова іншым
- D (Deletions, пропускі) — словы з эталоннага тэксту, якія сістэма прапусціла
- I (Insertions, устаукі) — словы, якія сістэма дадала, хаця у арыгінале іх не было
- N — агульная колькасць слоу у эталонным тэксце
Звярніце увагу: у лічніку — тры тыпы памылак, а у назоуніку — толькі колькасць слоу у эталоне. Гэта азначае, што тэарэтычна WER можа перавышаць 100% (калі устáвак вельмі шмат), хаця на практыцы такое здараецца рэдка.
Як лічыцца WER: разбор на прыкладзе
Разгледзім канкрэтны прыклад.
Эталон (што было сказана): "Я хачу замовіць білет на цягнік"
Вынік распазнавання: "Я хачу замовіць білеты на цягнікі"
Параунуваем слова за словам:
| Пазіцыя | Эталон | Распазнана | Тып памылкі |
|---|---|---|---|
| 1 | Я | Я | Правільна |
| 2 | хачу | хачу | Правільна |
| 3 | замовіць | замовіць | Правільна |
| 4 | білет | білеты | Замена (S) |
| 5 | на | на | Правільна |
| 6 | цягнік | цягнікі | Замена (S) |
Вынік:
- S = 2 (дзве замены: "білет" на "білеты", "цягнік" на "цягнікі")
- D = 0 (нічога не прапушчана)
- I = 0 (нічога лішняга не дадана)
- N = 6 (шэсць слоу у эталоне)
WER = (2 + 0 + 0) / 6 x 100% = 33,3%
Гэта даволі высокі WER — сістэма пераблытала склонавыя формы двух слоу. Для чалавека тэкст цалкам зразумелы, але фармальна трэць слоу распазнана няверна.
Разгледзім іншы прыклад, дзе сустракаюцца усе тры тыпы памылак:
Эталон: "Сустрэча адбудзецца заутра а дзесятай раніцы"
Распазнана: "Сустрэча адбудзецца а дзесятай гадзіне раніцы"
| Пазіцыя | Эталон | Распазнана | Тып памылкі |
|---|---|---|---|
| 1 | Сустрэча | Сустрэча | Правільна |
| 2 | адбудзецца | адбудзецца | Правільна |
| 3 | заутра | — | Пропуск (D) |
| 4 | а | а | Правільна |
| 5 | дзесятай | дзесятай | Правільна |
| 6 | — | гадзіне | Устаука (I) |
| 7 | раніцы | раніцы | Правільна |
- S = 0, D = 1 ("заутра" прапушчана), I = 1 ("гадзіне" дадана), N = 6
WER = (0 + 1 + 1) / 6 x 100% = 33,3%
Цікава, што WER аднолькавы, але памылкі зусім розныя. У першым выпадку тэкст чытэльны, у другім — страчаны важны сэнс (слова "заутра"). Гэта адно з абмежаванняу WER як метрыкі, пра якія мы пагаворым ніжэй.
Што азначаюць розныя значэнні WER
Не усе значэнні WER раунозначныя па практычным уплыве. Вось арыенціровачная шкала:
| WER | Якасць | Практычнае значэнне |
|---|---|---|
| менш за 5% | Выдатная | Прафесійнае выкарыстанне без праукі. Тэкст можна публікаваць як ёсць |
| 5–10% | Добрая | Мінімальная праука. Падыходзіць для нататак, пратаколау, субцітрау |
| 10–20% | Прымальная | Патрэбна значная праука, але асноуны сэнс зразумелы |
| 20–30% | Дрэнная | Тэкст патрабуе перапраслухоування і істотнай рэдактуры |
| больш за 30% | Непрымальная | Практычна бескарысна — хутчэй набраць уручную |
Важна разумець кантэкст. Для медычнай дакументацыі нават 5% WER можа быць недапушчальным — памылка у назве лекау крытычная. Для асабістых нататак 15% WER цалкам дапушчальна, калі асноуныя думкі перададзены верна.
Фактары, якія уплываюць на WER
Дакладнасць распазнавання маулення залежыць ад мноства фактарау. Разуменне гэтых фактарау дапамагае не толькі абраць правільны інструмент, але і падрыхтаваць аудыё для лепшага выніку.
Якасць аудыё
Гэта галоуны фактар, які уплывае на WER больш, чым выбар мадэлі.
Фонавы шум — самы распаусюджаны вораг дакладнасці. Шум кандыцыянера, размовы за сцяной, вулічны шум, музыка — усё гэта павялічвае WER на 5–20 працэнтных пунктау у залежнасці ад інтэнсіунасці. Суадносіны сігнал/шум (SNR) ніжэй 10 дБ робіць транскрыбаванне практычна бессэнсоуным для большасці сістэм.
Якасць мікрафона істотна уплывае на вынік. Добры мікрафон з блізкім размяшчэннем да мауца зніжае WER на 3–10% у параунанні з убудаваным мікрафонам наутбука на адлегласці метра. Гарнітура або петлічка — лепшыя сябры транскрыбавання.
Рэверберацыя і рэха дадаюць 5–15% да WER. Запіс у вялікім пустым памяшканні або па гучнай сувязі (speakerphone) значна пагаршае распазнаванне.
Характарыстыкі маулення
Акцэнт і дыялект павялічваюць WER на 5–15%. Мадэлі навучаны пераважна на стандартным вымауленні. Моцны рэгіянальны акцэнт або дыялект прыкметна зніжае дакладнасць. Для беларускай мовы гэта датычыць адрозненняу паміж рэгіянальнымі гаворкамі, а таксама трасянкі.
Хуткасць маулення пры хуткім тэмпе дадае 3–10% да WER. Калі чалавек таратарыць, словы зліваюцца, межы паміж імі размываюцца, і мадэлі складаней іх раздзяліць.
Перабіванні і накладанне маулення — самы складаны выпадак для ASR-сістэм. Калі дзве асобы гавораць адначасова, WER можа вырасці на 10–30%.
Спецыялізаваная лексіка — прафесійныя тэрміны, абрэвіятуры, назвы кампаній і прадуктау дадаюць 5–15% да WER.
Мова
Не усе мовы распазнаюцца аднолькава добра.
Англійская традыцыйна паказвае лепшыя вынікі, таму што на ёй навучана найбольш дадзеных. Whisper large-v3 дасягае 3–4% WER на чыстым англійскім аудыё.
Беларуская — мова з абмежаванай падтрымкай у большасці ASR-сістэм. Whisper large-v3 уключае беларускую мову, але з-за адносна невялікага аб'ёму навучальных дадзеных вынікі горшыя за рускую ці украінскую. На чыстым аудыё можна чакаць прыкладна 12–20% WER, на рэальных запісах — значна вышэй. Спецыфічныя выклікі: дзеканне і цеканне, аканне, мяккі знак, гістарычныя і сучасныя варыянты правапісу.
Маларэсурсныя мовы паказваюць значна вышэйшы WER — ад 15% да 40%+ нават на чыстым аудыё.
WER для розных мадэляу
Параунальныя вынікі папулярных мадэляу на стандартных бенчмарках (чыстае маулленне, студыйная якасць):
| Мадэль | Англійская | Руская | Іспанская | Нямецкая |
|---|---|---|---|---|
| Whisper large-v3 | 3–4% | 5–7% | 4–5% | 5–6% |
| Google Speech-to-Text (V2) | 4–5% | 6–8% | 5–7% | 6–8% |
| Azure Speech | 4–5% | 6–9% | 5–7% | 5–7% |
| Deepgram Nova-2 | 3–4% | 7–10% | 5–7% | 6–8% |
Важна: гэтыя лічбы — на чыстым аудыё ва умовах кантролю. На рэальных запісах WER будзе вышэйшым у 1,5–3 разы. Падрабязнае параунанне мадэляу і сэрвісау транскрыбавання для рускай мовы глядзіце у нашым аглядзе рынку.
Абмежаванні WER як метрыкі
Нягледзячы на паусюднае выкарыстанне, WER — далёка не ідэальная метрыка. У яе ёсць істотныя абмежаванні.
Не улічвае пунктуацыю. WER параунувае толькі словы, ігнаруючы коскі, кропкі і іншыя знакі прыпынку. А пунктуацыя можа кардынальна мяняць сэнс.
Не улічвае рэгістр. "Мінск" і "мінск" для WER — адно і тое ж, хаця у тэксце гэта можа быць важна.
Не адрознівае сур'ёзнасць памылак. Замена "канферэнцыя" на "канферэнцыі" (склонавая форма) і замена "ухвалена" на "адменена" лічацца аднолькавымі памылкамі, хаця другая цалкам мяняе сэнс.
Не улічвае нармалізацыю. "15" і "пятнаццаць", "спадар" і "сп.", "%" і "працэнтау" — гэта розныя радкі з пункту гледжання WER, хаця семантычна ідэнтычныя.
WER можа перавышаць 100%. Калі сістэма дадае шмат лішніх слоу (insertions), лічнік можа аказацца большым за назоунік.
Не адлюстроувае чытэльнасць. Тэкст з WER 10%, дзе памылкі раунамерна размеркаваны, можа чытацца лепш, чым тэкст з WER 5%, дзе усе памылкі сканцэнтраваны у адным ключавым абзацы.
Альтэрнатыуныя метрыкі
З-за абмежаванняу WER даследчыкі і распрацоушчыкі выкарыстоуваюць і іншыя метрыкі.
CER (Character Error Rate)
Аналаг WER, але на узроуні асобных сімвалау, а не слоу. Формула тая ж, толькі замест слоу лічацца сімвалы. CER асабліва карысны для моу, дзе словы не раздзяляюцца прабеламі (кітайская, японская, тайская), а таксама для ацэнкі марфалагічных памылак у флектыуных мовах на кшталт беларускай: "білет" vs "білеты" — гэта 100% памылка па WER, але толькі каля 17% па CER.
MER (Match Error Rate)
Нармалізаваная версія WER, якая улічвае адпаведнасць паміж словамі эталону і гіпотэзы. MER заусёды знаходзіцца у дыяпазоне ад 0 да 1.
WIL (Word Information Lost)
Метрыка, якая улічвае не толькі дакладнасць (precision), але і паунату (recall) распазнавання. WIL паказвае, якая доля інфармацыі была страчана.
Суб'ектыуная ацэнка
MOS (Mean Opinion Score) — сярэдняя экспертная ацэнка па шкале ад 1 да 5. Група людзей ацэньвае якасць транскрыпцыі, і іх ацэнкі усярэдняюцца. Гэта дорага і павольна, але найбольш дакладна адлюстроувае рэальную якасць.
Як палепшыць WER для вашых задач
Калі вас не задавальняе якасць транскрыбавання, вось што можна зрабіць — у парадку змяншэння эфектыунасці.
1. Палепшыць якасць аудыё. Гэта самы дзейсны спосаб. Выкарыстоувайце знешні мікрафон, мінімізуйце фонавы шум, запісвайце у ціхім памяшканні. Адзін толькі пераход з убудаванага мікрафона наутбука на петлічку можа знізіць WER на 5–10%.
2. Абраць адпаведную мадэль. Для максімальнай дакладнасці выкарыстоувайце вялікія мадэлі: Whisper large-v3 для мультымоуных задач. Мадэлі меншага памеру (tiny, small) працуюць хутчэй, але і памыляюцца часцей.
3. Прымяніць постапрацоуку. Аутаматычная расстаноука пунктуацыі, нармалізацыя лічбау і абрэвіятур, выпрауленне тыповых памылак — усё гэта паляпшае чытэльнасць тэксту.
4. Выкарыстаць fine-tuning. Калі вы працуеце з вузкаспецыялізаванай лексікай (медыцына, юрыспрудэнцыя, IT), данавучанне мадэлі на вашай тэрміналогіі можа знізіць WER на 20–40% адносна для такіх тэрмінау.
5. Скарыстацца гатовым сэрвісам з аптымізаваным пайплайнам. Сэрвісы накшталт Дыктоукі камбінуюць Whisper large-v3 з дыярызацыяй мауцоу, нармалізацыяй і AI-сумарызацыяй, каб даць максімальна якасны вынік без ручных наладак.
Вынікі
WER застаецца залатым стандартам ацэнкі якасці распазнавання маулення, нягледзячы на свае абмежаванні. Разуменне гэтай метрыкі дапамагае:
- Свядома выбіраць інструменты транскрыбавання
- Рэалістычна ацэньваць, чаго чакаць ад ASR-сістэм
- Прымаць меры для паляпшэння якасці распазнавання
- Не трапляцца на маркетынгавыя абяцанні "99% дакладнасці"
Памятайце: WER 5% не азначае, што тэкст ідэальны — гэта значыць, што з кожных 20 слоу адно будзе з памылкай. Для кароткіх запісау гэта можа быць непрыкметна, для гадзіннай лекцыі — гэта дзясяткі памылак. Кантэкст, якасць аудыё і правільны выбар інструмента вырашаюць усё.
FAQ
Які WER лічыцца добрым для распазнавання маулення?
WER менш за 5% — выдатная якасць, тэкст можна выкарыстоуваць без праукі. 5-10% — добрая якасць з мінімальнай праукай. 10-20% — прымальна, асноуны сэнс зразумелы. Вышэй за 20% — дрэнная якасць, патрабуе перапраслухоування.
Як разлічыць WER?
WER = (S + D + I) / N x 100%, дзе S — замены (няправільна распазнаныя словы), D — пропускі (прапушчаныя словы), I — устаукі (лішнія словы), N — агульная колькасць слоу у эталонным тэксце.
Чым WER адрозніваецца ад CER?
WER лічыць памылкі на узроуні слоу, а CER (Character Error Rate) — на узроуні асобных сімвалау. CER больш карысны для ацэнкі марфалагічных памылак: замена «білет» на «білеты» — гэта 100% памылка па WER, але толькі каля 17% па CER.
Чаму WER можа перавышаць 100%?
WER можа перавышаць 100%, таму што у лічніку формулы улічваюцца устаукі — словы, якія сістэма дадала, хаця у арыгінале іх не было. Калі устáвак вельмі шмат, лічнік становіцца большым за назоунік. На практыцы такое здараецца рэдка.
Які WER паказваюць сучасныя мадэлі для асноуных моу?
Whisper large-v3 паказвае 3-4% WER на чыстым англійскім аудыё і 5-7% для рускай. На рэальных запісах (нарады, тэлефонныя званкі) чакайце 12-18% з-за шуму, акцэнтау і перабіванняу.