WER (Word Error Rate): сойлеуди тану дэлдiгi калай олшенедi
Word Error Rate (WER) — сойлеудi тану сапасын багалаудын алтын стандарты. Формуланы тусiндiремiз, мысалмен есептеймiз, WER-дiн эр турлi мэндерi нені бiлдiретiнiн жэне транскрипция дэлдiгiне нелер эсер ететiнiн тусiндiремiз. Егер сiз бiр транскрипция сервисi тамаша мэтiн шыгарады, ал екiншiсi — тусiнiксiз создер жиынтыгын беретiнiн ойлап корген болсаныз, жауап эрдайым дерлiк уш эрiпте жатыр: WER.
WER дегенiмiз не
Word Error Rate (WER, сөздiк кате коэффициентi) — автоматты сойлеудi тану (ASR — Automatic Speech Recognition) жуйелерiнiн дэлдiгiн олшеуге арналган стандартты метрика. Карапайым тiлмен айтканда, WER жуйенiн создердiн канша пайызын дурыс танымагандыгын корсетедi.
Идея карапайым: эталондык мэтiн алынады (шын мэнiнде не айтылды), жуйе шыгарган нэтижемен салыстырылады жэне кателер саналады. WER канша томен болса, тану сонша жаксы.
WER барлык жерде колданылады — гылыми мақалаларда, сойлеудi тану API кужаттамаларында, модельдердi салыстыру шолуларында. Бул индустрияның ортақ тiлi — эзiрлеушiлер, зерттеушiлер жэне пайдаланушылар сойлесетiн lingua franca.
WER формуласы
WER формуласы:
WER = (S + D + I) / N x 100%
Мұнда:
- S (Substitutions, алмастырулар) — жуйе дурыс танымай, бiр создi баскасына алмастырган создер
- D (Deletions, жiберiп алулар) — жуйе өткiзiп жiберген эталондык мэтiн создерi
- I (Insertions, кiрiстiрулер) — жуйе қосқан, бiрак тупнускада болмаган создер
- N — эталондык мэтiндегi жалпы соз саны
Назар аударыныз: алымда — уш турлi кате, ал бөлiмде — тек эталондагы создер саны. Бул WER теориялық турде 100%-дан асуы мумкiн (егер кiрiстiрулер коп болса) дегендi бiлдiредi, бiрак iс жузiнде бул сирек кездеседi.
WER калай есептеледi: мысалмен талдау
Нақты мысалды карастырайық.
Эталон (не айтылды): "Мен поезга билет алгым келедi"
Тану нэтижесi: "Мен поезга билеттер алгым келедi"
Создi созбен салыстыру:
| Орын | Эталон | Танылган | Кате турi |
|---|---|---|---|
| 1 | Мен | Мен | Дурыс |
| 2 | поезга | поезга | Дурыс |
| 3 | билет | билеттер | Алмастыру (S) |
| 4 | алгым | алгым | Дурыс |
| 5 | келедi | келедi | Дурыс |
Қорытынды:
- S = 1 (бiр алмастыру: "билет" орнына "билеттер")
- D = 0 (ештене жiберiлмеген)
- I = 0 (артық ештене косылмаган)
- N = 5 (эталонда бес соз)
WER = (1 + 0 + 0) / 5 x 100% = 20%
Ендi уш кате турiн де камтитын складырақ мысалды карастырайық:
Эталон: "Кездесу ертен сагат онда болады"
Танылган: "Кездесу сагат он жарымда болады"
| Орын | Эталон | Танылган | Кате турi |
|---|---|---|---|
| 1 | Кездесу | Кездесу | Дурыс |
| 2 | ертен | — | Жiберiп алу (D) |
| 3 | сагат | сагат | Дурыс |
| 4 | онда | он | Алмастыру (S) |
| 5 | — | жарымда | Кiрiстiру (I) |
| 6 | болады | болады | Дурыс |
- S = 1, D = 1 ("ертен" жiберiлген), I = 1 ("жарымда" қосылган), N = 5
WER = (1 + 1 + 1) / 5 x 100% = 60%
Маңызды нүкте: жуйе "ертен" созiн жiберiп алды — кездесудiн қашан болатындыгы туралы манызды акпарат, жэне уақытты озгерттi. WER барлық кателердi бiрдей есептейдi — бул метриканын белгiлi шектеулерiнiн бiрi.
WER-дiн эр турлi мэндерi нені бiлдiредi
Барлық WER мэндерi тэжiрибеде бiрдей эсерге ие емес. Мiне шамалы шкала:
| WER | Сапа | Тэжiрибелiк манызы |
|---|---|---|
| 5%-дан томен | Тамаша | Ешкандай тузетусiз кэсiби пайдалану. Мэтiндi сол калпында жариялауга болады |
| 5–10% | Жаксы | Аздаган тузету. Жазбалар, хаттамалар, субтитрлер ушiн жарамды |
| 10–20% | Қанагаттанарлық | Тузету кажет, бiрак негiзгi магына тусiнiктi |
| 20–30% | Нашар | Кайта тындауды жэне елеулi тузетудi талап етедi |
| 30%-дан жогары | Қолайсыз | Колмен теру тезiрек |
Контекстi тусiну манызды. Медициналық кужаттама ушiн 5% WER де қабылданбауы мумкiн — дэрi атауындагы кате сыни. Жеке жазбалар ушiн негiзгi ойлар берiлсе 15% WER эбден жеткiлiктi.
WER-ге эсер ететiн факторлар
Сойлеудi тану дэлдiгi коптеген факторларга байланысты. Бул факторларды тусiну дурыс курал тандауга жэне аудионы дайындауга комектеседi.
Аудио сапасы
Бул ен басты фактор — коп жагдайда модель тандаудан да маныздырақ.
Фондық шу — дэлдiктiн ен кен таралган жауы. Кондиционер шуылы, кабырга артындагы эңгiмелер, коше шуы, музыка — мунын бэрi қарқындылыгына байланысты WER-ге 5–20 пайыздық пункт қосады. Сигнал/шу қатынасы (SNR) 10 дБ-ден томен болганда транскрипция коптеген жуйелер ушiн маныссыз болады.
Микрофон сапасы нэтижеге елеулi эсер етедi. Сойлеушiге жақын орналасқан жаксы микрофон ноутбуктiн iшкi микрофонымен салыстырганда WER-дi 3–10%-га томендетедi. Гарнитура немесе петличка — транскрипцияның ен жаксы достары.
Реверберация жэне жаны WER-ге 5–15% қосады. Улкен бос болмеде немесе спикерфонмен жазу тануды елеулi турде нашарлатады.
Сойлеу сипаттамалары
Акцент жэне диалект WER-дi 5–15%-га арттырады. Модельдер негiзiнен стандартты айтылым бойынша уйретiлген. Күштi аймақтық акцент дэлдiктi корнектi томендетедi. Қазақ тiлi ушiн бул эр турлi диалектiлiк ерекшелiктерге қатысты.
Сойлеу жылдамдыгы жылдам қарқынмен WER-ге 3–10% қосады. Адам тез сойлегенде создер қосылады, олардын арасындагы шекаралар болыныксиды жэне модельдерге оларды болу қиындайды.
Бiр-бiрiнiн созiн болу — ASR жуйелерi ушiн ен складырақ жагдай. Екi адам бiр мезгiлде сойлегенде WER 10–30%-га артуы мумкiн.
Мамандандырылган лексика — кэсiби терминдер, қысқартулар, компания атаулары WER-ге 5–15% қосады.
Тiл
Барлық тiлдер бiрдей жаксы танылмайды.
Ағылшын тiлi ен коп уйрету деректерiне ие болгандыктан, тұрақты турде ен жаксы нэтижелердi корсетедi. Whisper large-v3 таза ағылшын аудиосында 3–4% WER-ге қол жеткiзедi.
Қазақ тiлi Whisper-де қолдау корсетiлетiн тiлдер қатарында, бiрак орыс жэне ағылшын тiлдерiмен салыстырганда уйрету деректерiнiн аздыгына байланысты нэтижелер томенiрек. Таза аудиода шамамен 10–15% WER кутiлуi мумкiн, нақты жагдайлардагы жазбаларда бул одан да жогарырақ болуы мумкiн.
Аз ресурстық тiлдер таза аудиода да елеулi турде жогары WER корсетедi — 15%-дан 40%+ дейiн.
Эр турлi модельдерде WER
Танымал модельдердiн стандартты бенчмарктардагы салыстырмалы нэтижелерi (таза сойлеу, студиялық сапа):
| Модель | Ағылшын | Орыс | Испан | Немiс |
|---|---|---|---|---|
| Whisper large-v3 | 3–4% | 5–7% | 4–5% | 5–6% |
| Google Speech-to-Text (V2) | 4–5% | 6–8% | 5–7% | 6–8% |
| Azure Speech | 4–5% | 6–9% | 5–7% | 5–7% |
| Deepgram Nova-2 | 3–4% | 7–10% | 5–7% | 6–8% |
Маңызды ескерту: бул сандар бақыланатын жагдайлардагы таза аудио ушiн. Нақты жазбаларда WER 1,5–3 есе жогары болуын кутiнiз. Орыс тiлi ушiн транскрипция модельдерi мен сервистерiнiн толық салыстыруын бiздiн нарық шолуымыздан қараңыз.
Метрика ретiнде WER-дiн шектеулерi
Кен колданылуына қарамастан, WER мiнсiз метрика емес. Оның елеулi шектеулерi бар.
Тыныс белгiлерiн ескермейдi. WER тек создердi салыстырады, уtiрлердi, нуктелердi жэне баска белгiлердi елемейдi.
Баспа эрiптiн улкен-кiшiлiгiн ескермейдi. "Алматы" мен "алматы" WER ушiн бiрдей.
Кате маныздылыгын ажыратпайды. "Конференция" создi "конференциялар"-га алмастыру (жалгау катесi) жэне "бекiтiлдi" создi "жойылды"-га алмастыру бiрдей бiр кате деп саналады — екiншiсi мағынаны толық озгертсе де.
Нормализацияны ескермейдi. "15" жэне "он бес", "%" жэне "пайыз" — булар WER ушiн эр турлi жолдар, бiрак мағыналық жагынан бiрдей.
WER 100%-дан асуы мумкiн. Егер жуйе коп артық соз қосса, алым болiмнен асуы мумкiн.
Оқылымдылыкты корсетпейдi. Кателерi бiрқалыпты бөлiнген 10% WER-лi мэтiн барлық кателерi бiр манызды абзацта шогырланган 5% WER-лi мэтiннен жаксырақ оқылуы мумкiн.
Балама метрикалар
WER шектеулерiне байланысты зерттеушiлер мен эзiрлеушiлер баска метрикаларды да пайдаланады.
CER (Character Error Rate)
Создер емес, жеке таңбалар денгейiндегi WER аналогы. Формула бiрдей, тек создер орнына таңбалар есептеледi. CER эсiресе создердi бос орынмен болмейтiн тiлдер (кытай, жапон, тай) жэне агглютинативтi тiлдердегi морфологиялық кателердi багалау ушiн пайдалы.
MER (Match Error Rate)
Эталон мен гипотеза создерi арасындагы сэйкестiктi ескеретiн WER-дiн нормаланган нусқасы. MER эрдайым 0–1 диапазонында болады.
WIL (Word Information Lost)
Танудын дэлдiгiн (precision) де, толыктыгын (recall) да ескеретiн метрика. WIL ақпараттын канша болiгi жогалтылгандыгын корсетедi.
Субъективтi бага
MOS (Mean Opinion Score) — 1-ден 5-ке дейiнгi шкала бойынша орташа сарапшы бағасы. Кымбат жэне баяу, бiрак нақты сапаны ен дэл корсетедi.
WER-дi калай жақсартуга болады
Транскрипция сапасы сiздi қанағаттандырмаса, мiне не iстеуге болады — тиiмдiлiк бойынша кему тэртiбiнде.
1. Аудио сапасын жақсарту. Бул ен тиiмдi қадам. Сырткы микрофон пайдаланыңыз, фондық шуды азайтыңыз, тыныш болмеде жазыңыз. Ноутбуктiн iшкi микрофонынан петличкаға кошу WER-дi 5–10%-га томендетуi мумкiн.
2. Тиiстi модельдi тандау. Максималды дэлдiк ушiн iрi модельдердi пайдаланыңыз: коптiлдi тапсырмалар ушiн Whisper large-v3.
3. Кейiнгi өндеудi қолдану. Автоматты тыныс белгiлерiн қою, сандарды нормализациялау, қысқартуларды ашу — мунын бэрi оқылымдылықты жаксартады.
4. Fine-tuning пайдалану. Арнайы лексикамен жумыс iстесеңiз (медицина, заңгерлiк, IT), модельдi терминологияңызга дайындау сол терминдер ушiн WER-дi 20–40%-га томендетуi мумкiн.
5. Оңтайландырылган сервистi пайдалану. Диктовка сияқты сервистер Whisper large-v3-тi спикерлердi ажыратумен, нормализациямен жэне AI-жинақтаумен бiрiктiредi, нэтижеде қолмен реттеусiз ен жаксы нэтижеге қол жеткiзесiз.
Қорытындылар
WER шектеулерiне қарамастан сойлеудi тану сапасын бағалаудың алтын стандарты болып қала бередi. Бул метриканы тусiну сiзге комектеседi:
- Транскрипция куралдарын саналы турде тандау
- ASR жуйелерiнен не кутуге болатындыгын нақты бағалау
- Тану сапасын жаксарту ушiн шаралар кабылдау
- "99% дэлдiк" маркетингтiк уэделерге алданбау
Есiнiзде болсын: 5% WER мэтiннiн мiнсiз екенiн бiлдiрмейдi — бул эрбiр 20 создiн бiрiнде кате болатынын бiлдiредi. Кыска жазба ушiн бул байқалмауы мумкiн, бiр сағаттық дэрiс ушiн — бул ондаган кателер. Контекст, аудио сапасы жэне дурыс курал тандау — бэрiн шешедi.
FAQ
Сойлеудi тану ушiн жаксы WER қанша?
5%-дан томен WER — тамаша сапа, мэтiндi тузетусiз пайдалануга болады. 5-10% — жаксы сапа, аздаган тузету кажет. 10-20% — қанагаттанарлық, негiзгi мағына тусiнiктi. 20%-дан жогары — нашар сапа.
WER қалай есептеледi?
WER = (S + D + I) / N x 100%, мұнда S — алмастырулар (дурыс танылмаган создер), D — жiберiп алулар (өткiзiлген создер), I — кiрiстiрулер (артық создер), N — эталондық мэтiндегi жалпы соз саны.
WER мен CER арасындағы айырмашылық не?
WER кателердi соз денгейiнде есептейдi, ал CER (Character Error Rate) — жеке таңба денгейiнде. CER морфологиялық кателердi бағалау ушiн пайдалырақ: «билет» созiн «билеттер»-ге алмастыру WER бойынша 100% кате, бiрақ CER бойынша шамамен 20% ғана.
WER неге 100%-дан асуы мумкiн?
WER 100%-дан асуы мумкiн, себебi формула алымында кiрiстiрулер ескерiледi — жуйе қосқан, бiрақ тупнускада болмаган создер. Кiрiстiрулер коп болса, алым бөлiмнен улкен болады. Iс жузiнде бул сирек кездеседi.
Қазiргi модельдер негiзгi тiлдер ушiн қандай WER корсетедi?
Whisper large-v3 таза ағылшын аудиосында 3-4% WER жэне орыс тiлi ушiн 5-7% корсетедi. Нақты жазбаларда (жиналыстар, телефон сойлесулерi) шу, акцент жэне бiр-бiрiнiн созiн болу салдарынан 12-18% кутiлуi мумкiн.