Bütün məqalələr

WER (Word Error Rate): nitq tanima deqiqliyi nece olculur

·14 dəq oxuma

Word Error Rate (WER) — nitq tanima keyfiyyetini qiymetlendirmek ucun qizil standartdir. Formulu izah edirik, real numunelerle hesablayiriq, ferqli WER deyerlerinin praktikada ne demek oldugunu ve transkripsiya deqiqliyini mueyyen eden faktorlari ehatae edirik. Eger siz ne ucun bir transkripsiya xidmetinin demek olar ki mukemmel metn verdiyi halda, digerinin menasiz sozler yigini verdiyini dusunmusunuzse, cavab demek olar ki hemise uc herfte gizlidir: WER.


WER nedir

Word Error Rate (WER, Soz Xeta Derecesi) — avtomatik nitq tanima (ASR — Automatic Speech Recognition) sistemlerinin deqiqliyini olcmek ucun istifade edilen standart metrikadir. Sade dille desek, WER sistemin sozlerin nece faizini sehv tanidiyini gosterir.

Konsepsiya sadedir: bir istinad metni gotururuk (esl olaraq ne deyilib), sistemin cixisi ile (ASR-in istehsal etdiyi) muqayise edirik ve xetalari sayiriq. WER ne qeder asagi olsa, tanima bir o qeder yaxsidir.

WER her yerde istifade olunur — akademik meqalelerde, nitq tanima xidmetlerinin API senedlerinde, model muqayise benchmarklarinda ve mehsul qiymetlendirmelerinde. Bu, ASR senayesinin lingua franca-si, tedqiqatcilar, teretciler ve son istifadeciler terefinden paylasilan ortaq dildir.


WER formulu

WER formulu beleddir:

WER = (S + D + I) / N x 100%

Burada:

Diqqet edin ki, suretde uc xeta novu var, mexxrecde ise yalniz istinad soz sayidir. Bu o demekdir ki, WER nezeri olaraq 100%-i kece biler (cox sayda elave varsa), lakin bu praktikada nadir hallarda bas verir.


WER nece hesablanir: praktik numune

Konkret bir numuneni nezerden kecirek.

Istinad (esl olaraq ne deyilib): "Men sabah gorushe geleceyem"

ASR cixisi: "Men sabah gorusde geleceyem"

Soz-soz muqayise:

MovqeIstinadTaninanXeta novu
1MenMenDogru
2sabahsabahDogru
3gorushegorusdeEvezlenme (S)
4geleceyemgeleceyemDogru

Netice:

WER = (1 + 0 + 0) / 4 x 100% = 25%

Indi her uc xeta novunu ehate eden daha murekkeb bir numune baxaq:

Istinad: "Gorusumuz sabah saat onda olacaq"

ASR cixisi: "Gorusumuz saat on yarida olacaq"

MovqeIstinadTaninanXeta novu
1GorusumuzGorusumuzDogru
2sabahSilme (D)
3saatsaatDogru
4ondaonEvezlenme (S)
5yaridaElave (I)
6olacaqolacaqDogru

WER = (1 + 1 + 1) / 5 x 100% = 60%

Vacib meqam: sistem "sabah" sozunu kecirdi — gorusun ne vaxt olacagi haqqinda kritik melumat — ve saati deyisdirdi. WER butun xetalari beraber sayir — bu, metrikin meelum mehdudiyyetlerinden biridir.


Ferqli WER deyerleri ne anlama gelir

Butun WER deyerleri praktikada eyni tesire malik deyil. Budur umumi bir olcu:

WERKeyfiyyetPraktik mena
5%-den asagiElaRedakte etmeden pesekar istifade. Derc ucun hazir
5–10%YaxsiMinimum redakte lazimdir. Qeydler, protokollar, altyazilar ucun uygun
10–20%Qebul edile bilenGozecarpan xetalar var, amma esas mena aydindir. Ehemiyyetli redakte lazimdir
20–30%PisYeniden dinleme ve etrafly duzeltmeler teleb edir
30%-den yuxariIstifade olunmazSifirdan yazmaq daha suretlidir

Kontekst son derece vacibdir. Tibbi senedler ucun 5% WER bele qebul edilmez ola biler — sehv bir derman adi xeste tehlukesizliyi meselesidir. Sexsi ses qeydleri ucun ise esas fikirleler oturuulurse 15% WER tamam ile kifayetdir.


WER-e tesir eden faktorlar

Transkripsiya deqiqliyi bir cox faktordan asilidir. Bunlari anlamaq dogru aleti secmeye ve sesi en yaxsi netice ucun hazirlmaga komek edir.

Ses keyfiyyeti

Bu en boyuk tekfaktordir — cox vaxt hans modelden istifade etdiyinizden daha tesirlidir.

Arxa plan sesleri deqiqlik ucun en genis yayilmis tehdiddir. Kondisioner gurultusu, yan otaqda danisiqlar, kuce sesi, arxa plan muzikasi — bunlarin hamisi siddetden asili olaraq WER-e 5–20 faiz xali elave edir. 10 dB-den asagi siqnal-ses nisbeti (SNR) ekser sistemler ucun transkripsiyani demek olar ki faydasiz edir.

Mikrofon keyfiyyeti ehemiyyetli ferq yaradir. Danisana yaxin yerlesdirilen yaxsi xarici mikrofon, bir qol mesafesindeki noutbuk mikrofonuna nisbeten WER-i 3–10% azalda biler. Qulaqliq ve yaxa mikrofonlari transkripsiyanin en yaxsi dostlaridir.

Reverberasiya ve eks-seda WER-e 5–15% elave edir. Boyuk bos otaqda ve ya spikerfon ile yazmaq tanimanin keyfiyyetini ehemiyyetli derecede asagi salir.

Nitq xususiyyetleri

Lehce ve sive WER-i 5–15% artirir. Modeller esasen standart teleffuz uzerinde oeyredilib. Guclu regional aksent deqiqliyi goze carpacaq derecede azaldir. Azerbaycan dili ucun bu, Baki, Gence, Naxcivan ve diger regional danisiq ferqlerine aiddir.

Danisiq sureeti suretli temple WER-e 3–10% elave edir. Insanlar suretli danisanda sozler birlesir, aralarindaki serhedler bulaniqlesir ve modeller onlari ayirmaqda cetilik cekir.

Ust-uste danisma ASR sistemleri ucun en cetin senaridir. Iki nefer eyni anda danisanda WER 10–30% arta biler.

Ixtiasas sozluk — texniki terminler, qisaltmalar, sirket ve mehsul adlari — WER-e 5–15% elave edir.

Dil

Butun diller eyni derecede yaxsi taninmir.

Ingilis dili en cox teyim melumatina sahib oldugu ucun ardcil olaraq en yaxsi neticeleri gosterir. Whisper large-v3 temiz ingilis sesinde 3–4% WER elde edir.

Azerbaycan dili Whisper-de destek gostterilen dillerden biridir, lakin turk, rus ve ya ingilis dilleri ile muqayisede teyim melumatlarinin azligina gore neticeler bir qeder asagidir. Temiz audio uzerinde texminen 8–13% WER gozlenile biler, real dunyada yazilarda bu daha yuxari ola biler.

Asagi resurslu diller temiz seste bele ehemiyyetli derecede daha yuksek WER gosterir — 15%-den 40%+ qeder.


Ferqli modellerde WER

Populer modellerin standart benchmarklardaki muqayiseli neticeleri (temiz nitq, studiya keyfiyyeti):

ModelIngilisRusIspanAlman
Whisper large-v33–4%5–7%4–5%5–6%
Google Speech-to-Text (V2)4–5%6–8%5–7%6–8%
Azure Speech4–5%6–9%5–7%5–7%
Deepgram Nova-23–4%7–10%5–7%6–8%

Vacib qeyd: bu reqemler nezaret olunan seraitde temiz audio ucundur. Real dunyada yazilanda WER-in 1.5–3 defe daha yuxari olmasini gozleyin. Rus dili ucun transkripsiya modelleri ve xidmetlerinin etrafly muqayisesi ucun bazar beledcimize baxin.


Metrika olaraq WER-in mehdudiyyetleri

Her yerde istifade olunmasina baxmayaraq, WER mukemmel metrika deyil. Onun ehemiyyetli mehdudiyyetleri var.

Durgu isarelerini nezere almir. WER yalniz sozleri muqayise edir, verguul, noqte ve diger isareleri gormezden gelir.

Boyuk-kicik herf ayrimi etmir. "Baki" ve "baki" WER ucun eynidir.

Xeta cidiyyetini ferqlendirmir. "Konfrans" sozunu "konfranslar" ile evez etmek (hal sonlugu xetasi) ve "tesdiq olundu" sozunu "legv edildi" ile evez etmek — her ikisi de bir evezlenme kimi sayilir.

Normalizasiyani hesaba almir. "15" ve "on bes", "%" ve "faiz" — bunlar WER ucun ferqli setirlerdir, amma semantik olaraq eynidir.

WER 100%-i kece biler. Eger sistem cox sayda elave soz daxil ederse, suret mexxrecden boyuk ola biler.

Oxunaqliqi eks etdirmir. Xetalari beraber paylanan 10% WER-li metn, butun xetalarin tek bir kritik abzasda cemlesdiyi 5% WER-li metn ile muqayisede daha yaxsi oxuna biler.


Alternativ metrikalar

WER-in mehdudiyyetlerine gore tedqiqatcilar ve teretciler basqa metrikalari da istifade edir.

CER (Character Error Rate)

WER-in xarakter seviyyesindeki ekvivalenti. Eyni formul, amma sozler yerine ferdi xarakterleri sayir. CER xususile sozleri bosliqla bolmeyen diller (cin, yapon, tay) ve agglutinativ dillerdeki morfoloji xetalari qiymetlendirmek ucun faydalidir.

MER (Match Error Rate)

Istinad ve ferziyye sozleri arasindaki uygulugu nezere alan WER-in normallasdirilan versiyasi. MER hemise 0–1 diapazonunda qalir.

WIL (Word Information Lost)

Tanimanin hem deqiqliyini (precision), hem de tamliyin (recall) nezere alan metrika. WIL melumat itgisinin ne qeder oldugunu gosterir.

Subyektiv qiymetlendirme

MOS (Mean Opinion Score) — 1-den 5-e qeder olan olcude ortalama insan reytinqi. Bahaldir ve yavasidir, lakin real dunyada keyfiyyetin en deqiq eks etdirmesidir.


WER-i nece yaxsilasdirmaq olar

Transkripsiya keyfiyyeti ehtiyaclarinizi odemirse, budur ne ede bilersiniz — tesirlilik sirasi ile.

1. Ses keyfiyyetini yaxsilasdirin. En tesirli adim budur. Xarici mikrofon istifade edin, arxa plan sesini en aza endirin, sakit bir otaqda yazidin. Noutbuk mikrofonundan yaxa mikrofonuna kecid WER-i 5–10% azalda biler.

2. Dogru modeli secin. Maksimum deqiqlik ucun boyuk modeller istifade edin: coxdilli vezifeler ucun Whisper large-v3.

3. Son islemeni tetbiq edin. Avtomatik durgu, reqem normalizasiyasi, qisaltma acilimi, umumi xetalarin duzeldilmesi — bunlarin hamisi formal olaraq WER-i azaltmasa bele oxunaqligi arttirir.

4. Fine-tuning istifade edin. Ixtiasas sozluk ile calisirsinizsa (tibb, huquq, IT), modeli terminologiyaniz uzerinde fine-tuning etmek bu terminler ucun WER-i 20–40% nisbi olaraq azalda biler.

5. Optimallasdirilmis xidmet istifade edin. Diktovka kimi xidmetler Whisper large-v3-u danisiq diarizasiyasi, normalizasiya ve AI xulase ile birlesdirerek el ile tenzimlemeden mumkun olan en yaxsi neticeleri teqdim edir.


Esas neticeler

WER, mehdudiyyetlerine baxmayaraq, nitq tanima keyfiyyetini qiymetlendirmek ucun qizil standart olmaga davam edir. Bu metrikani anlamaq size komek edir:

Yadda saxlayin: 5% WER metnin mukemmel oldugu demek deyil — texminen her 20 sozden birinde xeta olacagi demekdir. Qisa bir yazma ucun bu gorsenmeye biler. Bir saatlik muhazire ucun onlarla xeta demekdir. Kontekst, ses keyfiyyeti ve dogru alet secimi her seyi mueyyen edir.

FAQ

Nitq tanima ucun yaxsi WER ne qederdir?

5%-den asagi WER ela keyfiyyetdir — metn redakte etmeden istifade oluna biler. 5-10% yaxsi keyfiyyetdir, minimum duzeltme lazimdir. 10-20% qebul edile bilendir, esas mena aydindir. 20%-den yuxari zeyif keyfiyyetdir.

WER nece hesablanir?

WER = (S + D + I) / N x 100%, burada S — evezlenmeler (sehv taninan sozler), D — silmeler (kecirilen sozler), I — elaveler (artiq sozler), N — istinad metnindeki umumi soz sayidir.

WER ile CER arasinda ne ferq var?

WER xetalari soz seviyyesinde sayir, CER (Character Error Rate) ise ferdi xarakter seviyyesinde. CER morfoloji xetalari qiymetlendirmek ucun daha faydalidir: 'gorushe' sozunu 'gorusde' ile evez etmek WER-de 100% xeta, CER-de ise yalniz texminen 14%-dir.

WER niye 100%-i kece biler?

WER 100%-i kece biler, cunki formulun suretinde elaveler nezerye alinir — sistemin originalda olmayan elave etdiyi sozler. Cox elave varsa, suret mexxrecden boyuk olur. Praktikada bu nadir bas verir.

Muasir modeller esas diller ucun hansi WER-e nail olur?

Whisper large-v3 temiz ingilis sesinde 3-4% WER ve Azerbaycan dili ucun texminen 8-13% elde edir. Real yazilarda (gorusler, telefon zengleri) ses-kuyltu, lehce ve ust-uste danisma sebebinden 15-25% gozlenile biler.