WER (Kelime Hata Orani): Konusma Tanima Dogrulugu Nasil Olculur
Word Error Rate (WER), konusma tanima kalitesini degerlendirmek icin kullanilan altin standart metriktir. Formulu acikliyor, gercek ornekler uzerinden yuruyoruz, farkli WER degerlerinin pratikte ne anlama geldigini ve transkripsiyon dogrulugunu belirleyen faktorleri ele aliyoruz. Bir transkripsiyon hizmetinin neden neredeyse mukemmel metin uretirken digerinin anlamsiz kelime yiginlari verdiyini hic merak ettiyseniz, cevap neredeyse her zaman uc harfte gizlidir: WER.
WER Nedir
Word Error Rate (WER, Kelime Hata Orani), otomatik konusma tanima (ASR — Automatic Speech Recognition) sistemlerinin dogrulugunu olcmek icin kullanilan standart metriktir. Basitce ifade etmek gerekirse, WER sistemin kelimelerin yuzde kacini yanlis tanidigiyi gosterir.
Kavram basittir: bir referans metin alinir (gercekte ne soylendigi), sistemin ciktisiyla (ASR'nin urrettigi) karsilastirilir ve hatalar sayilir. WER ne kadar dusukse, tanima o kadar iyidir.
WER her yerde kullanilir — akademik makalelerde, konusma tanima hizmetlerinin API dokumantasyonlarinda, model karsilastirma benchmark'larinda ve urun degerlendirmelerinde. ASR endustrisinin ortak dili, arastirmacilar, gelistiriciler ve son kullanicilar tarafindan paylasilan lingua franca'dir.
WER Formulu
WER formulu su sekildedir:
WER = (S + D + I) / N x 100%
Burada:
- S (Substitutions, Degistirmeler) — sistemin bir kelimeyi baska bir kelimeyle degistirerek yanlis tanidigi kelimeler
- D (Deletions, Silmeler) — sistemin tamamen atlayarak taniyamadigi referans kelimeleri
- I (Insertions, Eklemeler) — orijinalde olmayan ancak sistemin ekledigi kelimeler
- N — referans metindeki toplam kelime sayisi
Pay uc hata turunu icerirken, paydanin yalnizca referans kelime sayisi olduguna dikkat edin. Bu, WER'in teorik olarak %100'u asabilecegi anlamina gelir (cok fazla ekleme varsa), ancak bu pratikte nadirdir.
WER Nasil Hesaplanir: Adim Adim Ornek
Somut bir ornek uzerinden yuruyerlim.
Referans (gercekte soylenen): "Yarin sabah toplantiya katilacagim"
ASR ciktisi: "Yarin sabah toplantida katilacagim"
Kelime kelime karsilastirma:
| Sira | Referans | Tanilan | Hata Turu |
|---|---|---|---|
| 1 | Yarin | Yarin | Dogru |
| 2 | sabah | sabah | Dogru |
| 3 | toplantiya | toplantida | Degistirme (S) |
| 4 | katilacagim | katilacagim | Dogru |
Sonuc:
- S = 1 (bir degistirme: "toplantiya" yerine "toplantida")
- D = 0 (hicbir sey silinmedi)
- I = 0 (hicbir sey eklenmedi)
- N = 4 (referansta dort kelime)
WER = (1 + 0 + 0) / 4 x 100% = %25
Simdi uc hata turunu de iceren daha karmasik bir ornege bakalim:
Referans: "Ucak bileti almak icin havalimanina gittim"
ASR ciktisi: "Ucak bileti almak icin otobusle havalimanina geldim"
| Sira | Referans | Tanilan | Hata Turu |
|---|---|---|---|
| 1 | Ucak | Ucak | Dogru |
| 2 | bileti | bileti | Dogru |
| 3 | almak | almak | Dogru |
| 4 | icin | icin | Dogru |
| 5 | — | otobusle | Ekleme (I) |
| 6 | havalimanina | havalimanina | Dogru |
| 7 | gittim | geldim | Degistirme (S) |
- S = 1, D = 0, I = 1, N = 6
WER = (1 + 0 + 1) / 6 x 100% = %33.3
Onemli bir nokta: "otobusle" kelimesi eklenmis (anlamsal olarak onemli bir bilgi ekliyor) ve "gittim" yerine "geldim" konmus (tam tersi bir anlam). WER her iki hatayi da esit sayiyor — bu, metrigin bilinen sinirliliklasindan biridir.
Farkli WER Degerleri Ne Anlama Gelir
Tum WER degerleri pratikte ayni etkiye sahip degildir. Iste genel bir olcek:
| WER | Kalite | Pratik Anlam |
|---|---|---|
| %5'in altinda | Mukemmel | Profesyonel kullanima uygun, duzenleme gerektirmez. Yayin hazir |
| %5–10 | Iyi | Minimal duzenleme gerekli. Notlar, toplanti tutanaklari, altyazilar icin uygun |
| %10–20 | Kabul edilebilir | Belirgin hatalar var ama ana anlam acik. Onemli duzenleme gerekli |
| %20–30 | Kotu | Yeniden dinleme ve kapsamli duzeltme gerektirir |
| %30'un ustunde | Kullanilamaz | Sifirdan yazmak daha hizli |
Baglam son derece onemlidir. Tibbi dokumantasyon icin %5 WER bile kabul edilemez olabilir — yanlis bir ilac adi hasta guvenligi sorunudur. Kisisel sesli notlar icin ise ana fikirler aktariliyorsa %15 WER gayet yeterlidir.
WER'i Etkileyen Faktorler
Transkripsiyon dogrulugu bircok faktore baglidir. Bunlari anlamak, dogru araci secmenize ve sesinizi en iyi sonuc icin hazirlmaniza yardimci olur.
Ses Kalitesi
En buyuk faktor budur — cogu zaman hangi modeli kullandiginizdan daha etkilidir.
Arka plan gurultusu dogruluk icin en yaygin tehdittir. Klima sesi, yan odadaki konusmalar, sokak gurultusu, arka plan muzigi — bunlarin tumuu yogunluga bagli olarak WER'e 5–20 yuzde puani ekler. 10 dB'nin altindaki sinyal-gurultu orani (SNR), cogu sistem icin transkripsiyon islemini neredeyse anlamsiz kilar.
Mikrofon kalitesi onemli bir fark yaratir. Konusmaciya yakin yerlestirilen iyi bir harici mikrofon, bir kol uzakligindaki dizustu bilgisayar mikrofonuna kiyasla WER'i %3–10 azaltabilir. Kulakliklar ve yaka mikrofonlari transkripsiyonun en iyi dostlaridir.
Yankilanma ve eko WER'e %5–15 ekler. Buyuk, bos bir odada veya hoparlor telefonuyla (speakerphone) kayit yapmak tanima kalitesini onemli olcude dusurur. Yumusak yuzeyler, halilar, perdeler — sesi emen her sey — yardimci olur.
Konusma Ozellikleri
Aksan ve lehce WER'i %5–15 arttirir. Modeller oncelikle standart telaffuz uzerine egitilmistir. Guclu bolgesel bir aksan veya ana dili olmayan konusmacinin aksani dogrulugu gozle gorulur sekilde dusurur. Turkiye'nin farkli bolgesel agizlari (Karadeniz, Guneydogu, Ege) model performansini etkileyebilir.
Konusma hizi hizli tempoda WER'e %3–10 ekler. Insanlar hizli konustuklarda kelimeler birbirine karisiyor, aralarindaki sinirlar bulaniklasir ve modeller onlari ayirmakta zorlanir.
Ust uste konusma ASR sistemleri icin en zor senaryodur. Iki kisi ayni anda konustugunda WER %10–30 artabilir. Diyarizasyon (konusmaci ayirma) ozelligi olan modeller bile carpisan konusmalari zor idare eder.
Uzmanlik kelime dagarciyi — teknik terimler, kisaltmalar, sirket ve urun adlari — WER'e %5–15 ekler. Model "dekontaminasyon" veya "Amoksisilin" kelimelerini tanimiyor olabilir ve fonetik olarak benzer bir seyle degistirebilir.
Dil
Tum diller esit sekilde taninamaz.
Ingilizce en fazla egitim verisine sahip oldugu icin tutarli olarak en iyi sonuclari gosterir. Whisper large-v3, temiz Ingilizce ses uzerinde %3–4 WER elde eder.
Turkce aglutinatif (eklemeli) yapisi nedeniyle bazi zorluklar tasir. Eklerin yogunlugu kelime sinirlarini karmasiklastirir. Whisper large-v3, temiz Turkce ses uzerinde yaklasik %6–9 WER gosterir, ancak gercek dunya kayitlarinda bu %15–25'e cikabilir.
Dusuk kaynak diller temiz seste bile %15 ile %40+ arasinda onemli olcude daha yuksek WER gosterir — cunku modeller cok daha az veri uzerinde egitilmistir.
Farkli Modellerde WER
Populer modellerin standart benchmark'lardaki karsilastirmali sonuclari (temiz konusma, studyo kalitesi):
| Model | Ingilizce | Rusca | Ispanyolca | Almanca |
|---|---|---|---|---|
| Whisper large-v3 | %3–4 | %5–7 | %4–5 | %5–6 |
| Google Speech-to-Text (V2) | %4–5 | %6–8 | %5–7 | %6–8 |
| Azure Speech | %4–5 | %6–9 | %5–7 | %5–7 |
| Deepgram Nova-2 | %3–4 | %7–10 | %5–7 | %6–8 |
Onemli not: Bu rakamlar kontrollus kosullarda temiz ses icindir. Gercek dunya kayitlarinda WER'in 1.5–3 kat daha yuksek olmasini bekleyin. Farkli benchmark'lar da farkli sonuclar verir, bu nedenle farkli kaynaklardan gelen rakamlari karsilastirirken dikkatli olmak gerekir. Rus dili icin transkripsiyon modelleri ve hizmetlerinin ayrintili karsilastirmasi icin piyasa rehberimize bakin.
WER'in Bir Metrik Olarak Sinirliliklari
Yayginligina ragmen WER mukemmel bir metrik degildir. Onemli sinirliliklari vardir.
Noktalama isaretlerini dikkate almaz. WER yalnizca kelimeleri karsilastirir; virgulleri, noktalari ve diger isaretleri gormezden gelir. Oysa noktalama anlami kokten degistirebilir.
Buyuk-kucuk harf ayrimi yapmaz. "Istanbul" ve "istanbul" WER icin aynidir, ancak metin ciktisinda bu onemli olabilir.
Hata cidiyetini ayirt etmez. "Toplanti" kelimesini "toplantida" ile degistirmek (cekim eki hatasi) ve "onaylandi" kelimesini "iptal edildi" ile degistirmek ayni tek degistirme olarak sayilir — ikincisi anlami tamamen degistirse bile.
Normalizasyonu hesaba katmaz. "15" ve "on bes", "Dr." ve "Doktor", "%" ve "yuzde" — bunlar WER acisindan farkli dizgelerdir, ancak anlamsal olarak aynidir.
WER %100'u asabilir. Sistem cok fazla ekstra kelime eklerse, pay paydayi asabilir. Pratikte nadir gorulen ama resmi olarak mumkun bir durumdur.
Okunabilirligi yansitmaz. Hatalarin esit dagildiyi %10 WER'li bir metin, tum hatalarin tek bir kritik paragrafta yogunlastigi %5 WER'li bir metinden daha iyi okunabilir.
Alternatif Metrikler
WER'in sinirliliklari nedeniyle arastirrmacilar ve gelistiriciler baska metrikler de kullanir.
CER (Character Error Rate — Karakter Hata Orani)
WER'in karakter duuzeyindeki esdegeri. Ayni formul, ancak kelimeler yerine tek tek karakterler sayilir. CER ozellikle kelimelerin boslukla ayrilmadigi diller (Cince, Japonca, Tayca) ve eklemeli dillerdeki morfolojik hatalari degerlendirmek icin kullanislidir: "toplanti" ile "toplantida" WER'de %100 hata ama CER'de yalnizca yaklasik %18'dir (on bir karakterden iki karakter degismis).
MER (Match Error Rate — Esleme Hata Orani)
Referans ve hipotez kelimeleri arasindaki eslemeyi hesaba katan WER'in normallestirrilmis surumu. MER her zaman 0–1 araliginda kalir; %100'u asabilen WER'den farklidir.
WIL (Word Information Lost — Kayip Kelime Bilgisi)
Tanimanin hem kesinligini (precision) hem de tamligini (recall) dikkate alan bir metrik. WIL, ne kadar bilginin kaybolduklunu gosterir. WER'den daha dengeli bir degerlendirme olarak kabul edilir.
Oznel Degerlendirme
MOS (Mean Opinion Score) — 1'den 5'e kadar bir olcekte ortalama insan degerlendirmesi. Bir degerlendirici grubu transkripsiyon kalitesini puanlar ve puanlari ortalalanir. Pahali ve yavas, ancak gercek dunya kalitesinin en dogru yansimasi.
Okunabilirlik degerlendirmesi — kelime kelime karsilastirma yerine uzmanlar, metnin orijinalin anlamini ne kadar iyi aktardigini ve okumanin ne kadar kolay oldugunu degerlendirir.
WER'i Nasil Iyilestirebilirsiniz
Transkripsiyon kalitesi ihtiyaclarinizi karsilamiyorsa, iste etkinlik sirasina gore yapabilecekleriniz.
1. Ses kalitesini iyilestirin. En etkili adim budur. Harici mikrofon kullanin, arka plan gurultusunu en aza indirin, sessiz bir odada kaydedin. Dizustu bilgisayar mikrofonundan yaka mikrofonuna gecis bile WER'i %5–10 azaltabilir.
2. Dogru modeli secin. Maksimum dogruluk icin buyuk modelleri kullanin: cok dilli gorevler icin Whisper large-v3. Daha kucuk modeller (tiny, small) daha hizli calisir ancak daha fazla hata yapar.
3. Son isleme uygulayin. Otomatik noktalama, sayi normalizasyonu, kisaltma acilimlari, yaygin hatalarin duzeltilmesi — tum bunlar resmi olarak WER'i dusurmese bile okunabilirligi arttirir.
4. Fine-tuning kullanin. Uzmanlik kelime dagarcigiyla calisiyorsaniz (tip, hukuk, IT), modeli terminolojiniz uzerinde fine-tuning yapmak bu terimler icin WER'i %20–40 oraninda azaltabilir.
5. Optimize edilmis bir hizmet kullanin. Diktovka gibi hizmetler, Whisper large-v3'u konusmaci diyarizasyonu, normalizasyon ve yapay zeka ozetleme ile birlestirerek manuel ayarlama olmadan mumkun olan en iyi sonuclari sunar.
Onemli Cikarimlar
WER, sinirliliklanina ragmen konusma tanima kalitesini degerlendirmek icin altin standart olmaya devam ediyor. Bu metrigi anlamak size su konularda yardimci olur:
- Transkripsiyon araclari secerken bilinclii kararlar vermek
- ASR sistemlerinden ne bekleyeceginiz konusunda gercekci olmak
- Tanima kalitesini iyilestirmek icin pratik adimlar atmak
- "%99 dogruluk" gibi pazarlama iddialarin gercek degerini anlamak
Unutmayin: %5 WER metnin mukemmel oldugu anlamina gelmez — kabaca her 20 kelimeden birinde hata olacagi anlamina gelir. Kisa bir kayit icin bu gozle gorulmeyebilir. Bir saatlik bir ders icin onlarca hata demektir. Baglam, ses kalitesi ve dogru arac secimi her seyi belirler.
FAQ
Konusma tanima icin iyi bir WER degeri nedir?
%5'in altinda WER mukemmel kalitedir — metin duzenleme gerektirmeden kullanilabilir. %5-10 iyi kalitedir, minimal duzeltme gerektirir. %10-20 kabul edilebilir, ana anlam aciktir. %20'nin ustunde zayif kalitedir.
WER nasil hesaplanir?
WER = (S + D + I) / N x 100%. S yanlis tanilan kelimeler (degistirmeler), D atlanan kelimeler (silmeler), I eklenen fazla kelimeler, N ise referans metindeki toplam kelime sayisidir.
WER ile CER arasindaki fark nedir?
WER hatalari kelime duzeyinde sayar, CER (Character Error Rate) ise tek tek karakter duzeyinde sayar. CER morfolojik hatalari degerlendirmek icin daha kullanislidir: 'toplanti' yerine 'toplantida' WER'de %100 hata, CER'de ise yalnizca yaklasik %18'dir.
WER neden %100'u asabilir?
WER %100'u asabilir cunku formulun payinda eklemeler (insertions) yer alir — sistemin orijinalde olmayan kelimeler eklemesi. Cok fazla ekleme varsa pay, paydadan buyuk olur. Pratikte bu nadir gorulur.
Modern modeller ana dillerde hangi WER degerlerini elde eder?
Whisper large-v3, temiz Ingilizce seste %3-4, Turkce icin yaklasik %6-9 WER elde eder. Gercek dunya kayitlarinda (toplantilar, telefon gorusmeleri) gurultu, aksanlar ve ust uste konusmalar nedeniyle %15-25 beklenmelidir.