Konusmaci Diarizasyonu Nedir ve Nasil Calisir
Konusmaci diarizasyonu, "kim ne zaman konustu" sorusunu yanitleyan teknolojidir. Bir ses kaydini farkli konusmacilara ait bolumlere ayirir ve her bolumu uygun etiketle isaretler. Bu makalede, konusmaci diarizasyonunun arka planinda nasil calistigini, hangi algoritmalarin kullanildigini, nerelerde uygulandigini ve hangi sinirliliklarin bulundugunu inceleyecegiz.
Konusmaci Diarizasyonu Nedir
Bes katilimcili bir saatlik toplanti kaydiniz oldugunu dusunun. Bir konusma tanima servisi sesi metne donusturur, ancak kimin ne soyledigine dair hicbir gosterge olmadan surekli bir kelime akisi elde edersiniz. Konusmaci diarizasyonu tam olarak bu sorunu cozer — her an kimin konustugunu belirler.
Uc iliskili teknolojiyi birbirinden ayirt etmek onemlidir:
- Otomatik Konusma Tanima (ASR) — sesi metne donusturur. "Ne soylendi?" sorusuna cevap verir.
- Konusmaci diarizasyonu — sesi konusmacilara gore boler. "Kim ne zaman konustu?" sorusuna cevap verir.
- Konusmaci kimliklendirme — belirli bir kisiyi sesinden tanir. "Bu Ali Bey'in sesi mi?" sorusuna cevap verir.
Diarizasyon isimleri bilmez — yalnizca etiketler atar: Konusmaci 1, Konusmaci 2, Konusmaci 3. Ancak ses profilleriyle birlestirildiginde (asagida detayli anlatilacak), etiketler gercek isimlerle degistirilebilir.
Pratik bir ornek: proje butcesinin tartisildigi bir toplanti kaydettiniz. Diarizasyon olmadan yalnizca duz metin gorursunuz. Diarizasyonla — yapilandirilmis bir diyalog:
Konusmaci 1 (00:00–00:45): Pazarlama butcesini %20 artirmamizi oneriyorum. Konusmaci 2 (00:46–01:12): Katilmiyorum. Once mevcut kampanyanin sonuclarina bakalim. Konusmaci 3 (01:13–01:40): Raporu cumaya kadar hazirlayabilirim.
Artik yalnizca neyin tartisildigini degil, kimin hangi pozisyonu aldigini da gorebilirsiniz.
Konusmaci Diarizasyonu Neden Onemlidir
Konusmaci ayirimi onlarca senaryoda kritik oneme sahiptir. Iste baslicalari:
Toplanti Tutanaklari
En yaygin kullanim alani. Bir toplantiya 5-10 kisi katildiginda, diarizasyon olmadan kimin karar aldigini, kimin itiraz ettigini veya kimin gorevi ustlendigini anlamak mumkun degildir. Isimsiz tutanaklar ise yaramaz bir stenografidir.
Roportajlar ve Gazetecilik
Bir gazetecinin kendi sorularini muhatabinin yanitlarindan net bir sekilde ayirmasi gerekir. Iki saatlik bir roportaj metni elle bolmek saatler surer. Diarizasyon bunu otomatik olarak yapar.
Podcastler
Sunucu ve konuk (veya birden fazla konuk) net bir sekilde ayrilmalidir — transkript, altyazi, alintilar ve SEO uyumlu bolum aciklamalari olusturmak icin.
Mahkeme Davaları
Hakim, savci, avukat, sanik, taniklar — her ifade dogru bir sekilde atfedilmelidir. Yanlis bir atif mahkeme kararini etkileyebilir.
Tibbi Gorusmeler
Doktor ve hasta arasindaki konusma: belirtileri kim tanimladi, tedaviyi kim ondu. Tibbi dokumantasyon ve sigorta kayitlari icin onemlidir.
Cagri Merkezleri
Operator ile musteri. Diarizasyon, hizmet kalitesi analizi, yanit suresi olcumu ve senaryo uyumlulugu izleme imkani saglar. Sirketler gunluk binlerce cagriyi isler — elle isaretleme mumkun degildir.
Egitim
Ogrenci sorulari iceren dersler: ogretim uyesinin konusmasini izleyici sorularindan ayirma. Egitim materyalleri olusturmak icin faydalidir.
Diarizasyon Nasil Calisir: Teknik Inceleme
Konusmaci diarizasyonu, birbirini izleyen birkac asamadan olusan bir boru hatti (pipeline) dir. Her asama kendi gorevini ustelenır ve her birinin kalitesi nihai sonucu etkiler.
Asama 1: Ses Aktivite Tespiti (VAD)
Ilk adim, seste gercekten konusma olan yerleri belirlemektir. Bir ses kaydi sessizlik, arka plan gurultusu, muzik, klavye tiklamalari ve diger konusma disi sesler icerir. VAD (Voice Activity Detection), sesi konusmali ve konusmasiz bolumlere ayirir.
Guncel VAD yaklasimlari:
- Silero VAD — kompakt ve hizli bir sinir agi modeli. CPU uzerinde gercek zamanli calisir. Modern boru hatlarinin cogunda kullanilir.
- WebRTC VAD — Google'in WebRTC projesinden klasik bir algoritma. Hizli ancak gurultulu kosullarda daha az dogrudur.
- Enerji tabanli yontemler — en basit yaklasim: sinyal genliginin esik degerini asarsa, birisi konusuyor demektir. Gercek dunya kosullarinda guvenilir degildir.
VAD'nin ciktisi, konusmali bolumlerin zaman damgalaridir: [(0.5sn–3.2sn), (4.1sn–7.8sn), (8.5sn–12.0sn), ...].
Asama 2: Segmentasyon
Simdi konusma bolumlerini homojen parcalara bolmek gerekir — boylece her parca tek bir konusmaciya ait olur.
Temel gorev Konusmaci Degisim Tespitidir (Speaker Change Detection). Algoritma, bir sesin digerine gecis yaptigı anlari arar. Bu zorlu bir gorevdir cunki:
- Gecis anlik olabilir (sozunu kesme)
- Konusmalar arasinda duraklamalar olabilir
- Tek bir konusmaci tonlamayı, ses yuksekligini ve hizi degistirebilir
Guncel sistemler (ornegin pyannote.audio) 200-500 milisaniye hassasiyetle segment sinirlarini belirlemek icin egitilmis sinir agi modelleri kullanir.
Asama 3: Gomme Vektoru Cikarimi
Bu kritik asamadir. Her konusma segmenti icin bir sinir agi, bir tur "ses parmak izi" olan sayisal bir vektor — ses gommesi (voice embedding) hesaplar.
Bir gomme vektorunun kodladigi bilgiler:
- Tini — ses yolunun anatomisine gore belirlenen benzersiz ses "rengi"
- Perde — sesin temel frekansi (F0)
- Konusma tarzi — hiz, tonlama kaliplari, telaffuz aliskanliklari
- Akustik ozellikler — formant frekanslari, spektral zarfi
Gomme vektoru cikarma icin kullanilan sinir aglari:
- ECAPA-TDNN — en populer mimarilerden biri. Dikkat mekanizmalari ve cok seviyeli ozellik toplama kullanir. pyannote.audio standardi.
- TitaNet — NVIDIA tarafindan gelistirilmistir. Yuksek dogruluk, GPU icin optimize edilmistir.
- WavLM — Microsoft'un transformer tabanli modeli. Buyuk bir veri kutusu uzerinde on-egitim gormus, en iyi sonuclari verir.
- ResNet tabanli — ses icin uyarlanmis klasik evrisimli aglar.
Tipik bir gomme vektoru 192-512 sayidan olusan bir vektordur. Ayni konusmacidan gelen iki segment benzer gommelere (yakin vektorlere) sahipken, farkli konusmacilarin gommeleri birbirinden uzaktir.
Asama 4: Kumeleme
Tum segmentlerin gommeleri elde edildikten sonra, bunlari konusmacilara gore gruplamak gerekir. Bu bir kumeleme problemidir — klasik bir makine ogrenmesi gorevi.
Temel algoritmalar:
- Aglomerativ Kumeleme (hiyerarsik kumeleme) — her segmentin ayri bir konusmaci oldugu varsayimiyla baslar, ardindan en benzerlerini adim adim birlestirir. Diarizasyondaki en yaygin yaklasim.
- Spektral Kumeleme — segmentler arasi benzerlik grafi olusturur ve optimal bolunmeyi arar. Konusmaci sayisi onceden bilindiginde iyi calisir.
- K-Means — hizli, ancak kume sayisinin onceden belirtilmesini gerektirir.
- HDBSCAN — kume sayisini otomatik olarak belirler ve gurultuye karsi dayaniklidir.
Ayri bir zorluk — konusmaci sayisini belirleme. Sayi onceden biliniyorsa (ornegin, "gorusmede 2 katilimci vardi"), gorev basitleşir. Bilinmiyorsa, algoritma BIC (Bayesian Information Criterion) veya silhouette score gibi metrikleri kullanarak bunu kendisi belirlemelidir.
Asama 5: Son Etiketleme
Son asamada her segmente bir konusmaci etiketi atanir. Sonuc, zamanla hizalanmis bir isaretlemedir:
- 00:00–00:45 → Konusmaci 1
- 00:46–01:12 → Konusmaci 2
- 01:13–01:40 → Konusmaci 3
- 01:41–02:05 → Konusmaci 1
Ayri bir zorluk da cakisan konusmanin islenmesidir. Iki kisi ayni anda konustugunda, tek bir segmente iki etiket atanmasi gerekir. Guncel sistemler (pyannote.audio 3.x), cok kanalli mikrofon verileri uzerinde egitilmis ozel segmentasyon modelleri kullanarak cakismalari ele alabilir.
Diarizasyon Kalite Metrikleri
Diarizasyonun ne kadar iyi calistigini nasil degerlendirirsiniz? Standart metrik **DER (Diarization Error Rate)**dir.
DER uc bilesenden olusur:
- Kacirilmis Konusma (Missed Speech) — sistemin tespit edemedigi konusma
- Yanlis Alarm (False Alarm) — yanlis bir sekilde konusma olarak isaretlenen sessizlik veya gurultu
- Konusmaci Karisikligi (Speaker Confusion) — dogru tespit edilen ancak yanlis konusmaciya atfedilen konusma
Formul: DER = (kacirilmis + yanlis alarm + karisiklik) / toplam konusma suresi
Guncel sonuclar:
- Temiz kayitlar (studyo kalitesi): DER %3-8
- Toplantilar (tek mikrofon): DER %8-15
- Telekonferanslar: DER %12-25
- Kokteyl partisi (cok konusmaci, gurultu): DER %20-40
Cogu pratik gorev icin %10'un altindaki DER iyi bir sonuc olarak kabul edilir. WER (Word Error Rate) dahil dogruluk olcutleri hakkinda daha fazla bilgi icin transkripsiyon piyasasi rehberimize bakin.
Konusmaci Profilleri: Bir Sonraki Seviye
Standart diarizasyon kisisel olmayan etiketler atar: Konusmaci 1, Konusmaci 2. Peki ya sistem tanidik bir sesi taniyabilseydi?
Diarizasyon sirasinda cikarilan ses gommeleri, bir konusmaci profili olarak kaydedilebilir. Yeni bir kayit islenirken, sistem yeni segmentlerin gommelerini kaydedilmis profillerle karsilastirir ve otomatik olarak isimleri yerlestirir.
Diktovka bu ozelligi destekler — ses profilleri. Ilk kayit sirasinda sistem her yeni konusmaci icin bir gomme olusturur ve bir isim atanmasini onerir. Sonraki kayitlarda Diktovka sesi otomatik olarak tanir ve kaydedilmis ismi doldurur.
Gommeler kosinus benzerligi (cosine similarity) kullanilarak karsilastirilir. Kosinus benzerligi >= 0.75 oldugunda iki vektor ayni kisiye ait kabul edilir. Bu esik deger, hassasiyet (farkli kisileri karistirmama) ve kapsayicilik (farkli kayit kosullarinda ayni kisiyi tanima) arasinda bir denge saglar.
Konusmaci profilleri ozellikle sunlar icin faydalidir:
- Duzenli toplantilar — 5-7 kisilik bir ekip her hafta toplaniyor. Sistem tum katilimcilari taniyor.
- Podcastler — sunucu ve duzenli ortaklar otomatik olarak taniniyor; yalnizca konuklar yeni konusmaci olarak isaretleniyor.
- Tibbi muayeneler — doktor randevulari kaydediyor; sesi otomatik olarak taniniyor, hasta sesleri ise her seferinde yeni.
Sinirlamalar ve Zorluklar
Diarizasyon etkileyici bir teknolojidir, ancak mukemmel degildir. Iste temel zorluklar:
Cakisan Konusma
Iki veya daha fazla kisi ayni anda konustugunda, algoritmanin sesleri ayirmasi son derece zordur. Bu, ozellikle hararetli tartismalarda gercek toplantilardaki en yaygin hata kaynagidir.
Benzer Sesler
Kayitta cok benzer seslere sahip kisiler varsa (benzer yastaki ayni cinsiyetten bir grup, ikizler), gommeler cok benzer olabilir ve algoritma konusmacilari karistirir.
Gurultulu Ortamlar
Arka plan gurultusu (kafeler, sokaklar, havalandirma) gomme kalitesini dusurur ve VAD'yi zorlastirir. Duragan olmayan gurultuler — alkislar, sirenler, muzik — ozellikle sorunludur.
Telefon Sesi
Telefon kanallari yalnizca 300-3.400 Hz araligindaki frekanslari iletir (genis bantli ses: 50-8.000 Hz ve uzeri). Bu, akustik bilgiyi keser ve gomme dogrulugunu azaltir.
Bilinmeyen Konusmaci Sayisi
Algoritma kayda kac kisinin katildigini onceden bilmediginde hata yapabilir: iki benzer konusmacıyı birlestirebilir veya tam tersine tek bir konusmacıyı ikiye bolebilir.
Kisa Ifadeler
Kaliteli bir gomme icin en az 1-2 saniyelik konusma gerekir. Kisa ifadeler ("Evet", "Hayir", "Tamam") guvenilir kimliklendirme icin yeterli bilgi icermez.
Diarizasyon Destekli Araclar
| Arac | Teknoloji | Maks. Konusmaci | Dogruluk | Fiyat |
|---|---|---|---|---|
| Diktovka | Whisper + pyannote | Sinirsiz | Yuksek (DER ~%8-12) | Ucretsiz (beta) |
| Otter.ai | Tescilli | 10'a kadar | Yuksek | $16,99/ay'dan |
| AssemblyAI | Tescilli | Sinirsiz | Cok yuksek | $0,65/saat'ten |
| Deepgram | Tescilli | Sinirsiz | Yuksek | $0,25/saat'ten |
| Rev | Insan + AI | Sinirsiz | En yuksek | $1,50/dk'dan |
| pyannote.audio | Acik kaynak | Sinirsiz | Yuksek | Ucretsiz |
Diktovka, konusma tanima icin Whisper ve diarizasyon icin pyannote kombinasyonunu ek ses profilleri ozelligiyle birlikte kullanir. Bu, yalnizca konusmacilari ayirmakla kalmayip, yeni kayitlarda onlari tanima imkani da saglar — ucretsiz araclar arasinda benzersiz bir ozellik. Diarizasyon destekli transkripsiyon uygulamalarinin ayrintili incelemesi icin transkripsiyon uygulamalari karsilastirmamiza bakin.
Diarizasyonun Gelecegi
Teknoloji aktif olarak gelisiyor. Iste temel yonelimler:
Gercek Zamanli Diarizasyon
Bugunku sistemlerin cogu toplu isle modunda calisir — once tum kayit islenir, sonra sonuc verilir. Gelecek, konusmaci etiketlerinin yalnizca 1-2 saniye gecikmeyle gorundugu gercek zamanli akis diarizasyonundadir. Bu, konferanslardaki ve goruntulu goruesmelerdeki canli altyazilar icin kritik oneme sahiptir.
Multimodal Diarizasyon
Video mevcut iken neden yalnizca sese guvenelim? Ses gommelerini gorsel bilgiyle (yuz tanima, dudak hareketi izleme) birlestirmek dogrulugu onemli olcude arttirir. Cakisan konusma icin ozellikle faydalidir — kamera kimin dudaklarini kipirdattigini gosterir.
Profiller Araciligiyla Kisisellestiirme
Sistemler giderek daha fazla profil depolayacak ve bunlari yalnizca kimliklendirme icin degil, ayni zamanda modeli belirli konusmacilara uyarlamak icin de kullanacak — aksanlarini, konusma hizlarini ve kelime dagarcıklarini dikkate alarak.
Daha Iyi Cakisma Isleme
Modern diarizasyonun en zayif noktasi cakisan konusmadir. Yeni modeller (cok konusmacili ASR, hedef konusmaci cikarimi) ust uste binen sesleri giderek artan dogrulukla ayirmayi ogreniyor.
Uctan Uca Modeller
Tum asamalari (VAD, segmentasyon, gommeler, kumeleme) uctan uca egitilmis tek bir modelde birlestirme egilimi vardir. Bu tur sistemler dagitimi daha basit ve potansiyel olarak daha dogrudur, cunki asamalar veri aktarimi sirasinda bilgi kaybetmez.
Sonuc
Konusmaci diarizasyonu, yuz ifadesiz bir metin akisini her ifadenin atfedildigi yapilandirilmis bir diyaloga donusturur. "Kim ne zaman konustu" basit fikrinin arkasinda konusma tespiti, segmentasyon, ses parmak izi cikarimi ve kumelemeden olusan sofistike bir boru hatti bulunur.
Teknoloji pratik kullanim icin yeterince olgunlasmistir — %5-15 DER cogu senaryoyu kapsar. Ve Diktovka'nin destekledigi konusmaci profilleriyle birlestirildiginde, sistem yalnizca sesleri ayirmakla kalmaz, ayni zamanda yeni kayitlarda tanidik insanlari da tanir.
Toplanti, roportaj veya podcast kayitlariyla calisiyorsaniz — diarizasyon saatlerce surecek elle isaretleme isinden kurtarir ve sesi gercekten kullanisli bir belgeye donusturur. Ses verilerinizin gizliligi sizin icin onemliyse, yerel ve bulut transkripsiyon karsilastirmamizi okuyun.
FAQ
Konusmaci diarizasyonu nedir?
Konusmaci diarizasyonu, bir ses kaydinin her aninda kimin konustugunu belirleyen teknolojidir. Kaydi farkli konusmacilara ait bolumlere ayirir ve Konusmaci 1, Konusmaci 2 gibi etiketlerle isaretler.
Otomatik diarizasyon ne kadar dogrudur?
Temiz studyo kayitlarinda DER (Diarization Error Rate) %3-8'dir. Tek mikrofonlu toplanti kayitlarinda %8-15, telekonferanslarda %12-25. Cogu pratik gorev icin %10'un altindaki DER iyi bir sonuc kabul edilir.
Diarizasyon kac konusmaciyi tespit edebilir?
Modern diarizasyon sistemlerinin (ornegin pyannote.audio) konusmaci sayisi konusunda kesin bir siniri yoktur. Ancak katilimci sayisi arttikca, ozellikle sesler benzer oldugunda veya insanlar ayni anda konustugunda dogruluk duser.
Hangi araclar konusmaci diarizasyonunu destekler?
Ucretsiz: Diktovka (Whisper + pyannote, ses profilleriyle) ve pyannote.audio (acik kaynakli kutuphane). Ucretli: Otter.ai, AssemblyAI, Deepgram, Rev. Diktovka, tanis sesleri otomatik tanima ozelligine sahip tek ucretsiz servistir.
Diarizasyon konusma tanimasindan nasil farklidir?
Konusma tanima (ASR) 'ne soylendi' sorusuna cevap verir — sesi metne donusturur. Diarizasyon 'kim ne zaman konustu' sorusuna cevap verir — sesi konusmacilara gore boler. Bunlar yapilandirilmis transkriptler olusturmak icin birlikte calisan farkli teknolojilerdir.