Spiker diarizasiyasi nedir ve nece isleyir

28 mart 2026·18 dəq oxuma

Spiker diarizasiyasi "kim ne vaxt danisdi" sualina cavab veren texnologiyadir. O, audio yazini muxtelif danisanlara aid seqmentlere bolur ve her seqmenti muvafiq etiketle isarelayir. Bu meqalede spiker diarizasiyasinin arxa planinda nece islediyini, hansi alqoritmlerin istifade olundugunu, harada tetbiq olundugunu ve hansi mehdudiyyelerin movcud oldugunu arasdiracagiq.

Spiker diarizasiyasi nedir

Bes istirakcisi olan bir saatlik iclas yaziniz oldugunu teseyvvur edin. Nitq taninma xidmeti sesi metnecevirer, amma kimin ne dediyine dair hec bir gosterici olmadan fasilsiz soz axini elde edeceksiniz. Spiker diarizasiyasi mehz bu problemi hell edir — o, her an kimin danisdigini mueyyenlesdirir.

Uc elaqeli texnologiyani ferqlendirmek vacibdir:

Avtomatik nitq taninma (ASR) — sesi metne cevirir. "Ne deyildi?" sualina cavab verir.
Spiker diarizasiyasi — audionu danisanlara gore bolur. "Kim ne vaxt danisdi?" sualina cavab verir.
Spiker identifikasiyasi — mueyyen bir sexsi sesine gore taniyir. "Bu Eli beyin sesidir?" sualina cavab verir.

Diarizasiya adlari bilmir — sadecelabel-ler teyinedir: Spiker 1, Spiker 2, Spiker 3. Amma ses profilleri ile birlesdirildikde (asagida etrafliolacaq), etiketler haqiqi adlarla evez oluna biler.

Praktiki numuneiclas yazmisiz, burada layihe budcesi muzakire olunurdu. Diarizasiyasiz yalniz metn gorursunuz. Diarizasiya ile — strukturlasmis dialoq:

Spiker 1 (00:00–00:45): Marketinq budcesini 20% artirmagi teklif edirem. Spiker 2 (00:46–01:12): Razilasmiram. Evvelce cari kampaniyanin neticelerine baxaq. Spiker 3 (01:13–01:40): Hesabati cumeye qeder hazirlaya bilerem.

Indi yalniz nenin muzakire olundugu deyil, hem de kimin hansi movqeni tutdugu aydindir.

Spiker diarizasiyasi niye vacibdir

Spikerlerin ayrilmasi onlarla ssenari ucun kritik ehemiyyete malikdir. Budur esaslari:

Iclas protokollari

En genis yayilmis istifade halir. Bir iclasa 5-10 nefer qatildiqda, diarizasiyasiz kimin qerar verdigini, kimin etiraz etdiyini ve ya kimin vezifeni ohdeine goturduyunu basacalmaq mumkun deyil. Adsiz protokollar yararsiz stenoqramdir.

Musahibeler ve jurnalistika

Jurnalist oz suallarini respondentin cavablarindan aydin sekilde ayirmalidir. Iki saatlik musahibe metnini elle bolmek saatlar cekirDiarizasiya bunu avtomatik edir.

Podkastlar

Aparici ve qonaq (ve ya bir nece qonaq) aydin sekilde ayrilmalidir — transkript, subtitrl, sitatlar ve SEO-optimallasdirilmis epizod teyinatlari yaratmaq ucun.

Mehkeme prosesleri

Hakim, prokuror, vekil, teqsir olunan, sahidler — her ifade deqiq attribut edilmelidir. Sehv attribut mehkeme qerarina tesir ede biler.

Tibbi konsultasiyalar

Hekim ve xeste arasinda sohbet: kim simptomlari tesvir etdi, kim mualiceleni teyinedi. Tibbi senedlesme ve sigortaqeydleri ucun vacibdir.

Cagri merkezleri

Operator ile musteri. Diarizasiya xidmet keyfiyyetinin tehlilini, cavab verme muddethesablamasini ve skriptlere uygunlugun monitorinqini mumkun edir. Sirketler gunde minlerle zeng isleyir — elle isareleme mumkun deyil.

Tehsil

Telebe suallari olan muhazireler: muellimin nitqini auditoriyadan gelen suallardan ayirmaq. Tedris materiallari yaratmaq ucun faydalidir.

Diarizasiya nece isleyir: texniki tehlil

Spiker diarizasiyasi ardici bir nece merheleden ibaret boruxattidir (pipeline). Her merhele oz vezifesini hell edir ve her birinin keyfiyyeti son neticeye tesir gosterir.

Merhele 1: Ses Aktivliyi Aşkarlama (VAD)

Ilk addim — audioda harda nitqin movcud oldugunu mueyyenlesdirekdir. Ses yazisi sukut, fon sesuzu, musiqi, klaviatura tiqiltisi ve diger nitq olmayan sesleri ehtiva edir. VAD (Voice Activity Detection) audionu nitqi olan ve olmayan hisselere bolur.

Muasir VAD yanasmalaribunlardir:

Silero VAD — yigcam ve suretli neyron sebekesi modeli. CPU-da real vaxtda isleyir. Muasir boruxattlarinin ekseriyyetinde istifade olunur.
WebRTC VAD — Google-un WebRTC layihesinden klassik alqoritm. Suretli, amma sesli muhitlerde daha az deqiqdir.
Enerji esasli usullar — en sade yanasma: eger siqnal amplitudasi hedden yuxaridirsa, kimse danisir. Real seraitlerde etibarsizdir.

VAD-in cixisi nitq seqmentlerinin vaxt isareleridir: [(0.5s–3.2s), (4.1s–7.8s), (8.5s–12.0s), ...].

Merhele 2: Seqmentasiya

Sonra nitq seqmentlerini homojen hisselere bolmek lazimdir — beleceher hisse bir spikereatidsin.

Esas vezife Spiker Deyisikliyinin Aşkarlanmasidir (Speaker Change Detection). Alqoritm bir sesin digerine kecdiyi anlari axarir. Bu cetin bir vezifedir, cunki:

Kecid ani ola biler (sozunu kesmek)
Novbeler arasinda fasileler ola biler
Tek bir spiker intonasiyani, ses gucunu ve tempi deyise biler

Muasir sistemler (meselen, pyannote.audio) 200-500 millisaniye deqiqliyile seqment serhedlerini aşkarlamaq ucun oyredilmis neyron modelleri istifade edir.

Merhele 3: Embedding cixarilmasi

Bu muhum merheledir. Her nitq seqmenti ucun neyron sebekesi bir nov "ses barmagizi" olan ededsel vektor — ses embedding-i hesablayir.

Embedding-in kodladigi melumatlar:

Tembr — ses yolunun anatomiyasi ile mueyyenlesennunikalenq "rengi"
Ucaliq — sesin esas tezliyi (F0)
Danis tarzi — suret, intonasiya qelibleri, teleffuz verd isleleri
Akustik xususiyyetler — formant tezlikleri, spektral zarfi

Embedding cixarilmasi ucun neyron sebekeleri:

ECAPA-TDNN — en populyar arxitekturalardan biri. Diqqet mexanizmleri ve coxseviyyeli xususiyyet aqqreqasiyasindan istifade edir. pyannote.audio standarti.
TitaNet — NVIDIA terefinden hazirlanib. Yuksek deqiqlik, GPU ucun optimallasdirilib.
WavLM — Microsoft-un transformer esasli modeli. Boyuk bir verilenbazasinda on-oyredilmis, en yaxsi neticeleri verir.
ResNet esasli — audio ucun uygunlasdirilmis klassik konvolyusion sebekeler.

Tipik embedding 192-512 ededden ibaret vektordur. Eyni spikerdengelen iki seqmentin oxsar embedding-leri (yaxin vektorlari) olacaq, muxtelif spikerlerin ise — uzaq.

Merhele 4: Klasterleme

Butun seqmentlerin embedding-lerini elde etdikden sonra, onlari spikerlere gore qruplasdirmaq lazimdir. Bu bir klasterleme problemidir — klassik masin oyrenmesi vezifesi.

Esas alqoritmlerbunlardir:

Aqqlomerativ klasterleme (iyerarxik klasterleme) — her seqmentin ayri bir spiker oldugunuferzedirl, sonra en oxsarlarini addim-addim birlesdirir. Diarizasiyada en genis yayilmis yanasma.
Spektral klasterleme — seqmentler arasi oxsarliq qrafiki qurur ve optimal bolusmeni axtarir. Spiker sayi evvelceden melum oldugunda yaxsi isleyir.
K-Means — suretli, amma klaster sayini evvelceden gostermekteleb edir.
HDBSCAN — klaster sayini avtomatik olaraqmueyyenlesdirir ve sesuze davamlıdir.

Ayri bir problem — spiker sayini mueyyenlesdirmek. Eger say evvelceden melum olsaMesselen, "zengde 2 istirakci var idi"), vezife sadeleşir. Olmazsa, alqoritm BIC (Bayesian Information Criterion) ve ya silhouette score kimi metrikalardan istifade ederek onu ozumueyyenlesdirmelidir.

Merhele 5: Son etiketleme

Son merhelede her seqmente bir spiker etiketi teyinolunur. Netice — vaxtla uygunlasdirilmis isareleme:

00:00–00:45 → Spiker 1
00:46–01:12 → Spiker 2
01:13–01:40 → Spiker 3
01:41–02:05 → Spiker 1

Elave cetin bir mesele ust-uste dusen nitqin isle nmesidir. Iki nefer eyni anda danisdiqda, bir seqment iki etiketle isarelenmalidir. Muasir sistemler (pyannote.audio 3.x) coxkanalli mikrofon verileni uzerinde oyredilmis ixtisaslasdirilmis seqmentasiya modelleri vasitesile ust-uste dusmeleri isle ye bilir.

Diarizasiya keyfiyyet metrikalari

Diarizasiyanin ne qeder yaxsi islediyini nece qiymetlendirmek olar? Standart metrika DER (Diarization Error Rate)-dir.

DER uc komponentden ibaretdir:

Oturdulmus Nitq (Missed Speech) — sistemin askar etmediyi nitq
Yalnis Siqnal (False Alarm) — sehv olaraq nitq kimi isarelenmis sukut ve ya sesuzu
Spiker Qarisikligi (Speaker Confusion) — durust askar edilmis, amma sehv spikereteyin edilmis nitq

Formul: DER = (oturulen + yalnis siqnal + qarisiq) / umumi nitq muddetDi

Muasir neticeler:

Temiz yazilar (studiya keyfiyyeti): DER 3-8%
Iclaslar (tek mikrofon): DER 8-15%
Telekonferanslar: DER 12-25%
Kokteyl ziyafeti (cox spiker, sesuzu): DER 20-40%

Ekser praktiki vezifeler ucun 10%-dan asagi DER yaxsi netice hesab olunur. WER (Word Error Rate) dahil deqiqlik olculeri haqqinda daha etraflimelumat ucun transkripsiyon bazari beledcimize baxin.

Spiker profilleri: novbeti seviyye

Standart diarizasiya sexssiz etiketler teyinedir: Spiker 1, Spiker 2. Bessi bir tanis sesi tani bilerse nece?

Diarizasiya zamani cixarilan ses embedding-leri spiker profili olaraq saxlana biler. Yeni yazini isle yerkensistem yeni seqmentlerin embedding-lerini saxlanmis profillerle muqayise edir ve avtomatik olaraq adlari evezeedir.

Диктовка bu xususiyyeti desteleyir — ses profilleri. Ilk yazi zamani sistem her yeni spiker ucun embedding yaradir ve ad teyinetmeyiteklif edir. Sonraki yazilarda Диктовка sesi avtomatik taniyir ve saxlanmis adi doldurur.

Embedding-ler kosinus oxsarligi (cosine similarity) istifade olunarag muqayise edilir. Kosinus oxsarligi >= 0.75 oldugda iki vektor eyni sexse aid hesab olunur. Bu hed-deyer deqiqlik (muxtelif sexsleri qarisidirmamaq) ve ehata (muxtelif yazi seraitlerinde eyni sexsi tanimaq) arasinda tarazliq temin edir.

Spiker profilleri xususile bunlar ucun faydalidir:

Mutamadi iclaslar — 5-7 nefer lik komanda her hefte goruesur. Sistem butun istirakcilari taniyir.
Podkastlar — aparici ve daimi ortaqlar avtomatik olaraq tanir; yalniz qonaqlar yeni spikler kimi isarelenir.
Tibbi muayineler — hekim qebullari yazir; sesin avtomatik olaraq tanir, xeste sesleri ise her defe yeni olur.

Mehdudiyyetler ve cetinlikler

Diarizasiya teesiri geciren texnologiyadir, amma mukemmel deyil. Budur esas cetinlikler:

Ust-uste dusen nitq

Iki ve ya daha cox nefer eyni anda danisdiqda, alqoritmlerin sesleri ayirmasi son derece cetindir. Bu, xususile qizgin muzakirelerde real iclaslarda en genis yayilmis xeta menbevidir.

Oxsar sesler

Yazida cox oxsar sesleri olan sexsler istirak edirse (eyni cinsin oxsar yasda bir qrupu, ekizler), embedding-ler cox oxsar ola biler ve alqoritm spikerleri qarisdirar.

Sesli muhitler

Fon sesuzusu (kafelar, kuceler, havalandirma) embedding keyfiyyetini azaldir ve VAD-i cetinlesdirir. Qeyrmuuntalibsesuzuler — el capma, sirena, musiqi — xususi le problematikdir.

Telefon sesi

Telefon kanallari tezlikleri yalniz 300-3.400 Hz diapazonunda oturur (geniszolagli audio: 50-8.000 Hz ve yuxari). Bu akustik melumati kesir ve embedding deqiqliyini azaldir.

Melum olmayan spiker sayi

Alqoritm yazida nece neferin istirak etdiyini evvelceden bilmedikde, xetalar bura biler: iki oxsar spikeri birine birlesdirmek ve ya eksine, tek bir spikeri ikiye bolmek.

Qisa ifadeler

Keyfiyyetli embedding ucun en azi 1-2 saniye nitq lazimdir. Qisa ifadeler ("Beli", "Xeyir", "Raziyam") etibarlidentifikasiya ucun kifayet qeder melumat ehtiva etmir.

Diarizasiya destekli aletler

Alet	Texnologiya	Maks. spikler	Deqiqlik	Qiymet
Диктовка	Whisper + pyannote	Limitsiz	Yuksek (DER ~8-12%)	Pulsuz (beta)
Otter.ai	Mulkiyyet	10-a qeder	Yuksek	$16.99/aydan
AssemblyAI	Mulkiyyet	Limitsiz	Cox yuksek	$0.65/saatdan
Deepgram	Mulkiyyet	Limitsiz	Yuksek	$0.25/saatdan
Rev	Insan + AI	Limitsiz	En yuksek	$1.50/deq-den
pyannote.audio	Aciq menbeli	Limitsiz	Yuksek	Pulsuz

Диктовка nitq taninma ucun Whisper ve diarizasiya ucun pyannote kombinasiyasindan elave ses profilleri xususiyyeti ile birlikde istifade edir. Bu, yalniz spikerleri ayirmaqla yanasisonlari yeni yazilarda tanimaga da imkan verir — pulsuz aletler arasinda unikal bir imkan. Diarizasiya destekli transkripsiyon tetbiqlerinin etraflitehlili ucun transkripsiyon tetbiqleri muqayisemize baxin.

Diarizasiyanin gelecevi

Texnologiya aktiv olaraq inki safedir. Budur esas istiqametler:

Real vaxt diarizasiyasi

Bu gun sistemlerin ekseriyyeti toplu isle me rejiminde isleyir — evvelcebut un yazi isle nir, sonra netice verilir. Gelecek, spiker etiketlerinin cemi 1-2 saniye gecikmeyile gorunduyureal vaxt axin diarizasiyasindadir. Bu, konfreanslar ve video zenglerdeki canli subtitrl ucun kritik ehemiyyete malikdir.

Multimodal diarizasiya

Video movcud iken niye yalniz audioya guvenilir? Audio embedding-leri vizual melumatla (uz taninmasi, dodaq hereketinin izlenmesi) birlesdirek deqiqliyi ehemiyyetli derecede artirdir. Ust-uste dusen nitq ucun xususi le faydalidir — kamera kimin dodaqlarini hereket etdirdiyini gosterir.

Profiller vasitesile ferdilesdiirme

Sistemler getdikce daha cox profil saxlayacaq ve onlari yalniz identifikasiya ucun deyil, hem de modeli mueyyen spikerlere uygunlasdirmaq ucun istifade edecek — onlarin aksentini, danis suretini ve lug et ehtiiyatini nezerealaraq.

Daha yaxsi ust-uste dusme isle mesi

Muasir diarizasiyanin en zeif noqtesi ust-uste dusen nitqdir. Yeni modeller (cox-spikerli ASR, hedef spiker cixarilmasi) ust-uste gelmis sesleri artan deqiqliyile ayiemagi oyrnir.

Ucdan-uca modeller

Butun merhelel eri (VAD, seqmentasiya, embedding-ler, klasterleme) ucdan-uca oyredilmis vahid modelde birlesdirme meyli vardir. Bele sistemler yerles dirmede daha sade ve potensial olaraq daha deqiqdir, cunki merheleler data oturerkenbmelumati itirmir.

Netice

Spiker diarizasiyasi simasiz bir metn axinini her ifadenin attribut edilduyistrukturlasdirilmis dialoqa cevirir. "Kim ne vaxt danisdi" sade fikrinin arxasinda nitq aşkarlanmasi, seqmentasiya, ses barmagizi cixarilmasi ve klasterlemeden ibaret mukemmel bir boruxatti dayanir.

Texnologiya praktiki istifade ucun kifayet qeder yetkindir — 5-15% DER ekser ssenari leri ehatedir. Ve Диктовка-nin destelediyi spiker profilleri ile birlesdirildikde, sistem yalniz sesleri ayirmaqla qalmayir, hem de yeni yazilarda tanis insanlari taniyir.

Eger siz iclaslarin, musahibelerin ve ya podkastlarin yazilari ile isleyirsizse — diarizasiya elle isarelemenin saatlarini qenaat edir ve audionu heqiqeten faydali bir senede cevirir. Audio verilerinizin mexfiliyinahat edirsizse, yerli ve bulud transkripsiyanin muqayisesi haqqinda meqalemizi oxuyun.

FAQ

Spiker diarizasiyasi nedir?

Spiker diarizasiyasi audio yazinin her aninda kimin danisdigini mueyyenlesdiren texnologiyadir. Yazini muxtelif danisanlara aid seqmentlere bolur ve onlari etiketleyir — Spiker 1, Spiker 2 ve s.

Avtomatik diarizasiya ne qeder deqiqdir?

Temiz studiya yazilarinda DER (Diarization Error Rate) 3–8% teskiledir. Tek mikrofonlu iclas yazilarinda — 8–15%. Telekonferanslarda — 12–25%. Ekser praktiki vezifeler ucun 10%-dan asagi DER yaxsi netice hesab olunur.

Diarizasiya nece spiker askar ede bilir?

Muasir diarizasiya sistemlerinin (meselen, pyannote.audio) spiker sayina qati mehdudiyyeti yoxdur. Lakin istirakcilarin sayi artdiqca, xususile sesler oxsar oldugda ve ya insanlar eyni anda danisdiqda deqiqlik azalir.

Hansi aletler spiker diarizasiyasini desteleyir?

Pulsuz: Диктовка (Whisper + pyannote, ses profilleri ile) ve pyannote.audio (aciq menbeli kitabxana). Pullu: Otter.ai, AssemblyAI, Deepgram, Rev. Диктовка tanis sesleri avtomatik tanima xususiyyetine malik yegane pulsuz xidmetdir.

Diarizasiya nitq tanimadan nece ferqlenir?

Nitq tanima (ASR) 'ne deyildi' sualina cavab verir — sesi metne cevirir. Diarizasiya 'kim ne vaxt danisdi' sualina cavab verir — audionu danisanlara gore bolur. Bunlar strukturlasmis transkriptler yaratmaq ucun birlikde islyen muxtelif texnologiyalardir.

Диктовка-i sınayın

←Bütün məqalələr