Што такое дыярызацыя спікераў і як яна працуе

28 сакавіка 2026 г.·18 хв чытання

Дыярызацыя спікераў — гэта тэхналогія, якая адказвае на пытанне «хто гаварыў калі». Яна падзяляе аўдыязапіс на сегменты, якія належаць розным гаворачым, і пазначае кожны сегмент адпаведнай меткай. У гэтым артыкуле мы разбярэм, як працуе speaker diarization знутры, якія алгарытмы выкарыстоўваюцца, дзе гэта прымяняецца і якія абмежаванні існуюць.

Што такое дыярызацыя спікераў

Уявіце, што ў вас ёсць гадзінны запіс нарады з пяццю ўдзельнікамі. Сэрвіс распазнавання маўлення ператворыць гук у тэкст, але вы атрымаеце суцэльны паток слоў без указання, хто што сказаў. Дыярызацыя спікераў вырашае менавіта гэтую праблему — яна вызначае, хто гаварыў у кожны момант часу.

Важна адрозніваць тры сумежныя тэхналогіі:

Распазнаванне маўлення (ASR) — ператварэнне гуку ў тэкст. Адказвае на пытанне «што сказана?»
Дыярызацыя спікераў — падзел аўдыё па гаворачых. Адказвае на пытанне «хто гаварыў калі?»
Ідэнтыфікацыя голасу — вызначэнне канкрэтнай асобы па голасе. Адказвае на пытанне «гэта голас Івана Петрова?»

Дыярызацыя не ведае імёнаў — яна проста прысвойвае меткі: Спікер 1, Спікер 2, Спікер 3. Але ў спалучэнні з профілямі галасоў (пра гэта ніжэй) меткі можна замяніць на сапраўдныя імёны.

Практычны прыклад: вы запісалі нараду, дзе абмяркоўваўся бюджэт праекта. Без дыярызацыі вы ўбачыце проста тэкст. З дыярызацыяй — структураваны дыялог:

Спікер 1 (00:00–00:45): Прапаную павялічыць бюджэт на маркетынг на 20%. Спікер 2 (00:46–01:12): Не згодзен. Давайце спачатку паглядзім вынікі бягучай кампаніі. Спікер 3 (01:13–01:40): Магу падрыхтаваць справаздачу да пятніцы.

Цяпер зразумела не толькі што абмяркоўвалася, але і хто якую пазіцыю заняў.

Навошта патрэбна дыярызацыя

Падзел спікераў крытычна важны ў дзясятках сцэнарыяў. Вось асноўныя:

Пратаколы нарад

Самы масавы сцэнарый. Калі ў нарадзе ўдзельнічаюць 5–10 чалавек, без дыярызацыі немагчыма зразумець, хто прыняў рашэнне, хто пярэчыў, хто ўзяў задачу на сябе. Пратакол без імёнаў — бескарысная стэнаграма.

Інтэрв'ю і журналістыка

Журналісту трэба дакладна аддзяліць свае пытанні ад адказаў рэспандэнта. Пры расшыфроўцы двухгадзіннага інтэрв'ю ручное аддзяленне займае гадзіны. Дыярызацыя робіць гэта аўтаматычна.

Падкасты

Вядучы і госць (або некалькі гасцей) павінны быць выразна аддзелены — для стварэння стэнаграмы, субтытраў, цытат і SEO-аптымізаваных апісанняў выпуску.

Судовыя паседжанні

Суддзя, пракурор, адвакат, падсудны, сведкі — кожнае выказванне павінна быць дакладна атрыбуціравана. Памылка ў атрыбуцыі можа паўплываць на судовае рашэнне.

Медыцынскія кансультацыі

Размова ўрача і пацыента: хто апісаў сімптомы, хто прызначыў лячэнне. Важна для медыцынскай дакументацыі і страхавых выпадкаў.

Кол-цэнтры

Аператар супраць кліента. Дыярызацыя дазваляе аналізаваць якасць абслугоўвання, час адказу, выкананне скрыптоў. Кампаніі апрацоўваюць тысячы званкоў у дзень — ручная разметка немагчыма.

Адукацыя

Лекцыі з пытаннямі студэнтаў: аддзяленне маўлення выкладчыка ад пытанняў з аўдыторыі. Карысна для стварэння навучальных матэрыялаў.

Як працуе дыярызацыя: тэхнічны разбор

Дыярызацыя спікераў — гэта канвеер (pipeline) з некалькіх паслядоўных этапаў. Кожны этап вырашае сваю задачу, і якасць кожнага ўплывае на канчатковы вынік.

Этап 1: Voice Activity Detection (VAD)

Першы крок — вызначыць, дзе ў аўдыё ўвогуле ёсць маўленне. Аўдыязапіс утрымлівае цішыню, фонавы шум, музыку, стук клавіятуры і іншыя не-маўленчыя гукі. VAD (дэтэктар галасавой актыўнасці) падзяляе аўдыё на ўчасткі з маўленнем і без яго.

Сучасныя падыходы да VAD:

Silero VAD — нейрасеткавая мадэль, кампактная і хуткая. Працуе на CPU ў рэальным часе. Выкарыстоўваецца ў большасці сучасных pipeline-аў.
WebRTC VAD — класічны алгарытм з праекта WebRTC ад Google. Хуткі, але менш дакладны ў шумных умовах.
Энергетычныя метады — найпрасцейшы падыход: калі амплітуда сігналу вышэй за парог — значыць, хтосьці гаворыць. Ненадзейны ў рэальных умовах.

Вынік VAD — часавыя меткі ўчасткаў з маўленнем: [(0.5с–3.2с), (4.1с–7.8с), (8.5с–12.0с), ...].

Этап 2: Сегментацыя

Цяпер трэба разбіць участкі маўлення на аднародныя сегменты — так, каб кожны сегмент належаў аднаму спікеру.

Ключавая задача — дэтэктаванне змены спікера (Speaker Change Detection). Алгарытм шукае моманты, калі адзін голас змяняецца іншым. Гэта складаная задача, таму што:

Змена можа быць імгненнай (перабіванне)
Паміж рэплікамі можа быць паўза
Адзін спікер можа мяняць інтанацыю, гучнасць і тэмп

Сучасныя сістэмы (напрыклад, pyannote.audio) выкарыстоўваюць нейрасеткавыя мадэлі, навучаныя вызначаць межы сегментаў з дакладнасцю да 200–500 мілісекунд.

Этап 3: Здабыванне эмбедынгаў

Гэта ключавы этап. Для кожнага сегмента маўлення нейрасетка вылічвае галасавы эмбедынг — лічбавы вектар, які з'яўляецца своеасаблівым «адбіткам голасу».

Што кадзіруе эмбедынг:

Тэмбр голасу — унікальная «афарбоўка» гуку, якая вызначаецца анатоміяй галасавога тракту
Вышыня — базавая частата голасу (F0)
Манера маўлення — хуткасць, інтанацыйныя патэрны, вымаўленне
Акустычныя асаблівасці — фармантныя частоты, спектральная абалонка

Нейрасеткі для здабывання эмбедынгаў:

ECAPA-TDNN — адна з самых папулярных архітэктур. Выкарыстоўвае механізм увагі і шматузроўневыя агрэгацыі прыкмет. Стандарт у pyannote.audio.
TitaNet — распрацоўка NVIDIA. Высокая дакладнасць, аптымізавана для GPU.
WavLM — мадэль ад Microsoft на базе трансформераў. Папярэдне навучаная на вялізным корпусе даных, паказвае найлепшыя вынікі.
ResNet-based — класічныя згортачныя сеткі, адаптаваныя для аўдыё.

Тыповы эмбедынг — гэта вектар з 192–512 лічбаў. Два сегменты ад аднаго і таго ж спікера будуць мець падобныя эмбедынгі (блізкія вектары), а ад розных — далёкія.

Этап 4: Кластарызацыя

Маючы эмбедынгі ўсіх сегментаў, трэба згрупаваць іх па спікерах. Гэта задача кластарызацыі — класічная задача машыннага навучання.

Асноўныя алгарытмы:

Agglomerative Clustering (іерархічная кластарызацыя) — пачынае з дапушчэння, што кожны сегмент — асобны спікер, потым паслядоўна аб'ядноўвае найбольш падобныя. Самы распаўсюджаны падыход у дыярызацыі.
Spectral Clustering — будуе граф падабенства паміж сегментамі і шукае аптымальнае разбіццё. Добра працуе, калі колькасць спікераў вядомая загадзя.
K-Means — хуткі, але патрабуе загадзя ўказаць колькасць кластараў.
HDBSCAN — аўтаматычна вызначае колькасць кластараў і ўстойлівы да шуму.

Асобная задача — вызначэнне колькасці спікераў. Калі колькасць вядомая загадзя (напрыклад, «у званку было 2 ўдзельнікі»), задача спрашчаецца. Калі не — алгарытм павінен вызначыць яе сам, выкарыстоўваючы метрыкі накшталт BIC (Bayesian Information Criterion) або silhouette score.

Этап 5: Фінальная разметка

На апошнім этапе кожнаму сегменту прысвойваецца метка спікера. Вынік — часавая разметка:

00:00–00:45 → Спікер 1
00:46–01:12 → Спікер 2
01:13–01:40 → Спікер 3
01:41–02:05 → Спікер 1

Асобная складанасць — апрацоўка перакрыццяў (overlapping speech). Калі двое людзей гавораць адначасова, адзін сегмент павінен быць размечаны дзвюма меткамі. Сучасныя сістэмы (pyannote.audio 3.x) умеюць апрацоўваць перакрыцці, выкарыстоўваючы спецыяльныя мадэлі сегментацыі, навучаныя на даных з шматканальных мікрафонаў.

Метрыкі якасці дыярызацыі

Як ацаніць, наколькі добра працуе дыярызацыя? Стандартная метрыка — DER (Diarization Error Rate).

DER складаецца з трох кампанентаў:

Missed Speech — маўленне, якое сістэма не выявіла (прапушчана)
False Alarm — цішыня або шум, памылкова размечаныя як маўленне
Speaker Confusion — маўленне правільна выяўлена, але прыпісана не таму спікеру

Формула: DER = (missed + false alarm + confusion) / агульная працягласць маўлення

Сучасныя вынікі:

Чыстыя запісы (студыйная якасць): DER 3–8%
Нарады (1 мікрафон): DER 8–15%
Тэлеканферэнцыі: DER 12–25%
Кактэйль-парці (мноства спікераў, шум): DER 20–40%

Для большасці практычных задач DER ніжэй за 10% лічыцца добрым вынікам. Больш падрабязна пра арыенціры дакладнасці, уключаючы WER (Word Error Rate), чытайце ў нашым аглядзе рынку транскрыпцыі.

Профілі спікераў: наступны ўзровень

Стандартная дыярызацыя прысвойвае безасабовыя меткі: Спікер 1, Спікер 2. Але што, калі сістэма можа пазнаць знаёмы голас?

Галасавыя эмбедынгі, здабытыя на этапе дыярызацыі, можна захаваць як профіль спікера. Пры апрацоўцы новага запісу сістэма параўноўвае эмбедынгі новых сегментаў з захаванымі профілямі і аўтаматычна падстаўляе імёны.

Дыктоўка падтрымлівае гэтую функцыю — профілі галасоў (voice profiles). Пры першым запісе сістэма стварае эмбедынг кожнага новага спікера і прапануе прысвоіць яму імя. У наступных запісах Дыктоўка аўтаматычна пазнае голас і падстаўляе захаванае імя.

Для параўнання эмбедынгаў выкарыстоўваецца касінуснае падабенства (cosine similarity). Два вектары лічацца такімі, што належаць адной асобе, калі cosine similarity >= 0.75. Гэта парог, які забяспечвае баланс паміж дакладнасцю (не зблытаць розных людзей) і паўнатой (пазнаць таго ж чалавека пры розных умовах запісу).

Профілі спікераў асабліва карысныя для:

Рэгулярных нарад — каманда з 5–7 чалавек збіраецца кожны тыдзень. Сістэма ведае ўсіх удзельнікаў.
Падкастаў — вядучы і пастаянныя сувядучыя пазнаюцца аўтаматычна, толькі госці пазначаюцца як новыя спікеры.
Медыцынскай практыкі — урач запісвае прыёмы, яго голас пазнаецца аўтаматычна, а галасы пацыентаў — новыя кожны раз.

Абмежаванні і складанасці

Дыярызацыя — уражлівая тэхналогія, але далёкая ад дасканаласці. Вось асноўныя складанасці:

Перакрыццё маўлення

Калі двое або больш людзей гавораць адначасова, алгарытму надзвычай складана аддзяліць галасы. Гэта самая частая крыніца памылак на рэальных нарадах, асабліва ў эмацыйных дыскусіях.

Падобныя галасы

Калі ў запісе ўдзельнічаюць людзі з вельмі падобнымі галасамі (аднаполая група блізкага ўзросту, блізняты), эмбедынгі могуць быць занадта падобнымі, і алгарытм зблытае спікераў.

Шумнае асяроддзе

Фонавы шум (кавярні, вуліцы, вентыляцыя) зніжае якасць эмбедынгаў і ўскладняе VAD. Асабліва праблематычныя нестацыянарныя шумы — воплескі, сірэны, музыка.

Тэлефонная сувязь

Тэлефонныя каналы перадаюць частоты толькі ў дыяпазоне 300–3400 Гц (у шыракапалоснага аўдыё — 50–8000 Гц і больш). Гэта абразае акустычную інфармацыю і зніжае дакладнасць эмбедынгаў.

Невядомая колькасць спікераў

Калі алгарытм не ведае загадзя, колькі людзей удзельнічалі ў запісе, ён можа памыліцца: аб'яднаць двух падобных спікераў у аднаго або, наадварот, падзяліць аднаго на двух.

Кароткія рэплікі

Для якаснага эмбедынгу патрэбна мінімум 1–2 секунды маўлення. Кароткія рэплікі («Так», «Не», «Згодзен») не ўтрымліваюць дастаткова інфармацыі для надзейнай ідэнтыфікацыі.

Інструменты з падтрымкай дыярызацыі

Інструмент	Тэхналогія	Макс. спікераў	Дакладнасць	Кошт
Дыктоўка	Whisper + pyannote	Без абмежаванняў	Высокая (DER ~8–12%)	Бясплатна (бэта)
Otter.ai	Прапрыетарная	Да 10	Высокая	Ад $16.99/мес
AssemblyAI	Прапрыетарная	Без абмежаванняў	Вельмі высокая	Ад $0.65/гадз
Deepgram	Прапрыетарная	Без абмежаванняў	Высокая	Ад $0.25/гадз
Rev	Чалавек + AI	Без абмежаванняў	Найвышэйшая	Ад $1.50/хв
pyannote.audio	Open-source	Без абмежаванняў	Высокая	Бясплатна

Дыктоўка выкарыстоўвае камбінацыю Whisper (для распазнавання маўлення) і pyannote (для дыярызацыі) з дадатковай функцыяй профіляў галасоў. Гэта дазваляе не толькі падзяляць спікераў, але і пазнаваць іх у новых запісах — унікальная функцыя сярод бясплатных інструментаў. Падрабязны агляд праграм для транскрыпцыі з падтрымкай дыярызацыі чытайце ў нашым параўнанні праграм для транскрыпцыі.

Будучыня дыярызацыі

Тэхналогія актыўна развіваецца. Вось ключавыя напрамкі:

Real-time дыярызацыя

Сёння большасць сістэм працуюць у пакетным рэжыме — спачатку ўвесь запіс апрацоўваецца, потым выдаецца вынік. Будучыня за патокавай дыярызацыяй у рэальным часе, калі меткі спікераў з'яўляюцца з затрымкай у 1–2 секунды. Гэта крытычна важна для live-субтытраў на канферэнцыях і відэазванках.

Мультымадальная дыярызацыя

Навошта спадзявацца толькі на аўдыё, калі ёсць відэа? Камбінацыя аўдыё-эмбедынгаў з візуальнай інфармацыяй (распазнаванне твараў, адсочванне руху вуснаў) значна павышае дакладнасць. Асабліва карысна пры перакрыцці маўлення — камера паказвае, хто варушыць вуснамі.

Персаналізацыя праз профілі

Сістэмы будуць захоўваць усё больш профіляў і выкарыстоўваць іх не толькі для ідэнтыфікацыі, але і для адаптацыі мадэлі пад канкрэтных спікераў — улічваючы іх акцэнт, тэмп маўлення, слоўнікавы запас.

Паляпшэнне апрацоўкі перакрыццяў

Самае слабае месца сучаснай дыярызацыі — маўленне, якое перакрываецца. Новыя мадэлі (multi-speaker ASR, target speaker extraction) вучацца аддзяляць накладзеныя галасы з усё большай дакладнасцю.

End-to-end мадэлі

Тэндэнцыя на аб'яднанне ўсіх этапаў (VAD → сегментацыя → эмбедынгі → кластарызацыя) у адзіную мадэль, навучаную ад пачатку да канца. Такія сістэмы прасцейшыя ў разгортванні і патэнцыяльна дакладнейшыя, бо этапы не губляюць інфармацыю пры перадачы паміж сабой.

Выснова

Дыярызацыя спікераў ператварае безаблічны паток тэксту ў структураваны дыялог з атрыбуцыяй кожнага выказвання. За простай ідэяй «хто гаварыў калі» стаіць складаны канвеер з дэтэкцыі маўлення, сегментацыі, здабывання галасавых адбіткаў і кластарызацыі.

Тэхналогія ўжо дастаткова спелая для практычнага прымянення — DER 5–15% пакрывае большасць сцэнарыяў. А ў спалучэнні з профілямі спікераў, якія падтрымлівае Дыктоўка, сістэма не проста аддзяляе галасы, але і пазнае знаёмых людзей у новых запісах.

Калі вы працуеце з запісамі нарад, інтэрв'ю або падкастаў — дыярызацыя эканоміць гадзіны ручной разметкі і ператварае аўдыё ў сапраўды карысны дакумент. Калі вас турбуе канфідэнцыяльнасць аўдыёданых, азнаёмцеся з нашым параўнаннем лакальнай і воблачнай транскрыпцыі.

FAQ

Што такое дыярызацыя спікераў?

Дыярызацыя спікераў — гэта тэхналогія, якая вызначае, хто гаварыў у кожны момант аўдыязапісу. Яна падзяляе запіс на сегменты, якія належаць розным гаворачым, і пазначае іх меткамі — Спікер 1, Спікер 2 і гэтак далей.

Наколькі дакладная аўтаматычная дыярызацыя?

На чыстых студыйных запісах DER (Diarization Error Rate) складае 3–8%. На запісах нарад з аднаго мікрафона — 8–15%. На тэлеканферэнцыях — 12–25%. Для большасці практычных задач DER ніжэй за 10% лічыцца добрым вынікам.

Колькі спікераў можа вызначыць дыярызацыя?

Сучасныя сістэмы дыярызацыі (напрыклад, pyannote.audio) не маюць жорсткага абмежавання на колькасць спікераў. Аднак дакладнасць зніжаецца пры вялікай колькасці ўдзельнікаў, асабліва калі галасы падобныя або людзі гавораць адначасова.

Якія інструменты падтрымліваюць дыярызацыю спікераў?

Бясплатныя: Дыктоўка (Whisper + pyannote, з профілямі галасоў) і pyannote.audio (бібліятэка з адкрытым кодам). Платныя: Otter.ai, AssemblyAI, Deepgram, Rev. Дыктоўка — адзіны бясплатны сэрвіс з функцыяй аўтаматычнага распазнавання знаёмых галасоў.

Чым дыярызацыя адрозніваецца ад распазнавання маўлення?

Распазнаванне маўлення (ASR) адказвае на пытанне «што сказана» — ператварае гук у тэкст. Дыярызацыя адказвае на пытанне «хто гаварыў калі» — падзяляе аўдыё па гаворачых. Гэта розныя тэхналогіі, якія працуюць разам для стварэння структураваных транскрыптаў.

Паспрабаваць бясплатна