Qu'est-ce que la diarisation des locuteurs et comment ca fonctionne
La diarisation des locuteurs est la technologie qui repond a la question "qui a parle quand". Elle segmente un enregistrement audio en portions appartenant a differents locuteurs et etiquette chaque segment en consequence. Dans cet article, nous explorerons comment la diarisation fonctionne en coulisses, quels algorithmes l'alimentent, ou elle est appliquee et quelles limites persistent.
Qu'est-ce que la diarisation des locuteurs
Imaginez que vous disposez d'un enregistrement d'une heure d'une reunion avec cinq participants. Un service de reconnaissance vocale transformera l'audio en texte, mais vous obtiendrez un flux continu de mots sans indication de qui a dit quoi. La diarisation des locuteurs resout precisement ce probleme — elle determine qui parlait a chaque instant.
Il est important de distinguer trois technologies apparentees :
- Reconnaissance automatique de la parole (ASR) — convertit le son en texte. Repond a la question "qu'a-t-on dit ?"
- Diarisation des locuteurs — divise l'audio par locuteur. Repond a la question "qui a parle quand ?"
- Identification du locuteur — determine une personne specifique par sa voix. Repond a la question "est-ce la voix de Jean Dupont ?"
La diarisation ne connait pas les noms — elle attribue simplement des etiquettes : Locuteur 1, Locuteur 2, Locuteur 3. Mais combinee avec les profils vocaux (nous y reviendrons), les etiquettes peuvent etre remplacees par de vrais noms.
Un exemple pratique : vous avez enregistre une reunion ou le budget du projet etait discute. Sans diarisation, vous ne voyez que du texte. Avec la diarisation — un dialogue structure :
Locuteur 1 (00:00–00:45) : Je suggere d'augmenter le budget marketing de 20 %. Locuteur 2 (00:46–01:12) : Je ne suis pas d'accord. Regardons d'abord les resultats de la campagne actuelle. Locuteur 3 (01:13–01:40) : Je peux avoir le rapport pret pour vendredi.
Maintenant, on comprend non seulement ce qui a ete discute, mais aussi qui a pris quelle position.
Pourquoi la diarisation est importante
La separation des locuteurs est d'une importance critique dans des dizaines de scenarios. Voici les principaux :
Comptes rendus de reunions
Le cas d'usage le plus repandu. Quand 5 a 10 personnes participent a une reunion, sans diarisation il est impossible de savoir qui a pris une decision, qui a objecte ou qui s'est charge d'une tache. Des comptes rendus sans noms sont une transcription inutile.
Entretiens et journalisme
Un journaliste doit clairement separer ses propres questions des reponses de l'interviewe. Diviser manuellement la transcription d'un entretien de deux heures prend des heures. La diarisation le fait automatiquement.
Podcasts
L'animateur et l'invite (ou plusieurs invites) doivent etre clairement separes — pour creer des transcriptions, des sous-titres, des citations et des descriptions d'episodes optimisees pour le SEO.
Procedures judiciaires
Juge, procureur, avocat de la defense, accuse, temoins — chaque declaration doit etre attribuee avec precision. Une erreur d'attribution pourrait affecter une decision de justice.
Consultations medicales
Une conversation entre medecin et patient : qui a decrit les symptomes, qui a prescrit le traitement. Essentiel pour la documentation medicale et les dossiers d'assurance.
Centres d'appels
Agent versus client. La diarisation permet l'analyse de la qualite du service, la mesure du temps de reponse et le suivi du respect des scripts. Les entreprises traitent des milliers d'appels quotidiennement — l'annotation manuelle n'est pas viable.
Education
Cours avec questions d'etudiants : separation du discours de l'enseignant et des questions de l'auditoire. Utile pour creer des materiaux pedagogiques.
Comment fonctionne la diarisation : analyse technique
La diarisation des locuteurs est un pipeline compose de plusieurs etapes sequentielles. Chaque etape traite sa propre tache, et la qualite de chacune affecte le resultat final.
Etape 1 : Detection d'activite vocale (VAD)
La premiere etape consiste a determiner ou se trouve reellement la parole dans l'audio. Un enregistrement contient du silence, du bruit de fond, de la musique, des clics de clavier et d'autres sons non vocaux. Le VAD (Voice Activity Detection) separe l'audio en segments avec et sans parole.
Approches modernes du VAD :
- Silero VAD — un modele de reseau neuronal compact et rapide. Fonctionne en temps reel sur CPU. Utilise dans la plupart des pipelines modernes.
- WebRTC VAD — un algorithme classique du projet WebRTC de Google. Rapide mais moins precis dans des conditions bruitees.
- Methodes basees sur l'energie — l'approche la plus simple : si l'amplitude du signal depasse un seuil, quelqu'un parle. Peu fiable en conditions reelles.
La sortie du VAD est un ensemble d'horodatages pour les segments de parole : [(0,5s–3,2s), (4,1s–7,8s), (8,5s–12,0s), ...].
Etape 2 : Segmentation
Ensuite, les segments de parole doivent etre divises en morceaux homogenes — de sorte que chaque morceau appartienne a un seul locuteur.
La tache cle est la Detection de changement de locuteur (Speaker Change Detection). L'algorithme recherche les moments ou une voix cede la place a une autre. C'est une tache difficile car :
- Le changement peut etre instantane (interruption)
- Il peut y avoir une pause entre les tours de parole
- Un meme locuteur peut changer d'intonation, de volume et de rythme
Les systemes modernes (comme pyannote.audio) utilisent des modeles neuronaux entraines pour detecter les limites des segments avec une precision de 200 a 500 millisecondes.
Etape 3 : Extraction des embeddings
C'est l'etape cruciale. Pour chaque segment de parole, un reseau neuronal calcule un embedding vocal — un vecteur numerique qui sert d'une sorte d' "empreinte vocale".
Ce qu'un embedding encode :
- Le timbre — la "couleur" unique du son, determinee par l'anatomie du tractus vocal
- La hauteur — la frequence fondamentale (F0) de la voix
- Le style de parole — vitesse, patterns d'intonation, habitudes de prononciation
- Les caracteristiques acoustiques — frequences formantiques, enveloppe spectrale
Reseaux neuronaux pour l'extraction d'embeddings :
- ECAPA-TDNN — l'une des architectures les plus populaires. Utilise des mecanismes d'attention et une agregation multi-niveaux de caracteristiques. Le standard dans pyannote.audio.
- TitaNet — developpe par NVIDIA. Haute precision, optimise pour les GPUs.
- WavLM — un modele base sur les transformers de Microsoft. Pre-entraine sur un corpus massif, il offre des resultats a la pointe.
- Base ResNet — des reseaux convolutifs classiques adaptes a l'audio.
Un embedding typique est un vecteur de 192 a 512 nombres. Deux segments du meme locuteur auront des embeddings similaires (vecteurs proches), tandis que des segments de locuteurs differents seront eloignes.
Etape 4 : Clustering
Avec les embeddings de tous les segments en main, l'etape suivante consiste a les regrouper par locuteur. C'est un probleme de clustering — une tache classique d'apprentissage automatique.
Principaux algorithmes :
- Clustering agglomeratif (clustering hierarchique) — commence en supposant que chaque segment est un locuteur separe, puis fusionne progressivement les plus similaires. L'approche la plus courante en diarisation.
- Clustering spectral — construit un graphe de similarite entre segments et recherche une partition optimale. Fonctionne bien quand le nombre de locuteurs est connu a l'avance.
- K-Means — rapide, mais necessite de specifier le nombre de clusters a l'avance.
- HDBSCAN — determine automatiquement le nombre de clusters et est robuste au bruit.
Un defi a part est la determination du nombre de locuteurs. S'il est connu a l'avance (par ex., "il y avait 2 participants a l'appel"), la tache est simplifiee. Sinon, l'algorithme doit le determiner lui-meme, en utilisant des metriques comme le BIC (Critere d'Information Bayesien) ou le silhouette score.
Etape 5 : Etiquetage final
A la derniere etape, chaque segment recoit une etiquette de locuteur. Le resultat est une annotation alignee temporellement :
- 00:00–00:45 → Locuteur 1
- 00:46–01:12 → Locuteur 2
- 01:13–01:40 → Locuteur 3
- 01:41–02:05 → Locuteur 1
Une complexite supplementaire est le traitement de la parole superposee. Quand deux personnes parlent simultanement, un seul segment doit etre etiquete avec deux labels. Les systemes modernes (pyannote.audio 3.x) peuvent traiter les superpositions a l'aide de modeles de segmentation specialises entraines sur des donnees de microphones multicanaux.
Metriques de qualite de la diarisation
Comment evaluer la performance de la diarisation ? La metrique standard est le DER (Diarization Error Rate).
Le DER se compose de trois composantes :
- Parole manquee (Missed Speech) — parole que le systeme n'a pas detectee
- Fausse alarme (False Alarm) — silence ou bruit incorrectement etiquete comme parole
- Confusion de locuteur (Speaker Confusion) — parole correctement detectee mais attribuee au mauvais locuteur
Formule : DER = (manquee + fausse alarme + confusion) / duree totale de la parole
Resultats actuels :
- Enregistrements propres (qualite studio) : DER 3–8 %
- Reunions (microphone unique) : DER 8–15 %
- Teleconferences : DER 12–25 %
- Cocktail party (nombreux locuteurs, bruit) : DER 20–40 %
Pour la plupart des taches pratiques, un DER inferieur a 10 % est considere comme un bon resultat. Pour un apercu approfondi des benchmarks de precision, y compris le WER (Word Error Rate), consultez notre guide du marche de la transcription.
Profils de locuteurs : le niveau suivant
La diarisation standard attribue des etiquettes impersonnelles : Locuteur 1, Locuteur 2. Mais que se passerait-il si le systeme pouvait reconnaitre une voix familiere ?
Les embeddings vocaux extraits pendant la diarisation peuvent etre sauvegardes en tant que profil de locuteur. Lors du traitement d'un nouvel enregistrement, le systeme compare les embeddings des nouveaux segments avec les profils sauvegardes et substitue automatiquement les noms.
Diktovka prend en charge cette fonctionnalite — les profils vocaux. Lors du premier enregistrement, le systeme cree un embedding pour chaque nouveau locuteur et propose d'attribuer un nom. Lors des enregistrements suivants, Diktovka reconnait automatiquement la voix et remplit le nom sauvegarde.
Les embeddings sont compares a l'aide de la similarite cosinus (cosine similarity). Deux vecteurs sont consideres comme appartenant a la meme personne si la similarite cosinus >= 0,75. Ce seuil offre un equilibre entre precision (ne pas confondre des personnes differentes) et rappel (reconnaitre la meme personne dans differentes conditions d'enregistrement).
Les profils de locuteurs sont particulierement utiles pour :
- Les reunions regulieres — une equipe de 5 a 7 personnes se reunit chaque semaine. Le systeme connait tous les participants.
- Les podcasts — l'animateur et les co-animateurs reguliers sont reconnus automatiquement ; seuls les invites sont marques comme nouveaux locuteurs.
- La pratique medicale — un medecin enregistre ses consultations ; sa voix est reconnue automatiquement, tandis que les voix des patients sont nouvelles a chaque fois.
Limitations et defis
La diarisation est une technologie impressionnante, mais elle est loin d'etre parfaite. Voici les principaux defis :
Parole superposee
Quand deux personnes ou plus parlent en meme temps, il est extremement difficile pour l'algorithme de separer les voix. C'est la source d'erreurs la plus frequente lors de reunions reelles, surtout pendant les discussions animees.
Voix similaires
Si un enregistrement implique des personnes aux voix tres similaires (un groupe de meme genre et d'age proche, des jumeaux), les embeddings peuvent etre trop semblables, et l'algorithme confondra les locuteurs.
Environnements bruyants
Le bruit ambiant (cafes, rues, ventilation) degrade la qualite des embeddings et complique le VAD. Les bruits non stationnaires — applaudissements, sirenes, musique — sont particulierement problematiques.
Audio telephonique
Les canaux telephoniques transmettent des frequences uniquement dans la plage 300–3 400 Hz (audio large bande : 50–8 000 Hz et au-dela). Cela ampute l'information acoustique et reduit la precision des embeddings.
Nombre inconnu de locuteurs
Quand l'algorithme ne sait pas a l'avance combien de personnes ont participe a l'enregistrement, il peut commettre des erreurs : fusionner deux locuteurs similaires en un seul, ou scinder un seul locuteur en deux.
Enonces courts
Un embedding de qualite necessite au minimum 1 a 2 secondes de parole. Les enonces courts ("Oui", "Non", "D'accord") ne contiennent pas assez d'informations pour une identification fiable.
Outils avec prise en charge de la diarisation
| Outil | Technologie | Locuteurs max. | Precision | Prix |
|---|---|---|---|---|
| Diktovka | Whisper + pyannote | Illimites | Elevee (DER ~8–12 %) | Gratuit (beta) |
| Otter.ai | Proprietaire | Jusqu'a 10 | Elevee | A partir de 16,99 $/mois |
| AssemblyAI | Proprietaire | Illimites | Tres elevee | A partir de 0,65 $/heure |
| Deepgram | Proprietaire | Illimites | Elevee | A partir de 0,25 $/heure |
| Rev | Humain + IA | Illimites | La plus elevee | A partir de 1,50 $/min |
| pyannote.audio | Open source | Illimites | Elevee | Gratuit |
Diktovka utilise une combinaison de Whisper (pour la reconnaissance vocale) et pyannote (pour la diarisation) avec une fonctionnalite supplementaire de profils vocaux. Cela permet non seulement de separer les locuteurs, mais aussi de les reconnaitre dans de nouveaux enregistrements — une capacite unique parmi les outils gratuits. Pour un comparatif detaille des applications de transcription avec prise en charge de la diarisation, consultez notre comparaison des applications de transcription.
L'avenir de la diarisation
La technologie evolue activement. Voici les directions cles :
Diarisation en temps reel
Aujourd'hui, la plupart des systemes fonctionnent en mode batch — l'enregistrement complet est traite d'abord, puis le resultat est delivre. L'avenir reside dans la diarisation en streaming temps reel, ou les etiquettes de locuteurs apparaissent avec un delai de seulement 1 a 2 secondes. C'est d'une importance critique pour les sous-titres en direct lors de conferences et d'appels video.
Diarisation multimodale
Pourquoi se fier uniquement a l'audio quand la video est disponible ? Combiner les embeddings audio avec des informations visuelles (reconnaissance faciale, suivi du mouvement des levres) ameliore considerablement la precision. Particulierement utile pour la parole superposee — la camera montre qui bouge les levres.
Personnalisation par les profils
Les systemes stockeront de plus en plus de profils et les utiliseront non seulement pour l'identification, mais aussi pour adapter le modele a des locuteurs specifiques — en tenant compte de leur accent, rythme de parole et vocabulaire.
Meilleur traitement des superpositions
Le point le plus faible de la diarisation moderne est la parole superposee. De nouveaux modeles (ASR multi-locuteurs, extraction de locuteur cible) apprennent a separer les voix superposees avec une precision croissante.
Modeles de bout en bout
Il y a une tendance a unifier toutes les etapes (VAD, segmentation, embeddings, clustering) dans un modele unique entraine de bout en bout. De tels systemes sont plus simples a deployer et potentiellement plus precis, car les etapes ne perdent pas d'information lors du passage des donnees entre elles.
Conclusion
La diarisation des locuteurs transforme un flux de texte anonyme en un dialogue structure avec attribution de chaque declaration. Derriere la simple idee de "qui a parle quand" se cache un pipeline sophistique de detection de la parole, de segmentation, d'extraction d'empreintes vocales et de clustering.
La technologie est deja suffisamment mature pour un usage pratique — un DER de 5 a 15 % couvre la plupart des scenarios. Et combinee avec les profils de locuteurs, que Diktovka prend en charge, le systeme ne se contente pas de separer les voix mais reconnait egalement les personnes familieres dans de nouveaux enregistrements.
Si vous travaillez avec des enregistrements de reunions, d'entretiens ou de podcasts — la diarisation vous fait gagner des heures d'annotation manuelle et transforme l'audio en un document veritablement utile. Si la confidentialite de vos donnees audio vous preoccupe, consultez notre guide sur la transcription locale vs cloud.
FAQ
Qu'est-ce que la diarisation des locuteurs ?
La diarisation des locuteurs est une technologie qui determine qui parlait a chaque instant d'un enregistrement audio. Elle divise l'enregistrement en segments appartenant a differents locuteurs et les etiquette — Locuteur 1, Locuteur 2, etc.
Quelle est la precision de la diarisation automatique ?
Sur des enregistrements propres en studio, le DER (Diarization Error Rate) est de 3–8 %. Sur des enregistrements de reunions avec un seul micro — 8–15 %. En teleconference — 12–25 %. Pour la plupart des usages pratiques, un DER inferieur a 10 % est considere comme un bon resultat.
Combien de locuteurs la diarisation peut-elle detecter ?
Les systemes de diarisation modernes (comme pyannote.audio) n'ont pas de limite stricte sur le nombre de locuteurs. Cependant, la precision diminue avec un grand nombre de participants, surtout si les voix sont similaires ou si les personnes parlent simultanement.
Quels outils prennent en charge la diarisation des locuteurs ?
Gratuits : Diktovka (Whisper + pyannote, avec profils vocaux) et pyannote.audio (bibliotheque open source). Payants : Otter.ai, AssemblyAI, Deepgram, Rev. Diktovka est le seul service gratuit avec reconnaissance automatique des voix connues.
Quelle est la difference entre diarisation et reconnaissance vocale ?
La reconnaissance vocale (ASR) repond a la question 'qu'a-t-on dit' — elle convertit l'audio en texte. La diarisation repond a la question 'qui a parle quand' — elle divise l'audio par locuteur. Ce sont des technologies differentes qui fonctionnent ensemble pour creer des transcriptions structurees.