Détection robuste des fermetures glottiques par transformée en ondelettes

_____________________

Vu Ngoc T., C. d'Alessandro

Figure

Objet

Développer une méthode pour détecter sur le signal acoustique, les instants de fermetures glottiques, de façon robuste. Notre méthode doit traiter en particulier, les cas de détection difficiles, comme la voix quasi-sinusoïdale et la friture vocale. A ces instants, la variation du signal peut être plus ou moins rapide, (de type plutôt impulsionnel ou sinusoïdal). Une méthode originale basée sur les lignes de phases maximales de la transformation en ondelettes a été développée et évaluée.

Description

L'algorithme de détection contient 7 étapes :

1.
Opérer une transformation en ondelettes avec une onde mère (ou ondelette analysante) choisie pour que l'opération soit un filtrage du signal par un banc de filtres passe-bande de largeur spectrale proportionnelle à la fréquence centrale de chaque filtre.

2.
Suivre les maxima du signal à la sortie des filtres du banc, depuis les filtres centrés sur les hautes fréquences (HF = 4000 Hz) jusqu'au filtre de plus basse fréquence (BF = 125 Hz). Le suivi de ces maxima est fait par programmation dynamique (cf. figure 1).

3.
De nombreuses lignes partent des HF à différents instants, elles se regroupent en BF où elles aboutissent à un instant commun, comme des branches qui s'unissent en un même tronc. Les lignes partant des HF qui se rejoignent en un instant en BF appartiennent à une même période du signal. Il y a donc un tronc par période.

4.
Grouper les lignes de phase maximales par période.

5.
Dans chaque période sommer les amplitudes du signal le long de chaque ligne. Celle qui a l'amplitude cumulée la plus grande est la ligne principale de la période.

6.
Pour chaque période, la plus haute fréquence de la ligne de phase maximale est déterminée.

7.
L'instant de départ en HF de la ligne principale est considéré comme l'instant de fermeture glottique (cf. figure 2).

Résultats et perspectives

L'analyse visuelle sur des signaux de voix d'homme et de femme montre que dans les intervalles de parole voisée les instants de fermeture sont bien détectés aussi bien pour des signaux impulsionnels que quasi-sinusoïdaux. Dans les intervalles non voisés les impulsions des occlusives ou des plosives sont correctement marquées. Les zones de bruit ne donnent lieu à aucune détection. Une comparaison systématique avec la référence électroglottographique montre d'excellents résultats.

Références

[1] Vu Ngoc Tuan, Christophe d'Alessandro : ``Robust glottal closure detection using the wavelet transform''. In Proceedings of the European Conference on Speech Technology, EuroSpeech, pages 2805-2808, Budapest, septembre 1999.
[2] Vu Ngoc Tuan, Christophe d'Alessandro : ``Glottal Closure Detection using EGG and the Wavelet Transform'', 4th workshop "Advances in Objective Laryngoscopy, Voice and Speech Research", Jena, Germany, avril 7-8, 2000.

Gpe Traitement du Langage Parlé

Dpt CHM

+ Sommaire

Présentation