Méthodes spectrales d'estimation des paramètres de la source vocale

_____________________

B. Doval, C. d'Alessandro, B. Diard

Figure

Objet

Développer des méthodes d'estimation des paramètres de la source vocale. Les travaux récents ont porté sur : 1) l'estimation de la source voisée en utilisant une décomposition périodique/apériodique du signal de parole et une procédure de type filtrage inverse, 2) l'estimation du quotient d'ouverture sur la source voisée, en le déduisant de façon analytique des paramètres d'un modèle spectral de l'onde de débit glottique, 3) l'évaluation de cette estimation sur des signaux synthétiques, et par comparaison avec des signaux électroglottographiques (2).

Description

La prise en compte des paramètres de la qualité vocale devient une nécessité autant dans les systèmes de synthèse que dans les systèmes d'analyse/modification/ synthèse. En analyse de la parole, ces paramètres (rapport périodique/apériodique, pente spectrale, amplitude des premières harmoniques) sont bien décrits dans le domaine fréquenciel. Au contraire, en synthèse, la source, principale responsable de la qualité vocale, est modélisée dans le domaine temporel par l'onde de débit glottique (cf figure 1).

Pour pouvoir exploiter les résultats des études sur la qualité vocale, effectuées dans le domaine fréquenciel, tout en conservant un contrôle des paramètres de l'onde de débit glottique, décrits dans le domaine temporel, une étude précédente (1) a proposé un modèle linéaire spectral de la source vocale. Ce modèle comporte une paire de pôles complexes conjugués anticausaux modélisant le <<formant glottique>>, et un pôle réel contrôlant la pente spectrale. On montre que la fréquence du formant glottique est inversement proportionnelle au quotient d'ouverture, et que le rapport d'amplitude des 2 premières harmoniques évolue comme le carré du quotient d'ouverture.

La procédure d'estimation des paramètres de l'onde de débit glottique s'en déduit naturellement. Le signal de parole est d'abord décomposé en une partie périodique et une partie apériodique (3)(4). La source voisée est ensuite obtenue par filtrage inverse de la partie périodique.

On calcule le quotient d'ouverture par ajustement sur le spectre de la source voisée d'un filtre résonant d'ordre 2 dont la fréquence correspond à celle du formant glottique, ou par estimation de l'amplitude des 2 premières harmoniques. Ces 2 méthodes ont été évaluées sur des signaux synthétiques (cf figure 2) et en utilisant une référence électroglottographique pour les signaux naturels. La figure 3 montre le bon accord entre le quotient d'ouverture estimé et la qualité tendue ou relachée des élocutions.

Résultats et perspectives

Les résultats sur l'estimation du quotient d'ouverture sont satisfaisants (2). Les travaux en cours portent sur l'estimation de la pente spectrale, et sur les corrélations entre qualité vocale et prosodie. Dans cette direction, une première application de ces travaux en analyse/synthèse montre la possibilité de modifier de façon réaliste l'effort vocal (5).

Références

[1] Doval B. and d'Alessandro C.: "Spectral correlates of glottal waveform models : an analytic study", ICASSP, 97:1295-1298, 1997.
[2] B. Doval, C. d'Alessandro, B. Diard : "Spectral methods for voice source parameters estimation", ESCA-Eurospeech 97, (1):533-536, Rhodes, 1997.
[3] B. Yegnanarayana, C. d'Alessandro, and V. Darsinos : "An iterative algorithm for decomposition of speech signals into periodic and aperiodic components", IEEE trans. on Speech and Audio Proc., 6(1):1-11, 1998.
[4] C. d'Alessandro, V. Darsinos, and B. Yegnanarayana : "Effectiveness of a periodic and aperiodic decomposition method for analysis of voice sources", IEEE trans. on Speech and Audio Proc., 6(1):12-23, 1998.
[5] C. d'Alessandro, "Voice quality modification using periodic-aperiodic decomposition and spectral processing of the voice source signal", ATR technical report TR-IT-0230, 1997, ATR-ITL, Kyoto.

Gpe Traitement du Langage Parlé

Dpt CHM

+ Sommaire

Présentation