_____________________
Objet
Le but de ce travail est d'élaborer un modèle spectral de l'onde de débit glottique. Ce travail comprend : 1) une étude des modèles paramétriques d'onde de débit glottique (modèle LF, modèle de Klatt) et de leur comportement dans le domaine fréquenciel, 2) l'établissement de relations analytiques entre paramètres temporels et fréquenciels de la source voisée, 3) un nouveau modèle de l'onde de débit glottique s'appuyant sur ces résultats, sous la forme d'un filtre linéaire non causal.
Description
Effectuer une synthèse de haute qualité demande un contrôle précis des paramètres de qualité vocale, qui dépendent principalement de la source de voisement. Dans les travaux sur l'analyse de la parole, ces paramètres, tels que le rapport périodique / apériodique, la pente spectrale, ou l'amplitude des premières harmoniques, sont bien décrits dans le domaine fréquenciel. Au contraire, dans les travaux sur la synthèse, la source est modélisée dans le domaine temporel par l'onde de débit glottique, dont il existe des modèles paramétriques tels que celui de Liljencrants et Fant (LF) ou celui de Klatt (KLGLOTT88).
Pour pouvoir exploiter les résultats des études sur la qualité vocale, effectuées dans le domaine fréquenciel, tout en conservant un contrôle des paramètres de l'onde de débit glottique, décrits dans le domaine temporel, cette étude se propose d'établir un lien, sous la forme de relations analytiques, entre paramètres temporels et fréquenciels.
Le calcul de l'expression des spectres des modèles LF et de Klatt conduit à de telles relations : par exemple, on montre que le rapport d'amplitude des 2 premières harmoniques évolue comme le carré du quotient d'ouverture (voir figure 1). Mais surtout, la présence d'un "formant glottique", souvent visible sur des signaux de parole, est expliquée par l'allure générale du spectre de la dérivée de l'onde de débit glottique : une pente de +6dB/oct dans les basses fréquences et de -6dB/oct dans les hautes fréquences. L'étude analytique du modèle de Klatt confirme ce comportement et permet de montrer que la fréquence du formant glottique est inversement proportionnelle à la durée de la phase d'ouverture (voir figure 2).
Cela permet alors de proposer un modèle linéaire de l'onde de débit glottique, qui doit être anticausal (il faut inverser le sens du temps) pour que la réponse impulsionnelle du système concorde avec l'onde réelle (voir figure 3). Ce comportement anticausal est confirmé par l'étude du spectre de phase (voir figure 4).
Finalement, disposer d'un modèle linéaire de la source vocale présente de nombreux avantages, comme par exemple : estimation à l'aide des outils traditionnels, séparation source/filtre, modification par filtrage linéaire, utilisation en codage.
Résultats et perspectives
Les résultats de l'étude sont décrits dans [1]. Une procédure d'estimation des paramètres de la source est décrite dans [2]. Ce travail se poursuit dans plusieurs directions. D'une part, l'analyse automatique des paramètres de la source dans le domaine spectral doit servir pour étudier les corrélations entre paramètres de qualité vocale et paramètres prosodiques. D'autre part, il s'agit d'intégrer ces résultats dans le synthétiseur à partir du texte et dans un système d'analyse/synthèse afin de rendre plus réalistes les changements de force de voix.
Références
[1] Doval B. and d'Alessandro C.: "Spectral correlates of glottal waveform models : an analytic study", ICASSP, 97:1295-1298, 1997.
[2] Doval B. and d'Alessandro C.: "Spectral methods for voice source parameters estimation", Eurospeech, Rhodes, 1997.
Gpe Taitement du Langage Parlé | Dpt CHM |
Sommaire
|
Présentation |