_____________________
Objet
L'amélioration de la qualité de signaux de parole dégradés par la présence d'un bruit ambiant est un domaine de recherche qui a été étudié pendant plusieurs années. Cependant, la plupart des approches proposées ne tire pas profit de l'information a priori sur le signal de parole à restaurer. Cette insuffisance d'information a priori dans le processus de débruitage peut engendrer d'importantes distorsions dans les signaux restaurés. Dans ce travail, nous décrivons la mise en oeuvre d'une approche de débruitage en introduisant de l'information a priori sous forme de modèles de Markov cachés à densités autorégressives (MMCAR).
Description
Une approche introduisant de l'information a priori dans le processus de débruitage a été proposé par Ephraim et al.. Elle consiste à modéliser la parole propre par des MMCAR et à utiliser l'approche du maximum a posteriori pour estimer les trames du signal propre à partir des trames du signal bruité.
Afin de déterminer les trames de parole propre maximisant la densité de probabilité a posteriori, Ephraim et al. utilise une procédure itérative fondée sur l'algorithme EM. Ce processus itératif est très dépendant de l'initialisation. Lorsque l'initialisation est mauvaise, ce processus converge vers un maximum local qui peut être très loin de la solution optimale. Nous proposons d'utiliser une technique de combinaison de modèles dans le cadre des modèles de Markov cachés (MMC) fondés sur le cepstre et ses dérivées (CPD : Combinaison Parallèle de Données) afin de mieux initialiser ce processus [1]. L'initialisation est obtenue par décodage du signal bruité en utilisant le système de reconnaissance adapté au bruit de test.
Notre approche consiste à utiliser deux ensembles de modèles acoustiques [2] : le premier est un MMC à distributions continues (MMCDC) fondé sur le cepstre, il est utilisé pour l'initialisation du processus itératif ; le second est un MMCAR utilisé pour estimer la succession de filtres à appliquer aux trames constituant le signal bruité. Pour une trame de signal bruité, nous cherchons la gaussienne cepstrale qui a la plus grande probabilité a posteriori. Cette recherche est faite par décodage du signal bruité en utilisant les modèles cepstraux adaptés au bruit de test. Le décodage fournit l'alignement trame/gaussienne-cepstrale, où chaque gaussienne cepstrale correspond à une gaussienne autorégressive dans les MMCAR. Le filtre optimal est donc estimé en utilisant cette gaussienne autorégressive et la gaussienne autorégressive correspondant au bruit. Les MMC cepstraux et les MMCAR sont entraînés de façon à avoir une bijection entre les deux ensembles de modèles au niveau de la gaussienne : à une gaussienne dans les MMC cepstraux correspond une et une seule gaussienne dans les MMCAR. Pour cela, nous estimons en premier les MMC cepstraux et nous utilisons les statistiques correspondant à la dernière itération de l'algorithme EM pour estimer les paramètres des MMCAR.
Résultats et perspectives
Les spectrogrammes présentés ci-contre montrent une diminution considérable du bruit. En écoutant les signaux restaurés nous constatons une amélioration significative de la qualité avec de très faibles distorsions et l'absence du bruit musical.
Les tests de reconnaissance avec les signaux débruités (présentés ci-contre) montrent qu'il n'y a pas de perte d'intelligibilité du signal débruité par rapport au signal bruité du point de vue du système de reconnaissance.
Références
[1] D. Matrouf, J.L. Gauvain : ``Model Compensation For Noises In
Training and Test Data,'' ICASSP-97, pp. 831-834.
[2] D. Matrouf : ``Adaptation des Modèles Acoustique pour la
Reconnaissance de la Parole dans un Milieu Bruité,'' Thèse de
Doctorat, Université d'Orsay Paris XI, 1995.
Gpe Traitement du Langage Parlé |
| Dpt CHM |
|
Sommaire
|
| Présentation |
|
---|