Reconnaissance

En ce qui concerne la reconnaissance de la parole, notre but est de développer un système de transcription de la parole spontanée (par opposition à un texte lu) indépendant du locuteur et robuste aux variablités acoustiques et linguistiques. L'une des applications visées est la transcription et l'indexation automatique de documents radio et télédiffusés. Les performances d'un tel système dépendent essentiellement de la qualité des modèles acoustiques et linguistiques utilisés. Ces modèles doivent rendre compte des phénomènes propres à la parole spontanée (hésitations, respirations, reprises, syntaxe de l'oral, ...) et la très grande variabilité acoustique (microphones, bruit de fond, transmission téléphonique, présence de musique, ...). Ce travail est effectué dans un cadre multilingue (anglais, allemand, français) en étroite coordination avec les activités des thèmes 2 et 3. L'adaptation du système de reconnaissance à de nouvelles langues nécessite pour chaque langue un corpus de parole, un corpus de textes et un lexique phonétisé. Il peut également être nécessaire de modifier la structure des modèles pour prendre en compte les phénomènes spécifiques à la langue tant au niveau phonologique que syntaxique.

Des systèmes de reconnaissance de parole continue multilocuteur ont été développés pour le français, l'anglais américain, l'anglais britannique et l'allemand, avec des vocabulaires de l'ordre de 64.000 mots. Notre système pour l'anglais américain a été évalué annuellement depuis 1992 à l'occasion des tests organisés par DARPA sur les tâches Wall Street Journal puis North American Business News et Broadcast News. Malgré l'augmentation de la complexité de la tâche, les performances du système ont pu être améliorées grâce à l'utilisation de meilleurs modèles acoustiques estimés sur de plus grands corpus et grâce au développement d'un nouveau décodeur qui a permis d'augmenter la taille du vocabulaire de reconnaissance tout en limitant sa complexité. Le même decodeur est utilisé pour toutes les langues traitées et toutes les applications.

Les documents radio ou télédiffusés sont particulièrement difficiles à transcrire car ils contiennent des segments de diverses natures acoustiques et linguistiques avec des transitions rapides ou graduelles. La première opération consiste à segmenter le document (changements de conditions acoustiques, changement de locuteur, ...) et à identifier les caractéristiques de chaque segment (présence ou non de parole, parole téléphonique vs non téléphonique, genre du locuteur, présence de musique, identité du locuteur, ...). Nous avons développé un algorithme de segmentation qui produit un telle ``partition'' pour chaque document à partir du signal sans aucune autre information a priori. Cette partition est utilisée par le système de reconnaissance pour sélectionner les modèles acoustiques les plus appropriés et les adapter aux caractéristiques de chaque type de segments contenu dans le document.