_______________
Objet
Nous présentons ici notre système de reconnaissance pour la langue allemande, à base de grand vocabulaire, indépendant du locuteur dans une application de dictée de textes. Ce travail s'inscrit dans le cadre de nos recherches sur la reconnaissance multilingue. Quelques spécificités de la langue allemande ont été identifiées et prises en compte lors de ce travail. Une évaluation de notre système allemand a été effectuée et une étude comparative a permis de valider nos choix particuliers pour la langue allemande.
Contenu
Notre système de reconnaissance utilise des Modèles de Markov cachés à densités continues au niveau acoustique, et des modèles de langage N-grammes au niveau syntaxique. La figure 1 montre les composants essentiels nécessaires à l'apprentissage de ces modèles et, plus généralement, à l'adaptation à une nouvelle langue : corpus de texte et corpus de parole, avec transcriptions orthographiques et lexique de transcriptions phonétiques. Il faut évidemment définir au préalable l'ensemble de phonèmes pour la nouvelle langue, ainsi que la liste de mots pour lesquels on entend apprendre le modèle de langage. La définition de ce vocabulaire doit permettre d'optimiser la couverture lexicale pour la langue (et l'application) en question. La création des lexiques de transcriptions pour l'apprentissage et pour l'application est l'étape qui nécessite en général le plus d'intervention manuelle.
Lors de l'adaptation à la langue allemande nous avons considéré deux aspects spécifiques à cette langue : au niveau écrit il existe une grande diversité lexicale laquelle est actuellement prise en compte par la taille du vocabulaire (64 000 mots). Au niveau parlé on constate des phénomènes de coarticulation intermot marqués par une fréquente glottalisation des voyelles initiales. Cette utilisation du "coup de glotte" en début de mot ou morphème commençant par une voyelle, est traité par l'utilisation optionnelle d'un modèle acoustique spécifique.
Situation
Notre système pour la langue allemande a été partiellement développé dans le cadre du projet européen LRE SQALE portant sur l'évaluation de systèmes de reconnaissance multilingue.
Les modèles de langage bigramme et trigramme ont été estimés à partir de 31 millions de mots de textes du journal régional Frankfurter Rundschau. Le sytème de reconnaissance utilise un lexique de 64 000 mots permettant d'obtenir une couverture lexicale de 95% sur les corpus d'apprentissage. On peut souligner ici l'importance d'un grand lexique, pour réduire le pourcentage de mots hors vocabulaire.
Les modèles acoustiques sont estimés sur environ 15k phrases (les corpus Phondat I et Phondat II enregistrés en Allemagne dans 4 sites différents, contiennent 155 loc. prononçant entre autres des phrases phonétiquement équilibrées, des petites histoires et des requêtes de renseignements de train) permettant de créer jusqu'à environ 3000 modèles acoustiques de phones en contexte. Nous avons créé des modèles acoustiques avec et sans modélisation explicite du "coup de glotte". Son utilisation optionnelle lors du décodage permet d'améliorer les performances de reconnaissance.
Dans le tableau 1 nous montrons les résultats d'une étude comparative portant sur l'utilisation ou non d'un modèle de coup de glotte au niveau acoustique. L'utilisation optionnelle a donné les meilleurs résultats sur les deux corpus de test de 200 phrases chacun. Dans le cadre du projet SQALE, notre système allemand a obtenu les meilleures performances lors de l'évaluation finale.
Références
(1) M. Adda-Decker, G. Adda, L. Lamel, J.L. Gauvain : "Developments in Large Vocabulary Continuous Speech Recognition of German", ICASSP-96.
(2) L. Lamel, M. Adda-Decker, G. Adda, J.L. Gauvain : "Issues in Large Vocabulary, Multilingual Speech Recognition" Eurospeech-95.
(3) L. Lamel, M. Adda-Decker, G. Adda, J.L. Gauvain : "Reconnaissance Multilingue de Grands Vocabulaires" école d'été GRECO, Fondements et perspectives en traitement automatique de la parole, Marseille, juillet 1995 (à paraître dans livre GRECO-AUPELF 1996)
Gpe Traitement du Langage Parlé |
| DptCHM |
|
Sommaire
|
| Présentation |
|
---|