Analyse sémantique probabiliste pour la traduction automatique de la parole

_____________________

W. Minker

Figure

Objet

L'objet de la recherche engagée est d'appliquer une méthode stochastique pour la compréhension automatique de la parole à un domaine traitant la situation d'une prise de rendez-vous entre deux interlocuteurs. L'objectif d'un système vocal développé pour ce type d'application est de traduire une conversation spontanée dans différentes langues. Nous avons étudié la portabilité d'un analyseur sémantique fondé sur une méthode stochastique d'un domaine d'interaction homme-machine à un domaine plus ouvert, celui des interactions homme-homme.

Description

Un système de traduction automatique de la parole intègre la reconnaissance vocale et l'analyse sémantique pour comprendre le sens de ce qui est dit. Ensuite, la phrase traduite est générée et/ou synthétisée dans une langue cible. Un jeu de règles de grammaire, générées manuellement, permet de transformer la sortie du module de reconnaissance dans une représentation sémantique. Dans ce travail, des modèles stochastiques qui remplacent ces règles sont déterminés à partir d'une analyse automatique d'un grand nombre de données. Les correspondances entre des mots et des étiquettes sémantiques dans un corpus annoté sont mémorisées sous forme de paramètres d'un Modèle de Markov Caché (figure 1).

Une méthode stochastique pour la compréhension de la parole initialement conçue comme module d'un système d'interaction verbale pour des applications de demande d'information ATIS (Air Travel Information Services) en anglais-américain [1], et MASK (Multimodal-Multimedia Automated Service Kiosk) en franAnalyse sémantique probabiliste pour la traduction automatique de la parole W. Minker

L'objet de la recherche engagée est d'appliquer une méthode stochastique pour la compréhension automatique de la parole à un domaine traitant la situation d'une prise de rendez-vous entre deux interlocuteurs. L'objectif d'un système vocal développé pour ce type d'application est de traduire une conversation spontanée dans différentes langues. Nous avons étudié la portabilité d'un analyseur sémantique fondé sur une méthode stochastique d'un domaine d'interaction homme-machine à un domaine plus ouvert, celui des interactions homme-homme.

Un système de traduction automatique de la parole intègre la reconnaissance vocale et l'analyse sémantique pour comprendre le sens de ce qui est dit. Ensuite, la phrase traduite est générée et/ou synthétisée dans une langue cible. Un jeu de règles de grammaire, générées manuellement, permet de transformer la sortie du module de reconnaissance dans une représentation sémantique. Dans ce travail, des modèles stochastiques qui remplacent ces règles sont déterminés à partir d'une analyse automatique d'un grand nombre de données. Les correspondances entre des mots et des étiquettes sémantiques dans un corpus annoté sont mémorisées sous forme de paramètres d'un Modèle de Markov Caché (figure 1).

Une méthode stochastique pour la compréhension de la parole initialement conçue comme module d'un système d'interaction verbale pour des applications de demande d'information ATIS (Air Travel Information Services) en anglais-américain [1], et MASK (Multimodal-Multimedia Automated Service Kiosk) en français [2] a été porté à ESST (English Spontaneous Scheduling Task), une application qui traite la situation d'une prise de rendez-vous entre deux interlocuteurs parlant des langues différentes. Les paramètres du modèle ont été appris sur des arbres sémantiques. Par rapport à la compréhension automatique lors d'une interaction homme-machine spontanée, la traduction nécessite l'analyse de la communication entre humains. Dans une telle application, le comportement des utilisateurs est largement différent quant au degré de spontanéité de la parole.

Le module stochastique fait appel aux mêmes techniques d'apprentissage et de décodage développées préalablement pour les applications de demande d'informations (ATIS et MASK) et a donc atteint un certain degré de portabilité et de flexibilité. Seules les données et leur mise en forme sont spécifiques au domaine. Dans la tâche ESST, les étiquettes sémantiques (Figure 2(b)) sont dérivées des arbres sémantiques (Figure 2(a)) produits automatiquement par l'analyseur de PHOENIX de CMU [3]. Cet analyseur par règles est intégré dans JANUS, un système de traduction de parole spontanée [4]. L'utilisation de ces étiquettes ainsi que d'un paradigme d'évaluation approprié, donnait la possibilité d'évaluer le module stochastique et de le comparer avec celui par règles.

Résultats et perspectives

Le tableau 1 montre des résultats obtenus lors des évaluations du module stochastique dans ESST et les compare avec ceux de PHOENIX. Comme dans l'application ATIS, les performances du module stochastique sont limitées par l'utilisation d'un corpus sémantique qui n'est pas étiqueté par le module même, mais généré en utilisant un système par règles déjà existant. Malgré l'utilisation de ce corpus sous-optimal, le décodeur obtient des taux d'erreur sémantiques et de traduction assez raisonnables.

Références

[1] W. Minker, S. Bennacef, and J.L. Gauvain : ``A Stochastic Case Frame Approach for Natural Language Understanding,'' Proc. ICSLP, October, 1996.
[2] W. Minker : ``Stochastically-based Natural Language Understanding Across Tasks and Languages,'' Proc. Eurospeech, September, 1997.
[3] W. Ward : ``Extracting Information in Spontaneous Speech,'' Proc. ICSLP, September 1994.
[4] A. Waibel : ``Interactive Translation of Conversational Speech,'' Computer, 27(7):41-48, 1996.

Gpe Traitement du Langage Parlé

Dpt CHM

+ Sommaire

Présentation