Compréhension de la Parole : Portabilité

_____________________

W. Minker

Figure

Objet

L'objet de la recherche engagée est de proposer une méthode de compréhension automatique de la parole suffisamment généraliste et flexible pour être facilement portée vers différents domaines d'application indépendamment de la langue. Ces domaines traitent des informations sur le traffic ferroviare en français, sur le traffic aérien ainsi que la situation d'une prise de rendez-vous en anglais-américain.

Description

Un module de compréhension produit une représentation sémantique à partir des phrases transcrites par le module de reconnaissance. Dans une application donnée et dans une langue spécifique, les implémentations conventionnelles d'inférence de règles fournissent de bonnes performances. Néanmoins, le développement manuel d'un analyseur sémantique est coûteux car chaque application et chaque langue nécessite soit sa propre adaptation, soit, dans le cas le plus extrême, une nouvelle implémentation. Les techniques de modélisation stochastique, plus flexibles, se substituent aux méthodes par règles (symboliques). Le système apprend automatiquement les correspondances entre des mots et des étiquettes sémantiques dans un corpus annoté et les mémorise sous forme de paramètres d'un Modèle de Markov Caché. L'architecture d'un tel analyseur sémantique implanté dans un système d'interaction vocale pour accès à une base de données est présentée dans la figure 1. Basé sur les paramètres du modèle estimé, le décodeur génère la séquence sémantique la plus probable pour une requête donnée à l'entrée (figure 2).

Une méthode stochastique pour la compréhension de la parole a été développée, puis appliquée à différentes tâches et langues, dont atis (Air Travel Information Services) et ast (Appointment Scheduling Task) en anglais-américain, et mask (Multimodal-Multimedia Automated Service Kiosk) en français. Les applications atis et mask concernent respectivement la demande d'informations sur les transports aériens et ferroviaires. ast traite la situation d'une prise de rendez-vous entre deux interlocuteurs parlant des langues différentes. L'utilisation de représentations sémantiques identiques pour les méthodes stochastique et conventionelle, facilite la comparaison directe à l'intérieur de chaque tâche. Pour atis, un système initial en français, utilisant une méthode par règle [1] a été réalisé au limsi et porté, dans le cadre de ce travail, en anglais-américain [2]. Ce dernier système a ensuite été utilisé pour annoter automatiquement un corpus sémantique [3]. Pour l'application mask, le corpus a été établi semi-automatiquement en utilisant une méthode d'étiquetage itérative avec correction manuelle. Pour ast, une représentation alternative du formalisme sémantique de la grammaire de cas a été utilisée. Les paramètres du modèle ont été appris sur des arbres sémantiques, générés par l'analyseur sémantique de JANUS, un système de traduction de parole spontanée développé principalement aux Universités de Karlsruhe (Allemagne) et de Carnegie Mellon (États Unis).

Résultats et perspectives

Le tableau 1 montre des résultats obtenus lors des évaluations de deux méthodes à travers les domaines et langues. Une représentation sémantique bien adaptée permet d'améliorer les performances du système stochastique par rapport aux implémentations d'inférence de règles. L'apport essentiel du présent travail est de démontrer que, comparé à un module conventionnel de compréhension de la parole spontanée, l'effort humain se limite à l'annotation des données, ce qui est plus simple que la conception, la maintenance et l'extension des règles de grammaire. La méthode est donc relativement flexible et robuste.

Références

[1] S. Bennacef, H. Bonneau-Maynard, J.L. Gauvain, L. Lamel, and W. Minker : ``A Spoken Language System For Information Retrieval,'' Proc. ICSLP-94, September, 1994.

[2] W. Minker and S. Bennacef : ``Compréhension et Évaluation dans le domaine ATIS,'' Proc. 21èmes Journées d'études sur la parole, JEP-96, June, 1996.

[3] W. Minker, S. Bennacef, and J.L. Gauvain : ``A Stochastic Case Frame Approach for Natural Language Understanding,'' Proc. ICSLP-96, October, 1996.


Gpe Taitement du Langage Parlé Dpt CHM + Sommaire

Présentation