COOPERATIONS ENTRE MODALITES SOUS UNIX/X11

_____________________

Objet

Réaliser des interfaces humain-machine multimodales nécessite à la fois la détection, la gestion et l'intégration d'événements détectés sur différents périphériques (clavier, souris système de reconnaissance de parole). Dans ce but, nous avons mis en relation le serveur de modalités MServer [1] développé sous UNIX dans le cadre de la plate-forme multimodale du LIMSI et, d'autre part le noyau multimodal TYCOON [2].

Contenu

L'intégration d'un système de reconnaissance de la parole avec d'autres périphériques plus classiques comme la souris et le clavier pose des problèmes de gestion temporelle, notamment lorsqu'il est nécessaire de prendre en compte l'instant absolu auquel l'utilisateur commence à parler, par exemple pour détecter des coréférences parole-geste avec coïncidence temporelle. Le serveur de modalités MServer [1] a été développé dans le but de dater et trier chronologiquement les événements détectés par ces périphériques en tenant compte de leurs différence de temps de traitement. Ce serveur est un processus maître qui fait transiter des informations entre des processus gérant les périphériques et une ou plusieurs applications multimodales.

Il est ensuite nécessaire d'intégrer et interpréter les événements fournis par ce serveur de modalités. TYCOON [2], un noyau multimodal, a été développé dans ce but. Il comprend un langage de spécification permettant la déclaration de plusieurs types et buts de coopérations entre modalités. Il a été appliqué à une interface COMIT utilisant des fichiers d'événements simulés et permettant l'édition multimodale d'interfaces graphiques MOTIF.

Ces deux travaux, MServer d'une part et TYCOON d'autre part ont été interfaçés (figure 1) pour gérer et intégrer les événements issus des différentes modalités réelles. Ainsi, COMIT permet maintenant d'éditer une interface graphique à l'aide du clavier, de la souris et du système de reconnaissance de parole DATAVOX (figure 2). Les produits aux fonctions similaires tels que TCl-tk n'utilisent que le clavier et la souris.

Situation

La connexion effective entre le serveur de modalité MServer et le noyau multimodal TYCOON permet des interfaces multimodales sous UNIX, avec la possibilité de détecter des coïncidences temporelles précises. Cependant d'autres informations que la datation des événements doivent être prises en compte dans la fusion multimodale. L'une d'entre elle est le score fournit par le système de reconnaissance de parole. Les techniques de représentation utilisées dans TYCOON permettent de gérer cette information qui est fournie par le serveur de modalité pour permettre d'obtenir des "scores de reconnaissance multimodale" [2]. L'interface multimodale existante va nous permettre de faire des expérimentations avec des utilisateurs pour tester la pertinence de ces scores multimodaux. Nous étudierons également comment traiter des informations syntaxiques et sémantiques nécessaires pour interpréter des formulations multimodales plus complexes.

Références

(1) Bourdot, P., Krus, M. & Gherbi, R. : "Management of non-standard devices for multimodal user interfaces under UNIX/X11". Proc. of the Intern. Conf. on Cooperative Multimodal Communication (CMC'95), I, 49-61, 24-26 mai 1995, Eindhoven.

(2) Martin, J.C., Veldmand, R. & Béroule, D. : "Towards adequate representation technologies for multimodal interfaces". Proc. of the Intern. Conf. on Cooperative Multimodal Communication (CMC'95), II, 207-223, 24-26 mai 1995, Eindhoven.

Gpe Interaction et Multi-Modalités

DptCHM

Sommaire

Présentation