Une grammaire en tronçons appliquée au parenthésage prosodique pour la synthèse de la parole à partir du texte

_____________________

P. Boula de Mareüil

Figure

Objet

Nous décrivons ici les grands traits d'une analyse syntaxique [1] développée pour la synthèse de la parole à partir du texte, et en particulier pour le parenthésage prosodique. Ce dont on a besoin, c'est d'un analyseur rapide, robuste et déterministe. Issue des travaux de Tesnière [3], une grammaire de dépendance est bien adaptée pour les textes tout venant. Ci-dessous, une grammaire en tronçons inspirée des grammaires de dépendance est proposée.

Description

Un analyseur syntaxique peut être construit en utilisant seulement un dictionnaire partiel. Dans notre cas, l'étiquetage en parties du discours repose sur un dictionnaire de mots outils, formes verbales et adjectifs antéposables. Il est complété par une liste de terminaisons qui permet de déduire la catégorie grammaticale, et quelques règles de désambiguïsation ont été ajoutées.
Le parenthésage syntaxique consiste à segmenter la phrase en ``séquences'' non récursives, nominales, verbales et ``transjonctives''. Le terme générique ``transjonctif'', que nous introduisons en référence à la translation et à la jonction de Tesnière, englobe préposition, conjonction, pronom relatif, adverbe de bloc, virgule ou parenthèses. Comme dans les grammaires en tronçons [2], nous nous sommes limité aux dépendances entre les mots, à l'intérieur des séquences. Il est déjà illusoire de désirer énumérer toutes les séquences possibles. C'est pourquoi nos séquences sont définies comme des ensembles de catégories possibles (cf. tableau 1). Ces ensembles ne sont pas disjoints : la plupart des adverbes, par exemple, peuvent appartenir aux 3 types de séquences. Ce qui décide est le premier mot de la séquence, par propagation gauche-droite, les séquences étant examinées dans l'ordre transjonctive-nominale-verbale. Par exemple, si un adverbe (non de négation ni d'adjectif) est en début de phrase, il ouvre une séquence transjonctive.
La sortie de l'analyseur syntaxique est ensuite connectée au générateur de prosodie de la synthèse (cf. fig. 1). Des exemples de règles pour le parenthésage prosodique sont : a/ une frontière de continuation (#fm) est placée à la fin des séquences nominales et verbales, quand elles ne sont pas suivies d'un signe de ponctuation ; b/ deux marqueurs prosodiques sont associés aux signes de ponctuation faibles et forts (resp. #FM et #FT). Les tronçons définis par les marqueurs prosodiques sont par exemple (SN : séquence nominale, ST : séquence transjonctive, SV : séquence verbale) : ((Personne ne leur a enseigné SV) #fm (la manière NS) #fm (de ST) ( se présenter SV) (, ST) #FM (et ST) (ils n'ont généralement pas SV) #fm (les moyens SN) #fm (d' ST) (être correctement habillés SV). #FT). Les catégories grammaticales des mots sont utilisées pour les règles d'accentuation et de désaccentuation. D'abord, des accents sont assignés aux mots lexicaux. Ensuite, des règles de désaccentuation fondées sur des informations phonotactiques sont appliquées.

Résultats et perspectives

Sur des critères purement syntaxiques, l'analyseur a été testé sur un corpus de 5000 mots : un taux d'erreur de 10% sur les étiquettes grammaticales implique seulement des taux d'erreur de 3% et 1% sur les séquences et les tronçons respectivement. Cette analyse a été implémentée dans le synthétiseur du LIMSI : elle reflète bien le parenthésage prosodique. Les différents types de tronçons les plus fréquents étant en petit nombre, l'amélioration future des règles syntactico-prosodiques se concentrera sur eux.

Références

[1] P. Boula de Mareüil: <<Application d'une grammaire en tronçons au parenthésage prosodique en synthèse de la parole à partir du texte>>, TALN, Grenoble, 1997.

[2] L.A. Ramshaw &M.P. Marcus : ``Text Chunking using Transformation-Based Learning'', ACL Third Workshop on Very Large Corpora, 1995 pp. 82-94.

[3] L. Tesnière : Éléments de syntaxe structurale, Editions Klincksieck, Paris, 1959.

Gpe Taitement du Langage Parlé Dpt CHM + Sommaire

Présentation