_____________________
Objet
Nous décrivons ici les grands traits d'une analyse syntaxique [1] développée pour la synthèse de la parole à partir du texte, et en particulier pour le parenthésage prosodique. Ce dont on a besoin, c'est d'un analyseur rapide, robuste et déterministe. Issue des travaux de Tesnière [3], une grammaire de dépendance est bien adaptée pour les textes tout venant. Ci-dessous, une grammaire en tronçons inspirée des grammaires de dépendance est proposée.
Description
Un analyseur syntaxique peut être construit en utilisant
seulement un dictionnaire partiel. Dans notre cas, l'étiquetage en
parties du discours repose sur un dictionnaire de mots outils, formes
verbales et adjectifs antéposables. Il est complété par une liste de
terminaisons
qui permet de déduire la catégorie grammaticale, et quelques règles
de désambiguïsation ont été ajoutées.
Le parenthésage syntaxique consiste à segmenter la phrase en ``séquences'' non récursives, nominales, verbales et ``transjonctives''.
Le terme générique ``transjonctif'', que nous introduisons en référence à la translation et à la jonction de Tesnière, englobe préposition, conjonction, pronom relatif, adverbe de bloc, virgule ou parenthèses.
Comme dans les grammaires en tronçons [2], nous nous sommes limité aux dépendances entre les mots, à l'intérieur des séquences. Il est déjà illusoire de désirer énumérer toutes les séquences possibles.
C'est pourquoi nos séquences sont définies comme des ensembles de catégories possibles (cf. tableau 1).
Ces ensembles ne sont pas disjoints : la plupart des adverbes, par exemple, peuvent appartenir
aux 3 types de séquences. Ce qui décide est le premier mot de la séquence, par propagation
gauche-droite, les séquences étant examinées dans l'ordre transjonctive-nominale-verbale.
Par exemple, si un adverbe (non de négation ni d'adjectif) est en début de phrase, il ouvre
une séquence transjonctive.
La sortie de l'analyseur syntaxique est ensuite connectée au
générateur de prosodie de la
synthèse (cf. fig. 1). Des exemples de règles pour le parenthésage prosodique sont :
a/ une frontière de continuation (#fm) est placée à la fin des séquences nominales et verbales,
quand elles ne sont pas suivies d'un signe de ponctuation ; b/ deux marqueurs prosodiques sont
associés aux signes de ponctuation faibles et forts (resp. #FM et #FT). Les tronçons définis
par les marqueurs prosodiques sont par exemple (SN : séquence nominale, ST : séquence
transjonctive,
SV : séquence verbale) :
((Personne ne leur a enseigné SV) #fm
(la manière NS) #fm
(de ST) ( se présenter SV) (, ST) #FM
(et ST) (ils n'ont généralement pas SV) #fm
(les moyens SN) #fm
(d' ST) (être correctement habillés SV). #FT).
Les catégories grammaticales des mots sont utilisées pour les règles
d'accentuation et de désaccentuation. D'abord, des accents sont assignés
aux mots lexicaux. Ensuite, des règles de désaccentuation fondées sur des
informations phonotactiques sont appliquées.
Résultats et perspectives
Sur des critères purement syntaxiques, l'analyseur a été testé sur un corpus de 5000 mots : un taux d'erreur de 10% sur les étiquettes grammaticales implique seulement des taux d'erreur de 3% et 1% sur les séquences et les tronçons respectivement. Cette analyse a été implémentée dans le synthétiseur du LIMSI : elle reflète bien le parenthésage prosodique. Les différents types de tronçons les plus fréquents étant en petit nombre, l'amélioration future des règles syntactico-prosodiques se concentrera sur eux.
Références
[1] P. Boula de Mareüil: <<Application d'une grammaire en tronçons au parenthésage prosodique en synthèse de la parole à partir du texte>>, TALN, Grenoble, 1997.
[2] L.A. Ramshaw &M.P. Marcus : ``Text Chunking using Transformation-Based Learning'', ACL Third Workshop on Very Large Corpora, 1995 pp. 82-94.
[3] L. Tesnière : Éléments de syntaxe structurale, Editions Klincksieck, Paris, 1959.
Gpe Taitement du Langage Parlé | Dpt CHM |
Sommaire
|
Présentation |