Traitements linguistiques pour la synthèse de la parole à partir du texte

_____________________

P. Boula de Mareüil

Figure

Objet

Les travaux effectués ont été consacrés aux traitements linguistiques appliqués à la synthèse de la parole à partir du texte. Ils se divisent en deux volets : la conversion graphème-phonème et l'analyse syntaxique, essentiellement pour la génération automatique de la prosodie [1]. Reposant sur le français, leur portabilité à d'autres langues a également été étudiée.

Description

Pour la conversion graphème-phonème, l'accent a été mis sur les ambiguïtés morpho-phonologiques, les glides et le schwa, les liaisons et les noms propres. Les nombres et les abréviations sont prétraités en amont. Un système de synthèse vocale à partir du texte nécessitant une analyse syntaxique rapide, robuste et déterministe, une grammaire en tronçons inspirée de la grammaire de dépendance a été développée : elle organise un texte en phrases (assertives ou interrogatives), et segmente les phrases en séquences non récursives. Celles-ci permettent de définir des frontières prosodiques potentielles (mineures, majeures ou majeures intermédiaires). Des règles sont ensuite appliquées pour prendre en compte les contraintes phonotactiques, et un module phonético-acoustique permet de lier la structure prosodique de surface aux paramètres mélodiques et rythmiques.

Nous nous sommes efforcés de procéder par intention : conversion graphème-phonème par règles (un critère de règle plus générale a été mis en évidence) et étiquetage en parties du discours non lexicaliste. L'approche structurelle a également été préférée aux modèles probabilistes.

Le parenthésage syntaxique consiste à segmenter la phrase en ``séquences'' non récursives, définies comme des ensembles de catégories possibles (ex. pronoms personnels, verbes, etc. pour les séquences verbales). La sortie de l'analyseur syntaxique est ensuite connectée au générateur de prosodie de la synthèse. En particulier, une frontière de continuation mineure est placée à la fin des séquences nominales et verbales, quand elles ne sont pas suivies d'un signe de ponctuation ; deux marqueurs prosodiques sont associés aux signes de ponctuation faibles et forts ; une frontière majeure intermédiaire est placée après certains types de tronçons (par exemple préposition nom, qui est également le plus fréquent). Voir le tableau 1.

Résultats et perspectives

Ce traitement automatique a été intégré dans le système du LIMSI de synthèse de la parole à partir du texte, qui a fait l'objet de nombreux tests. Le programme de conversion graphème-phonème, GRAPHON, a été modifié en une version GRAPHON+ : il compte aujourd'hui plus de 2000 règles de réécriture contextuelles. Les performances de GRAPHON+ ont été estimées à plus de 99% de mots correctement transcrits, sur plusieurs dizaines de milliers de mots. Ce taux est le plus élevé des 8 convertisseurs ayant participé à une campagne d'évaluation de l'AUPELF-UREF [2] (cf. tableaux 2 et 3). Le parseur a aussi été testé, sur un corpus de plusieurs milliers de mots : les taux de complétude et de précision sur les séquences ont été estimés à 97%. L'analyse reflète bien le parenthésage prosodique, comme l'a montré un test d'écoute - même si de nouvelles expériences sont nécessaires. Pour évoluer encore, il semble souhaitable d'intégrer des critères quantitatifs et d'accorder une plus grande place au lexique. Générer des variantes est également d'une grande importance.

Références

[1] Boula de Mareüil P. (1997), Étude linguistique appliquée à la synthèse de la parole à partir du texte, Thèse de doctorat de l'Université Parix XI, Orsay.
[2] Boula de Mareüil P., Yvon F., d'Alessandro C, Aubergé V., Bagein M., Bailly G., Béchet F., Foukia S., Goldman J.-P., Keller E., O'Shaughnessy D., Pagel V., Sannier F., Véronis J., Zellner B. (1998) ``Objective evaluation methodology of grapheme-to-phoneme conversion for text-to-speech synthesis in French'', à paraître dans First International Conference on language Resources and Evaluation (LREC), Grenade.

Gpe Traitement du Langage Parlé

Dpt CHM

+ Sommaire

Présentation