POUR LA RECONNAISSANCE DE LA PAROLE
_____________________
É. GEOFFROIS
Objet
L'objectif est de rendre les systèmes de reconnaissance de la parole capables de traiter l'information prosodique, c'est-à-dire essentiellement la mélodie et le rythme de la parole, qui sont liés à la fréquence fondamentale et à la durée des sons. Si l'on peut attendre de l'information prosodique une amélioration globale des performances de la reconnaissance, son intérêt est particulièrement évident quand elle constitue le seul moyen de lever une ambiguïté, comme dans l'exemple réel suivant :
Prononcé : "Je veux le vol 708 1083"
Transcrit : Je veux le vol 700 8083.
Contenu
Ce travail apporte des réponses nouvelles au problème suivant : L'extraction de la fréquence fondamentale et la mesure de durée sont des problèmes mal posés dans le cas d'un signal de parole. En effet, la fréquence fondamentale n'est définie que dans la limite où le signal est parfaitement périodique, et la durée n'est définie que dans la limite où des caractéristiques du signal sont constantes par morceaux. Or des écarts importants par rapport à ces hypothèses sont couramment observés dans le signal de parole. Le problème des méthodes classiques est qu'elles fournissent alors des valeurs aberrantes. Ce manque de robustesse est un handicap majeur au traitement automatique de la prosodie.
Nous avons développé des mesures robustes, c'est-à-dire qui ne se dégradent pas brutalement en dehors des hypothèses restreintes énoncées ci-dessus. Pour cela, il a fallu éliminer des algorithmes les opérateurs peu robustes comme la sélection de pic. L'enjeu est de le faire en conservant la pertinence des mesures classiques. Pour atteindre ce but, l'idée essentielle consiste à laisser l'information sous forme distribuée de manière à éviter les décisions tout-ou-rien, et à généraliser les opérations classiques à ces distributions (voir figure page ci-contre).
De plus, ces mesures sont indépendantes de toute segmentation a priori. Elles sont donc susceptibles d'un traitement simultané et homogène avec les informations non prosodiques. Des algorithmes statistiques de reconnaissance de la parole ont ainsi pu être appliqués sans modification.
Situation
Un système complet d'étiquetage prosodique a été développé. Pour entraîner et tester le système, nous avons étiqueté prosodiquement un corpus de parole spontanée comportant 1115 requêtes, prononcées par 20 locuteurs (10 pour l'apprentissage et 10 pour l'évaluation). Le jeu de marqueurs est dérivé d'un système de description phonologique de l'intonation du français. Le système étiquette correctement 66% des syllabes parmi 14 catégories distinctes.
Les modèles appris sur ce corpus ont également été évalués sur un corpus de parole lue constitué de paires de phrases ambiguës. Malgré la différence de style, l'ambiguïté est correctement levée dans 73% des cas.
Références
(1) Geoffrois Édouard : "Extraction robuste de paramètres prosodiques pour la reconnaissance de la parole". Thèse de doctorat, Université Paris XI, décembre 1995.
Gpe Traitement du Langage Parlé |
| DptCHM |
|
Sommaire
|
| Présentation |
|
---|