Vérification du locuteur à travers le réseau téléphonique<SUP>1</SUP>

Vérification du locuteur à travers le réseau téléphonique¹

_____________________

L. Lamel, J.L. Gauvain, en collaboration avec B. Prouts²

Objet

Le but de cette étude était d'évaluer les performances d'algorithmes d'authentification du locuteur à partir d'un signal téléphonique en fonction du mode d'utilisation, du type d'énoncé et de la quantité de données de test et d'apprentissage.

Description

Chaque locuteur est vu comme une source de phones modélisés par des chaînes de Markov cachées[1]. Pour le mode indépendant du texte, un modèle phonotactique représente les contraintes lexicales et syntaxiques du langage. Après avoir determiné les paramètres des modèles phonétiques pour chaque locuteur, l'authentification d'un locuteur $\lambda$ à partir du signal ${\bf x}$ est réalisée en estimant la probabilité a posteriori par le rapport $f({\bf x}\vert\lambda)^\gamma / \sum_{\lambda^\prime} f({\bf x}\vert\lambda^\prime)^\gamma$ où le dénominateur est calculé sur tous les locuteurs connus du système ( $\gamma$ a été est fixé empiriquement à 0.02). Cette probabilité est comparée à un seuil indépendant du locuteur afin de décider de l'acceptation ou du rejet de l'indentification. L'algorithme de Viterbi est utilisé pour calculer la fonction de vraisemblance conjointe $f({\bf x},{\rm s}\vert\lambda_i)$ du signal et de la séquence d'états la plus probable au lieu de $f({\bf x}\vert\lambda_i)$ . Une technique bayésienne est utilisée pour estimer les paramètres des modèles spécifiques à chaque locuteur à partir de modèles multilocuteurs.

Résultats et perspectives

Les résultats expérimentaux ont été obtenus sur un corpus téléphonique spécialement conçu pour le développement et l'évaluation d'algorithmes d'authentification du locuteur. Ce corpus contient les enregistrements d'une centaine du locuteurs abonnés, chacun ayant effectué 10 appels d'apprentissage et 25 appels d'authentification, et les enregistrements de 1000 imposteurs (un appel par imposteur)[2]. Au cours d'un appel chaque locuteur a produit une variété d'énoncés incluant des données lues (chiffres, nombres, dates, phrases clefs, textes phonétiquement compacts), des réponses aux questions permettant d'identifier l'appel, et des réponses libres à questions variées. Les performances ont été mesurées en fonction du type d'énoncé et de la quantité de parole utilisée pour l'apprentissage et le test. Sur le tableau 1 on peut voir que les taux d'erreur sont plus faibles lorsque les données d'apprentissage sont de même nature que les données de test même si la quantité de données disponible est très réduite comparée à un apprentissage multistyle. Afin de mieux mesurer l'importance du contenu linguistique des données d'apprentissage, des tests ont été effectués avec des données d'apprentissage et de test de différentes natures. Une importante dégradation a été observée en particulier lorsque des modèles entraînés sur les suites de chiffres sont utilisés pour traiter les phrases clefs (SEPT³) car le recouvrement entre les contenus linguistiques des deux types d'énoncés est très faible (Tab. 2). Les modèles entrainés sur les phrases du Monde, qui représentent un plus grand nombre de contextes phonétiques, conduisent à une dégradation moindre. Les résultats donnés sur le tableau 3 permettent de mesurer l'effet du vieillissement des modèles. Ces résultats confirment que pour une quantité de données d'apprentissage fixée de meilleurs résultats sont obtenus si les données proviennent de différentes sessions. L'adaptation des modèles après chaque authentification permet de conserver un taux d'erreur constant. La dégradation substantielle des performaces pour la parole spontanée (Figure 1), que les textes soient connus ou non du système, montrent la difficulté de l'authentification du locuteur avec des données ``trouvées'' (i.e. non produites à des fins d'authentification).

Références

[1] L.F. Lamel, J.L. Gauvain, ``Identification of Non-Linguistic Speech Features,'' Computer Speech and Language, janvier 1995.
[2] J.L. Gauvain, L.F. Lamel, B. Prouts, ``Experiments with speaker verification over the telephone,'' Eurospeech'95, septembre 1995.
¹ Ces expériences ont été menées en collaboration avec la société Vecsys dans le cadre d'un marché France-Telecom.
² Vecsys
³ Les phrases SEPT ont été conçues par le Service d'études de la Poste et la Télécommunication

Gpe Traitement du Langage Parlé

Dpt CHM

Sommaire

Présentation