Le deuxième axe de recherche est l'identification de traits non linguistiques de la parole. Cette activité est en fait une extension naturelle des travaux sur la reconnaissance de la parole puisque la modélisation est sensiblement la même. L'idée de base est de construire un modèle acoustique (en fait une ensemble de modèles d'unités phonétiques) pour chaque valeur du trait non linguistique à identifier, puis d'évaluer la probabilité d'observation d'un signal pour ces différents modèles comme cela est fait dans un système de reconnaissance de la parole. Au lieu de retenir la séquence d'unités la plus probable, on ne s'intéresse ici qu'à l'ensemble de modèles pour lequel la probabilité du signal est la plus élevée.
L'identification du genre du locuteur a été initialement utilisée pour réduire la quantité de calcul lors de l'utilisation de modèles dépendant du genre du locuteur dans nos systèmes de reconnaissance de la parole. L'identification du genre sur les corpus utilisés pour évaluer la reconnaissance de la parole est proche de 100% d'identification correcte. L'utilisation de cette méthode pour identifier le locuteur a été évaluée sur des corpus de parole en anglais américain et français. Dans le cadre d'un contrat avec France Telecom, nous avons en collaboration avec la société Vecsys, défini et enregistré un corpus téléphonique pour développer et évaluer les algorithmes d'authentification du locuteur en fonction de la quantité et du type de données utilisées pour l'apprentissage et les tests. Ce corpus contient les enregistrements d'une centaine du locuteurs abonnés, chacun ayant effectué 10 appels d'apprentissage et 25 appels d'authentification, et les enregistrements de 1000 imposteurs. Les expériences réalisées sur ces données nous ont permis de mesurer la dépendance du taux d'erreur à nombre de paramètres (nature des énoncés, durée des énoncés, vieillissement des modèles, nombre de sessions d'apprentissage, lieu d'appel, ...). Sur ce corpus, en mode vérification dépendant du texte, le taux d'égale erreur (i.e. le taux de rejet d'abonnés est égal au taux d'acceptation d'imposteurs) pour des énoncés de 1,2 seconde est égal à 1,0% avec deux essais autorisés par tentative.
La même technique est utilisée pour l'identification des langues pour laquelle une variété d'applications potentielles peut être envisagée, par exemple pour le routage automatique d'appel téléphonique vers un opérateur, en frontal de serveurs d'information ou de futurs systèmes de traduction. Dans le cadre d'un contrat avec le CNET, nous avons enregistré un corpus téléphonique multilingue (français, anglais britannique, allemand et espagnol) comprenant environ 300 appels par langue. Ces données sont actuellement utilisées pour effectuer des expériences sur la reconnaissance des langues en contrôlant les conditions d'enregistrement et le contenu linguistique des données. Dans sa conception originale notre approche nécessite d'importantes quantité de données transcrites orthographiquement et un lexique phonémique pour chaque langue traitée. Afin d'élargir son champ d'application à des langues pour lesquelles on ne dispose pas d'importantes quantités de données transcrites, des travaux sont en cours pour construire des modèles acoustiques indépendants des langues traitées. De tels modèles devraient permettre de modéliser une nouvelle langue pour le système d'identification en utilisant simplement des enregistrements de parole non transcrits. Dans le cadre d'une convention DGA, nous évaluons cette approche pour un dizaine de langues.