Une thèse sur la perception du timbre de la voix (cf page de présentation ``La cohérence du timbre du locuteur'') a récemment été soutenue. Une série de 3 expériences a été conduite pour définir l'espace perceptif du timbre vocal, au niveau de la syllabe. Il s'agit d'établir les axes perceptifs principaux de courts segments vocaux, syllabes ou courtes phrases. Une dernière expérience montre (à l'aide de montage d'extraits de voix) que la variabilité intra-locuteur est parfois plus importante que la variabilité inter-locuteur. Des stimuli mélangeant les voix de différents locuteurs sont en effet perçus comme provenant d'un même locuteur. Une base de donnée de voix contenant des styles très variés a été constituée à l'occasion de ce travail.
Une étude de la perception des variations de hauteur tonale pour les glissando de fréquence fondamentale a été conduite. Le modèle de pondération de la moyenne temporelle de fréquence fondamentale pour calculer la hauteur tonale perçue a été validé sur les données expérimentales. Dans la continuité de ce travail, de nouvelles expériences sont prévues sur l'interaction de la hauteur tonale périodique et de la hauteur tonale spectrale dans des segments vocaux qui contiennent un mélange périodique-apériodiques.
En liaison avec les études sur l'analyse de la source vocale, une étude commence sur la perception du quotient d'ouverture dans la source.
Un modèle théorique de la perception de la parole et de la voix a été proposé. Simultanément ascendant et descendant, il prend en considération l'information non-linguistique au même titre que l'information linguistique. Il comporte six niveaux d'abstraction, chacun correspondant à une résolution temporelle donnée : cochléogramme (ensemble d'informations délivrées par la cochlée, résolution de l'ordre de 1 ms), indices acoustiques (10 ms), indices phonétiques (30 ms), éléments phonétiques (50 ms), mots (200 ms), concepts (500 ms).
Enfin le fonctionnement de la perception en général fait l'objet d'une réflexion continue, dans le cadre du Traitement des Formes (généralisation de la Reconnaissance des Formes) et de l'Induction Analogique, avec application à divers problèmes de perception (variabilité de la parole, invariances en vision, attention sélective).
THÈME 2 : MODÉLISATION ACOUSTIQUE ET LEXICALE L.F. Lamel, M. Adda-DeckerE. Bilinski, G. Adda, J.-J. Gangolf, J.-L. Gauvain, H. Schwenk
Les travaux de recherche menés dans ce thème portent essentiellement sur les unités acoustiques et lexicales utilisées pour modéliser le langage parlé. Les modèles retenus doivent permettre une prédiction fiable des phénomènes observés dans le signal acoustique afin de garantir de bonnes performances pour les systèmes de transcription et de dialogue oral.
Le but recherché est une modélisation acoustique précise des unités lexicales (mots de la langue). Pour l'atteindre de nombreux problèmes connexes doivent être abordés. En effet le signal de parole véhicule, au-delà du message linguistique proprement dit, d'autres types d'informations, notamment les caractéristiques du locuteur, de l'environnement, de l'enregistrement et, le cas échéant, de la transmission. Toutes ces informations contenues dans un même signal contribuent à sa variabilité et mènent à des directions de recherche variées, souvent au-delà de ce thème. La transcription automatique d'émissions radio et télédiffusées multilingues est devenu un de nos cadres de recherche majeurs permettant, par sa richesse en conditions acoustiques différentes, de traiter la modélisation de bruits, de locuteurs, de langues, d'accents et de styles de parole variés. Des phénomènes extra-lexicaux comme les bruits de bouche, erreurs de prononciations et réparations, fragments de mots, répétitions et hésitations apparaissent dans des proportions plus ou moins fortes posant des problèmes aux différents niveaux de la modélisation acoustique et lexicale.