Etude du timbre de la voix

_____________________

B. Payri, J.-S. Liénard

Figure

Objet

Cette recherche concerne le timbre de la voix parlée, notamment l'établissement des axes perceptifs pour l'espace des voix, la relation entre les différents niveaux d'écoute de la voix et les liens avec des paramètres acoustiques.

Description

Des études de perception ont été menées, selon la méthode de classification libre. Le matériel consistant en des phrases et des syllabes extraites de ces phrases (voir figure  0.2). Les sujets devaient regrouper les syllabes puis les phrases selon leur ressemblance perceptive, avec un programme (figure  0.1) qui permettait une écoute et une manipulation faciles des objets sonores. Cette expérience a permis de dégager une distance perceptive pour les phrases et les syllabes avec plus de 30 sujets.

Les bases de données vocales disponibles ne sont pas satisfaisantes pour l'étude du timbre de la voix, car elles ont majoritairement été établies en vue de la reconnaissance de la parole et reposent sur la lecture de textes écrits. Pour mieux étudier la variabilité du timbre individuel, on a conçu et enregistré une base de voix, où chaque locuteur devait faire varier sa voix selon 9 axes, avec une attention particulière portée aux conditions d'enregistrement (position par rapport au microphone, bruit de fond, qualité du microphone, échantillonnage à 44kHz).

Les axes ont été définis d'après des études de production de la voix, de façon à pouvoir utiliser des locuteurs non-spécialistes. Dans la base on dispose de 35 locuteurs avec des âges compris entre 6 et 76 ans, fournissant chacun entre 50 et 100 séquences vocales [1].

Cette base permet notamment de dégager les axes perceptifs pertinents pour l'espace du timbre de la voix, en faisant des comparaisons par paires de sons. Chaque axe ainsi dégagé donnera lieu à des expériences ultérieures qui permettront de créer des échelles numériques.

Résultats et perspectives

Un résultat majeur qui s'est imposé est la distinction entre écoute globale et locale de la qualité de voix : les distances perceptives entre locuteurs, pour des extraits de la même phrase, diffèrent selon la longueur du matériel sonore. Parallèlement, on a constaté que la qualité de voix évolue au cours d'une même phrase, d'où la nécessité de définir une prosodie généralisée qui se base sur la variation de qualité de voix instantanée.

Les résultats montrent que l'identité du locuteur est nettement moins saillante au niveau instantané que les variations intra-locuteur de la qualité de voix. On peut notamment, à l'intérieur d'une même phrase, mélanger des syllabes provenant de locuteurs différents, et dans certaines conditions le résultat peut être entendu comme provenant d'un nouveau locuteur. On définit une mesure de cohérence qui permet de prédire si une succesion de syllabes peut être perçue comme cohérente, c'est-à-dire comme provenant du même locuteur au même moment.

Le mélange de syllabes provenant de phrases différentes permet aussi de voir comment la variation de qualité de voix peut être perçue comme une variation prosodique: par exemple l'insertion de syllabes en mode rauque dans un phrase en mode neutre est perçue comme une accentuation de ces dites syllabes.

Référence

[1] B. Payri: ``A voice database for the study of vocal timbre'', Proceedings of Voicedata98, Utrecht, Janvier 98.

Gpe Traitement du Langage Parlé

Dpt CHM

+ Sommaire

Présentation