La cohérence du timbre du locuteur

_____________________

B. Payri

Figure

Objet

A partir de la notion de timbre de la voix, définie comme ce qui caractérise un locuteur ou une élocution donnée, nous dégageons la notion de cohérence du timbre, c'est-à-dire, les limites que doivent respecter toutes les composantes d'une élocution pour qu'elle semble avoir été prononcée par une seule personne réelle.

Description

Pour étudier la cohérence, nous utilisons comme matériau une phrase (un nombre italien lu de façon neutre) prononcée par 20 locuteurs. Nous en extrayons deux syllabes de même contenu linguistique mais comportant différents accents toniques.

La première expérience étudie la comparaison holistique des phrases et des syllabes : les résultats montrent que les syllabes ne sont pas classées selon le locuteur, et que les critères de classification sont différents pour les syllabes et les phrases. On peut donc affirmer que les variations de timbre à l'intérieur d'une phrase prononcée par un seul locuteur sont perceptivement plus saillantes que des variations de timbre dues aux différences entre locuteurs.

Dans la deuxième expérience les sujets doivent juger selon des axes prédéfinis (âge, genre...) les phrases et les syllabes : les résultats montrent que les jugements pour la phrase entière et pour des syllabes isolées peuvent différer, amenant la notion de timbre global (phrase) qui est composé d'un ensemble de timbres locaux (syllabes) pouvant varier beaucoup, comme illustré sur la figure 3.

Dans la troisième expérience, nous remplaçons, dans chaque phrase, une syllabe par les syllabes correspondantes des phrases d'autres locuteurs comme illustré sur la figure 2. Les sujets doivent indiquer s'ils entendent un montage ou une phrase prononcée par un seul locuteur. 23% des montages sont acceptés (50% des montages entre locuteurs de même genre), donc une syllabe peut être commune à différents locuteurs. Le critère principal pour la cohérence d'un montage est que la syllabe introduite ait une hauteur proche de la syllabe remplacée, et que la prosodie de la phrase soit respectée comme illustré sur la figure 1. Une expérience de remplacement de syllabes avec modification de F0 confirme l'importance de la hauteur. Nous concluons que la cohérence du timbre définit une probabilité (et non des valeurs précises) des paramètres d'une syllabe dans un contexte donné.

Résultats et perspectives

Ces résultats montrent qu'on ne peut pas établir une équivalence entre un timbre et un locuteur, car il y a des variations importantes de timbre au sein d'une élocution, et des locuteurs différents peuvent partager des timbres localement. Des applications peuvent être envisagées en synthèse de parole par concaténation : des segments de différents locuteurs peuvent être employés s'il y a respect de la prosodie, les limites étant imposées par la cohérence. On peut appliquer les résultats dans la reconnaissance et la modélisation du locuteur, en comprenant que les jugements émis sur le locuteur peuvent varier en fonction du segment de parole jugé. Pour valider et élargir la portée de nos résultats, nous avons créé une base de voix multilocuteurs, en prenant des enregistrements de différents modes de phonation pour chaque locuteur. En effet, la cohérence du timbre doit être étudiée également pour les différentes productions d'un locuteur. Afin d'obtenir un modèle quantitatif, nous envisageons d'utiliser un synthétiseur (analyse et resynthèse), qui permettra créer des phrases où des syllabes sont modifiées selon un paramètre, et faire évaluer par les auditeurs la rupture de cohérence engendrée par cette modification. On obtiendra ainsi une relation entre un paramètre acoustique et la cohérence du timbre.

Références

[1] Blas Payri : ``Perception of voice quality as a mixture of individual voice qualities'', Proceedings of the XIV International Conference in Phonetic Sciences, San Francisco, Août 1999.

Gpe Traitement du Langage Parlé

Dpt CHM

+ Sommaire

Présentation