Objet
La parole spontanée pose de manière particulièrement aiguë
le problème de variantes de prononciation pour la modélisation
acoustique des mots. La modélisation acoustique à partir des seules
prononciations phonémiques canoniques n'est pas suffisante. Il faut pouvoir
rendre compte de variantes de prononciation correspondant en particulier à
des réalisations plus courtes. Le but de cette étude est de répertorier
les phénomènes de réductions les plus courants et de proposer
des explications en termes de réorganisation ou de restructuration syllabique.
Description
Nous examinons comment des suites de syllabes théoriquement attendues
(à partir de transcriptions orthographiques) sont effectivement réalisées
dans un enregistrement sonore de parole spontanée. Pour cette étude
nous avons utilisé 30 heures de corpus radiophonique provenant d'archives
INA. Il s'agit d'interviews impliquant principalement un journaliste professionnel
et un artiste ou un homme politique. Le style de parole est fluide, spontané
et seulement partiellement préparé. Des transcriptions orthographiques
de référence sont produites automatiquement avec correction manuelle.
Afin d'obtenir une transcription syllabique de référence, nous
générons dans un premier temps des transcriptions phonémiques
canoniques maximales correspondant à des prononciations complètes
incluant les schwas et les phonèmes de liaison. Cette transcription est
ensuite segmentée automatiquement en syllabes. L'algorithme de syllabification
utilisé respecte le principe de sonorité et le principe de maximum
onset en cas d'ambiguïté. Nous obtenons ainsi une transcription
syllabique de référence: une transcription en syllabes phonologiques,
au sens de syllabes théoriquement attendues.
La figure ci-dessus montre une structure de syllabe générique avec le noyau correspondant à une voyelle unique en français, une attaque consonantique et une coda éventuellement vides. La structure syllabique la plus fréquente en français est la syllabe CV (composée d'une consonne en attaque et d'un noyau vocalique).
Pour aligner ces syllabes phonologiques avec le signal de parole, un dictionnaire de prononciation syllabique doit être créé. Afin de pouvoir rendre compte de phénomènes de réduction (comme par exemple: "il voudrait" réalisé acoustiquement comme "i'v'drait") chaque syllabe phonologique admet comme variantes de prononciation toute prononciation partielle en partant de la forme canonique de la syllabe. La séquence de phonèmes alignés est ensuite syllabifiée pour générer des syllabes parlées ou syllabes phonétiques. La figure suivante donne un exemple de phrase transcrite en mots, en syllabes phonologiques et par alignement en syllabes phonétiques. Les syllabes phonologiques proviennent d'une prononciation canonique maximale, les syllabes phonétiques de la séquence phonémique effectivement alignée.
Résultats et perspectives
La distribution des types de syllabes phonologiques est comparée à
celle qui émerge de la parole (syllabes phonétiques)
syllabes |
phonologiques |
phonétiques |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Les deux distributions sont comparables, même si la parole a tendance à augmenter la proportion de syllabes fermées. Les 4 types de syllabes les plus importants sont CV (autour de 65%) et les V, CVC, CCV (chacun autour de 10%). Les résultats confirment que le schwa optionnel contribue pour une grande part à la variation de structure syllabique. La figure ci-dessous illustre un changement de structures V et CV en une structure VC.
D'autres phénomènes moins décrits ont également été observés : des voyelles telles que /u/, /o/ et /e/ se révèlent optionnelles en position inaccentuée et permettent des restructurations syllabiques. Les consonnes liquides sont aussi souvent élidées, plus en position de coda qu'en position d'onset. La plupart des restructurations syllabiques observées concernent les mots outils (les mots les plus fréquents, voir [1]) et les syllabes non-accentuées dans les mots polysyllabiques. Les spectrogrammes ci-dessous illustrent quelques phénomènes de réduction observables en parole spontanée sur ces syllabes non-accentuées de mots polysyllabiques.
Références
[1] Adda-Decker M., Boula de Mareüil Ph., Adda G. &
Lamel L. (2002), "Investigating syllabic structure and its
variation in speech from French radio interviews", ISCA-ITRW Pronunciation
Modeling and Lexical adaptation Workshop, septembre 2002, Aspen Lodge Colorado.