Structures syllabiques et leurs variations en français spontané

M. Adda-Decker, Ph. Boula de Mareüil, G. Adda, L. Lamel

Objet
La parole spontanée pose de manière particulièrement aiguë le problème de variantes de prononciation pour la modélisation acoustique des mots. La modélisation acoustique à partir des seules prononciations phonémiques canoniques n'est pas suffisante. Il faut pouvoir rendre compte de variantes de prononciation correspondant en particulier à des réalisations plus courtes. Le but de cette étude est de répertorier les phénomènes de réductions les plus courants et de proposer des explications en termes de réorganisation ou de restructuration syllabique.
 
 

Description
Nous examinons comment des suites de syllabes théoriquement attendues (à partir de transcriptions orthographiques) sont effectivement réalisées dans un enregistrement sonore de parole spontanée. Pour cette étude nous avons utilisé 30 heures de corpus radiophonique provenant d'archives INA. Il s'agit d'interviews impliquant principalement un journaliste professionnel et un artiste ou un homme politique. Le style de parole est fluide, spontané et seulement partiellement préparé. Des transcriptions orthographiques de référence sont produites automatiquement avec correction manuelle.  Afin d'obtenir une transcription syllabique de référence, nous générons dans un premier temps des transcriptions phonémiques canoniques maximales correspondant à des prononciations complètes incluant les schwas et les phonèmes de liaison. Cette transcription est ensuite segmentée automatiquement en syllabes. L'algorithme de syllabification utilisé respecte le principe de sonorité et le principe de maximum onset en cas d'ambiguïté. Nous obtenons ainsi une transcription syllabique de référence: une transcription en syllabes phonologiques, au sens de syllabes théoriquement attendues.

La figure ci-dessus montre une structure de syllabe générique avec le noyau correspondant à une voyelle unique en français, une attaque consonantique et une coda éventuellement vides. La structure syllabique la plus fréquente en français est la syllabe CV (composée d'une consonne en attaque et d'un noyau vocalique).

Pour aligner ces syllabes phonologiques avec le signal de parole, un dictionnaire de prononciation syllabique doit être créé. Afin de pouvoir rendre compte de phénomènes de réduction (comme par exemple: "il voudrait" réalisé acoustiquement comme "i'v'drait") chaque syllabe phonologique admet comme variantes de prononciation toute prononciation partielle en partant de la forme canonique de la syllabe. La séquence de phonèmes alignés est ensuite syllabifiée pour générer des syllabes parlées ou syllabes phonétiques. La figure suivante donne un exemple de phrase transcrite en mots, en syllabes phonologiques et par alignement en syllabes phonétiques. Les syllabes phonologiques proviennent d'une prononciation canonique maximale, les syllabes phonétiques de la séquence phonémique effectivement alignée.

Résultats et perspectives
La distribution des types de syllabes phonologiques est comparée à celle qui émerge de la parole (syllabes phonétiques)

syllabes

phonologiques

phonétiques

CV
67.3
60.4
V
11.8
12.5
CCV
10.5
9.2
CVC
7.6
11.6
VC
1.1
1.6
CCVC
0.6
1.4
CVCC
0.4
1.4
CCCV
0.4
0.4

Les deux distributions sont comparables, même si la parole a tendance à augmenter la proportion de syllabes fermées. Les 4 types de syllabes les plus importants sont CV (autour de 65%) et les V, CVC, CCV (chacun autour de 10%). Les résultats confirment que le schwa optionnel contribue pour une grande part à la variation de structure syllabique. La figure ci-dessous illustre un changement de structures V et CV en une structure VC.


D'autres phénomènes moins décrits ont également été observés : des voyelles telles que /u/, /o/ et /e/ se révèlent optionnelles en position inaccentuée et permettent des restructurations syllabiques. Les consonnes liquides sont aussi souvent élidées, plus en position de coda qu'en position d'onset. La plupart des restructurations syllabiques observées concernent les mots outils (les mots les plus fréquents, voir [1]) et les syllabes non-accentuées dans les mots polysyllabiques. Les spectrogrammes ci-dessous illustrent quelques phénomènes de réduction observables en parole spontanée sur ces syllabes non-accentuées de mots polysyllabiques.

écoute_1             écoute_2

écoute_3

Références
[1] Adda-Decker M., Boula de Mareüil Ph., Adda G. & Lamel L. (2002), "Investigating syllabic structure and its variation in speech from French radio interviews", ISCA-ITRW Pronunciation Modeling and Lexical adaptation Workshop, septembre 2002, Aspen Lodge Colorado.