Concernant la modélisation acoustico-phonétique pour la transcription, nous utilisons des modèles acoustiques de phones, où la notion de phone se réfère au terme linguistique de phonème, tout en laissant la possibilité de modéliser d'autres types de segments, comme les respirations, hésitations, et bruits divers qu'on observe fréquemment dans le langage parlé. Une meilleure prédiction des modèles acoustiques de phones est obtenue en distinguant pour un phone donné différents modèles suivant le contexte phonémique (modèles contextuels), suivant le sexe des locuteurs (modèles homme/femme), suivant le canal de transmission (modèles bande-large/téléphone...). Des arbres de décision phonémiques permettent de partager un même nombre de gaussiennes entre un nombre de contextes.
Un système de segmentation découpe le flux audio en segments acoustiquement homogènes avant la transcription proprement dite. La segmentation fait appel à une série de modèles (mélanges de gaussiennes) spécifiques aux conditions acoustiques (musique, bruit, parole...) permettant de structurer une bande son suivant ces conditions. Cette procédure, mis au point pour l'anglais, a été utilisée pour des documents en français, en allemand et en chinois mandarin, mettant en évidence une relative indépendance par rapport à la langue. Des segments de parole plus courts, globalement homogènes à des tours de parole, sont ensuite obtenus lors d'une procédure itérative de segmentation/classification utilisant un critère de maximum de vraisemblance. Le nombre de classes et les modèles associés sont obtenus automatiquement en fonction d'un seuil fixé au préalable. Ce processus de segmentation est donc capable de fournir une structuration de la bande son avec la localisation temporelle de différents locuteurs, de différentes conditions de bruit et éventuellement de différentes langues.
Des corpus appropriés sont requis pour la modélisation statistique et nous participons activement à la production de telles ressources. Dans le cadre d'une convention DGA nous avons mis au point des conventions de transcription et d'annotation pour les émissions radio et télé. Ces conventions sont intégrées dans l'outil de transcription manuelle Transcriber développé à la DGA en collaboration avec le LDC (Linguistic Data Consortium). Ces annotations permettent la modélisation acoustique d'informations autres que les mots (bruits, locuteurs, accents, ...). Plusieurs semaines de la tranche matinale de France-Inter ont ainsi été transcrites et annotées à la DGA et ce corpus a été sélectionné comme ressource pour la prochaine campagne d'évaluation francophone de l'AUF (Agence Universitaire Francophone). D'autres travaux d'annotations sont effectués dans le cadre du projet européen LE4- OLIVE en coopération avec l'INA, ARTE et VECSYS.