TSI
Évènements
Soutenance de thèse de Chloé Clavel
Jeudi 15 Mars à 14H00, Amphi B312
Télécom Paris - 46, rue Barrault - 75013 Paris

Analyse acoustique et reconnaissance des émotions de type peur en situations anormales

Auteur
Chloé Clavel
Date
Jeudi 15 Mars 2007 à 14H00
Lieu
Télécom Paris, Barrault, Amphi B312
Directeur de thèse
Membres du jury
Rapporteurs
  • Catherine Pelachaud (IUT de Montreuil, Université de Paris 8, LINC),
  • Jean-François Bonastre (Université d'Avignon et des Pays du Vaucluse, LIA-CERI).
Examinateurs
  • Jean-Paul Haton (Université Henri Poincaré, Nancy 1, LORIA),
  • Laurence Devillers (Université Paris XI, LIMSI-TLP (co-encadrante)),
  • Ioana Vasilescu (Université Paris XI, LIMSI-TLP (co-encadrante)),
  • Célestin Sedogbo (Thales Recherche et Technologies (encadrant industriel)).

Résumé

Cette thèse aborde le problème de la reconnaissance des émotions dans la parole. Nous avons choisi de centrer notre étude sur un type de manifestations émotionnelles jusqu'alors peu étudié dans le domaine : les émotions de type peur en situations anormales. Les situations anormales correspondent ici à des événements imprévus, constituant une menace pour la vie humaine. Cette étude est motivée par une application nouvelle dans le domaine de la reconnaissance d'émotions: l' «audio-surveillance» dans les lieux publics.

Le point de départ de ce travail a consisté en la définition et en l'acquisition d'un matériel d'étude illustrant des émotions extrêmes de type peur, dans des contextes de menace. Le corpus SAFE (Situation Analysis in a Fictional and Emotional corpus) développé à cet effet utilise comme source le cinéma de fiction. Il consiste en 400 séquences audiovisuelles d’une durée totale de 7 heures. Une stratégie d'annotation adaptée à la tâche de surveillance et intégrant plusieurs niveaux de description (niveau contextuel et niveau émotionnel) a été mise en place. Le système de reconnaissance des émotions, développé sur ce corpus, traite un grand nombre de locuteurs inconnus, dans des environnements sonores et contextes variés. Il consiste en une classification peur/neutre. L'originalité de la méthode repose sur une modélisation dissociée des contenus voisé et non voisé du signal de parole, les deux modèles obtenus étant ensuite fusionnés au sein du système de classification. Les résultats obtenus sont très encourageants compte tenu de la diversité des données et de la complexité du phénomène à reconnaître : le taux d'erreur avoisine les 30%.


Page maintenue par le webmaster - 3 février 2010
© Télécom ParisTech/TSI 1998-2010