TSI
Évènements
Soutenance de thèse de Olivier Gillet
Jeudi 21 Juin à 14H30, Amphi Jade
Télécom Paris - 46, rue Barrault - 75013 Paris

Transcription des signaux percussifs.
Application à l'analyse de scènes musicales audiovisuelles

Auteur
Olivier Gillet
Date
Jeudi 21 Juin 2007 à 14H30
Lieu
Télécom Paris, Barrault, Amphi Jade
Directeur de thèse
Membres du jury
Rapporteurs
  • Laurent Girin (ICP),
  • Bernard Mérialdo (Eurecom).
Examinateurs
  • Mark Sandler (Queen Mary University),
  • Xavier Rodet (IRCAM),
  • Régine André-Obrecht (IRIT),
  • Dan Ellis (Columbia University).

Résumé

Entend-on mieux la musique, ou la comprend-on différemment lorsqu'on peut la voir ? Cette thèse aborde cette question en tissant des liens entre les domaines de l'indexation audio et de l'analyse de séquences d'images, avec pour fil conducteur le problème de l'analyse de l'accompagnement rythmique, joué à la batterie, des signaux de musique.

Nous étudions tout d'abord dans une première partie le problème de la transcription de la piste de batterie d'enregistrements musicaux polyphoniques, en ne prenant en compte que la modalité audio. Après avoir présenté des pré-traitements permettant d'accentuer la piste de batterie, nous mettons en oeuvre des techniques d'apprentissage statistique (Machines à Vecteurs Supports) sur une large gamme d'attributs pour réaliser la transcription. Nous détaillons ensuite deux approches, l'une supervisée, l'autre non, pour améliorer la reconnaissance en prenant en compte le caractère périodique et structuré des accompagnements rythmiques.

Dans une seconde partie, nous incorporons au système de transcription précédent l'information visuelle provenant d'une ou plusieurs caméra filmant le batteur. Nous étudions d'abord le problème de la calibration de la scène - comment segmenter sur l'image les différents éléments de la batterie et les associer à des catégories sonores ? Une fois cette calibration obtenue, des descripteurs d'intensité de mouvement sont utilisés pour permettre la détection des frappes. Les résultats démontrent la capacité d'une approche multimodale à résoudre certaines des ambiguïtés propres à la transcription audio, à condition que les conditions de prise de vue soient bien contrôlées.

Nous considérons enfin dans la dernière partie des documents audiovisuels de type clips vidéos. Nous nous intéressons en particulier au problème consistant à mesurer de quelle manière une musique peut être illustrée par des images. Après avoir présenté ou introduit de nouvelles méthodes de structuration automatique des flux audio et vidéo - segmentation en notes et sections pour la musique, en mouvements, plans et séquences pour la vidéo, nous définissons des mesures de synchronie sur les structures obtenues. En plus de permettre des applications de recherche de musique par l'image, ces corrélations sont dépendantes du type de document musical (clip vidéo narratif, vidéo des musiciens, danse).


Page maintenue par le webmaster - 3 février 2010
© Télécom ParisTech/TSI 1998-2010