TSI
Évènements
Soutenance de thèse de Pierre Leveau
Mardi 13 novembre à 14H00
Institut Jean le Rond d'Alembert (LAM) -- 11, rue de Lourmel -- 75015 Paris

Décompositions parcimonieuses structurées :
application à la représentation objet de la musique

En collaboration avec l'Institut Jean le Rond d'Alembert, l'Université Pierre et Marie Curie et le département TSI de Télécom Paris.

Auteur
Pierre Leveau
Date
Mardi 13 novembre 2007 à 14H00
Lieu
Institut Jean le Rond d'Alembert
Directeur de thèse
Membres du jury
Rapporteurs
  • Bruno Torrésani, Professeur (LATP, CMI, Université de Provence, Marseille),
  • Philippe Depalle, Professeur, (Département de recherche musicale, Université Mac Gill, Montréal).
Examinateurs
  • Jean-Luc Zarader, Professeur (ISIR, Université Pierre et Marie Curie, Paris),
  • Jana Eggink, Chercheur (European Technology Center (EuTEC), Sony Deutschland, Stuttgart),
  • Emmanuel Vincent, Chargé de Recherches (INRIA-IRISA, Rennes).

Résumé

La quantité de musique numérisée disponible à la fois sur Internet et chez chaque utilisateur particulier a explosé depuis maintenant une dizaine d'années. L'organisation et l'accessibilité de cette masse de données exigent que certaines informations soient disponibles, comme par exemple l'artiste, le nom de l'album, de la chanson, le style, le tempo, l'humeur ou d'autres attributs symboliques ou sémantiques.

Ainsi, l'indexation automatique de la musique est un domaine de recherche qui suscite un grand intérêt actuellement car il permet d'envisager une obtention automatique de ces annotations. Si certaines tâches sont maintenant traitées correctement pour certains types de musique, comme la classification par genre sur des musiques stéréotypiques, la reconnaissance d'instruments jouant en solo et l'extraction de tempo, d'autres données sont plus difficiles à extraire. Par exemple, la transcription automatique de signaux polyphoniques et la reconnaissance d'ensembles d'instruments sont encore limités à quelques cas particuliers.

Le but de l'étude n'est pas d'obtenir une transcription parfaite des signaux et une classification exacte de tous les instruments mis en jeu, mais plutôt de construire une représentation objet du signal, c'est-à-dire une représentation qui met en valeur certaines caractéristiques utiles des signaux en le représentant sous la forme d'objets sonores. Afin de réaliser cette tâche, nous nous intéressons au domaine des représentations parcimonieuses de signaux. Ce domaine d'étude relativement récent traite de l'approximation des signaux par des formes d'ondes (atomes) appartenant à des dictionnaires. Les principaux sujets d'études sont la construction de dictionnaires adaptés aux signaux analysés, ainsi que la recherche d'algorithmes permettant de décomposer le signal de façon optimale et efficace.

Dans le travail présenté, des dictionnaires liés à des sources instrumentales ont été construits : nous définissons un atome Harmonique Spécifique à un Instrument comme une somme d'atomes de Gabor représentant les partiels d'une note, et dont les vecteurs d'amplitudes respectives appartiennent à un ensemble appris au préalable sur des sources annotées. Des variantes permettant de mieux modéliser les structures sortant du cadre strictement harmonique sont proposées : l'une permet de tenir compte des notes présentant des modulations de fréquence dans leurs partiels, et l'autre introduit un paramètre d'inharmonicité qui modélise la position des partiels pour les instruments légèrement inharmoniques comme le piano. Ces atomes peuvent être définis en stéréo grâce à l'ajout d'un paramètre de panoramique. Nous présentons également des molécules, groupements d'atomes permettant de modéliser les structures longues, comme les notes de musique entières.

Dans un second temps, nous présentons des algorithmes permettant d'extraire ces atomes et molécules de façon efficace sur des signaux audio. Nous utilisons l'algorithme de Matching Pursuit, que nous adaptons afin d'extraire les structures définies précédemment. Les algorithmes permettant d'extraire les atomes font intervenir une optimisation des paramètres après une estimation grossière sur une grille. Les algorithmes moléculaires mettent en jeu des recherches de chemins, résolues par programmation dynamique.

Enfin, nous montrons en quoi les modèles de signaux ainsi que les algorithmes permettent d'obtenir des représentations utiles pour l'indexation de la musique. Nous évaluons leur efficacité pour l'estimation de hauteur de note et la classification d'instruments de musique sur des solos, pour lesquels les résultats sont à la hauteur d'algorithmes de l'état de l'art. Le problème de l'identification d'ensembles d'instruments est également abordé en mono et en stéréo. Un codeur à extrêmement bas débit (1 à 4 kbs) est aussi implémenté, avec des résultats préliminaires encourageants.


Page maintenue par le webmaster - 3 février 2010
© Télécom ParisTech/TSI 1998-2010