IDS
Évènements
Soutenance de thèse de Clément Laroche
Mardi 16 mai à 10H00, Amphi B312
Télécom ParisTech -- 46, rue Barrault -- 75013 Paris

Apprentissage de dictionnaires et décompositions orthogonales pour la séparation de sources harmoniques/percussives

Auteur
Clément Laroche.
Date
Mardi 16 mai 2017 à 10H00.
Lieu
Télécom ParisTech -- Site Barrault -- Amphi B312.
Directeur(s) de thèse
Co-encadrant(s)
Membres du jury
Rapporteurs
  • Cédric Févotte, Directeur de recherche (IRIT),
  • Sylvain Marchand, Professeur (IUT informatique de l'Université de la Rochelle).
Examinateurs
  • Laurent Daudet, Professeur, Directeur technique (LightOn),
  • Axel Röbel, Directeur de recherche (IRCAM),
  • Olivier Gillet, Conception produit (Mutable Instruments).

Résumé

De nombreux traitements appliqués aux signaux audio, comme par exemple la transcription automatique ou la reconnaissance de rythmes, sont plus performants lorsqu'ils sont appliqués sur des fichiers contenant le moins d'instruments possible. En effet, les structures spectrales présentes dans les représentations Temps-Fréquence (TF) des données se retrouvent brouillées lorsque plusieurs musiciens jouent en même temps.

Cette thèse aborde le problème de séparation de sources harmoniques/percussives. Nous proposons ainsi des méthodes de décomposition des spectrogrammes de signaux musicaux, en se basant sur les différences entre les structures des composantes harmoniques (généralement des structures horizontales) et celles des composantes percussives (structures verticales) dans le domaine TF. Les décompositions proposées proviennent de la Factorisation en Matrices Nonnégatives (NMF). La NMF est une technique de réduction de rang pour des données nonnégatives. Celle-ci est très employée pour décomposer les spectrogrammes musicaux et rencontre notamment beaucoup de succès dans des domaines tels que la séparation de sources, la transcription automatique et la reconnaissance de rythmes.

Au cours de cette thèse, nous avons d'abord utilisé une NMF structurée modélisant les sources harmoniques avec des composantes orthogonales et nous avons décomposé parallèlement la partie percussive de plusieurs façons différentes. Le premier algorithme laisse la partie percussive sans contrainte. Il s'agit d'une méthode très générale permettant d'obtenir une décomposition performante sur des signaux simples sans optimisation de paramètres. Cependant, sur des signaux complexes, les résultats ne sont pas satisfaisants. Nous avons donc contraint la partie percussive avec des dictionnaires spécifiques aux percussions, en essayant de nombreuses méthodes et combinaisons pour la construction des données des dictionnaires. Finalement, nous avons recouru à une décomposition NMF convoluée avec des échantillons sonores de batterie. Cette autre méthode permet de représenter chaque frappe d'un élément de la batterie par un fragment sonore de batterie issu d'une base de données.

Ce manuscrit reflète ainsi un travail centré sur la séparation de sources et propose de nouvelles méthodes de décomposition des spectrogrammes musicaux permettant de séparer les sources harmoniques des sources percussives. Ces méthodes ont été testées sur une large base de données de signaux de musique et leurs performances ont été évaluées en termes de qualité des signaux estimés par rapport à des méthodes de l'état de l'art. Nous avons aussi appliqué notre méthode de NMF convoluée pour faire de la transcription ainsi que de la synthèse de batterie par tables d'ondes.


Page maintenue par le webmaster - 12 mai 2017
© Télécom ParisTech/IDS 2017