TSI
Évènements
Soutenance de thèse de Romain Hennequin
Lundi 21 novembre à 15H00, Amphi B310
Télécom ParisTech -- 46, rue Barrault -- 75013 Paris

Décomposition de spectrogrammes musicaux informée par des modèles de synthèse spectrale

Auteur
Romain Hennequin.
Date
Lundi 21 novembre 2011 à 15H00.
Lieu
Télécom ParisTech -- Site Barrault -- Amphi B310.
Directeur(s) de thèse
Membres du jury
Rapporteurs
  • Bruno Torrésani (LATP, Marseille),
  • Laurent Daudet (Institut Langevin / Université Paris Diderot).
Examinateurs
  • Éric Moulines (Télécom PariTech),
  • Paris Smaragdis (University of Illinois at Urbana-Champaign),
  • Arshia Cont (IRCAM, Paris).

résumé

Le principal objectif de cette thèse est de proposer des méthodes de décomposition de spectrogrammes de signaux musicaux reposant sur les redondances qui y sont naturellement présentes et sur lesquelles s'appuie tout auditeur pour comprendre et analyser ces signaux.

Les décompositions proposées sont issues des méthodes de factorisation non-négative telles que la factorisation en matrices non négatives (NMF). La NMF, puissante technique de réduction de rang de données non-négatives très utilisée pour décomposer des spectrogrammes musicaux, est réputée pour fournir une décomposition sur un petit nombre de motifs fréquentiels automatiquement extraits des données, qui ont généralement un sens perceptif.

La NMF ne permet cependant pas de modéliser de façon efficace certaines variations temporelles d'éléments sonores non-stationnaires communément rencontrées dans la musique. Cette thèse propose donc d'introduire des modèles génératifs de spectrogrammes musicaux basés sur des modèles simples et classiques de synthèse sonore (synthèse source/filtre, synthèse additive et synthèse par table d'onde) afin de pouvoir prendre en compte de telles variations.

Cette thèse se concentre sur deux types de variations courantes : d'une part, les variations d'enveloppe spectrale que l'on rencontre par exemple dans les sons d'instruments à cordes métalliques libres ou dans les sons modulés par la bouche (comme la voix chantée), d'autre part, les variations de fréquence fondamentale rencontrées par exemple dans des phénomènes tel que le vibrato ou la prosodie.

L'introduction de modèles de synthèse simples dans les méthodes de factorisation permet de proposer des décompositions capables de prendre en compte ces variations : l'utilisation d'un modèle de synthèse source/filtre permet de modéliser les variations spectrales de certains objets musicaux au cours du temps. L'introduction d'un modèle d'atomes harmoniques paramétriques inspiré de la synthèse additive permet de modéliser les variations de fréquence fondamentale. Cette première méthode manquant de robustesse, une seconde piste a été explorée : il s'agit d'un modèle inspiré de la synthèse par table d'onde qui utilise des transformations d'un unique atome de base afin de recréer toute la tessiture de chaque instrument.

Cette thèse propose ainsi de nouvelles méthodes de décomposition des spectrogrammes musicaux qui permettent d'obtenir une représentation intermédiaire en atomes sonores pouvant être utilisée pour diverses applications. Une application de séparation de sources informée par la partition musicale ainsi qu'une application de modification de notes isolées dans un mélange polyphonique sont ainsi présentées à la fin de ce mémoire.


Page maintenue par le webmaster - 10 novembre 2011
© Télécom ParisTech/TSI 1998-2010