IDS
Évènements
Soutenance de thèse de Simon Durand
Jeudi 11 mai à 15H00, Amphi B312
Télécom ParisTech -- 46, rue Barrault -- 75013 Paris

Estimation automatique des premiers temps dans un signal audio musical

Auteur
Simon Durand.
Date
Jeudi 11 mai 2017 à 15H00.
Lieu
Télécom ParisTech -- Site Barrault -- Amphi B312.
Directeur(s) de thèse
Membres du jury
Rapporteurs
  • Xavier Serra, Associate Professor, Director UPF (Université Pompeu Fabra),
  • Emmanuel Vincent, Directeur de recherche (INRIA, Inria Nancy - Grand Est - LORIA).
Examinateurs
  • Myriam Desainte-Catherine, Professeur (LaBRI, Université de Bordeaux),
  • Geoffroy Peeters, Directeur de recherche (IRCAM).
Invité
  • Juan Pablo Bello, Associate Professor (Université de New York).

Résumé

Dans le domaine de l'extraction d'informations musicales, l'estimation de la structure métrique d'un enregistrement audio tient une place importante, avec de nombreuses applications dans la transcription musicale automatique, la reconnaissance de genre ou la segmentation automatique. Dans ce document, nous nous intéressons à la détection des premiers temps dans un enregistrement audio : comment estimer la position du premier temps de la mesure? Si ce sujet a obtenu une attention particulière récemment, les approches proposées rencontrent encore plusieurs difficultés : comment construire un système capable d'être adapté à divers genres musicaux? Comment prendre en compte les changements de la métrique à l'intérieur d'un morceau? Comment intégrer l'aspect haut-niveau, multifactoriel et intégré de la perception humaine des premiers temps?

Dans ce travail, nous présentons deux systèmes pour répondre à ces questions. Ils tirent profit de points de vue computationnels et musicaux. Plus précisément, nous prenons en compte plusieurs modalités musicales comme le rythme, la mélodie, l'harmonie, les basses et le timbre pour obtenir une représentation riche, diverse et robuste. Tandis que le premier système utilise des transformations heuristiques de descripteurs bas-niveau et des hypothèses métriques fortes, nous relâchons ces contraintes avec le second système basé sur l'apprentissage profond. Cette seconde approche se situe à l'intersection de l'ingénierie et de l'apprentissage pour obtenir un bon compromis entre robustesse, puissance de calcul nécessaire et quantité d'exemples d'apprentissage disponibles. Nos réseaux profonds sont capables d'apprendre des représentations haut-niveau dédiées à des propriétés musicales spécifiques, en étant construits pour être adaptés aux caractéristiques propres des entrées. La représentation multiple venant des réseaux est combinée à l'aide d'un modèle de Markov caché heuristique ou d'un champ conditionnel aléatoire appris sur les données. L'estimation obtenue est optimisée sur toute la séquence de premier temps en une fois.

Les deux systèmes et leurs variantes sont évalués sur un vaste ensemble de 12 bases de données et comparés à 7 algorithmes publiés issus de l'état de l'art. Tandis que notre approche "déterministe" se hisse au niveau d'un système d'apprentissage profond sur les morceaux entiers, les résultats montrent que notre système par apprentissage est plus performant que l'état de l'art. Nous effectuons alors une analyse en détail des forces et faiblesses de nos systèmes. Elle révèle en particulier l'utilité d'inclure un modèle temporel et de considérer plusieurs représentations bas-niveau. Les architectures d'apprentissage profond semblent robustes face à des segmentations préalables et des styles musicaux variés. Elles semblent également pouvoir s'adapter à des genres musicaux nouveaux en utilisant seulement quelques exemples d'apprentissage appropriés. Finalement, nous trouvons que les champs aléatoires conditionnels sont utiles à estimer le niveau bon métrique.


Page maintenue par le webmaster - 9 mai 2017
© Télécom ParisTech/IDS 2017