TSI
Évènements
Soutenance de thèse de Abdeldjalil Aissa El Bey
Vendredi 6 Juillet à 14H00, Amphi B312
Télécom Paris - 46, rue Barrault - 75013 Paris

Séparation aveugle de sources audio

Auteur
Abdeldjalil Aissa El Bey
Date
Vendredi 6 Juillet 2007 à 14H00
Lieu
Télécom Paris, Barrault, Amphi B312
Directeur de thèse
Membres du jury
Rapporteurs
  • Pierre Comon (Université Nice Sophia-Antipolis),
  • Christian Jutten (Institut national polytechnique de Grenoble, INPG).
Examinateurs
  • Yannick Deville (Université Paul Sabatier, Toulouse 3),
  • Claude Marro (France Télécom R&D Lannion).

Résumé

Cette thèse se déroule dans le cadre d'une étude sur la séparation de sources audio dans un milieu réverbérant. Cette étude est menée par l'ENST d'une part et FTR&D (Lannion) d'autre part.

Dans le cadre de notre étude nous avons montré comment effectuer la séparation de sources audio en utilisant une méthode basée sur des algorithmes de décomposition modale (EMD ou ESPRIT). Les avantages de cette approche résident dans le fait qu'elle permet de traiter le cas des mélanges instantanés et convolutifs, et elle nous permet en particulier, de traiter le cas sous-déterminé. Cette approche se base sur le fait que les signaux audio (et particulièrement les signaux musicaux) peuvent être bien modélisés localement par une somme de signaux périodiques. Ces signaux seront donc décomposés en utilisant les algorithmes de décomposition modale et recombinés par classification suivant leurs directions spatiales regroupant ainsi les composantes de chacune des sources. Cette méthode peut être utilisée dans le cas du mélange convolutif sur-déterminé, en lui conjuguant une décomposition en valeurs et vecteurs propres et un critère de parcimonie approprié.

Toujours dans le cadre de cette thèse, nous avons montré comment effectuer la séparation de mélange instantané de sources audio dans le cas sous-déterminé en utilisant la propriété de parcimonie des signaux audio dans le domaine temps-fréquence. Nous proposons deux méthodes utilisant différentes transformées dans le domaine temps-fréquence. La première utilise les distributions temps-fréquence quadratiques DTFQ (ou STFD pour "Spatial Time Frequency Distribution"), la deuxième utilise la transformée de Fourier à court terme TFCT (ou STFT pour "Short Time Fourier Transform"). Ces deux méthodes supposent que les sources sont disjointes dans le domaine temps-fréquence ; c'est à dire qu'une seule source est présente dans chaque point temps-fréquence. Nous proposons ensuite de relâcher cette contrainte on supposant que les sources ne sont pas forcément disjointes dans le domaine temps-fréquence. En particulier, le nombre de sources présentent en un point temps-fréquence doit être strictement inférieur au nombre de capteur. Pour effectuer la séparation dans ce cas de figure, on utilise la projection en sous-espace qui permet d'identifier les sources présentent dans chaque point temps-fréquence et de déterminer la valeur correspondante à chaque source. Une contribution sous-jacente est celle d'une nouvelle méthode d'estimation de la matrice de mélange dans le cas sous-déterminé.

Dans le même esprit, nous avons introduit une approche basée sur la transformation dans le domaine temps-fréquence pour résoudre le problème de séparation de mélange convolutif de sources audio dans le cas sous-déterminé. Cette approche nécessite une pré estimation du canal de mélange qui sera réalisée en exploitant la propriété de parcimonie temporelle des signaux audio et la structure des canaux acoustiques.

Nous avons exploité aussi la propriété de parcimonie des signaux audio dans le domaine temporel. Nous avons proposé une méthode itérative utilisant une technique du gradient relatif qui minimise une fonction de contraste basée sur la norme Lp. Cette norme pour p < 2 (ou même p < 1) est considérée comme une bonne mesure de parcimonie. Les simulations prouvent que la méthode proposée surpasse d'autres méthodes basées sur l'indépendance de source.

Pour Finir, nous nous sommes intéressés à une méthode itérative de séparation de sources utilisant les statistiques d'ordre deux (SOS pour Second Ordre Statistics). Les statistiques d'ordre deux des données observées s'avèrent suffisantes pour séparer des sources mutuellement non corrélées à condition que les vecteurs de corrélation temporelles des sources considérés soient linéairement indépendants par paires. En appliquant une technique de gradient naturel, on déduit un algorithme itératif qui possède un certain nombre de propriétés attrayantes, comme sa simplicité et sa généralisation aux cas adaptatifs ou convolutifs. Nous proposons aussi une analyse de performances asymptotique de cet algorithme qui sera validée par plusieurs simulations.


Page maintenue par le webmaster - 3 février 2010
© Télécom ParisTech/TSI 1998-2010