TSI
Évènements
Soutenance de thèse de Marc Boullé
Ludi 24 Septembre à 13H00, Amphi B310
ENST -- 46, rue Barrault -- 75013 Paris

Recherche d'une représentation des données efficace
pour la fouille des grandes bases de données

Auteur
Marc Boullé
Date
Lundi 24 Septembre 2007 à 13H00
Lieu
ENST, Barrault, Amphi B310
Directeur de thèse
Co-encadrant
Membres du jury
Rapporteurs
  • Isabelle Guyon (Société ClopiNet),
  • Christian Robert (Ceremade - Université Paris-Dauphine)
Examinateurs
  • Michèle Sebag (LRI - Université Paris Sud),
  • Djamel Zighed (ERIC - Université Lumière Lyon 2)

Résumé

La phase de préraparation du processus de fouille des données consiste à rechercher une représentation efficace pour la modélisation des dépendances entre données. Cette phase est critique pour la qualité des résultats et consomme typiquement de l'ordre de 80% d'une étude. Dans cette thèse, nous nous intéressons à l'évaluation automatique d'une représentation, en vue de l'automatisation de la préparation des données.

A cette fin, nous introduisons une famille de modèles non paramétriques pour l'estimation de densité, baptisés modèles en grilles. Chaque variable étant partitionnée en intervalles ou groupes de valeurs selon sa nature numérique ou catégorielle, l'espace complet des données est partitionné en une grille de cellules résultant du produit cartésien de ces partitions univariées. On recherche alors un modèle où l'estimation de densité est constante sur chaque cellule de la grille.

Du fait de leur très grande expressivité, les modèles en grille sont difficiles à régulariser et à optimiser. Nous avons exploité une technique de sélection de modèles selon une approche Bayesienne, avec la spécification d'une distribution a priori des modèles en grille guidée par le principe de description de longueur minimale. On aboutit alors à une évaluation analytique de la probabilité a posteriori des modèles. Nous avons introduit des algorithmes d'optimisation exploitant les propriétés de notre critère d'évaluation et la faible densité des données dans les espaces de grande dimension. Ces algorithmes ont une complexité algorithmique garantie, linéaire en nombre d'individus en mémoire et super-linéaire en temps.

Nous avons évalué les modèles en grilles dans de nombreux contexte de l'analyse de données, pour la classification supervisée, la régression, le clustering ou le coclustering. Les résultats démontrent la validité de l'approche, qui permet automatiquement et efficacement de détecter des informations fines et fiables utiles en préparation des données.


Page maintenue par le webmaster - 3 février 2010
© Télécom ParisTech/TSI 1998-2010