TSI
Évènements
Soutenance de thèse de Loïs Rigouste
Mardi 7 Novembre à 10H00, Amphi B312
Télécom Paris - 46, rue Barrault - 75013 Paris

Méthodes probabilistes pour l'analyse exploratoire de données textuelles

Auteur
Loïs Rigouste
Date
Mardi 7 Novembre à 10H00
Lieu
Télécom Paris, Barrault, Amphi B312
Directeur de thèse
Membres du jury
Rapporteurs
  • Michèle Sebag (Université Paris Sud, LRI)
  • Éric Gaussier (Université Joseph Fourier Grenoble I, CLIPS)
Examinateurs
  • Ludovic Lebart (Télécom Paris, département SES)
  • Christian Robert (Université Paris Dauphine, CREST)
  • Fabrice Clérot (France Télécom R&D Lannion, équipe TSI)

Résumé

Nous abordons le problème de la classification non supervisée de documents par des méthodes probabilistes. Notre étude se concentre en particulier sur le modèle de mélange de lois multinomiales avec variables latentes thématiques au niveau des documents.

La construction de groupes de documents thématiquement homogènes est une des technologies de base de la fouille de texte, et trouve de multiples applications, aussi bien en recherche documentaire qu'en catégorisation de documents, ou encore pour le suivi de thèmes et la construction de résumés. Diverses propositions récentes ont été faites de modèles probabilistes permettant de construire de tels regroupements. Les modèles de classification probabilistes ont l'avantage de pouvoir également être vus comme des outils permettant de construire des représentations numériques synthétiques des informations contenues dans le document. Ces modèles, qui offrent des facilités pour la généralisation et l'interprétation des résultats, posent toutefois des problèmes d'estimation difficiles, qui sont dûs en particulier à la très grande dimensionalité du vocabulaire.

Notre contribution à cette famille de travaux est double : nous présentons d'une part plusieurs algorithmes d'inférence, certains originaux, pour l'estimation du modèle de mélange de multinomiales ; nous présentons également une étude systématique des performances de ces algorithmes, fournissant ainsi de nouveaux outils méthodologiques pour mesurer les performances des outils de classification non supervisée. Les bons résultats obtenus par rapport à d'autres algorithmes classiques illustrent, à notre avis, la pertinence de ce modèle de mélange simple pour les corpus regroupant essentiellement des documents monothématiques.


Page maintenue par le webmaster - 3 février 2010
© Télécom ParisTech/TSI 1998-2010