TSI
Évènements
Soutenance de thèse de Ramy Al Hajj
Lundi 9 Juillet à 14H15, Amphi B312
Télécom Paris - 46, rue Barrault - 75013 Paris

Reconnaissance hors ligne de textes manuscrits cursifs
par l'utilisation de systèmes hybrides et de techniques d’apprentissage automatique

Auteur
Ramy Al Hajj
Date
Lundi 9 Juillet 2007 à 14H15
Lieu
Télécom Paris, Barrault, Amphi B312
Directeur de thèse
Membres du jury
Rapporteurs
  • Nicole Vincent (Université René Descartes, Paris 5),
  • Laurent Heutte (Université de Rouen).
Examinateurs
  • Volker Märgner (Université Technique de Braunschweig / IFN - Allemagne),
  • Alain Maruani (GET-ENST- Paris).

Résumé

Cette thèse se déroule dans le cadre d'une étude sur la reconnaissance automatique et hors ligne des textes manuscrits cursifs par l’utilisation de systèmes hybrides et de techniques d’apprentissage automatique. Cette étude est menée par l'ENST d'une part et l’Université de Balamand (Liban) d'autre part.

La reconnaissance automatique hors ligne des textes écrits, outre ses applications administratives de production des documents numériques, révèle la possibilité d’assurer l’amélioration de l’interaction entre l'homme et la machine dans beaucoup d'applications notamment la bureautique et les tâches de traitement automatique de documents telles que le tri automatique du courrier, l'enregistrement et la vérification des chèques bancaires. Actuellement, la reconnaissance hors ligne des textes manuscrits cursifs écrits en arabe, reste toujours un problème ouvert. Ceci est dû aux difficultés inévitables auxquelles sont confrontés les auteurs des systèmes de reconnaissance automatique, telles que la normalisation de l’écriture, la segmentation des mots en éléments de base ainsi que la modélisation de ces éléments. Concevoir un système pour la reconnaissance automatique hors ligne des textes manuscrits est l’objectif des travaux de recherche de cette thèse.

L’approche proposée est de type analytique, sans segmentation explicite des mots en ses caractères constituants, et est basée sur une modélisation stochastique de type MMC (Modèles de Markov Cachés). La méthode adoptée est à deux étapes : une étape de reconnaissance dans laquelle différents types de caractéristiques sont examinés, et une étape de combinaison des classifieurs en post-traitement dans laquelle différentes techniques de combinaisons parallèles sont appliquées (méthodes de vote, combinaison par réseau de neurones MLP). Les classifieurs combinés en post-traitement prennent en considération les inclinaisons, les positions non précises des marques diacritiques et les chevauchements pouvant exister dans l’écriture manuscrite.

Le système proposé a montré une bonne performance par rapport au système de référence à l’état de l’art.


Page maintenue par le webmaster - 3 février 2010
© Télécom ParisTech/TSI 1998-2010