|
|
La reconnaissance de l'écriture manuscrite est aujourd'hui un domaine de recherche très actif et le spectre de ses applications est très large. L'objectif de cette thèse est d'élaborer un système de reconnaissance de mots manuscrits pouvant être appris et appliqué sur différents styles d'écriture.
L'approche utilisée est une approche analytique : les mots sont découpés en sous-parties (caractères ou graphèmes) à modéliser. Le découpage est effectué de manière implicite par l'utilisation de fenêtres glissantes. Celles-ci permettent de transformer les images de mots en séquences. La méthode choisie pour apprendre les modèles de caractères utilise les modèles de Markov cachés (HMMs), qui sont à ce jour l'un des outils les plus puissants pour la modélisation de séquences. Chaque caractère est représenté par un HMM de type Bakis, ce qui permet d'absorber les variations d'écriture entre scripteurs. Les mots sont reconstruits ensuite par concaténation des modèles qui les composent.
Dans cette thèse, le choix est fait de chercher à améliorer la modélisation HMM de caractères en agissant au coeur même des modèles. A cette fin, une nouvelle approche est proposée, qui utilise l'aspect contextuel pour la modélisation : un caractère est modélisé en fonction de son contexte (le caractère précédent et le caractère suivant) et son modèle est nommé trigraphe.
La prise en compte de l'environnement d'un caractère pour sa modélisation permet de construire des modèles plus précis et plus performants. Cependant, elle implique une multiplication des paramètres HMMs à apprendre sur un nombre souvent restreint de données d'observation. Une méthode originale de regroupement de paramètres est proposée dans ces travaux : le clustering d'états par position à l'aide d'arbres binaires de décision. Ce type de clustering, inédit dans les systèmes de reconnaissance de l'écriture, a l'avantage non seulement de réduire le nombre de paramètres mais aussi de permettre au système de conserver l'un des principaux attraits des HMMs : l'utilisation d'un lexique de décodage indépendant du vocabulaire d'apprentissage.
L'amélioration apportée par la modélisation en contexte est montrée sur trois langues et deux types d'écriture différents : le français, l'anglais et l'arabe.
|
Page maintenue par
le webmaster
- 24 novembre 2011
© Télécom ParisTech/TSI 1998-2010
|