DE LA SEGMENTATION D'IMAGES
DETERMINATION DE REGIONS PAR TRAITEMENT
D'HISTOGRAMMES
METHODE D'OHLANDER, PRICE ET
REDDY
1)GENERALITES
Lorsqu'on dispose d'une image, on souhaite généralement distinguer des
objets d'intérêt, c'est-à-dire trouver des caractéristiques locales
adéquares permettant de les distinguer d'autres objets ou du fond.
L'étape suivante consite à tester chaque bit pour voir s'il appartient
ou non à un objet d'intérêt. Cette opération est appelée segmentation
et produit une image binaire. Un pixel a la valeur un s'il appartient à
l'objet, et zéro sinon. La segmentation est l'opération entre le
traitement d'image de bas niveau et l'analyse d'image. Après la
segmentation, on sait quel pixel appartient à quel objet. L'image est
divisée en régions et sont connues les discontinuités comme les
frontières entre les régions. Après la segmentation, on peut aussi
analyser la forme des objets par divers opérateurs morphologiques.
Il y a plusieurs types de segmentation élémentaire, correspondant à
différents concepts élémentaires. Les méthodes basées sur les pixels
utilisent seulement les valeurs des niveaux de gris des pixels
individuels. Les méthodes basées sur les régions utilisent les valeurs
des niveaux de gris sur des aires plus grandes. Finalement, les
méthodes basées sur les bords détectent les bords et essaient de les
suivre.
La limite commune à toutes ces approches est qu'elles sont basées
uniquement sur de l'information locale. Et de plus, elles l'utilisent de
façon partielle. Les méthodes basées sur les pixels ne considèrent
même pas le voisinage local. Les méthodes basées sur les bords
recherchent seulement les discontinuités, tandis que les méthodes
basées sur les régions analysent des régions homogènes. Dans des
situations pour lesquelles on a connaissance de la forme géométrique
d'un objet, un segmentation à base de modèle peut être appliquée. Une
approche de la transformée de Hough travaille directement à partir
d'images en niveaux de gris.
2)HISTOIRE, GESTALT, POUR MIEUX Y VOIR
La théorie de la Gestalt propose diverses lois d'organisation.
Les regroupements se font suivant divers critères, contre lesquels il
est difficile, voire généralement impossible, d'aller.
La proximité, couleur, brillance
La connexité
La largeur constante
La bonne continuité
La similarité
Le mouvement commun
La fermeture
La taille relative
Les objets les plus gros ont tendance à être vus,
ou si l'on préfère, on a tendance à les voir, plus proches que les plus
petits, c'est pourquoi par exemple on peut voir les branches de sapin
comme essentiellement fuyantes par rapport au tronc.
L'environnement
L'orientation
La symétrie
Les lois de goupement sont récursives. Selon le principe d'Helmholtz, les objets sont vus comme indépendants seulement si leurs positions relatives sont génériques, arbitraires. Ainsi, on aura du mal pour considérer des points alignés comme indépendants, dans certains contextes de discernabilité, i.e. s'ils sont vus alignés. L'articulation sans reste correspond à une explication globale de l'image, de toute l'image. Les parties peuvent hériter des propriétés du tout. Il y a une autonomie du voir par rapport au penser, ainsi a-t-on des illusions. Il y a parfois conflits ou collaborations entre lois.
Selon les psychologues de la Gestalt, l'application de ces règles se
fait selon la loi de Pragnanz, introduite par Wertheimer, et présentée
ainsi par Koffka (1935):
Parmi plusieurs organisations géométriques possibles, celle qui sera
effectivemnet considérée est celle qui débouche sur la forme la
meilleure, la plus simple et la plus stable.
Ainsi, un ensemble de quatre points positionnés de telle sorte qu'ils
constituent les quatre coins d'un carré sera vu comme un carré puisque
c'est un meilleur arrangement que, par exemple, une croix ou un
triangle avec un point extérieur. Le carré est une forme fermée,
symétrique, qui selon les Gestaltistes était la plus stable.
Il y a une loi du destin commun, appliquée par exemple pour un oiseau américain qui oscille comme les feuilles parmi lesquelles il se trouve.
Il y a un groupage pyramidal:
identification des objets solides
objets similaires, classification, objets non locaux
reconstruction du relief
resolution des problemes figure-fond.
Pour les Gestaltistes, ceci se combinait à un déterminant majeur de
l'organisation de la perception, une sorte de champ de forces, opérant
à l'intérieur du cerveau. Ils ont avancé une Doctrine de
l'Isomorphisme, selon laquelle, sous-jacent à toute expérience
sensorielle, il y a dans le cerveau un événement structurellement
similaire à cette expérience. Ainsi, quand on perçoit un cercle, une
trace circulaire est établie, et ainsi de suite. Les champs de forces
étaient sensés opérer de façon à générer une sortie aussi stable que
possible, de même que les forces opérant sur une bulle de savon sont
telles que son état le plus stable est une sphère.
Aucune mise en
évidence de tels champs de force n'a eu lieu, et les théories
physiologiques de la Gestalt ont été abandonnées, nous laissant un
ensemble de principes descriptifs, mais sans modèle du processus de
perception. Aujourd'hui, quelques unes de leurs lois d'organisation de
la perception semblent vagues et inadéquates. Par exemple, que faut-il
entendre par bonne et simple forme? Des tentatives ont pour but de
formaliser quelques uns de ces principes.
Cependant, certaines lois descriptives sont vérifiées, parfois avec
des controverses et notamment mises en oeuvre pour le camouflage,
rendant notamment difficile l'exploitation d'images satellitaires. On utilise le masquage, et le fond n'a pas de forme. Le traitement variationnel démasque, mais on trouve sans certitude, c'est le problème pour les images satellitaires.
3)SEGMENTATION

Il y a une dualité régions-contours, qui est assez acceptable théoriquement, mais dont l'implémentation n'est pas évidente.
La croyance des neurophysiologistes et psychologues que distinguer les
personnages et l'environnement, les objets et le fond, constituait un
des problèmes fondamentaux de la vision s'est retrouvée dans les
attentes des gens qui ont travaillé en vision computationnelle pour
implémenter un processus appelé segmentation. Le but de ce
processus correspondait à l'idée de séparer les personnages de
l'environnement, l'idée étant de diviser l'image en régions qui
auraient un sens, soit pour la manipulation envisagée, qui par exemple
dans le cadre de la vision computationnelle pourrait correspondre à la
construction d'une pompe à eau, soit pour leurs correspondances avec
des objets physiques ou avec des parties d'objets physiques.
Pendant longtemps, malgré des efforts
considérables, la théorie et la pratique de la segmentation sont
restées relativement primitives, et ce pour deux raisons. Tout
d'abord, venait la difficulté de formuler clairement en termes
d'image, ou même de monde physique, quels étaient les buts exacts de
la segmentation. Par exemple, qu'est-ce qu'un objet, et qu'est-ce qui
en fait une chose si spéciale pour correspondre à une région d'une
image? Un nez est-il un objet? Une tête en est-elle un? En
constitue-t-elle toujours un si elle est attachée à un corps? Que dire
d'un homme à dos de cheval? Ces questions ne sont toujours pas
nettement tranchées aujourd'hui.
Ces questions montrent que les difficultés rencontrées à essayer
de formuler ce qui devrait être considéré comme une région d'une image
sont si importantes qu'elles débouchent presque sur des problèmes
philosophiques. Il n'y a pas vraiment de réponse à ces questions,
toutes ces choses peuvent être des objets si l'on pense à elles en tant
que telles, ou peuvent être une partie d'un objet plus grand. En
outre, le qu'il soit répondu à ces questions dans une situation donnée
n'aide pas beaucoup à résoudre le problème dans d'autres
situations. Les gens ont rapidement trouvé la structure d'images comme
étant si compliquée qu'il était presque impossible de retrouver les
régions désirées en utilisant seulement des critères de groupement
basés sur la similarité locale ou d'autres aspects visuels primitifs
qui agissent sur les intensités de l'image. Des régions qui ont une
importance sémantique n'ont pas toujours une distinction
visuelle particulière.
La plupart des images sont trop complexes,
et même les plus simples, plus petites images comme une image
représentant seulement deux feuilles, souvent ne contiennent pas assez
d'information dans les tableaux d'intensité pure pour les segmenter en
différents objets. Malgré le manque de formulation précise sur sa
signification, la segmentation a été explorée par des techniques de
complexité croissante. Pendant longtemps, la perception visuelle a été
considérée comme analogue à la résolution de problèmes, et devait
alors inclure le test et la modification d'hypothèses au sujet de
l'objet vu, observé. Cette idée était répandue en vision
computationnelle (cf Minsky, 1975) et a eu sa contrepartie en
psychologie de la vision (cf Gregory, 1970). La différence critique
entre cette approche et l'utilisation de contraintes actuellement
envisagée, est que, dans l'approche résolution de problèmes, la
connaissance additionnelle ou hypothèse, n'est pas générale mais
particulière, et vraie seulement pour la scène en question et d'autres
du même type. Au lieu d'utiliser la rigidité, on fait des inférences
du type: un bloc noir au niveau du bureau a une forte probabilité
d'être un téléphone.
Naturellement, à cause de leur spécificité,
tous les systèmes de vision très généraux doivent commander un très
grand nombre de telles hypothèses et doivent être capables de trouver
et mettre en application celle ou celles, de l'ordre de 2, qui
correspondent à la situation particulière. Ceci correspond à tout un
pan complexe du problème de la vision, dans lequel les principales
questions concernent la façon de prendre en compte un très grand
nombre d'informations de manière efficace, et de plus très rapidement
(120ms est un temps souvent considéré). C'est pourquoi de si nombreux
efforts ont été déployés pour la conception de programmes interactifs
efficaces pour simuler la connaissance visuelle. Incidemment, pour ce
genre de raison, les gens d'autres domaines de l'intelligence
artificielle considèrent le problème du coordination comme un problème
important.
Alors, on a attaché de l'importance à la connaissance
spécifique sur la nature de la scène observée pour aider à la
segmentation de l'image en régions qui correspondent en gros aux
objets attendus dans la scène. Tenenbaum et Barrow (1976), par exemple,
ont appliqué la connaissance relative à quelques différents types de
scènes à la segmentation d'images de paysages, un bureau, une chambre
et un compresseur. Freuder (1974) a utilisé le même type d'approche
pour identifier un marteau dans une scène simple. Si cette approche
avait été correcte, alors un problème central de la vision aurait été
résolu, avec la disponibilité du bon élément de connaissance
spécifique au bon moment pendant la segmentation. Un peu plus tard, la
technique de relaxation de contrainte de Rosenfeld, Hummel et Zucker
(1976) attira l'attention précisément pour cette raison, apparaissant
comme une technique avec des containtes provenant de diverses sources
pouvant être appliquées au problème de segmentation, tout en faisant
les processus interactifs nécessaires à la gestion de l'information
seulement un peu plus complexes.
Du point de vue de la vision
humaine, les objets et les régions souhaitables ne sont presque jamais
directement identifiables et nécessitent des connaissances
supplémentaires.
A cet égard, il est intéressant de noter que dans la perception d'une
image, seulement 20% de l'information vient de l'extérieur, de l'image
réellement observée, 80% de l'information vient en fait directement du
cerveau, de règles ou de connaissances acquises.
Ainsi les bords qui devraient être significatifs sont soit
effectivement absents d'une image, soit non discernables en tant que
tels. De plus, les plus fortes variations au sein d'une image sont
souvent dues à des changements d'illumination et n'ont rien à voir
avec les relations significatives de la scène. Les principaux facteurs
qui déterminent les valeurs d'intensité dans une image sont notamment
l'illumination, la géométrie de la surface, la réflectance de la
surface. Ces divers éléments sont notamment utilisés pour la
conception d'équipements, plus ou moins, furtifs. A un certain niveau,
les effets de ces différents éléments sont séparables.
L'oeil est capable de distinguer, pour un individu moyen, 2 millions de
couleurs environ, d'après des expériences menées en 1998. Pour établir
ce chiffre, des test de perception des couleurs ont été réalisés sur des dizaines de sujets placés devant des collections
d'échantillons peints ou face à des écrans d'ordinateur. Au départ, on
présente sur l'écran deux couleurs strictement identiques, puis la
personne qui réalise le test peut varier insensiblement, au moyen d'un
joystick, la couleur de l'un des eux échantillons. Dès qu'elle perçoit
une différence entre les deux, elle appuie sur un bouton.
Il
existe une unité de mesure pour quantifier les différences entre
couleurs. appelée CIELAB. Ce nom est dérivé de CIE, qui est le sigle
de la Commission Internationale de l'Eclairage, chargée d'établir les
normes en termes de couleurs. On admet que deux couleurs sont
discernables entre elles lorsqu'elles sont séparées par une unité
CIELAB. Cette unité est utilisée dans l'industrie textile ou par les
fabricants de colorants: 2 unités CIELAB doivent séparer 2 coloris,
qu'il s'agisse de tissus ou de peintures.
La perception des
couleurs par notre cerveau nécessite un jugement en trois dimensions:
une échelle qui va du clair au foncé, une qui va du vert au rouge, et
une troisième qui va du bleu au jaune. Chaque surface, chaque objet de
notre environnement, est jugé en permanence par le cerveau en fonction
de ces trois paramètres, gràce aux informations captées par les
récepteurs photosensibles de la rétine.
Exemple concret d'une
orange. Sa surface est tout à la fois plus claire que foncée, plus
rouge que verte, et tire nettement vers le jaune par rapport au
bleu. C'est le résultat de cette triple analyse qui permet au cerveau
de reconstituer la couleur orange. Ce sont d'ailleurs ces trois unités,
baptisées LAB, qui donnent la deuxième partie du sigle CIELAB.
Quant aux images en niveaux de gris, sur une image, on en distingue
environ vingt selon certains auteurs, et en mettre plus ne donne pas
d'information supplémentaire.
4)LE TRAITEMENT D'HISTOGRAMMES
L'histogramme d'une image est une fonction donnant, par exemple, le nombre de pixels à un niveau de gris particulier en fonction du niveau de gris. Un histogramme peut être vu comme une fonction de densité de probabilité discrète pour une image individuelle dans le sens suivant: chaque essai pour l'expérience de probabilité est la sélection d'un pixel au hasard à partir de l'image, et l'évènement mesuré est le niveau de gris du pixel choisi. Quand la fonction de densité de probabilité mesurée pour chaque niveau de gris est multipliée par le nombre de pixels dans l'image, les valeurs obtenues sont celles de l'histogramme.
L'histogramme ne contient aucune information relative à l'emplacement des pixels ni sur la proximité relative de deux pixels. Par contre, l'information qu'il contient peut concerner notamment la brillance apparente et le contraste d'une image, et il est utilisé en traitement d'images pour manipuler ces caractéristiques d'une image. Une fois que l'histogramme d'une image est connu, les niveaux de gris de l'image peuvent être manipulés pour changer l'histogramme de la manière souhaitée. On peut par exemple souhaiter améliorer le contraste, changer le niveau de brillance, ou faire correspondre l'histogramme à celui d'une autre image.
Toute technique de modification de niveau de gris, dont la
modification d'histogramme est un exemple, est basée sur la création
d'une correspondance ("mapping" en anglais) entre les niveaux de gris
de l'image originale et les niveaux de gris correspondant dans l'image
modifiée.
La méthode proposée par R. Ohlander, K. Price et D.R. Reddy est une
Segmentation d'image par une méthode récursive de division de
région.
La segmentation.
On rappelle que la segmentation d'images doit mettre en évidence des
segments qui correspondent à des objets, des parties d'objets ou des
groupes d'objets qui apparaissent dans une image. La segmentation
d'une image ne nécessite pas la génération de tous les segments
élémentaires présents dans cette image, mais peut impliquer la
génération de segmentations partielles ou l'affinement de
segmentations existantes, partielles. Il y a divers types de
procédures de segmentation d'image. On trouve notamment, la
segmentation de bords et de lignes orientées, des méthodes de
grossissement de régions, de classification, et de division de
région.
Différentes approches de segmentation
Il y a eu divers efforts pour l'analyse d'images, en
particulier de scènes avec des objets simples, par localisation des
bords et des lignes dans l'image. Les bords doivent
être rassemblés en segments de ligne, et ces segments de ligne doivent
être regroupés en objets. Généralement, de tels systèmes nécessitent
un modèle du monde bien défini, permettant de regrouper ces segments
en objets. Des problèmes peuvent survenir lorsque les bords ne sont
pas bien définis ou lorsqu'il y en a trop.
Le plus gros inconvénient pour les systèmes de segmentation par bord
ou ligne orientée, est que le système doit ensuite grouper les
segments de lignes en régions cohérentes pour des traitements
ultérieurs. Par contre, certaines caractéristiques, comme les lignes
d'une image, sont aisément décrites en terme de segmentation de ligne.
Un autre type de segmentation est constitué par le grossissement de
régions. Les programmes de grossissement de région divisent tout
d'abord l'image en régions de base, soit par critère de points
adjacents identiques soit en petites régions arbitraires. Dea régions
adjacentes sont regroupées en une région si elles sont similaires, le
critère de similarité dépendant du système considéré. Des problèmes
peuvent venir du choix des régions initiales, et du choix du critère
de regroupement. Ainsi, une image en cours de traitement ne contiendra
pas quelques régions nettes et dominantes, mais essentiellement
beaucoup de petites régions non regroupées.
Dans des applications limitées, l'analyse d'histogramme pour
déterminer des seuils a aussi été utilisée. L'histogramme est calculé
pour les valeurs d'intensité de l'image et analysé pour déterminer
l'établissement d'un seuil permettant de séparer un objet du
fond. Souvent les objets, cellules, chromosomes, .... sont tels qu'ils
ont des valeurs caractéristiques très différentes de celles du
fond. Ce type d'analyse est applicable dans des cas plus généraux
qu'initialement envisagé.
Plusieurs facteurs ont conduit à une méthode de segmentation de ce
type. De manière générale, la segmentation employée devrait dépendre
de l'objectif envisagé. Un système de segmentation doit être guidé par
les données, et doit donc répondre aux besoins du modèle du monde. Le
système de segmentation doit tout d'abord extaire les régions
dominantes ou les objets, et les utiliser ensuite pour structurer une
recherche ultérieure pour une segmentation finale. Ainsi, le système
doit-il être capable de générer des segmentations partielles ou moins
détaillées de l'image pour un traitement initial, tout en étant
capable de générer des segmentations détaillées de la même
image. Ainsi, une mêthode de segmentation qui soit la répétition de la
même procédure simple est-elle souhaitable, c'est-à-dire une
implémentation récursive. Finalement, pour beaucoup d'opérations, il
est souhaitable de décrire les segments comme des masques de bits, des
images binaires. Ces représentations peuvent être traitées pour
générer d'autres représentations comme les lignes, les contours, ...,
et peuvent être facilement utilisées pour l'extraction de
caractéristiques d'une région. Le masque de bit contient tous les
détails de la forme de la région qui pourraient être supprimés de
quelques représentations de la région avec des lignes.
Description de la méthode de division de région
Cette méthode de segmentation prend une région d'une image, et en
utilisant les histogrammes des valeurs des caractéristiques dans cette
région, détermine un seuil sur une caractéristique, afin de diviser la
région en sous-régions. Ces sous-régions sont ensuite elles-mêmes
segmentées si nécessaire.
Les caractéristiques considérées sont Rouge, Vert, Bleu, Intensité,
Teinte, Saturation, Y, I, Q.
1) Choisir une région dans l'image. Cette région est représentée par
un masque de bit qui limite la zone totale de l'image qui sera
analysée à une étape. Initialement, cette région choisie est l'image
entière.
2) Calculer les histogrammes pour toutes les caractéristiques de la
portion d'image qui est contenue dans la région. Lisser les valeurs
dans l'histogramme de manière à éliminer les petits pics, si
nécessaire. Ce lissage peut être rendu nécessaire par les effets de
quantification du traitement par ordinateur.
3) Choisir le meilleur pic dans l'ensemble des
histogrammes. Généralement, le meilleur pic correspond à un pic isolé,
c'est-à-dire un pic fort avec des minima très bien définis de part et d'autre.
Quand un tel pic ne peut être trouvé, la région est considérée comme
segmentée,au point de vue des caractéristiques disponibles.
Détermination du meilleur pic, priorités décroissantes.
i) Le pic d'intensité est entre 0-60 ou 200-255.
Le meilleur est le plus près de la fin.
ii) Les deux minima sont inférieurs à 10% de la plus grande valeur, et
le rapport max/min est supérieur à 4.
iii) Les deux minima sont inférieurs à 25% de la valeur de pic, et le
rapport max/min est supérieur à 4.
Il y a un autre pic, dont le
rapport max/min est supérieur à 2.
iv) Le rapport max/min est supérieur à 2.
Il y a un autre pic, dont le rapport max/min est supérieur à 2.
Si les maxima sont dans un écart de 10%, ils sont tous les deux
acceptables, on a une distribution bimodale.
v) (pour la saturation seulement)
Minima dans 0-200 (20% pour le plus bas)
Le rapport max/min est supérieur à 2.
Les minima spécifiés doivent séparer un pic avec le rapport max/min
supérieur à 1.2.
vi) Les minima sont inférieurs à 10% de la plus grande valeur.
10% de l'ensemble des points doivent se trouver en dehors du pic.
vii) Les minima sont inférieurs à 70% de la plus grande valeur.
Le rapport max/min est supérieur à 1.7.
4) Seuiller l'image, mais seulement la partie contenue dans la région
qui est en cours de segmentation, en utilisant les seuil supérieurs et
inférieurs obtenus à partir des limites supérieures et inférieures du
meilleur pic dans l'ensemble des histogrammes.
Ceci génère une image binaire pour laquelle les points entre les
seuils sont mis à 1, et les autres points sont mis à 0.
5) Affiner le masque binaire par lissage. Ceci a pour but d'éliminer
les trous dans les régions, les petites régions, ou les fines
connections entre régions. Dans les petites images, une seule
opération de lissage est nécessaire, mais pour les images plus
grandes, des opérations de contraction et d'expansion sont aussi
nécessaires. Ces opérations sont effectuées avec la procédure de
lissage, par changement du facteur d'arrondi. Le programme de lissage
remplace un point par la valeur moyenne dans son voisinnage. Mais, le
résultat étant un entier et la moyenne un réel non forcément entier,
le résultat final est la moyenne arrondie. Un lissage normal ajoute
0.5 comme facteur d'arrondi, la contraction moins de 0.5, et
l'expansion, plus de 0.5. L'ajustement du facteur d'arrondi a un sens
seulement dans le cas d'images binaires, le résultat étant alors 0 ou
1. Dans une fenêtre 3x3, un facteur d'arrondi de 0.9 signifie qu'un
point est mis à 1 si au moins un point de la fenêtre est à 1; un
facteur de 0.2 signifie qu'au moins 8 points doivent être à 1 (0.13
donnerait le même résultat).
6) Extraire les régions connexes dans l'image binaire seuillée et
lissée. Enlever l'aire couverte par ces régions de l'aire considérée
pour la segmentation. Un critère de taille peut être appliqué à cette
étape d'extraction afin de n'accepter que les régions de taille
utile. La taille utile dépend de l'utilisation finale des segments, de
la taille de l'image, ou du niveau de détail de la segmentation
désirée.
7) Sauvegarder ces régions et vérifier chaque région pour les
segmentations ultérieures.
8) Continuer la segmentation sur la partie restante de la région sur
laquelle vient de porter la segmentation. Arrêter la segmentation de
la partie restante lorsqu'elle contient trop peu de points.
Améliorations apportées à cette technique.
Le planning a été utilisé pour améliorer la vitesse de segmentation,
et des opérateurs simples de texture ont été utilisés pour permettre
l'application de la procédure de segmentation à des images
monochromatiques. La procédure de planning effectue la segmentation
d'images sur une version réduite de l'image et utilise cette
segmentation comme plan pour la segmentation finale de la totalité de
l'image. La segmentation pleine échelle peut être affinée afin
d'obtenir des régions plus détaillées. Ce planning améliore le temps
de segmentation d'un facteur 10 environ. Le plan est obtenu par la
procédure de segmentation décrite ci-dessus. Chaque région du plan est
étendue en une région dans l'image totale en appliquant à celle-ci le
même seuil que celui qui a été utilisé pour générer la région du
plan. L'aire à laquelle on applique ce seuil est limitée à l'aire
couverte par la région du plan, étendue par le facteur de
réduction. Pour permettre une faible rupture d'alignement, la région
du plan est préalablement légèrement élargie par la méthode de lissage
décrite ci-dessus.
5)IMAGES TRAITEES
5)IMAGES TRAITEES
Nous avons choisi, pour illustrer notre propos, soit comme
exemples, soit comme contre-exemples, les images suivantes, pour lesquelles nous présentons l'image originale et l'histogramme correspondant. Pour la dernière image, nous présentons également l'histogramme après deux itérations de la méthode.
greco/bagues.ima
/muscle.ima
/carrefour.ima
/grenoble.ima
/angiogra.ima
/bureau.ima
/crayons.ima
/echograp.ima
/fissures.ima
/irm.ima
/femme.ima
angiographie
1)
2)
Le pic entre les niveaux de gris 30 et 55, correspond au fond, partie la plus importante en nombre de pixels, sombre, or la partie a priori interessante pour ce genre d'image est la partie claire ici, et correspondant au nombre le plus faible de pixels, et ceux-ci ont des niveaux de gris differents. Passer en inverse ne ferait que provoquer une symetrisation du pic, par rapport au niveau de gris 127, mais ne changerait bien entendu rien quant a la proportion entre le nombre de pixels de la partie interessante et celui du fond.
La methode n'est pas adaptee a ce type de situation.
bagues
3)
4)
Il y a un pic entre 0 et 3, un plat entre 87 et 153, un plat entre 190 et 203. Parmi les zones d'interet, il n'y a pas de grande zone ayant les niveaux de gris compris dans un pic, trop etroit, et la methode n'est pas adaptee a ce genre de situation.
bureau
5)
6)
Il n'y a pas de pic vraiment dominant. On peut degager le cote du bureau qui est au premier plan, avec un niveau de gris moyen. La fenetre de gauche se degage mieux que celle de droite, du fait du voisinage des huisseries, donnant un contraste plus important a droite. On peut degager le siege et le dossier de la chaise, plus contrates en image binaire que dans l'image originale.
L'allure de l'histogramme ne permet pas d'appliquer la methode.
carrefour
7)
8)
Tous les pixels sont essentiellement rassembles sur un meme pic.
La texture de l'image est constituee de beaucoup de petites parties.
En haut a gauche de l'image, on detecte quelque chose qui ressemble a une partie de nom d'une vile japonaise.
Apres segmentation, on distingue essentiellement les fenetres, par leur eclairage, le reste des immeubles, le sol avec les passages sous l'immeuble du second plan par leur aspect sombre. Les arbres, lampadaires et trottoirs sont dans la meme gamme de niveaux de gris.
On peut degager la structure de l'immeuble du fond avec les fenetres, les fenetres en bas a droite de l'immeuble de gauche, la partie sol et souterrains, le reste (trottoir, arbres, ...) etant rassemble dans un meme niveau de gris, et donc indiscernable.
Ici la methode ne s'applique pas bien du fait de la texture de l'image, associee a l'allure de l'histogramme.
crayons
9)
10)
Il y a un pic, qui correspond au fond. En prenant les seuils correspondant aux minima de part et d'autre du pic, et en iterant l'operation, on arrive a distinguer en gros les objets d'interet, a savoir les crayons, particulierement celui de droite, dans la mesure ou l'image est essentiellement composee de deux crayons, du fond, et d'un objet derriere le crayon de gauche ayant a peu pres les memes niveaux de gris que celui-ci, c'est normal, d'autant plus que la partie conique du crayon de gauche est sombre. Les crayons sont notamment reconnaissables par l'impression de relief generee par l'image originale, et cette impression n'est pas rendue par la segmentation, qui donne neanmoins une forme de contour se detachant du fond.
echographie
11)
12)
L'histogramme est reparti sur une faible plage de niveaux de gris, il y a un pic pour les niveaux de gris bas, mais ceux-ci correspondent a la fois au fond et a l'objet d'interet, qui ne constitue pas une partie fermee, connexe, et donc lors de la segmentation, il n'y a pas distinction entre ces deux parties et donc la methode ne donne pas de resultat satisfaisant. Une methode de segmentation par contours, avec une recherche de fermeture des contours, ou une methode avec des snakes aurait probablement ete preferable.
fissures
13)
14)
L'histogramme est essentiellement compose d'un pic, correspondant au fond en grande partie et pour le maximum. Les fissures, objet d'interet, sont sombres et plutot etroites, bien distinguees par notre appareil visuel, mais difficiles a detecter par traitement informatique, pour lequel l'elimination de la tendance lumineuse peut aider. Ainsi, alors que l'on distingue dans l'image originale deux fissures, traversant l'image, apres segmentation on ne distingue que la partie la plus large, mal segmentee. Ici encore, l'objet d'interet est confondu avec le fond, de part les dimensions reduites ajoutees a un manque de contraste.
Le programme de traitement n'a pas une vision globale de l'image, meme si elle est toute en memoire, et les lois de la Gestalt, qui nous aide ici, lui sont etrangeres!
grenoble
15)
16)
L'histogramme est reparti sur la plage entiere des niveaux de gris, et ne presente pas de pic accentue, mais plutot un pic tronque avec en consequence un sommet large et relativement plat. Celui-ci correspond aux faibles niveaux de gris, et aux grandes regions plutot sombres et uniformes de l'image, situees dans les coins superieurs, correspondant probablement a des espaces verts, sportifs, voire aux installations du CEA. Pour certains ces zones peuvent etre interessantes mais ne sont pas caracteristique d'une zone urbaine!
La zone construite est constituee de nombreuses petites parties de niveaux de gris moyens et clairs, de valeurs pas tres contrastees, chacune representant un nombre a peu pres equivalent de pixels. Ainsi, la texture en petites regions et l'allure de l'histogramme ne permettent pas d'obtenir une segmentation du tissu urbain telle qu'on pourrait la souhaiter.
irm
17)
18)
L'histogramme presente un pic prononce pour les niveaux sombres, qui correspondent a la fois au fond et a des parties d'objet interessantes. Le choix des seuils correspondant a ce pic, avec des iterations, donne avec application de cette methode, une segmentation satisfaisante, presque totale, de l'image originale, qui comporte peu de niveaux de gris, repartis dans des zones connexes, pas trop reduites.
muscle
19)
20)
L'histogramme, correspondant a une large plage de valeurs de niveaux de gris, presente trois pics, celui de droite correspondant au fond, donnant peu d'information, mais qui peut etre interessante pour certains traitements, celui de gauche correspond aux cellules sombres, peu nombreuses, et le large pic central correspond aux autres cellules, grises et majoritaires. Une premiere intuition peut etre de vouloir traiter prioritairement le pic de gauche, correspondant aux cellules sombres, en iterant. Ce traitement donne en effet une segmentation satisfaisante ... quant aux cellules sombres, obtenues presque toutes, et seulement celles-ci.
Par contre, si l'on commence par seuiller relativement au pic central, entre les niveaux de gris 100 et 200, et en iterant, on obtient pratiquement l'ensemble des cellules correspondant au gris, et de plus si lorsque l'histogramme correspondant a ce qu'il reste a traiter est bas et presente encore un pic relativement distinguable pour les niveaux sombres on change les seuils en mettant ceux relatifs a ce pic, on obtient par segmentation et iteration la plupart des cellules sombres. Afin d'obtenir une segmentation plus nette et pratiquement complete, il conviendrait de cumuler le resultat des deux segmentations.
femme
21)
22)
23)
L'histogramme comporte grossierement trois pics. Le pic central, entre les niveaux 125 et 160, correspond a la partie de l'image la plus importante en taille et en information, elle est en effet constituee de l'essentiel du visage et du fond qui entoure la tete. Les bras et la chevelure, ainsi qu'une aide de l'illusion de continuite de bord du visage aide a separer ces deux regions, le visage et le fond, qui sont de niveaux de gris tres proches. Ainsi en appliquant la methode avec des seuils correspondant a ce pic, on obtient tres rapidement, apres une iteration, c'est-a-dire apres deux traitements, une segmentation de l'image relativement acceptable, grace a de grandes regions connexes et homogenes. Si l'on s'interesse d'abord au pic correspondant aux valeurs des niveaux de gris sombres, on affine la segmentation, par la mise en evidence ainsi des cheveux, du col et de la partie sombre sur le chapeau, en poursuivant par le pic central comme precedemment, on obtient ainsi une segmentation correcte pour le visage. Pour segmenter le chapeau et les bras, le traitement du pic correspondant aux pixels clairs prealablement est preferable, suivi du traitement du pic central, mais alors il manque la segmentation de la partie gauche du visage.
6)CONCLUSION
Dans divers domaines, la methode utilisee depend de ce que l'on a a traiter et de ce que l'on veut obtenir, mais ceci est particulierement vrai en traitement d'images, meme si, heureusement, on peut considerer diverses classes d'images ou de traitements.
Pour ce qui est de la segmentation, c'est un probleme general que l'on rencontre pour la parole, la musique, divers sons, le texte ecrit, les images, et que l'on peut probablement etendre aux trois autres sens. Du point de vue cognitif, le traitement du texte, de la parole, d'une part, et de la musique et des divers autres sons et bruits se fait par des zones differentes du cerveau. Ainsi, savoir si l'on doit segmenter, reconnaitre, de la parole ou pas, aide enormement a la tache, comme le montrent de facon etonnante des experiences simples de changement de rythme de la voix. Il en est de meme pour image-texte, si l'on sait de quel type est l'objet a percevoir, la perception en est grandement facilitee, acceleree. Cette presentation se termine par un schema.
Les diverses images illustrant ce texte ont ete recuperees sur une page web relative aux illusions optiques. Dans certaines, il est possible d'avoir deux interpretations differentes, correspondant ou non a des segmentations differentes, si l'on n'attache pas de semantique a la segmentation. Ceci vaut pour les deux premieres notamment: pour la premiere, quelle que soit l'interpretation, on aura la meme segmentation, les memes parties, ce qui n'est probablement pas le cas dans la deuxieme. D'autres montrent que il y a une segmentation mentale, la ou il n'y a pas rellement d'objet correspondant, donc on ne pourrait obtenir une segmentation telle qu'on la percoit, qu'en simulant notre systeme perceptif dans l'analyse de l'image. Dans l'image en couleurs, il n'y en a en fait que 2! Quant au nombre de pattes de l'elephant ... Et peut-etre que je je me repete.
Pour ce qui est du resultat attendu, il y a des compromis a adopter entre la vitesse de traitement souhaitee, la qualite et la fiabilite du resultat. Encore une fois, la prise en compte et du traitement souhaite et du type de donnees est fondamentale.