Principe |
|
|
Le tableau de données
Les observations de p variables (canaux spectraux)
sur n individus (pixels) sont rassemblées en un tableau rectangulaire X à n lignes et p
colonnes.
Chaque attribut (noté xj) est en fait une liste de n valeurs numériques : on le considérera comme un vecteur dun espace E à n dimensions appelé espace des variables. Notons ei un individu dont les coordonnées sont ei = (xi1, xi2, ..., xip). Comme nous raisonnons sur des images en couleurs, les attributs de chaque individu ei sont quantitatifs, car correspondant à lintensité lumineuse dans chaque canal spectral. On peut donc calculer la moyenne mj de la variable j sur lensemble des observations ainsi que son écart-type s j.
Il est plus judicieux de se ramener au centre de gravité du nuage, cest-à-dire prendre comme référence lobservation qui a comme coordonnées (m1, m2, ..., mp). Lanalyse devient alors une analyse centrée. Elle revient, pour chaque observation i, à remplacer ses coordonnées par les écarts à la moyenne. Il peut exister des hétérogénéités déchelle. Plus une coordonnée a un écart-type élevé, plus elle a de chiffres disparates et plus elle influera sur la comparaison. Un choix simpose alors : faut-il laisser intact la prépondérance de certaines coordonnées par rapport aux autres? Ou faut-il procéder à une analyse normée en remplaçant les coordonnées de lobservation i de la manière suivante :
La différence entre lACP et la TKL se situe à ce niveau. LACP utilise cette normalisation. La TKL laisse les variances des données intactes. Distance entre observations La distance la plus générale et représentative est la distance Euclidienne. La distance entre deux points i et i sexprime par la formule :
Il est naturel de considérer le produit scalaire entre deux variables comme un indicateur de liaison. Données centrées :
Dans ce cas le produit scalaire est, au facteur près, la covariance entre les deux variables. Donnés normées :
On constate que le produit scalaire est, au facteur n près, la corrélation entre les deux variables. La projection dans un sous-espace Le but de la méthode est de visualiser dans un espace de dimension réduite par rapport à la dimension de départ, les proximités entre observations, et aussi les corrélations entre variables. On cherche donc à projeter le nuage de Rp sur un espace de dimension moindre.Dans Rp, on cherche le sous-espace de dimension 1, donc un axe, qui passe au mieux à travers le nuage des données. Autrement dit, laxe pour lequel la projection de Rp soit la moins déformée possible. On procède ensuite pour le sous-espace de dimension 2, puis de dimension 3, etc... Un critère de déformation minimum de nuage par projection est celui où les distances entre les points projetés sont les plus voisines de celles entre les points initiaux. La solution de ce problème revient à rechercher les vecteurs propres de la matrice XtX où la matrice X est constituée de (xij) (matrice de covariance ou de corrélation suivant que les données sont normées ou non).
Remarque : dans le cas où les données sont normées, la diagonale de G X est constituée uniquement de 1. On appelle axes principaux les vecteurs propres de la matrice de covariance associée aux données. Chaque valeur propre l j de cette matrice représente la variance sur laxe principal correspondant. On ordonne ensuite les valeurs propres dans lordre décroissant. Laxe correspondant à la première valeur propre est laxe traversant au mieux le nuage de point des données de départ. Puis, le plan représenté par les deux premiers axes (tous les axes engendrés par les vecteurs propres étant orthogonaux deux-à-deux) est le plan traversant au mieux ce nuage; etc... |
|
|