Principe

Précédente ] Accueil ] Suivante ]


Le tableau de données

Les observations de p variables (canaux spectraux) sur n individus (pixels) sont rassemblées en un tableau rectangulaire X à n lignes et p colonnes.

(1)

Chaque attribut (noté xj) est en fait une liste de n valeurs numériques : on le considérera comme un vecteur d’un espace E à n dimensions appelé espace des variables. Notons ei un individu dont les coordonnées sont ei = (xi1, xi2, ..., xip).

Comme nous raisonnons sur des images en couleurs, les attributs de chaque individu ei sont quantitatifs, car correspondant à l’intensité lumineuse dans chaque canal spectral.

On peut donc calculer la moyenne mj de la variable j sur l’ensemble des observations ainsi que son écart-type s j.

(2)

(3)

Analyse des données

On peut directement analyser les données brutes. L’origine du nuage est définie par l’observation qui a comme coordonnées (0,0,..,0). Cette origine est rarement intéressante, car n’ayant pas de sens physique.

Il est plus judicieux de se ramener au centre de gravité du nuage, c’est-à-dire prendre comme référence l’observation qui a comme coordonnées (m1, m2, ..., mp). L’analyse devient alors une analyse centrée. Elle revient, pour chaque observation i, à remplacer ses coordonnées par les écarts à la moyenne.

Il peut exister des hétérogénéités d’échelle. Plus une coordonnée a un écart-type élevé, plus elle a de chiffres disparates et plus elle influera sur la comparaison.

Un choix s’impose alors : faut-il laisser intact la prépondérance de certaines coordonnées par rapport aux autres? Ou faut-il procéder à une analyse normée en remplaçant les coordonnées de l’observation i de la manière suivante :

?

La différence entre l’ACP et la TKL se situe à ce niveau.

L’ACP utilise cette normalisation. La TKL laisse les variances des données intactes.

Distance entre observations

La distance la plus générale et représentative est la distance Euclidienne. La distance entre deux points i et i’ s’exprime par la formule :

(4)

Liaison entre les variables

Parallèlement à ces analyses, on peut également calculer un indicateur qui mesure la relation entre deux variables, tout comme il existe une distance entre deux observations.

Il est naturel de considérer le produit scalaire entre deux variables comme un indicateur de liaison.

Données centrées :

(5)

Dans ce cas le produit scalaire est, au facteur près, la covariance entre les deux variables.

Donnés normées :

(6)

On constate que le produit scalaire est, au facteur n près, la corrélation entre les deux variables.

La projection dans un sous-espace

Le but de la méthode est de visualiser dans un espace de dimension réduite par rapport à la dimension de départ, les proximités entre observations, et aussi les corrélations entre variables. On cherche donc à projeter le nuage de Rp sur un espace de dimension moindre.

Dans Rp, on cherche le sous-espace de dimension 1, donc un axe, qui passe au mieux à travers le nuage des données. Autrement dit, l’axe pour lequel la projection de Rp soit la moins déformée possible. On procède ensuite pour le sous-espace de dimension 2, puis de dimension 3, etc...

Un critère de déformation minimum de nuage par projection est celui où les distances entre les points projetés sont les plus voisines de celles entre les points initiaux. La solution de ce problème revient à rechercher les vecteurs propres de la matrice XtX où la matrice X est constituée de (xij) (matrice de covariance ou de corrélation suivant que les données sont normées ou non).

(7)

Remarque : dans le cas où les données sont normées, la diagonale de G X est constituée uniquement de 1.

On appelle axes principaux les vecteurs propres de la matrice de covariance associée aux données. Chaque valeur propre l j de cette matrice représente la variance sur l’axe principal correspondant. On ordonne ensuite les valeurs propres dans l’ordre décroissant. L’axe correspondant à la première valeur propre est l’axe traversant au mieux le nuage de point des données de départ. Puis, le plan représenté par les deux premiers axes (tous les axes engendrés par les vecteurs propres étant orthogonaux deux-à-deux) est le plan traversant au mieux ce nuage; etc...


Précédente ] Accueil ] Suivante ]