Interprétation |
|
|
Qualité de représentation du nuage par un sous-espace
Revenons à notre objectif de départ : réduire la dimensionnalité des données. On définit les pourcentages dinertie associés à chaque nouvelle variable j par le ratio :
Où les l j sont les valeurs propres de la matrice de covariance des données. Si lon considère que l'information, ou lénergie se mesure en termes de variance, et comme la valeur propre l j correspond à la variance des données sur laxe principal j, Pj correspond au pourcentage dénergie contenue dans la variable j des observations. Dit autrement, Pj est la qualité de représentation du nuage de départ par l'axe principal j. Lintérêt de la transformation réside dans le fait de ne garder que les r premières variables (r<=p) pour représenter les observations, le paramètre r étant ajusté afin de trouver un compromis entre le nombre de variables éliminées et le pourcentage dénergie conservé. On peut par exemple se fixer un seuil tel que 80% et ne garder qu'une dimensionnalité r permettant de vérifier :
Remarque : si le nuage de points initial n'a aucune direction privilégiée, les valeurs l j sont peu différentes les unes des autres et l'inertie restituée par le premier axe est environ égale à 1/p (voir exemple sur les images "extrêmes") On peut se fixer un autre critère : visualisons la courbe traçant le pourcentage d'inertie en fonction du vecteur propre numérotés par valeur propre correspondante décroissante :
On peut décider de garder un sous-espace dont la dimension serait choisie à la position du coude de la courbe bleue ci-dessus, qui représente le pourcentage d'inertie de chacun des axes (la courbe rose représentant le pourcentage cumulé par le sous-espace engendré par l'axe courant et tous les précédents). Nous avons donc, pour résumer, effectué une transformation qui permet, à partir d'une image couleur à plusieurs canaux (rouge vert bleu ou autre système colorimétrique, ou bien plus de canaux), d'analyser et d'exploiter les corrélations entre canaux. Nous avons obtenu un nouveau jeu de canaux artificiels, en même nombre, et dont on va peut-être, si les redondances entre canaux initiaux sont suffisamment importantes, pouvoir n'utiliser qu'une partie sans perte notable de l'information présente dans les données de départ. Qualité de representation d'un élément par un sous-espaceOn peut, suite à l'analyse, définir pour chaque élément (individu ou variables) ou individu de départ i une qualité de représentation après transformation et projection. On l'écrit:
C'est le rapport entre l'inertie de la projection de l'élément i sur le sous-espace engendré par les premiers axes principaux considérés et l'inertie de i dans l'espace de départ. Mieux un individu est représenté, plus cette mesure se rapproche de 1. Dans le cas d'une projection sur un sous-espace de dimension 1 ou 2, l'interprétation géométrique de cette mesure est simple :
C'est le cosinus carré de l'angle q entre Oi et l'axe engendré par U1 ou le plan engendré par sp{U1,U2}dans le cas d'un sous-espace de dimension 2. Intéressons-nous à la qualité de représentation des canaux spectraux de départ par les premiers axes principaux. Etablissons pour cela les définitions préalables suivantes, qui seront d'ailleurs utiles par la suite : Les résultats de l'analyse centrée, ou TKL, notés uk, sécrivent : uk = ak1x1 + ak2x2 + ...+ akpxp en notant xi les attributs des individus de départxi = a1iu1 + a2iu2 + ... + apiup Ceux de lanalyse centrée-normée, ou ACP, notés vk,sécrivent :vk = bk1x1/s1 + bk2x2/s2 + ...+ akpxp/sp xi = si(a1iu1 + a2iu2 + ... + apiup) (12) Par exemple, intéressons à la qualité de représentation d'un canal initial j par le premier axe principal. Le cosinus carré de l'angle q recherché est le carré du produit scalaire entre le vecteur {0,0,...,0,1,0,...,0} (j-ième composante à 1) et le vecteur propre normé du premier axe principal. Etant données les notations ci-dessus, on obtient comme expression de qualité de représentation du j-ème canal :
Le raisonnement s'étend facilement à des sous-espaces de dimensions supérieures à 1. Par exemple, pour la qualité de représentation d'une variable par le plan formé par les deux premiers axes principaux, on obtient :
Ce dernier terme est en fait la somme des cosinus au carré sur chacun des deux premiers axes. Pour le cas de dimension r (r<=p), il suffit d'ajouter les r cosisnus carrés sur les r axes. Nous nous intéresserons aux différences des qualités de représentation des canaux de couleurs initiaux à la suite d'une ACP et d'une TKL. Nous pourrions également mesurer la représentation de chacun des individus ou pixels de départ; mais, la qualité de représentation de chaque individu découle directement de la qualité de représentation de ses composantes dans Rp, que nous venons de calculer. Cela reviendrait donc à la même mesure mais dans le "référentiel" des individus plutôt que celui des variables. |
|
|