Vincent GODARD

Département de Géographie

Université de Paris 8


V.1.4 1- Dernière mise à jour : 05/09/2012

 

Fiche Guide du TP n°4.3 du cours de Télédétection niveau 2 :

(avec l'autorisation du Clark Labs - exercice librement inspiré du didacticiel d'Idrisi32 par Michelle GIBOIRE - adaptation Vincent GODARD)

 

Analyses en composantes principales

 

Objectifs : résumer, concentrer et extraire l'information contenue dans les bandes spectrales d'une image satellitale

 

Fonctions décrites dans ce TD : PCA, Valeurs propres,

 

Dans les images de télédétection, il n'est pas rare de constater un fort degré de corrélation entre les bandes multispectrales. Cette forte corrélation* indique que si la réflectance est élevée pour un pixel dans un canal elle est également élevée dans un autre canal pour le pixel considéré. À l'extrème, si deux bandes sont parfaitement corrélées, elles décrivent la même information. Elles sont redondantes. Il est courant que les images Landsat Thematic Mapper, qui comportent 7 canaux, contiennent moins de 7 bandes de "vraies" informations.

La question que l'on peut se poser est : "Quelle est le nombre minimal de canaux pour trouver une caractérisation adéquate à l'aide des réflectances terrestres ? ". Pour répondre à cela, on peut analyser, par Analyse en composantes principales* (ACP, PCA in english), l'information contenue dans l'imagerie Landsat déjà vue dans les deux précédents exercices (tdi41tel.htm et tdi42tel.htm).

L'ACP est une analyse factorielle* qui transforme une image multispectrale en créant de nouveaux canaux (néocanaux appelés composantes) décorrelés* et rangés par ordre décroissant d'information (variabilité décroissante). Ces composantes* sont des "abstractions statistiques" qui expriment la variabilité de l'information des bandes d'origine.

Comme ces composantes sont décorrélées, chacune porte une information originale. De plus, comme elles sont rangées par ordre décroissant d'information, les premières composantes tendent à concentrer plus d'information originelle que les suivantes qui ne contiendront plus que des variations mineures (voire du "bruit"). Une des application de l'ACP est la compaction (le résumé) des données en ne retenant que les composantes majeures et en délaissant les autres.

Avec des processeurs rapides et des disques à forte capacité, cet avantage est moins net que par le passé. La plupart des modules de classification acceptent un grand nombre de canaux en entrée et il est même courant de tous les utiliser dans une classification, qu'ils soient corrélés ou non. Cependant, une des techniques de classification non supervisée (cf. tdi44tel.htm) est limitée à 3 bandes en entrée. L'ACP peut être utilisée pour déterminer celles-ci de façon pertinente parmi les bandes d'origine. De plus, avec l'ACP un certain nombre d'informations contenues dans les données sont décrites.

Notez que l'ACP (et le module d'analyse des séries temporelles TSA) a des applications dans le champ de la détection des changements.

 

a) Affichez H87TM4 (le canal du PIR) avec

- la palette des gris ;

- l'autoscaling.

- Affichez les bandes restantes de la même façon.

1) Y a-t-il d'autres bandes qui ressemblent à la bande du PIR (H87TM4) ?

- La (ou les) quelle(s) ?

 

b) Exécutez PCA depuis le menu Image Processing/Transformation

- Choisissez de calculez la covariance directement ;

- Indiquez l'utilisation de 7 bandes ;

- Sélectionnez dans la liste (Image Band Name list) les 7 bandes :

- de H87TM1 ;

- à H87TM7.

- Indiquez que 7 composantes (Components) doivent être extraites ;

- Indiquez que H87 comme nouveau préfixe ;

- Cochez l'usage de variables non standardisées (Unstandardized variables) ;

PCA fait le calcul des équations de transformation et crée les nouvelles composantes avec des nom suivants H87CMP1 jusqu'à H87CMP7. Des résumés statistiques sont affichés.

2) Regardez la matrice des corrélations. Y a-t-il des corrélations importantes entre bandes ?

- Quelles sont les bandes les plus corrélées avec la bande 1 (H87TM1) ?

- Quelles sont les bandes les plus corrélées avec la bande 4 (H87TM4) ?

- Cela correspond-il à votre réponse pour la question n°1 ?

 

c) Maintenant, faites défiler l'écran vers les résumés contenant les valeurs propres* (eigenvalues) et les vecteurs propres* (eigenvectors) de chaque composantes (en colonnes). Les valeurs propres expriment la part de variance* contenue dans chaque composante tandis que les vecteurs propres sont les coefficients des équations de transformations des bandes originelles vers les composantes. Les valeurs propres, au sommet de chaque colonne, sont exprimées en pourcentage de la variance totale (% var.).

3) Quelle quantité de variance est prise en compte par les composantes 1, 2 et 3, séparément ?

- Quelle quantité de variance est prise en compte par les composantes 1 et 2 ensembles (additionnez les parts individuelles de variance) ?

- Quelle quantité de variance est prise en compte par les composantes 1, 2 et 3 ensembles ?

 

d) Maintenant, faites défiler l'écran vers les résumés contenant les coordonnées*, parfois appelées poids (loadings). Les coordonnées informent sur le degré de corrélation entre les composantes (en colonnes) et les bandes originelles (en lignes). Pour en savoir plus sur ce point, on se reportera à la fiche mémo du cours de Master2 sur les ACP (mem02dea.htm#coordonnées)

4) Quelle bande a la plus forte corrélation avec la composante 1 ?

- Est-ce la plus forte corrélation ?

5) Quelle bande a la plus forte corrélation avec la composante 2 ?

Si vous n'avez pas imprimé les tables de résumés, ne fermez pas cette fenêtre avant la fin de l'exercice. Réduisez-la simplement pour laisser de la place à l'affichage des images.

 

e) Affichez maintenant les quatre images suivantes :

- H87CMP1 => la 1ère composante ;

- H87TM4 => la bande 4 du PIR ;

- H87CMP2 => la 2è composante ;

- H87TM3 => la bande 3 du rouge.

Avec :

- l'autoscaling ;

- la palette des gris.

Faites en sorte que ces images soient côtes-à-côtes à l'écran. Vous pouvez réduire la taille de ces couches en double cliquant dans l'image, puis en faisant glisser une des poignées de redimensionnement, ou en agissant sur le zoom.

6) Quelles similitudes existent-ils entre la composante 1 et la bande du PIR ?

- Quelles similitudes existent-ils entre la composante 2 et la bande du rouge ?

 

f) Affichez maintenant la composante 7 (H87CMP7) avec les même paramètres que précédemment.

7) Quelle est sa corrélation avec chacune des bandes originelles [utilisez la table des coordonnées (loadings)] ?

- En examinant "visuellement" cette image, que contient-elle ?

- Quel pourcentage d'information perdrait-on si on rejetait cette image ?

 

Les relation que l'on observe sur cet exemple ne sont pas les même pour tous les paysages. Cependant ce n'est une expérience exceptionnelle. S'il ne fallait retenir qu'une bande, ce serait celle du proche infra-rouge (TM 4), car c'est elle qui contient en général la plus grande quantité d'information. Après celle-ci, cela varie en fonction de la zone d'étude. Cependant, la bande du vert (TM 2) et celle du moyen infra-rouge (TM 5) sont souvent les bandes suivantes à retenir.

Pour revenir à la question de départ, il est clair que trois bandes peuvent apporter une grande quantité d'information. De plus, on observe que les trois bandes utilisées habituellement dans les compositions colorées fausses couleurs (2, 3 et 4) sont un choix satisfaisant en terme de quantité d'information contenue. Ainsi, dans le cadre des classifications non supervisées, que l'on va découvrir dans l'exercice suivant, il est significatif de n'utiliser que ces trois bandes pour créer ce type de classification.

Vous pouvez détruire les sept composantes (H87CMP1-7).

 

 

Retour au début de la fiche Guide

 

Fiche Guide suivante

 

NB : les mots suivis de "*" font partie du vocabulaire géographique, donc leur définition doit être connue. Faites-vous un glossaire.