## Si vous n'avez jamais installé skimage sur votre ordinateur, il est probablement absent des bibliothèques par défaut. 
## Pour l'installer, effacez le # (avant le "!").

#!pip install scikit-image
#!pip install rasterio

## Import des bibliothèques
import numpy as np
from pathlib import Path
from skimage.io import imread
from sklearn.ensemble import RandomForestClassifier
import rasterio
from rasterio.transform import Affine
import matplotlib.pyplot as plt
import matplotlib.colors as mcolors

## SciPy est un projet qui fédère des bibliothèques Python à usage scientifique.
## Scipy utilise les tableaux et matrices du module NumPy (https://fr.wikipedia.org/wiki/SciPy).

## Mise à jour de scipy, effacez le # (avant le "!") si nécessaire.
#!pip install --upgrade scipy

## Ensuite, il faut l'importer
#import scipy

## Puis vérifier que cette nouvelle version est compatible
#scipy.__version__

# Affichage de la taille de l'image .rst en lisant les métadonnées du fichier .rdc (cf. columns et rows)
# Vérifier le contenu réel du fichier .rdc
print(Path("data/h87tm1.rdc").read_text())

# Affichage de la taille de l'image TIFF (celle des échantillons de vérités terrain)
tif_path = Path("data/sample_ods_6cl.tif")
if tif_path.exists():
    img = imread(tif_path)
    print(f"{tif_path.name} : dimensions {img.shape}")
else:
    print(f"{tif_path.name} : fichier absent")

## Chemin des fichiers
data_dir = Path("data")
output_path = "results/h87_fr_6cl.tif"

## Paramètres fixes (d'après h87tm1.rdc)
## Taille des images lue dans les métadonnées du fichier .rdc (cf. columns et rows)
ROWS = 86
COLS = 72
RESOLUTION = 30.0  # 30m/pixel
MIN_X, MAX_Y = 3930.0, 3600.0  # Coin supérieur gauche

## === Lecture des bandes RST ===
bands = []
for i in range(1, 8):
    rst_file = data_dir / f"h87tm{i}.rst"
    arr = np.fromfile(rst_file, dtype=np.uint8).reshape(ROWS, COLS)
    bands.append(arr)

X = np.dstack(bands).reshape(-1, 7)  # Shape (86*72, 7)

# === Chargement vérité terrain ===
def load_ground_truth():
    gt = imread(data_dir / "sample_ods_6cl.tif")
    return gt.flatten()

y = load_ground_truth()

## Réalisation de la classification
mask = y > 0
clf = RandomForestClassifier(n_estimators=100).fit(X[mask], y[mask])
classification = clf.predict(X).reshape(ROWS, COLS)

# === Création du profil géographique ===
transform = Affine(RESOLUTION, 0, MIN_X, 0, -RESOLUTION, MAX_Y)
profile = {
    'driver': 'GTiff',
    'height': ROWS,
    'width': COLS,
    'count': 1,
    'dtype': 'uint8',
    'crs': '',  # À vérifier dans vos métadonnées. Ne rien mettre entre '' si plane !
    # EPSG:32619 - WGS 84 / UTM zone 19N (utilisé pour les données globales et GPS)
    # EPSG:26919 - NAD83 / UTM zone 19N (utilisé pour les données nord-américaines)
    'transform': transform,
    'nodata': 0
}

# === Sauvegarde avec rasterio (si besoin de géoréférencement) ===
with rasterio.open(output_path, 'w', **profile) as dst:
    dst.write(classification.astype(np.uint8), 1)

print(f"✅ Carte sauvegardée : {output_path}")

# === Visualisation brute ===
plt.figure(figsize=(10, 8))
img = plt.imshow(classification, cmap='tab10', extent=[MIN_X, MIN_X + COLS*RESOLUTION, MAX_Y - ROWS*RESOLUTION, MAX_Y])
plt.colorbar(label='Classes')
plt.title("Classification de l'occupation du sol par Random Forest Classifier")
plt.xlabel('Coordonnée X (m)')
plt.ylabel('Coordonnée Y (m)')
plt.show()

## Amélioration des couleurs et des étiquettes de légende
#import matplotlib.pyplot as plt
#import matplotlib.colors as mcolors

# Palette personnalisée pour 6 classes (voir ci-dessous pour d'autres couleurs)
cmap = mcolors.ListedColormap([
    '#01579b',  # Classe 1 - Eaux peu profondes
    '#08306b',  # Classe 2 - Eaux profondes
    '#f7dc6f',  # Classe 3 - Agriculture
    '#e31a1c',  # Classe 4 - Urbain
    '#28b463',  # Classe 5 - Feuillus
    '#196f3d',  # Classe 6 - Conifères
])

# Norme pour mapper 1-6 directement
norm = mcolors.BoundaryNorm(boundaries=[0.5, 1.5, 2.5, 3.5, 4.5, 5.5, 6.5], ncolors=6)

# Pour l'affichage géoréférencé
# (MIN_X, MAX_Y, COLS, ROWS, RESOLUTION doivent être définis dans ton script principal)
extent = [
    MIN_X,                   # gauche (X min)
    MIN_X + COLS * RESOLUTION,  # droite (X max)
    MAX_Y - ROWS * RESOLUTION,  # bas (Y min)
    MAX_Y                    # haut (Y max)
]

plt.figure(figsize=(10, 8))
img = plt.imshow(classification, cmap=cmap, norm=norm, extent=extent, origin='upper')
plt.title("Howe Hill 1987, MA, USA\n Classification de l'occupation du sol par Random Forest Classifier (6 classes)")
cbar = plt.colorbar(img, ticks=[1, 2, 3, 4, 5, 6])
cbar.ax.set_yticklabels([
    'Eaux peu profondes',
    'Eaux profondes',
    'Agriculture',
    'Urbain',
    'Feuillus',
    'Conifères'
])
plt.xlabel('Coordonnée X (m)')
plt.ylabel('Coordonnée Y (m)')
plt.tight_layout()
plt.show()

import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix, classification_report, cohen_kappa_score
import matplotlib.pyplot as plt
import seaborn as sns

# === 1. Filtrer les pixels non étiquetés (classe 0) AVANT la séparation ===
mask = y > 0
X_filtered = X[mask]
y_filtered = y[mask]

# === 2. Séparation des données en conservant toutes les classes ===
X_train, X_test, y_train, y_test = train_test_split(
    X_filtered, 
    y_filtered,
    test_size=0.3, # taille à faire varier si résultat trop bon (cf. infra)
    random_state=42,
    stratify=y_filtered  # Maintient la distribution des classes
)

# === 3. Entraînement et prédiction ===
clf = RandomForestClassifier(n_estimators=100, random_state=42)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

# === 4. Définir explicitement les classes attendues (1-6) ===
classes = [1, 2, 3, 4, 5, 6]
class_names = [
    'Eaux peu profondes', 
    'Eaux profondes', 
    'Agriculture', 
    'Urbain', 
    'Feuillus', 
    'Conifères'
]

# === 5. Matrice de confusion complète ===
cm = confusion_matrix(y_test, y_pred, labels=classes)

plt.figure(figsize=(10,8))
sns.heatmap(
    cm, 
    annot=True, 
    fmt='d', 
    cmap='Blues',
    xticklabels=class_names,
    yticklabels=class_names
)
plt.title('Matrice de confusion (6 classes)')
plt.xlabel('Prédictions')
plt.ylabel('Vérité terrain')
plt.show()

# === 6. Rapport de classification avec gestion des classes manquantes ===
print(classification_report(
    y_test, 
    y_pred, 
    labels=classes,
    target_names=class_names,
    zero_division=0  # Supprime les avertissements
))

# === 7. Coefficient Kappa ===
kappa = cohen_kappa_score(y_test, y_pred)
print(f"Coefficient Kappa de Cohen : {kappa:.3f}")

print(f"Train shape: {X_train.shape}, Test shape: {X_test.shape}")
# Doit retourner (ex) : Train (70, 7), Test (30, 7)

from collections import Counter
print("Distribution train:", Counter(y_train))
print("Distribution test:", Counter(y_test))

from sklearn.model_selection import cross_val_score
scores = cross_val_score(clf, X, y, cv=5)
print(f"Accuracy cross-val: {scores.mean():.2f} ± {scores.std():.2f}")

from collections import Counter
print(Counter(y))

from collections import Counter
print("Distribution train:", Counter(y_train))
print("Distribution test:", Counter(y_test))

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
clf.fit(X_train, y_train)
print("Accuracy hold-out:", clf.score(X_test, y_test))

from sklearn.metrics import f1_score, roc_auc_score
print("F1-score:", cross_val_score(clf, X, y, cv=5, scoring='f1_macro').mean())

from scipy.stats import ttest_1samp
_, p_value = ttest_1samp(scores, popmean=0.95)
print(f"p-value vs 95%: {p_value:.4f}")

TD : Faire une classification supervisée.¶

Cours SIG et télédétection¶

Département de géographie - L3 - Université de Paris 8¶

Téléchargement des documents nécessaires :

1. Chargement des données et des bibliothèques¶

1.1 Chargement des données¶

1.2 Chargement des bibliothèques (library)¶

2. Lecture des bandes de l'image TM et des vérités terrain¶

2.1. Information sur les métadonnées, dont la taille des images¶

2.2. Lecture des canaux de l'image TM¶

2.3. Chargement de la vérité terrain¶

2.4. Entraînement et prédiction¶

2.5. Création du profil géographique¶

2.6. Sauvegarde du résultat¶

2.7. Affichage des résultats bruts¶

2.8. Affichage des résultats légendés et recolorés¶

Liste non exhaustive de nuanciers complets avec les codes hexadécimaux à utiliser ensuite dans une ListedColormap, quelques ressources en ligne :¶

Mais quelle est la qualité du résultat ? Comment l'évaluer ?¶

3. Évaluation de la classification¶

Cas particulier détecté :¶

3.3. Vérification des dimensions¶

3.4. Analyse de la distribution des classes¶

3.5. Test de permutation (pour éliminer le sur-apprentissage) :¶

Interprétation des composantes¶

3.6. Études complémentaires recommandées¶

a) Vérifier l'équilibre des classes¶

b) Comparer avec un hold-out set (jeu test à part)¶

c) Analyser d'autres métriques¶

d) Tester la significativité statistique¶

Interprétation directe¶

Recommandations¶

4. Test avec SVM (Support Vector Machine)¶

TD : Faire une classification supervisée.¶

Cours SIG et télédétection¶

Département de géographie - L3 - Université de Paris 8¶

Téléchargement des documents nécessaires :

1. Chargement des données et des bibliothèques¶

1.1 Chargement des données¶

1.2 Chargement des bibliothèques (library)¶

2. Lecture des bandes de l'image TM et des vérités terrain¶

2.1. Information sur les métadonnées, dont la taille des images¶

2.2. Lecture des canaux de l'image TM¶

2.3. Chargement de la vérité terrain¶

2.4. Entraînement et prédiction¶

2.5. Création du profil géographique¶

2.6. Sauvegarde du résultat¶

2.7. Affichage des résultats bruts¶

2.8. Affichage des résultats légendés et recolorés¶

Liste non exhaustive de nuanciers complets avec les codes hexadécimaux à utiliser ensuite dans une *ListedColormap*, quelques ressources en ligne :¶

Mais quelle est la qualité du résultat ? Comment l'évaluer ?¶

3. Évaluation de la classification¶

Cas particulier détecté :¶

3.3. Vérification des dimensions¶

3.4. Analyse de la distribution des classes¶

3.5. Test de permutation (pour éliminer le sur-apprentissage) :¶

Interprétation des composantes¶

3.6. Études complémentaires recommandées¶

a) Vérifier l'équilibre des classes¶

b) Comparer avec un hold-out set (jeu test à part)¶

c) Analyser d'autres métriques¶

d) Tester la significativité statistique¶

Interprétation directe¶

Recommandations¶

4. Test avec SVM (Support Vector Machine)¶

Liste non exhaustive de nuanciers complets avec les codes hexadécimaux à utiliser ensuite dans une ListedColormap, quelques ressources en ligne :¶