Traitement automatique d'images satellites pour l'extraction d'information d'occupation des sols

  • Số trang: 75 |
  • Loại file: PDF |
  • Lượt xem: 15 |
  • Lượt tải: 0
nhattuvisu

Đã đăng 26946 tài liệu

Mô tả:

RAPPORT DE STAGE TRAITEMENT AUTOMATIQUE D’IMAGES SATELLITES POUR L’EXTRACTION D’INFORMATION D’OCCUPATION DES SOLS Encadrement : Jacques BOUFFIER et Dominique HEBRARD Le pôle Applications Satellitaires et Télécommunication, Centre d’Etudes Techniques de l’Equipement du Sud-Ouest, Toulouse, France. Réalisé par : NGUYEN Quoc Phuong Promotion 16, Institut de la Francophonie pour l’Informatique, Hanoi, Vietnam. 01 Mars 2014 Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols Page 2 sur 75 Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols REMERCIEMENTS Les travaux présentés dans ce manuscrit ont été effectués au Centre d’Etude Technique et de l’Equipement du Sud-Ouest, Département de Délégation Aménagement, Laboratoire, Expertise et de Transport de Toulouse (CETE SO/DALETT) – Pôle « Applications Satellitaires et Télécommunication ». Je tiens d’abord à remercier M. Didier TREINSOUTROT, directeur de CETE SO/DALETT, pour m’avoir accueilli au CETE SO/DALETT. Je remercie ensuite Anita BRUNET, le secrétaire de la direction, pour son aide qui m’a permis de bien compléter les papiers administratifs. Je tiens à exprimer ma sincère reconnaissance à M. Jacques BOUFFIER, mon premier superviseur de stage, pour m’avoir encadré tout au long de mes travaux, pour sa patience, pour sa compréhension, pour ses conseils et pour toutes les heures qu’il m’a consacré. Mes remerciements vont également à M. Dominique HEBRARD, mon deuxième superviseur de stage, pour sa formation, pour sa contribution et pour son engagement qui m’a permis de surmonter les difficultés rencontrées pendant 6 mois. Je remercie également les stagiaires Martin VALETTE, Morgan VALOGNES pour ses aides qui m’ont permis de prendre en main les outils, les bases de données exogènes, la chaîne de traitement automatique qu’ils ont développé dans ses stages, pour leurs réponses à mes questions et particulier pour leurs amitiés que j’ai eu pendant la période de stage. Je n’oublie pas de remercie la famille de Denis-Maryline MARIOTTO pour m’avoir accompagné tous les six mois à Toulouse, pour m’a appris le francais et pour m’a apporté les bonheurs pendant les périodes difficiles. Finalement, merci à tous mes collègues du Pôle « Applications Satellitaires et Télécommunication », pour m’ont accueilli et pour leurs encouragements pendant les jours là-bas. Page 3 sur 75 Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols RÉSUMÉ Le développement urbain, qui se traduit généralement par un étalement des villes, diminue les surfaces agricoles disponibles et entraine une diminution de la biodiversité. En conséquence, la législation française en matière de planification des territoires s’est adaptée dans l’objectif de mieux contrôler la gestion des espaces, en demandant notamment aux services d’aménagement de fournir des données chiffrées obtenues par statistique et analyse de l’utilisation des sols. Le suivi d’occupation des sols est effectué sur la base des couches d’occupation des sols réalisées par récupération des données déclarées ou calculées. Cette approche trouve ses limites dans la lenteur de la mise à jour des données de base. De nos jours, le développement des satellites d’observation de la terre et les algorithmes de classification permet d’obtenir automatiquement des couches d’occupation du sol à partir d’images satellites. Cela apporte des avantages potentiels pour la mise en œuvre des politiques d’aménagement. Un programme d’évaluation de l’apport de la télédétection pour la production de couches d’occupation du sol a lancé par le ministère français du développement durable. Une chaîne de traitement automatique est développée afin d’extraire automatiquement une couche d’occupation du sol à partir d’images satellites. Le résultat obtenu est acceptable avec une couche d’occupation du sol entre 4 et 10 classes, malgré certaines confustions. Dans le cadre de ce projet, l’objectif principal est de proposer une méthodologie rigoureuse pour régler le problème de confusion afin d’améliorer la couche d’occupation du sol. La méthodologie proposée sera ajoutée à la chaîne de traitement. Les tests seront réalisés sur la base d’images RapidEye d’une résolution de 5 mètres qui couvrent sur l’emprise régionale de Limousin. Au final, une couche d’occupation du sol en 4 à 6 classes sera livrée à la direction du territoire de Limousin. Mots clés : aménagement, occupation du sol, images satellites, chaîne de traitement, algorithmes de classification, étude paramétrique. Page 4 sur 75 Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols ABSTRACT Urban development, who usually translates into a sprawl, reduces the available agricultural land and leads to a loss of biodiversity. Consequently, the French legislation has adapted in order to better control the space management, required the management service who provides the data obtained by statistical analysis of land utilisation. Monitoring land is performed on the land use data layers made by recovery of data reported or calculated. This approach is limited by the slow updating of data. Nowadays, the development of earth observation satellites and classification algorithms used to obtain layers of land from satellite images automatically. This approach brings potential benefits for the implementation of planning policies. A program evaluation launched by the French Ministry of Sustainable Development to produce layers of land. An automatic processing chain is developed to automatically extract a land use layer from satellite images. The result is acceptable with a layer of land between 4 and 10 classes, despite some confusions. In this project, the main objective is to provide a rigorous methodology to address the problem of confusion in order to improve the land use layer. The proposed methodology will be included to the processing chain. The tests will be conducted on the base of RapidEye imagery with a resolution of 5 meters covering the region of Limousin. Finally, a land use layer with 4 to 6 classes will be delivered to the Director of the Territory of Limousin. Keywords : urban development, land use layer, satellite images, automatic processing chain, classification algorithms, parametric study. Page 5 sur 75 Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols LISTE DES FIGURES Figure 1 : Mosaïque des images RapidEye disponibles sur la région du Limousin et visualisation sur une petite zone ....................................................................................................................................................................... 12 Figure 2 : Principe général ..................................................................................................................................... 14 Figure 3 : Principe général de l’extraction d’information d’une image ................................................................. 15 Figure 4 : Visualisation d’un même paysage dans différentes bandes de fréquence ........................................... 16 Figure 5 : Exemple de NDVI MOD .......................................................................................................................... 17 Figure 6 : L’apport des couches d’information complémentaire. ......................................................................... 18 Figure 7 : Enrichissement des couches d’informations [3] .................................................................................... 18 Figure 8 : Visualisation des échantillons d’apprentissage sur la zone test ............................................................ 21 Figure 9 : Le traitement des informations d’apprentissage .................................................................................. 22 Figure 10 : Intérêt du nettoyage des informations d’apprentissage ..................................................................... 23 Figure 11 : Fusion complète des micro-classes ..................................................................................................... 24 Figure 12 : Fusion intermédiaire des micro-classes............................................................................................... 25 Figure 13 : Filtre majoritaire avec le filtre des quatre cellules les plus proches.................................................... 25 Figure 14 : Filtre majoritaire avec le filtre des huite cellules les plus proches ...................................................... 26 Figure 15 : Visualisation de l’impact du filtre majoritaire ..................................................................................... 26 Figure 16 : Visualisation de l’ajout du système routier au résultat de classification ............................................ 27 Figure 17 : L’incohérence entre l’image satellite et les données exogènes .......................................................... 27 Figure 18 : L’impact de jeu de paramètres au résultat de classification ............................................................... 28 Figure 19 : Les échantillons de vérification ........................................................................................................... 29 Figure 20 : Schéma synthétique de deux approches de l’étude paramétrique [3] ............................................... 31 Figure 21 : Identification des micro-classes suspectes .......................................................................................... 32 Figure 24 : La performance des micro-classes....................................................................................................... 34 Figure 24 : Le taux des faux positifs des micro-classes.......................................................................................... 34 Figure 24 : Le taux des faux négatifs des micro-classes ........................................................................................ 34 Figure 25 : Exemple pour 3 itérations KMeans ..................................................................................................... 39 Figure 26 : Exemple pour 3 itérations SVM ........................................................................................................... 39 Figure 27 : Relance du Kmeans avec le traitement automatique ......................................................................... 41 Figure 28 : Relance du Kmeans avec le traitement manuel .................................................................................. 41 Figure 29 : Relance du SVM avec le traitement automatique ............................................................................... 42 Figure 30 : Relance du SVM avec le traitement manuel ....................................................................................... 42 Figure 31 : Résultat de l’étude paramétrique sur le nombre de micro-classes..................................................... 44 Figure 32 : Résultat de l’étude paramétrique des bandes d’informations complémentaires............................... 46 Figure 33 : Résultat de l’étude paramétrique sur les seuils .................................................................................. 47 Figure 34 : L’image satellite sur Limoges avec la visualisation sur les petites zones ............................................ 49 Figure 35 : Les couches d’informations complémentaires .................................................................................... 50 Figure 36 : Illustration des échantillons issus de bases de données exogènes sur Limoges ................................. 52 Figure 37 : Résultat de classification après fusion et filtres en macro-classe ....................................................... 53 Figure 38 : Résultat de classification après deuxième itération, fusion et filtres en macro-classes .................... 54 Figure 39 : Résultat de classification après troisième itération, fusion et filtres en macro-classes ..................... 55 Figure 40 : Résultat de classification après filtres et ajout du squelette linéaire .................................................. 56 Figure 41 : Résultat de classification sur l’ensemble du Limousin en 4 macro-classes ......................................... 58 Figure 42 : Deux exemples de la classification en 6 macro-classes et la visualisation sur les petites zones ......... 59 Figure 43 : Statistique sur le temps de traitement (humain et machine) dans l’étude paramétrique ................. 73 Figure 44 : Visualisation globale de travail pratique réalisé en fonction du temps .............................................. 74 Figure 45 : Statistique sur le temps de traitement (humain et machine) dans la classification de Limousin ....... 74 LISTE DES TABLEAUX Tableau 1 : Extrait de la nomenclature nationnale – Couverture du sol ............................................................... 20 Tableau 2 : Les nomenclatures sélectionnées pour les échantillons d’apprentissage .......................................... 51 Page 6 sur 75 Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols TABLE DES MATIERES REMERCIEMENTS .................................................................................................................................................... 3 RÉSUMÉ ................................................................................................................................................................... 4 ABSTRACT ................................................................................................................................................................ 5 LISTE DES FIGURES ................................................................................................................................................... 6 LISTE DES TABLEAUX................................................................................................................................................ 6 1. INTRODUCTION ............................................................................................................................................... 9 1.1. LA STRUCTURE DE L’ORGANISME D’ACCUEIL .......................................................................................... 9 1.1.1. LE CETE SO ET LA DÉLÉGATION DE TOULOUSE .................................................................................. 9 1.1.2. LE PÔLE APPLICATIONS SATELLITAIRES ET TELECOMMUNICATION .................................................. 9 1.2. LE SUJET DE STAGE .................................................................................................................................. 9 1.2.1. LE CONTEXTE GÉNÉRAL ..................................................................................................................... 9 1.2.2. LES OBJECTIFS DU STAGE ................................................................................................................. 10 1.2.3. LA CONTRIBUTION DU STAGE .......................................................................................................... 11 1.2.4. L’ENVIRONNEMENT DE TRAVAIL ..................................................................................................... 11 1.2.4.1. LES DONNEES .......................................................................................................................... 11 1.2.4.2. LES LOGICIELS.......................................................................................................................... 12 1.2.5. L’ORGANISATION DU MANUSCRIT .................................................................................................. 13 2. LA MÉTHODOLOGIE ....................................................................................................................................... 14 2.1. INTRODUCTION ..................................................................................................................................... 14 2.2. LA CHAINE DE TRAITEMENT .................................................................................................................. 14 2.2.1. LA TRANSFORMATION D’UNE IMAGE ............................................................................................. 15 2.2.1.1. L’AMELIORATION DES INFORMATIONS D’ENTREE ................................................................. 16 ENRICHISSEMENT DE L’IMAGE SATELLITE ............................................................................................. 16 AMELIORATION DES INFORMATIONS D’APPRENTISSAGE ..................................................................... 19 2.2.1.2. LA CLASSIFICATION ................................................................................................................. 23 2.2.1.3. LES POST TRAITEMENTS .......................................................................................................... 24 2.2.2. L’ETUDE PARAMETRIQUE ................................................................................................................ 27 2.2.2.1. LES INDICATEURS DE QUALITE ................................................................................................ 28 2.2.2.2. LES PARAMETRES .................................................................................................................... 30 2.2.2.3. LES ALGORITHMES DE RECHERCHE......................................................................................... 30 RECHERCHE SYSTEMATIQUE ................................................................................................................. 30 RECHERCHE ALEATOIRE ......................................................................................................................... 30 2.3. LES AMELIORATIONS DE LA CHAINE ...................................................................................................... 32 2.3.1. DETECTION DES MICRO-CLASSES SUSPECTES .................................................................................. 32 2.3.1.1. PAR RAPPORT A LEURS CENTROÏDES ...................................................................................... 32 2.3.1.2. PAR RAPPORT A LA MATRICE DE CONFUSION ........................................................................ 33 2.3.2. LE TRAITEMENT DES MICRO-CLASSES SUSPECTES .......................................................................... 35 2.3.2.1. LES REGLES DE SUPPRESSION ................................................................................................. 35 2.3.2.2. LES REGLES DE RE-AFFECTATION ............................................................................................ 36 2.3.2.3. LES REGLES D’ALERTE .............................................................................................................. 37 2.3.2.4. TRAITEMENT AUTOMATIQUE OU CONTROLE VISUEL ............................................................ 38 2.3.3. ADAPTATION DE LA CHAINE DE TRAITEMENTS ............................................................................... 38 2.3.3.1. RELANCE DU K-MEANS ........................................................................................................... 38 Page 7 sur 75 Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols 2.3.3.2. RELANCE DU SVM ................................................................................................................... 39 2.3.4. RESULTATS ....................................................................................................................................... 40 2.4. 3. CONCLUSION ......................................................................................................................................... 43 MISE EN ŒUVRE SUR LE LIMOUSIN ............................................................................................................... 44 3.1. INTRODUCTION ..................................................................................................................................... 44 3.1.1. LES GRANDS RESULTATS DE L’ETUDE PARAMETRIQUE ................................................................... 44 3.1.1.1. L’INFLUENCE DU NOMBRE DE MICRO-CLASSE ....................................................................... 44 3.1.1.2. L’INFLUENCE DES BANDES D’INFORMATION COMPLEMENTAIRES ........................................ 45 3.1.1.3. L’INFLUENCE DES SEUILS ......................................................................................................... 47 3.1.1.4. MEILLEUR JEU DE PARAMETRES ............................................................................................. 48 3.2. LA CLASSIFICATION SUR LIMOGES ......................................................................................................... 48 3.2.1. L’IMAGE SATELLITE .......................................................................................................................... 49 3.2.2. LES BANDES D’INFORMATION COMPLEMENTAIRES ....................................................................... 50 3.2.3. LES ECHANTILLONS D’APPRENTISSAGE ........................................................................................... 51 3.2.4. LE RESULTAT DE CLASSIFICATION A LA PREMIERE ITERATION ........................................................ 53 3.2.5. LE RESULTAT DE CLASSIFICATION APRES DEUXIEME ITERATION .................................................... 54 3.2.6. LE RESULTAT DE CLASSIFICATION APRES TROISIEME ITERATION .................................................... 55 3.2.7. LES POSTS TRAITEMENTS ................................................................................................................. 56 3.3. 4. LA CLASSIFICATION SUR L’ENSEMBLE DU LIMOUSIN ............................................................................ 57 3.3.1. LE PRINCIPE...................................................................................................................................... 57 3.3.2. LE RESULTAT FINAL .......................................................................................................................... 58 CONCLUSION GENERALE ............................................................................................................................... 60 4.1. RÉSULTATS OBTENUS AU REGARD DES SPECS ...................................................................................... 60 4.2. PERSPECTIVES ........................................................................................................................................ 60 5. BIBLIOGRAPHIE .............................................................................................................................................. 61 6. ANNEXES........................................................................................................................................................ 62 6.1. ANNEXE 1 : INDICES ............................................................................................................................... 63 6.2. ANNEXE 2 : LES FORMULES DES INDICATEURS DE QUALITE ................................................................. 63 6.3. ANNEXE 3 : INFLUENCE DE BANDES D’INFORMATIONS COMPLEMENTAIRES ...................................... 64 6.4. ANNEXE 4 : EXEMPLE POUR LA DETECTION DES MICRO-CLASSES SUSPECTES PAR RAPPORT LEUR CENTROIDES ...................................................................................................................................................... 65 6.5. ANNEXE 5 : EXEMPLE POUR LA DETECTION DES MICRO-CLASSES SUSPECTES PAR RAPPORT LA MATRICE DE CONFUSION .................................................................................................................................. 68 6.6. ANNEXE 6 : EXEMPLE POUR LE TRAITEMENT DES MICRO-CLASSES SUSPECTES ................................... 70 6.7. ANNEXE 7 : BASE D’IMAGES RAPIDEYE SUR LIMOUSIN ......................................................................... 71 6.8. ANNEXE 8 : STATISTIQUE DE TEMPS...................................................................................................... 72 Page 8 sur 75 Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols 1. INTRODUCTION 1.1. LA STRUCTURE DE L’ORGANISME D’ACCUEIL 1.1.1. LE CETE SO ET LA DÉLÉGATION DE TOULOUSE Le CETE SO (Centre d’Etudes Techniques de l’Equipement du Sud-Ouest) est un service de réseau scientifique et technique du MEDDE (Ministère de l’Ecologie, du Développement Durable et de l’Energie) localisé à Bordeaux et à Toulouse. La DALETT (Délégation Aménagement Laboratoire Expertise et Transports de Toulouse) est la délégation Toulousaine du CETE SO. D’une manière générale, le CETE SO mène des activités d’expertise, de contrôle, de suivi, de conception et de recherche dans l’ensemble des domaines d’activité du ministère : conception des routes, ouvrages d’art, bâtiment, géotechnique, transport, … ainsi que dans le domaine des applications satellitaires (observation de la terre et géolocalisation par satellite). 1.1.2. LE PÔLE APPLICATIONS SATELLITAIRES ET TELECOMMUNICATION Le pôle Applications Satellitaires et Télécommunication est un Pôle de Compétences et d’Innovations (AST PCI) du MEDDE localisé au CETE SO, à compétence sur le territoire national. Il est au service de toutes les entités du MEDDE. Son rôle est de travailler sur l’utilisation et la promotion des technologies satellitaires auprès des services du ministère. 1.2. LE SUJET DE STAGE 1.2.1. LE CONTEXTE GÉNÉRAL Les enjeux liés à la caractérisation de l’occupation du sol sont nombreux : étude de l’étalement urbain et de la consommation des territoires naturels, cartographie des corridors écologiques, préservation des terres agricoles, évolution de la forêt, etc… Pour étudier ces thématiques, un certains nombre de projets ont été réalisés dans le service du MEDDE1. Les méthodologies de ces études sont principalement basées sur l’exploitation de bases de données existantes de type RGE2 de l’IGN3 (BD Topo, BD Ortho), fichiers fonciers, registre parcellaire graphique, etc… De nos jours, plus de 170 satellites d’observation de la terre tournent autour de la terre, chacun ayant ses caractéristiques [2]. Les dernières générations sont équipées les nouvelles techniques qui permettent d’avoir une observation de la terre en haute qualité. Grâce à ces ressources abondantes, l’utilisation de ses produits, dans ce cas-là, c’est l’image satellitaire, devient de plus en plus large. En même temps, les méthodes de traitement automatique pour extraire de l’information sont également de plus en plus perfectionnées. En raison d’avantage apporté par l’application de l’imagerie satellitaire, plusieurs organismes ou instituts sont établis, chacun ayant les objectifs différents mais contribuant au développement des applications satellitaires. En fait, les méthodologies sont basées sur l’utilisation des bases de données existantes : la base de données IGN (BD Topo, BD Ortho), Corine Land Cover et la BD Parcellaire [2]. Par contre, le problème est que ces données ne sont pas toujours spatialisées. Le problème vient de plusieurs axes : la date d’acquisition de l’image qui provoque le décalage entre les données dans la base et l’image utilisée; la méthodologie pour produire les données (environ 25% des études ne sont pas spatialisées selon la 1 MEDDE : Ministère de l’Ecologie, du Développement Durable, de l’Energie RGE : Le référentiel à Grande Echelle est au cœur de la mission de service publique de l’IGN, dont il constitue la production phare. Il décrit le territoire national et l'occupation de son sol de façon précise, complète et homogène 3 IGN : L’information Grandeur Nature. IGN est l’Institut national de l’information géographie forestière Page 9 sur 75 2 Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols requête de CETE SO); la lenteur de mise à jour des données (3 à 5 ans pour la BD Topo, 5 ans pour BD Parcellaire, 6 ans pour Corine Land Cover). Ces limitations influencent directement à la qualité de la couche d’occupation du sol finale. Malheureusement, il n’existe jamais de bases de données complètes et homogènes pour répondre à toutes les études concernant l’occupation du sol ! En 2012, devant les difficultés et les intérêts de l’utilisation d’images satellites, le Pôle PCI « Applications Satellitaires et Télécommunications » a lancé les projets d’études qui permettent d’envisager l’utilisation de méthodes automatiques pour extraire de l’information à partir d’images satellites en proposant des chaînes de traitements basées sur l’appel d’OTB application. Le résultat est acceptable avec une couche d’occupation finale sur une emprise régionale. Cependant, la détection automatique ne peut donner de classifications correctes qu’avec un nombre de classes relativement restreint (entre 4 et 10 classes) et il y a aussi la confusion entre les classes [5]. Il faut avoir d’autres traitements avec des bases de données complémentaires ou un traitement manuel pour corriger les confusions. La chaîne de traitement n’est pas automatique, il demande de la lancer manuellement étape par étape. En 2013, le Pôle PCI continue à améliorer le résultat obtenu en 2012 en proposant 3 projets d’étude qui couvrent sur 3 volets relatifs :  Automisation de la chaîne de traitement.  Projet de démonstration en appliquant la chaîne de traitement automatique avec la correction manuelle sur l’emprise régionale Rhône-Alpes.  Amélioration de la chaîne de traitement qui consiste à régler le problème de confusion au niveau de la micro-classe et puis une démonstration sur l’emprise régionale de Limousin. Ces projets sont distribués aux 3 stagiaires différents qui travaillent dans une même équipe. Mon stage porte sur le troisième volet qui consiste à améliorer la chaîne de traitement et à livrer une couche d’occupation du sol finale sur l’emprise régionale de Limousin. 1.2.2. LES OBJECTIFS DU STAGE  Amélioration de la chaîne de traitement existant Le résultat de classification par la chaîne de traitement actuel nous permet d’avoir une couche d’occupation du sol dans laquelle les aspects naturels et artificiels sont bien distingués (la surface anthropisée, la formation herbacée, la formation ligneux, la surface en eau, etc…). Les indicateurs statistiques sont bien calculées ensuite et utilisés dans la gestion d’aménagement du territoire. Par contre, cette classification englobe les limitations et les points à améliorer. Il s’agit de la confusion entre les classes, chaque classe correspond à un aspect naturel que l’utilisateur souhaite acquérir via la couche d’occupation du sol. A titre d’exemple, la surface anthropisée apparait parfois au milieu des champs qui sont partout l’information herbacée. Les espaces vertes dans la ville sont vraiment difficiles à classifier tandis qu’ils sont entourés par les bâtiments et les routes. De plus, le problème de bordures se passe souvent dans la plupart de résultats classifiés, etc… L’objectif principal de cette partie est de définir et d’intégrer à la chaîne de traitement une méthodologie rigoureuse d’estimation de la qualité de classification avec un ou les indicateurs statistiques. A travers ces indicateurs, une proposition de correction est rédigée à l’utilisateur. La correction est exécutée ensuite de manière automatique afin de diminuer ou supprimer les problèmes de confusions et de bordures. L’utilisateur obtiendra finalement une couche d’occupation du sol plus concrète, plus correcte et plus proche de ceux qui sont en réalité.  Mise en œuvre sur la région du Limousin Sous la commande de DREAL Limousin sur le thème de la gestion économe de l’espace et la dynamique d’évolution de l’occupation des espaces en terme de tâche urbaine et d’espaces agricoles Page 10 sur 75 Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols et forestiers en Limousin, l’objectif principal de cette partie est orientée vers le passage en opérationnel des méthodes télédétections et la méthodologie proposée dans ce manuscrit pour cartographie de l’occupation du sol sur l’emprise régional de Limousin. Le travail est divisé alors en deux parties : La première partie est de mettre en œuvre la méthodologie développée dans la chaîne de traitement sur une petite zone de test sur Limousin. L’intérêt de ce travail est de tester pour mettre en évidence l’efficacité des algorithmes proposés et de chercher les paramètres nécessaires pour intégrer à la chaîne de traitement. Les jeux de paramètres jouent un rôle important qui influencent directement à la qualité de la couche d’occupation du sol. Les paramètres choisis sont ceux qui donnent la meilleure classification sur la zone de test. La deuxième partie est de préparer et de livrer une cartographie de la couverture du sol en 4 classes (territoires artificialisés, territoires agricoles, forêts, milieux naturels, milieux semi-naturels et surface en eau) ou en 6 classes (zones bâties, zones non bâties, surfaces en eau, formations arborées, pelouses et prairies, terres arables) sur le territoire de la région Limousin. Les jeux de paramétrages sont repris dans l’étude paramétrique réalisée dans la première partie. 1.2.3. LA CONTRIBUTION DU STAGE Le travail présenté dans ce rapport porte sur l’amélioration de la chaîne de traitement existe et une livraison finale au client. Plus précisément, il s’agit de l’amélioration de la qualité de la couche d’occupation du sol et une livraison d’une cartographie de la couverture du sol en 6 classes sur l’emprise régional Limousin. La première contribution est le développement d’une méthodologie rigoureuse qui permet de détecter les micro-classes suspectes en analysant le résultat des algorithmes d’apprentissage (non supervisé et supervisé) appliqués dans la chaîne de traitement. Puis, une proposition automatique est proposée en se basant sur les micro-classes suspectes afin d’améliorer le résultat de classification. A noter que la correction adresse à avoir un résultat acceptable (pas parfait mais bon avec le taux de confusion et l’indicateur de la qualité satisfaits aux utilisateurs). La deuxième contribution est de participer à la livraison d’une cartographie de la couverture du sol sur l’emprise régionale à DREAL Limousin en utilisant la chaîne de traitement combinée avec la méthodologie développée dans la première contribution et la base de données exogènes si nécessaire. 1.2.4. L’ENVIRONNEMENT DE TRAVAIL 1.2.4.1. LES DONNEES Le projet d’étude roule sur l’utilisation d’images satellites RapidEye4, disponibles gratuitement dans le cadre du programme Géosud5. La date d’acquision est de mars à septembre en 2010. La résolution spatiale est de 5m. Les images sont encodées en 16 bits (65 536 niveaux de couleur possibles) et formé par 5 bandes spectrales (rouge, vert, bleu, red-edge et proche infrarouge). L’orthorectification est faite par IGN avec ses propres algorithmes pour une précision planimétrique de l’ordre du mètre et de ne pas présenter l’égalisation radiométrique entre les images concaténées. 4 RapidEye : constellation de 5 satellites en orbite héliosynchrone à 630 km d’altitude, fauchée de 77km Dans ce sens, les images ont été obtenues grâce à une aide de l’Etat gérée par l’Agence Nationale de la Recherche au titre du programme d’investissements d’avenir EQUIPEX GEOSUD. Plus d’informations sur http://www.geosud.teledetection.fr/ Page 11 sur 75 5 Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols Figure 1 : Mosaïque des images RapidEye disponibles sur la région du Limousin et visualisation sur une petite zone Les différentes étapes de la méthodologie font parfois appel à des bases de données exogènes. Ces bases de données sont la BD Topo, le RPG 2011 et Corine Land Cover. 1.2.4.2. LES LOGICIELS Les logiciels utilisés dans le cadre de ce projet sont les logiciels libres avec les fonctionnalités puissantes qui permettent de travailler facilement et efficacement avec les images géométriques. Quantum GIS (QGIS), système d’information géographique libre et multi-plateforme, a été utilisé pour les aspects cartographiques, la visualisation de vecteur et rasteur, et certains traitements sur les vecteurs. SpatiaLite est une extension spatiale pour SQLite permettant à ce gestionnaire de bases de données de gérer des fichiers vecteurs. Elle a été utilisée pour automatise certains traitements sur les vecteurs afin d’intégrer les opérations correspondantes dans la chaîne de traitements. Orféo ToolBox (OTB) est un outil pour le traitement d’images par télédétection. Il a été utilisé, via les OTB applications, pour effectuer les différents traitements liés à l’extraction d’informations à partir des images satellites. Enfin, l’ensemble des étapes automatisées et leur enchaînement ont été codés en scripts Python, un langage de programmation multi-paradigmes et multi-plateformes qui permet entre autres d’utiliser les conjointements de 3 logiciels précédents. Page 12 sur 75 Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols Les nombreux tests de l’étude ont été exécutés sous Linux, à travers des machines virtuelles mises en place sur six stations de travail pour lesquels nous avons mis en place d’une organisation de travail distribué. Cela nous a permis de travailler conjointement sur plusieurs machines en parallèle, notamment pour les phases chronophages de calibrage de la méthodologie. 1.2.5. L’ORGANISATION DU MANUSCRIT Après le chapitre d’introduction, les méthodologies sont présentées dans le chapitre 1. Elles sont divisées en deux parties : la première partie est la chaîne de traitement automatique développée par les travaux coopératifs des deux autres stagiaires; la deuxième partie est mon travail d’amélioration de la qualité de classification afin d’avoir une couche de la couverture du sol plus fine. La mise en œuvre de la méthodologie est présentée dans le chapitre 2. Cette partie comprend 3 sous-parties : la première partie porte sur l’étude paramétrique qui étudie l’influence des jeux paramétriques sur le résultat de classification (nombre de la micro-classe par macro-classe, les seuils appliqués sur la détection des micro-classes suspectes, les textures); la deuxième partie consiste à démontrer les résultats étape par étape dans la chaîne de traitement sur la zone de Limoges; la dernière traite de la cartographie de la couverture du sol sur l’emprise régionale de Limousin. Le dernier chapitre est la conclusion des travaux réalisés, une perspective est également abordée pour le travail dans l’avenir. Page 13 sur 75 Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols 2. LA MÉTHODOLOGIE Cette partie a pour objectif de présenter plus détaillé la méthodologie effectuée dans la chaîne de traitement. La présentation consiste tout d’abord à décrire les grandes lignes théoriques et méthodologie de la chaine de traitement et de l’amélioration proposée par le stagiaire, puis à faire un zoom spécifique sur le travail effectué dans ce contexte. 2.1. INTRODUCTION La méthodologie développée dans le cadre de cartographie de la couverture du sol se compose principalement deux grands aspects : Le premier aspect consiste à présenter les principes dans la chaîne de traitement. Il comprend deux parties :  La transformation d’une image satellite en couche d’occupation des sols : il s’agit d’une transformation de pixels caractérisés par leur radiométrie/couleur en pixels caractérisés par une labellisation thématique/sémantique. En appliquant les algorithmes d’apprentissage (supervisé et non supervisé) combinées avec l’indication des jeux de paramètres, une couche d’occupation est calculée par la labellisation de l’ensemble des pixels de l’image en fonction d’information d’apprentissage.  L’étude paramétrique : le choix des jeux paramétriques impacte directement à la qualité de classification. La seconde partie présente de la méthode afin d’obtenir le jeu de paramètre optimal avec lequel la couche d’occupation des sols est en meilleure qualité possible. La méthode, dans ce cas-là, est de définir une stratégie de manière intelligente pour travailler avec une grande combinaison de paramètres possibles dont le temps de calcul final est acceptable et réalisable. La qualité d’apprentissage dépend fortement de la qualité d’informations d’apprentissage. Le deuxième aspect porte sur l’objectif d’améliorer les informations d’apprentissage par la suppression ou par la réaffectation des échantillons de l’une à l’autre classe. La couche de classification améliorée est normalement plus fine et plus spatialisée par rapport la première classification. 2.2. LA CHAINE DE TRAITEMENT La chaîne de traitement se décompose en deux grandes parties : la transformation d’une image en couche d’occupation des sols et une étude paramétrique. Le lien entre ces deux parties peut être schématisé de la façon suivante : Page 14 sur 75 Figure 2 : Principe général Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols 2.2.1. LA TRANSFORMATION D’UNE IMAGE Objectif principal est de transformer une image satellite en couche d’occupation des sols. Cette transformation comprend 3 étapes à réaliser de manière consécutive :  Amélioration des informations d’entrée.  Classification de l’image.  Post traitements. Figure 3 : Principe général de l’extraction d’information d’une image L’ordonnance et la relation des étapes sont présentées dans l’image suivante : Image satellite : Image orthorectifiée sur le territoire d’étude. Elle est importée le format de l’image (TIF, JPEG,…), le type de compression des fichiers (avec ou sans perte), le système de coordonnées de référence en sortie, la profondeur radiométrique (image en 8 bits ou 16 bits), … Paramètres et informations divers : Les paramètres utilisés dans les algorithmes d’apprentissage, dans les fonctions de l’OTB, les liens de répertoire contenant les images, les fichiers utilisés, le mode de travail, … Le noyau de la chaîne: Ses traitements sont décrits plus détaillé dans les parties suivantes. Couche d’occupation des sols : Image de classification sur le territoire régional correspondant à l’image satellite en entrée. Il s’agit aussi une cartographie de la couverture de l’occupation des sols. Chaque pixel est caractérisé par la labellisation thémantique/sémantique en fonction des informations d’apprentissage. Indicateur de qualité : Les informations statistiques extraites par la couche d’occupation des sols qui permettent d’évaluer la qualité de classification (le nombre de pixels bien classifiés, le taux de confusion entre les classes). Elles sont aussi les indicateurs à fournir aux clients qui s’occupent l’étalement urbain, les continuités écologiques. Les genres de l’indicateur sont abordés plus tard. Page 15 sur 75 Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols 2.2.1.1. L’AMELIORATION DES INFORMATIONS D’ENTREE Cette partie a pour objectif de présenter la méthode qui permet d’enrichir les informations d’entrée en ajoutant les informations supplémentaires afin d’obtenir une bonne classification. Les informations d’entrée de la chaîne sont l’image satellite et les entraînements d’apprentissage. ENRICHISSEMENT DE L’IMAGE SATELLITE L’image satellite est formée de manière générale par les bandes radiométriques. Dans notre cas d’étude, il s’agit des images RapidEye encodée en 16 bits (65 536 niveaux de couleurs) qui composent de 5 couches radiométriques (rouge, vert, bleu, red-edge et proche infrarouge). Plus précisément, chaque pixel de l’image est présenté par un vecteur de 5 dimensions avec 65 536 valeurs possibles (de 0 à 65 535) sur chaque composant. La classification automatique de chaque pixel de l’image se fait en fonction des valeurs radiométriques sur chacune de bandes d’information. Les bandes radiométriques : Une image satellite est composée d’une ou plusieurs couches d’informations correspondant aux mesures effectuées dans une partie du spectre lumineux (bande rouge, bande verte, bande bleue, bande du proche infrarouge, …) [4]. Chaque élément du sol (la forêt, la culture, le bâtiment, …) est caractérisé par sa signature spectrale. C'est-à-dire que pour chaque pixel de l’image, on peut trouver l’élément du paysage qu’il a plus de chance de présenter si on connait bien la signature spectrale des différents éléments du paysage. Les signatures spectrales sont normalement sauvegardées dans les bandes radiométriques de l’image satellite donc ses valeurs sont l’information de base pour la classification. Les bandes radiométriques sont visualiables en niveau de gris ou colorisées. Figure 4 : Visualisation d’un même paysage dans différentes bandes de fréquence Dans l’illustration, la culture se voit différemment dans le bleu (sombre) et dans le proche infrarouge (très claire). Les couches texturales : La texture d’une image représente la variation locale des niveaux de gris des pixels. Elle traduit l’organisation particulière d’objets dans un paysage. Autrement dit, la texture définit pour chaque pixel une information sur son entourage (homogénéité ou hétérogénéité). Cela peut être utile pour classifier les différents éléments du paysage [1] [3]. Par exemple, un champ du blé est homogène que le quartier de la ville. L’utilisation des couches texturales peut apporter les informations utiles afin d’avoir une bonne couche d’occupation du sol. Un grand nombre de texture est disponible : Energie, Entropie, Inverse Difference Moment, … Page 16 sur 75 Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols Dans l’étude, on a testé avec 28 textures. Les textures sont calculées par bande radiométrique et dépendent de la taille de la fenêtre qui sera utilisée pour définir la distance caractérisant l’entourage d’un pixel. Les couches indicielles sont obtenues par combinaisons non linéaires de bandes radiométriques. Ces couches permettent de mettre en évidence certains éléments du paysage [3]. Pour exemple, une couche indicielle classique, utilisée dans l’étude, est le NDVI MOD (Normalized Difference Vegetation Index Modified) calculée à partir des bandes rouges, red-edges et proche infrarouge. En utilisant cet indice, l’activité photosynthétique de la végétation au niveau du sol est ajoutée dans l’image d’entrée dont l’intérêt est de discriminer la partie végétale sur le sol. Figure 5 : Exemple de NDVI MOD Dans la figure, à gauche, l’image en vraies couleurs, à droite, la couche NDVI MOD. Les formations de végétations sont plus blanches que les surfaces anthropisées, plus sombres. Certaines zones de végétations apparaissent cependant en noir : ce sont des sols nus agricoles, peu végétalisées, traduisant un niveau de photosynthèse faible, ce qui se traduit par de faibles valeurs de NDVI. Il existe de nombreux indices qui permettent de faire ressortir les différents éléments du paysage. Certains indices utilisent des bandes particulières qui ne sont pas présentées sur tous les capteurs. Le choix des indices à utiliser dépend donc des images satellites utilisées et de la nature de l’information que l’on souhaite extraire. Les indices les plus courants sont présentés en annexe 1. L’apport des nouvelles couches permet d’enrichir l’information générale de chaque pixel et donc d’améliorer potentiellement le résultat de classification. Cependant, la qualité de classification n’augmente pas en fonction de nombre de couches complémentaires empilées. Plusieurs couches inutiles peuvent diminuer la qualité de classification. Le choix des couches à retenir se détermine par dans la partie de l’étude paramétrique. Page 17 sur 75 Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols Figure 7 : Enrichissement des couches d’informations [3] Figure 6 : L’apport des couches d’information complémentaire. Page 18 sur 75 Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols En haut, le résultat de classification issu directement de l’image satellite En bas, le résultat de classification avec ajout de textures et de NDVI MOD. Les confusions entre les surfaces anthropisées et les formations herbacées sont réduites. AMELIORATION DES INFORMATIONS D’APPRENTISSAGE La nomenclature décrit la nature des éléments du sol que l’on cherche à identifier dans la couche d’occupation des sols : surfaces en eau, surfaces arborées, surface herbacées, surfaces anthropisées… Une nomenclature est normalement définie en amont de l’étude selon diverses considérations (besoin de l’utilisateur, cohérences avec d’autres bases de données) [1] [4]. Dans notre étude, la nomenclature retenue se veut cohérente avec la nomenclature mise en place par le groupe de travail national sur l’occupation du sol. Cette nomenclature de référence, née des volontés conjointes de la GDALN et du CERTU, fournit à l’ensemble des utilisateurs et des producteurs de données d’occupation du sol. Les nomenclatures nationales sur la couverture du sol se trouvent dans le tableau 1. Selon la proposition du groupe de travail national, les nomenclatures de la couverture du sol sont classifiées en niveau. Une nomenclature d’un niveau est divisée en les petites nomenclatures appelées « nomenclatures intermédiaires ». Le niveau le plus haut contient les classes plus précisément des éléments du sol. Le découpage en nomenclatures intermédiaires apporte les intérêts potentiels à la classification. Ces intérêts sont discutés dans la partie des informations d’apprentissage. Le choix du niveau et des nomenclatures dépendent du territoire d’étude avec un accord de l’utilisateur. Les informations (ou échantillons) d’apprentissage sont les polygones détourés les zones qui représentent un élément du territoire sur l’image satellite [3]. Chaque polygone (un vecteur) est labellisé selon la nomenclature finale qui réponse à la question de la couche finale de l’utilisateur. Par exemple, dans l’illustration de la figure 7 sur la zone test de Limousin, les polygones sont labellisés en 4 nomenclatures correspondant à la surface en eau (bleue), à la surface d’anthroposée (rouge), aux informations ligneux (verte) et aux formations herbacées (jaune) dont la couche finale sera classifiée en 4 classes. Les valeurs de pixels contenus dans les polygones caractérisent par la suite mathématiquement les classes qu’ils représentent. Les échantillons d’apprentissage sont obtenus par photo-interprétation sur l’image satellite ou par utilisation de bases de données exogènes cohérentes avec l’image en termes de géoréférencement ou de précision spatiale. Les échantillons d’apprentissage jouent un rôle important dans les algorithmes d’apprentissage dont la qualité va influencer directement au résultat de classification. Les échantillons labellisés par une même nomenclature doivent représenter l’hétérogénéité de l’élément du sol dans la zone d’étude [3]. Par exemple, dans notre cas d’étude, la couche finale est classifiée en 4 classes et que nous avons décidé de grouper les zones de culture, les sols nuls, les prairies dans les informations herbacées dont la valeur radiométrique est différente. Pour assurer que ces zones sont bien classifiées, les échantillons d’apprentissage doivent les inclure. Cela permet de classifier toutes les variations de surface herbacée. De plus, les informations d’apprentissage doivent couvrir une surface pas trop mais assez large sur le territoire à classifier. Page 19 sur 75 Traitements automatique d’images satellites pour l’extraction d’informations d’occupation des sols Tableau 1 : Extrait de la nomenclature nationnale – Couverture du sol Page 20 sur 75
- Xem thêm -