Génération de population synthétique localisée

  • Số trang: 78 |
  • Loại file: PDF |
  • Lượt xem: 31 |
  • Lượt tải: 0
nhattuvisu

Đã đăng 26946 tài liệu

Mô tả:

Institut de la Francophonie pour l’Informatique ????? Université de la Rochelle ????? Université Toulouse 1 Capitole ????? Option : Systèmes Intelligents et Multimédia Mémoire de fin de formation pour l’obtention du diplôme de Master Informatique Génération de population synthétique localisée Master 2 - IFI, Septembre 2014 Rédigé par : Paterne Chokki Sous la supervision de : M. Benoit Gaudou et M. Frédéric Amblard Année académique : 2013 - 2014 « Génération de population synthétique localisée » Table des matières Table des matières IV Remerciements V Résumé VI Abstract VII Liste des figures VIII Liste des tableaux X Introduction 1 Chapitre 1 Synthèse bibliographique 1.1 Concepts de base . . . . . . . . . . . . . . . . . . . . . . 1.1.1 Concepts de base sur la population synthétique 1.1.2 Concepts de base sur la localisation . . . . . . . 1.1.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 4 4 1.2 Etat de l’art sur la génération de population synthétique . . . . . 1.2.1 Générateurs de population synthétique avec échantillon 1.2.1.1 Approche SR (Synthethic Reconstruction) . . . . 1.2.1.2 Approche CO (Combinatorial Optimization) . . 1.2.2 Générateurs de population synthétique sans échantillon 1.2.2.1 Approche (Gargiulo et al., 2010) . . . . . . . . . 1.2.2.2 Approche (Barthelemy & Toint, 2013) . . . . . . 1.2.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 5 5 6 7 7 8 9 1.3 Etat de l’art sur la localisation de la population . . . . . . . 1.3.1 Approches de localisation sans données auxiliaires 1.3.2 Approches de localisation avec données auxiliaires 1.3.2.1 Approche ’binary dasymetric mapping’ . . 1.3.2.2 Approche ’limiting variables’ . . . . . . . . 1.3.2.3 Approche ’street weighting’ . . . . . . . . . 1.3.2.4 Approche ’address point weighting’ . . . . 1.3.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 10 13 13 14 14 15 16 Chapitre 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Approche méthodologique 18 2.1 Proposition d’une approche pour la génération de population synthétique : GenPopSyn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Paterne Chokki 18 Page I « Génération de population synthétique localisée » 2.1.1 2.1.2 2.1.3 Présentation générale de l’approche GenPopSyn . . . . . . . . . . . . . 2.1.1.1 Détermination et subdivision des caractéristiques de la population synthétique . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1.2 Génération de la population synthétique en ne prenant en compte que les caractéristiques principales . . . . . . . . . . . 2.1.1.2.1 Génération des ménages non complexes et des individus de ces ménages . . . . . . . . . . . . . . . . . . 2.1.1.2.1.1 Correction des incohérences entre les données agrégées . . . . . . . . . . . . . . . . . . . . . . 2.1.1.2.1.2 Détermination des combinaisons possibles entre les différentes valeurs des caractéristiques primaires des individus . . . . . . . . . . . . . . . 2.1.1.2.1.3 Détermination des combinaisons possibles entre les différentes valeurs des attributs des ménages 2.1.1.2.1.4 Détermination des différentes compositions possibles des ménages non complexes . . . . . . . 2.1.1.2.1.5 Détermination des différents poids associés aux différentes compositions des ménages non complexes . . . . . . . . . . . . . . . . . . . . . . . 2.1.1.2.1.6 Génération des ménages non complexes et des individus de ces ménages . . . . . . . . . . . . 2.1.1.2.2 Génération des ménages complexes et des individus de ces ménages . . . . . . . . . . . . . . . . . . . . . . 2.1.1.2.2.1 Détermination des données des ménages complexes et des individus de ces ménages . . . . 2.1.1.2.2.2 Génération des ménages complexes et des individus de ces ménages . . . . . . . . . . . . . 2.1.1.3 Prise en compte des caractéristiques secondaires dans la génération de la population synthétique . . . . . . . . . . . . . . 2.1.1.3.1 Détermination des combinaisons possibles entre les caractéristiques primaires et les caractéristiques secondaires . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1.3.2 Détermination des poids associés aux différentes combinaisons des caractéristiques primaires et des caractéristiques secondaires . . . . . . . . . . . . . . . . . . 2.1.1.3.3 Affectation des caractéristiques secondaires . . . . . Plateforme utilisée pour l’implémentation de l’approche GenPopSyn . Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Proposition d’une approche pour la localisation de la population synthétique : SpatPopSyn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Présentation générale de l’approche SpatPopSyn . . . . . . . . . . . . . Paterne Chokki 18 18 20 20 21 21 22 22 24 26 27 28 29 30 30 31 31 32 33 33 34 Page II « Génération de population synthétique localisée » 2.2.1.1 Détermination du nombre d’individus sur chaque cellule de la grille . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1.1.1 Approche ’areal weighting’ (Goodchild & Lam, 1980) 2.2.1.1.2 Approche ’pycnophylactic interpolation’ (Tobler, 1979) 2.2.1.1.3 Approche (Roy & Blaschke, 2014) . . . . . . . . . . . 2.2.1.1.4 Approche (Kim & Choi, 2011) . . . . . . . . . . . . . 2.2.1.1.5 Approche ’street weighting’ (Riebel & Buffalino, 2005) 2.2.1.1.6 Approche ’overlaid network’ (Xie, 1995) . . . . . . . 2.2.1.2 Affectation d’une cellule à chaque individu de la population synthétique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Plateforme utilisée pour l’implémentation de l’approche SpatPopSyn . Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.2 2.2.3 Chapitre 3 Expérimentations 34 35 37 38 39 39 41 41 42 42 44 3.1 Parametres d’entrées et indicateur d’évaluation des approches : GenPopSyn et SpatPopSyn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 Paramètres d’entrées de l’approche GenPopSyn . . . . . . . . . . . . . 3.1.2 Paramètres d’entrées de l’approche SpatPopSyn . . . . . . . . . . . . . 3.1.3 Indicateur d’évaluation des approches GenPopSyn et SpatPopSyn . . . 3.1.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Expérimentations des approches : GenPopSyn et SpatPopSyn . . . . . . . . . 3.2.1 Présentation des cas d’études . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1.1 Données de Can Tho . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1.2 Données des municipalités d’Abrest et de Bellerive-sur-Allier 3.2.2 Résultats d’expérimentations et interprétations . . . . . . . . . . . . . . 3.2.2.1 Capacité de l’approche GenPopSyn selon la taille de la population à générer et en absence de données significatives . . . . 3.2.2.2 Capacité de l’approche GenPopSyn selon la taille de la population à générer et en présence de données significatives . . . 3.2.2.3 Comparaison de l’approche GenPopSyn à l’approche (Gargiulo et al., 2010) . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.2.4 Capacité de l’approche SpatPopSyn à localiser une population selon le type de données disponibles . . . . . . . . . . . . 3.2.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 44 44 44 46 46 47 47 49 50 50 52 55 56 57 Conclusion 59 Annexe A : Algorithme de l’approche IPU (Ye et al., 2009) 60 Annexe B : Différentes distributions de l’approche GenPopSyn pour les municipalités d’Abrest et de Bellerive-sur-Allier 61 Paterne Chokki Page III « Génération de population synthétique localisée » Annexe C : Résultats de localisation de la population de Ninh Kieu en utilisant une grille 63 Références bibliographiques 65 Paterne Chokki Page IV « Génération de population synthétique localisée » Remerciements Nous tenons à saisir cette occasion pour adresser nos profonds remerciements et nos profondes reconnaissances à : • M. Benoit Gaudou et M. Frédéric Amblard, pour leurs précieux conseils et leurs orientations tout au long de notre recherche. • Tout le personnel du Laboratoire IRIT - Equipe SMAC principalement à Thai, Thomas et Charles pour leur assistance sur le lieu de stage. • Tous les professeurs de l’IFI, qui ont su assurer sans faille notre formation tout au long des trois semestres passés au sein de l’institut. À tous ceux qui ont contribué de près ou de loin à l’élaboration de ce travail, je vous dis Merci. Paterne Chokki Page V « Génération de population synthétique localisée » Résumé Les modèles à base d’agents sont devenus aujourd’hui des outils importants d’aide à la décision pour la gestion des systèmes socio-environnementaux complexes. Ces modèles pour la plupart nécessitent généralement des ensembles de données réalistes pour initialiser et calibrer le système étudié. Une reproduction précise des états initiaux du système est donc extrêmement importante afin d’obtenir des prévisions fiables à partir du modèle. Notre étude s’inscrit dans le cadre du projet ANR Genstar et consiste à proposer une approche qui permettra de générer une population synthétique réaliste et de la localiser dans l’environnement d’étude. L’approche proposée est ainsi subdivisée en deux modules : un module pour la génération de la population synthétique (GenPopSyn) et un autre module pour la localisation de la population (SpatPopSyn). Le module GenPopSyn est en effet une approche qui contrairement aux approches existantes ne nécessite pas beaucoup de données disponibles sur la population pour son bon fonctionnement et qui se base en partie sur l’approche (Ye et al., 2007). Quant au module SpatPopSyn, il est un regroupement de 6 approches existantes : (Goodchild & Lam, 1980), (Tobler, 1979), (Roy & Blaschke, 2014), (Kim & Choi, 2011), (Riebel & Buffalino, 2005), (Xie, 1995) qui ont été choisies pour localiser la population selon le type de données disponibles sur l’environnement d’étude. En effet, l’avantage majeur du module SpatPopSyn est qu’il permet de choisir pour un environnement d’étude donné l’approche qui convient le mieux parmi les 6 approches implémentées. Les résultats d’expérimentations du module GenPopSyn sur des données INSEE de deux municipalités de la France (Abrest et Bellerive-sur-Allier) et sur des données de la ville de Can Tho (Vietnam) montrent dans l’ensemble que l’approche proposée donne de très bons résultats par rapport aux données réelles (soit un taux de correspondance d’environ 95%) et également par rapport à l’approche (Gargiulo et al., 2010). Des résultats de localisation de la population de Ninh Kieu, Can Tho en utilisant deux approches du module SpatPopSyn ont été également présentés. Mots clés : modèles à base d’agents, population synthétique, localisation. Paterne Chokki Page VI « Génération de population synthétique localisée » Abstract Agent-based models have now become important tools of decision support for the management of complex socio-environmental systems. These models generally require a lot of realistic datasets to initialize and calibrate the system studied. An accurate reproduction of the initial states of the system is extremely important to obtain reliable results from the model predictions. Our study is part of the ANR Genstar project and aims providing an approach that will generate a realistic synthetic population and locate it in the environment studied. The proposed approach is thus divided into two modules : a module for generating the synthetic population (GenPopSyn) and another module for the location of the population (SpatPopSyn). The GenPopSyn module is indeed an approach that unlike existing approaches does not require a lot of data available on the population for its operation and is based in part on the approach (Ye et al., 2007). The SpatPopSyn module is a collection of six existing approaches : (Goodchild & Lam, 1980), (Tobler, 1979), (Roy & Blaschke, 2014), (Kim & Choi, 2011), (Riebel & Buffalino, 2005), (Xie, 1995) that have been chosen to locate the population depending on the available data on the environment studied. Indeed, the major advantage of SpatPopSyn module is that it allows choosing for a chosen environment the right approach among the 6 approaches implemented. The results of experiments of the GenPopSyn module on INSEE data from two municipalities in France (Abrest and Bellerive-sur-Allier) and on data from the city of Can Tho (Vietnam) show overall that the proposed approach gives good results against actual data (either a match rate of about 95%) and also compared to the approach (Gargiulo et al., 2010). The results of localization of the population of Ninh Kieu, Can Tho using two approaches of the SpatPopSyn module are also presented. Keywords : Agent-based models, Synthetic population, Localization. Paterne Chokki Page VII « Génération de population synthétique localisée » Liste des figures 1.1 1.2 1.3 2.1 2.2 2.3 2.4 2.5 2.6 2.7 3.1 3.2 3.3 3.4 Exemple d’application de l’approche ’Point interpolation’ (Martin, 2009) . . . Exemple d’application de l’approche ’pycnophylactic interpolation’ (Deichmann, 1996) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exemple d’application de l’approche (Rase, 2000) . . . . . . . . . . . . . . . . . Diagramme de classe des entités de l’approche GenPopSyn . . . . . . . . . . . Organigramme de détermination de la meilleure approche de localisation à utiliser dans l’approche SpatPopSyn . . . . . . . . . . . . . . . . . . . . . . . . Diagramme de classe des entités de l’approche SpatPopSyn . . . . . . . . . . . Exemple d’intersection entre l’environnement d’étude et une grille (Milego & Ramos, 2011) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exemple d’affectation d’une cellule à une seule zone source (Milego & Ramos, 2011) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exemple d’intersection entre les bâtiments de l’environnement d’étude et une grille (Roy & Blaschke, 2014) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diagramme de classe des entités de l’approche GenPopSyn et SpatPopSyn . . Données SIG de Ninh Kieu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Contours des différents quartiers de Ninh Kieu . . . . . . . . . . . . . . . . . . Distribution des individus par âge de l’approche (Garguilo et al., 2010). Les barres correspondent aux moyennes obtenues avec 100 générations et l’erreur correspond à l’écart-type de ces 100 générations. . . . . . . . . . . . . . . . . . Distribution des individus par âge de l’approche GenPopSyn. Les barres correspondent aux moyennes obtenues avec 5 générations et l’erreur correspond à l’écart-type de ces 5 générations qui est nul dans ce cas. . . . . . . . . . . . . Paterne Chokki 11 12 12 20 35 36 36 37 39 42 50 51 56 56 Page VIII « Génération de population synthétique localisée » Liste des tableaux 1.1 Récapitulatif des approches dans le domaine de la localisation de la population 16 2.1 2.2 2.3 Caractéristiques primaires des individus et des ménages . . . . Différentes étapes de l’approche GenPopSyn . . . . . . . . . . . Tableau comparatif des plateformes de simulation multi-agents 2011) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.11 3.12 3.13 3.14 3.15 3.16 . . . . . . . . . . . . . . . . (Amouroux, . . . . . . . . Paramètres d’entrées de l’approche GenPopSyn . . . . . . . . . . . . . . . . . Paramètres d’entrées de l’approche SpatPopSyn . . . . . . . . . . . . . . . . . Distribution des ménages par taille et par niveau de vie du ménage dans les zones urbaines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribution des ménages par taille et par niveau de vie du ménage dans les zones rurales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribution des individus par âge et par sexe de l’individu dans les zones urbaines (à gauche) et dans les zones rurales (à droite) . . . . . . . . . . . . . Données sur les populations des quartiers de Ninh Kieu . . . . . . . . . . . . . Distribution du nombre de ménages par type de la municipalité d’Abrest (INSEE, 1999) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribution du nombre de ménages par type de la municipalité de Bellerivesur-Allier (INSEE, 1999) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribution du nombre d’individus par âge et par statut familial (sauf le statut familial autre) de la municipalité d’Abrest (INSEE, 1999) . . . . . . . . . . Distribution du nombre d’individus par âge et par statut familial (sauf le statut familial autre) de la municipalité de Bellerive-sur-Allier (INSEE, 1999) . . Distribution du nombre d’individus par âge de la municipalité d’Abrest (INSEE, 1999) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribution du nombre d’individus par âge de la municipalité de Bellerivesur-Allier (INSEE, 1999) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribution du nombre de ménages par taille de la municipalité d’Abrest (INSEE, 1999) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribution du nombre de ménages par taille de la municipalité de Bellerivesur-Allier (INSEE, 1999) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Paramètres d’entrées spécifiques à l’expérimentation : Capacité de l’approche GenPopSyn selon la taille de la population à générer et en absence de données significatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Résultats de l’expérimentation : Capacité de l’approche GenPopSyn selon la taille de la population à générer et en absence de données significatives . . . Paterne Chokki 19 32 43 45 46 48 48 49 49 50 50 51 52 52 52 53 53 53 54 Page IX « Génération de population synthétique localisée » 3.17 Paramètres d’entrées spécifiques à l’expérimentation : Capacité de l’approche GenPopSyn selon la taille de la population à générer et en présence de données significatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.18 Résultats de l’expérimentation : Capacité de l’approche GenPopSyn selon la taille de la population à générer et en présence de données significatives . . . 3.19 Paramètres d’entrées spécifiques à l’expérimentation : Capacité de l’approche SpatPopSyn à localiser une population selon le type de données disponibles . 3.20 Résultats de l’expérimentation : Capacité de l’approche SpatPopSyn à localiser une population selon le type de données disponibles . . . . . . . . . . . . Paterne Chokki 54 55 57 57 Page X « Génération de population synthétique localisée » Introduction Ces dernières années ont été marquées par une augmentation considérable du nombre de modèles implémentés dans le domaine de la simulation des systèmes complexes. Ces modèles pour la plupart nécessitent généralement un grand nombre d’agents pour initialiser le système étudié. En conséquence, il s’avère important d’avoir un ensemble de données entièrement désagrégées sur ces agents ce qui n’est pas souvent disponible en raison de confidentialité ou de coût. Pour pallier à ce problème, on peut combiner différentes sources de données pour obtenir une représentation individuelle des agents, approchant le plus fidèlement possible la structure de corrélation de la population réelle. Ce processus est connu sur le nom de population synthétique. Un autre élément important dont la plupart des modèles ont également besoin est aussi la localisation des agents dans l’environnement d’étude. Au cours de ces dernières années, des approches ont été proposées pour pallier différemment à ces deux problèmes. Dans le cas de la génération de population synthétique, deux grandes catégories sont à souligner : ceux se basant sur un échantillon pour la génération de la population synthétique donc dépendant fortement de la structure des données de l’échantillon et une seconde catégorie regroupant les approches ne nécessitant pas d’échantillon mais qui nécessitent en entrées plus de données agrégées sur la population pour la génération ce qui n’est pas souvent disponible. En ce qui concerne la localisation des agents, plusieurs approches ont déjà été proposées selon le type de données disponibles et s’adaptent plus ou moins bien aux données réelles. Au vu de cela, notre travail se focalise plus sur la génération de la population synthétique vu que dans ce domaine les approches existantes nécessitent en général beaucoup de données en entrées et que dans la réalité ces données sont indisponibles. Ainsi, les objectifs de notre étude sont : d’une part proposer une approche qui permettra de générer une population synthétique (les ménages ainsi que les individus de ces ménages) en utilisant le minimum de données disponibles et d’autre part de pouvoir localiser ces différents agents générés dans l’environnement d’étude en utilisant l’approche qui convient le mieux parmi les approches de localisation existantes. C’est dans cette optique que s’inscrit mon stage intitulé : « Génération de population synthétique localisée ». Notre travail s’inscrit en effet dans le cadre du projet ANR Genstar qui a pour objectif de proposer des méthodes généralistes pour la génération d’une population synthétique, sa localisation et la génération du réseau social existant entre les agents de la population synthétique générée. Le travail effectué au cours de cette étude s’est déroulé au sein de l’équipe SMAC (Systèmes Multi-Agents Coopératifs) du Laboratoire IRIT (Institut de Recherche en Informatique de Toulouse). Cette équipe créée en 1994 est aujourd’hui le résultat d’un processus auto-organisationnel de chercheurs convergeant de plusieurs horizons : intelligence artificielle distribuée, systèmes distribués, simulation sociale, optimisation par recherche locale. Les travaux de cette équipe portent sur la conception de systèmes complexes et plus Paterne Chokki Page 1 « Génération de population synthétique localisée » particulièrement de systèmes auto-adaptatifs à fonctionnalité émergente. Pour rendre compte du travail effectué tout au long de cette étude, nous avons rédigé ce rapport qui s’organise en trois sections : Dans la section 1, nous ferons une synthèse bibliographique de notre étude. Dans la section 2, nous présentons les approches proposées pour la génération de la population synthétique et pour la localisation de la population synthétique. Dans la section 3, nous présentons les expérimentations effectuées. Enfin, nous concluons ce rapport par le bilan des apports de notre contribution ainsi que par la présentation rapide de quelques perspectives ouvertes par notre travail. Paterne Chokki Page 2 « Génération de population synthétique localisée » Chapitre 1 Synthèse bibliographique 1.1 Concepts de base Dans cette section, nous présentons quelques notions importantes en relation avec nos deux domaines d’étude à savoir : population synthétique et localisation. 1.1.1 Concepts de base sur la population synthétique Le terme « population synthétique » renvoie à trois idées complémentaires à savoir (MobiSim, 2012) : • l’idée d’une population artificielle composée d’agents auxquels sont associées des caractéristiques désagrégées (niveau n). • l’idée d’une population construite à partir des données connues au niveau agrégé n+1 du recensement. • l’idée d’une population dont la structure approche le plus fidèlement possible celle de la population cible. En d’autres termes, une population synthétique est une population artificielle générée à base des données agrégées sur la population cible et dont les caractéristiques sont suffisamment détaillées et bien choisies pour qu’elle puisse être considérée comme une image de la population cible. D’autres termes qui seraient aussi importants d’expliquer sont : données désagrégées (micro-données ou données brutes) et données agrégées. Les données désagrégées sont des observations immédiates des attributs ou caractéristiques de chaque entité de la population et qui n’ont pas été traitées au niveau statistique. Elles fournissent ainsi des informations complètes sur les membres de la population étudiée ainsi que les caractéristiques liées à ces membres. Contrairement aux micro-données, les données agrégées sont mises à la disponibilité des usagers après qu’elles aient été traitées au niveau statistique. En effet, les données agrégées sont constituées à partir d’un fichier de micro-données et sont les résultats d’une combinaison de différentes mesures. Elles peuvent provenir également de données sur un échantillon de la population et sont généralisées à toute la population. On les obtient en faisant une addition ou une moyenne des valeurs individuelles obtenues. Elles permettent d’obtenir des informations sur des groupes qui ont des caractéristiques communes. Nous tenons également à expliquer rapidement quelques notions sur les ménages car dans le cadre de notre étude, la génération de la population synthétique revient à générer les ménages ainsi que les individus de ces ménages. Deux types de ménages sont à distinguer dans notre cadre d’étude : les ménages non complexes et les ménages complexes. En effet, les ménages non complexes regroupent les ménages monoparentaux (parent vivant avec ces Paterne Chokki Page 3 « Génération de population synthétique localisée » enfants uniquement), les ménages en couple avec ou sans enfants (deux parents avec ou sans leurs enfants uniquement) et les ménages célibataires (individu seul). Tous les autres types de ménages par exemple les ménages en collocation, ou des ménages composés de plusieurs familles ou encore des ménages en couple ou monoparentaux qui sont avec d’autres adultes, etc sont regroupés dans les ménages complexes (INSEE, 1999). 1.1.2 Concepts de base sur la localisation La localisation dans le cadre de notre étude consiste à affecter une position exacte (coordonnées X et Y) dans l’environnement d’étude à chaque individu de la population synthétique tout en respectant au mieux les données disponibles sur la répartition géographique. Deux termes sont utilisés dans notre rapport pour designer les données disponibles sur un environnement d’étude. Il s’agit de : données sources et de données auxiliaires. Les données sources représentent en effet les données disponibles sur les différentes zones composant l’environnement d’étude qu’on appelle zones sources. Ces données sources sont pour la plupart, les frontières délimitant chaque zone source ainsi que la population de chacune de ces zones sources. Quant aux données auxiliaires, elles sont des données supplémentaires disponibles sur l’environnement d’étude et qui permettent d’améliorer le processus de localisation. Ces données auxiliaires sont pour la plupart des données SIG disponibles sur l’environnement d’étude comme des données sur les routes, les bâtiments (résidentiels ou non), la végétation, les cours d’eau, etc. 1.1.3 Conclusion Somme toute, nous avons présenté quelques notions de base sur la population synthétique et sur la localisation permettant ainsi de mieux appréhender ce qui sera expliqué dans les chapitres suivants. Ainsi après ce détour important, nous présentons dans le chapitre suivant plusieurs approches existantes dans le domaine de la génération de population synthétique. 1.2 Etat de l’art sur la génération de population synthétique Dans cette section, nous allons présenter les approches existantes dans le domaine de la génération de population synthétique. En effet, au cours de ces dernières années, un grand nombre d’approches ont été proposées afin de générer des populations synthétiques réalistes (proches des données réelles). Ces approches peuvent se regrouper en deux catégories à savoir : les générateurs de population synthétique avec échantillon et ceux sans échantillon. Les paragraphes suivants se chargent de présenter plus en détails ces différentes approches et de faire ressortir les avantages et limites de chacune d’elles. Paterne Chokki Page 4 « Génération de population synthétique localisée » 1.2.1 Générateurs de population synthétique avec échantillon Comme leur nom l’indique, les générateurs de population synthétique avec échantillon sont des générateurs qui nécessitent mis à part des données agrégées sur la population cible de données désagrégées sur un échantillon de la population afin de générer cette population. Deux principales approches sont à souligner au sein de cette catégorie. Il s’agit de l’approche SR (Synthethic Reconstruction) (Wilson & Pownall, 1976) et de l’approche CO (Combinatorial Optimization) (Voas & Williamson, 2000). Dans les sections suivantes, nous présentons plus en détails ces différentes approches en mettant en relief les avantages et limites de chacune d’elles. 1.2.1.1 Approche SR (Synthethic Reconstruction) L’approche SR (Wilson & Pownall, 1976) est l’une des approches à échantillon les plus utilisées pour la génération de population synthétique. Le principe de génération de cette approche se décompose en deux étapes (Müller & Axhausen, 2010) : la première étape que l’on nomme ’Fitting’ consiste à déterminer la distribution détaillée de la population à générer (distribution de la population dans les différentes combinaisons des variables prises en compte dans la population synthétique) en utilisant la méthode IPF (Iterative Proportional Fitting) (Deming & Stephan, 1940) et la seconde étape nommée ’Generation’ consiste à se baser sur les résultats obtenus au cours de l’étape ’Fitting’ afin de générer la population synthétique en utilisant la méthode de Monte Carlo. La méthode IPF (Iterative Proportional Fitting) (Deming & Stephan, 1940) consiste en effet à déterminer la distribution détaillée de la population cible en adaptant les données désagrégées d’un échantillon de la population aux données agrégées disponibles sur la population. Un exemple d’application de l’algorithme IPF est présenté dans (Müller & Axhausen, 2010). En utilisant l’approche IPF, on ne peut générer que les individus ou les ménages de la population synthétique ce qui n’est pas très avantageux dans certains modèles et dans notre cadre d’étude qui nécessite la génération de ces deux éléments. Ainsi pour pallier à ce problème, des approches ont été proposées pour pouvoir générer simultanément les individus et les ménages de la population synthétique. Au nombre de ces approches, nous avons l’approche de (Arentze et al., 2007) qui consiste à utiliser un concept appelé ’relation matrix’ pour convertir les distributions au niveau individuel en distributions au niveau des ménages permettant ainsi de contrôler ces deux niveaux de distribution (pour plus de détails se référer à (Müller & Axhausen, 2010)). Une autre approche proposée dans (Guo & Bhat, 2007) consiste à utiliser une technique similaire à la procédure IPF pour générer simultanément ces deux niveaux de distributions. L’approche IPU (Iterative Proportional Updating) proposée par (Ye et al., 2009) permet également de pallier au problème de l’IPF. En effet, l’idée de base derrière la méthode IPU est de faire en sorte que les distributions à la fois au niveau des ménages et au niveau individuel puissent être adaptées aussi étroitement que possible. Pour ce faire, la procédure IPF est d’abord appliquer au niveau des ménages, puis au niveau individuel produisant ainsi deux ensembles de distributions distinctes et indépendantes. Les Paterne Chokki Page 5 « Génération de population synthétique localisée » distributions obtenues sont ensuite utilisées pour ajuster et attribuer des poids pour chaque catégorie de ménage ou personne de façon itérative jusqu’à ce que les distributions des ménages et des personnes correspondent précisément à la distribution connue de la population. Un exemple d’application de l’algorithme IPU est présenté à l’Annexe A. En ce qui concerne la seconde étape de l’approche SR, c’est la méthode de Monte Carlo qui est la plus souvent utilisée pour générer la population synthétique. Elle consiste en effet à assigner séquentiellement des caractéristiques à chaque élément (individu ou ménage) de la population synthétique en se basant sur les probabilités conditionnelles qui peuvent être obtenues à base des résultats fournis par l’étape ’Fitting’. Prenons l’exemple ci-dessous pour expliquer le principe de la méthode de Monte Carlo. Supposons qu’on souhaite affecter les valeurs des caractéristiques : ’a’, ’b’, ’c’ aux différents éléments (individus ou ménages) de la population synthétique. Pour la première affectation, prenons par exemple la caractéristique ’a’, on se base sur les probabilités inconditionnelles de cette caractéristique (c’est-à- dire les probabilités des différentes valeurs possibles de ’a’). Supposons que les valeurs possibles de ’a’ sont : {a1 , a2 , a3 , a4 , a5 } avec les probabilités cumulées respectives : {0.12, 0.25, 0.52, 0.74, 1.0}. La méthode de Monte Carlo consiste à générer un nombre réel aléatoire entre 0 et 1 et à affecter à chaque élément (individu ou ménage) la valeur de la caractéristique ’a’ dont la probabilité cumulée est la plus proche supérieure du nombre généré, ainsi de suite jusqu’à affecter une valeur de ’a’ à tous les différents éléments de la population synthétique. On procède de la même façon pour les autres caractéristiques sauf qu’ici on utilise les probabilités conditionnelles de la caractéristique actuelle à assigner par rapport aux caractéristiques déjà assignées. C’est-à-dire si on suppose que la deuxième caractéristique à assigner est ’b’ alors on se basera sur les probabilités p(b|a) pour cette seconde affectation D’après les résultats d’expérimentations présentés dans (Ye et al., 2009) pour la génération des populations de certaines zones du comté de Maricopa (Arizona-Etats-Unis), l’approche SR donne de très bons résultats en général surtout dans le cas où les données d’entrées sont cohérentes et que l’échantillon utilisé pour la génération est très représentatif soit de l’ordre de 10% minimum de la population cible. Ainsi, l’un des problèmes de l’approche SR est la nécessité d’un échantillon représentatif ce qui n’est pas très souvent disponible. Un autre problème est sa dépendance aux données de l’échantillon ce qui fait que si les données de l’échantillon ne sont pas correctes ou sont peu significatives ou encore si elles ne contiennent pas toutes les caractéristiques à prendre en compte dans la population synthétique, l’approche SR donne des résultats qui sont dans l’ensemble biaisés. 1.2.1.2 Approche CO (Combinatorial Optimization) Une seconde approche qui est la plus souvent utilisée dans la littérature pour la génération de population à base d’échantillon est l’approche CO (Combinatorial Optimization) (Voas & Williamson, 2000). Cette approche consiste à créer zone par zone la population synthétique en se basant sur les distributions disponibles des différentes combinaisons des variables dans ces différentes zones et sur des données désagrégées disponibles sur un échantillon de la population dans l’ensemble de ces zones. Notons que les zones dont on parle ici sont en effet des sous parties contenues dans l’environnement d’étude. Supposons qu’on Paterne Chokki Page 6 « Génération de population synthétique localisée » souhaite générer la population du Vietnam, une sous partie de cet environnement d’étude qu’on appelle zone ici serait par exemple Hanoi. Le principe de génération de l’approche CO est de créer séparément la population synthétique pour chaque zone de l’environnement d’étude, en adaptant un sous-ensemble de l’échantillon aux distributions disponibles sur chaque zone. Pour cela, un sous-ensemble des ménages de l’échantillon ainsi que les individus de ces ménages est aléatoirement choisi, mais en prenant en compte que ce sous-ensemble corresponde bien au nombre de ménages et d’individus de la zone à générer. Une fois ce choix effectué, une mesure statistique (corrélation ou RSSZ m (Huang & Williamson, 2001) ou différence) est ensuite calculée pour mesurer l’ajustement de ce sous-ensemble aux distributions connues sur les caractéristiques dans la zone. Après ceci, un ménage (y compris les individus du ménage) du sous-ensemble est remplacé aléatoirement avec un autre ménage (y compris les individus du ménage) de l’échantillon, et la mesure statistique est encore calculée. Si l’ajustement global du nouveau sous-ensemble est meilleur à celui du sous-ensemble original, alors le remplacement est maintenu, sinon le sous-ensemble original est maintenu. Ce processus est répété jusqu’à ce qu’une valeur seuil de la mesure statistique de comparaison soit atteinte, ou une limite d’itérations définie par l’utilisateur est atteinte. Un exemple d’application de cette méthode est présenté dans (Huang & Williamson, 2001). D’après les résultats d’expérimentations présentés dans (Huang & Williamson, 2001) pour la génération des populations de quelques districts et quartiers de la Grande-Bretagne, l’approche CO donne de très bons résultats en général et présente également de meilleurs résultats par rapport à l’approche SR mais nécessite cependant plus de temps d’exécution que l’approche SR. Notons également que l’approche CO est confrontée comme l’approche SR au problème de nécessité d’un échantillon représentatif de la population cible et aussi au problème de dépendance aux données de l’échantillon. 1.2.2 Générateurs de population synthétique sans échantillon Vu que les approches précédentes de génération de population étaient confrontées au problème de disponibilité de données désagrégées significatives sur un échantillon de la population, d’autres approches ont été alors proposées pour pallier à ce problème en ne prenant en compte que les données agrégées sur la population cible d’où leur nom de générateurs de population synthétique sans échantillon. Au nombre de ces approches, nous pouvons citer : l’approche (Gargiulo et al., 2010) et l’approche (Barthelemy & Toint, 2013) qui ont le plus retenu notre attention. 1.2.2.1 Approche (Gargiulo et al., 2010) L’approche (Gargiulo et al., 2010) est une approche sans échantillon qui a été utilisée pour générer la population (les ménages ainsi que les individus) d’Auvergne (France). Le principe de génération de cette approche est subdivisé en quatre étapes à savoir (Gargiulo et al., 2010) : Paterne Chokki Page 7 « Génération de population synthétique localisée » • la première étape consiste à générer tous les individus de la population en se basant sur les données disponibles sur la pyramide des âges des individus. • la seconde étape consiste à déterminer les différentes probabilités de composition des ménages selon le type de ménage et selon les âges des individus du ménage en se basant sur les données disponibles suivantes : la distribution du nombre de ménages par taille du ménage (le nombre d’individus dans le ménage) et la distribution du nombre d’individus par âge et par type de ménage (célibataire, couple avec enfants et sans enfants et ménage monoparental), la distribution des naissances selon l’âge de la mère et selon l’ordre de naissance, la distribution du nombre de ménages en couple selon la différence d’âge entre les partenaires du couple. • la troisième étape consiste à créer progressivement l’ensemble des ménages de la population synthétique en utilisant le processus suivant : pour un ménage donné, on choisit au premier abord le type et le nombre d’individus dans le ménage et ensuite l’âge de la personne de référence en se basant sur les probabilités déterminées au niveau de la deuxième étape. En fonction des données précédentes sur le ménage et principalement sur l’âge de la personne de référence du ménage, on choisit les autres individus en se basant également sur les probabilités déterminées au niveau de la deuxième étape et en vérifiant surtout aussi que cet individu existe dans la liste des individus déterminés à la première étape. Sinon on arrête la génération de ce ménage et on recommence la génération d’un autre ménage jusqu’à ce que le nombre d’individus restants soit nul ou qu’il ne soit plus possible de combiner les individus restants pour former un type de ménage donné. • la quatrième et dernière étape consiste à générer les ménages complexes en combinant de façon aléatoire les individus restants au niveau de la troisième étape vu qu’aucune information n’est disponible pour ces types de ménages. Les résultats d’expérimentations présentés dans (Gargiulo et al., 2010) montrent que les populations générées par cette approche sont pour la plupart en accord avec l’ensemble de données statistiques disponibles. De plus, elle présente de meilleurs résultats par rapport à l’approche IPU d’après des résultats d’expérimentations obtenus en comparant l’approche (Gargiulo et al., 2010) et l’approche IPU dans (Lenormand & Deffuant, 2013) pour la génération des 1310 municipalités d’Auvergne. Cependant, cette approche nécessite plus de données pour son bon fonctionnement surtout les données de la deuxième étape qui ne sont pas toujours disponibles en réalité. De plus, cette approche ne donne pas de très bons résultats dans le cas d’une population ayant une petite taille (comme le cas de la municipalité d’Abrest en Auvergne qui contient environ 2600 individus repartis dans 960 ménages) (Gargiulo et al., 2010). 1.2.2.2 Approche (Barthelemy & Toint, 2013) L’approche (Barthelemy & Toint, 2013) est quant à elle une approche utilisée pour générer la population (les ménages ainsi que les individus) de chacune des municipalités de Paterne Chokki Page 8 « Génération de population synthétique localisée » Belgique. Le principe de génération de cette approche est subdivisé en trois étapes : • la première étape notée ’Ind’ consiste à générer les individus de chaque municipalité avec leurs caractéristiques en se basant sur les données agrégées disponibles sur chacun des municipalités. Dans le cas où les données ne sont pas disponibles pour une municipalité donnée, on utilise des données disponibles sur la population du district (regroupement de municipalités) ou de la Belgique dans le cas échéant. • la seconde étape notée ’Hh’ consiste à déterminer la distribution des différents ménages dans les différentes combinaisons des caractéristiques des ménages en se basant sur les données disponibles sur les ménages. Cette étape revient à une détermination de solution d’un problème d’optimisation plus précisément à la résolution de systèmes d’équations linéaires avec n variables et m inconnues La méthode de maximisation de l’entropie est utilisée dans cette approche pour résoudre ce problème d’optimisation. • la troisième étape permet de générer un à un les ménages ainsi que les individus de la population synthétique en se basant sur les données générées lors des deux étapes précédentes. Cette étape consiste en premier lieu à choisir la catégorie du ménage (c’està-dire un type de ménage et la taille du ménage) en se basant sur les données de la deuxième étape, après ce choix on choisit aléatoirement la personne de référence du ménage et ensuite les autres individus pour remplir le ménage. Pour chacun des individus, on vérifie si l’individu existe dans la liste des individus restants. Si oui, on ajoute l’individu au ménage. Si non, on cherche l’individu dans les ménages déjà générés et si on trouve on permute ces individus à condition de garder la consistance du ménage qu’on veut changer. Dans le cas où l’individu est introuvable, la génération est terminée. Les résultats d’expérimentations présentés dans (Barthelemy & Toint, 2013) montrent que les populations générées par cette approche sont bien en accord avec l’ensemble de données statistiques disponibles et montrent également que cette approche présente de meilleurs résultats par rapport à l’approche (Guo & Bhat, 2007). Cependant comme l’approche (Gargiulo et al., 2010), cette approche nécessite plus de données pour son bon fonctionnement. Mais comparativement à l’approche (Gargiulo et al., 2010), elle permet d’utiliser des données agrégées d’un niveau supérieur lorsque les données agrégées au niveau inferieur ne sont pas disponibles ce qui est un véritable avantage par rapport à l’approche (Gargiulo et al., 2010) et de plus elle permet de faire des permutations dans la génération des ménages permettant ainsi de maximiser le taux de correspondance par rapport à l’approche (Gargiulo et al., 2010). 1.2.3 Conclusion Somme toute, nous avons présenté deux grandes catégories d’approches pour la génération de la population synthétique. La première catégorie qui regroupe les approches se basant sur un échantillon pour la génération est confrontée à deux principaux problèmes qui sont : la nécessité d’un échantillon représentatif de la population et la dépendance des Paterne Chokki Page 9
- Xem thêm -