Institut de la Francophonie pour l’Informatique
?????
Université de la Rochelle
?????
Université Toulouse 1 Capitole
?????
Option : Systèmes Intelligents et Multimédia
Mémoire de fin de formation pour l’obtention du
diplôme de Master Informatique
Génération de population synthétique
localisée
Master 2 - IFI, Septembre 2014
Rédigé par :
Paterne Chokki
Sous la supervision de :
M. Benoit Gaudou et M. Frédéric Amblard
Année académique : 2013 - 2014
« Génération de population synthétique localisée »
Table des matières
Table des matières
IV
Remerciements
V
Résumé
VI
Abstract
VII
Liste des figures
VIII
Liste des tableaux
X
Introduction
1
Chapitre 1
Synthèse bibliographique
1.1 Concepts de base . . . . . . . . . . . . . . . . . . . . . .
1.1.1 Concepts de base sur la population synthétique
1.1.2 Concepts de base sur la localisation . . . . . . .
1.1.3 Conclusion . . . . . . . . . . . . . . . . . . . . . .
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
3
4
4
1.2 Etat de l’art sur la génération de population synthétique . . . . .
1.2.1 Générateurs de population synthétique avec échantillon
1.2.1.1 Approche SR (Synthethic Reconstruction) . . . .
1.2.1.2 Approche CO (Combinatorial Optimization) . .
1.2.2 Générateurs de population synthétique sans échantillon
1.2.2.1 Approche (Gargiulo et al., 2010) . . . . . . . . .
1.2.2.2 Approche (Barthelemy & Toint, 2013) . . . . . .
1.2.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
5
5
6
7
7
8
9
1.3 Etat de l’art sur la localisation de la population . . . . . . .
1.3.1 Approches de localisation sans données auxiliaires
1.3.2 Approches de localisation avec données auxiliaires
1.3.2.1 Approche ’binary dasymetric mapping’ . .
1.3.2.2 Approche ’limiting variables’ . . . . . . . .
1.3.2.3 Approche ’street weighting’ . . . . . . . . .
1.3.2.4 Approche ’address point weighting’ . . . .
1.3.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
10
10
13
13
14
14
15
16
Chapitre 2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Approche méthodologique
18
2.1 Proposition d’une approche pour la génération de population synthétique :
GenPopSyn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Paterne Chokki
18
Page I
« Génération de population synthétique localisée »
2.1.1
2.1.2
2.1.3
Présentation générale de l’approche GenPopSyn . . . . . . . . . . . . .
2.1.1.1 Détermination et subdivision des caractéristiques de la population synthétique . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.1.2 Génération de la population synthétique en ne prenant en
compte que les caractéristiques principales . . . . . . . . . . .
2.1.1.2.1 Génération des ménages non complexes et des individus de ces ménages . . . . . . . . . . . . . . . . . .
2.1.1.2.1.1
Correction des incohérences entre les données
agrégées . . . . . . . . . . . . . . . . . . . . . .
2.1.1.2.1.2
Détermination des combinaisons possibles entre
les différentes valeurs des caractéristiques primaires des individus . . . . . . . . . . . . . . .
2.1.1.2.1.3
Détermination des combinaisons possibles entre
les différentes valeurs des attributs des ménages
2.1.1.2.1.4
Détermination des différentes compositions possibles des ménages non complexes . . . . . . .
2.1.1.2.1.5
Détermination des différents poids associés aux
différentes compositions des ménages non complexes . . . . . . . . . . . . . . . . . . . . . . .
2.1.1.2.1.6
Génération des ménages non complexes et des
individus de ces ménages . . . . . . . . . . . .
2.1.1.2.2 Génération des ménages complexes et des individus
de ces ménages . . . . . . . . . . . . . . . . . . . . . .
2.1.1.2.2.1
Détermination des données des ménages complexes et des individus de ces ménages . . . .
2.1.1.2.2.2
Génération des ménages complexes et des individus de ces ménages . . . . . . . . . . . . .
2.1.1.3 Prise en compte des caractéristiques secondaires dans la génération de la population synthétique . . . . . . . . . . . . . .
2.1.1.3.1 Détermination des combinaisons possibles entre les
caractéristiques primaires et les caractéristiques secondaires . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.1.3.2 Détermination des poids associés aux différentes combinaisons des caractéristiques primaires et des caractéristiques secondaires . . . . . . . . . . . . . . . . . .
2.1.1.3.3 Affectation des caractéristiques secondaires . . . . .
Plateforme utilisée pour l’implémentation de l’approche GenPopSyn .
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Proposition d’une approche pour la localisation de la population synthétique :
SpatPopSyn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.1 Présentation générale de l’approche SpatPopSyn . . . . . . . . . . . . .
Paterne Chokki
18
18
20
20
21
21
22
22
24
26
27
28
29
30
30
31
31
32
33
33
34
Page II
« Génération de population synthétique localisée »
2.2.1.1
Détermination du nombre d’individus sur chaque cellule de
la grille . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.1.1.1 Approche ’areal weighting’ (Goodchild & Lam, 1980)
2.2.1.1.2 Approche ’pycnophylactic interpolation’ (Tobler, 1979)
2.2.1.1.3 Approche (Roy & Blaschke, 2014) . . . . . . . . . . .
2.2.1.1.4 Approche (Kim & Choi, 2011) . . . . . . . . . . . . .
2.2.1.1.5 Approche ’street weighting’ (Riebel & Buffalino, 2005)
2.2.1.1.6 Approche ’overlaid network’ (Xie, 1995) . . . . . . .
2.2.1.2 Affectation d’une cellule à chaque individu de la population
synthétique . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Plateforme utilisée pour l’implémentation de l’approche SpatPopSyn .
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.2
2.2.3
Chapitre 3
Expérimentations
34
35
37
38
39
39
41
41
42
42
44
3.1 Parametres d’entrées et indicateur d’évaluation des approches : GenPopSyn
et SpatPopSyn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.1 Paramètres d’entrées de l’approche GenPopSyn . . . . . . . . . . . . .
3.1.2 Paramètres d’entrées de l’approche SpatPopSyn . . . . . . . . . . . . .
3.1.3 Indicateur d’évaluation des approches GenPopSyn et SpatPopSyn . . .
3.1.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Expérimentations des approches : GenPopSyn et SpatPopSyn . . . . . . . . .
3.2.1 Présentation des cas d’études . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1.1 Données de Can Tho . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1.2 Données des municipalités d’Abrest et de Bellerive-sur-Allier
3.2.2 Résultats d’expérimentations et interprétations . . . . . . . . . . . . . .
3.2.2.1 Capacité de l’approche GenPopSyn selon la taille de la population à générer et en absence de données significatives . . . .
3.2.2.2 Capacité de l’approche GenPopSyn selon la taille de la population à générer et en présence de données significatives . . .
3.2.2.3 Comparaison de l’approche GenPopSyn à l’approche (Gargiulo et al., 2010) . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.2.4 Capacité de l’approche SpatPopSyn à localiser une population selon le type de données disponibles . . . . . . . . . . . .
3.2.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
44
44
44
46
46
47
47
49
50
50
52
55
56
57
Conclusion
59
Annexe A : Algorithme de l’approche IPU (Ye et al., 2009)
60
Annexe B : Différentes distributions de l’approche GenPopSyn pour les municipalités d’Abrest et de Bellerive-sur-Allier
61
Paterne Chokki
Page III
« Génération de population synthétique localisée »
Annexe C : Résultats de localisation de la population de Ninh Kieu en utilisant une
grille
63
Références bibliographiques
65
Paterne Chokki
Page IV
« Génération de population synthétique localisée »
Remerciements
Nous tenons à saisir cette occasion pour adresser nos profonds remerciements et nos profondes reconnaissances à :
• M. Benoit Gaudou et M. Frédéric Amblard, pour leurs précieux conseils et leurs orientations tout au long de notre recherche.
• Tout le personnel du Laboratoire IRIT - Equipe SMAC principalement à Thai, Thomas
et Charles pour leur assistance sur le lieu de stage.
• Tous les professeurs de l’IFI, qui ont su assurer sans faille notre formation tout au long
des trois semestres passés au sein de l’institut.
À tous ceux qui ont contribué de près ou de loin à l’élaboration de ce travail, je vous dis
Merci.
Paterne Chokki
Page V
« Génération de population synthétique localisée »
Résumé
Les modèles à base d’agents sont devenus aujourd’hui des outils importants d’aide à
la décision pour la gestion des systèmes socio-environnementaux complexes. Ces modèles
pour la plupart nécessitent généralement des ensembles de données réalistes pour initialiser
et calibrer le système étudié. Une reproduction précise des états initiaux du système est donc
extrêmement importante afin d’obtenir des prévisions fiables à partir du modèle.
Notre étude s’inscrit dans le cadre du projet ANR Genstar et consiste à proposer une approche qui permettra de générer une population synthétique réaliste et de la localiser dans
l’environnement d’étude. L’approche proposée est ainsi subdivisée en deux modules : un
module pour la génération de la population synthétique (GenPopSyn) et un autre module
pour la localisation de la population (SpatPopSyn). Le module GenPopSyn est en effet une
approche qui contrairement aux approches existantes ne nécessite pas beaucoup de données disponibles sur la population pour son bon fonctionnement et qui se base en partie sur
l’approche (Ye et al., 2007). Quant au module SpatPopSyn, il est un regroupement de 6 approches existantes : (Goodchild & Lam, 1980), (Tobler, 1979), (Roy & Blaschke, 2014), (Kim &
Choi, 2011), (Riebel & Buffalino, 2005), (Xie, 1995) qui ont été choisies pour localiser la population selon le type de données disponibles sur l’environnement d’étude. En effet, l’avantage
majeur du module SpatPopSyn est qu’il permet de choisir pour un environnement d’étude
donné l’approche qui convient le mieux parmi les 6 approches implémentées.
Les résultats d’expérimentations du module GenPopSyn sur des données INSEE de deux
municipalités de la France (Abrest et Bellerive-sur-Allier) et sur des données de la ville de
Can Tho (Vietnam) montrent dans l’ensemble que l’approche proposée donne de très bons
résultats par rapport aux données réelles (soit un taux de correspondance d’environ 95%) et
également par rapport à l’approche (Gargiulo et al., 2010). Des résultats de localisation de la
population de Ninh Kieu, Can Tho en utilisant deux approches du module SpatPopSyn ont
été également présentés.
Mots clés : modèles à base d’agents, population synthétique, localisation.
Paterne Chokki
Page VI
« Génération de population synthétique localisée »
Abstract
Agent-based models have now become important tools of decision support for the management of complex socio-environmental systems. These models generally require a lot
of realistic datasets to initialize and calibrate the system studied. An accurate reproduction
of the initial states of the system is extremely important to obtain reliable results from the
model predictions.
Our study is part of the ANR Genstar project and aims providing an approach that will
generate a realistic synthetic population and locate it in the environment studied. The proposed approach is thus divided into two modules : a module for generating the synthetic
population (GenPopSyn) and another module for the location of the population (SpatPopSyn). The GenPopSyn module is indeed an approach that unlike existing approaches does
not require a lot of data available on the population for its operation and is based in part
on the approach (Ye et al., 2007). The SpatPopSyn module is a collection of six existing approaches : (Goodchild & Lam, 1980), (Tobler, 1979), (Roy & Blaschke, 2014), (Kim & Choi,
2011), (Riebel & Buffalino, 2005), (Xie, 1995) that have been chosen to locate the population
depending on the available data on the environment studied. Indeed, the major advantage of
SpatPopSyn module is that it allows choosing for a chosen environment the right approach
among the 6 approaches implemented.
The results of experiments of the GenPopSyn module on INSEE data from two municipalities in France (Abrest and Bellerive-sur-Allier) and on data from the city of Can Tho
(Vietnam) show overall that the proposed approach gives good results against actual data
(either a match rate of about 95%) and also compared to the approach (Gargiulo et al., 2010).
The results of localization of the population of Ninh Kieu, Can Tho using two approaches of
the SpatPopSyn module are also presented.
Keywords : Agent-based models, Synthetic population, Localization.
Paterne Chokki
Page VII
« Génération de population synthétique localisée »
Liste des figures
1.1
1.2
1.3
2.1
2.2
2.3
2.4
2.5
2.6
2.7
3.1
3.2
3.3
3.4
Exemple d’application de l’approche ’Point interpolation’ (Martin, 2009) . . .
Exemple d’application de l’approche ’pycnophylactic interpolation’ (Deichmann, 1996) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Exemple d’application de l’approche (Rase, 2000) . . . . . . . . . . . . . . . . .
Diagramme de classe des entités de l’approche GenPopSyn . . . . . . . . . . .
Organigramme de détermination de la meilleure approche de localisation à
utiliser dans l’approche SpatPopSyn . . . . . . . . . . . . . . . . . . . . . . . .
Diagramme de classe des entités de l’approche SpatPopSyn . . . . . . . . . . .
Exemple d’intersection entre l’environnement d’étude et une grille (Milego &
Ramos, 2011) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Exemple d’affectation d’une cellule à une seule zone source (Milego & Ramos,
2011) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Exemple d’intersection entre les bâtiments de l’environnement d’étude et une
grille (Roy & Blaschke, 2014) . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Diagramme de classe des entités de l’approche GenPopSyn et SpatPopSyn . .
Données SIG de Ninh Kieu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Contours des différents quartiers de Ninh Kieu . . . . . . . . . . . . . . . . . .
Distribution des individus par âge de l’approche (Garguilo et al., 2010). Les
barres correspondent aux moyennes obtenues avec 100 générations et l’erreur
correspond à l’écart-type de ces 100 générations. . . . . . . . . . . . . . . . . .
Distribution des individus par âge de l’approche GenPopSyn. Les barres correspondent aux moyennes obtenues avec 5 générations et l’erreur correspond
à l’écart-type de ces 5 générations qui est nul dans ce cas. . . . . . . . . . . . .
Paterne Chokki
11
12
12
20
35
36
36
37
39
42
50
51
56
56
Page VIII
« Génération de population synthétique localisée »
Liste des tableaux
1.1
Récapitulatif des approches dans le domaine de la localisation de la population 16
2.1
2.2
2.3
Caractéristiques primaires des individus et des ménages . . . .
Différentes étapes de l’approche GenPopSyn . . . . . . . . . . .
Tableau comparatif des plateformes de simulation multi-agents
2011) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
3.10
3.11
3.12
3.13
3.14
3.15
3.16
. . . . . . . .
. . . . . . . .
(Amouroux,
. . . . . . . .
Paramètres d’entrées de l’approche GenPopSyn . . . . . . . . . . . . . . . . .
Paramètres d’entrées de l’approche SpatPopSyn . . . . . . . . . . . . . . . . .
Distribution des ménages par taille et par niveau de vie du ménage dans les
zones urbaines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Distribution des ménages par taille et par niveau de vie du ménage dans les
zones rurales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Distribution des individus par âge et par sexe de l’individu dans les zones
urbaines (à gauche) et dans les zones rurales (à droite) . . . . . . . . . . . . .
Données sur les populations des quartiers de Ninh Kieu . . . . . . . . . . . . .
Distribution du nombre de ménages par type de la municipalité d’Abrest (INSEE, 1999) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Distribution du nombre de ménages par type de la municipalité de Bellerivesur-Allier (INSEE, 1999) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Distribution du nombre d’individus par âge et par statut familial (sauf le statut familial autre) de la municipalité d’Abrest (INSEE, 1999) . . . . . . . . . .
Distribution du nombre d’individus par âge et par statut familial (sauf le statut familial autre) de la municipalité de Bellerive-sur-Allier (INSEE, 1999) . .
Distribution du nombre d’individus par âge de la municipalité d’Abrest (INSEE, 1999) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Distribution du nombre d’individus par âge de la municipalité de Bellerivesur-Allier (INSEE, 1999) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Distribution du nombre de ménages par taille de la municipalité d’Abrest (INSEE, 1999) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Distribution du nombre de ménages par taille de la municipalité de Bellerivesur-Allier (INSEE, 1999) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Paramètres d’entrées spécifiques à l’expérimentation : Capacité de l’approche
GenPopSyn selon la taille de la population à générer et en absence de données
significatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Résultats de l’expérimentation : Capacité de l’approche GenPopSyn selon la
taille de la population à générer et en absence de données significatives . . .
Paterne Chokki
19
32
43
45
46
48
48
49
49
50
50
51
52
52
52
53
53
53
54
Page IX
« Génération de population synthétique localisée »
3.17 Paramètres d’entrées spécifiques à l’expérimentation : Capacité de l’approche
GenPopSyn selon la taille de la population à générer et en présence de données significatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.18 Résultats de l’expérimentation : Capacité de l’approche GenPopSyn selon la
taille de la population à générer et en présence de données significatives . . .
3.19 Paramètres d’entrées spécifiques à l’expérimentation : Capacité de l’approche
SpatPopSyn à localiser une population selon le type de données disponibles .
3.20 Résultats de l’expérimentation : Capacité de l’approche SpatPopSyn à localiser une population selon le type de données disponibles . . . . . . . . . . . .
Paterne Chokki
54
55
57
57
Page X
« Génération de population synthétique localisée »
Introduction
Ces dernières années ont été marquées par une augmentation considérable du nombre
de modèles implémentés dans le domaine de la simulation des systèmes complexes. Ces modèles pour la plupart nécessitent généralement un grand nombre d’agents pour initialiser le
système étudié. En conséquence, il s’avère important d’avoir un ensemble de données entièrement désagrégées sur ces agents ce qui n’est pas souvent disponible en raison de confidentialité ou de coût. Pour pallier à ce problème, on peut combiner différentes sources de
données pour obtenir une représentation individuelle des agents, approchant le plus fidèlement possible la structure de corrélation de la population réelle. Ce processus est connu sur
le nom de population synthétique. Un autre élément important dont la plupart des modèles
ont également besoin est aussi la localisation des agents dans l’environnement d’étude.
Au cours de ces dernières années, des approches ont été proposées pour pallier différemment à ces deux problèmes. Dans le cas de la génération de population synthétique,
deux grandes catégories sont à souligner : ceux se basant sur un échantillon pour la génération de la population synthétique donc dépendant fortement de la structure des données de l’échantillon et une seconde catégorie regroupant les approches ne nécessitant pas
d’échantillon mais qui nécessitent en entrées plus de données agrégées sur la population
pour la génération ce qui n’est pas souvent disponible. En ce qui concerne la localisation des
agents, plusieurs approches ont déjà été proposées selon le type de données disponibles et
s’adaptent plus ou moins bien aux données réelles.
Au vu de cela, notre travail se focalise plus sur la génération de la population synthétique vu que dans ce domaine les approches existantes nécessitent en général beaucoup de
données en entrées et que dans la réalité ces données sont indisponibles.
Ainsi, les objectifs de notre étude sont : d’une part proposer une approche qui permettra
de générer une population synthétique (les ménages ainsi que les individus de ces ménages)
en utilisant le minimum de données disponibles et d’autre part de pouvoir localiser ces
différents agents générés dans l’environnement d’étude en utilisant l’approche qui convient
le mieux parmi les approches de localisation existantes.
C’est dans cette optique que s’inscrit mon stage intitulé : « Génération de population
synthétique localisée ».
Notre travail s’inscrit en effet dans le cadre du projet ANR Genstar qui a pour objectif
de proposer des méthodes généralistes pour la génération d’une population synthétique, sa
localisation et la génération du réseau social existant entre les agents de la population synthétique générée. Le travail effectué au cours de cette étude s’est déroulé au sein de l’équipe
SMAC (Systèmes Multi-Agents Coopératifs) du Laboratoire IRIT (Institut de Recherche en
Informatique de Toulouse). Cette équipe créée en 1994 est aujourd’hui le résultat d’un processus auto-organisationnel de chercheurs convergeant de plusieurs horizons : intelligence
artificielle distribuée, systèmes distribués, simulation sociale, optimisation par recherche locale. Les travaux de cette équipe portent sur la conception de systèmes complexes et plus
Paterne Chokki
Page 1
« Génération de population synthétique localisée »
particulièrement de systèmes auto-adaptatifs à fonctionnalité émergente.
Pour rendre compte du travail effectué tout au long de cette étude, nous avons rédigé
ce rapport qui s’organise en trois sections : Dans la section 1, nous ferons une synthèse bibliographique de notre étude. Dans la section 2, nous présentons les approches proposées
pour la génération de la population synthétique et pour la localisation de la population synthétique. Dans la section 3, nous présentons les expérimentations effectuées. Enfin, nous
concluons ce rapport par le bilan des apports de notre contribution ainsi que par la présentation rapide de quelques perspectives ouvertes par notre travail.
Paterne Chokki
Page 2
« Génération de population synthétique localisée »
Chapitre 1
Synthèse bibliographique
1.1
Concepts de base
Dans cette section, nous présentons quelques notions importantes en relation avec nos
deux domaines d’étude à savoir : population synthétique et localisation.
1.1.1
Concepts de base sur la population synthétique
Le terme « population synthétique » renvoie à trois idées complémentaires à savoir (MobiSim, 2012) :
• l’idée d’une population artificielle composée d’agents auxquels sont associées des caractéristiques désagrégées (niveau n).
• l’idée d’une population construite à partir des données connues au niveau agrégé n+1
du recensement.
• l’idée d’une population dont la structure approche le plus fidèlement possible celle de
la population cible.
En d’autres termes, une population synthétique est une population artificielle générée à
base des données agrégées sur la population cible et dont les caractéristiques sont suffisamment détaillées et bien choisies pour qu’elle puisse être considérée comme une image de la
population cible.
D’autres termes qui seraient aussi importants d’expliquer sont : données désagrégées
(micro-données ou données brutes) et données agrégées. Les données désagrégées sont des
observations immédiates des attributs ou caractéristiques de chaque entité de la population
et qui n’ont pas été traitées au niveau statistique. Elles fournissent ainsi des informations
complètes sur les membres de la population étudiée ainsi que les caractéristiques liées à ces
membres. Contrairement aux micro-données, les données agrégées sont mises à la disponibilité des usagers après qu’elles aient été traitées au niveau statistique. En effet, les données
agrégées sont constituées à partir d’un fichier de micro-données et sont les résultats d’une
combinaison de différentes mesures. Elles peuvent provenir également de données sur un
échantillon de la population et sont généralisées à toute la population. On les obtient en
faisant une addition ou une moyenne des valeurs individuelles obtenues. Elles permettent
d’obtenir des informations sur des groupes qui ont des caractéristiques communes.
Nous tenons également à expliquer rapidement quelques notions sur les ménages car
dans le cadre de notre étude, la génération de la population synthétique revient à générer les
ménages ainsi que les individus de ces ménages. Deux types de ménages sont à distinguer
dans notre cadre d’étude : les ménages non complexes et les ménages complexes. En effet,
les ménages non complexes regroupent les ménages monoparentaux (parent vivant avec ces
Paterne Chokki
Page 3
« Génération de population synthétique localisée »
enfants uniquement), les ménages en couple avec ou sans enfants (deux parents avec ou sans
leurs enfants uniquement) et les ménages célibataires (individu seul). Tous les autres types
de ménages par exemple les ménages en collocation, ou des ménages composés de plusieurs
familles ou encore des ménages en couple ou monoparentaux qui sont avec d’autres adultes,
etc sont regroupés dans les ménages complexes (INSEE, 1999).
1.1.2
Concepts de base sur la localisation
La localisation dans le cadre de notre étude consiste à affecter une position exacte (coordonnées X et Y) dans l’environnement d’étude à chaque individu de la population synthétique tout en respectant au mieux les données disponibles sur la répartition géographique.
Deux termes sont utilisés dans notre rapport pour designer les données disponibles sur
un environnement d’étude. Il s’agit de : données sources et de données auxiliaires. Les données sources représentent en effet les données disponibles sur les différentes zones composant l’environnement d’étude qu’on appelle zones sources. Ces données sources sont pour
la plupart, les frontières délimitant chaque zone source ainsi que la population de chacune
de ces zones sources. Quant aux données auxiliaires, elles sont des données supplémentaires disponibles sur l’environnement d’étude et qui permettent d’améliorer le processus
de localisation. Ces données auxiliaires sont pour la plupart des données SIG disponibles
sur l’environnement d’étude comme des données sur les routes, les bâtiments (résidentiels
ou non), la végétation, les cours d’eau, etc.
1.1.3
Conclusion
Somme toute, nous avons présenté quelques notions de base sur la population synthétique et sur la localisation permettant ainsi de mieux appréhender ce qui sera expliqué dans
les chapitres suivants. Ainsi après ce détour important, nous présentons dans le chapitre
suivant plusieurs approches existantes dans le domaine de la génération de population synthétique.
1.2
Etat de l’art sur la génération de population synthétique
Dans cette section, nous allons présenter les approches existantes dans le domaine de la
génération de population synthétique. En effet, au cours de ces dernières années, un grand
nombre d’approches ont été proposées afin de générer des populations synthétiques réalistes (proches des données réelles). Ces approches peuvent se regrouper en deux catégories
à savoir : les générateurs de population synthétique avec échantillon et ceux sans échantillon. Les paragraphes suivants se chargent de présenter plus en détails ces différentes approches et de faire ressortir les avantages et limites de chacune d’elles.
Paterne Chokki
Page 4
« Génération de population synthétique localisée »
1.2.1
Générateurs de population synthétique avec échantillon
Comme leur nom l’indique, les générateurs de population synthétique avec échantillon
sont des générateurs qui nécessitent mis à part des données agrégées sur la population cible
de données désagrégées sur un échantillon de la population afin de générer cette population.
Deux principales approches sont à souligner au sein de cette catégorie. Il s’agit de l’approche SR (Synthethic Reconstruction) (Wilson & Pownall, 1976) et de l’approche CO (Combinatorial Optimization) (Voas & Williamson, 2000). Dans les sections suivantes, nous présentons plus en détails ces différentes approches en mettant en relief les avantages et limites
de chacune d’elles.
1.2.1.1
Approche SR (Synthethic Reconstruction)
L’approche SR (Wilson & Pownall, 1976) est l’une des approches à échantillon les plus
utilisées pour la génération de population synthétique. Le principe de génération de cette
approche se décompose en deux étapes (Müller & Axhausen, 2010) : la première étape que
l’on nomme ’Fitting’ consiste à déterminer la distribution détaillée de la population à générer (distribution de la population dans les différentes combinaisons des variables prises
en compte dans la population synthétique) en utilisant la méthode IPF (Iterative Proportional Fitting) (Deming & Stephan, 1940) et la seconde étape nommée ’Generation’ consiste à
se baser sur les résultats obtenus au cours de l’étape ’Fitting’ afin de générer la population
synthétique en utilisant la méthode de Monte Carlo.
La méthode IPF (Iterative Proportional Fitting) (Deming & Stephan, 1940) consiste en
effet à déterminer la distribution détaillée de la population cible en adaptant les données
désagrégées d’un échantillon de la population aux données agrégées disponibles sur la population. Un exemple d’application de l’algorithme IPF est présenté dans (Müller & Axhausen, 2010).
En utilisant l’approche IPF, on ne peut générer que les individus ou les ménages de la
population synthétique ce qui n’est pas très avantageux dans certains modèles et dans notre
cadre d’étude qui nécessite la génération de ces deux éléments. Ainsi pour pallier à ce problème, des approches ont été proposées pour pouvoir générer simultanément les individus
et les ménages de la population synthétique. Au nombre de ces approches, nous avons l’approche de (Arentze et al., 2007) qui consiste à utiliser un concept appelé ’relation matrix’ pour
convertir les distributions au niveau individuel en distributions au niveau des ménages permettant ainsi de contrôler ces deux niveaux de distribution (pour plus de détails se référer à
(Müller & Axhausen, 2010)). Une autre approche proposée dans (Guo & Bhat, 2007) consiste
à utiliser une technique similaire à la procédure IPF pour générer simultanément ces deux
niveaux de distributions. L’approche IPU (Iterative Proportional Updating) proposée par
(Ye et al., 2009) permet également de pallier au problème de l’IPF. En effet, l’idée de base
derrière la méthode IPU est de faire en sorte que les distributions à la fois au niveau des ménages et au niveau individuel puissent être adaptées aussi étroitement que possible. Pour
ce faire, la procédure IPF est d’abord appliquer au niveau des ménages, puis au niveau individuel produisant ainsi deux ensembles de distributions distinctes et indépendantes. Les
Paterne Chokki
Page 5
« Génération de population synthétique localisée »
distributions obtenues sont ensuite utilisées pour ajuster et attribuer des poids pour chaque
catégorie de ménage ou personne de façon itérative jusqu’à ce que les distributions des ménages et des personnes correspondent précisément à la distribution connue de la population.
Un exemple d’application de l’algorithme IPU est présenté à l’Annexe A.
En ce qui concerne la seconde étape de l’approche SR, c’est la méthode de Monte Carlo
qui est la plus souvent utilisée pour générer la population synthétique. Elle consiste en effet
à assigner séquentiellement des caractéristiques à chaque élément (individu ou ménage) de
la population synthétique en se basant sur les probabilités conditionnelles qui peuvent être
obtenues à base des résultats fournis par l’étape ’Fitting’. Prenons l’exemple ci-dessous pour
expliquer le principe de la méthode de Monte Carlo. Supposons qu’on souhaite affecter les
valeurs des caractéristiques : ’a’, ’b’, ’c’ aux différents éléments (individus ou ménages) de la
population synthétique. Pour la première affectation, prenons par exemple la caractéristique
’a’, on se base sur les probabilités inconditionnelles de cette caractéristique (c’est-à- dire les
probabilités des différentes valeurs possibles de ’a’). Supposons que les valeurs possibles de
’a’ sont : {a1 , a2 , a3 , a4 , a5 } avec les probabilités cumulées respectives : {0.12, 0.25, 0.52, 0.74,
1.0}. La méthode de Monte Carlo consiste à générer un nombre réel aléatoire entre 0 et 1 et
à affecter à chaque élément (individu ou ménage) la valeur de la caractéristique ’a’ dont la
probabilité cumulée est la plus proche supérieure du nombre généré, ainsi de suite jusqu’à
affecter une valeur de ’a’ à tous les différents éléments de la population synthétique. On procède de la même façon pour les autres caractéristiques sauf qu’ici on utilise les probabilités
conditionnelles de la caractéristique actuelle à assigner par rapport aux caractéristiques déjà
assignées. C’est-à-dire si on suppose que la deuxième caractéristique à assigner est ’b’ alors
on se basera sur les probabilités p(b|a) pour cette seconde affectation
D’après les résultats d’expérimentations présentés dans (Ye et al., 2009) pour la génération des populations de certaines zones du comté de Maricopa (Arizona-Etats-Unis), l’approche SR donne de très bons résultats en général surtout dans le cas où les données d’entrées sont cohérentes et que l’échantillon utilisé pour la génération est très représentatif soit
de l’ordre de 10% minimum de la population cible. Ainsi, l’un des problèmes de l’approche
SR est la nécessité d’un échantillon représentatif ce qui n’est pas très souvent disponible. Un
autre problème est sa dépendance aux données de l’échantillon ce qui fait que si les données de l’échantillon ne sont pas correctes ou sont peu significatives ou encore si elles ne
contiennent pas toutes les caractéristiques à prendre en compte dans la population synthétique, l’approche SR donne des résultats qui sont dans l’ensemble biaisés.
1.2.1.2
Approche CO (Combinatorial Optimization)
Une seconde approche qui est la plus souvent utilisée dans la littérature pour la génération de population à base d’échantillon est l’approche CO (Combinatorial Optimization)
(Voas & Williamson, 2000). Cette approche consiste à créer zone par zone la population synthétique en se basant sur les distributions disponibles des différentes combinaisons des variables dans ces différentes zones et sur des données désagrégées disponibles sur un échantillon de la population dans l’ensemble de ces zones. Notons que les zones dont on parle
ici sont en effet des sous parties contenues dans l’environnement d’étude. Supposons qu’on
Paterne Chokki
Page 6
« Génération de population synthétique localisée »
souhaite générer la population du Vietnam, une sous partie de cet environnement d’étude
qu’on appelle zone ici serait par exemple Hanoi.
Le principe de génération de l’approche CO est de créer séparément la population synthétique pour chaque zone de l’environnement d’étude, en adaptant un sous-ensemble de
l’échantillon aux distributions disponibles sur chaque zone. Pour cela, un sous-ensemble
des ménages de l’échantillon ainsi que les individus de ces ménages est aléatoirement choisi,
mais en prenant en compte que ce sous-ensemble corresponde bien au nombre de ménages
et d’individus de la zone à générer. Une fois ce choix effectué, une mesure statistique (corrélation ou RSSZ m (Huang & Williamson, 2001) ou différence) est ensuite calculée pour
mesurer l’ajustement de ce sous-ensemble aux distributions connues sur les caractéristiques
dans la zone. Après ceci, un ménage (y compris les individus du ménage) du sous-ensemble
est remplacé aléatoirement avec un autre ménage (y compris les individus du ménage) de
l’échantillon, et la mesure statistique est encore calculée. Si l’ajustement global du nouveau
sous-ensemble est meilleur à celui du sous-ensemble original, alors le remplacement est
maintenu, sinon le sous-ensemble original est maintenu. Ce processus est répété jusqu’à ce
qu’une valeur seuil de la mesure statistique de comparaison soit atteinte, ou une limite d’itérations définie par l’utilisateur est atteinte. Un exemple d’application de cette méthode est
présenté dans (Huang & Williamson, 2001).
D’après les résultats d’expérimentations présentés dans (Huang & Williamson, 2001)
pour la génération des populations de quelques districts et quartiers de la Grande-Bretagne,
l’approche CO donne de très bons résultats en général et présente également de meilleurs
résultats par rapport à l’approche SR mais nécessite cependant plus de temps d’exécution
que l’approche SR. Notons également que l’approche CO est confrontée comme l’approche
SR au problème de nécessité d’un échantillon représentatif de la population cible et aussi au
problème de dépendance aux données de l’échantillon.
1.2.2
Générateurs de population synthétique sans échantillon
Vu que les approches précédentes de génération de population étaient confrontées au
problème de disponibilité de données désagrégées significatives sur un échantillon de la
population, d’autres approches ont été alors proposées pour pallier à ce problème en ne
prenant en compte que les données agrégées sur la population cible d’où leur nom de générateurs de population synthétique sans échantillon. Au nombre de ces approches, nous
pouvons citer : l’approche (Gargiulo et al., 2010) et l’approche (Barthelemy & Toint, 2013)
qui ont le plus retenu notre attention.
1.2.2.1
Approche (Gargiulo et al., 2010)
L’approche (Gargiulo et al., 2010) est une approche sans échantillon qui a été utilisée
pour générer la population (les ménages ainsi que les individus) d’Auvergne (France). Le
principe de génération de cette approche est subdivisé en quatre étapes à savoir (Gargiulo
et al., 2010) :
Paterne Chokki
Page 7
« Génération de population synthétique localisée »
• la première étape consiste à générer tous les individus de la population en se basant
sur les données disponibles sur la pyramide des âges des individus.
• la seconde étape consiste à déterminer les différentes probabilités de composition des
ménages selon le type de ménage et selon les âges des individus du ménage en se
basant sur les données disponibles suivantes : la distribution du nombre de ménages
par taille du ménage (le nombre d’individus dans le ménage) et la distribution du
nombre d’individus par âge et par type de ménage (célibataire, couple avec enfants et
sans enfants et ménage monoparental), la distribution des naissances selon l’âge de la
mère et selon l’ordre de naissance, la distribution du nombre de ménages en couple
selon la différence d’âge entre les partenaires du couple.
• la troisième étape consiste à créer progressivement l’ensemble des ménages de la population synthétique en utilisant le processus suivant : pour un ménage donné, on
choisit au premier abord le type et le nombre d’individus dans le ménage et ensuite
l’âge de la personne de référence en se basant sur les probabilités déterminées au niveau de la deuxième étape. En fonction des données précédentes sur le ménage et
principalement sur l’âge de la personne de référence du ménage, on choisit les autres
individus en se basant également sur les probabilités déterminées au niveau de la
deuxième étape et en vérifiant surtout aussi que cet individu existe dans la liste des
individus déterminés à la première étape. Sinon on arrête la génération de ce ménage
et on recommence la génération d’un autre ménage jusqu’à ce que le nombre d’individus restants soit nul ou qu’il ne soit plus possible de combiner les individus restants
pour former un type de ménage donné.
• la quatrième et dernière étape consiste à générer les ménages complexes en combinant
de façon aléatoire les individus restants au niveau de la troisième étape vu qu’aucune
information n’est disponible pour ces types de ménages.
Les résultats d’expérimentations présentés dans (Gargiulo et al., 2010) montrent que les
populations générées par cette approche sont pour la plupart en accord avec l’ensemble de
données statistiques disponibles. De plus, elle présente de meilleurs résultats par rapport à
l’approche IPU d’après des résultats d’expérimentations obtenus en comparant l’approche
(Gargiulo et al., 2010) et l’approche IPU dans (Lenormand & Deffuant, 2013) pour la génération des 1310 municipalités d’Auvergne. Cependant, cette approche nécessite plus de
données pour son bon fonctionnement surtout les données de la deuxième étape qui ne
sont pas toujours disponibles en réalité. De plus, cette approche ne donne pas de très bons
résultats dans le cas d’une population ayant une petite taille (comme le cas de la municipalité d’Abrest en Auvergne qui contient environ 2600 individus repartis dans 960 ménages)
(Gargiulo et al., 2010).
1.2.2.2
Approche (Barthelemy & Toint, 2013)
L’approche (Barthelemy & Toint, 2013) est quant à elle une approche utilisée pour générer la population (les ménages ainsi que les individus) de chacune des municipalités de
Paterne Chokki
Page 8
« Génération de population synthétique localisée »
Belgique. Le principe de génération de cette approche est subdivisé en trois étapes :
• la première étape notée ’Ind’ consiste à générer les individus de chaque municipalité
avec leurs caractéristiques en se basant sur les données agrégées disponibles sur chacun des municipalités. Dans le cas où les données ne sont pas disponibles pour une
municipalité donnée, on utilise des données disponibles sur la population du district
(regroupement de municipalités) ou de la Belgique dans le cas échéant.
• la seconde étape notée ’Hh’ consiste à déterminer la distribution des différents ménages dans les différentes combinaisons des caractéristiques des ménages en se basant
sur les données disponibles sur les ménages. Cette étape revient à une détermination
de solution d’un problème d’optimisation plus précisément à la résolution de systèmes
d’équations linéaires avec n variables et m inconnues La méthode de maximisation de
l’entropie est utilisée dans cette approche pour résoudre ce problème d’optimisation.
• la troisième étape permet de générer un à un les ménages ainsi que les individus de la
population synthétique en se basant sur les données générées lors des deux étapes précédentes. Cette étape consiste en premier lieu à choisir la catégorie du ménage (c’està-dire un type de ménage et la taille du ménage) en se basant sur les données de la
deuxième étape, après ce choix on choisit aléatoirement la personne de référence du
ménage et ensuite les autres individus pour remplir le ménage. Pour chacun des individus, on vérifie si l’individu existe dans la liste des individus restants. Si oui, on
ajoute l’individu au ménage. Si non, on cherche l’individu dans les ménages déjà générés et si on trouve on permute ces individus à condition de garder la consistance du
ménage qu’on veut changer. Dans le cas où l’individu est introuvable, la génération
est terminée.
Les résultats d’expérimentations présentés dans (Barthelemy & Toint, 2013) montrent
que les populations générées par cette approche sont bien en accord avec l’ensemble de
données statistiques disponibles et montrent également que cette approche présente de
meilleurs résultats par rapport à l’approche (Guo & Bhat, 2007). Cependant comme l’approche (Gargiulo et al., 2010), cette approche nécessite plus de données pour son bon fonctionnement. Mais comparativement à l’approche (Gargiulo et al., 2010), elle permet d’utiliser des données agrégées d’un niveau supérieur lorsque les données agrégées au niveau
inferieur ne sont pas disponibles ce qui est un véritable avantage par rapport à l’approche
(Gargiulo et al., 2010) et de plus elle permet de faire des permutations dans la génération des
ménages permettant ainsi de maximiser le taux de correspondance par rapport à l’approche
(Gargiulo et al., 2010).
1.2.3
Conclusion
Somme toute, nous avons présenté deux grandes catégories d’approches pour la génération de la population synthétique. La première catégorie qui regroupe les approches se
basant sur un échantillon pour la génération est confrontée à deux principaux problèmes
qui sont : la nécessité d’un échantillon représentatif de la population et la dépendance des
Paterne Chokki
Page 9
- Xem thêm -