Tài liệu Implémentation d'une copule mutilvariée

.PDF

303

nhattuvisu Báo vi phạm

Tải xuống 89

Mô tả:

Institut de la Francophonie pour l’Informatique Mémoire de fin d’études Implémentation d’une copule mutilvariée Réalisé par : Superviseur : PHAM Van Trung Gildas MAZO Projet Mistis Centre de recherche INRIA Grenoble Rhône-Alpes 29 novembre 2013 Remerciements Je tiens à exprimer ma profonde gratitude à Gildas Mazo, mon directeur de stage. Il était toujours prêt à m’avoir donné des aides pour que j’aie pu comprendre bien des connaissances statistiques nécessaires. Ses commentaires utiles et ses judicieux conseils m’ont souvent été d’un grand recours pour mener à bien les objectifs de mon stage. Je tiens également à remercier les membres de l’équipe MISTIS. Grâce à leur soutien, j’ai pu m’intégrer facilement à l’équipe. Je voudrais adresser mes sincères remerciements aux professeurs de l’IFI. Leurs cours m’ont permis d’approfondir mes connaissances sur des langages de programmation tels que R et C++. Enfin, je tiens à remercier ma famille, mes amis et notamment ma copine Truong Hong Van qui m’ont supporté ces six mois de stage. Leurs encouragements m’ont permis d’être toujours motivé et d’avoir pu remplir mon rôle. i Résumé L’objectif de ce mémoire de fin d’études est d’implémenter une copule multivariée associée à un Cumulative Distribution Network (CDN). CDN est une fonction de répartition d’un grand nombre de variables qui se factorise en produit de fonctions de répartition bivariées. Ce modèle permet de décrire la dépendance entre plusieurs variables aléatoires via un graphe où les arrêtes représentent les fonctions reliant les variables. La fonction de vraisemblance est calculée grâce à un algorithme de message-passing. L’inférence dans le CDN est alors mise en oeuvre via la maximisation de la vraisemblance en utilisant une méthode d’optimisation. Toutefois, l’implémentation délicate de ce modèle peut freiner l’utilisateur dans la pratique. Nous nous proposons de l’implémenter et de le rendre disponible sous la forme d’un paquet R. R est un logiciel de statistique très répandu et de plus en plus utilisé. Avec ce paquet, il est très facile de construire le graphe et de choisir des familles de copule paramétriques ainsi que de modéliser des données avec un CDN. Il permet aussi de calculer la vraisemblance selon l’algorithme de message-passing et de faire l’inférence. En outre, la vitesse de l’algorithme est augmentée grâce à l’écriture d’une partie du code en C++. Mots-clés : Cumulative Distribution Network, copule, vraisemblance, fonction de répartition multivariée ii Abstract The goal of the thesis aims at implementing a multivariate copula associated with a Cumulative Distribution Network (CDN). CDN is a high-dimensional cumulative distribution function (CDF) defined as a product of bivariate CDFs. This model accounts for dependencies between random variables via a graph where the edges represent the functions linking the variables. The likelihood function is computed thanks to a messagepassing algorithm. The inference in CDN is performed by optimizing the likelihood function. However, the implementation of this model is not available for users in practice. Hence, we propose to implement it and make it available as an R package. R is a statistical software widely spread in pratice. Using this package, the users can build easily the graph, choose parametric copula families and generate data with a CDN. It allows to compute the likelihood function according to a message-passing algorithm and perform inference in CDN. Moreover, the speed of the algorithm has been increased by integrating C++ codes. Keywords : Cumulative Distribution Network, copula, likelihood, multivariate distribution function iii Table des matières Remerciements i Résumé ii Abstract iii Table des figures vi Liste des tableaux viii Contexte du stage 1 1 Introduction 1.1 Statistique théorique . . . . . . . . . . . . . . . . . . . . . 1.1.1 Modèle statistique . . . . . . . . . . . . . . . . . . 1.1.2 Estimation des paramètres d’un modèle statistique 1.1.3 Copules . . . . . . . . . . . . . . . . . . . . . . . . 1.1.4 Cumulative distribution networks . . . . . . . . . . 1.1.5 La copule associée au CDN . . . . . . . . . . . . . 1.2 Environnement de programmation . . . . . . . . . . . . . 1.2.1 R . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.2 Structure d’un paquet R . . . . . . . . . . . . . . . 1.2.3 Rcpp - Interface entre R et C++ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 3 4 5 6 8 9 9 9 10 2 Algorithme de gradient-derivative-product 11 2.1 Initialisation de l’algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2 Propagation des messages . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.3 Calcul de la fonction de vraisemblance et son gradient . . . . . . . . . . . 13 3 Implémentation 3.1 Structure du paquet . . . . . . . . . . 3.1.1 Code source . . . . . . . . . . . 3.1.2 Documentation . . . . . . . . . 3.1.3 Tests et tutoriels . . . . . . . . 3.2 Fonctions du paquet . . . . . . . . . . 3.2.1 Création d’un objet CDN . . . 3.2.2 Implémentation de l’algorithme 3.2.3 Estimation des paramètres . . iv . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . de message-passing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 17 18 18 19 19 20 22 26 Contents 4 Expérimentations 4.1 Précision numérique de l’algorithme de message-passing 4.2 Simulation des données . . . . . . . . . . . . . . . . . . 4.3 Temps d’exécution . . . . . . . . . . . . . . . . . . . . . 4.4 Application avec un jeu de données réelles . . . . . . . . v . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 28 30 33 36 5 Conclusions et perspectives 40 Bibliographie 41 A mpAlgo 43 A.1 Initialisation de l’algorithme de message-passing . . . . . . . . . . . . . . 43 A.2 Propagation des messages . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 A.3 Calcul de la densité et du gradient . . . . . . . . . . . . . . . . . . . . . . 47 B cdnOptim 48 B.1 Calcul de la fonction de vraisemblance et son gradient . . . . . . . . . . . 48 B.2 Méthode de Broyden-Fletcher-Goldfarb-Shanno bfgs . . . . . . . . . . . . 49 B.3 Limited-memory BFGS with bounds lbfgsb . . . . . . . . . . . . . . . . . 50 C rCdn, pCdn et dCdn 51 C.1 Génération aléatoire des observations rCdn . . . . . . . . . . . . . . . . . 51 C.2 Calcul de la fonction de répartition pCdn . . . . . . . . . . . . . . . . . . 52 C.3 Calcul de la densité de plusieurs observations dCdn . . . . . . . . . . . . . 52 Table des figures 1.1 Exemple d’un CDN à trois variables . . . . . . . . . . . . . . . . . . . . . 7 1.2 Exemple d’un CDN à sept variables . . . . . . . . . . . . . . . . . . . . . 8 2.1 Exemple d’un arbre de 5 variables . . . . . . . . . . . . . . . . . . . . . . 15 2.2 Propagation des messages dans le CDN . . . . . . . . . . . . . . . . . . . 16 3.1 Composants principaux du paquet CDN . . . . . . . . . . . . . . . . . . . 17 3.2 Code source du paquet CDN . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.3 Documentation du paquet . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.4 Tests et démo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.5 Diagramme des fonctions du paquet . . . . . . . . . . . . . . . . . . . . . 20 3.6 Création d’un objet CDN . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.7 Exemple de transformation d’un graphe des variables en graphe CDN . . 22 3.8 Exemple de simplification du graphe. . . . . . . . . . . . . . . . . . . . . . 23 3.9 Algorithme de message-passing . . . . . . . . . . . . . . . . . . . . . . . . 23 3.10 Calculation de la fonction de répartition normale et ses gradients . . . . . 24 3.11 Appel des libraries/fonctions dans C/C++ . . . . . . . . . . . . . . . . . 25 3.12 Comparaison entre cdnOptim et optim. . . . . . . . . . . . . . . . . . . . 27 4.0 Précision de l’algorithme de message passing avec 5 modèles existants. . . 31 4.1 Précision de l’algorithme de message passing avec le modèle normal . . . . 32 vi List of Tables 4.2 vii Temps d’exécution du calcul direct et de la fonction mpAlgo (en millisecondes) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 4.3 Plan de 9 sites aux États Unis où les précipitations sont utilisées pour notre modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 4.4 Résultats de 6 modèles mutivariés . . . . . . . . . . . . . . . . . . . . . . 39 Liste des tableaux 3.1 Matrice binaire extraite du graphe CDN. . . . . . . . . . . . . . . . . . . . 22 3.2 Comparaison entre le temps du calcul via fonction R et celui du calcul direct en C++ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.1 Probabilité de l’événement (X1 ≤ x01 , X2 ≤ x02 , X3 ≤ x03 , X4 ≤ x04 , X5 ≤ x05 ) dans les données simulées et F (x0 ) = F (x01 , x02 , x03 , x04 , x05 ) . . . . 32 4.2 Résultats de l’estimation des paramètres . . . . . . . . . . . . . . . . . . . 34 4.3 Temps d’exécution du calcul direct (en rouge) et de la fonction mpAlgo (en bleu) (en milisecondes) . . . . . . . . . . . . . . . . . . . . . . . . . . 35 4.4 Comparaison entre le temps d’exécution de la fonction optim et cdnOptim (en secondes) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 4.5 Erreur quadratique moyenne selon deux modèles . . . . . . . . . . . . . . 37 viii Contexte du stage Problématique Les copules [1, 2] jouent un rôle de plus en plus important dans la construction de distributions en grande dimension et la description de la dépendance entre les variables aléatoires. L’une des difficultés de la construction d’une copule mutilvariée réside dans l’inférence de modèles paramétriques. Une copule multivariée associée à un Cumulative Distribution Network (CDN) [3] a été proposée. L’intérêt de ce modèle est la capacité de faire l’inférence via un algorithme de message-pasing [4]. L’estimation des paramètres est alors mise en oeuvre par la maximisation de la vraisemblance. Toutefois, le code pour utiliser le CDN ainsi que l’algorithme de message-passing n’est pas disponible. Cela peut freiner l’utilisateur dans la pratique. C’est la raison pour laquelle nous nous proposons d’implémenter cet algorithme dans mon stage. Objectif de stage L’objectif de mon stage est d’implémenter l’inférence de cette copule multivariée et de la rendre disponible sous la forme d’un paquet R [5]. Ce paquet qui s’appelle CDN est disponible pour l’utilisation. Je l’ai présenté dans une communication orale et un poster en juin 2013 à Lyon lors des deuxièmes rencontres R [6]. Je prévois de le soumettre sur le dépôt des paquets R (http://cran.r-project.org/) en décembre 2013 après la publication de [3]. Environnement de stage Mon stage est réalisé au centre de recherche INRIA Grenoble Rhône-Alpes dans le cadre du projet MISTIS sous la direction de Mazo Gildas. Cette équipe a pour domaine d’expertise la modélisation de phénomènes aléatoires complexes en grande dimension 1 List of Tables 2 et les statistiques des valeurs extrêmes, avec pour orientations applicatives privilégiées le traitement d’images et de données spatiales et dans les domaines biomédicaux et industriels. Mon stage s’inscrit à l’interface des statistiques des valeurs extrêmes et de la modélisation statistique en grande dimension. Plan de mémoire Ce mémoire se compose des cinq chapitres suivants : – Chapitre 1. Introduction. Dans ce chapitre, je vais présenter quelques notions statistiques nécessaires telles que le modèle statistique, la copule, le Cumulative Distribution Network, l’inférence. L’environnement de programmation, y compris R et C++, est aussi expliqué. – Chapitre 2. Algorithme de gradient-derivative-product. Ce chapitre sert à détailler un algorithme efficace qui permet de calculer la fonction de vraisemblance dans le Cumulative Distribution Network. – Chapitre 3. Implémentation. Ce chapitre présente les composants importants du paquet CDN et comment ils sont installés dans R et C++. – Chapitre 4. Expérimentations. Dans ce chapitre, je vais faire quelques expérimentations pour démontrer la précision des résultats obtenus par le paquet CDN, ainsi que ses avantages. Les applications sur les données simulées et réelles sont aussi montrées. – Chapitre 5. Conclusion et perspectives. Dans la conclusion, je résume les contributions et les perspectives qui découlent de mon paquet. Chapitre 1 Introduction Ce chapitre sert à introduire quelques notions nécessaires sur la statistique théorique et computationnelle. Cela permet au lecteur de suivre facilement le rapport. Dans la première partie, ce sont des concepts principaux concernant les modèles statistiques, les copules, le Cumulative distribution networks (CDN) [7], l’inférence et l’optimisation. Dans la deuxième, R [5] est présenté comme un langage de programmation afin de développer des outils efficaces pour le traitement des données et l’analyse statistique. 1.1 1.1.1 Statistique théorique Modèle statistique Un modèle statistique se compose de deux ingrédients : une variable aléatoire X et une fonction de répartition F (x). Cette fonction est définie via la probabilité d’un événement associé à X comme suit : F : R → [0, 1] F (x) = P r{X ≤ x}. (1.1) F est une fonction croissante. Si elle est dérivable, la fonction de densité est donnée par : f (x) = dF (x) . dx (1.2) Dans ce cas-là, la fonction de répartition s’écrit aussi : Z x F (x) = f (u)du. −∞ 3 (1.3) Chapitre 1. Introduction 4 Dans le cas d’un vecteur aléatoires X = (X1 , X2 , . . . , Xk ), la fonction de répartition multivariée est donnée par : F (x1 , x2 , . . . , xk ) = P r{X1 ≤ x1 , X2 ≤ x2 , . . . , Xk ≤ xk }. (1.4) Si les variables Xi sont continues, la densité de probabilité multivariée est donnée par : ∂ k F (x1 , x2 , . . . , xk ) . ∂x1 . . . ∂xk f (x1 , x2 , . . . , xk ) = (1.5) La fonction de répartition est alors : Z x1 Z xk f (u1 , . . . , uk )du1 . . . duk . ... F (x1 , x2 , . . . , xk ) = (1.6) −∞ −∞ La densité marginale de Xi , i = 1, . . . , k est définie comme : Z fXi (xi ) = ∞ Z ∞ ... −∞ f (u1 , . . . , ui−1 , xi , ui+1 , . . . uk )du1 . . . dui−1 dui+1 . . . duk . (1.7) −∞ Dans le cas de plusieurs variables, par exemple X1 et X2 , la marge est donnée par : Z fX1 ,X2 (x1 , x2 ) = 1.1.2 ∞ Z ∞ ... −∞ f (x1 , x2 , u3 . . . , uk )du3 . . . duk . (1.8) −∞ Estimation des paramètres d’un modèle statistique Soit X1 , X2 , . . . , Xn (indépendantes et identiquement distribuées) un échantillon d’une population dont la densité de probabilité est f (.|θ) où θ est un vecteur de paramètres inconnus de la population. L’objectif de l’estimation est de trouver la vraie valeur du paramètre θ à partir de cet échantillon. La méthode du maximum de vraisemblance est la plus efficace asymptotiquement [8]. La vraisemblance est donnée par : f (X1 , X2 , . . . , Xn |θ) = f (X1 |θ)f (X2 |θ) . . . f (Xn |θ). (1.9) En pratique, il faut donc trouver la valeur de θ qui maximise le log de la vraisemblance : L(θ) = n X logf (Xi |θ). (1.10) i=1 Cela correspond à minimiser la fonction −L(θ). Le problème majeur est alors de minimiser −L(θ). Ce problème est traité en général de manière numérique. Les méthodes de type Newton [9] sont très utilisées. Le principe de la méthode de Newton est de trouver le point qui minimise la fonction −L(θ) à partir d’un point de départ. Après chaque itération, ce point est mis à jour selon la direction de la descente du gradient Chapitre 1. Introduction 5 ∇θ (−L(θ)). L’algorithme s’arrête quand la valeur du gradient est suffisamment petite. Basée sur l’idée de la méthode de Newton, les méthodes Broyden-Fletcher-GoldfarbShanno (BFGS) et Limited-memory BFGS (L-BFGS) [9] ont été développées. L’avantage de ces méthodes est leur implémentation pratique. C’est la raison pour laquelle je les ai utilisées dans mon implémetation. 1.1.3 Copules Les copules [1, 2] ont pour objectif de modéliser la dépendance de plusieurs variables aléatoires. On va commencer d’abord une définition de la marge d’une fonction de répartition. Définition 1.1.3.1. Soit F une fonction de répartition à n dimensions, x = (x1 , . . . , xn ) ∈ Rn (n ≥ 2). Sa marge Fi (1 ≤ i ≤ n) est obtenue quand x1 , x2 , . . . , xi−1 , xi+1 , . . . , xn tendent vers +∞ : Fi (xi ) = lim x\xi →+∞ F (x1 , . . . , xn ). (1.11) Définition 1.1.3.2. Une copule C : [0, 1]n → [0, 1] est une fonction de répartition dont les marges sont uniformes. Soit le vecteur u = (u1 , . . . , un ) ∈ [0, 1]n , les marges de la copule C sont données par : Ck (uk ) = lim u\uk →1 C(u1 , . . . , un ) = uk ∀k = 1, . . . , n. (1.12) Théorème 1.1.3.1 (Sklar [1]). Soit H une fonction de répartition dont les marges F et G sont continues. Il existe une unique copule C de sorte que ∀x, y ∈ R : H(x, y) = C(F (x), G(y)). (1.13) Quelques familles de copule standard [1, 10] sont montrées ci-après : h i1/θ θ θ Cθ (u, v) = exp − (− ln u) + (− ln v) , θ ∈ [1, +∞); Cθ (u, v) = uv(1 + θ(1 − u)(1 − v)), θ ∈ [−1, 1]; (e−θu − 1)(e−θv − 1) 1 , θ ∈ (0, +∞); Cθ (u, v) = − ln 1 + θ (e−θ − 1) uv , θ ∈ [0, 1); 1 − θ(1 − u)(1 − v) i1/θ h Cθ (u, v) = 1 − (1 − u)θ + (1 − v)θ − (1 − u)θ (1 − v)θ , θ ∈ [1, +∞); Cθ (u, v) = (1.14) (1.15) (1.16) (1.17) (1.18) Chapitre 1. Introduction Z uZ v Cθ (u, v) = 0 0 6 1 p (1 − θ2 ) exp θ2 q(x)2 + θ2 q(y)2 − 2θq(x)q(y) 2θ2 − 2 ! dxdy, θ ∈ (−1, 1); (1.19) où θ est un paramètre inconnu. – (1.14) est la famille de copule de Gumbel. – (1.15) est la famille de copule de Farlie-Gumbel-Morgenstern (FGM). – (1.16) est la famille de copule de Frank. – (1.17) est la famille de copule de Ali-Mikhail-Haq (AMH). – (1.18) est la famille de copule de Joe. – (1.19) est la famille de copule de Gauss (copule normale). q(x), q(y) sont des fonctions de quantile : q(x) = √ 2 erf −1 (2x − 1), x ∈ (0, 1), (1.20) où erf est la fonction d’erreur : 1 erf (x) = √ π 1.1.4 Z x 2 e−t dt. (1.21) −x Cumulative distribution networks Cumulative distribution network (CDN) est un modèle statistique proposé dans la thèse de Huang [7]. Dans ce modèle, la fonction de répartition s’écrit comme un produit de fonction de répartition bivariées. On lui associe un graphe pour représenter les dépendances. Définition 1.4.1. Un graphe biparti G = (V, S, E) est construit à partir de trois ensembles : deux ensembles de sommets V et S, un ensemble d’arêtes E. Les arrêtes du graphe ont une extrémité dans V et l’autre dans S. Définition 1.4.2. Un Cumulative distribution network (CDN) est un modèle statistique sous forme d’un graphe biparti G = (V, S, E), où V est un ensemble de noeuds de variable et S indique un ensemble de noeuds de fonction, E se compose des arêtes entre des noeuds de variable et de fonctions. Chaque fonction est représentée par φs (xs ) : R|N (s)| → [0, 1] où s ∈ S, N (s) = {s1 , . . . , sd } est l’ensemble de voisins de la fonction s et xs = xN (s) = (xs1 , . . . , xsd ) où d = |N (s)| est le nombre de voisins de s. Toutes les fonctions φs doivent satisfaire les propriétés caractéristiques des fonctions de répartition. La fonction de répartition sur toutes les variables dans le CDN s’écrit : F (x) = Y s∈S φs (xs ), (1.22) Chapitre 1. Introduction 7 et la densité de probabilité est définie comme suit : f (x) = ∂x [F (x)], (1.23) ∂F (x) avec n est le nombre de variables. Pour ∂x1 , . . . , ∂xn faire l’inférence, on considère un CDN comme un modèle paramétrique F (x) = F (x|θ) où x = (x1 , . . . , xn ) et ∂x [F (x)] = ou θ est un vecteur de paramètres. Il faut alors estimer θ comme mentionné dans la section 1.2. D’abord, le log de vraisemblance est défini comme suit : L(θ) = logf (x1 , x2 , . . . , xn |θ) = n X logf (xk |θ). (1.24) k=1 et son gradient est donné par : ∇θ L(θ) = n X ∇θ logf (xk |θ) = k=1 n X ∇θ f (xk |θ) k=1 f (xk |θ) . (1.25) Dans notre cas, nous considérons un CDN avec les contraintes suivantes : 1. Le graphe ne contient aucun cycle. Autrement dit, c’est un arbre de n variables et n - 1 fonctions. 2. Les feuilles sont des noeuds de variables. 3. Chaque noeud de fonction n’est relié qu’à deux noeuds de variable. En effet, les fonctions de répartition φs sont bivariées. Cela veut dire que φs (xs ) = φs (xα , xβ ) où α, β sont les variables voisines de la fonction s : N (s) = {α, β}. Exemple 1.4.1. Sur la figure 1.1, c’est un exemple d’un CDN à trois variables. Les cercles montrent des noeuds de variable et les diamants indiquent les noeuds de fonction. Alors, la fonction de répartition sur trois variables X1 , X2 et X3 dans le CDN est donnée par : F (x1 , x2 , x3 ) = φ1 (x1 , x2 )φ2 (x2 , x3 ). (1.26) Figure 1.1: Exemple d’un CDN à trois variables. Exemple 1.4.2. Sur la figure 1.2, c’est un exemple d’un CDN à sept variables. La fonction de répartition sur sept variables X1 , X2 , X3 , X4 , X5 , X6 , X7 dans le CDN Chapitre 1. Introduction 8 s’écrit : F (x1 , x2 , x3 , x4 , x5 , x6 , x7 ) =φ1 (x1 , x5 )φ2 (x2 , x3 ) (1.27) φ3 (x3 , x4 )φ4 (x3 , x5 )φ5 (x5 , x6 )φ6 (x5 , x7 ). Figure 1.2: Exemple d’un CDN à sept variables. 1.1.5 La copule associée au CDN Considérons φs comme une fonction paramétrique, on a : φs = φs (xα , xβ ; θs ) où θs est un paramètre inconnu, α, β sont les voisins de s. Nous prenons la fonction φs en fonction d’une copule : 1/nβ α , xβ φs (xα , xβ ; θs ) = Cs (x1/n α ; θs ). (1.28) où Cs est une copule à choisir ; nα et nβ sont respectivement les nombres de voisins des variables α et β. Comme Cs est une copule, xα , xβ ∈ [0, 1]. La fonction de répartition s’écrit alors : F (x|θ) = Y 1/nβ s s α Cs (x1/n ; θs ), x1/n = (x1/n , xβ s s α ). (1.29) s∈S où x = (x1 , . . . , xn ) avec n est le nombre de variables, θ = (θs )s∈S . On note que F est aussi une copule : F (x|θ) = F (x1 , . . . , xn |θ) = C(x1 , . . . , xn |θ). Cette copule multivariée montre la dépendance entre toutes les variables x1 , . . . , xn . Dans notre paquet, nous avons implémenté le modèle (1.29) avec les familles de copule de Gumbel, Frank, FGM, AMH, Joe, Gauss (voir section 1.1.3). Pour la simulation des données de la fonction de répartition C(x1 , . . . , xd |θ), on utilise le lemme de Liebscher [11] : Chapitre 1. Introduction 9 (s) (s) – Pour toutes les fonctions s ∈ S, il faut générer (Uα , Uβ ) ∼ Cs où α, β sont des variables de voisin de s. n o (s) nα – Il est nécessaire de calculer Uα = maxs∈N (α) (Uα ) , α = 1, . . . , d. La fonction de répartition du vecteur (U1 , U2 , . . . , Ud ) est C(x1 , . . . , xd |θ). 1.2 1.2.1 Environnement de programmation R R [5] est un langage de programmation pour le développement des appilcations dans le traitement des données et l’analyse statistique. Il est développé par GNU. R est de plus en plus important et connu grâce à ses avantages. Premièrement, R est open source. C’est libre à utiliser et à développer. Deuxièmement, il permet de faire de la programmation de haut niveau orienté. Troisièmement, la programmation sous R est disponible sur plusieurs systèmes d’opération populaires comme Unix, Windows et MacOS. Quatrièmement, R est associé à plusieurs langages de programmation tels que C/C++, Fortan. En effet, il permet d’appeler directement le code dans C/C++, Fortan. Dernièrement, R s’étend facilement via des paquets écrits par les développeurs. En outre, il existe le dépôt CRAN pourque les développeurs puissent déposer leurs paquets. 1.2.2 Structure d’un paquet R Normalement, un paquet R se compose des parties suivantes [12] : – Un fichier Description qui décrit le paquet, l’auteur et la licence. – Le répertoire man/ contient les fichiers de la documentation. – Le répertoire R/ est le lieu pour déposer le code source en R. – Le répertoire data/ fourni les données disponibles dans le paquet. – Le répertoire src/ contient le code source en C/C++, Fortan. – Le répertoire tests/ se compose des fichiers R qui sert à vérifier les fonctions fournies par le paquet. – Le répertoire exec/ comprend les fichiers exécutables (en Java ou Perl). – Le répertoire demo/ montre quelques programmes d’exemples. – Le répertoire vignettes/ donne quelques exemples et renseignements pour l’utilisation du paquet. Chapitre 1. Introduction 1.2.3 10 Rcpp - Interface entre R et C++ Les fonctionnalités de R peuvent être étendues avec du code dans un langage compilé comme C++. La vitesse des programmes dans C++ est meilleure que celle dans R car R est un langage de programmation interprété. De plus, il donne beaucoup de bonnes librairies aux développeurs. Rcpp [13] est un paquet de R qui propose une intégration de C++ très simple d’utilisation. Il fournit une interface efficace pour l’accès, l’extension et la modification des objets de R en C++. Il peut aussi faciliter l’échange des données entre R et C++ et la gestion des erreurs. En outre, avec Rcpp, le code peut devenir plus propre et avec moins de bugs. C’est la raison pour laquelle Rcpp est utilisé pour construire notre paquet. Chapitre 2 Algorithme de gradient-derivative-product Comme mentionné dans la section 1.1.4, il faut calculer la densité de probabilité (1.23) Q f (x) = ∂x [F (x)] avec F (x) = s∈S φs (xs ) pour faire l’inférence dans un CDN. Toutefois, c’est difficile si le nombre de variables est très grand. L’algorithme de gradient-derivativeproduct (GDP) [4] qui a pour but de calculer la vraisemblance en tirant profit de la structure d’arbre d’un CDN nous permet de le faire. L’idée de cet algorithme est de séparer la dérivation multiple en une chaı̂ne des dérivées locales sous forme de messages. En effet, on constate qu’une variable n’apparait que dans ses fonctions de voisin. Au lieu de dériver la fonction de repartition par rapport à toutes les variables, il est nécessaire de calculer les dérivées locales et les mettre sous forme des messages. Grâce à un processus de propagation des messages, la fonction de vraisemblance est finalement obtenue : hQ i µ (x|θ) où µ sont des fonctions de messages qu’on va définir f (x|θ) = ∂xα s→α s∈N (α) dans la section après, α est un noeud de variable arbitraire qu’on appelle la racine. Le problème est comment choisir la racine α et calculer les messages. Cet algorithme GDP se compose des trois étapes principales suivantes : 1. Initialisation de l’algorithme, 2. Propagation des messages, et , 3. Calcul de la fonction de vraisemblance et son gradient. 2.1 Initialisation de l’algorithme Les messages entre des noeuds de variable et de fonction sont représentés par les fonctions µs→α , µα→s , λs→α , λα→s où s est un noeud de fonction et α est un noeud de variable. s 11

- Xem thêm -

Tài liệu Implémentation d'une copule mutilvariée

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất