Đăng ký Đăng nhập
Trang chủ Luận văn le projet “agronomic linked data (agrold)” = dự án agrold (mô hình dữ l...

Tài liệu Luận văn le projet “agronomic linked data (agrold)” = dự án agrold (mô hình dữ liệu agronomic). luận văn ths. công nghệ thông tin

.PDF
51
497
118

Mô tả:

UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL TAGNY NGOMPE GILDAS LE PROJET “AGRONOMIC LINKED DATA (AGROLD)” DỰ ÁN AGROLD (MÔ HÌNH DỮ LIỆU AGRONOMIC) MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE HANOI – 2015 UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL TAGNY NGOMPE GILDAS LE PROJET “AGRONOMIC LINKED DATA (AGROLD)” DỰ ÁN AGROLD (MÔ HÌNH DỮ LIỆU AGRONOMIC) Spécialité: Systèmes Intelligents et Multimédia Code: Programme pilote MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE Sous la direction de: Dr. Pierre LARMANDE – Ingénieur IRD, responsable de l’AXE Intégration de Données de l’Institut de Biologie Computationnelle Dr. Aravind VENKATESAN - Chercheur post-doctorant, IBC HANOI – 2015 ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs. La source des informations citées dans ce mémoire a été bien précisée. LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. Các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc. TAGNY NGOMPE GILDAS Table des matières Table des matières Remerciements v vi Résumé vii Abstract viii Liste des figures x Liste des tableaux xi INTRODUCTION 1 Chapitre 1 PROBLÉMATIQUE DU PROJET AGROLD 3 1.1 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2 Système existant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.3 Problématique du sujet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.4 Contraintes et résultats attendus . . . . . . . . . . . . . . . . . . . . . . . 6 Chapitre 2 PUBLICATION DES DONNÉES LIÉES ET OUVERTES 7 2.1 Le web des données liées et ouvertes . . . . . . . . . . . . . . . . . . . . . 7 2.2 Publication de données des sciences du vivant . . . . . . . . . . . . . . . 2.2.1 Données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.2 Ontologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 10 11 2.3 Systèmes d’interrogation du web des données . . . . . . . . . . . . . . . 2.3.1 Aide à la construction de requêtes . . . . . . . . . . . . . . . . . . 2.3.2 Recherche d’informations spécifiques . . . . . . . . . . . . . . . . 11 12 14 2.4 Intégration de données de sources multiples . . . . . . . . . . . . . . . . 17 Chapitre 3 SOLUTION PROPOSÉE 20 3.1 Modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 Paradigmes de recherche sémantique . . . . . . . . . . . . . . . . 3.1.2 Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 20 21 3.2 Prototype implémenté . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Intégration et adaptation de systèmes existants . . . . . . . . . . . 3.2.2 Développement de nouvelles fonctionnalités . . . . . . . . . . . . 22 22 23 iv Chapitre 4 EXPÉRIMENTATIONS ET ANALYSE DES RÉSULTATS 4.1 Utilisation de l’application web AgroLD par des utilisateurs humains 4.1.1 Entrée des requêtes et expressivité . . . . . . . . . . . . . . . . 4.1.2 Exécution des requêtes et temps de réponse . . . . . . . . . . . 4.1.3 Présentation des résultats . . . . . . . . . . . . . . . . . . . . . 28 . . . . . . . . 28 29 31 31 4.2 Utilisation des informations de la base AgroLD dans des applications . . 4.2.1 Utilisation de l’API pour la programmation . . . . . . . . . . . . . 4.2.2 Utilisation de l’API dans les workflows . . . . . . . . . . . . . . . 32 32 33 CONCLUSION 36 Références 37 Annexes 40 v Remerciements Nous adressons nos remerciements à tous ceux qui ont contribué à la réalisation du travail présenté dans ce document, en particulier : — à Pierre LARMANDE et Aravind VENKATESAN, nos superviseurs de stage ; — aux responsables et membres du personnel de notre établissement l’Institut Francophone International ; — aux structures qui nous ont encadré : l’Université Nationale du Vietnam à Hanoï (UNVH), l’Université de Montpellier, l’Institut de Recherche pour le Développement (IRD), l’Institut de Biologie Computationnelle (IBC), le Laboratoire d’Informatique, de Robotique et de Micro-électronique de Montpellier (LIRMM), le Centre de coopération International en Recherche Agronomique pour le Développement (CIRAD) ; — à Nordine El Hassouni, ingénieur du CIRAD. vi Résumé Le web des données liées offre une grande opportunité d’intégration de données de sources et domaines divers. Cependant, il présente une rareté des données issue de la recherche en biologie des plantes. Des chercheurs de l’IBC construisent actuellement la base de connaissance AgroLD en convertissant les données de la base de données SouthGreen qu’ils lient à des ontologies et d’autres sources de données du web des données. AgroLD est destinée à l’usage des biologistes et des bioinformaticiens. Ces groupes d’utilisateurs présentent des niveaux de compétences variées par rapport aux technologies du web sémantique. Il s’agissait principalement pour nous de leur proposer des moyens pour faciliter la recherche d’information dans AgroLD et dans des services externes. Notre solution est de mettre à leur disposition sur une même plateforme plusieurs fonctionnalités d’utilisabilité et d’expressivité différentes. Les utilisateurs pourront choisir les systèmes de recherche qui leur conviennent et passer facilement de l’un à l’autre. Il a été aussi pris en compte l’activité de développement d’applications des bioinformaticiens. Nous avons proposé une API de services REST pour exposer les informations correspondant à des questions biologiques. Cette API présente l’atout d’être facilement utilisable pour la programmation d’application et dans le gestionnaire de workflows bioinformatiques Galaxy. Nous avons notamment utilisé cette API et d’autres services web pour faire de l’agrégation de connaissances au sein d’un formulaire dynamique dans notre prototype. Mots clés : Intégration de données agronomiques, agrégation de connaissance, systèmes de recherche sémantique, interaction homme-machine, services REST vii Abstract The web of linked data provides great data integration opportunity from various sources and areas. However, it lacks data of research in plant biology. IBC’s researchers are currently building the knowledge base AgroLD converting data base SouthGreen data they bind to ontologies and other sources of web of data. AgroLD is intended for use by biologists and bioinformaticians. These users groups have different levels of skills by compared to semantic web technologies. For us, It were about to suggest to them, ways to facilitate the search for information in AgroLD and external services. Our solution is to provide them, on the same platform, several features with different usability and expressivity. Users can choose which search systems that suit them and easily switch from one to another. It was also considered the applications development activity of bioinformaticians. We have proposed a REST service API to expose the information corresponding to biological questions. This API has the advantage of being easily usable for application programming and in bioinformatics workflows manager Galaxy. We used particularly the API and other web services to make knowledge aggregation in a dynamic form in our prototype. Keywords : Integration of agronomic data, aggregation of knowledge, semantic search systems, human-computer interaction, REST services viii Liste des figures 1.1 1.2 Lien entre deux ressources de sources distantes et différentes sur AgroLD uri non déréférencé participant à des triplets dans AgroLD . . . . . . . . 2.1 2.4 2.5 2.6 2.7 Exemple de graphe de données liées (source : http://linkedlifedata. com/about) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ensembles de données des sciences de la vie dans le nuage des données liées et ouvertes (source : http://lod-cloud.net) . . . . . . . . . . . . . Ressources biologiques RDF liées à UniProtKB (uniprot.rdf), la base principale de UniProt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Différence entre les filtres et la navigation à facettes . . . . . . . . . . . . Avantages des services RESTful sur les services basées sur SOAP (WS-*) Architecture d’Open PHACTS Discovery Plateform . . . . . . . . . . . . Architecture standard des applications de données liées et ouvertes . . . 3.1 3.2 3.3 3.4 Architecture proposée pour l’application web d’AgroLD Editeur de requêtes textuelles SPARQL . . . . . . . . . . . Module serveur de l’API d’AgroLD . . . . . . . . . . . . . Activités de navigation avec le formulaire dynamique . . 2.2 2.3 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Scénario 1 : entrée de la requête . . . . . . . . . . . . . . . . . . . . . . . . Scénario 2 : entrée de la requête dans le fomulaire dynamique . . . . . . Scénario 2 : entrée de la requête dans l’éditeur de requête SPARQL . . . Scénario 3 : entrée de la requête dans le fomulaire dynamique . . . . . . Scénario 4 : entrée de la requête . . . . . . . . . . . . . . . . . . . . . . . . Scénario 1 : présentation des résultats avec la recherche rapide par mot-clé Scénario 2 : présentation des résultats . . . . . . . . . . . . . . . . . . . . Scénario 3 : présentation des résultats . . . . . . . . . . . . . . . . . . . . Scénario 4 : Relations découvertes entre le gène "adenosylmethionine decarboxylase" (AT3G25570) et les deux pathways "spermine biosynthesis" et "spermidine biosynthesis" . . . . . . . . . . . . . . . . . . . . . . . . . . 4.10 Utilisation du service de recherche de gène par mot-clé dans un programme JavaScript . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.11 documentation du service de recherche des protéines associées à un identifiant ontologique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 5 8 10 10 14 16 17 18 21 24 25 27 29 29 30 30 30 31 32 32 33 33 34 ix 4.12 Intégration de la liste des gènes participant au pathway CALVIN-PWY dans Galaxy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 4.13 Workflow d’extraction des colonnes 1, 2 et 4 d’un tableau dans Galaxy . 35 4.14 Résultat de l’extraction des colonnes "geneId", "geneName" et "taxon_name" 35 x Liste des tableaux 2.1 Catégories et exemples d’API . . . . . . . . . . . . . . . . . . . . . . . . . 15 A.1 Comparaison de clients SPARQL . . . . . . . . . . . . . . . . . . . . . . . 40 xi INTRODUCTION L’activité principale du projet IBC est le développement de méthodes et logiciels innovants pour analyser, intégrer et contextualiser des données biologiques à grande échelle dans le domaine de la santé, de l’agronomie et de l’environnement. Une des principales problématiques abordées est l’intégration des données biologiques et en particulier celles des plantes. Par l’intégration de données provenant de plusieurs sources, les experts biologistes peuvent obtenir une information plus riche à laquelle ils peuvent lier leurs propres résultats pour la compléter. La difficulté d’intégration intervient régulièrement. Les sources de données étant indépendantes et isolées, les fournisseurs n’adoptent pas toujours les mêmes formats de description, types d’information, et modèles de données lors de la conception des bases de connaissance. Ceci introduit des hétérogénéités [1,2] structurelles, sémantiques et syntaxiques entre les sources de données. L’import dans un entrepôt central des données des sources différentes (intégration matérialisée) et la fédération de requêtes vers des sources aux structures différentes au moyen d’interface de médiation (intégration dématérialisée) sont les principales solutions jusqu’alors appliquées. Malheureusement, elles conservent toujours les données fermées et se focalisent généralement sur un domaine particulier. Cette situation a poussé le W3C à proposer une évolution du web avec des technologies standards devant faciliter l’accès et l’intégration des données disponibles sur internet. Cette évolution du web est appelé le web des données ouvertes et liées [3]. Elle vise non seulement le libre accès aux données mais surtout une description sémantique explicite de tout entité concrète ou abstraite. Les technologies proposées dans ce sens ont pour but de permettre aux fournisseurs de données, la possibilité de structurer de manière standard leur base de données et par là de faciliter la liaison des données à d’autres données de sources distantes, et l’automatisation de leur interprétation et de l’extraction de l’information. Pour plusieurs disciplines scientifiques, des sources de données ont été converties en RDF et liées à d’autres sources. Des ontologies RDFS et OWL ont été définies pour formaliser explicitement la sémantique des ressources et des liens existant entre elles. Malheureusement, ce travail est presque inexistant pour les données sur les plantes. La base de connaissance AgroLD est donc conçue pour palier à cette rareté de données liées et ouvertes agronomiques. La question principale à l’origine de notre travail est celle de savoir comment facili- 1 ter l’utilisation d’AgroLD par les potentiels utilisateurs de la base de connaissance. La solution doit leur permettre d’obtenir l’information la plus significative et riche possible. Les critères à prendre en compte sont principalement leur contexte d’utilisation (workflow par exemple), le type d’information recherchée et leur niveau de connaissance des technologies du web sémantique. Plus précisément, d’une part, il était question de proposer un ensemble de services sur une plateforme web permettant non seulement une recherche plus aisée des informations mais aussi un développement plus facile de nouvelles applications répondant aux besoins des experts. D’autre part, notre travail devait contribuer à la construction de la base de connaissance en l’enrichissant automatiquement avec de nouvelles données et en corrigeant les URI non résolus dans la base. Nous essayons donc d’évaluer les résultats de notre travail sur des aspects tels que le temps et la séquence d’actions nécessaires pour une recherche, et la satisfaction de l’utilisateur par rapport aux résultats retournés et son utilisation du système. Ce mémoire est divisé en quatre chapitres. Le premier donne plus de détails concernant le contexte et la problématique du sujet. Le second fait un état de l’art de la recherche d’information dans le web des données. Ensuite, le troisième chapitre décrit l’architecture proposée, les outils choisis et l’implémentation réalisée. Enfin, le dernier chapitre présente l’expérimentation et l’analyse des résultats obtenus. 2 Chapitre 1 PROBLÉMATIQUE DU PROJET AGROLD 1.1 Contexte L’IBC 1 est un projet multidisciplinaire soutenu depuis 2012 par l’initiative française "Investissement d’Avenir". Son but est le développement de logiciels et méthodes innovantes pour analyser, intégrer et contextualiser les données biologiques dans les domaines de la santé, l’agronomie et l’environnement. Le développement des concepts et outils fait appel à diverses branches de recherche tels que l’algorithmique (combinatoire, numérique, hautement parallèle, stochastique), et la gestion de données et la recherche d’information (intégration, workflows, cloud). Par ailleurs, leurs validations utilisent des applications de la biologie (transcriptomique, structure and fonction des protéines, développement morphogénèse), de la santé (pathogènes, cancer, cellules souches), et de l’environnement (dynamique de la population, biodiversité). Le projet IBC est divisé en cinq composantes complémentaires appelées "Work-package" (en français : "groupe de travail") : 1. "WP1-HTS : Methods for high-throughput sequencing analysis" (en français : "Méthodes d’analyse de séquençage à haut débit") 2. "WP2-Evolution : Scaling-up evolutionary analyses" (en français : "Amélioration de l’accès aux analyses évolutives") 3. "WP3-Annotation : Structural and functional annotation of proteomes" (en français : "Annotation structurale et fonctionnelle des protéomes") 4. "WP4-Imaging : Integrating cell and tissue imaging with Omics data" (en français : "Intégration de l’imagerie cellulaire et tissulaire avec des données omiques") 5. "WP5-Databases : Biological data and knowledge integration" (en français : "Intégration des données et connaissances biologiques") Le projet AgroLD 2 fait partie du composant "Intégration des données et connaissances biologiques". D’un point de vue global, AgroLD a pour rôle d’appliquer les technologies web sémantiques pour fournir une base de connaissance intégrée des données agronomiques. Ses objectifs définis jusqu’ici sont de : 1. IBC :http://www.ibc-montpellier.fr 2. AgroLD : http://volvestre.cirad.fr:8080/agrold/ 3 — construire une base RDF à partir de sources de données concernant les plantes ; — fournir un point d’accès central aux experts du domaine à Montpellier ; — répondre aux questions complexes du domaine qui n’étaient pas accessibles par les méthodes traditionnelles ; — permettre l’extensibilité de la base ; — permettre l’intégration dans les plateformes de workflows ; — rendre la base de connaissance partageable et comme faisant partie du nuage des données liées ("Linked Data Cloud") ; — Enregistrer la base de connaissance dans des registres tels que CKAN et BioCatalogue pour accroitre sa visibilité. 1.2 Système existant Dans la première phase du projet AgroLD, il est question de mettre en place une première version de la base de connaissance. Ce travail est effectué par le développement d’un système de conversion automatique en RDF des bases de données de SouthGreen 3 à partir des fichiers au format textuel tabulaire. La base comprend des graphes RDF d’ontologies et des informations de sources de première importance ; les bases de données Gramene 4 et SouthGreen qui incluent les espèces Oryza et Arabidopsis Thaliana. Pour les versions suivantes, la base de connaissance sera mise à jour avec des informations additionnelles telles que l’information de microréseaux comme RiceXPro, et l’information du facteur de transcription du riz comme Grassius. La base de connaissance d’AgroLD est en effet organisée 5 en plusieurs graphes de données et d’ontologies. En plus des ontologies externes, d’autres classes et propriétés à AgroLD ont été définies, donnant ainsi un vocabulaire spécifique à AgroLD. La base est liée à des sources distantes par des triplets liant des ressources (représentées par leur URI) de sources différentes. La figure 1.1 montre un exemple de lien décrivant le fait qu’un gène, identifié sur Ensembl, encode une protéine identifiée sur Uniprot. Cependant, ils existent aussi des liens auxquels participent des URI non référencées c’est-à-dire qui ne renvoient directement à aucune page de description. Mais en fait ils correspondent à des descriptions sur des sources distantes qui ne sont généralement pas RDF. C’est le cas par exemple dans ce triplet, de la figure 1.2, où la ressource gramene_association:AQAC042_EO_0007403 n’est pas reconnu sur le serveur SouthGreen pourtant elle fait partie de ses bases de données. Au démarrage de notre travail, les graphes de données sont hébergés sur le gestionnaire de base de données OpenLink Virtuoso installé sur un serveur du CIRAD 6 . L’accès à AgroLD n’est possible que par un point d’accès SPARQL (celui fourni par dé3. 4. 5. 6. SouthGreen :http://www.southgreen.fr Gramene :http://www.gramene.org http ://volvestre.cirad.fr :8080/agrold/documentation.jsp CIRAD : http://www.cirad.fr 4 @prefix agrold_vocabulary: . @prefix ensembl: . @prefix uniprot: . ensembl:AT4G32600 agrold_vocabulary:encodes uniprot:Q8VY23 . Figure 1.1 – Lien entre deux ressources de sources distantes et différentes sur AgroLD @prefix agrold: . @prefix gramene_association: . @prefix gramene_qtl: . gramene_qtl:AQAC042 agrold:has_annotation gramene_association:AQAC042_EO_0007403 . Figure 1.2 – uri non déréférencé participant à des triplets dans AgroLD faut par OpenLink Virtuoso) avec une interface simple permettant d’interroger la base de connaissance en exécutant des requêtes SPARQL. 1.3 Problématique du sujet Le langage SPARQL permet de construire des requêtes sous forme de motifs de graphe pour interroger une ou plusieurs bases de connaissance RDF. L’éditeur de requête SPARQL fourni par Virtuoso est un outil simple pour exécuter des requêtes simples. Sa principale limite vient du langage SPARQL. En effet, l’écriture de requêtes SPARQL n’est pas toujours aisée surtout lorsqu’on n’y est pas habitué. C’est le cas des biologistes et bioinformaticiens qui constituent un groupe aux niveaux de compétences assez variés en ce qui concerne l’interrogation des bases de connaissance RDF. Pour fi- 5 nir, les bioinformaticiens écrivent souvent séparément des requêtes plus ou moins optimales pour rechercher les mêmes informations. Ces informations sont généralement des réponses aux questions courantes en biologie. La problématique de notre sujet est donc celle de savoir comment faciliter la recherche d’information dans la base de connaissance AgroLD en prenant en compte le profil de l’utilisateur et tout en lui retournant un résultat aussi complet que possible. En d’autres termes, il s’agit premièrement de permettre aux utilisateurs d’exécuter des requêtes plus rapidement en fonction de ce qu’ils connaissent déjà des technologies du web, et plus particulièrement de celles du web sémantique. Enfin, il est question de joindre aux résultats provenant de la base centrale AgroLD, d’autres données en sollicitant des services externes susceptibles d’apporter un complément d’information aux données de la base. 1.4 Contraintes et résultats attendus Les biologistes et bioinformaticiens utilisent généralement le web pour effectuer des recherche d’information. Ils utilisent aussi les données biologiques dans des workflows conçus dans des systèmes telles que Galaxy 7 [4] (très couramment utilisé en bioinformatique). Le résultat attendu est donc un portail web d’accès public aux données et de recherche d’information dans AgroLD par les bioinformaticiens, les experts biologistes et les développeurs potentiels d’applications. Ce portail web disposera notamment de divers systèmes aux fonctionnalités différentes pour répondre aux questions plus ou moins complexes utiles aux experts. Différentes approches d’interrogation de la base devaient être explorées. Cependant, ce mémoire ne traite pas des approches de traitement du langage naturel car elles font l’objet d’un autre stage de fin d’études de Master réalisé au même moment que le présent projet. Ce stage est notamment à l’origine d’un vocabulaire spécifique au domaine (plus accessible aux utilisateurs), que nous devrions utiliser pour mettre en place un des systèmes proposés. Par ailleurs, notre travail est réalisé pendant la mise en place de la base. Ceci nous contraint à partir des approches les moins dépendantes de la structure de la base vers celles qui le sont le plus, et aussi à revenir régulièrement vérifier et modifier l’implémentation de nos systèmes. 7. https ://galaxyproject.org/ 6 Chapitre 2 PUBLICATION DES DONNÉES LIÉES ET OUVERTES 2.1 Le web des données liées et ouvertes Le web des données liées et ouvertes est la première étape d’une vision future du web, appelée le web sémantique. Ce dernier restructure le web sur cinq aspects principaux [5] visant l’interprétation, l’exploitation, la publication et le traitement automatique de l’information par la machine : 1. l’expression explicite du sens des contenus de pages Web ; 2. la représentation logique des connaissances afin d’utiliser des règles d’inférence sur les données et effectuer des traitements automatiques ; 3. l’usage d’ontologies pour définir les relations entre les termes (objets ou classe d’objets, règles d’inférence) ; 4. l’assistance des internautes par des agents intelligents qui peuvent collaborer, échanger des informations et effectuer des raisonnements automatiques ; 5. et enfin, la possibilité pour un groupe d’individus, travaillant autour d’un concept de faire évoluer sa connaissance vers la connaissance des termes propres à d’autres groupes travaillant de manière indépendante et séparée sur le même concept. C’est en fait en standardisant la structure et la sémantique des ensembles de données publiques qu’est construit le web des données. La publication des données devrait alors suivre quelques règles [6] : — Identifier les entités par des URI. Les URI ici ont la même syntaxe que les URL. Mais à la différence de ces derniers qui sont des adresses de pages web, les URI identifient des descriptions d’entités du monde (personne, animal, objet, concept, ...) appelées dans ce cas ressources. — Ces URI doivent être déréférençables via le protocole HTTP [7] pour permettre qu’on puisse accéder aux descriptions des ressources identifiées. — Lors de l’accès par ces URI, des métadonnées décrivant la ressource référencée doivent être retournées, en suivant les standards RDF [8] et SPARQL [9]. Parmi les URI définis dans la base AgroLD, certaines ne sont pas encore déréférençables par le protocole HTTP comme présenté dans l’exemple de la figure 7 1.2, à la différence des URI de ressources externes de la figure 1.1 qui retourne bien la description identifiée par cette URI. — Inclure d’autres URI dans le jeu de données publiées pour permettre qu’on puisse découvrir d’autres données. Comme on l’a vu à la figure 1.1 où des identifiants de ressources externes à AgroLD sont utilisés pour compléter l’information contenu dans la base. Remarquons que deux standards, RDF et SPARQL sont recommandés dans ces règles. En effet, RDF est la syntaxe de description des ressources du web et de structuration des ensembles de données. Son idée est de décrire les ressources et représenter les bases de connaissances sous forme de graphes (figure 2.1) à partir du concept de triplet de la forme (sujet, prédicat, objet). Dans ces triplets, l’objet est la valeur de la propriété du sujet définie par le prédicat. Le sujet est la ressource décrite (donc identifié par une URI). Le prédicat est identifié par une URI qui identifie la propriété. L’objet lui peut être un littéral (entier, chaîne de caractère, date, ...) ou même une autre ressource (URI). En liant, par un triplet, deux nœuds deux graphes distants l’un de l’autre, un graphe plus grand est établi. Figure 2.1 – Exemple de graphe de données liées (source : http: // linkedlifedata. com/ about ) SPARQL quant à lui est à la fois un protocole et un langage d’interrogation des bases RDF. Sa syntaxe est proche de celle de SQL pour les bases de données relationnelles. La requête suivante, par exemple, détermine les noms des gènes qui encodent une protéine dont l’identifiant est connu (d’après le graphe de la figure 2.1). # Quels sont les noms des gènes qui encodent la protéine Q4H1F1 ? BASE PREFIX uniprot: SELECT ?labelGene 8 WHERE{ ?gene rdf:type :Gene ; uniprot:Q4H1F1 ; rdfs:label ?labelGene . } Par ailleurs, les ontologies aident à décrire la sémantique des ressources en définissant les classes et les types de propriétés à l’aide des standards OWL ou RDFS. Par exemple sur la figure 2.1, l’ontologie "Gene Ontology" (GO) uniformise les concepts et propriétés biologiques concernant les gènes. Les ontologies permettent d’inférer des énoncés (raisonnement) en appliquant des règles d’inférences logiques lors de l’interrogation des données. Le web des données liées et ouvertes est donc une immense base de connaissance, accessible à tous, et liant les données d’un grand nombre de domaines. Le développement d’application web n’exige plus que toutes les données que l’on manipule se trouvent isolées mais les données locales peuvent être liées à d’autres données publiques et distantes. Les applications peuvent ainsi accéder à plus d’informations et surtout en découvrir automatiquement. 2.2 Publication de données des sciences du vivant L’informatique a longtemps contribué au renforcement du progrès scientifique en proposant plusieurs technologies. Cette croissance a produit d’énormes quantités de données. Les ensembles de données sont stockés de manière isolée suivant les équipes de recherche. La problématique ici n’est pas le stockage ni l’accès aux données, mais, pour le scientifique, comment percevoir la connaissance autour des données de différentes sources et partager cette perception avec d’autres chercheurs [10]. Du fait de l’hétérogénéité et l’isolation des bases de données, plusieurs fournisseurs proposent aujourd’hui de publier leur données à travers les technologies web sémantiques. Cela peut se faire soit en convertissant les bases existantes en base de triplets (materialisation des données [1]), soit en traduisant les requêtes SPARQL (réécriture des requêtes [1]) des utilisateurs dans le langage liée à la structure des données (par exemple SQL pour les base de données relationnelles). Les sciences de la vie font partie des divers groupes (géographie, réseaux sociaux, gouvernance,...) de domaines fournissant des données dans le web des données (figure 2.2). Dans le domaine particulier de la biologie, plusieurs ontologies et bases de connaissance existent. 9
- Xem thêm -

Tài liệu liên quan