Đăng ký Đăng nhập
Trang chủ Khai phá cấu trúc phân loài của hệ vi sinh vật ruột người từ dữ liệu di truyền h...

Tài liệu Khai phá cấu trúc phân loài của hệ vi sinh vật ruột người từ dữ liệu di truyền học môi trường. luận văn ths. hệ thống thông minh và đa phương tiện (chương trình đào tạo thí điểm)

.PDF
48
6
69

Mô tả:

UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL DƯƠNG TIẾN HẬU APPROCHE MÉTAGÉNOMIQUE POUR LE BINNING TAXONOMIQUE DU MICROBIOME INTESTIAL HUMAIN KHAI PHÁ CẤU TRÚC PHÂN LOÀI CỦA HỆ VI SINH VẬT RUỘT NGƯỜI TỪ DỮ LIỆU DI TRUYỀN HỌC MÔI TRƯỜNG MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE HANOI – 2017 UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL DƯƠNG TIẾN HẬU APPROCHE MÉTAGÉNOMIQUE POUR LE BINNING TAXONOMIQUE DU MICROBIOME INTESTIAL HUMAIN KHAI PHÁ CẤU TRÚC PHÂN LOÀI CỦA HỆ VI SINH VẬT RUỘT NGƯỜI TỪ DỮ LIỆU DI TRUYỀN HỌC MÔI TRƯỜNG Spécialité: Systèmes Intelligents & Multimédia Code: Programme pilote MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE Sous la direction de : Dr. Jean-Daniel Zucker, Dr. Ho Bich Hai HANOI – 2017 ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs. La source des informations citées dans ce mémoire a été bien précisée. LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. Các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc. Signature de l’étudiant Dương Tiến Hậu Table des matières INTRODUCTION 2 Chapitre 1 : Contexte 1.1 Métagénomique . . . . . . . . . . . . 1.2 Diversité taxonomique . . . . . . . . 1.3 Diversité fonctionnelle . . . . . . . . 1.4 Métagénomique comparative . . . . . 1.5 Données de NGS . . . . . . . . . . . 1.5.1 Les plateformes de séquençage 1.5.2 Des notions de base . . . . . . 1.5.3 Format de données . . . . . . . . . . . . . . 3 3 4 6 7 8 8 8 8 Chapitre 2 : Problématique 2.1 État de l’art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Énoncé du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 11 12 Chapitre 3 : Méthodes proposées 3.1 Prototype de pipeline . . . . . . . . . . . 3.1.1 Tableau de données . . . . . . . . 3.1.2 Configuration . . . . . . . . . . . 3.1.3 Outils . . . . . . . . . . . . . . . 3.1.4 Générateur de commande . . . . 3.2 La distance phylogénétique des séquences 3.2.1 La mesure de distance . . . . . . 3.2.2 Sélection de modèle . . . . . . . . 3.3 Analyse de données METAHIT . . . . . . . . . . . . . . 14 14 15 16 16 16 17 18 19 20 . . . . . . . . . . . 21 21 21 22 26 26 29 29 30 32 32 33 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . d’ADN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Chapitre 4 : Expériment 4.1 Pipelines de binning . . . . . . . . . . . . . . . . . . . . 4.1.1 Assemblage . . . . . . . . . . . . . . . . . . . . . 4.1.2 Estimation d’abondance des séquences (Counting) 4.1.3 Segmentation . . . . . . . . . . . . . . . . . . . . 4.1.4 Inter-clustering . . . . . . . . . . . . . . . . . . . 4.2 Segmentation . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Conception de l’objet de segment . . . . . . . . . 4.2.2 Sélection du modèle . . . . . . . . . . . . . . . . . 4.3 Analyse de données METAHIT . . . . . . . . . . . . . . 4.3.1 Données : METAHIT . . . . . . . . . . . . . . . . 4.3.2 Assemblage . . . . . . . . . . . . . . . . . . . . . i . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.3 4.3.4 4.3.5 Calculation d’abondance (counting) . . . . . . . . . . . . . . . . . . . Segmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Inter-clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 34 35 CONCLUSION 36 RÉFÉRENCES 38 ii Table des figures 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Trois questions principales de la métagénomique [15] . . . . . . . . . . . . . 4 Neuf régions hypervariables de 16S rRNA du Escherichia coli [16]. . . . . . . 5 Un exemple de méthode d’analyse quantitative [26]. Les séquences sont groupés en basant sur le profil d’abondance. . . . . . . . . . . . . . . . . . . . . . . . 6 Explication des notions de base [12] . . . . . . . . . . . . . . . . . . . . . . . 10 Binning. Pipeline de MetaBAT [35]. Binning taxonomique basé deux caractéristiques : l’abondance de la séquence et la composition de l’ADN . . . . . . . . . . . . 11 Le schéma global de binning taxonomique. Rectangles bleus : developpés par nous. Rectangles jaunes : développés par l’équipe de ICAN (dans l’avenir) . . 13 Prototype de pipeline. Le générateur lit les configuration et les métadonnées pour générer et appeler les commandes . . . . . . . . . . . . . . . . . . . . . 15 La distance entre deux segments est mesurée par la distance phylogénétique entre deux ensemble des anotations . . . . . . . . . . . . . . . . . . . . . . . 18 Distance entre deux annotations est calculée par ses distance sur l’arbre de phylogénétique. Distance entre x et y est égale à 3, [45] . . . . . . . . . . . . 19 Pipeline d’assemblage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 Pipeline de counting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Pipeline de segmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 Comment segmenter les séquences. Le modèle de segmentation essaie de trouver des points de coupures pour séparer des segments de deux types : partagé et non partagé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 Le profil d’abondance est estimé par l’abondance respective d’une séquence dans chaque échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 Faire l’alignement d’une séquence aux séquences de chaque échantillon pour extraire d’abondance à travers échantillons . . . . . . . . . . . . . . . . . . . 28 Pearson correlation [44] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 Les distances ne suivent pas la loi normale. L’histogramme de distribution est “skew” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 La plupart des séquences sont bonnes (la qualité de 30 à 39) . . . . . . . . . 33 Nombre de contig par échantillons . . . . . . . . . . . . . . . . . . . . . . . . 34 Nombre de séquence par échantillon . . . . . . . . . . . . . . . . . . . . . . . 35 Liste des tableaux 1 2 3 Des technique de séquençage [31] . . . . . . . . . . . . . . . . . . . . . . . . Résumé des pipelines de binning taxonomiques dans les travaux précédents. . La performance de deux versions de counting . . . . . . . . . . . . . . . . . . iii 9 12 26 4 5 Résumé deux étapes de prétraitement . . . . . . . . . . . . . . . . . . . . . . Résumé sur le résultat de clustering . . . . . . . . . . . . . . . . . . . . . . . iv 33 35 Résumé : On a estimé que les microbes dans nos corps sont environ 100 trillions de cellules, dix fois le nombre de cellules humaines et a suggéré qu’ils codent 100 fois plus de gènes uniques que notre propre génome [1] . Une des communautés importantes est la communauté des microbes dans l’intestin humain, car ils ont donc une profonde influence sur la physiologie humaine et la nutrition, autrement dit ils sont cruciaux pour la vie humaine. Comprendre la composition et fonction de cette communauté est importante pour améliorer la santé humaine. Des nouveaux progrès de séquençage de haut débit (NGS) permet d’étudier en profonde les microbes dans l’environnement complexe. Métagénomique est un ensemble de méthode pour traiter et analyser ce nouveau type de données. Au point de vue d’informatique, la métagénomique entraı̂ne des problèmes de computation, car les données de métagénome sont normalement grandes et complexes. Un projet (rMGS) du laboratoire (INSERM/ICAN) travaille sur des données de métagnénome qui vise à d’analyser la composition des microbes dans l’intestin humain. Pour résoudre cette question, une nouvelle méthode de binning taxonomique a été proposé par notre équipe. Dans le cadre du projet, trois travaux sont : (1) proposer un prototype de pipeline pour analyser des problèmes métagénomiques, (2) proposer d’une mesure de similarité des segments d’ADN basé sur l’annotation phylogénétique (distance phylogénétique), (3) analyser la données réelle METAHIT [2] (124 échantillons par MetaHIT consortium, Commission européenne 7th FP) en utilisant nos pipelines. Ma contribution est donc représentée en trois aspects : (1) Le prototype est utilisé comme un standard pour tous les pipelines de notre équipe. Il est facile à lancer pour les experts du domaine (métagénomique) et facile à maintenir, à modifier pour les informaticiens. Les résultats sont cohérents, donc il est facile à suivre et à déboguer. (2) La distance phylogénétique est utilisée non seulement dans le projet, mais encore elle est utile dans d’autres problèmes par exemple la sélection du modèle, la validation des clusters taxonomiques (espèce métagénomique – rMGS). Elle contribue une autre façon pour mesurer la similarité à côté de la méthode classique basé sur les nucléotides.(3) Les résultats de binning taxonomique sur la données réelle METAHIT sert à comparer avec les travaux précédents en termes de performance de pipeline ainsi que les informations biologiques. Mots clés : Métagénomique, composition microbienne, binning taxonomique, NGS 1 INTRODUCTION Ce stage, d’une durée de cinq mois, a consisté à mettre en place des pipelines d’analyse des données métagénomique afin d’étudier la communauté de microbes dans l’intestin humain. Ce rapport présente le travail que j’ai effectué lors de mon stage au sein de laboratoire UMI UMMISCO, IRD France Nord et UMI UMMISCO-VN. Il est déroulé du 1 février 2016 au 30 juin 2016. Pendant le stage, je me suis familiarisé avec la métagénomique et le traitement des données de nouvelle génération de séquençage (NGS). En effet, ce stage est intediscipline, je suis comme un interface entre la biologie et l’informatique, donc, au débout du stage, je faisais des efforts pour comprendre des termes et des concepts biologiques. De plus en plus, j’ai conscience des applications protentielles de métagénomique. J’ai décider d’orienter ma carrière vers la bio-informatique. Le projet réalisé était très intéressant et très enrichissant pour mon expérience professionelle. En effet, les microbes joue un rôle primordial pour notre santé, pourtant nous avons insuffisament connaissance sur cette communauté car la plupart de celles ne peuvent pas mettre en culture dans les laboratoires. Grâce au développement de technique de séquençage (NGS), nous pouvons maintenant étudier en profond cette communauté. Je vous expose dans ce rapport en premier lieu la contexte du projet dans le chapitre 1. Qu’est-ce que la métagénomique ? quelles sont leur application ? quels sont leur défis ?. J’explique ensuite trois questions principales à résoudre de métagénomique. Les types de données et les techniques de séquençage sont aussi présenté dans ce chapitre. Dans le chapitre 2, je vais expliquer en détail le problème à résoudre dans mon stage. En effet, ce stage est dans le contexe d’un grand projet de ICAN-INCERN, nous essayons de regrouper des séquences dans des clusters intitulé rMGS, chaque cluster représente une espèce métagénomique. En fonction de stagiaire, je dois implémenter des pipelines pour analyser automatiquement des données métagénomiques. Des travaux précédents et des techniques populaires sont abordés et comparé. Pour le chapitre 3, je vais aborder nos méthodes proposées, y compris : un prototype de pipeline comme un standard de tous les pipelines, flux de travail de quatre pipelines dans notre projet, une proposition une nouvelle mesure de distance entre des segments d’ADN, l’analyse une données réelle avec nos pipelines. Dans la dernier chapitre (chapitre 4), je fais une résumé sur les résultat obtenu. 2 Chapitre 1 : Contexte 1.1 Métagénomique Les microbes présentent dans presque tous les environnements de la Terre, jouent un rôle crucial dans les cycles biogéochimiques et représentent une grande partie de la diversité de la vie. Ces microbes peuvent interagir avec son hôte pour influencer la physiologie et contribuer à la santé, à la croissance ou à la forme physique. On s’intéresse aux communautés des microbes dans l’intestin humain, l’eau et le sol etc. Exemple, l’analyse des communautés de microbe a des applications en santé : la nutrition [3, 4, 6] et les maladies [7, 8, 9], en agriculture : la corrélation entre les microbes et les phénotypes du plant [10, 11, 13]. L’analyse ces types de l’environnement est compliqué comme les microbes vivent dans un environnement complexe où elles interagissent entre eux. De plus, des techniques traditionnelles de séquençage sont coûteuses, prennent de temps, sont incapables à traiter une grande quantité de génome. La nouvelle génération de séquençage (NGS) qui a été mise en marché au milieu des années 2000, est des plateformes de haut débit de séquençage. Le coût de séquençage fait tomber 50,000-fois par rapport le coût de séquençage au début de projet de génome humain [14]. Le temps de séquençage est aussi rapide, nous pouvons prendre une jour pour obtenir la génome complète de l’homme au lieu d’une décennie comme avant. Grâce à cette technologie, les chercheurs sont capables d’analyser une massive quantité de génome matériel. Cela permet d’explorer des nouvelles génomes et des microbes qui ne sont pas mises en culture. Elle est une approche complémentaire pour l’identification des microbes. La technique NGS cause des difficultés : — Les données sont grandes : environ 20- 30 millions reads (10 Gb) par échantillon. — Complexe : contient des séquences d’ADN de hôte, faible couverture rend des erreurs de l’assemblage. — Les séquences sont courtes : 75-300 paires de bases (bp) de Illumina (reads) par rapport plus de 500 bp de Sanger. Plus les reads sont courtes, plus la complexité de computation augmente. Pourtant, l’intégré de cette technique est grande. Donc, on essaie de développer des autres méthodes pour résoudre ces défis. La métagénomique, apparu vers 2005, est un ensemble de méthodes pour traiter les données de NGS. Les analyses de métagénomique essaie de répondre trois questions biologiques, voyez le figure 1 : — La diversité taxonomique (qui est là ?) : L’identification des espèces dans la communauté, l’abondance des espèces. — Diversité fonctionnelle (que font-ils) : Les fonctions de communauté en des échelles différentes : des gènes, protéines, espèces, pathway etc — Comparaison métagénomique : (1) la combinaison entre les communautés selon la diversité taxonomique et fonctionnelle, (2) l’interaction entre les organismes, l’interaction entre les organismes et leur hôte, (3) l’analyse longitudinale, suivre un échantillon 3 Figure 1 – Trois questions principales de la métagénomique [15] dans des points de temps. Il y a des difficultés en computation : — On n’a pas suffisamment des génomes de référence. La base de données RefSeq de l’NCBI inclut 66224 génomes aux niveaux différents de complétude (chromosome, scaffold, contigs etc). La plupart des génomes de la RefSeq sont sous forme “draft”. C’est-à-dire elles présentent sous la forme d’un ensemble de fragments de séquences plutôt qu’une seule séquence représentant le génome entier. — Ensuite, les données sont normalement grandes. Ce défi peut être résolu par la computation en parallèle et distribué. — Il existe des pipelines et outils pour l’analyse des données NGS. Pourtant, la plupart des pipelines visent à résoudre un problème concrète. Les chercheurs doivent construire des nouveaux pipelines pour les nouveaux problèmes. 1.2 Diversité taxonomique Une des principales façons de caractériser une communauté microbienne est la caractérisation de sa diversité taxonomique. Cela vise à déterminer : (1) quels sont les microbes dans une communauté, (2) ces microbes présentent à quelle abondance. La diversité taxonomique sert à établir le profil d’une communauté et peut servir à comparer la similarité entre deux ou plusieurs communautés. Il y a deux mesures principales : α-diversité (α-diversity) est la biodiversité dans un habitat ou un écosystème défini, β-diversité (β-diversity) est la comparaison du profil taxonomique entre deux écosystèmes. La diversité taxonomique est normalement quantifiée par : (1) l’analyse des gènes marqueurs, (2) l’analyse quantitative (binning). L’analyse des gènes marqueurs est l’une des méthodes les plus simples et les plus efficientes en termes de calcul pour estimer la diversité taxonomique d’une communauté. Dans 4 cette méthode, on s’intéresse des régions hypervariables qui peuvent fournir des signatures spécifiques de l’espèce. Les marqueurs les plus utilisés sont les gènes rRNA qui ont tendance à être une seule copie et Figure 2 – Neuf régions hypervariables de 16S rRNA du Escherichia coli [16]. communs aux génomes microbiens. Pour les bactéries et archaeas, on prend les séquences 16S rRNA qui contient la région variable et conservée. De la même façon, on choisit les séquences 18S pour l’eukaryote, ITS pour le fungi. Dans l’étape de séquençage, on essaie de dessiner des amorces (primers) pour extraire les séquences rRNA ciblées. Une OTU (Operational Taxonomic Units) est définie comme un groupe de reads similaires, motivée par l’espérance que celles-ci correspondent à peu près une espèce. Des méthodes les plus utilisées pour analyser les gènes marqueurs : — Méthode basée sur la base de données des références, on fait un alignement pairwise entre la séquence et la base des références. Les bases de référence populaires : Silva [17], Greengenes [18] et RDP [19]. — Distance-based ou de novo clustering. Dans cette méthode, on regroupe les séquences en OTU basé sur la distance entre les séquences. Donc, le coût de calcul de cette méthode est quadratique avec le nombre de séquences uniques [20]. Le point fort de novo est son indépendance des bases de références pour la réalisation de l’étape de regroupement. Pour cette raison, l’approche de novo est plus préférée que la méthode de référence. — Open Reference OTUs est une approche hybride de référence et de novo, on prend d’abord la méthode de référence, pour les séquences non classées, on utilise la méthode de novo. Deux outils populaires pour l’analyse des gènes marqueurs sont QIIME [21] et MOTHUR [22]. 5 La deuxième méthode se base sur l’analyse quantitative qui vise à “bin” toutes les séquences d’ADN en des génomes. Chaque séquence est classifiée soit (1) par la comparaison (blast) avec une base de référence, (2) par la composition de l’ADN (k-mers, GC pourcent. . . ), (3) par le profil d’abondance (voyez la figure 3). Les séquences peuvent également être groupé en fonction de leur similarité de séquence avec une base de données des séquences annotées. Elle dépend une base de référence, donc cette méthode ne convient pas pour découvrir de nouvelles génomes. Un des outils les plus utilisés est MEGAN [23] qui utilise l’alignement pour comparer les séquences métagénomiques à une base de données de séquences annotés comme NCBI, Ensembl. La méthode basée sur la composition de l’ADN utilise des caractéristiques de séquences (par exemple, une fréquence de tétramère) pour regrouper ou classer des séquences en groupes taxonomiques : KHMER [24], CompostBin [25] . Cette méthode n’a pas besoin de l’alignement à une base de données de référence, par conséquent, elle peut traiter rapidement des grandes métagénomes. La dernière méthode dépend du profil d’abondance des séquences. Des séquences similaires en profil d’abondance sont groupées dans un groupe. C’est une bonne méthode pour découvrir de nouvelles génomes, pourtant sa computation est coûteuse, car il faut faire des alignements. Figure 3 – Un exemple de méthode d’analyse quantitative [26]. Les séquences sont groupés en basant sur le profil d’abondance. 1.3 Diversité fonctionnelle Les métagénomes donnent un aperçu de la physiologie d’une communauté en clarifiant les fonctions codées dans les génomes de la communauté. La diversité fonctionnelle d’une communauté peut être profilé en annotant des séquences avec des fonctions biologiques. Cela implique l’identification des séquences codantes de protéines et la comparaison de la séquence codant à une base de données de gènes, de protéines, de familles de protéines pour lesquelles des informations fonctionnelles sont connues déjà. On obtient un profil qui décrit le nombre de 6 types de fonctions et leur abondance dans la communauté. L’analyse de la diversité fonctionnelle implique deux étapes : prédiction des séquences codantes et annotation fonctionnelle. La prédiction des gènes détermine quelles séquences contiennent des séquences codantes. Un des moyens les plus simples pour déterminer les séquences codantes consiste à aligner les séquences à une base de données de gènes. Cette méthode n’est pas favorable pour les communautés avec des génomes qui ne sont pas représentés dans des bases de données, surtout si nous voulons identifier des gènes nouveaux ou très divergents. La méthode de novo est largement utilisée. Elle peut potentiellement identifier de nouveaux gènes. On utilise des modèles qui sont basés sur des propriétés des gènes microbiens (la longueur, codon, caractéristique de GC), sont utilisés pour évaluer si une séquence ou un contig contient un gène. Des outils de prédiction des gènes incluent MetaGenMark [27], MetaGen [28]. Une fois que les séquences codantes sont prédites, elles peuvent être soumises à l’annotation fonctionnelle. La façon la plus connue est de classer les protéines prédites en familles protéiques. Comme les protéines d’une famille partagent un ancêtre commun, on pense qu’elles codent des fonctions biologiques similaires. Si l’on détermine qu’une séquence appartient à cette famille, on déduit que la séquence code la fonction de la famille. COGs, EggNOGs et KEGG sont des bases de protéines populaires. Des outils sont implémentés pour cette tâche comme MG-RAST [29] , CAMERA [30]. 1.4 Métagénomique comparative Des analyses comparatives entre des métagénomes peuvent fournir des informations supplémentaires sur la fonction des communautés complexes de microbe et leur rôle dans la santé de l’hôte. Nous nous intéressons à trois aspects : La simarité des communautés (inter-communauté) : La comparaison pair-wise ou multiple de communauté peut être faite aux niveaux différents : la composition de séquence (contenu de GC ou la taille du génome), la diversité taxonomique ou la diversité fonctionnel. Pour répondre cette question, nous devons utiliser les résultats de deux premières questions. La corrélation avec des métadonnées : Les activitées des microbes influencent les caractéristiques de leur hôte. Les microbes dans la région de rhizosphère influence fortement le phénotype du plant [10]. Les communautés de microbes du sol contribuent à la changement des caractéristique chimique, physique et biomass du sol [11]. La dynamique : On veut étudier : (1) le changement de composition des microbes entre des conditions différentes [46], (2) l’interaction entre les microbes dans la communauté et l’interaction entre des communautés [47] . Trois techniques sont souvant utilisées pour évaluer l’interaction : (1) basant sur l’abondance pour déduire la co-occurrence ou co-exclusion de deux organismes, (2) modèle de régression où l’information des autres organismes permet de prédire l’abondance de l’organisme. (3) modèle Local similarity analysis (LSA) [48] permet d’analyser l’abondance des microorganismes dans des séries chronologiques, cet méthode est 7 utile quand on veut d’évaluer la dynamique de communauté. 1.5 Données de NGS Dans la métagénomique, on travaille souvent sur deux types de données : — Les gènes de marqueur : 16S rRNA pour bactéries et archaea, 18S rRNA pour l’eukaryote, ITS pour fungi. — Les séquences complètes d’ADN : toutes les séquences ADN extrait dans un environnement. 1.5.1 Les plateformes de séquençage Première génération : La première génération de séquençage a été développé à l’origine par Sanger en 1975. Cette méthode donne des reads de 800 bases en moyenne. Elle est des limitations : la petite quantité d’ADN qui pourraient être traitées par unité de temps, débit, le coût élevé. Deuxième génération : Chaque technique a son propre façon pour extraire les séquences, cependant elles partagent des principes communs : séquençage en parallèle et courtes séquences (75-300 bps avec Illumina, 400 avec IonTorrent PGM et 454 avec Pyrosequencing). En retour, ces techniques nous donnent une massif quantité des séquences (200-500 megabases avec Pyrosequencing, 20-50 gigabase avec Illumina) Troisième génération : Les techniques comme Pacbio, Oxford Nanopore apparaissent des années récentes. Le point fort de cette technique est la longueur des séquences (10 -15 kilobase). Résume des techniques de séquençage, voyez le tableau 1 1.5.2 Des notions de base — — — — Le terme “Paired-end” s’agit de deux extrémités d’un segment d’ADN. Read 1 : read de direction avant Read 2 : read de direction inverse Adapter : Un adaptateur est une courte molécule d’ADN à double strands qui est utilisée pour relier les extrémités des segments d’ADN. — Insert size : Insert size est la longueur de l’ADN (ou de l’ARN) que vous souhaitez séquencer et qui est “inséré” entre les adaptateurs. 1.5.3 Format de données FASTA et FASTQ sont deux types populaire de données en métagénomique. Ces deux formats sont document textuel, donc il est facile à le traiter dans n’importe éditeur de texte ou langage de programmation. Chaque nucléotide est représenté par un caractère. Chaque 8 Table 1 – Des technique de séquençage NGS platformes /en- Longueur Nombre de Temps (h treprise /taille de du reads reads ou jours) données maximale par (bp) run Première génération Sanger/Life Technolo- 800 1 2h gies/84 kb Première génération 454 GS 700 1 ∗ 106 24-48h FLX+/Roche/0.7 Gb GS Junior/Roche/70 500 1 ∗ 105 18h Mb HiSeq/Illumina/1500 2x150 5 ∗ 109 27-240h Gb MiSeq/Illumina/15 2x300 3 ∗ 108 27h Gb SOLiD/Life Technolo- 50 1 ∗ 109 14 jours gies/120 Gb Ion PGM/Life Tech- 200 5 ∗ 106 2–5h nologies/2 Gb Troisième génération SMRT/Pac Bio/1 Gb >10,000 1 ∗ 106 1–2h 4 Nanopore/Oxford >5000 6 ∗ 10 48-72h Nanopore Technologies/1 Gb 9 [31] Coût par Teaux 1 millions d’erreur bases (%) 2400 0.3 10 1 9 - 0.1 0.8 0.13 0.8 0.13 0.01 1 1.7 2 <1 12.9 34 Figure 4 – Explication des notions de base [12] séquence se compose deux parties : identification et séquence L’identification commence par le caractère “>” pour FASTA et “@” pour FASTQ. La séquence est située dans la ligne suivante. Exemple une séquence FASTA, voyez le listing 1 : Listing 1 – Format de FASTA. La première ligne (commence par “>”) est l’identification de la séquence, les restes sont des caractères représentant les nucléotides >NM 012515 TGTGGATCTTTCCAGAACAGCAGTTGCAATCACTATGTCTCAATCCTGGGTACCCGCCGT GGGCCTCACTCTGGTGCCCAGCCTGGGGGGCTTCATGGGAGCCTACTTTGTGCGTGGTGA GGGCCTCCGCTGGTATGCTAGCTTGCAGAAACCCTCCTGGCATCCGCCTCGCTGGACACT CTCCCATCTGGGGCACACTGTATTCGGCCATGGGGTATGGCTCCTACATAATCTGGAAAG AGCTGGGAGGTTTCACAGAGGAGGCTATGGTTCCCTTGGGTCTCTACACTGGTCAGC Le format FASTQ est similaire FASTA, pourtant, il ajoute une ligne de contrôle la qualité de la séquence (représenté par des caractères ASCII). Le score de qualité représente l’exactitude quand la machine lit un nucléotide, ce score a un écart de 0-93 (ASCII de 33 à 126), pourtant les scores sont normalement moins de 40, donc des logiciels prennent 40 est la valeur maximale. Exemple une séquence FASTQ, voyez le listing 2 : Listing 2 – Format de FASTQ. La dernière linge est le score de qualité codée par des caractères ASCII @SEQ ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + ! ’ ’∗((((∗∗∗+))%%%++)(%%%%).1∗∗∗ −+∗ ’ ’))∗∗55CCF>>>>>>CCCCCCC65 10 Chapitre 2 : Problématique 2.1 État de l’art Figure 5 – Binning. Pipeline de MetaBAT [35]. Binning taxonomique basé deux caractéristiques : l’abondance de la séquence et la composition de l’ADN Il y a deux approches de regrouper des séquences en cluster : (1) l’approche basée sur le profil de co-abondance à travers les échantillons, (2) la composition de l’ADN (fréquence de tétra-nucléotidiques, GC pourcentage. . . ) La méthode basée sur l’abondance est largement utilisée. L’abondance est la fréquence d’une séquence dans un échantillon. L’abondance d’une séquence élever ou basse réfléchit l’abondance de l’espèce qui procède cette séquence. Cette méthode se base sur une supposition : deux séquences qui ont un profil similaire de l’abondance peuvent appartenir à une même espèce. Autrement dit, si deux séquences apparaissent de même forme dans des échantillons, nous avons raison pour dire que ces séquences peut-être appartiennent à une même espèce. La méthode basée sur l’abondance fonctionne généralement meilleur que k-mers, elle peut distinguer les espèces dans le cas où la composition de k-mers est similaire, cependant elle consomme plus de ressource (calcul, temps. . . ). La méthode de k-mers est similaire le modèle sac de mot dans l’apprentissage automatique. Une séquence est une chaı̂ne de caractères. Donc, il peut être considéré comme un paragraphe ou un document. Nous allons calculer la fréquence d’un groupe de k caractères apparaı̂t. Pareil, dans le modèle de sac de mot, nous comptons la fréquence des mots dans un document. Deux documents (séquences) sont similaires si la distance entre eux est faible. Si la distance entre deux séquences est inférieur à un seuil, il va être groupé dans un cluster. Des recherches montrent que 4-mers est suffisant pour discriminer les séquences. Cette méthode fonctionne, car deux espèces ont normalement deux compositions différentes de ADN. L’avantage de cette méthode est que elle a besoins moins de ressource (temps, RAM, calcul. . . ), cependant elle travaille seulement efficace dans le cas où la composition ADN des espèces sont différentes. 11 Au contraire, si la composition de deux espèces sont similaires (deux espèces de même gerne par exemple), cette méthode ne peut pas les distinguer. La plupart des pipelines actuels combinent deux caractéristiques dans un modèle pour augmenter la précision de binning. Voyez un pipeline de MetaBAT dans le figure 5. Le tableau 2 montre des pipelines de binning taxonomique. Table 2 – Résumé des pipelines de binning taxonomiques dans les travaux précédents. Pipeline GroopM [32] CONCOCT [33] MaxBin [34] MetaBAT [35] MyCC [36] 2.2 Caractéristiques TNF et co-abondance * TNF et co-abondance, mélanger deux caractéristiques dans une vecteur. TNF et co-abondance TNF et co-abondance Algorithme Clustering itératif Gaussian mixture model et Bayesian approximation Expectation–Maximization k-medoid clustering TFN euclidien ajusté et abondance probabiliste 4-mers, 5 -mers et 5p6 mers Affinity propagation clustering et co-abondance (optionnel), réduire la dimension * TNF : fréquence de tétra-nucléotidiques Énoncé du problème Une équipe du laboratoire ICAN propose une nouvelle méthode pour le binning taxonomique. Ses chercheurs veulent augmenter la précision de binning en résolvant des inconvénient des travaux actuels : — La méthode de binning basé sur les génomes de référence de Qin et al [1] cause des pertes d’information de la diversité. — Neilsen et al [26] , Li et al [37] proposent une méthode basé sur l’abondance des séquences. Cette méthode conduit à un nombre considérable de contigs/gènes non classés, y compris : — Des régions partagées : le profil d’abondance n’est pas corrélatif. — Des régions spécifiques de strain : Aucun profil de co-abondance et/ou aucun profil génomique similaire — Les travaux actuels perdent à suivre la trace des strains de l”échantillon avec des phénotypes spécifiques. 12 Pour résoudre ces problèmes, l’équipe de l’ICAN propose une méthode qui se compose quatre tâches principales : préparasion de données, interclustering, intraclustering et combinaision. Le figure 6 montre la schéma de méthode proposé par l’équipe. La préparation de données est divisée en trois pipelines. Les restes sont trois pipelines. Nous Figure 6 – Le schéma global de binning taxonomique. Rectangles bleus : developpés par nous. Rectangles jaunes : développés par l’équipe de ICAN (dans l’avenir) avons totalement six pipelines. Nous devons d’abord proposer un prototype pour utiliser dans tous les pipelines du projet. Ensuite, nous implémentons quatre parmi six pipelines. En fin, nous allons tester les pipelines pour faire binning taxonomique avec une données réelle : METAHIT [2]. Donc, ce travail a trois objectifs : 1. Proposer une pipeline de prototype pour des problèmes connus de métagénomique. Cette pipeline doit être flexible et norme. Nous allons appliquer ce prototype pour toutes les pipelines métagénomiques. Développer quatre pipelines basé sur la méthode proposée pour le binning taxonomique. Les pipelines doivent être capable de traiter et analyser des grandes données. Ils sont indépendants pour être utilisés dans d’autres tâches. 2. Proposer d’une mesure de similarité des segments d’ADN basé sur l’annotation phylogénétique (distance phylogénétique) 3. Analyser la données METAHIT avec nos pipelines afin de trouver des rMGSs et de valider nos pipelines. Le résultat permet de comparer avec d’autres travaux précédents. 13
- Xem thêm -

Tài liệu liên quan