Tài liệu Xây dựng công cụ cung cấp thông tin virus cúm cho việt nam

.PDF

122

nhattuvisu Báo vi phạm

Tải xuống 91

Mô tả:

MỤC LỤC MỤC LỤC .......................................................................................................................... 1 DANH MỤC HÌNH............................................................................................................ 2 DANH MỤC BẢNG........................................................................................................... 3 TÓM TẮT........................................................................................................................... 4 CHƯƠNG 1: TỔNG QUAN .............................................................................................. 1 1.1 GIỚI THIỆU VỀ VIRUS CÚM................................................................................ 1 1.2 TÌNH HÌNH NGHIÊN CỨU TRONG VÀ NGOÀI NƯỚC .................................... 4 1.3 MỤC TIÊU ĐỀ TÀI: ................................................................................................ 5 CHƯƠNG 2: NỘI DUNG THỰC HIỆN............................................................................ 7 2.1 PHƯƠNG PHÁP NGHIÊN CỨU ............................................................................ 7 2.2 THIẾT KẾ MỘT CƠ SỞ DỮ LIỆU VIRUSBANK CHỨA THÔNG TIN VỀ VIRUS CÚM CHI TIẾT HÓA ĐẾN MỨC ĐỘ TỈNH THÀNH Ở VIỆT NAM ........... 7 2.2.1 Mô hình quan niệm dữ liệu................................................................................ 7 2.2.2 Diễn giải........................................................................................................... 10 2.2.3 Mô hình logic dữ liệu....................................................................................... 14 2.3 MODULE TỰ ĐỘNG DOWNLOAD DỮ LIỆU TỪ NGÂN HÀNG DỮ LIỆU NCBI ............................................................................................................................. 14 2.4 MODULE TỰ ĐỘNG CẬP NHẬT DỮ LIỆU VÀO CƠ SỞ DỮ LIỆU VIRUSBANK ............................................................................................................... 16 2.5 CÔNG CỤ CUNG CẤP THÔNG TIN VIRUS CÚM............................................ 17 CHƯƠNG 3: KẾT LUẬN ................................................................................................ 18 3.1 KẾT QUẢ ĐẠT ĐƯỢC ......................................................................................... 18 3.2 HƯỚNG PHÁT TRIỂN.......................................................................................... 18 TÀI LIỆU THAM KHẢO ................................................................................................ 19 DANH MỤC HÌNH Hình Hình Hình Hình Hình Hình Hình 1: Cấu trúc hệ gen của 3 loại cúm: cúm A, cúm B, cúm C............................ 2 2: Các đại dịch cúm xảy ra trên thế giới cho đến nay.................................... 3 3: Mô hình quan niệm dữ liệu VirusBank ................................................... 10 4: Mô hình logic dữ liệu VirusBank ............................................................ 14 5: Giao diện form kết nối dữ liệu................................................................. 15 6: Giao diện form tạo file đường dẫn........................................................... 16 7: Giao diện form Download tự động, update tự động ................................ 17 DANH MỤC BẢNG Bảng 1: Tổng kế các đặc điểm chính của virus ....................................................... 1 Bảng 2: Thống kê số người nhiễm cúm H5N1 cho đến năm 2009.......................... 4 Bảng 3: Ví dụ nội dung file influenza_na.dat .......................................................... 7 Bảng 4: Ví dụ về nội dung file influenza.dat ........................................................... 8 TÓM TẮT Virus cúm (influenza) là một loại RNA virus, chính là nguyên nhân gây ra bệnh cúm ở người và động vật. Với khả năng biến đổi và lan truyền nhanh từ động vật sang động vật, từ động vật sang người, và đặc biệt là từ người sang người; virus cúm là một trong những loài virus nguy hiểm nhất cho nền kinh tế cũng như sức khỏe con người trên toàn thế giới từ trước đến nay. Chính vì vậy, sự hiểu biết về cấu trúc phân tử của nó là một nhu cầu lớn trong các nghiên cứu về dịch bệnh. Hiện nay, các tổ chức y tế, cũng như các ngân hàng dữ liệu trên thế giới đã lưu trữ nhiều trình tự sinh học liên quan đến virus cúm. Tuy nhiên, các ngân hàng dữ liệu sinh học này không chứa thông tin chi tiết đến các tỉnh thành của một quốc gia. Vì vậy, chúng ta không có đầy đủ thông tin để biểu diễn quá trình lây nhiễm, cũng như phân tích virus cúm ở Việt Nam một cách đầy đủ, đặc biệt có đủ thông tin để phục vụ cộng đồng. Đề tài này trình bày giải pháp xây dựng cơ sở dữ liệu để có thể bổ sung dữ liệu virus cúm ở Việt Nam cho đến mức độ tỉnh thành; đồng thời xây dựng các công cụ giúp cho việc khai thác thông tin theo tiêu chí người dùng về virus cúm nhanh chóng và hiệu quả. Bên cạnh đó, đề tài cũng trình bày giải pháp cho phép cập nhật dữ liệu một cách tự động từ các ngân hàng dữ liệu về virus cúm trên thế giới, đặc biệt là ngân hàng dữ liệu của NCBI (National Center for Biotechnology Information). 1 CHƯƠNG 1: TỔNG QUAN 1.1 GIỚI THIỆU VỀ VIRUS CÚM Virus cúm (influenza) - một loại RNA virus - là nguyên nhân gây ra bệnh cúm ở người và động vật. Virus cúm được chia thành ba loại chính là cúm A, cúm B, và cúm C. Cúm A bao gồm nhiều chủng (subtype) khác nhau (ví dụ H1N1, H2N2, H5N1,…) và là virus cúm phổ biến và nguy hiểm nhất. Hình 1Error! Reference source not found. mô tả cấu trúc hệ gen của ba loại virus cúm: cúm A, cúm B, cúm C. Cúm A và cúm B có 8 loại gen giống nhau, trong khi cúm C có 7 loại gen. Tổng kết về virus cúm - loại virus, kích thước hệ gen, các loại gen, các loại protein chính, các động vật chủ phổ biến - được nêu ra ở Bảng 1 Bảng 1: Tổng kế các đặc điểm chính của virus Loại virus Kích thước bộ gen Các loại gen Các loại protein chính Các động vật chủ phổ biến Cúm A ~12 Kb PB1, PB2, NP, HA, NA, PA, NS, M PB1, PB1-F2, PB2,PA, HA, NA, NP, M1, M2, NS1, NS2 Người, chim, gia cầm, động vật có vú Cúm B ~12 Kb PB1, PB2, NP, HA, NA, PA, NS, M PB1, PB2, PA, HA, NA, NP, M1, BM2, NS1, NS2 Người, hải cẩu Cúm C ~10 Kb PB1, PB2, NP, PA, NS, M, HEF PB1, PB2, P3, HE, NP, M1, CM2, NS1, NS2 Người, lợn 2 Hình 1: Cấu trúc hệ gen của 3 loại cúm: cúm A, cúm B, cúm C Với khả năng biến đổi và lan truyền nhanh từ động vật sang động vật, từ động vật sang người, và đặc biệt là từ người sang người, virus cúm là một trong những loài virus nguy hiểm nhất cho nền kinh tế cũng như sức khỏe con người trên toàn thế giới từ trước đến nay. Hình 2 chỉ ra các mốc thời gian diễn ra các đại dịch cúm trên thế giới do tổ chức y tế thế giới thống kê. Đầu tiên là đại dịch cúm Tây Ban Nha H1N1 diễn ra năm 1918 đã giết khoảng 20-50 triệu người trên toàn thế giới. Tiếp sau đó, một loạt các đại dịch cúm khác gây thiệt hại lớn đến nền kinh tế và sức khỏe con người như cúm châu Á H2N2 năm 1957, cúm Hồng Kông H3N2 năm 1968, v.v… Từ năm 2003 đến nay, thế giới và đặc biệt là châu Á và Việt Nam đang bị dịch cúm gia cầm H5N1. Cúm gia cầm H1N1 có khả năng lây nhanh giữa gia cầm và gia cầm, dẫn đến làm chết và phải thiêu hủy hàng loạt gia cầm. Đặc biệt nguy hiểm hơn, chúng có khả năng lây từ gia cầm sang con người. 3 Hình 2: Các đại dịch cúm xảy ra trên thế giới cho đến nay Cho đến ngày 24/9/2009, cả thế giới đã có 262 người chết vì cúm gia cầm, trong đó Việt Nam có 56 trường hợp (xem Bảng 2 do tổ chức y tế thế giới thống kê). Trung tâm kiểm soát và phòng chống bệnh Mỹ dự đoán dịch cúm gia cầm H5N1 có thể ảnh hưởng đến 15-35% dân số Mỹ với thiệt hại kinh tế khoảng 70-167 tỉ USD. Hiện nay, cả thế giới, và đặc biệt ở Việt Nam, đang đối mặt với dịch cúm lợn H1N1. Điều đặc biệt nguy hiểm của cúm lợn H1N1 là chúng có khả năng lây từ người sang người và gây tử vong trong thời gian ngắn. Tổ chức y tế thế giới (WHO) thông báo ngày 11/10/2009 có hơn 399.232 trường hợp bị nhiễm cúm H1N1, trong đó hơn 4.735 trường hợp bị tử vong. (xem http://www.who.int/csr/don/2009_10_16/en/index.html). Việt Nam đã ghi nhận hơn 10 nghìn trường hợp bị nhiễm cúm H1N1, trong đó đã có hơn hai mươi ca tử vong. Sự phát triển mạnh mẽ của công nghệ sinh học đã giúp chúng ta giải mã bộ gen của virus cúm trong một thời gian ngắn với chi phí vừa phải. Dự án giải mã toàn bộ hệ gen của virus cúm đã được triển khai tại nhiều nơi như Viện nghiên cứu quốc gia về các bệnh truyền nhiễm, Hoa Kỳ (NIAID) từ những năm 2004 [1] Một lượng lớn dữ liệu sinh học phân tử (các trình tự DNA/protein) của virus cúm đã được giải mã và lưu trữ ở các cơ sở dữ liệu dùng chung của thế giới như Trung tâm Thông tin về công nghệ sinh học Hoa Kỳ - NCBI (National Center for Biotechnology Information). NCBI hiện đang lưu giữ hơn 100.000 trình tự DNA/protein của virus cúm được thu thập và giải mã từ nhiều quốc gia trên thế giới trong suốt thời gian qua. 4 Bảng 2: Thống kê số người nhiễm cúm H5N1 cho đến năm 2009 Với một lượng dữ liệu khổng lồ đã được thu thập, việc xây dựng các hệ thống thông tin, xây dựng các công cụ tìm kiếm và phân tích dữ liệu đang được phát triển mạnh mẽ trên thế giới. Qua đó giúp chúng ta hiểu được cơ chế lây nhiêm, tạo ra vắc-xin mới, theo dõi và kiểm soát dịch bệnh. Nổi bật trong các hệ thống đó là hệ thống thông tin virus cúm của NCBI (http://www.ncbi.nlm.nih.gov/genomes/FLU/) được phát triển bởi Bao và các đồng nghiệp năm 2008 [2]. Hệ thống hiện lưu giữ hơn 100.000 trình tự DNA/protein của các loài virus cúm khác nhau. Một số chức năng chính của hệ thống là: − Cung cấp thông tin về virus cúm theo nhiều tiêu chí khác nhau như: loại virus cúm (cúm A, cúm B, cúm C), động vật chủ (người, gia cầm,..), quốc gia, loại protein. Cung cấp một số công cụ tìm kiếm và phân tích dữ liệu như: tìm kiếm BLAST [1], sắp hàng đa trình tự [5], xây dựng cây phát sinh loài [8], v.v… Tuy nhiên, các thông tin do hệ thống NCBI cung cấp chỉ chi tiết đến mức độ quốc gia. Tức là không chi tiết đến mức độ các tỉnh thành trong một quốc gia. Hệ thống cũng không cung cấp công cụ cho phép hiện thị và theo dõi quá trình lây nhiểm của virus cúm. 1.2 TÌNH HÌNH NGHIÊN CỨU TRONG VÀ NGOÀI NƯỚC ¾ Ngoài nước: 5 Trung tâm Thông tin về công nghệ sinh học Hoa Kỳ - NCBI (National Center for Biotechnology Information) http://www.ncbi.nlm.nih.gov/genomes/FLU/ − Viện nghiên cứu genome Bắc Kinh, Trung Quốc, xây dựng cơ sở dữ liệu virus cúm IVDB (http://influenza.psych.ac.cn/). − Phòng thí nghiệm Quốc gia Los Alamos (http://flu.lanl.gov/) − Trường đại học Hàn Quốc và Viện Sức khỏe quốc gia xây dựng “Cơ sở dữ liệu genome cúm và quyết định kháng nguyên” ISED http://influenza.korea.ac.kr ¾ Trong nước: − Viện Công nghệ sinh học (Institute of Biotechnology - IBT) đã tiến hành nghiên cứu và giải mã nhiều trình tự virus cúm H5N1 − Cục thú y trung ương đã tiến hành giải mã toàn bộ hệ gen của 33 virus cúm ở nhiều tỉnh thành khác nhau từ 10/2005 đến 5/2007: Đồng tháp, Sóc Trăng, An Giang, Hà Tây, Vĩnh Long, Hà Nội,v.v… − Nhóm nghiên cứu của TS. Lê Sỹ Vinh ở Trường Đại học Công nghệ, thuộc Đại học Quốc gia Hà Nội tiến hành phát triển các phương pháp và công cụ tin sinh học để phân tích dữ liệu virus cúm thu được − Nhóm nghiên cứu của PGS. Trần Văn Lăng ở Phân viện Công nghệ thông tin tại TPHCM trước đây, nay là Viện Cơ học và Tin học ứng dụng (Institute of Mechanics and Informatics – IAMI) thuộc Viện Khoa học và Công nghệ Việt Nam đã nhiều năm nghiên cứu, xây dựng các công cụ tin sinh phục vụ cho việc nghiên cứu các trình tự DNA/protein làm nền tảng cho việc nghiên cứu vi khuẩn và virus. − 1.3 MỤC TIÊU ĐỀ TÀI: Việc áp dụng Công nghệ thông tin (CNTT) vào giải quyết các bài toán trong Công nghệ sinh học là một lĩnh vực mới trên thế giới cũng như ở Việt Nam. Nhờ sự phát triển của Công nghệ sinh học, hiện nay chúng ta đã có khả năng trích chọn dữ liệu sinh học phân tử (trình tự DNA, hay trình tự amino acid) từ virus qua đó giúp chúng ta phân tích sự phát triển và lan rộng của virus cúm. Mặc dù nhiều nghiên cứu về virus cúm đã được tiến hành ở Việt Nam, các nghiên cứu chủ yếu tập trung vào việc giải mã các trình tự DNA và protein, qua đó tiến hành một số phân tích để tim hiểu mối quan hệ giữa chúng. 6 Tuy nhiên, hiện nay chúng ta còn thiếu một hệ thống tin giúp các nhà quản lý (bộ, ngành y tế); các nhà chuyên môn; và người dân có được thông tin, dữ liệu, cũng như những công cụ phân tích (thống kê, mô hình) về virus cúm trên thế giới, đặc biệt chi tiết hóa cho virus cúm ở Việt Nam. Đề tài này tập trung xây dựng công cụ cung cấp thông tin về virus cúm bao gồm các chức năng: ¾ Thiết kế một cơ sở dữ liệu chứa thông tin về virus cúm trên thế giới và chi tiết hóa dữ liệu virus cúm ở Việt Nam cho đến mức độ tỉnh thành ¾ Tự động cập nhật dữ liệu từ ngân hàng dữ liệu NCBI. ¾ Xây dựng công cụ cung cấp thông tin virus cúm 7 CHƯƠNG 2: NỘI DUNG THỰC HIỆN 2.1 PHƯƠNG PHÁP NGHIÊN CỨU − Tìm hiểu về virus cúm − Tìm hiểu và thu thập đầy đủ thông tin về các vấn đề cần giải quyết, bao gồm cả phương pháp và phần mềm mã nguồn mở. − Tận dụng tối đa các dữ liệu đã có sẵn. Tìm kiếm và bổ sung các dữ liệu còn thiếu và đặc trưng của Việt Nam. − Lựa chọn và kế thừa các phương pháp phù hợp với nội dung cần giải quyết. Đồng thời, phát triển và cải tiến phương pháp, phần mềm mã nguồn mở đã có. − Các công cụ xây dựng hướng tới người dùng Việt Nam − Khảo sát và tìm kiếm những thông tin đã được công bố để bổ sung cho cơ sở dữ liệu những thông tin đặc thù ở Việt Nam − Tận dụng tối đa và cập nhật thường xuyên dữ liệu virus cúm từ các cơ sở dữ liệu quốc tế như NCBI. 2.2 THIẾT KẾ MỘT CƠ SỞ DỮ LIỆU VIRUSBANK CHỨA THÔNG TIN VỀ VIRUS CÚM CHI TIẾT HÓA ĐẾN MỨC ĐỘ TỈNH THÀNH Ở VIỆT NAM 2.2.1 Mô hình quan niệm dữ liệu Bắt đầu từ nguồn dữ liệu ftp://ftp.ncbi.nih.gov/genomes/INFLUENZA/ mà NCBI lưu trữ Gồm các file - genomeset.dat – có bảng chứa dữ liệu tổng quan về gen influenza_na.dat – Bảng chứa dữ liệu tổng quan về nucleotic - influenza_aa.dat – Bảng chứa dữ liệu tổng quan về protein - influenza.dat – Bảng chứa nucleotide, protein và định danh các vùng mã (coding regions IDs) Ví dụ về nội dung file influenza_na.dat Bảng 3: Ví dụ nội dung file influenza_na.dat Accessio n Host Seg me nt Subty pe Country Year Lengt h S77429 Equine 4 H3N8 Sweden 1979 1061 AJ31075 0 S73497 Equine 6 H3N8 India 1987 1450 Seal 5 H7N7 USA 1980 90 Ag e Equine influenza virus H3N8 Equine influenza virus H3N8 Influenza A virus (A/seal/Mass/1/1980(H Ge nde r Full Len gth yes 8 V01087 Avian 4 X00897 Human 4 EU52189 3 Human 4 H3N8 Ukraine 1963 1765 1979 1878 H3 Singapo re Peru 2006 1037 7N7)) Influenza A virus (A/duck/Ukraine/1/196 3(H3N8)) Influenza B virus yes yes Influenza A Virus (A/Arequipa/FLU3833/ 2006(H3)) Ví dụ về nội dung file influenza.dat Bảng 4: Ví dụ về nội dung file influenza.dat Accession Nucleotide AB000604 AB000605 AB000606 AB000607 AB000608 Accession Protein BAA7582 4 BAA7582 7 BAA7583 0 BAA7583 3 BAA7583 6 Protein_ID gb|AB000604: 4-1128 gb|AB000605: 4-1128 gb|AB000606: 4-1128 gb|AB000607: 4-1128 gb|AB000608: 4-1128 Accession Protein BAA75825 BAA75828 BAA75831 BAA75834 BAA75837 Protein_ID (gb|AB000604 :4-731, 960) (gb|AB000605 :4-731, 960) (gb|AB000606 :4-731, 960) (gb|AB000607 :4-731, 960) (gb|AB000608 :4-731, 960) Accession Protein BAA75826 BAA75829 BAA75832 BAA75835 BAA75838 Protein_ID gb|AB000604:70 9-1128 gb|AB000605:70 9-1128 gb|AB000606:70 9-1128 gb|AB000607:70 9-1128 gb|AB000608:70 9-1128 Và thông tin từng file dữ liệu của Nucleotic, Protein, Gene Các file này chứa đầy đủ thông tin của 1 gene, 1 protein hoặc 1 nucleotic.. Yêu cầu cần thiết phải thiết kế một cơ sở dữ liệu có thể lưu trữ các thông tin này nhưng phải thêm phần chi tiết đến tỉnh thành ở Việt Nam, đồng thời phải dễ dàng cho việc cập nhật tự động, truy xuất và hiển thị thông tin. Xem hình về file thông tin của 1 nucleotic 9 Influenza A virus (A/chicken/Egypt/1052S‐NLQP/2010(H5N1)) segment 4 hemagglutinin (HA) gene, partial cds LOCUS DEFINITION GU811748 1584 bp cRNA linear VRL 21-APR-2010 Influenza A virus (A/chicken/Egypt/1052S-NLQP/2010(H5N1)) segment 4 hemagglutinin (HA) gene, partial cds. ACCESSION GU811748 VERSION GU811748.1 GI:289900038 KEYWORDS . SOURCE Influenza A virus (A/chicken/Egypt/1052S-NLQP/2010(H5N1)) ORGANISM Influenza A virus (A/chicken/Egypt/1052S-NLQP/2010(H5N1)) Viruses; ssRNA negative-strand viruses; Orthomyxoviridae; Influenzavirus A. REFERENCE 1 (bases 1 to 1584) AUTHORS Arafa,A.A., Hagag,N.M., Abdullah,M.H., Yehia,N.M., Abdel-Halim,A.M., Kilany,W.H., Ahmed,M.S., Zanaty,A.M., Abdel-Aziz,O.M., Hassan,M.K. and Aly,M.M. TITLE Genetic analysis of recent Egyptian H5N1 viruses JOURNAL Unpublished REFERENCE 2 (bases 1 to 1584) AUTHORS Arafa,A.A., Hagag,N.M., Abdullah,M.H., Yehia,N.M., Abdel-Halim,A.M., Kilany,W.H., Ahmed,M.S., Zanaty,A.M., Abdel-Aziz,O.M., Hassan,M.K. and Aly,M.M. TITLE Direct Submission JOURNAL Submitted (18-FEB-2010) National Laboratory for Veterinary Quality Control on Poultry Production, Nadi-Elsaid Street, Dokki, Giza 12618, Egypt FEATURES Location/Qualifiers source 1..1584 /organism="Influenza A virus (A/chicken/Egypt/1052S-NLQP/2010(H5N1))" /mol_type="viral cRNA" /strain="A/chicken/Egypt/1052S-NLQP/2010" /serotype="H5N1" /isolation_source="farm" /host="chicken" /db_xref="taxon:720653" /segment="4" /country="Egypt: Qaliobia" /collection_date="Feb-2010" gene <1..>1584 /gene="HA" CDS <1..>1584 /gene="HA" /codon_start=3 /product="hemagglutinin" /protein_id="ADD21384.1" /db_xref="GI:289900039" /translation="ANNSTEQVDTIMEKNVTVTHAQDILEKTHNGKLCDLDGVKPLIL RDCSVAGWLLGNPMCDEFPNVSEWSYIVEKTNPANDLCYPGNFNNYEELKHLLSRINR FEKIKIIPKSSWPDHEASLGVSSACPYQGGPSFYRNVVWLIKKNNTYPTIKESYHNTN QEDLLVLWGIHHPNDEEEQTRIYKNPTTYISVGTSTLNQRLVPKIATRSKVNGQSGRV EFFWTILKSNDTINFESNGNFIAPENAYKIVKKGDSTIMKSELEYGNCSTKCQTPVGA INSSMPFHNIHPLTIGECPKYVKSNRLVLATGLRNSPQGEGRRKKRGLFGAIAGFIEG GWQGMVDGWYGYHHSNEQGSGYAADRESTQKAIDGVTNKVNSIIDKMNTQFEAVGREF NNLEKRIENLNKKMEDGFLDVWTYNAELLVLMENERTLDFHDSNVKNLYDKVRLQLRD NAKELGNGCFEFYHRCDNECMESVRNGTYDYPQYSEEARLKREEISGVKLESIGTYQI LSIYSTVASSLALAIIVAG" ORIGIN 1 atgcaaacaa ctcaacagag caggttgaca caataatgga aaagaacgtc actgttacac 61 acgctcaaga catactggaa aagacacaca acgggaaact ctgcgatcta gatggagtga 121 agcctctaat tttaagagat tgtagtgtag ctggatggct cctcgggaac ccaatgtgtg 10 Từ các thông tin trên, mô hình quan niệm dữ liệu được thiết kế như sau: LoaiGen MaLoaiGen VA(4) MoTaLoaiGen LVA(100) 0,n Asso GenVirus (1,1) STTPhanDoan BT 0,n Asso LoaiVirusCum MaLoaiVirusCum A(1) MoTaLoaiVirus LVA(100) 1,n 0,n Chung_H H BT Pro_Virus NucCore_Virus 0,n LoaiProtein 0,n STT_Virus BT Associa MaLoaiProtein BT TenLoaiProtein VA(6) 1,1 (1,1) Nucleotide ChungHN Nuc_Subtype 0,n 1,1 (1,1) Associ Chung_N (1,1) 0,n Nuc_Host N BT 1,1 DongVatChu 0,n I MaDongVatChu TenDongVatChu LVA(30) MoTaDongVatChu LVA(100) 1,1 Nuc_MaSo Nuc_MaDK Nuc_GI Nuc_PhienBan Nuc_MoTa Nuc_Ngay Nuc_Giong Nuc_Tuoi Nuc_KichThuoc Nuc_NoiDung KTDayDu 0,n LI VA(10) VA(10) BT LVA(200) D BL BT I VA(5000) BL ThuocLoaiProtein 1,1 Protein 0,n CDS_NucCore 1,1 Nuc_QH CDS QuanHuyen CDS_MaSo CDS_Vung CDS_KichThuoc CDS_NoiDung MaQuanHuyen LI TenQuanHuyen LVA(50) 0,n 1,1 LoaiDongVat BT MaLoaiDongVat TenLoaiDongVat LVA(50) MoTaLoaiDongVat LVA(100) LI VA(10) BT VA(10) LVA(200) I VA(5000) 1,1 0,n Thuoc Pro_MaSo Pro_MaDK Pro_PhienBan Pro_GI Pro_MoTa Pro_KichThuoc Pro_NoiDung 0,n 0,1 1,1 CDS_Protein ChauLuc QG_CL QuocGia QH_QG LI VA(50) I LVA(5000) MaQuocGia VA(5) TenQuocGia LVA(50) 1,1 0,n MaChauLuc BT TenChauLuc LVA(30) Hình 3: Mô hình quan niệm dữ liệu VirusBank 2.2.2 Diễn giải 1- LOAIVIRUS(MaLoaiVirus, MoTaLoaiVirus) Vi rút cúm được chia thành ba loại chính là cúm A, cúm B, và cúm C. Khóa truy xuất trong Nucleotide : /organism="Influenza (A/Egypt/N04434/2010(H5N1))" /strain="A/Egypt/N04434/2010" A virus 2- Chung_H(H) Chủng H có giá trị từ 1 đến 16 3- Chung_N(N) Chủng N có giá trị từ 1 đến 9 4- ChungHN(H, N) Mỗi loại Virus có nhiều chủng (Subtype) khác nhau. Ví dụ cúm A có các chủng H1N1, H2N2, H5N1,… và là vi rút cúm phổ biến và nguy hiểm nhất. 11 Khóa truy xuất trong Nucleotide : Source/serotype="H5N1" 5- LoaiGen(MaLoaiGen, MoTaLoaiGen) Các loại gien có trong các loại virus: HA; MP; NA; NP; NS; P3; PA; PB1; PB2 Khóa truy xuất trong Nucleotide : gene /gene= "HA" CDS/gene="HA" Trong Nucleotide, số thứ tự phân đoạn (segment) của các gene phụ thuộc vào loại virus : Loại vi rút Các loại gen Cúm A 1-PB2, 2-PB1, 3-PA, 4-HA, 5-NP, 6-NA, 7-MP, 8-NS Cúm B 1-PB1, 2-PB2, 3-PA, 4-HA, 5-NP, 6-NA, 7-MP, 8-NS 1-PB2, 2-PB1, 3-P3, 4-HE, 5-NP, 6-MP, 7-NS Cúm C Truy xuất cột thứ 3 trên file genomeset.dat, influenza_na.dat, influenza_aa.dat Khóa truy xuất trong Nucleotide Record: Source/segment = 4 6- LOAIDONGVAT(MaLoaiDongVat, TenLoaiDongVat) : Danh mục các loại động vật (Organism) Truy xuất cột thứ 2 trong các file genomeset.dat, influenza_na.dat, influenza_aa.dat 7- DONGVATCHU(MaDongVatChu, TenDongVatChu): Danh mục động vật mang virus Khóa truy xuất trong Nucleotide : source/host="chicken" source/host="human; gender F; age 18" 8- CHAULUC(MaChauLuc, TenChauLuc) Danh mục các châu lục (Region) : Africa; Asia; Europe; North American; Oceania; South American 9- QUOCGIA(MaQuocGia, TenQuocGia) Danh mục quốc gia (Country), mỗi quốc gia thuộc một vùng Khóa truy xuất trong Nucleotide : source/country="Egypt: Qaliobia" source/country="Egypt: Fayoum" 10- QUANHUYEN(MaQuanHuyen, TenQuanHuyen) 12 Danh mục quận/huyện (District), mỗi quận huyện có mã số phân biệt, có tên và thuộc một quốc gia. Khóa truy xuất trong Nucleotide : source/country="Egypt: Qaliobia" source/country="Egypt: Fayoum" 11- NUCLEOTIDE(Nuc_MaSo, Nuc_MaDK, Nuc_PhienBan, Nuc_GI, Nuc_MoTa, Nuc_Ngay, Nuc_Giong, Nuc_Tuoi, Nuc_KichThuoc, KTDayDu, Nuc_NoiDung) • Nuc_MaDK (Accession): Số đăng ký trong GenBank. Truy xuất cột số 1 trong file influenza_na.dat. Sử dụng mã này để truy cập thông tin chi tiết record Nucleotide trong NCIB, ví dụ: http://www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?val=GU811748 • Nuc_PhienBan (Version): Phiên bản của Nucleotide Record, Thông tin Nucleotide khi được lưu lần đầu tiên trong GenBank sẽ có Version = 1. Truy xuất dòng VERSION trong Nucleotide Record. • Nuc_GI: Mã số truy cập thông tin Nucleotide trên website CBI. Giá trị của GI được dùng để tạo GenBank Link theo công thức sau: http://www.ncbi.nlm.nih.gov/nuccore/ Ví dụ: http://www.ncbi.nlm.nih.gov/nuccore/289900038 • Nuc_MoTa (Definition): Truy xuất dòng DEFINITION trong Nucleotide Record. • Nuc_Ngay (Date): Truy xuất trên dòng LOCUS • Nuc_KichThuoc (Length): Truy xuất cột thứ 7 trong file influenza_na.dat hoặc trên dòng LOCUS • KTDayDu (Full-Length): Yes/No; Truy xuất cột thứ 11 trong file influenza_na.dat • Nuc_Giong (Gender): Truy xuất cột thứ 10 trong file influenza_na.da • Nuc_Tuoi (Age): Truy xuất cột thứ 9 trong file influenza_na.da • Nuc_NoiDung (Sequence): Truy xuất vùng ORIGIN cuối cùng trong Nucleotide Record. 13 12- CDS(CDS_MaSo, CDS_KichThuoc, CDS_Vung, CDS_NoiDung) Vùng trình tự mã hóa cho Protein. Mỗi CDS một mã số phân biệt, vùng CDS trong chuỗi nucleotide, chiều dài vùng CDS và nôi dung chuỗi. • CDS_Vung (Range): dùng biểu thị vùng CDS nằm trong chuỗi đang xét. Truy xuất giá trị Range tại dòng CDS trong Nucleotide record hoặc CDS//coded_by="GU811748.1:<1..>1584" trong Protein Record. Từ dữ liệu Range ta có thể tính được thước chuỗi CDS. • CDS_KichThuoc (Length): Từ Range ta có thể tính được CDS Length • CDS_NoiDung (Sequence): Tùy thuộc loại Segment mà 1 Nucleotide có một hay nhiều CDS, Đối với các segment PB1, M và NS thì có hơn một CSD. 13- LOAIPROTEIN(MaLoaiProtein, TenLoaiProtein) Danh mục loại Protein. Mỗi loại Protein có một mã số phân biệt và tên phân biệt. Có 16 loại Protein sau: PB2; PB1; PB1-F2; PA; P3; HA; HE; NP; NA; NB; M1; M2; BM2; CM2; NS1; NS2. Mỗi loại virus có một số loại Protein được liệt kê trong bảng sau: Loại vi rút Các loại protein chính Cúm A PB2, PB1, PB1-F2, PA, HA, NP, NA, M1, M2, NS1, NS2 Cúm B PB1, PB2, PA, HA, NP, NA, NB, M1, BM2, NS1, NS2 Cúm C PB2, PB1, P3, HE, NP, M1, CM2, NS1, NS2 14- Protein(Pro_MaSo, Pro_MaDK, Pro_PhienBan, Pro_GI, Pro_MoTa, Pro_KichThuoc, Pro_NoiDung) Mỗi Protein Record tương ứng với 1 CDS trong Nucleotide • Pro_MaDH (Accession): Số đăng ký trong GenBank. Truy xuất cột số 1 trong file influenza_na.dat. Sử dụng mã này để truy cập thông tin chi tiết record Nucleotide trong NCIB theo cú pháp http://www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?val= ví dụ: http://www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?val=ADD21384 • Pro_PhienBan (Version): Phiên bản của Protein Record, Thông tin Protein khi được lưu lần đầu tiên trong GenBank sẽ có Version = 1. Truy xuất dòng VERSION trong Protein Record. • Pro_GI: dùng truy cập tài liệu liên quan đến Protein với cú pháp: http://www.ncbi.nlm.nih.gov/protein/ Ví dụ: http://www.ncbi.nlm.nih.gov/protein/289900039 • Pro_MoTa (Definition): Truy xuất dòng DEFINITION trong Protein Record. 14 • Pro_KichThuoc (Length): Truy xuất cột thứ 7 trong file influenza_aa.dat hoặc trên dòng LOCUS • Pro_NoiDung (Sequence): Truy xuất vùng ORIGIN cuối cùng trong Protein Record hay khóa CDS/Translation 2.2.3 Mô hình logic dữ liệu LoaiGen varchar(4) MaLoaiGen MoTaLoaiGen nvarchar(100) GenVirus LoaiVirusCum MaLoaiVirusCum char(1) MaLoaiGen varchar(4) STTPhanDoan tinyint MaLoaiVirusCum char(1) MoTaLoaiVirus nvarchar(100) Chung_H Pro_Virus H tinyint LoaiProtein tinyint MaLoaiProtein MaLoaiVirusCum char(1) STT_Virus tinyint ChungHN MaLoaiProtein tinyint TenLoaiProtein varchar(6) Nucleotide H tinyint N tinyint Chung_N N tinyint DongVatChu MaDongVatChu MaLoaiDongVat TenDongVatChu MoTaDongVatChu int tinyint nvarchar(30) nvarchar(100) Nuc_MaSo MaQuanHuyen MaDongVatChu H N MaLoaiVirusCum MaLoaiGen Nuc_MaDK Nuc_GI Nuc_PhienBan Nuc_MoTa Nuc_Ngay Nuc_Giong Nuc_Tuoi Nuc_KichThuoc Nuc_NoiDung KTDayDu bigint bigint int tinyint tinyint char(1) varchar(4) varchar(10) varchar(10) tinyint nvarchar(200) datetime bit tinyint int varchar(5000) bit Protein Pro_MaSo MaLoaiProtein CDS_MaSo Pro_MaDK Pro_PhienBan Pro_GI Pro_MoTa Pro_KichThuoc Pro_NoiDung bigint tinyint bigint varchar(10) tinyint varchar(10) nvarchar(200) int varchar(5000) CDS QuanHuyen LoaiDongVat tinyint MaLoaiDongVat TenLoaiDongVat nvarchar50) MoTaLoaiDongVat nvarchar(100) MaQuanHuyen bigint MaQuocGia varchar(5) TenQuanHuyen nvarchar(50) CDS_MaSo Pro_MaSo Nuc_MaSo CDS_Vung CDS_KichThuoc CDS_NoiDung QuocGia ChauLuc MaQuocGia varchar(5) MaChauLuc tinyint TenQuocGia nvarchar(30) MaChauLuc tinyint TenChauLuc nvarchar(30) Hình 4: Mô hình logic dữ liệu VirusBank 2.3 MODULE TỰ ĐỘNG DOWNLOAD DỮ LIỆU TỪ NGÂN HÀNG DỮ LIỆU NCBI Ngân hàng dữ liệu NCBI cho phép download dữ liệu về nhưng phải sử dụng thủ công. Số lượng các file virus cúm rất lớn, hơn 100.000, việc download từng file là không thực hiện được. Module tự động download dữ liệu sẽ tự động lấy dữ liệu và bigint bigint bigint varchar(50) int varchar(5000) 15 lưu trữ vào thư mục được chỉ định. Yêu cầu của module này là phải được kết nối với Internet. Tốc độ thực hiện tùy thuộc vào tốc độ đường truyền Internet. Hình 5: Giao diện form kết nối dữ liệu 16 Hình 6: Giao diện form tạo file đường dẫn 2.4 MODULE TỰ ĐỘNG CẬP NHẬT DỮ LIỆU VÀO CƠ SỞ DỮ LIỆU VIRUSBANK Các file virus được download về là từng file riêng lẻ. Thông tin của các virus này cần phải được trích ra và lưu vào cơ sở dữ liệu để có thể truy xuất sau này. Việc trích lọc các thông tin từ các file phải được thực hiện tự động và yêu cầu chính xác, nhanh chóng. Module cập nhật tự động có đầy đủ các khả năng này.

- Xem thêm -

Tài liệu Xây dựng công cụ cung cấp thông tin virus cúm cho việt nam

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất