Hợp tác nghiên cứu ứng dụng tin sinh học trong dịch tễ học phân tử một số virút gây bệnh nguy hiểm ở người

  • Số trang: 109 |
  • Loại file: PDF |
  • Lượt xem: 52 |
  • Lượt tải: 0
nhattuvisu

Đã đăng 26946 tài liệu

Mô tả:

BỘ KHOA HỌC VÀ CÔNG NGHỆ - BỘ Y TẾ VIỆN VỆ SINH DỊCH TỄ TRUNG ƯƠNG -----------*****----------- BÁO CÁO TỔNG HỢP NHIỆM VỤ HỢP TÁC QUỐC TẾ KHOA HỌC VÀ CÔNG NGHỆ THEO NGHỊ ĐỊNH THƯ TÊN NHIỆM VỤ HỢP TÁC NGHIÊN CỨU ỨNG DỤNG TIN SINH HỌC TRONG PHÁT TRIỂN DỊCH TỄ HỌC PHÂN TỬ MỘT SỐ VIRÚT GÂY BỆNH Ở NGƯỜI Cơ quan chủ trì: VIỆN VỆ SINH DỊCH TỄ TRUNG ƯƠNG Chủ nhiệm nhiệm vụ: TS. LÊ THỊ KIM TUYẾN 8185 HÀ NỘI - 2010 BỘ KHOA HỌC VÀ CÔNG NGHỆ - BỘ Y TẾ VIỆN VỆ SINH DỊCH TỄ TRUNG ƯƠNG -----------*****----------- SẢN PHẨM KHOA HỌC VÀ CÔNG NGHỆ NHIỆM VỤ HỢP TÁC QUỐC TẾ KHOA HỌC VÀ CÔNG NGHỆ THEO NGHỊ ĐỊNH THƯ Tên nhiệm vụ HỢP TÁC NGHIÊN CỨU ỨNG DỤNG TIN SINH HỌC TRONG PHÁT TRIỂN DỊCH TỄ HỌC PHÂN TỬ MỘT SỐ VIRÚT GÂY BỆNH Ở NGƯỜI Cơ quan chủ trì: VIỆN VỆ SINH DỊCH TỄ TRUNG ƯƠNG Chủ nhiệm nhiệm vụ: TS. LÊ THỊ KIM TUYẾN HÀ NỘI – 2010 MỤC LỤC MỞ ĐẦU 1 Chương 1. TỔNG QUAN 3 1.1. CÔNG NGHỆ TIN SINH HỌC 3 1.1.1. Khái niệm về Tin sinh học 3 1.1.2. Lĩnh vực nghiên cứu chính của tin sinh học 4 1.1.2.1. Phân tích trình tự 4 1.1.2.2. Tìm kiếm gen 5 1.1.2.3. Dò tìm đột biến 5 1.1.2.4. So sánh trình tự 6 1.1.2.5. Bảo tồn đa dạng sinh học 6 1.1.3. Công cụ phần mềm Tin sinh học 7 1.1.3.1. Phần mềm Tin sinh học miễn phí 7 1.1.3.2. Phần mềm Tin sinh học thương mại 8 1.1.3.3. Phần mềm Tin sinh học bản quyền BioNumerics 8 1.2. ỨNG DỤNG TIN SINH HỌC TRONG NGHIÊN CỨU DỊCH TỄ HỌC PHÂN TỬ BỆNH 9 Ở NGƯỜI 1.2.1. Khái niệm về Dịch tễ học phân tử 9 1.2.2. Dịch tễ học phân tử bệnh sởi 11 1.2.2.1. Virút sởi 11 1.2.2.2. Nghiên cứu dịch tễ học phân tử bệnh sởi 11 1.2.3. Dịch tễ học phân tử bệnh Rubella 14 1.2.3.1. Virút Rubella 14 1.2.3.2. Nghiên cứu dịch tễ học phân tử bệnh Rubella 15 1.2.4. Ứng dụng Tin sinh học trong nghiên cứu Dịch tễ học phân tử 16 Chương 2 - PHƯƠNG PHÁP NGHIÊN CỨU 19 2.1. CHUYỂN GIAO CÔNG NGHỆ TIN SINH HỌC ỨNG DỤNG TRONG NGHIÊN CỨU 19 DỊCH TỄ HỌC PHÂN TỬ VIRÚT GÂY BỆNH Ở NGƯỜI 2.1.1. Đào tạo và chuyển giao Công nghệ Tin sinh học tại Pháp 19 2.1.1.1. Đào tạo kiến thức về Công nghệ Tin sinh học 19 2.1.1.2. Chuyển giao Công nghệ Tin sinh học trong chọn lựa phần mềm phù hợp 20 2.1.2. Đào tạo và chuyển giao Công nghệ Tin sinh học tại Việt Nam 21 2.2. ỨNG DỤNG TIN SINH HỌC TRONG NGHIÊN CỨU ĐẶC ĐIỂM GENOTYP CHỦNG 22 VIRÚT SỞI VÀ RUBELLA LƯU HÀNH TẠI CÁC VÙNG ĐỊA LÝ DÂN CƯ 2.2.1. Phương pháp Sinh học phân tử ứng dụng trong phân tích genotyp chủng 22 virút sởi và Rubella 2.2.1.1. Vật liệu 22 2.2.1.2. Gây nhiễm chủng virút trên nuôi cấy tế bào 23 2.2.1.3. Tách chiết ARN virút 23 2.2.1.4. Phương pháp nhân gen bằng RT-PCR và Nested PCR 24 2.2.1.5. Phương pháp RFLP 25 2.2.1.6. Phương pháp multiplex realtime PCR 25 2.2.1.7. Phương pháp xác định trình tự nucleotit 27 2.2.2. Phân tích genotyp chủng virút sởi và Rubella bằng phần mềm Tin sinh học 28 BioNumerics 2.2.2.1. Phân tích genotyp chủng virút bằng phần mềm “BioNumerics sequence” 28 2.2.2.2 Phân tích genotyp chủng virút bằng phần mềm “BioNumerics fingerprint” 28 2.2.2.3. Dựng cây phả hệ phát sinh loài bằng phần mềm “BioNumerics Tree and 29 Netword Inference” Chương 3. KẾT QUẢ VÀ BÀN LUẬN 31 3.1. HỢP TÁC NGHIÊN CỨU VÀ CHUYỂN GIAO CÔNG NGHỆ TIN SINH HỌC ỨNG 31 DỤNG TRONG DỊCH TỄ HỌC PHÂN TỬ 3.1.1. Kết quả nghiên cứu và chuyển giao Công nghệ Tin sinh học 31 3.1.2. Kết quả so sánh và chọn lựa các chương trình Tin sinh học phù hợp 31 3.2. KẾT QUẢ ỨNG DỤNG TIN SINH HỌC TRONG NGHIÊN CỨU ĐẶC ĐIỂM 34 GENOTYP CHỦNG VIRÚT SỞI VÀ RUBELLA LƯU HÀNH TẠI CÁC VÙNG ĐịA LÝ DÂN CƯ KHÁC NHAU 3.2.1. Giải trình tự nucleotit đoạn gen quan trọng của virút sởi 3.2.1.1. Tách chiết ARN virút sởi 34 34 3.2.1.2. Kết quả RT-PCR và Nested PCR nhân đoạn gen Nucleocapsit N virút sởi 35 3.2.1.3. Kết quả giải trình tự đoạn ADN đặc hiệu nucleoprotein N virút sởi 37 3.2.1.4. Kết quả RFLP phân tích tính đa dạng đoạn ADN gen N virút sởi 40 3.2.2. Giải trình tự nucleotit đoạn gen glycoprotein E1 virút Rubella 43 3.2.2.1. Tách chiết ARN virút Rubella 43 3.2.2.2. Kết quả RT-PCR khuếch đại ADN gen E1 virút Rubella 43 3.2.2.3. Giải trình tự nucleotit gen E1 virút Rubella 45 3.2.3. Kết quả multiplex realtime PCR xác định virút sởi và Rubella 47 3.2.3.1. Kết quả mutliplex PCR 47 3.2.3.2. Kết quả mutliplex realtime PCR 49 3.2.4. Ứng dụng phần mềm BioNumerics trong xác định genotyp chủng virút sởi & Rubella 52 3.2.4.1. Kết quả chọn lựa chương trình phần mềm Tin sinh học phù hợp 52 3.2.4.2. Kết quả ứng dụng phần mềm BioNumerics trong phân tích genotyp virút 54 sởi và Rubella 3.2.4.3. Bản đồ dịch tễ phân bố các genotyp virút sởi và Rubella 60 3.2.5. Đánh giá hiệu quả về khoa học công nghệ 62 Chương 4. KẾT LUẬN 64 TÀI LIỆU THAM KHẢO 66 PHỤ LỤC 70 1 MỞ ĐẦU Trong vài thập kỷ qua, Sinh học phân tử được đánh giá là một ngành khoa học với những bước phát triển mạnh mẽ. Hàng loạt công cụ ứng dụng sinh học ra đời góp phần thúc đẩy quá trình phân tích và giải mã các dữ liệu thông tin thu được từ các nghiên cứu sinh học ở mức độ phân tử ADN. Có thể nói chưa bao giờ thông tin sinh học trở nên phong phú và đa dạng như hiện nay. Để giải mã khối luợng thông tin đồ sộ như vậy, Công nghệ thông tin đã được ứng dụng vào Sinh học một cách khá triệt để. Tin sinh học ra đời, chính là sự kết hợp khoa học giữa Công nghệ thông tin và các thành tựu nghiên cứu sinh học ở mức độ phân tử ADN. Những thành tựu của Tin sinh học đã hỗ trợ mạnh mẽ trong việc đưa Sinh học, Y học vào giải quyết những công việc thực tiễn, thúc đẩy nhanh quá trình chẩn đoán bệnh, tìm ra các y dược phẩm mới, vắcxin phòng dịch, kít chẩn đoán... Tin sinh học còn là công cụ hữu ích trong việc xử lý các dữ liệu thông tin về trình tự ADN của các bộ gen, lập bản đồ phát sinh và phân bố các genotyp của các loài vi sinh lưu hành theo vùng địa lý và theo thời gian. Điều này là cần thiết trong nghiên cứu giám sát dịch tễ học phân tử nhằm ngăn chặn dịch bệnh nguy hiểm ở người. Lĩnh vực Tin sinh học vô cùng phát triển trên Thế giới. Việc đưa Tin học vào Sinh học đã và đang được quan tâm bởi hầu hết các nước phát triển. Trong khu vực Châu Á, các nước như Trung Quốc, Hàn Quốc, Nhật Bản đã và đang có những đột phá trong lĩnh vực này. Đối với Việt Nam, Tin sinh học là ngành khoa học non trẻ và cũng chỉ xuất hiện ở các Viện nghiên cứu và trong một vài trường Đại học lớn và cũng chỉ dừng lại ở trong giới nghiên cứu về Công nghệ sinh học. Điều thiết yếu cần có trong Tin sinh học là những ngân hàng dữ liệu cho phép mọi người dễ dàng truy cập thông tin. Thứ hai nữa là cần có những phần mềm tin học làm công cụ để phân tích những dữ liệu trong ngân hàng sinh học này. Tuy nhiên, ở nước ta, việc tạo ra các sản phẩm phần mềm để đưa vào áp dụng vô cùng hiếm hoi. Đội ngũ những người làm Tin sinh học còn hạn hẹp. Để có được những ngân hàng dữ liệu đặc hiệu cho hoàn cảnh Việt Nam, cần có một môi trường nghiên cứu phát triển thuận lợi nhằm tạo ra nhu cầu cho Tin 2 sinh học. Việc đào tạo một đội ngũ chuyên gia về Tin sinh học là điều quyết định cho sự thành công của việc phát triển Tin sinh học. Đội ngũ này đòi hỏi không những chỉ nắm bắt được trình độ tư duy toán học của Tin học mà còn phải thông hiểu những vấn đề hiện nay của Sinh học. Việc đào tạo kỹ năng nghiên cứu độc lập và khả năng cộng tác với các đồng nghiệp trên Thế giới của đội ngũ khoa học này sẽ là điều kiện thiết yếu trong quá trình phát triển của Tin sinh học Việt Nam. Xuất phát từ những đòi hỏi cấp bách và thực tiễn của ngành Tin sinh học Việt Nam, với định hướng phát triển và ứng dụng công nghệ Tin sinh học trong nghiên cứu dịch tễ học phân tử, nhiệm vụ hợp tác quốc tế giữa Viện Vệ sinh Dịch tễ TƯ và Viện Pasteur Paris, Pháp “Hợp tác nghiên cứu ứng dụng Tin sinh học trong dịch tễ học phân tử một số virút gây bệnh nguy hiểm ở người” đã được triển khai nhằm đạt hai mục tiêu chính: 1. Hợp tác nghiên cứu và chuyển giao công nghệ Tin sinh học (Bioinformatic) ứng dụng trong Dịch tễ học phân tử một số virút gây bệnh ở người. 2. Ứng dụng Tin sinh học trong nghiên cứu đặc điểm genotyp của một số chủng virút (Rubella, sởi) lưu hành tại các vùng địa lý dân cư khác nhau. Việc xây dựng các ứng dụng Tin sinh học hỗ trợ trong nghiên cứu và chuyển giao công nghệ Tin sinh học là vô cùng cần thiết, qua đó giúp chúng ta nhanh chóng hoà nhập với cộng đồng ngoài nước, mở ra cơ hội hợp tác nghiên cứu khoa học với các nước trong khu vực và trên thế giới. Hơn thế, việc ứng dụng rộng rãi và thành công của Tin sinh học trong nhiều lĩnh vực Sinh học đóng góp phần thiết yếu trong việc thúc đẩy phát triển nền Sinh học của một Quốc gia. 3 Chương 1. TỔNG QUAN 1.1. CÔNG NGHỆ TIN SINH HỌC 1.1.1. Khái niệm về Tin sinh học Tin sinh học (Bioinformatic) chính là sự kết hợp giữa Công nghệ thông tin và các nghiên cứu Sinh học ở mức độ phân tử ADN. Thuật ngữ Tin sinh học được đặt ra bởi Paulien Hogeweg vào năm 1978 khởi nguồn từ việc nghiên cứu các quá trình tin học trong hệ thống kháng sinh. Nói rộng hơn, Tin sinh học còn được biết đến là một lĩnh vực khoa học sử dụng các ngành toán học ứng dụng, tin học thống kê, khoa học máy tính, trí tuệ nhân tạo, hoá học và hoá sinh để giải quyết các vấn đề sinh học. Một thuật ngữ thường được dùng cho Tin sinh học là Sinh học tính toán (computational biology). Tuy nhiên Tin sinh học thiên về việc phát triển các giải thuật, lý thuyết và các kỹ thuật thống kê và tính toán để giải quyết các bài toán bắt nguồn từ nhu cầu quản lý và phân tích dữ liệu sinh học. Trong khi đó Sinh học tính toán thiên về kiểm định các giả thuyết (hypothesis) được đặt ra của một vấn đề trong sinh học nhờ máy tính thực nghiệm trên dữ liệu mô phỏng, với mục đích chính là phát hiện và nâng cao trí thức về sinh học. Thuật ngữ Tin sinh học và Sinh học tính toán thường được dùng để hoán đổi cho nhau, mặc dù cái trước, nói một cách nghiêm túc, là tập con của cái sau. Những mối quan tâm chính trong các dự án Tin sinh học và Sinh học tính toán là việc sử dụng các công cụ toán học để trích rút các thông tin hữu ích từ các dữ liệu hỗn độn được thu thập từ các kỹ thuật sinh học với lưu lượng mức độ lớn [3], [4]. Tin sinh học ngày nay đòi hỏi sự sáng tạo và tiến bộ của cơ sở dữ liệu, thuật toán, kỹ thuật tính toán thống kê và lý thuyết để giải quyết các vấn để thực tế phát sinh từ việc quản lý và phân tích dữ liệu sinh học. Trong những thập kỷ qua, với sự kết hợp giữa sự phát triển nhanh chóng trong nghiên cứu công nghệ gen và các nghiên cứu phân tử cùng với sự phát triển công nghệ thông tin đã tạo ra một số lượng dữ liệu khổng lồ của thông tin liên quan đến sinh học phân tử. Có thể nói, “Tin sinh học chính là tên đặt ra cho các ứng dụng toán học và vi tính để làm sáng tỏ các hiểu biết về các quá trình sinh học”. Các hoạt động thường gặp trong tin sinh học gồm lập bản đồ phát 4 sinh loài, phân tích ADN và các chuỗi protein, kéo dài ADN và các chuỗi protein khác nhau để so sánh chúng và tạo ra và xem các mô hình 3-D của cấu trúc protein [3], [31]. 1.1.2. Lĩnh vực nghiên cứu chính của Tin sinh học Thực chất Tin sinh học gắn liền với nhiều ngành khoa học khác nhau, nghiên cứu trên nhiều lĩnh vực khác nhau, nhằm thu thập, lưu trữ và phân tích các dữ liệu sinh học. Kết quả của những nghiên cứu này tạo ra các phần mềm giúp giải quyết một số vấn đề xung quanh việc tìm hiểu về gen, protein và một số vấn đề khác liên quan đến Sinh học phân tử. 1.1.2.1. Phân tích trình tự Kể từ khi bộ gen của Phage Φ-X174 được xác định trình tự (1977) cho đến nay, trình tự ADN của rất nhiều loài sinh vật đã được lưu trữ trong các ngân hàng cơ sở dữ liệu gen. Việc so sánh các gen trong cùng một loài hay giữa các loài khác nhau có thể cho thấy sự tương đồng về chức năng của protein, hay mối quan hệ phát sinh chủng loài giữa những loài này thể hiện trên cây phát sinh chủng loài (phylogenetic tree). Với sự tăng trưởng khổng lồ của dữ liệu loại này, việc phân tích trình tự ADN một cách thủ công trở nên không thể thực hiện nổi. Ngày nay, các chương trình máy tính được sử dụng để giúp tìm các trình tự tương đồng trong bản đồ gen của hàng loạt sinh vật, với số lượng nucleotit trong trình tự lên đến hàng tỷ. Những chương trình này có thể tìm kiếm những trình tự ADN không giống nhau hoàn toàn do các đột biến nucleotit gây nên bởi sự thay thế, mất hay thêm các gốc bazơ. Thuật ngữ bắt cặp trình tự (sequence alignment) được áp dụng ngay cả trong quá trình xác định trình tự ADN, là kỹ thuật xác định trình tự đoạn nhỏ (shotgun sequencing). Kỹ thuật này đã được công ty Celera Genomics sử dụng để xác định trình tự genom của vi khuẩn Haemophilus influenza. Kỹ thuật xác định trình tự hiện nay không thể tiến hành với cả đoạn ADN lớn cỡ vài chục nghìn nucleotit trở lên nên cần phải xác định trình tự nhỏ để giải mã hàng nghìn đoạn trình tự với kích thước khoảng 600-800 nucleotit. Sau đó, những đoạn trình tự nhỏ này được sắp xếp thứ tự và nối lại với nhau thông qua việc bắt cặp trình tự ở những đầu gối lên nhau (overlap) tạo 5 thành một trình tự genom hoàn chỉnh. Xác định trình tự đoạn nhỏ là kỹ thuật ưu tiên sử dụng trong hầu hết các nghiên cứu giải mã genom hiện nay và giải thuật lắp ráp genom (genome assembly algorithms) là một trong những lĩnh vực nóng của tin sinh học. [2],[3]. Hiện nay, nhiều phòng thí nghiệm tại các Viện nghiên cứu đầu ngành của VN cũng đang triển khai kỹ thuật lắp ráp genom trong việc xác định trình tự nucleotit hoàn chỉnh của các genom virút (cúm H5N1, SARS) và đã bước đầu thành công [9], [14]. 1.1.2.2. Tìm kiếm gen Trong nghiên cứu bản đồ gen (genomics), thuật ngữ annotation là quá trình đánh dấu các gen và các đặc tính sinh học khác trong một chuỗi ADN. Không phải tất cả các nucleotit bên trong một genom đều là gen. Phần lớn các ADN bên trong genom của sinh vật bậc cao là các đoạn ADN không phục vụ cho một nhiệm vụ cụ thể nào được gọi là những đoạn ADN rác. Tin sinh học giúp cho việc tìm kiếm tự động các gen và những trình tự điều khiển bên trong một genom. Hệ thống phần mềm làm nhiệm vụ “genome annotation” đầu tiên đã được thiết kế vào năm 1995 bởi Owen White cho giải mã vi khuẩn Haemophilus influenza. Tác giả White đã xây dựng hệ thống phần mềm này để tìm kiếm các gen nằm trong chuỗi ADN làm nhiệm vụ mã hoá các protein, ARNt vận chuyển và các chức năng khác tạo nên chức năng đầu tiên của các gen đó. Hiện nay, hầu hết các hệ thống genome annotation đều hoạt động tương tự nhưng các chương trình nhằm để phân tích lĩnh vực nghiên cứu bản đồ gen ADN thường xuyên được cải tiến [3]. 1.1.2.3. Dò tìm đột biến Rất nhiều các nghiên cứu xác định trình tự (sequencing) hiện nay là nhằm tìm ra các đột biến điểm (point mutation) xảy ra trên các gen khác nhau. Tập các dữ liệu được tạo ra đòi hỏi các hệ thống tự động đọc những dữ liệu kiểu chuỗi này (sequence data) rồi so sánh trình tự kết quả với các trình tự đã biết trên genom. Những hệ thống oligonucleotit microarray cho phép nghiên cứu đồng thời hàng trăm ngàn vị trí trên toàn bản đồ gen đang được sử dụng để xác định những đột biến thêm và mất đoạn nhiễm sắc thể. Mô hình chuỗi Markov ẩn (Hidden Markov Model) và phương pháp 6 phân tích điểm thay đổi đang được phát triển để có thể suy ra số lượng thực của những thay đổi từ các dữ liệu thu nhận hỗn độn [3] . 1.1.2.4. So sánh trình tự Khi so sánh trình tự sinh học, có hai vấn đề được đặt ra, đó là việc so sánh đối xứng toàn cục và so sánh đối xứng cục bộ. So sánh đối xứng toàn cục là quá trình so sánh đối xứng cho toàn bộ các phân tử của hai trình tự. Mỗi một phân tử của một trình tự sẽ được so sánh đối xứng với một phần tử của trình tự kia hoặc ứng với một ký tự trống (gap). Khác với so sánh đối xứng toàn cục, so sánh đối xứng cục bộ chỉ thực hiện việc so sánh đối xứng trên một số phần của các trình tự được so sánh. So sánh đối xứng cục bộ có ý nghĩa sinh học lớn hơn so sánh toàn cục vì thông thường không phải tất cả các phần tử trong trình tự tham gia vào việc xác định đặc tính sinh học của trình tự. Một số chương trình Tin sinh học đóng vai trò công cụ hỗ trợ cho việc so sánh trình tự. Giải thuật so sánh trình tự đối xứng hiện đang được sử dụng là Needleman-Wunsch và Smith-Waterman. Chức năng so sánh này nằm trong mođun ClustalX. Công dụng của chương trình cho phép nhập và so sánh các đoạn trình tự hoặc các tập tin so sánh dạng FASTA, phylip, v.v…[14], [31]. 1.1.2.5. Bảo tồn đa dạng sinh học Tin sinh học thường áp dụng trong lĩnh vực bảo tồn đa dạng sinh học (biodiversity). Tính đa dạng sinh học lớn nhất của Thế giới tập trung ở các nước thuộc vùng khí hậu nhiệt đới. Thông tin quan trọng nhất được thu thập chính là tên, miêu tả, sự phân bố, trạng thái và kích thước dân số của các chủng loài (species), nhu cầu thói quen và cách mà mỗi tổ chức tương tác với các chủng loài khác. Thông tin này được lưu trữ vào trong cơ sở dữ liệu các máy tính, được truy xuất bởi các chương trình phần mềm để tìm kiếm, hiển thị, phân tích các thông tin đó một cách tự động, và quan trọng nhất, là để giao tiếp được với con người, đặc biệt qua internet. Các chuỗi ADN của các loài sắp tuyệt chủng có thể được bảo quản, tên cùng miêu tả của mỗi loài được lưu lại để có thể cho phép truy cập tối đa các thông tin cần cho việc bảo tồn đa dạng sinh học. Một ví dụ của ứng dụng này là dự án Species 2000. Đây là một dự án nghiên cứu toàn cầu dựa vào internet để giúp cung cấp thông tin về mỗi chủng loài được biết đến của 7 cây, động vật, nấm (fungus) và vi khuẩn còn tồn tại để làm nền tảng cho việc nghiên cứu đa dạng sinh học toàn cầu. Bất cứ ai trên thế giới cũng có thể tìm thấy lượng lớn thông tin về bất kì chủng loài nào từ các cơ sở dữ liệu cung cấp [3], [15]. 1.1.3. Công cụ phần mềm Tin sinh học Tin sinh học có mục đích phải giải mã bí ẩn sinh học chứa trong vài tỷ nucleotit. Trình tự các đoạn genom được lưu trữ tại các Ngân hàng gen trên Thế giới là nguồn dữ liệu khổng lồ để tra cứu. Những số liệu cần lựa chọn và so sánh đòi hỏi các chương trình tin học. Công cụ phần mềm giữ vị trí thiết yếu cần có trong Tin sinh học. Thống kê cho thấy, các phần mềm tin học đang được sử dụng có số lượng phong phú cùng với tính ứng dụng cao trong nhiều lĩnh vực khoa học. 1.1.3.1. Phần mềm Tin sinh học miễn phí Hàng trăm phần mềm đã được lập trình giúp cho việc chọn lựa, so sánh và xử lý các thông tin về trình tự ADN và protein. Nhiều phần mềm miễn phí hiện đang được sử dụng rộng rãi trong các nghiên cứu phân tích trình tự gen như FASTA, BLAST, Mega 4, Cn3D, Phylip, Peptool, Genetool, ClustalX, BioEdit, SeqVISTA, SAGA, Primer3, T-coffee, PC-Genes, Discovery Studio Gene, DNASIS, DNAMAN, VECTOR NTI, AnnHyb, DNA Club, Plasmid Processor, Oligos v.v… Trong số đó, phần mềm BLAST được sử dụng rộng rãi nhất trong việc tìm kiếm những trình tự nucleic acid hoặc protein tương đồng lưu trữ trên các cơ sở dữ liệu từ Ngân hàng gen. Phần mềm ClustalW được dùng để so sánh sắp xếp các trình tự (Multiple Alignment). Cho đến nay, phần mềm MEGA4 là một trong những phần mềm miễn phí được công nhận có tính ứng dụng cao trong tính toán và dựng cây phả hệ phân loại loài. Các ngôn ngữ lập trình của máy tính như Perl và Python thường được dùng để giao tiếp và ly trích dữ liệu từ các ngân hàng cơ sở dữ liệu sinh học thông qua những chương trình tin sinh học. Cộng đồng những lập trình viên tin sinh học đã triển khai nhiều dự án phần mềm mã nguồn mở (free/open source) như EMBOSS, Bioconductor, BioPerl, BioRuby và BioJava. Điều này giúp cho việc chia sẻ, phát triển và phổ biến các công cụ lập trình và tài nguyên lập trình giữa các nhà tin sinh học [2],[3],[24],[30]. 8 Tại Việt Nam, định hướng xây dựng phần mềm phục vụ việc nghiên cứu Công nghệ sinh học để có thể xử lý và phân tích trình tự sinh học, qua đó nắm bắt được nguyên lý thiết kế cũng như bước đầu tạo ra sản phẩm phần mềm mang thương hiệu Việt Nam trong lĩnh vực Tin sinh học đang được các nhà khoa học quan tâm. Sản phẩm phần mềm HiBio của Phân viện Công nghệ thông tin TP. Hồ Chí Mình hợp tác với Viện Công nghệ sinh học Việt Nam ra đời là một minh chứng cho định hướng này. Sản phẩm phàn mềm HiBio là tập hợp gồm các mođun chương trình độc lập, trong đó mỗi mođun thực hiện một chức năng riêng như: mođun nhập và soạn thảo dữ liệu trình tự, mođun so sánh bắt cặp trình tự, mođun tạo vectơ cắt [31]. 1.1.3.2. Phần mềm Tin sinh học thương mại Dù có được những lợi thế về nguồn thông tin to lớn, hữu ích và miễn phí như hiện nay, việc sử dụng những phần mềm miễn phí rõ ràng vẫn chưa đáp ứng được việc truy cập và khai thác những thông tin có giá trị và cập nhật nhất trong nguồn dữ liệu khổng lồ của các Ngân hàng gen. Do tính cạnh tranh rất cao trong quá trình nghiên cứu khoa học trên toàn cầu, một số chương trình phần mềm đã được nâng cấp và thương mại hoá nhằm tạo thuận lợi lớn nhất cho việc áp dụng phương pháp nghiên cứu dùng Tin sinh học. Nhiều chương trình phần mềm thương mại được nâng cấp và sử dụng tại các Trung tâm nghiên cúu khoa học và bệnh viện trên Thế giới. Có thể kể một số phần mền bản quyền điển hình như Paul*, BioNumerics, MacClade, Hennig86, TreeRot, WINCLADA … Các chương trình này cho phép phân loại phân tử nhanh chóng và tự động, hỗ trợ cho việc phân tích kết quả thử nghiệm. Tuy nhiên để có được những chương trình này cần phải đặt mua. Do vậy các chương trình thương được trang bị ở những cơ sở có điều kiện kinh phí cho phép. 1.1.3.3. Phần mềm Tin sinh học bản quyền BioNumerics Một trong danh mục các phần mềm thương mại được công nhận trên toàn thế giới và hiện được sử dụng thường nhật ở rất nhiều phòng nghiên cứu tại các trường đại học, bệnh viện, Viện nghiên cứu, ngành thực phẩm, y dược phẩm các ngành công nghiệp là phần mềm BioNumerics [4]. 9 BioNumerics là phần mềm tin học bản quyền của Hãng Applied Maths (Bỉ). Tính nổi trổi của BioNumerics là sự xuất hiện của các giải trình tự thông lượng cao, microarrays, Maldi, và phần lớn các kỹ thuật phân loại phân tử nhanh chóng và tự động ưu việt này giúp cho nó có thể dễ dàng tạo ra một lượng lớn dữ liệu từ các kỹ thuật thử nghiệm khác nhau, hỗ trợ cho việc phân tích kết quả thử nghiệm Phần mềm BioNumerics có 12 mođun (module), bao gồm 06 mođun ứng dụng và 06 mođun phân tích: • Mođun ứng dụng: Kiểu vân tay (Fingerprint types) , kiểu đặc tính (Character types) hướng dữ liệu (Trend data types) , kiểu 2D gel (2D gel types) , kiểu trình tự (Sequence types) và các kiểu ma trận (Matrix types) , kiểu xu . • Mođun phân tích: Mođun Cây và mạng suy luận (Tree and network inference module) , Mođun Nhận dạng (Indentification module) thống kê (Dimensioning and Statistics module) , Mođun kích thước và , Mođun các công cụ chia sẻ cơ sở dữ liệu (Database sharing tools module), Mođun Audit trails and Versioning , Mođun phân tích trình tự sinh học phân tử (Sequence Molecular analysis module). 1.2. ỨNG DỤNG TIN SINH HỌC TRONG NGHIÊN CỨU DỊCH TỄ HỌC PHÂN TỬ BỆNH Ở NGƯÒI 1.2.1. Khái niệm về Dịch tễ học phân tử Trong Y học, các tác nhân gây bệnh phần lớn đều là vi sinh. Căn nguyên gây nên dịch bệnh đã được biết đến. Một dịch bệnh bùng nổ từ các đơn vị cơ thể (tế bào, vi rút) nhân lên từ một cơ thể gốc được gọi là tổ tiên, lan truyền ra ngoài, lây nhiễm từ cá thể này sang cá thể khác. Tại các ổ dịch xảy ra không cùng một địa điểm và thời gian sẽ xuất hiện nhiều dòng tế bào khác nhau. Trong điều kiện kinh tế hội nhập và giao lưu dễ dàng như hiện nay, mọi người có thể di chuyển khắp Thế giới, bất kỳ lúc nào và bất kỳ nơi nào. Cùng với sự giao lưu này, các ổ dịch cũng có thể di chuyển theo. Mô hình dịch tễ học các bệnh dịch đã thay đổi [22], [28], [33]. 10 Trong những năm gần đây, sự xuất hiện và tái xuất hiện các bệnh dịch nguy hiểm đang là vấn đề đe dọa nghiêm trọng đến sức khoẻ cộng đồng. Các dịch bệnh nguy hiểm lây lan một cách nhanh chóng từ vùng lãnh thổ địa lý của Quốc gia này sang Quốc gia khác. Nguy cơ bùng nổ các đại dịch là vấn đề nổi cộm trong Y học. Xác định tính đa dạng di truyền của các chủng vi sinh gây bệnh nguy hiểm ở người nhằm phát hiện và ngăn chặn kịp thời dịch bệnh là vấn đề cấp bách không chỉ ở Việt nam mà còn được đặt ra ở nhiều Quốc gia trên Thế giới. Một hướng nghiên cứu mới “Dịch tễ học phân tử” được các nhà khoa học trên toàn thế giới quan tâm. Khái niệm về ngành khoa học này đã được công nhận “Dịch tễ học phân tử là phân tích so sánh các genom để nghiên cứu quá trình lan truyền của một bệnh ở một quần thể” [WHO]. Dịch tễ học phân tử cho phép theo rõi riêng rẽ từng chủng vi sinh gây bệnh. Có thể xác định bao nhiêu chủng đang lưu hành trên mỗi vùng địa lý khác nhau. Việc xác định sự biến đổi trên trình tự ADN genom của các chủng cho phép so sánh tính chất của các dịch bệnh xảy ra tại các địa điểm và thời gian khác nhau. [6], [10], [12], [21], [27], [28]. Dịch tễ học phân tử đã trở thành một công cụ chính xác và ngày càng đóng vai trò cần thiết bởi nó cho phép: - Xác định nguồn gốc và đường lây truyền của mỗi tác nhân gây bệnh. - Quan sát genotyp các chủng gây bệnh theo thời gian và địa điểm. - Cho thông tin về khả năng ngăn chặn sự lây truyền của chủng gây bệnh. - Đánh giá hiệu quả của các chương trình tiêm chủng vắcxin. - Theo rõi sự tiến hoá và biến đổi của các chủng vi sinh gây bệnh. Ở Việt nam, Dịch tễ học phân tử là lĩnh vực khoa học hoàn toàn mới và bắt đầu được triển khai trong những năm gần đây. Nhiệm vụ đặt ra cho công tác chăm sóc sức khoẻ cộng đồng của ngành Y tế dự phòng là phải giám sát dịch tễ học, phát hiện và ngăn chặn kịp thời các dịch bệnh nguy hiểm ở người. Các phương pháp sinh học phân tử phân tích đặc tính sinh học và sự biến đổi genotyp các chủng vi sinh gây bệnh ở mức độ ADN là phần thiết yếu trong nghiên cứu giám sát dịch tễ học phân tử [5],[13],[22]. Theo công bố của WHO, đặc tính di truyền của virút hoang dã là một phần thiết yếu của các giám sát dựa trên phòng thí nghiệm. Trong đó bao gồm cả việc xác định 11 genotyp các chủng hiện đang lưu hành. Việc giám sát bệnh cần phải được mở rộng trong mọi vùng lãnh thổ Thế giới và tiến hành liên tục trong tất cả các giai đoạn. Các dữ liệu gen có thể giúp xác nhận và ngăn chặn các nguồn lây lan của bệnh. 1.2.2. Dịch tễ học phân tử bệnh sởi 1.2.2.1. Virút sởi Virút sởi thuộc gia đình Paramyxoviridae, chi Morbillivirus. Genom virút sởi là một sợi đơn thẳng âm tính có chiều dài khoảng 15.894 nucleotit mã hoá cho 06 cấu trúc protein: Nucleoprotein (N), Phosphoprotein (P), Hemagglutinin (H), Membran (M), Hình 1.2.2.1a. Cấu trúc phân tử virút sởi Fusion (F), và Large (L). Virút sởi được cho là có đặc tính đơn loài, tuy nhiên sự biến đổi về đặc điểm di truyền đã được mô tả với các chủng hoang dã. (Hình 1.2.2.1a,b). [27], [33]. Hình 1.2.2.1b. Bản đồ genom virút sởi 1.2.2.2. Nghiên cứu dịch tễ học phân tử bệnh sởi + Trên Thế giới: Bệnh sởi được biết đến từ thế kỷ thứ IX, nhưng cho đến nay vẫn tồn tại và được xếp vào một trong những bệnh gây tỷ lệ tử vong cao cho trẻ em trên thế giới. Theo công bố của Trung tâm Ngăn ngừa và Kiểm soát bệnh tật (CDC, Mỹ), trên thế giới, mỗi năm ước tính có khoảng 20 triệu ca mắc sởi, trong đó 164 nghìn ca tử vong do sởi. Theo danh pháp tiêu chuẩn hoá của WHO, các genotyp virút sởi hoang dã được tách biệt thành 08 nhánh có tên A, B, C, D, E, F, G, và H, với 22 kiểu gen [WHO, 2001]. Chủng sởi Edmonston (Edm-wt.USA/54) được làm gốc chuẩn cho nhánh A (Bảng 1.2.2.2). Sự khác biệt của kiểu gen virút sởi dựa trên kết quả phân tích trình tự 12 ADN vùng biến đổi nhất của 500 nucleotit đầu cuối -COOH của gen N hoặc toàn bộ gen H. Tuy nhiên cùng với thời gian, nhiều trình tự genom ADN virút sởi mới đã được bổ sung thêm trong danh mục dữ liệu của GenBank thế giới. Điều này cho thấy có sự biến đổi về trình tự ADN của các chủng virút hoang dã tại các vùng địa lý. Việc kiểm soát, ngăn chặn và khống chế sự lây lan nhằm tiến tới thanh toán bệnh sởi trên toàn cầu được WHO đặt lên hàng đầu. Điều này cần có sự hợp lực của tất cả các quốc gia trên thế giới[10], [27]. Bảng 1.2.2.2. Danh mục chủng virút sởi chuẩn đại diện cho nhóm và dưới nhóm Genotyp Trạng thái Tên chủng Số đăng ký trong Genebank Gen H Gen N U03669 U01987 A Hoạt động Edmonston-wt.USA/54 B1 Hoạt động Yaounde.CAE/12.83 "Y14" AF079552 U01988 B2 Hoạt động Libreville.GAB/84 "R96" AF079551 U01994 B3 Hoạt động New Yord.USA/94 L46752 L46753 Ibandan.NIE/97/1 AJ239133 AJ232203 AY047365 AY043459 C1 Hoạt động Tokyo.JPN/84/K C2 Hoạt động Maryland.USA/77 "JM" M81898 M89921 Erlangen.DEU/90 "WTF Z80808 X84872 Bristol.UNKUNK/74 (MPV) Z80805 D01005 AF085198 U64582 M81895 U01977 AF079554 U01976 L46757 L46758 AF009575 AF079555 L46757 l46750 D1 Bất hoạt D2 Hoạt động Johannesburg.SOA/88/1 D3 Hoạt động Illinois.USA/89/1"Chicago-1" D4 Hoạt động Montreal.CAN/89 D5 Hoạt động Palau.BLA/93 Bangkok.THA/93/1 D6 Hoạt động New Jersey.USA/94/1 D7 Hoạt động Victoria.AUS/16.85 AF247202 AF243450 Illinois.USA/50.99 AY043416 AY037020 Manchester.UNK/30.94 U29285 AF280803 Goettingen.DEU/71"Braxator" Z80897 X84879 D8 Hoạt động E Bất hoạt 13 F Bất hoạt MVs/Madrid.SPA/94 PESS Z80830 X84865 G1 Bất hoạt Berkeley.USA/83 AF079553 U01974 G2 Hoạt động Amsterdam.NET/49.97 AF171231 AF171232 G3 Hoạt động MVs/Victoria.AUS/24.99 AF353621 AF353622 H1 Hoạt động Hunan.CHN/93/7 AF045201 AF045212 H2 Hoạt động Beijing.CHN/94/1 AF045203 AF045217 + Việt Nam: Từ năm 1983, bệnh sởi được xếp là 1 trong 6 bệnh được triển khai tiêm phòng vắcxin trong Chương trình tiêm chủng mở rộng Quốc gia. Đến năm 2005, tỷ lệ mắc sởi chỉ còn 0,16 ca/100.000 dân (Bộ Y tế, 2005). Tuy nhiên, sự bùng nổ của các vụ dịch sởi ở mọi lứa tuổi, xảy ra tại nhiều địa phương trong những năm gần đây là vấn đề nổi cộm trong ngành Y tế Dự phòng. Điển hình là các vụ dịch sởi xẩy ra ở Nghệ An (1998), Nha Trang (2000), Gia Lai (2002), Lao Cai (2005), Lai Châu (2006) và Thái Nguyên (2006), Ninh Bình (2008), Tp HCM (2009). Theo báo cáo của Chương trình TCMRQG, tính đến tháng 03 năm 2009 đã có 7629 ca nghi mắc sởi. Việc chẩn đoán nhanh, chính xác căn nguyên gây dịch sởi là vấn đề cấp bách được đặt ra cho công tác giám sát dịch tễ học. Cho đến nay, để phục vụ công tác chẩn đoán giám sát dịch tễ học bệnh sởi, kỹ thuật IgM-ELISA vẫn đang được triển khai tại một số phòng thí nghiệm chuẩn thức Quốc gia. Nghiên cứu Dịch tễ học phân tử bệnh sởi bắt đầu được đề cập ở Việt Nam từ năm 2002 với mục tiêu xác định sự phân bố các genotype virút sởi và nguồn gốc các chủng sởi du nhập từ bên ngoài. Các kỹ thuật sinh học phân tử đóng vai trò quan trọng và hỗ trợ đắc lực cho việc xác định và phân biệt sởi với các căn nguyên gây sốt phát ban khác. Để triển khai định hướng nghiên cứu này, các kỹ thuật PCR, Đa dạng độ dài đoạn cắt hạn chế (RFLP) và giải trình tự ADN (sequencing) bắt đầu được thực hiện tại một số phòng thí nghiệm chuẩn thức quốc gia của các Viện đầu ngành như Viện Vệ sinh Dich tễ TƯ, Viện Pasteur TpHCM... Bước đầu giải trình tự một đoạn gen dài 450 nucleotide ở đầu tận cùng -COOH của gen nucleocapsit (N) của một số chủng virút sởi phân lập tại Việt Nam cho thấy các chủng virút sởi lưu hành tại miền Bắc Việt Nam vào những năm 1997-2000 thuộc nhóm H2. Các chủng này có cấu trúc gen gần giống 14 chủng Mvi/Beijing/CHN/94-1 chuẩn của WHO. Tuy nhiên, nghiên cứu gần đây nhất đã phát hiện genotyp H1 được xác định trong vụ dịch sởi ở Nha Trang vào tháng 03/2000. Genotyp này có cấu trúc tương tự như chủng chuẩn Mvi/Hunan.CHI/93 [23]. Từ 2005, bằng kỹ thuật Giải trình tự đã xác định các chủng sởi hoang dại lưu hành tại một số vùng địa lý Việt Nam đều thuộc genotyp H1. So với danh mục chủng virút sởi phân bố trên toàn thế giới, genotyp H1 và H2 có tỷ lệ biến đổi tương đối xa so với chủng gốc chuẩn A (Edmonston). Các genotyp này xuất hiện và chỉ lưu hành tại một số nước châu Á như Nhật Bản, Trung quốc và Việt Nam. [10], [21], [22]. 1.2.3. Dịch tễ học phân tử bệnh Rubella 1.2.3.1. Virút Rubella Virút Rubella là thành viên duy nhất của chi Rubivirus và gia đình của Togaviridae. Các hạt virion hình cầu có đường kính 50-70 nm, được bao phủ bởi một lớp màng lipid. Bên trong màng lipid là một capsid có cấu trúc icosahedral với đường kính là 40 nm. Genom virút Rubella là một sợi đơn ARN dương tính, được bao bọc bởi capsid. Trên màng tế bào phân bố các "gai" glycoprotein E1 và E2. (Hình 1.2.3.1a). Hình 1.2.3.1a. Cấu trúc phân tử virút Rubella Các gen ARN bên trong capsid có chiều dài khoảng 9.757 nucleotit và mã hóa cho 05 protein bao gồm 02 protein phi cấu trúc (P150 và RdRp) và 03 protein cấu trúc: protein capsid và 02 glycoprotein màng E1 và E2. Hình 1.2.3.1b. Bản đồ genom virút Rubella (Hình 1.2.3.1b).[6]. 15 1.2.3.2. Nghiên cứu dịch tễ học phân tử bệnhRubella + Trên Thế giới: Rubella là loại bệnh do virut Rubella gây ra, dễ lây lan qua đường hô hấp. Bệnh Rubella rất nguy hiểm cho phụ nữ mang thai đặc biệt là trong 3 tháng đầu của thai kỳ, sẽ ảnh hưởng xấu tới thai nhi, gây sảy thai hoặc sinh non. 90% phụ nữ mang thai trong 3 tháng đầu của thai kỳ sẽ sinh ra em bé bị hội chứng Rubella bẩm sinh như: điếc, đục thủy tinh thể, tật mắt nhỏ, tăng nhãn áp bẩm sinh, tật đầu nhỏ, viêm não, màng não, chậm phát triển tâm thần, gan to, lách to. Trẻ sinh ra có thể bị hội chứng Rubella bẩm sinh (CRS), mắc các chứng bệnh về tim, mắt, tai hoặc thiểu năng trí tụê. Theo báo cáo của tổ chức Y tế thế giới WHO thì mỗi năm, chỉ tính riêng ở các nước đang phát triển, khoảng 100.000 trường hợp CRS. Thời điểm dịch bùng phát năm 1964-1965 ở các nước phương Tây, hơn 20.000 trẻ em sinh ra bị khuyết tật do ảnh hưởng của virus. Tại VN, theo báo cáo tổng kết của chương trình Tiêm chủng mở rộng quốc gia, trong năm 2009 có 965 ca được chẩn đoán dương tính với Rubella. Theo các công bố khoa học, trình tự gen E1 đã được sử dụng cho các kiểu gen và phân tích phát sinh loài của chủng virút Rubella. Các genotyp Rubella hiện đang lưu hành trên Thế giới được phân bố thành 2 nhóm chính với 09 kiểu genotyp RGI (1A, 1B,1C,1D,1E,1G,1H,1i,1j) và 03 kiểu genotyp RGII (2A,2B,2C) (Bảng 1.2.3.2). [29]. Bảng 1.2.3.2. Danh mục chủng chuẩn sử dụng trong phân tích genotyp virút Rubella Genotyp Chủng chuẩn # GenBank 1A RVi/BEL/63 AF188704 1B RVi/ISR/88 AY968209 1C RVi/SLV/02[1C] AY968211 1D RVi/Cal.USA/97[1D]CRS AY968206 1E RVi/Shandong.CHN/02[1E] AY968210 1F RVi/Anhui.CHN/00[1F] AY968215 1G RVi/Minsk.BLR/29.04/1 AM258945 1H RVi/Minsk.BLR/28.05/2 AM258953 1i Rvi/Milan.ITA/46.92 (4655-ITA92) AY161360
- Xem thêm -