Tài liệu Song song hóa thuật toán gom cụm cho bài toán phân loại trình tự metagenomics

.PDF

133

thanhphoquetoi Báo vi phạm

Tải xuống 133

Mô tả:

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** Phạm Xuân Hoàng SONG SONG HÓA THUẬT TOÁN GOM CỤM CHO BÀI TOÁN PHÂN LOẠI TRÌNH TỰ METAGENOMICS Luận văn thạc sĩ Công nghệ thông tin Đồng Nai – Năm 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** Phạm Xuân Hoàng SONG SONG HÓA THUẬT TOÁN GOM CỤM CHO BÀI TOÁN PHÂN LOẠI TRÌNH TỰ METAGENOMICS Chuyên ngành: Công Nghệ Thông Tin Mã số: 60480201 Luận văn thạc sĩ Công nghệ thông tin NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS. Trần Văn Hoài Đồng Nai – 2016 i LỜI CẢM ƠN Tôi xin chân thành cảm ơn: PGS. TS. Trần Văn Hoài đã rất nhiệt tình hướng dẫn, giúp đỡ trong quá trình tôi làm luận văn tốt nghiệp. Ban giám hiệu trường Đại học Lạc Hồng, cùng tất cả quý thầy cô đã truyền đạt kiến thức cho tôi trong thời gian tôi học tập tại trường. Tập thể lớp Công Nghệ Thông Tin – Khóa 6 – Trường Đại học Lạc Hồng đã luôn bên cạnh động viên, giúp đỡ tôi trong suốt thời gian qua. Đồng Nai, tháng 11 năm 2016 Học viên Phạm Xuân Hoàng ii LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của bản thân, được xuất phát từ yêu cầu phát sinh trong công việc để hình thành hướng nghiên cứu. Các số liệu có nguồn gốc rõ ràng tuân thủ đúng nguyên tắc và kết quả trình bày trong luận văn được thu thập được trong quá trình nghiên cứu là trung thực chưa từng được ai công bố trước đây. Đồng Nai, tháng 11 năm 2016 Tác giả luận văn Phạm Xuân Hoàng iii TÓM TẮT LUẬN VĂN Luận văn gồm có 5 chương được trình bày theo trình tự sau:  Chương 1 giới thiệu về các khái niệm sinh học cơ bản, sơ lược về metagenomics và tình hình phát triển metagenomics trên thế giới và ở Việt Nam trong những năm gần đây; dạng tổng quát của bài toán phân loại trình tự metagenomic và ứng dụng thuật toán k-means cho bài toán phân loại trình tự metagenomics.  Chương 2 giới thiệu tổng quan tính toán song song, tổng quan về ngôn ngữ lập trình Intel Cilk Plus, mô hình lập trình, cách phân bổ bộ nhớ, bộ nhớ chia sẻ, cách phân công công việc và công nghệ Array Notations của Intel Cilk Plus, từ đó đánh giá được lợi ích mà Cilk Plus mang lại.  Chương 3 trình bày về thuật toán BiMeta, nguồn gốc ra đời và các vấn đề liên quan tới thuật toán, trình bày giải thuật và đánh giá phần nào của thuật toán mà luận văn sẽ cố gắng song song.  Chương 4 trình bày định hướng song song chương trình BiMeta và mô hình song song hóa, xây dựng môi trường thực nghiệm và kết quả thực nghiệm từ đó đánh giá kết quả đạt được.  Chương 5 tổng kết kết quả đạt được, đóng góp của luận văn và hướng phát triển. iv MỤC LỤC LỜI CẢM ƠN ............................................................................................................. i LỜI CAM ĐOAN ...................................................................................................... ii TÓM TẮT LUẬN VĂN ........................................................................................... iii MỤC LỤC ............................................................................................................... iv DANH MỤC THUẬT NGỮ VIẾT TẮT ................................................................. vii DANH MỤC BẢNG ............................................................................................... viii DANH MỤC BIỂU ĐỒ ............................................................................................ ix DANH MỤC HÌNH ....................................................................................................x MỞ ĐẦU .................................................................................................................1 CHƯƠNG 1: TỔNG QUAN VỀ METAGENOMICS ...............................................3 1.1 Các khái niệm cơ bản trong sinh học ................................................................3 1.1.1 Cacbohidrat ................................................................................................3 1.1.2 Lipit ............................................................................................................4 1.1.3 Protein ........................................................................................................5 1.1.4 Axit nucleic ................................................................................................5 1.2 Giới thiệu metagenomics ..................................................................................8 1.3 Phân loại trình tự metagenomics .....................................................................11 1.4 Giải pháp phân loại trình tự metagenomics sử dụng thuật toán K-means ......12 1.5.1 Lịch sử ......................................................................................................12 1.5.2 Giới thiệu..................................................................................................12 1.5.3 Thuật toán.................................................................................................12 1.5.4 Độ phức tạp thuật toán .............................................................................14 CHƯƠNG 2: TỔNG QUAN VỀ TÍNH TOÁN SONG SONG VÀ NGÔN NGỮ LẬP TRÌNH INTEL CILK PLUS ............................................................................15 v 2.1 Tổng quan về INTEL CILK PLUS .................................................................15 2.1.1 Ngôn ngữ Cilk ..........................................................................................15 2.1.2 Nguồn gốc ra đời của Cilk .......................................................................15 2.1.3 Cilk++ ......................................................................................................16 2.1.4 Intel Cilk Plus ...........................................................................................17 2.2 Mô hình lập trình .............................................................................................17 Từ khóa cilk_for trên C++ ................................................................................22 2.3 Phân bổ bộ nhớ ................................................................................................24 2.3.1 Kiểu nhớ Stack .........................................................................................24 2.3.2 Kiểu nhớ Heap .........................................................................................26 2.4 Bộ nhớ chia sẻ .................................................................................................26 2.5 Work stealing ..................................................................................................30 2.6 Array Notations ...............................................................................................30 2.7 Lợi ích của Cilk Plus .......................................................................................31 CHƯƠNG 3: GIỚI THIỆU VỀ THUẬT TOÁN BIMETA .....................................33 3.1 Nguồn gốc ra đời .............................................................................................33 3.2 Ký hiệu và thuật ngữ .......................................................................................36 3.3 Các công thức sử dụng trong thuật toán BiMeta.............................................37 3.3.1 Tính tần số l-mer ......................................................................................37 3.3.2 Rút trích các thành phần đặc trưng ..........................................................38 3.3.3 Tìm các chuỗi trình tự trùng lặp và không trùng lặp ...............................39 3.4 Nguyên tắc cơ bản của thuật toán BiMeta ......................................................40 3.5 Thuật toán BiMeta...........................................................................................41 3.3.1 Pha 1: Phân nhóm các nút và xây dựng các hạt của nhóm ......................42 3.3.2 Pha 2: Trộn các nhóm ..............................................................................43 vi CHƯƠNG 4: SONG SONG HÓA THUẬT TOÁN BIMETA .................................46 4.1 Định hướng song song trong chương trình BiMeta ........................................46 4.2 Mô hình song song hóa ...................................................................................48 4.3 Thử nghiệm và đánh giá kết quả .....................................................................48 4.3.1 Môi trường thực nghiệm ..........................................................................48 4.3.2 Chạy thực nghiệm ....................................................................................49 4.4 Đánh giá kết quả đạt được...............................................................................52 CHƯƠNG 5: TỔNG KẾT ........................................................................................62 5.1 Kết quả đạt được .............................................................................................62 5.2 Đóng góp của luận văn ....................................................................................62 5.3 Thuận lợi và khó khăn trong quá trình xây dựng luận văn .............................62 5.3.1 Thuận lợi ..................................................................................................62 5.3.2 Khó khăn ..................................................................................................62 5.4 Một số hạn chế và hướng phát triển luận văn .................................................63 5.4.1 Hạn chế.....................................................................................................63 5.4.2 Hướng phát triển luận văn ........................................................................63 5.5 Kết luận ...........................................................................................................63 TÀI LIỆU THAM KHẢO vii DANH MỤC THUẬT NGỮ VIẾT TẮT Thuật ngữ Nghĩa tiếng Việt Tiếng Anh CPU Central Processing Unit Bộ xử lý trung tâm DNA Deoxyribo nucleic acid Axit deoxyribosenulceic MIC Many Integrated Core Đa nhân tích hợp MIT Massachusetts Institute of Viện Technology Message Passing Interface RAM Random Access Memory RNA Ribo nucleic acid SMP SPARC nghệ Massachusetts MPI Sun Công Mô hình truyền thông điệp Bộ nhớ truy cập ngẫu nhiên Axit ribonucleic Microsystems Kiến trúc thay đổi bộ xử (Scalable lý Processor Architecture) của công Microsystems ty Sun viii DANH MỤC BẢNG Bảng 4.1: Số liệu chạy thực nghiệm lần 1 trên máy 1 ..............................................52 Bảng 4.2: Số liệu chạy thực nghiệm lần 1 trên máy 2 ..............................................54 Bảng 4.3: Số liệu chạy thực nghiệm lần 2 trên máy 1 ..............................................55 Bảng 4.4: Số liệu chạy thực nghiệm lần 2 trên máy 2 ..............................................56 Bảng 4.5: Số liệu chạy thực nghiệm lần 3 trên máy 1 ..............................................57 Bảng 4.6: Số liệu chạy thực nghiệm lần 3 trên máy 2 ..............................................58 ix DANH MỤC BIỂU ĐỒ Biểu đồ 4.1: So sánh thời gian xử lý thực nghiệm lần 1 trên máy 1 .........................53 Biểu đồ 4.2: So sánh thời gian xử lý thực nghiệm lần 1 trên máy 2 .........................55 Biểu đồ 4.3: So sánh thời gian xử lý thực nghiệm lần 2 trên máy 1 .........................56 Biểu đồ 4.4: So sánh thời gian xử lý thực nghiệm lần 2 trên máy 2 .........................57 Biểu đồ 4.5: So sánh thời gian xử lý thực nghiệm lần 3 trên máy 1 .........................58 Biểu đồ 4.6: So sánh thời gian xử lý thực nghiệm lần 3 trên máy 2 .........................59 Biểu đồ 4.7: So sánh Speed Up trung bình qua các lần thực nghiệm .......................60 Biểu đồ 4.8: So sánh Efficiency trung bình qua các lần thực nghiệm ......................60 x DANH MỤC HÌNH Hình 1.1: Chuỗi xoắn kép của DNA ...........................................................................6 Hình 1.2: Cấu trúc các nucleic điển hình ....................................................................7 Hình 1.3: Quá trình giải trình tự metagenomics .........................................................9 Hình 1.2: Sơ đồ thuật toán K-Means trong các trình tự metagenomic .....................13 Hình 2.4: Tổng quan về Intel Building Blocks .........................................................18 Hình 2.5: Mã lệnh chương trình đệ quy tính toán các số Fibonacci .........................19 Hình 2.6: Mô hình Cilk tính toán đa luồng ...............................................................20 Hình 2.7: Mô hình DAG ...........................................................................................22 Hình 2.8: Mô tả phân chia công việc của cilk_spawn và cilk_sync trong vòng lặp .23 Hình 2.9: Mô tả phân chia công việc của cilk_for trong vòng lặp............................24 Hình 2.10: Một cactus stack ......................................................................................25 Hình 2.11: Đi đến thủ tục được sinh bằng tham số là một con trỏ trỏ đến biến x dẫn đến sự chia sẻ của x ...................................................................................................27 Hình 2.12: Hành vi không xác định có thể ảnh hưởng đến đến kết quả khi truy cập chia sẻ cho biến x khi biến x được cập nhật..............................................................28 Hình 2.13: Một ví dụ về sự tinh tế nhất quán bộ nhớ ...............................................29 Hình 3.1: Phân bổ tần số 4-mer của các nhóm trình tự không trùng nhau [4] ..........39 Hình 3.2: Quá trình phân chia của BiMeta [4] ..........................................................40 Hình 4.1: Đoạn mã thuật toán pha 1 .........................................................................46 Hình 4.2: Đoạn mã thuật toán pha 2 .........................................................................47 Hình 4.3: Mô hình song song hóa .............................................................................48 Hình 4.4: Giao diện khi chạy chương trình BiMeta 1.2............................................49 Hình 4.5: Mức độ xử lý của CPU khi chạy chương trình BiMeta 1.2 trên máy 1 ....49 Hình 4.6: Mức độ xử lý của CPU khi chạy chương trình BiMeta 1.2 trên máy 2 ....50 xi Hình 4.7: Giao diện khi chạy chương trình BiMeta 1.2 có song song ......................50 Hình 4.8: Mức độ xử lý của CPU khi chạy chương trình BiMeta 1.2 song song 2 luồng trên máy 1 ........................................................................................................51 Hình 4.9: Mức độ xử lý của CPU khi chạy chương trình BiMeta 1.2 song song 4 luồng trên máy 1 ........................................................................................................51 Hình 4.10: Mức độ xử lý của CPU khi chạy chương trình BiMeta 1.2 song song 6 luồng trên máy 2 ........................................................................................................51 Hình 4.11: Mức độ xử lý của CPU khi chạy chương trình BiMeta 1.2 song song 12 luồng trên máy 2 ........................................................................................................52 Hình 5.1: Intel Xeon Phi ...........................................................................................64 1 MỞ ĐẦU Metagenomics (còn được gọi là environmental genomics hay community genomics) là lĩnh vực nghiên cứu cộng đồng vi sinh vật. Khác với phương pháp nghiên cứu vi sinh vật truyền thống (được gọi là microbial genomics), vật liệu di truyền sau khi được thu thập từ môi trường thực tế không cần thông qua quá trình nuôi cấy mà được đưa trực tiếp vào quá trình giải mã trình tự. Metagenomics cho phép chúng ta nghiên cứu các vi sinh vật bằng cách giải mã thông tin di truyền của chúng từ deoxyribonucleic acid (DNA) mà được trích rút trực tiếp từ các cộng đồng của các vi sinh vật môi trường, do đó từng bước vượt qua sự cần thiết của việc phân lập hay nuôi cấy. Ngành nghiên cứu này được xây dựng trên những thành công của các cuộc nghiên cứu 16S rRNA các mẫu môi trường nuôi cấy độc lập (Olsen, Lane et al., 1986). Nó cung cấp những hiểu biết về lịch sử tiến hóa cũng như các khả năng chưa biết từ trước của cộng đồng vi sinh vật chuyên sống trong môi trường. Đó là, các câu hỏi sau có thể được giải đáp “vi sinh vật nào ở đó?”, “vi sinh vật đang làm gì?” và “vi sinh vật hoạt động như thế nào?”. Kết quả phong phú của gen và cấu trúc phân tử được giải mã từ các vi sinh vật không nuôi cấy được có tiềm năng to lớn trong sự phát triển chất xúc tác sinh học (biocatalysts) mới cho ứng dụng công nghiệp và dược phẩm. Những dự án nghiên cứu metagenomic có thể mang đến lợi ích trong nhiều lĩnh vực như: y học, nông nghiệp, môi trường, công nghệ sinh học, hay nghiên cứu năng lượng thay thế [9]. Phân loại trình tự là một trong những vấn đề quan trọng cần giải quyết trong quá trình phân tích dữ liệu metagenomic. Mục tiêu của bài toán là phân chia trình tự vào các nhóm gồm trình tự thuộc cùng hệ gen của một cá thể hay hệ gen của các vi sinh vật có quan hệ gần nhau. Ngoài ra, bài toán này có thể giúp xác định những nhóm vi sinh vật nào tồn tại trong mẫu thực nghiệm, mối quan hệ của chúng với những sinh vật đã biết ra sao. Ở khía cạnh khác, từ kết quả phân loại, nhà sinh học có thể thực hiện tiếp những phân tích và xử lý trên trình tự của từng loài vi sinh vật như: xác định vị trí xuất hiện gen, ráp nối trình tự trong cùng hệ gen. 2 Nhưng vấn đề tồn tại là độ dài trình tự ngắn, lượng dữ liệu cần xử lý khổng lồ, và cơ sở dữ liệu tham khảo không đầy đủ là những yếu tố chính mang đến những thách thức cho bài toán phân loại. Ví dụ như một dự án metagenomic về đường ruột người (Human gut metagenome, HGM [6]) cần phải xử lý cho hơn 3 tỉ trình tự, chiếm khoảng 500GB vùng nhớ lưu trữ. Trong khi đó cần 187 giờ để chạy cho 500.000 trình tự trên máy đơn, với RAM 10GB. Như vậy cần khoảng gần 1.122.000 giờ để chạy trên máy đơn (single–core), RAM 10G cho bộ dữ liệu HGM, và cần 500 x 100 = 50.000 GB vùng nhớ để lưu trữ kết quả trả về của giai đoạn so sánh tương đồng (chẳng hạn dùng công cụ BLAST). Như vậy, để có thể nghiên cứu tốt và chạy thực tế cho các dự liệu thật trong lĩnh vực này, cần khoảng 100 máy có cấu hình tối thiểu CPU 20 cores, RAM 100GB, ổ cứng mỗi máy tối thiểu 500GB. Với cấu hình này, hệ thống có thể thực thi cho toàn bộ bộ dữ liệu tương đương bộ dữ liệu HGM trong khoảng thời gian: 561 giờ (tương đương 23 ngày). Hầu hết các công nghệ giải mã trình tự thế hệ mới (Next–generation sequencing) hiện nay chỉ cho phép xử lý cho trình tự ngắn hoặc rất ngắn. Khi độ dài trình tự càng ngắn, thông tin chứa đựng trong trình tự càng ít hơn. Điều này dẫn đến độ chính xác khi phân loại giảm đi. Thiếu cơ sở dữ liệu tham khảo hay cơ sở dữ liệu tham khảo không đầy đủ cũng là yếu tố làm giảm độ chính xác của các giải pháp phân loại. Ngoài ra, phần lớn các dự án metagenomic hiện nay phải xử lý trên một khối lượng trình tự rất lớn. Điều này không chỉ ảnh hưởng đến tốc độ xử lý, mà còn ảnh hưởng đến độ chính xác của các giải pháp phân loại. Mặc dù đã có nhiều luận văn như luận văn thạc sỹ “Nghiên cứu phát triển thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng” [3] áp dụng phương pháp kết hợp hai thuật toán DBSCAN và thuật toán BLAST và áp dụng thuật toán DBSCAN để rút ngắn tốc độ xử lý nhưng kết quả vẫn chỉ cải thiện được một phần nào đó. Đa số hướng phát triển được nêu lên là sử dụng các công nghệ tính toán hiệu năng cao nhằm tính toán song song để giúp tăng tốc độ xử lý. Với những lý do như vậy nên đề tài “Song song hóa thuật toán gom cụm cho bài toán phân loại trình tự Metagenomics” có tính thực tiễn cao. 3 CHƯƠNG 1: TỔNG QUAN VỀ METAGENOMICS 1.1 Các khái niệm cơ bản trong sinh học Cơ thể sinh vật được cấu tạo bởi những đơn vị cơ bản là tế bào, như cơ thể người được cấu tạo bởi ngàn tỉ tế bào. Trẻ sơ sinh có khoảng 2.000 tỉ tế bào, người trưởng thành có khoảng 100.000 tỉ tế bào. Trong khi đó vi khuẩn và các vi sinh vật cơ thể chỉ là một tế bào. Bên trong mỗi tế bào (ngoại trừ hồng huyết cầu trưởng thành) có nhân (nucleus) chứa tất cả các chỉ thị di truyền (genetic instruction). Những chỉ thị này là chức năng của tế bào. Mỗi tế bào được cấu tạo với một số lượng nhiễm sắc thể nhất định. Mỗi nhiễm sắc thể được cấu tạo bởi một trình tự DNA. DNA chứa các gen mã hóa ribonucleic acid (RNA) mà nó sẽ sinh ra các protein, để từ đó điều chỉnh tất cả quá trình phát triển của một sinh vật. Một gen là một đoạn của DNA với trình tự base đặc trưng, cụ thể; gọi là mã di truyền hay chỉ thị di truyền để xác định chức năng của tế bào [10]. Trong tế bào có các đại phân tử với kích thước lớn để tạo môi trường cân đối giúp duy trì sự sống đó là: cacbohidrat, lipit, protein và axit nucleic. 1.1.1 Cacbohidrat Cacbohidrat có công thức phân tử C12H22O11, là nhóm chất hữu cơ thường có khối lượng lớn và là nguyên liệu giải phóng năng lượng dễ dàng nhất (đóng vai trò là nguồn cung cấp năng lượng, phổ biến nhất là glucozo). Cacbohidrat cũng là thành phần xây dựng nên nhiều bộ phận của tế bào; ví dụ, xenlulozo là thành phần cấu trúc nên thành tế bào thực vật. Pentozo là loại đường tham gia cấu tạo DNA, RNA. Hexozo là nguyên liệu chủ yếu cho hô hấp tế bào tạo năng lượng, cấu tạo nên disaccarit và polisaccarit. Saccarozo là loại đường vận chuyển trong cây. Tinh bột có vai trò là chất dự trữ trong cây, glycogen là chất dự trữ trong cơ thể động vật và nấm… Một số polysaccarit kết hợp với protein có vai trò vận chuyển các chất qua màng sinh chất và góp phần “nhận biết” các vật thể lạ lúc qua màng. Glycogen ở tế 4 bào động vật và tinh bột ở tế bào thực vật đóng vai trò là nguồn dự trữ năng lượng. Cacbohidrat được chia thành ba loại thường gặp là: Cấu trúc các monosaccarit (đường đơn) Gồm các loại đường có từ 3 – 7 nguyên tử cacbon trong phân tử, trong đó phổ biến và quan trọng nhất là các hexozo (chứa 6C) và pentozo (chứa 5C). Điển hình của các hexozo là glucozo (đường nho), fructozo (đường quả). Các đường đơn này có tính khử mạnh. Cấu trúc các disaccarit (đường đôi) Hai phân tử đường đơn (glucozo, fructozo) có thể liên kết với nhau nhờ liên kết glicozit sau khi đã loại đi 1 phân tử nước tạo thành các đường disaccarit như saccarozo (đường mía), mantozo (đường mạch nha), lactozo (đường sữa). Các disaccarit này có công thức cấu tạo phân tử khác nhau. Cấu trúc các polysaccarit (đường đa) Nhiều phân tử đường đơn bằng các phản ứng trùng ngưng và loại nước tạo thành các polysaccarit là các phân tử mạch thẳng (như xenlulozo) hay mạch phân nhánh (như tinh bột thực vật hay glycogen động vật). Tinh bột được hình thành do rất nhiều phân tử glucozo liên kết với nhau dưới dạng phân nhánh và không phân nhánh. Glycogen được hình thành do rất nhiều phân tử glucozo liên kết với nhau thành một phân tử có cấu trúc phân nhánh phức tạp. 1.1.2 Lipit Lipit chiếm khoảng 40% thể trọng. Lipit là một trong những thành phần cơ bản cấu tạo nên tế bào, đặc biệt là màng tế bào. Tại các mô thần kinh và tuyến nội tiết (nhất là tuyến sinh dục, thượng thận), lipit rất quan trọng và hoạt động sinh hoá rất mạnh. Mô mỡ là nơi tích trữ lipit, cung cấp năng lượng dự trữ để các quá trình chuyển hoá gluxit, lipit, protein, v.v... được diễn ra. Lipit có thời gian bán thoái hoá khoảng 5 – 9 ngày. 5 Trong cơ thể có nhiều loại lipit khác nhau song chủ yếu là 3 nhóm: glyxerit, photpholipit, steroit. 1.1.3 Protein Protein là những chất trùng hợp sinh học thuộc loại các đại phân tử có khối lượng phân tử rất lớn đạt tới hàng nghìn và hàng chục nghìn dalton. Chúng chiếm khối lượng 80% trọng lượng khô của tế bào. Chúng có cấu tạo rất phức tạp và có vai trò quyết định trong cơ thể sống. Protein là vật liệu xây dựng nên tế bào và mô. Protein là cơ sở phân tử của tất cả hoạt động sống. Các chất xúc tác sinh học – các enzym – đều là protein. Protein đóng vai trò chất chuyên chở (như hemoglobin trong máu), chất bảo vệ và nâng đỡ (như keratin trong da và collagen trong mô liên kết). Protein đóng vai trò bảo vệ, chống kẻ thù (như kháng thể, interferon). Nhiều hormon quan trọng đều là protein (như insulin v.v...). Protein thể hiện tính đặc thù và tính đa dạng của cơ thể và của mô. 1.1.4 Axit nucleic Một axit nucleic là một đại phân tử sinh học có phân tử lượng lớn được cấu tạo từ các chuỗi nucleotide nhằm truyền tải thông tin di truyền. Hai loại axit nucleic phổ biến nhất là DNA và RNA. Axit nucleic có mặt ở hầu hết các tế bào sống và virus. Axit nucleic có thể có dạng mạch đơn hoặc mạch kép. Phân tử axit nucleic mạch kép gồm có hai mạch đơn liên kết với nhau bởi liên kết hidro. RNA thường là mạch đơn, nhưng một số có thể tự xoắn cuộn nhiều vòng tạo thành vùng xoắn kép. DNA thường là mạch kép, mặc dù một vài virus có hệ gen là DNA mạch đơn. DNA Phân tử DNA là một chuỗi xoắn kép gồm hai sợi đơn. Mỗi sợi đơn là một chuỗi nucleotide. 6 Hình 1.1: Chuỗi xoắn kép của DNA Mỗi nucleotide gồm ba thành phần: nhóm phosphate, đường deoxyribose và một trong bốn base (A, C, G và T). 7 Hình 1.2: Cấu trúc các nucleic điển hình Hai sợi đơn kết hợp với nhau nhờ các liên kết hydrogen hình thành giữa các base bổ sung nằm trên hai sợi: A bổ sung cho T và C bổ sung cho G. Mỗi sợi đơn có một trình tự định hướng với một đầu 5’ phosphate tự do, đầu kia là 3’ hydroxyl tự do (quy ước là 5’  3’). Hướng của hai sợi đơn trong chuỗi xoắn kép ngược nhau, nên được gọi là hai sợi đối song. RNA Phân tử RNA có cấu tạo tương tự DNA ngoại trừ ba điểm khác biệt sau: Phân tử RNA là chuỗi đơn. Đường pentose của phân tử RNA là ribose thay vì deoxyribose. Thymine (T), một trong bốn loại base hình thành nên phân tử DNA, được thay thế bằng uracil (U) trong phân tử RNA. Cấu trúc và chức năng của RNA có sự biến đổi rõ rệt. Về cơ bản RNA chỉ là chất mang thông tin di truyền ở virus, sau đó người ta chứng minh rằng nó không những đóng vai trò cơ bản ở việc chuyển thông tin di truyền mà còn có vai trò cấu trúc khi tạo nên phức hệ RNAprotein. Theo một lý thuyết tiến hóa mà đại diện là Eigen, RNA là chất mang thông

- Xem thêm -

Tài liệu Song song hóa thuật toán gom cụm cho bài toán phân loại trình tự metagenomics

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất