BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC LẠC HỒNG
***
Phạm Xuân Hoàng
SONG SONG HÓA THUẬT TOÁN GOM CỤM CHO BÀI TOÁN
PHÂN LOẠI TRÌNH TỰ METAGENOMICS
Luận văn thạc sĩ Công nghệ thông tin
Đồng Nai – Năm 2016
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC LẠC HỒNG
***
Phạm Xuân Hoàng
SONG SONG HÓA THUẬT TOÁN GOM CỤM CHO BÀI
TOÁN PHÂN LOẠI TRÌNH TỰ METAGENOMICS
Chuyên ngành: Công Nghệ Thông Tin
Mã số: 60480201
Luận văn thạc sĩ Công nghệ thông tin
NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS. TS. Trần Văn Hoài
Đồng Nai – 2016
i
LỜI CẢM ƠN
Tôi xin chân thành cảm ơn: PGS. TS. Trần Văn Hoài đã rất nhiệt tình hướng
dẫn, giúp đỡ trong quá trình tôi làm luận văn tốt nghiệp. Ban giám hiệu trường Đại
học Lạc Hồng, cùng tất cả quý thầy cô đã truyền đạt kiến thức cho tôi trong thời
gian tôi học tập tại trường. Tập thể lớp Công Nghệ Thông Tin – Khóa 6 – Trường
Đại học Lạc Hồng đã luôn bên cạnh động viên, giúp đỡ tôi trong suốt thời gian qua.
Đồng Nai, tháng 11 năm 2016
Học viên
Phạm Xuân Hoàng
ii
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của bản thân, được xuất phát
từ yêu cầu phát sinh trong công việc để hình thành hướng nghiên cứu. Các số liệu
có nguồn gốc rõ ràng tuân thủ đúng nguyên tắc và kết quả trình bày trong luận văn
được thu thập được trong quá trình nghiên cứu là trung thực chưa từng được ai công
bố trước đây.
Đồng Nai, tháng 11 năm 2016
Tác giả luận văn
Phạm Xuân Hoàng
iii
TÓM TẮT LUẬN VĂN
Luận văn gồm có 5 chương được trình bày theo trình tự sau:
Chương 1 giới thiệu về các khái niệm sinh học cơ bản, sơ lược về
metagenomics và tình hình phát triển metagenomics trên thế giới và ở Việt
Nam trong những năm gần đây; dạng tổng quát của bài toán phân loại trình
tự metagenomic và ứng dụng thuật toán k-means cho bài toán phân loại trình
tự metagenomics.
Chương 2 giới thiệu tổng quan tính toán song song, tổng quan về ngôn ngữ
lập trình Intel Cilk Plus, mô hình lập trình, cách phân bổ bộ nhớ, bộ nhớ chia
sẻ, cách phân công công việc và công nghệ Array Notations của Intel Cilk
Plus, từ đó đánh giá được lợi ích mà Cilk Plus mang lại.
Chương 3 trình bày về thuật toán BiMeta, nguồn gốc ra đời và các vấn đề
liên quan tới thuật toán, trình bày giải thuật và đánh giá phần nào của thuật
toán mà luận văn sẽ cố gắng song song.
Chương 4 trình bày định hướng song song chương trình BiMeta và mô hình
song song hóa, xây dựng môi trường thực nghiệm và kết quả thực nghiệm từ
đó đánh giá kết quả đạt được.
Chương 5 tổng kết kết quả đạt được, đóng góp của luận văn và hướng phát
triển.
iv
MỤC LỤC
LỜI CẢM ƠN ............................................................................................................. i
LỜI CAM ĐOAN ...................................................................................................... ii
TÓM TẮT LUẬN VĂN ........................................................................................... iii
MỤC LỤC ............................................................................................................... iv
DANH MỤC THUẬT NGỮ VIẾT TẮT ................................................................. vii
DANH MỤC BẢNG ............................................................................................... viii
DANH MỤC BIỂU ĐỒ ............................................................................................ ix
DANH MỤC HÌNH ....................................................................................................x
MỞ ĐẦU
.................................................................................................................1
CHƯƠNG 1: TỔNG QUAN VỀ METAGENOMICS ...............................................3
1.1 Các khái niệm cơ bản trong sinh học ................................................................3
1.1.1 Cacbohidrat ................................................................................................3
1.1.2 Lipit ............................................................................................................4
1.1.3 Protein ........................................................................................................5
1.1.4 Axit nucleic ................................................................................................5
1.2 Giới thiệu metagenomics ..................................................................................8
1.3 Phân loại trình tự metagenomics .....................................................................11
1.4 Giải pháp phân loại trình tự metagenomics sử dụng thuật toán K-means ......12
1.5.1 Lịch sử ......................................................................................................12
1.5.2 Giới thiệu..................................................................................................12
1.5.3 Thuật toán.................................................................................................12
1.5.4 Độ phức tạp thuật toán .............................................................................14
CHƯƠNG 2: TỔNG QUAN VỀ TÍNH TOÁN SONG SONG VÀ NGÔN NGỮ
LẬP TRÌNH INTEL CILK PLUS ............................................................................15
v
2.1 Tổng quan về INTEL CILK PLUS .................................................................15
2.1.1 Ngôn ngữ Cilk ..........................................................................................15
2.1.2 Nguồn gốc ra đời của Cilk .......................................................................15
2.1.3 Cilk++ ......................................................................................................16
2.1.4 Intel Cilk Plus ...........................................................................................17
2.2 Mô hình lập trình .............................................................................................17
Từ khóa cilk_for trên C++ ................................................................................22
2.3 Phân bổ bộ nhớ ................................................................................................24
2.3.1 Kiểu nhớ Stack .........................................................................................24
2.3.2 Kiểu nhớ Heap .........................................................................................26
2.4 Bộ nhớ chia sẻ .................................................................................................26
2.5 Work stealing ..................................................................................................30
2.6 Array Notations ...............................................................................................30
2.7 Lợi ích của Cilk Plus .......................................................................................31
CHƯƠNG 3: GIỚI THIỆU VỀ THUẬT TOÁN BIMETA .....................................33
3.1 Nguồn gốc ra đời .............................................................................................33
3.2 Ký hiệu và thuật ngữ .......................................................................................36
3.3 Các công thức sử dụng trong thuật toán BiMeta.............................................37
3.3.1 Tính tần số l-mer ......................................................................................37
3.3.2 Rút trích các thành phần đặc trưng ..........................................................38
3.3.3 Tìm các chuỗi trình tự trùng lặp và không trùng lặp ...............................39
3.4 Nguyên tắc cơ bản của thuật toán BiMeta ......................................................40
3.5 Thuật toán BiMeta...........................................................................................41
3.3.1 Pha 1: Phân nhóm các nút và xây dựng các hạt của nhóm ......................42
3.3.2 Pha 2: Trộn các nhóm ..............................................................................43
vi
CHƯƠNG 4: SONG SONG HÓA THUẬT TOÁN BIMETA .................................46
4.1 Định hướng song song trong chương trình BiMeta ........................................46
4.2 Mô hình song song hóa ...................................................................................48
4.3 Thử nghiệm và đánh giá kết quả .....................................................................48
4.3.1 Môi trường thực nghiệm ..........................................................................48
4.3.2 Chạy thực nghiệm ....................................................................................49
4.4 Đánh giá kết quả đạt được...............................................................................52
CHƯƠNG 5: TỔNG KẾT ........................................................................................62
5.1 Kết quả đạt được .............................................................................................62
5.2 Đóng góp của luận văn ....................................................................................62
5.3 Thuận lợi và khó khăn trong quá trình xây dựng luận văn .............................62
5.3.1 Thuận lợi ..................................................................................................62
5.3.2 Khó khăn ..................................................................................................62
5.4 Một số hạn chế và hướng phát triển luận văn .................................................63
5.4.1 Hạn chế.....................................................................................................63
5.4.2 Hướng phát triển luận văn ........................................................................63
5.5 Kết luận ...........................................................................................................63
TÀI LIỆU THAM KHẢO
vii
DANH MỤC THUẬT NGỮ VIẾT TẮT
Thuật ngữ
Nghĩa tiếng Việt
Tiếng Anh
CPU
Central Processing Unit
Bộ xử lý trung tâm
DNA
Deoxyribo nucleic acid
Axit deoxyribosenulceic
MIC
Many Integrated Core
Đa nhân tích hợp
MIT
Massachusetts Institute of Viện
Technology
Message Passing Interface
RAM
Random Access Memory
RNA
Ribo nucleic acid
SMP
SPARC
nghệ
Massachusetts
MPI
Sun
Công
Mô hình truyền thông
điệp
Bộ nhớ truy cập ngẫu
nhiên
Axit ribonucleic
Microsystems Kiến trúc thay đổi bộ xử
(Scalable lý
Processor Architecture)
của
công
Microsystems
ty
Sun
viii
DANH MỤC BẢNG
Bảng 4.1: Số liệu chạy thực nghiệm lần 1 trên máy 1 ..............................................52
Bảng 4.2: Số liệu chạy thực nghiệm lần 1 trên máy 2 ..............................................54
Bảng 4.3: Số liệu chạy thực nghiệm lần 2 trên máy 1 ..............................................55
Bảng 4.4: Số liệu chạy thực nghiệm lần 2 trên máy 2 ..............................................56
Bảng 4.5: Số liệu chạy thực nghiệm lần 3 trên máy 1 ..............................................57
Bảng 4.6: Số liệu chạy thực nghiệm lần 3 trên máy 2 ..............................................58
ix
DANH MỤC BIỂU ĐỒ
Biểu đồ 4.1: So sánh thời gian xử lý thực nghiệm lần 1 trên máy 1 .........................53
Biểu đồ 4.2: So sánh thời gian xử lý thực nghiệm lần 1 trên máy 2 .........................55
Biểu đồ 4.3: So sánh thời gian xử lý thực nghiệm lần 2 trên máy 1 .........................56
Biểu đồ 4.4: So sánh thời gian xử lý thực nghiệm lần 2 trên máy 2 .........................57
Biểu đồ 4.5: So sánh thời gian xử lý thực nghiệm lần 3 trên máy 1 .........................58
Biểu đồ 4.6: So sánh thời gian xử lý thực nghiệm lần 3 trên máy 2 .........................59
Biểu đồ 4.7: So sánh Speed Up trung bình qua các lần thực nghiệm .......................60
Biểu đồ 4.8: So sánh Efficiency trung bình qua các lần thực nghiệm ......................60
x
DANH MỤC HÌNH
Hình 1.1: Chuỗi xoắn kép của DNA ...........................................................................6
Hình 1.2: Cấu trúc các nucleic điển hình ....................................................................7
Hình 1.3: Quá trình giải trình tự metagenomics .........................................................9
Hình 1.2: Sơ đồ thuật toán K-Means trong các trình tự metagenomic .....................13
Hình 2.4: Tổng quan về Intel Building Blocks .........................................................18
Hình 2.5: Mã lệnh chương trình đệ quy tính toán các số Fibonacci .........................19
Hình 2.6: Mô hình Cilk tính toán đa luồng ...............................................................20
Hình 2.7: Mô hình DAG ...........................................................................................22
Hình 2.8: Mô tả phân chia công việc của cilk_spawn và cilk_sync trong vòng lặp .23
Hình 2.9: Mô tả phân chia công việc của cilk_for trong vòng lặp............................24
Hình 2.10: Một cactus stack ......................................................................................25
Hình 2.11: Đi đến thủ tục được sinh bằng tham số là một con trỏ trỏ đến biến x dẫn
đến sự chia sẻ của x ...................................................................................................27
Hình 2.12: Hành vi không xác định có thể ảnh hưởng đến đến kết quả khi truy cập
chia sẻ cho biến x khi biến x được cập nhật..............................................................28
Hình 2.13: Một ví dụ về sự tinh tế nhất quán bộ nhớ ...............................................29
Hình 3.1: Phân bổ tần số 4-mer của các nhóm trình tự không trùng nhau [4] ..........39
Hình 3.2: Quá trình phân chia của BiMeta [4] ..........................................................40
Hình 4.1: Đoạn mã thuật toán pha 1 .........................................................................46
Hình 4.2: Đoạn mã thuật toán pha 2 .........................................................................47
Hình 4.3: Mô hình song song hóa .............................................................................48
Hình 4.4: Giao diện khi chạy chương trình BiMeta 1.2............................................49
Hình 4.5: Mức độ xử lý của CPU khi chạy chương trình BiMeta 1.2 trên máy 1 ....49
Hình 4.6: Mức độ xử lý của CPU khi chạy chương trình BiMeta 1.2 trên máy 2 ....50
xi
Hình 4.7: Giao diện khi chạy chương trình BiMeta 1.2 có song song ......................50
Hình 4.8: Mức độ xử lý của CPU khi chạy chương trình BiMeta 1.2 song song 2
luồng trên máy 1 ........................................................................................................51
Hình 4.9: Mức độ xử lý của CPU khi chạy chương trình BiMeta 1.2 song song 4
luồng trên máy 1 ........................................................................................................51
Hình 4.10: Mức độ xử lý của CPU khi chạy chương trình BiMeta 1.2 song song 6
luồng trên máy 2 ........................................................................................................51
Hình 4.11: Mức độ xử lý của CPU khi chạy chương trình BiMeta 1.2 song song 12
luồng trên máy 2 ........................................................................................................52
Hình 5.1: Intel Xeon Phi ...........................................................................................64
1
MỞ ĐẦU
Metagenomics (còn được gọi là environmental genomics hay community
genomics) là lĩnh vực nghiên cứu cộng đồng vi sinh vật. Khác với phương pháp
nghiên cứu vi sinh vật truyền thống (được gọi là microbial genomics), vật liệu di
truyền sau khi được thu thập từ môi trường thực tế không cần thông qua quá trình
nuôi cấy mà được đưa trực tiếp vào quá trình giải mã trình tự. Metagenomics cho
phép chúng ta nghiên cứu các vi sinh vật bằng cách giải mã thông tin di truyền của
chúng từ deoxyribonucleic acid (DNA) mà được trích rút trực tiếp từ các cộng đồng
của các vi sinh vật môi trường, do đó từng bước vượt qua sự cần thiết của việc phân
lập hay nuôi cấy. Ngành nghiên cứu này được xây dựng trên những thành công của
các cuộc nghiên cứu 16S rRNA các mẫu môi trường nuôi cấy độc lập (Olsen, Lane
et al., 1986). Nó cung cấp những hiểu biết về lịch sử tiến hóa cũng như các khả
năng chưa biết từ trước của cộng đồng vi sinh vật chuyên sống trong môi trường.
Đó là, các câu hỏi sau có thể được giải đáp “vi sinh vật nào ở đó?”, “vi sinh vật
đang làm gì?” và “vi sinh vật hoạt động như thế nào?”. Kết quả phong phú của gen
và cấu trúc phân tử được giải mã từ các vi sinh vật không nuôi cấy được có tiềm
năng to lớn trong sự phát triển chất xúc tác sinh học (biocatalysts) mới cho ứng
dụng công nghiệp và dược phẩm. Những dự án nghiên cứu metagenomic có thể
mang đến lợi ích trong nhiều lĩnh vực như: y học, nông nghiệp, môi trường, công
nghệ sinh học, hay nghiên cứu năng lượng thay thế [9].
Phân loại trình tự là một trong những vấn đề quan trọng cần giải quyết trong
quá trình phân tích dữ liệu metagenomic. Mục tiêu của bài toán là phân chia trình tự
vào các nhóm gồm trình tự thuộc cùng hệ gen của một cá thể hay hệ gen của các vi
sinh vật có quan hệ gần nhau. Ngoài ra, bài toán này có thể giúp xác định những
nhóm vi sinh vật nào tồn tại trong mẫu thực nghiệm, mối quan hệ của chúng với
những sinh vật đã biết ra sao. Ở khía cạnh khác, từ kết quả phân loại, nhà sinh học
có thể thực hiện tiếp những phân tích và xử lý trên trình tự của từng loài vi sinh vật
như: xác định vị trí xuất hiện gen, ráp nối trình tự trong cùng hệ gen.
2
Nhưng vấn đề tồn tại là độ dài trình tự ngắn, lượng dữ liệu cần xử lý khổng
lồ, và cơ sở dữ liệu tham khảo không đầy đủ là những yếu tố chính mang đến những
thách thức cho bài toán phân loại. Ví dụ như một dự án metagenomic về đường ruột
người (Human gut metagenome, HGM [6]) cần phải xử lý cho hơn 3 tỉ trình tự,
chiếm khoảng 500GB vùng nhớ lưu trữ. Trong khi đó cần 187 giờ để chạy cho
500.000 trình tự trên máy đơn, với RAM 10GB. Như vậy cần khoảng gần 1.122.000
giờ để chạy trên máy đơn (single–core), RAM 10G cho bộ dữ liệu HGM, và cần
500 x 100 = 50.000 GB vùng nhớ để lưu trữ kết quả trả về của giai đoạn so sánh
tương đồng (chẳng hạn dùng công cụ BLAST). Như vậy, để có thể nghiên cứu tốt
và chạy thực tế cho các dự liệu thật trong lĩnh vực này, cần khoảng 100 máy có cấu
hình tối thiểu CPU 20 cores, RAM 100GB, ổ cứng mỗi máy tối thiểu 500GB. Với
cấu hình này, hệ thống có thể thực thi cho toàn bộ bộ dữ liệu tương đương bộ dữ
liệu HGM trong khoảng thời gian: 561 giờ (tương đương 23 ngày).
Hầu hết các công nghệ giải mã trình tự thế hệ mới (Next–generation
sequencing) hiện nay chỉ cho phép xử lý cho trình tự ngắn hoặc rất ngắn. Khi độ dài
trình tự càng ngắn, thông tin chứa đựng trong trình tự càng ít hơn. Điều này dẫn đến
độ chính xác khi phân loại giảm đi. Thiếu cơ sở dữ liệu tham khảo hay cơ sở dữ liệu
tham khảo không đầy đủ cũng là yếu tố làm giảm độ chính xác của các giải pháp
phân loại. Ngoài ra, phần lớn các dự án metagenomic hiện nay phải xử lý trên một
khối lượng trình tự rất lớn. Điều này không chỉ ảnh hưởng đến tốc độ xử lý, mà còn
ảnh hưởng đến độ chính xác của các giải pháp phân loại.
Mặc dù đã có nhiều luận văn như luận văn thạc sỹ “Nghiên cứu phát triển
thuật toán phân cụm các trình tự sinh học dựa trên mức độ tương đồng” [3] áp dụng
phương pháp kết hợp hai thuật toán DBSCAN và thuật toán BLAST và áp dụng
thuật toán DBSCAN để rút ngắn tốc độ xử lý nhưng kết quả vẫn chỉ cải thiện được
một phần nào đó. Đa số hướng phát triển được nêu lên là sử dụng các công nghệ
tính toán hiệu năng cao nhằm tính toán song song để giúp tăng tốc độ xử lý.
Với những lý do như vậy nên đề tài “Song song hóa thuật toán gom cụm
cho bài toán phân loại trình tự Metagenomics” có tính thực tiễn cao.
3
CHƯƠNG 1: TỔNG QUAN VỀ METAGENOMICS
1.1 Các khái niệm cơ bản trong sinh học
Cơ thể sinh vật được cấu tạo bởi những đơn vị cơ bản là tế bào, như cơ thể
người được cấu tạo bởi ngàn tỉ tế bào. Trẻ sơ sinh có khoảng 2.000 tỉ tế bào, người
trưởng thành có khoảng 100.000 tỉ tế bào. Trong khi đó vi khuẩn và các vi sinh vật
cơ thể chỉ là một tế bào.
Bên trong mỗi tế bào (ngoại trừ hồng huyết cầu trưởng thành) có nhân
(nucleus) chứa tất cả các chỉ thị di truyền (genetic instruction). Những chỉ thị này là
chức năng của tế bào. Mỗi tế bào được cấu tạo với một số lượng nhiễm sắc thể nhất
định. Mỗi nhiễm sắc thể được cấu tạo bởi một trình tự DNA. DNA chứa các gen mã
hóa ribonucleic acid (RNA) mà nó sẽ sinh ra các protein, để từ đó điều chỉnh tất cả
quá trình phát triển của một sinh vật. Một gen là một đoạn của DNA với trình tự
base đặc trưng, cụ thể; gọi là mã di truyền hay chỉ thị di truyền để xác định chức
năng của tế bào [10].
Trong tế bào có các đại phân tử với kích thước lớn để tạo môi trường cân đối
giúp duy trì sự sống đó là: cacbohidrat, lipit, protein và axit nucleic.
1.1.1 Cacbohidrat
Cacbohidrat có công thức phân tử C12H22O11, là nhóm chất hữu cơ thường có
khối lượng lớn và là nguyên liệu giải phóng năng lượng dễ dàng nhất (đóng vai trò
là nguồn cung cấp năng lượng, phổ biến nhất là glucozo). Cacbohidrat cũng là thành
phần xây dựng nên nhiều bộ phận của tế bào; ví dụ, xenlulozo là thành phần cấu
trúc nên thành tế bào thực vật. Pentozo là loại đường tham gia cấu tạo DNA, RNA.
Hexozo là nguyên liệu chủ yếu cho hô hấp tế bào tạo năng lượng, cấu tạo nên
disaccarit và polisaccarit. Saccarozo là loại đường vận chuyển trong cây. Tinh bột
có vai trò là chất dự trữ trong cây, glycogen là chất dự trữ trong cơ thể động vật và
nấm… Một số polysaccarit kết hợp với protein có vai trò vận chuyển các chất qua
màng sinh chất và góp phần “nhận biết” các vật thể lạ lúc qua màng. Glycogen ở tế
4
bào động vật và tinh bột ở tế bào thực vật đóng vai trò là nguồn dự trữ năng lượng.
Cacbohidrat được chia thành ba loại thường gặp là:
Cấu trúc các monosaccarit (đường đơn)
Gồm các loại đường có từ 3 – 7 nguyên tử cacbon trong phân tử, trong đó
phổ biến và quan trọng nhất là các hexozo (chứa 6C) và pentozo (chứa 5C). Điển
hình của các hexozo là glucozo (đường nho), fructozo (đường quả). Các đường đơn
này có tính khử mạnh.
Cấu trúc các disaccarit (đường đôi)
Hai phân tử đường đơn (glucozo, fructozo) có thể liên kết với nhau nhờ liên
kết glicozit sau khi đã loại đi 1 phân tử nước tạo thành các đường disaccarit như
saccarozo (đường mía), mantozo (đường mạch nha), lactozo (đường sữa). Các
disaccarit này có công thức cấu tạo phân tử khác nhau.
Cấu trúc các polysaccarit (đường đa)
Nhiều phân tử đường đơn bằng các phản ứng trùng ngưng và loại nước tạo
thành các polysaccarit là các phân tử mạch thẳng (như xenlulozo) hay mạch phân
nhánh (như tinh bột thực vật hay glycogen động vật). Tinh bột được hình thành do
rất nhiều phân tử glucozo liên kết với nhau dưới dạng phân nhánh và không phân
nhánh. Glycogen được hình thành do rất nhiều phân tử glucozo liên kết với nhau
thành một phân tử có cấu trúc phân nhánh phức tạp.
1.1.2 Lipit
Lipit chiếm khoảng 40% thể trọng. Lipit là một trong những thành phần cơ
bản cấu tạo nên tế bào, đặc biệt là màng tế bào. Tại các mô thần kinh và tuyến nội
tiết (nhất là tuyến sinh dục, thượng thận), lipit rất quan trọng và hoạt động sinh hoá
rất mạnh.
Mô mỡ là nơi tích trữ lipit, cung cấp năng lượng dự trữ để các quá trình
chuyển hoá gluxit, lipit, protein, v.v... được diễn ra. Lipit có thời gian bán thoái hoá
khoảng 5 – 9 ngày.
5
Trong cơ thể có nhiều loại lipit khác nhau song chủ yếu là 3 nhóm: glyxerit,
photpholipit, steroit.
1.1.3 Protein
Protein là những chất trùng hợp sinh học thuộc loại các đại phân tử có khối
lượng phân tử rất lớn đạt tới hàng nghìn và hàng chục nghìn dalton. Chúng chiếm
khối lượng 80% trọng lượng khô của tế bào. Chúng có cấu tạo rất phức tạp và có
vai trò quyết định trong cơ thể sống. Protein là vật liệu xây dựng nên tế bào và mô.
Protein là cơ sở phân tử của tất cả hoạt động sống. Các chất xúc tác sinh học – các
enzym – đều là protein. Protein đóng vai trò chất chuyên chở (như hemoglobin
trong máu), chất bảo vệ và nâng đỡ (như keratin trong da và collagen trong mô liên
kết). Protein đóng vai trò bảo vệ, chống kẻ thù (như kháng thể, interferon). Nhiều
hormon quan trọng đều là protein (như insulin v.v...). Protein thể hiện tính đặc thù
và tính đa dạng của cơ thể và của mô.
1.1.4 Axit nucleic
Một axit nucleic là một đại phân tử sinh học có phân tử lượng lớn được cấu
tạo từ các chuỗi nucleotide nhằm truyền tải thông tin di truyền. Hai loại axit nucleic
phổ biến nhất là DNA và RNA. Axit nucleic có mặt ở hầu hết các tế bào sống và
virus.
Axit nucleic có thể có dạng mạch đơn hoặc mạch kép. Phân tử axit nucleic
mạch kép gồm có hai mạch đơn liên kết với nhau bởi liên kết hidro. RNA thường là
mạch đơn, nhưng một số có thể tự xoắn cuộn nhiều vòng tạo thành vùng xoắn kép.
DNA thường là mạch kép, mặc dù một vài virus có hệ gen là DNA mạch đơn.
DNA
Phân tử DNA là một chuỗi xoắn kép gồm hai sợi đơn. Mỗi sợi đơn là một
chuỗi nucleotide.
6
Hình 1.1: Chuỗi xoắn kép của DNA
Mỗi nucleotide gồm ba thành phần: nhóm phosphate, đường deoxyribose và
một trong bốn base (A, C, G và T).
7
Hình 1.2: Cấu trúc các nucleic điển hình
Hai sợi đơn kết hợp với nhau nhờ các liên kết hydrogen hình thành giữa các
base bổ sung nằm trên hai sợi: A bổ sung cho T và C bổ sung cho G. Mỗi sợi đơn
có một trình tự định hướng với một đầu 5’ phosphate tự do, đầu kia là 3’ hydroxyl
tự do (quy ước là 5’ 3’). Hướng của hai sợi đơn trong chuỗi xoắn kép ngược
nhau, nên được gọi là hai sợi đối song.
RNA
Phân tử RNA có cấu tạo tương tự DNA ngoại trừ ba điểm khác biệt sau:
Phân tử RNA là chuỗi đơn. Đường pentose của phân tử RNA là ribose thay vì
deoxyribose. Thymine (T), một trong bốn loại base hình thành nên phân tử DNA,
được thay thế bằng uracil (U) trong phân tử RNA. Cấu trúc và chức năng của RNA
có sự biến đổi rõ rệt. Về cơ bản RNA chỉ là chất mang thông tin di truyền ở virus,
sau đó người ta chứng minh rằng nó không những đóng vai trò cơ bản ở việc
chuyển thông tin di truyền mà còn có vai trò cấu trúc khi tạo nên phức hệ RNAprotein. Theo một lý thuyết tiến hóa mà đại diện là Eigen, RNA là chất mang thông
- Xem thêm -