..
ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
HÀ THỊ THANH HỒNG
PHƢƠNG PHÁP ĐÁNH CHỈ SỐ
CHO CSDL GEN ĐỂ TĂNG TỐC ĐỘ TÌM KIẾM
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Thái nguyên, 2015
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
Hà Thị Thanh Hồng
PHƢƠNG PHÁP ĐÁNH CHỈ SỐ
CHO CSDL GEN ĐỂ TĂNG TỐC ĐỘ TÌM KIẾM
Chuyên ngành: Khoa học máy tính
Mã số: 60. 48. 01. 01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
NGƢỜI HƢỚNG DẪN KHOA HỌC:
TS. Hoàng Đỗ Thanh Tùng
Thái nguyên, 2015
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
i
LỜI CAM ĐOAN
Tôi xin cam đoan: Luận văn này là công trình nghiên cứu thực sự của
cá nhân, đƣợc thực hiện dƣới sự hƣớng dẫn khoa học của Tiến sĩ Hoàng Đỗ
Thanh Tùng.
Các số liệu, những kết luận nghiên cứu đƣợc trình bày trong luận văn
này trung thực và chƣa từng đƣợc công bố dƣới bất cứ hình thức nào.
Tôi xin chịu trách nhiệm về nghiên cứu của mình.
Học viên
Hà Thị Thanh Hồng
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
ii
LỜI CẢM ƠN
Đầu tiên tôi xin gửi lời cảm ơn sâu sắc nhất tới TS.Hoàng Đỗ Thanh
Tùng. Thầy đã hƣớng dẫn khoa học, đã tận tình chỉ bảo, giúp đỡ tôi thực hiện
luận văn.
Tôi xin cảm ơn các thầy cô Trƣờng Đại học Công nghệ Thông tin và
Truyền thông - Đại học Thái Nguyên đã giảng dạy và truyền kiến thức cho
tôi.
Tôi xin chân thành cảm ơn Ban giám hiệu trƣờng Cao đẳng Công
nghiệp Thực Phẩm và các đồng nghiệp trong khoa công nghệ thông tin đã tạo
mọi điều kiện giúp đỡ tôi hoàn thành nhiệm vụ học tập.
Cuối cùng, tôi xin cảm ơn những ngƣời thân và các bạn bè chia sẻ, gúp
đỡ tôi hoàn thành luận văn này.
Mặc dù đã hết sức cố gắng hoàn thành luận văn với tất cả sự nỗ lực của
bản thân, nhƣng luận văn vẫn còn những thiếu sót. Kính mong nhận đƣợc
những ý kiến đóng góp của quý Thầy, Cô và bạn bè đồng nghiệp.
Tôi xin chân thành cảm ơn!
Việt Trì, ngày 10 tháng 6 năm 2015
Hà Thị Thanh Hồng
iii
MỤC LỤC
LỜI CẢM ƠN…………………………………………………………….….i
LỜI CAM ĐOAN …………………………………………………….……..ii
MỤC LỤC ........................................................................................................iii
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT .................................. v
DANH MỤC BẢNG BIỂU ............................................................................. vi
DANH MỤC HÌNH VẼ .................................................................................. vii
MỞ ĐẦU ....................................................................................................................1
CHƢƠNG 1: GIỚI THIỆU TIN SINH HỌC VÀ CƠ SỞ DỮ LIỆU GEN ..............4
1.1 Giới thiệu tin sinh học ............................................................................. 4
1.1.1 Định nghĩa ......................................................................................... 4
1.1.2 Sự phát triển tin sinh học ở Việt Nam ............................................... 5
1.2 Sinh học phân tử ...................................................................................... 8
1.2.1 Axit nucleic và nucleotide ................................................................. 9
1.2.2 Protein và axit amin......................................................................... 10
1.2.3 GEN là gì? ....................................................................................... 11
1.2.4 Nhiễm sắc thể và hệ GEN ............................................................... 14
1.3 Cơ sở dữ liệu GEN................................................................................. 15
1.3.1 Cơ sở dữ liệu NCBI ......................................................................... 16
1.3.2 Cơ sở dữ liệu EMBL/EBI................................................................ 19
1.3.3 Cơ sở dữ liệu DDBJ ........................................................................ 19
1.4 Định dạng dữ liệu sinh học .................................................................... 20
1.4.1 Định dạng dữ liệu sinh học theo chuẩn FASTA ............................. 20
1.4.2 Định dạng dữ liệu sinh học theo dạng ALN/ClustalW ................... 22
1.4.3 GENBank ........................................................................................ 22
iv
1.5 Kết luận chƣơng 1 .............................................................................. 23
CHƢƠNG 2: PHƢƠNG PHÁP ĐÁNH CHỈ SỐ GEN ĐỂ TĂNG TỐC ĐỘ TÌM
KIẾM ........................................................................................................................25
2.1. Giới thiệu .............................................................................................. 25
2.2 Cấu trúc dữ liệu hệ GEN và sự cần thiết của chỉ số .............................. 27
2.2.1 Cấu trúc dữ liệu hệ GEN ................................................................. 27
2.2.2 Sự cần thiết và lợi thế của đánh chỉ số cho tìm kiếm tƣơng đồng
GEN .......................................................................................................... 29
2.3. Phƣơng pháp đánh chỉ số cho CSDL GEN .......................................... 30
2.4 Phƣơng pháp đánh chỉ số dựa trên sự biến đổi cấu trúc chỉ số ............. 31
2.5 Phƣơng pháp đánh chỉ số dựa vào kích thƣớc (Length based index
algorithms) ................................................................................................... 31
2.5.1 Thuật toán đánh chỉ số dựa trên kích thƣớc cố định ....................... 32
2.5.2 Thuật toán đánh chỉ số dựa trên kích thƣớc biến đổi ...................... 35
2.6 Thuật toán Blast ..................................................................................... 40
2.6.1 Giới thiệu ......................................................................................... 40
2.6.2. Thuật toán ....................................................................................... 41
2.7. Kết luận chƣơng 2 ................................................................................. 45
CHƢƠNG 3: CÀI ĐẶT THỬ NGHIỆM PHƢƠNG PHÁP ĐÁNH CHỈ SỐ
CHO CƠ SỞ DỮ LIỆU GEN ĐỂ TĂNG TỐC ĐỘ TÌM KIẾM ........................46
3.1 Bài toán .................................................................................................. 46
3.2. Xây dựng chƣơng trình thử nghiệm .................................................... 47
3.2.1. Chuẩn bị dữ liệu ............................................................................. 47
3.2.2. Lựa chọn giải pháp ......................................................................... 49
Thuật toán ................................................................................................. 49
3.2.3. Thiết kế hệ thống ............................................................................ 50
3.3. Kết luận chƣơng 3 ................................................................................. 57
v
KẾT LUẬN VÀ KIẾN NGHỊ ................................................................................59
DANH MỤC TÀI LIỆU THAM KHẢO ...............................................................61
vi
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Viết đầy đủ
Từ viết tắt
CSDL
Cơ sở dữ liệu
GEN
Genome
DNA
Axit Deoxyribo Nucleic
ARN
Axit Ribo Nuclêic
NCBI
National Center for BioInformatic Information
dbEST
data base of Expressed Sequence Tags
MGC
Mamalian GEN Collection
EBI
European Biotechnology Information
BLAST
Basic Local Alignment Search Tool
EMBL
European Molecular Biology Laboratory
OMIM
Online Mendelian Inheritance in Man
EPO
European Patent Office
ISDC
ASD
International Sequence Database Collaboration
Minimum Information About a Microarray
Experiment
Alternative Splicing Database
ATD
Alternate Transcript Diversity
IPD
Immuno Polymorphism Database IPD
Center for Information Biology
MIAME
CIB – DDBJ
and DNA Data Bank of Japan
vii
DANH MỤC BẢNG BIỂU
Bảng 1.1. Nhiệm vụ của một số Bộ, ngành về bảo tồn quỹ GEN quốc gia ..7
Bảng 1.2. Kết quả bảo tồn, lƣu giữ nguồn GEN sinh vật .............................8
Bảng 1.3. Tên đầy đủ, tên viết tắt của năm loại nucleotide. ........................9
Bảng 2.1. Minh họa tƣ tƣởng chính của thuật toán BLAST ......................41
viii
DANH MỤC HÌNH VẼ
Hình 1.1. Cấu trúc xoắn kép của một trình tự DNA ...................................10
Hình 1.2. Minh họa cấu trúc của một axít amin..........................................11
Hình 1.3. Minh họa một đoạn GEN trong cấu trúc DNA ...........................12
Hình 1.4. Quá trình tổng hợp Protein từ đoạn DNA ...................................13
Hình 1.5. Định dạng chuẩn FASTA dùng để lƣu giữ thông tin trình tự DNA
.....................................................................................................................21
Hình 1.6. Định dạng FASTA lƣu giữ nhiều trình tự DNA (Protein) ..........23
Hình 2.1. Cơ chế ánh xạ trình tự .................................................................28
Hình 2.2. Sơ đồ thuật toán BLAST .............................................................44
Hình 3.1. Kết quả tìm kiếm hệ GEN ngƣời trên NCBI ..............................47
Hình 3.2. Cơ sở dữ liệu của NCBI ..............................................................48
Hình 3.3. Cơ sở dữ liệu mô phỏng .............................................................49
Hình 3.4. Giao diện chính ...........................................................................52
Hình 3.5. Thông báo lỗi từ hệ thống BLAST khi không tìm thầy dữ liệu về
trình tự truy vấn. ..........................................................................................53
Hình 3.6. Giao diện nhập dữ liệu ...............................................................54
Hình 3.7. Kết quả chạy thuật toán BLAST .................................................55
1
MỞ ĐẦU
I. LÝ DO CHỌN ĐỀ TÀI
Trong vài thập niên gần đây, cùng với sự thay đổi và phát triển không
ngừng của ngành công nghệ thông tin với các hệ thống thông tin phục vụ
trong các lĩnh vực kinh tế, xã hội, y học, giáo dục …, nhu cầu thu thập, lƣu
trữ và xử lý thông tin càng ngày càng lớn. Bên cạnh đó việc tin học hoá một
cách ồ ạt và nhanh chóng các hoạt động sản xuất, kinh doanh cũng nhƣ nhiều
lĩnh vực hoạt động khác đã tạo ra cho chúng ta một lƣợng dữ liệu lƣu trữ
khổng lồ.
Nhƣ ta đã biết, cơ sở dữ liệu GEN bao gồm một tập hợp các chuỗi lớn
GEN có trình tự và độ dài khác nhau đƣợc bổ sung liên tục. Cơ sở dữ liệu
khổng lồ này có thể đƣợc lƣu trữ trên bộ nhớ của máy tính. Để tìm sự khác
biệt giữa một GEN này với một GEN khác trong chuỗi GEN với cấu trúc
hoàn chỉnh trong bộ nhớ của máy tính đòi hỏi số lƣợng lớn các thao tác xử lý
vào ra (truy cập) ổ đĩa của máy tính. Nhƣng với số lƣợng các chuỗi GEN nhƣ
trên, việc xử lý thông thƣờng trên máy tính là khó thực hiện do độ phức tạp cả
không gian lẫn thời gian truy cập. Có thể trả lời câu hỏi trên bằng cách tìm ra
một phƣơng pháp tìm kiếm dữ liệu có hiệu quả trình tự các GEN. [2]
Thuật toán tìm kiếm dựa trên chỉ số là một phần quan trọng của tìm
kiếm GEN. Làm thế nào để xây dựng chỉ số để tính điểm tƣơng đồng giữa hai
chuỗi GEN? Một số phƣơng pháp xây dựng chỉ số cho tìm kiếm tƣơng đồng
GEN nhƣ: phƣơng pháp xây dựng dựa trên kích thƣớc, phƣơng pháp xây
dựng dựa vào biến đổi. Trong luận văn này tập trung nghiên cứu các phƣơng
pháp xây dựng chỉ số dựa trên kích thƣớc đặc biệt là thuật toán Blast. Các
phƣơng pháp đƣợc đề cập trong luận văn tìm thấy rất nhanh sự giống nhau
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
2
giữa hai chuỗi trong một cơ sở dữ liệu chuỗi GEN. Vì vậy tôi đã chọn đề tài
“Phương pháp đánh chỉ số cho cơ sở dữ liệu GEN để tăng tốc độ tìm kiếm”
làm đề tài cho luận văn tốt nghiệp của mình.
II. MỤC TIÊU, ĐỐI TƢỢNG, PHẠM VI NGHIÊN CỨU
Trong khuôn khổ của luận văn tôi sẽ thực hiện và giải quyết những vấn
đề sau:
- Nghiên cứu tin sinh học, cấu trúc dữ liệu GEN.
- Nghiên cứu phƣơng pháp đánh chỉ số và một số thuật toán xây dựng
chỉ số.
- Đánh giá và thử nghiệm phƣơng pháp Blast trên cơ sở dữ liệu GEN.
III. Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN CỦA ĐỀ TÀI
Trong luận văn khảo sát các phƣơng pháp đánh chỉ số đã đƣợc nghiên
cứu cho cơ sở dữ liệu GEN đặc biệt là phƣơng pháp Blast để tìm các cặp đoạn
có độ giống nhau giữa một đoạn GEN đầu vào với đoạn GEN có trong cơ sở
dữ liệu để từ đó tăng tốc độ tìm kiếm [5]. Ngoài ra còn có một số ứng dụng cơ
bản và quan trọng trong tin sinh học:
- Quản lý dữ liệu: xây dựng hệ thống quản lý và khai thác một cách có
hiệu quả lƣợng dữ liệu sinh học khổng lồ. Dữ liệu sinh học bao gồm nhiều
loại khác nhau, trong đó chủ yếu là các trình tự nucleotide, và các trình tự axit
amin.
- Phân tích mối quan hệ giữa các trình tự: Phát triển các mô hình các
phƣơng pháp và các công cụ tính toán để phân tích mối quan hệ giữa các trình
tự sinh học là lớp bài toán cốt lõi trong tin sinh học.
3
- Dự đoán cấu trúc bậc cao của các trình tự: Ngày nay, các máy giải
trình tự thế hệ mới có thể giải trình tự hệ GEN ngƣời trong vòng một ngày với
chi phí khoảng 50 nghìn Đô la Mỹ. Tuy nhiên, việc xác định đƣợc cấu trúc
bậc cao của các trình tự (phổ biến là các trình tự Protein) vẫn là một bài toán
khó cả về mặt thời gian và chi phí. Các nghiên cứu tin sinh học giúp phát triển
các mô hình, phƣơng pháp và công cụ tính toán để dự đoán cấu trúc bậc cao
của các trình tự dựa vào phân tích nội dung và mối quan hệ của chúng với
trình tự khác. Các phƣơng pháp dự đoán sẽ giảm thiểu một lƣợng lớn thời
gian và chi phí cho việc xác định cấu trúc bậc cao của các trình tự.
IV. PHƢƠNG PHÁP NGHIÊN CỨU
- Nghiên cứu các tài liệu liên quan đến tin sinh học, cơ sở dữ liệu GEN,
phƣơng pháp đánh chỉ số
- Tìm kiếm, thu thập và chia nhóm dữ liệu.
- Phƣơng pháp thực nghiệm và đối chứng qua chƣơng trình thử nghiệm.
4
CHƢƠNG 1: GIỚI THIỆU TIN SINH HỌC VÀ CƠ SỞ DỮ LIỆU GEN
1.1 Giới thiệu tin sinh học
1.1.1 Định nghĩa
Tin sinh học (BioInformatics) là một lĩnh vực khoa học sử dụng các
công nghệ của các ngành toán học ứng dụng, tin học, thống kê, khoa học máy
tính, sinh học, hóa học, vật lý… và toán sinh học. Tin sinh học thƣờng gắn
liền với sinh học tính toán (Computational biology) hoặc sinh học hệ thống
(System biology). Thuật ngữ tin sinh học là một phần của sinh học tính toán.
Sự kết hợp giữa các nghành khoa học nói trên có sự đan xen với nhau và
tƣơng hỗ lẫn nhau vì vậy, thành quả nghiên cứu mang lại của ngành học này
không chỉ đóng góp cho sinh học mà còn đóng góp cho các ngành khoa học
khác [1]. Một số bài toán và ứng dụng cơ bản và quan trọng trong tin sinh
học gồm:
Quản lý dữ liệu: Một trong các bài toán quan trọng đầu tiên của tin sinh
học là xây dựng các hệ thống dữ liệu để quản lý và khai thác một cách hiệu
quả lƣợng dữ liệu sinh học khổng lồ. Dữ liệu sinh học bao gồm nhiều loại
khác nhau, trong đó chủ yếu là các trình tự nucleotide, và các trình tự axít
amin. Lƣợng dữ liệu sinh học có thể lên đến hàng triệu megabyte và đƣợc cập
nhật liên tục theo thời gian. Vì vậy, vấn đề lƣu trữ và quản lý dữ liệu này là
bài toán đƣợc quan tâm đầu tiên.
- Phân tích mối quan hệ giữa các trình tự;
- Nghiên cứu tiến hóa;
- Dự đoán cấu trúc bậc cao của các trình tự;
- Kiểm soát dịch bệnh;
- Phát triển thuốc và chẩn đoán bệnh;
5
- Phát triển các giống cây trồng, vật nuôi.
1.1.2 Sự phát triển tin sinh học ở Việt Nam
Tin sinh học là một lĩnh vực mới nhƣng không xa lạ. Những năm qua ở
Việt Nam cũng đã có một số nghiên cứu trong lĩnh vực phân tích GEN, xác
định trình tự DNA của một số loài quan trọng để đánh giá về mặt di truyền,
hay những biến dị hoặc từ đó xác định hệ số di truyền tìm ra các họ hàng thân
thích, hoặc để đánh giá mức độ biến đổi tính di truyền, hoặc nghiên cứu về đa
dạng sinh học, xây dựng ngân hàng GEN (GEN bank). Theo hƣớng đó, những
năm gần đây trên bƣớc đƣờng nghiên cứu về tài nguyên sinh vật và đa dạng
sinh học tại các tỉnh vùng Bắc Trung Bộ, Khoa Sinh trƣờng Đại học Vinh đã
tiến hành nhân bản GEN (polimerase chain reaction-PCR), giải trình tự ADN
(DNA sequencing) ở một số loài vi khuẩn lam, loại vi khuẩn có giá trị lớn
trong cố định nitơ không khí, có khả năng tổng hợp hữu cơ mạnh làm giàu
dinh dƣỡng cho đất, và có các hợp chất có hoạt tính sinh học cao có tác dụng
đến sinh trƣởng, phát triển, tăng năng suất cây trồng, hoặc bằng nhân bản
GEN và kỹ thuật phân tích tính đa hình của DNA đƣợc khuếch đại ngẫu nhiên
(random amplified polimorphism DNA, RAPD) đối với các cây ăn quả có giá
trị nhƣ cam Xã Đoài, bƣởi Phúc Trạch để từ đó đánh giá mức độ biến đổi di
truyền của chúng liên quan đến chất lƣợng quả, hoặc phân tích trình tự axit
amin trên một số giống rắn thƣờng sử dụng làm thuốc để từ cấu trúc của
protein tìm hiểu về chức năng và vai trò sinh học của nó, hay phân tích trình
tự DNA của một số loài cá mới phát hiện đƣợc tại Nghệ An... Hiện nay kỹ
thuật RAPD đƣợc xem là kỹ thuật phân loại phân tử và đang đƣợc sử dụng để
xác định tính đa dạng sinh học và quan hệ họ hàng của các động vật, thực vật
khác nhau trong loài. Chẳng hạn gần đây Henry Nguyễn (đại học Texas-Mỹ)
nhờ sử dụng 43 cặp mồi (primer) ngẫu nhiên, đã phát hiện đƣợc sự khác biệt
6
di truyền của 13 giống lúa có nguồn gốc khác nhau ở châu Á, châu Âu và
trung Á. Cho nên, việc áp dụng tin sinh học trong nghiên cứu khả dĩ góp phần
tích cực vào việc điều tra tài nguyên sinh vật, tìm kiếm những GEN quý hiếm,
nghiên cứu đa dạng sinh học ở mức độ phân tử và chống xói mòn di truyền...
mà lâu nay chƣa có điều kiện để khám phá. [1]
Trong một vài năm gần đây các viện nghiên cứu, các trƣờng đại học
mới xây dựng chƣơng trình và đào tạo những khóa học đầu tiên trong lĩnh vực
này. Hiện nay, đội ngũ cán bộ nghiên cứu về tin sinh học tập trung chủ yếu ở
các viện nghiên cứu và các trƣờng đại học có các chuyên ngành đào tạo về
công nghệ sinh học, nông lâm học… chủ yếu đƣợc đào tạo từ nƣớc ngoài. Các
hƣớng nghiên cứu chính của các nhóm hiện nay là:
- Các nghiên cứu trong lĩnh vực phân tích GEN, xác định trình tự DNA
của một số loài để đánh giá về mặt di truyền (xác định họ hàng thân thích,
đánh giá mức độ biến đổi tính di truyền)
- Khai thác dữ liệu sinh học, xây dựng ngân hàng GEN
- Các nghiên cứu về đa dạng sinh học, phân tích mối quan hệ tiến hóa
trình tự, ứng dụng trong di truyền, chọn giống (nhân bản phát triển và lƣu trữ
những gien quý hiếm, giải trình tự GEN ở một số loài, làm tăng năng suất cây
trồng…)
- Phát triển phần mềm phân tích dữ liệu trình tự sinh học
- Xây dựng cơ sở dữ liệu thông tin protein.
Ngoài các viện nghiên cứu, các trƣờng đại học, tại nƣớc ta, nguồn GEN
hiện đang đƣợc lƣu trữ, bảo quản tại một số tổ chức thuộc các bộ chủ quản
nhƣ Bộ Nông nghiệp và Phát triển Nông thôn, Bộ Y tế, Bộ Công thƣơng
[4]…. Dƣới đây là một số kết quả nghiên cứu và nguồn GEN hiện có ở nƣớc
ta.
7
Bảng 1.1. Nhiệm vụ của một số Bộ, ngành về bảo tồn quỹ GEN quốc gia
TT
Bộ/Ngành
Nhiệm vụ
- Bảo tồn nguồn GEN thực vật phục vụ cho mục tiêu
lƣơng thực và NN
Bộ Nông
1
nghiệp và
Phát triển
Nông thôn
- Bảo tồn nguồn GEN vật nuôi
- Bảo tồn nguồn GEN VSV đất, phân, bảo vệ thực vật và
VSV thú y
- Bảo tồn nguồn GEN cây rừng, cây chống chịu, cây cao
su, GEN ong, GEN và giống thủy sản
2
3
4
5
Bộ Y tế
- Bảo tồn nguồn GEN và giống cây thuốc
- Bảo tồn nguồn GEN VSV y học
Bộ Công
- Bảo tồn nguồn GEN VSV công nghiệp thực phẩm
Thƣơng
- Bảo tồn bộ sƣu tập nguồn GEN cây công nghiệp
Bộ GD& ĐT
- Bảo tồn một số nguồn GEN cây trồng nông nghiệp
- Bảo tồn bộ sƣu tập nguồn GEN VSV chung
Bộ Quốc
- Bảo tồn lƣu giữ nguồn GEN dƣợc liệu, con thuốc phục
phòng
vụ quốc phòng
8
Bảng 1.2. Kết quả bảo tồn, lưu giữ nguồn GEN sinh vật
TT Nguồn GEN
Bảo tồn, lƣu giữ tại Bảo tồn, lƣu giữ chuyển
chỗ
1
Cây
trồng
nông 30 nhiệm vụ
chỗ
28.028 nguồn GEN
nghiệp
2
Cây lâm nghiệp
164 vƣờn
Xấp xỉ 2000 giống
3
Cây thuốc
Xấp xỉ 100 loài
2998 loài
4
Vật nuôi
Xấp xỉ 30 giống
18 giống
5
Thủy sản
3 khu bảo tồn
2999
6
Vi sinh vật
21270 chủng
1.2 Sinh học phân tử
Sinh học phân tử (molecular biology) là một nhánh của sinh học
(biology), tập trung nghiên cứu các sinh vật ở mức độ phân tử. Cụ thể là, sinh
học phân tử tập trung giải trình tự (sequencing) và phân tích các trình tự
nucleotide (trình tự DNA), các trình tự axít amin (trình tự Protein), cũng nhƣ
các loại dữ liệu sinh học phân tử khác để hiểu đƣợc cấu trúc, chức năng, đặc
điểm, quá trình tiến hóa, cũng nhƣ mối quan hệ và tƣơng tác giữa các loài
sinh vật. Sự phát triển mạnh mẽ của công nghệ giải trình tự DNA, cũng nhƣ
các phƣơng pháp tính toán hiện đại đã giúp sinh học phân tử phát triển mạnh
mẽ cả về cơ sở lý thuyết cũng nhƣ các ứng dụng thực tế.[1]
9
1.2.1 Axit nucleic và nucleotide
Axít nuclêic (nucleic acid) là một đại phân tử sinh học (large biological
molecule) mang thông tin di truyền mã hóa các chức năng, và đặc điểm của
mọi sinh vật sống. Axít nuclêic gồm hai loại: DNA (Axít Deoxyribo Nuclêic)
và ARN (Axít Ribo Nuclêic).
Thành phần cơ bản cấu tạo một trình tự axít nuclêic là các phân tử hóa
học nuclêotít (nucleotide). Trình tự DNA chứa bốn loại nucleotide khác
nhau là: Adenine, Cytosine, Guanine, và Thymine. Trình tự ARN có thành
phần tƣơng tự nhƣ trình tự DNA, ngoại trừ nucleotide Thymine đƣợc thay
thế bởi nucleotide Uracil. Tức là, ARN chứa 4 loại nucleotide: Adenine,
Cytosine, Guanine, và Uracil. Tên đầy đủ, tên viết tắt của năm loại nucleotide
đƣợc mô tả ở Bảng 1.1.
Bảng 1.3. Tên đầy đủ, tên viết tắt của năm loại nucleotide.
Tên đầy đủ
Tên viết tắt
Adenine
A
Cytosine
C
Guanine
G
Thymine
T
Uracil
U
10
Hình 1.1. Cấu trúc xoắn kép của một trình tự DNA
Các nucleotide trên trình tự DNA liên kết với nhau để tạo thành một
trình tự có cấu trúc xoắn kép nhƣ Hình 1 Cấu trúc xoắn kép của trình tự DNA
gồm 2 sợi liên kết với nhau: sợi thứ nhất có chiều từ 5‟ đến 3‟; sợi thứ hai có
chiều ngƣợc lại từ 3‟ đến 5‟. Các nucleotide ở sợi thứ nhất sẽ liên kết với các
nucleotide ở sợi thứ hai (và ngƣợc lại) theo nguyên tắc:
- Nucleotide A luôn liên kết với nucleotide T
- Nucleotide G luôn liên kết với nucleotide C
Do vậy, thông tin về một trình tự DNA đƣợc biểu diễn bằng một trình
tự các nucleotide nằm trên một sợi (các nucleotide nằm trên sợi còn lại có thể
suy luận dựa theo quy tắc trên). Để đơn giản, một trình tự DNA sẽ đƣợc biểu
diễn bởi một xâu kí tự chứa 4 loại kí tự: A, C, G, và T
(tên viết tắt của 4 loại
nucleotide).
Ví dụ: “CAGTTGACGGCGAACCGTGCGAGCAGACGGTCGTT” là
một trình tự DNA. Với cách biểu diễn này, thông tin về các trình tự DNA có
thể đƣợc lƣu giữ, tìm kiếm, và trao đổi một cách hiệu quả.
1.2.2 Protein và axit amin
Protein/ trình tự Protein (protein) là loại dữ liệu phổ biến và quan trọng
trong sinh học phân tử. Nó quyết định đến chức năng, quá trình phát triển,
cũng nhƣ các bệnh tật của các sinh vật sống. Protein đƣợc cấu tạo bởi một
- Xem thêm -