Tài liệu Phương pháp đánh chỉ số cho csdl gen để tăng tốc độ tìm kiếm

.PDF

413

tailieuonline Báo vi phạm

Tải xuống 68

Mô tả:

ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG HÀ THỊ THANH HỒNG PHƢƠNG PHÁP ĐÁNH CHỈ SỐ CHO CSDL GEN ĐỂ TĂNG TỐC ĐỘ TÌM KIẾM LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái nguyên, 2015 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Hà Thị Thanh Hồng PHƢƠNG PHÁP ĐÁNH CHỈ SỐ CHO CSDL GEN ĐỂ TĂNG TỐC ĐỘ TÌM KIẾM Chuyên ngành: Khoa học máy tính Mã số: 60. 48. 01. 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƢỜI HƢỚNG DẪN KHOA HỌC: TS. Hoàng Đỗ Thanh Tùng Thái nguyên, 2015 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn i LỜI CAM ĐOAN Tôi xin cam đoan: Luận văn này là công trình nghiên cứu thực sự của cá nhân, đƣợc thực hiện dƣới sự hƣớng dẫn khoa học của Tiến sĩ Hoàng Đỗ Thanh Tùng. Các số liệu, những kết luận nghiên cứu đƣợc trình bày trong luận văn này trung thực và chƣa từng đƣợc công bố dƣới bất cứ hình thức nào. Tôi xin chịu trách nhiệm về nghiên cứu của mình. Học viên Hà Thị Thanh Hồng Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ii LỜI CẢM ƠN Đầu tiên tôi xin gửi lời cảm ơn sâu sắc nhất tới TS.Hoàng Đỗ Thanh Tùng. Thầy đã hƣớng dẫn khoa học, đã tận tình chỉ bảo, giúp đỡ tôi thực hiện luận văn. Tôi xin cảm ơn các thầy cô Trƣờng Đại học Công nghệ Thông tin và Truyền thông - Đại học Thái Nguyên đã giảng dạy và truyền kiến thức cho tôi. Tôi xin chân thành cảm ơn Ban giám hiệu trƣờng Cao đẳng Công nghiệp Thực Phẩm và các đồng nghiệp trong khoa công nghệ thông tin đã tạo mọi điều kiện giúp đỡ tôi hoàn thành nhiệm vụ học tập. Cuối cùng, tôi xin cảm ơn những ngƣời thân và các bạn bè chia sẻ, gúp đỡ tôi hoàn thành luận văn này. Mặc dù đã hết sức cố gắng hoàn thành luận văn với tất cả sự nỗ lực của bản thân, nhƣng luận văn vẫn còn những thiếu sót. Kính mong nhận đƣợc những ý kiến đóng góp của quý Thầy, Cô và bạn bè đồng nghiệp. Tôi xin chân thành cảm ơn! Việt Trì, ngày 10 tháng 6 năm 2015 Hà Thị Thanh Hồng iii MỤC LỤC LỜI CẢM ƠN…………………………………………………………….….i LỜI CAM ĐOAN …………………………………………………….……..ii MỤC LỤC ........................................................................................................iii DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT .................................. v DANH MỤC BẢNG BIỂU ............................................................................. vi DANH MỤC HÌNH VẼ .................................................................................. vii MỞ ĐẦU ....................................................................................................................1 CHƢƠNG 1: GIỚI THIỆU TIN SINH HỌC VÀ CƠ SỞ DỮ LIỆU GEN ..............4 1.1 Giới thiệu tin sinh học ............................................................................. 4 1.1.1 Định nghĩa ......................................................................................... 4 1.1.2 Sự phát triển tin sinh học ở Việt Nam ............................................... 5 1.2 Sinh học phân tử ...................................................................................... 8 1.2.1 Axit nucleic và nucleotide ................................................................. 9 1.2.2 Protein và axit amin......................................................................... 10 1.2.3 GEN là gì? ....................................................................................... 11 1.2.4 Nhiễm sắc thể và hệ GEN ............................................................... 14 1.3 Cơ sở dữ liệu GEN................................................................................. 15 1.3.1 Cơ sở dữ liệu NCBI ......................................................................... 16 1.3.2 Cơ sở dữ liệu EMBL/EBI................................................................ 19 1.3.3 Cơ sở dữ liệu DDBJ ........................................................................ 19 1.4 Định dạng dữ liệu sinh học .................................................................... 20 1.4.1 Định dạng dữ liệu sinh học theo chuẩn FASTA ............................. 20 1.4.2 Định dạng dữ liệu sinh học theo dạng ALN/ClustalW ................... 22 1.4.3 GENBank ........................................................................................ 22 iv 1.5 Kết luận chƣơng 1 .............................................................................. 23 CHƢƠNG 2: PHƢƠNG PHÁP ĐÁNH CHỈ SỐ GEN ĐỂ TĂNG TỐC ĐỘ TÌM KIẾM ........................................................................................................................25 2.1. Giới thiệu .............................................................................................. 25 2.2 Cấu trúc dữ liệu hệ GEN và sự cần thiết của chỉ số .............................. 27 2.2.1 Cấu trúc dữ liệu hệ GEN ................................................................. 27 2.2.2 Sự cần thiết và lợi thế của đánh chỉ số cho tìm kiếm tƣơng đồng GEN .......................................................................................................... 29 2.3. Phƣơng pháp đánh chỉ số cho CSDL GEN .......................................... 30 2.4 Phƣơng pháp đánh chỉ số dựa trên sự biến đổi cấu trúc chỉ số ............. 31 2.5 Phƣơng pháp đánh chỉ số dựa vào kích thƣớc (Length based index algorithms) ................................................................................................... 31 2.5.1 Thuật toán đánh chỉ số dựa trên kích thƣớc cố định ....................... 32 2.5.2 Thuật toán đánh chỉ số dựa trên kích thƣớc biến đổi ...................... 35 2.6 Thuật toán Blast ..................................................................................... 40 2.6.1 Giới thiệu ......................................................................................... 40 2.6.2. Thuật toán ....................................................................................... 41 2.7. Kết luận chƣơng 2 ................................................................................. 45 CHƢƠNG 3: CÀI ĐẶT THỬ NGHIỆM PHƢƠNG PHÁP ĐÁNH CHỈ SỐ CHO CƠ SỞ DỮ LIỆU GEN ĐỂ TĂNG TỐC ĐỘ TÌM KIẾM ........................46 3.1 Bài toán .................................................................................................. 46 3.2. Xây dựng chƣơng trình thử nghiệm .................................................... 47 3.2.1. Chuẩn bị dữ liệu ............................................................................. 47 3.2.2. Lựa chọn giải pháp ......................................................................... 49 Thuật toán ................................................................................................. 49 3.2.3. Thiết kế hệ thống ............................................................................ 50 3.3. Kết luận chƣơng 3 ................................................................................. 57 v KẾT LUẬN VÀ KIẾN NGHỊ ................................................................................59 DANH MỤC TÀI LIỆU THAM KHẢO ...............................................................61 vi DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Viết đầy đủ Từ viết tắt CSDL Cơ sở dữ liệu GEN Genome DNA Axit Deoxyribo Nucleic ARN Axit Ribo Nuclêic NCBI National Center for BioInformatic Information dbEST data base of Expressed Sequence Tags MGC Mamalian GEN Collection EBI European Biotechnology Information BLAST Basic Local Alignment Search Tool EMBL European Molecular Biology Laboratory OMIM Online Mendelian Inheritance in Man EPO European Patent Office ISDC ASD International Sequence Database Collaboration Minimum Information About a Microarray Experiment Alternative Splicing Database ATD Alternate Transcript Diversity IPD Immuno Polymorphism Database IPD Center for Information Biology MIAME CIB – DDBJ and DNA Data Bank of Japan vii DANH MỤC BẢNG BIỂU Bảng 1.1. Nhiệm vụ của một số Bộ, ngành về bảo tồn quỹ GEN quốc gia ..7 Bảng 1.2. Kết quả bảo tồn, lƣu giữ nguồn GEN sinh vật .............................8 Bảng 1.3. Tên đầy đủ, tên viết tắt của năm loại nucleotide. ........................9 Bảng 2.1. Minh họa tƣ tƣởng chính của thuật toán BLAST ......................41 viii DANH MỤC HÌNH VẼ Hình 1.1. Cấu trúc xoắn kép của một trình tự DNA ...................................10 Hình 1.2. Minh họa cấu trúc của một axít amin..........................................11 Hình 1.3. Minh họa một đoạn GEN trong cấu trúc DNA ...........................12 Hình 1.4. Quá trình tổng hợp Protein từ đoạn DNA ...................................13 Hình 1.5. Định dạng chuẩn FASTA dùng để lƣu giữ thông tin trình tự DNA .....................................................................................................................21 Hình 1.6. Định dạng FASTA lƣu giữ nhiều trình tự DNA (Protein) ..........23 Hình 2.1. Cơ chế ánh xạ trình tự .................................................................28 Hình 2.2. Sơ đồ thuật toán BLAST .............................................................44 Hình 3.1. Kết quả tìm kiếm hệ GEN ngƣời trên NCBI ..............................47 Hình 3.2. Cơ sở dữ liệu của NCBI ..............................................................48 Hình 3.3. Cơ sở dữ liệu mô phỏng .............................................................49 Hình 3.4. Giao diện chính ...........................................................................52 Hình 3.5. Thông báo lỗi từ hệ thống BLAST khi không tìm thầy dữ liệu về trình tự truy vấn. ..........................................................................................53 Hình 3.6. Giao diện nhập dữ liệu ...............................................................54 Hình 3.7. Kết quả chạy thuật toán BLAST .................................................55 1 MỞ ĐẦU I. LÝ DO CHỌN ĐỀ TÀI Trong vài thập niên gần đây, cùng với sự thay đổi và phát triển không ngừng của ngành công nghệ thông tin với các hệ thống thông tin phục vụ trong các lĩnh vực kinh tế, xã hội, y học, giáo dục …, nhu cầu thu thập, lƣu trữ và xử lý thông tin càng ngày càng lớn. Bên cạnh đó việc tin học hoá một cách ồ ạt và nhanh chóng các hoạt động sản xuất, kinh doanh cũng nhƣ nhiều lĩnh vực hoạt động khác đã tạo ra cho chúng ta một lƣợng dữ liệu lƣu trữ khổng lồ. Nhƣ ta đã biết, cơ sở dữ liệu GEN bao gồm một tập hợp các chuỗi lớn GEN có trình tự và độ dài khác nhau đƣợc bổ sung liên tục. Cơ sở dữ liệu khổng lồ này có thể đƣợc lƣu trữ trên bộ nhớ của máy tính. Để tìm sự khác biệt giữa một GEN này với một GEN khác trong chuỗi GEN với cấu trúc hoàn chỉnh trong bộ nhớ của máy tính đòi hỏi số lƣợng lớn các thao tác xử lý vào ra (truy cập) ổ đĩa của máy tính. Nhƣng với số lƣợng các chuỗi GEN nhƣ trên, việc xử lý thông thƣờng trên máy tính là khó thực hiện do độ phức tạp cả không gian lẫn thời gian truy cập. Có thể trả lời câu hỏi trên bằng cách tìm ra một phƣơng pháp tìm kiếm dữ liệu có hiệu quả trình tự các GEN. [2] Thuật toán tìm kiếm dựa trên chỉ số là một phần quan trọng của tìm kiếm GEN. Làm thế nào để xây dựng chỉ số để tính điểm tƣơng đồng giữa hai chuỗi GEN? Một số phƣơng pháp xây dựng chỉ số cho tìm kiếm tƣơng đồng GEN nhƣ: phƣơng pháp xây dựng dựa trên kích thƣớc, phƣơng pháp xây dựng dựa vào biến đổi. Trong luận văn này tập trung nghiên cứu các phƣơng pháp xây dựng chỉ số dựa trên kích thƣớc đặc biệt là thuật toán Blast. Các phƣơng pháp đƣợc đề cập trong luận văn tìm thấy rất nhanh sự giống nhau Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 2 giữa hai chuỗi trong một cơ sở dữ liệu chuỗi GEN. Vì vậy tôi đã chọn đề tài “Phương pháp đánh chỉ số cho cơ sở dữ liệu GEN để tăng tốc độ tìm kiếm” làm đề tài cho luận văn tốt nghiệp của mình. II. MỤC TIÊU, ĐỐI TƢỢNG, PHẠM VI NGHIÊN CỨU Trong khuôn khổ của luận văn tôi sẽ thực hiện và giải quyết những vấn đề sau: - Nghiên cứu tin sinh học, cấu trúc dữ liệu GEN. - Nghiên cứu phƣơng pháp đánh chỉ số và một số thuật toán xây dựng chỉ số. - Đánh giá và thử nghiệm phƣơng pháp Blast trên cơ sở dữ liệu GEN. III. Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN CỦA ĐỀ TÀI Trong luận văn khảo sát các phƣơng pháp đánh chỉ số đã đƣợc nghiên cứu cho cơ sở dữ liệu GEN đặc biệt là phƣơng pháp Blast để tìm các cặp đoạn có độ giống nhau giữa một đoạn GEN đầu vào với đoạn GEN có trong cơ sở dữ liệu để từ đó tăng tốc độ tìm kiếm [5]. Ngoài ra còn có một số ứng dụng cơ bản và quan trọng trong tin sinh học: - Quản lý dữ liệu: xây dựng hệ thống quản lý và khai thác một cách có hiệu quả lƣợng dữ liệu sinh học khổng lồ. Dữ liệu sinh học bao gồm nhiều loại khác nhau, trong đó chủ yếu là các trình tự nucleotide, và các trình tự axit amin. - Phân tích mối quan hệ giữa các trình tự: Phát triển các mô hình các phƣơng pháp và các công cụ tính toán để phân tích mối quan hệ giữa các trình tự sinh học là lớp bài toán cốt lõi trong tin sinh học. 3 - Dự đoán cấu trúc bậc cao của các trình tự: Ngày nay, các máy giải trình tự thế hệ mới có thể giải trình tự hệ GEN ngƣời trong vòng một ngày với chi phí khoảng 50 nghìn Đô la Mỹ. Tuy nhiên, việc xác định đƣợc cấu trúc bậc cao của các trình tự (phổ biến là các trình tự Protein) vẫn là một bài toán khó cả về mặt thời gian và chi phí. Các nghiên cứu tin sinh học giúp phát triển các mô hình, phƣơng pháp và công cụ tính toán để dự đoán cấu trúc bậc cao của các trình tự dựa vào phân tích nội dung và mối quan hệ của chúng với trình tự khác. Các phƣơng pháp dự đoán sẽ giảm thiểu một lƣợng lớn thời gian và chi phí cho việc xác định cấu trúc bậc cao của các trình tự. IV. PHƢƠNG PHÁP NGHIÊN CỨU - Nghiên cứu các tài liệu liên quan đến tin sinh học, cơ sở dữ liệu GEN, phƣơng pháp đánh chỉ số - Tìm kiếm, thu thập và chia nhóm dữ liệu. - Phƣơng pháp thực nghiệm và đối chứng qua chƣơng trình thử nghiệm. 4 CHƢƠNG 1: GIỚI THIỆU TIN SINH HỌC VÀ CƠ SỞ DỮ LIỆU GEN 1.1 Giới thiệu tin sinh học 1.1.1 Định nghĩa Tin sinh học (BioInformatics) là một lĩnh vực khoa học sử dụng các công nghệ của các ngành toán học ứng dụng, tin học, thống kê, khoa học máy tính, sinh học, hóa học, vật lý… và toán sinh học. Tin sinh học thƣờng gắn liền với sinh học tính toán (Computational biology) hoặc sinh học hệ thống (System biology). Thuật ngữ tin sinh học là một phần của sinh học tính toán. Sự kết hợp giữa các nghành khoa học nói trên có sự đan xen với nhau và tƣơng hỗ lẫn nhau vì vậy, thành quả nghiên cứu mang lại của ngành học này không chỉ đóng góp cho sinh học mà còn đóng góp cho các ngành khoa học khác [1]. Một số bài toán và ứng dụng cơ bản và quan trọng trong tin sinh học gồm: Quản lý dữ liệu: Một trong các bài toán quan trọng đầu tiên của tin sinh học là xây dựng các hệ thống dữ liệu để quản lý và khai thác một cách hiệu quả lƣợng dữ liệu sinh học khổng lồ. Dữ liệu sinh học bao gồm nhiều loại khác nhau, trong đó chủ yếu là các trình tự nucleotide, và các trình tự axít amin. Lƣợng dữ liệu sinh học có thể lên đến hàng triệu megabyte và đƣợc cập nhật liên tục theo thời gian. Vì vậy, vấn đề lƣu trữ và quản lý dữ liệu này là bài toán đƣợc quan tâm đầu tiên. - Phân tích mối quan hệ giữa các trình tự; - Nghiên cứu tiến hóa; - Dự đoán cấu trúc bậc cao của các trình tự; - Kiểm soát dịch bệnh; - Phát triển thuốc và chẩn đoán bệnh; 5 - Phát triển các giống cây trồng, vật nuôi. 1.1.2 Sự phát triển tin sinh học ở Việt Nam Tin sinh học là một lĩnh vực mới nhƣng không xa lạ. Những năm qua ở Việt Nam cũng đã có một số nghiên cứu trong lĩnh vực phân tích GEN, xác định trình tự DNA của một số loài quan trọng để đánh giá về mặt di truyền, hay những biến dị hoặc từ đó xác định hệ số di truyền tìm ra các họ hàng thân thích, hoặc để đánh giá mức độ biến đổi tính di truyền, hoặc nghiên cứu về đa dạng sinh học, xây dựng ngân hàng GEN (GEN bank). Theo hƣớng đó, những năm gần đây trên bƣớc đƣờng nghiên cứu về tài nguyên sinh vật và đa dạng sinh học tại các tỉnh vùng Bắc Trung Bộ, Khoa Sinh trƣờng Đại học Vinh đã tiến hành nhân bản GEN (polimerase chain reaction-PCR), giải trình tự ADN (DNA sequencing) ở một số loài vi khuẩn lam, loại vi khuẩn có giá trị lớn trong cố định nitơ không khí, có khả năng tổng hợp hữu cơ mạnh làm giàu dinh dƣỡng cho đất, và có các hợp chất có hoạt tính sinh học cao có tác dụng đến sinh trƣởng, phát triển, tăng năng suất cây trồng, hoặc bằng nhân bản GEN và kỹ thuật phân tích tính đa hình của DNA đƣợc khuếch đại ngẫu nhiên (random amplified polimorphism DNA, RAPD) đối với các cây ăn quả có giá trị nhƣ cam Xã Đoài, bƣởi Phúc Trạch để từ đó đánh giá mức độ biến đổi di truyền của chúng liên quan đến chất lƣợng quả, hoặc phân tích trình tự axit amin trên một số giống rắn thƣờng sử dụng làm thuốc để từ cấu trúc của protein tìm hiểu về chức năng và vai trò sinh học của nó, hay phân tích trình tự DNA của một số loài cá mới phát hiện đƣợc tại Nghệ An... Hiện nay kỹ thuật RAPD đƣợc xem là kỹ thuật phân loại phân tử và đang đƣợc sử dụng để xác định tính đa dạng sinh học và quan hệ họ hàng của các động vật, thực vật khác nhau trong loài. Chẳng hạn gần đây Henry Nguyễn (đại học Texas-Mỹ) nhờ sử dụng 43 cặp mồi (primer) ngẫu nhiên, đã phát hiện đƣợc sự khác biệt 6 di truyền của 13 giống lúa có nguồn gốc khác nhau ở châu Á, châu Âu và trung Á. Cho nên, việc áp dụng tin sinh học trong nghiên cứu khả dĩ góp phần tích cực vào việc điều tra tài nguyên sinh vật, tìm kiếm những GEN quý hiếm, nghiên cứu đa dạng sinh học ở mức độ phân tử và chống xói mòn di truyền... mà lâu nay chƣa có điều kiện để khám phá. [1] Trong một vài năm gần đây các viện nghiên cứu, các trƣờng đại học mới xây dựng chƣơng trình và đào tạo những khóa học đầu tiên trong lĩnh vực này. Hiện nay, đội ngũ cán bộ nghiên cứu về tin sinh học tập trung chủ yếu ở các viện nghiên cứu và các trƣờng đại học có các chuyên ngành đào tạo về công nghệ sinh học, nông lâm học… chủ yếu đƣợc đào tạo từ nƣớc ngoài. Các hƣớng nghiên cứu chính của các nhóm hiện nay là: - Các nghiên cứu trong lĩnh vực phân tích GEN, xác định trình tự DNA của một số loài để đánh giá về mặt di truyền (xác định họ hàng thân thích, đánh giá mức độ biến đổi tính di truyền) - Khai thác dữ liệu sinh học, xây dựng ngân hàng GEN - Các nghiên cứu về đa dạng sinh học, phân tích mối quan hệ tiến hóa trình tự, ứng dụng trong di truyền, chọn giống (nhân bản phát triển và lƣu trữ những gien quý hiếm, giải trình tự GEN ở một số loài, làm tăng năng suất cây trồng…) - Phát triển phần mềm phân tích dữ liệu trình tự sinh học - Xây dựng cơ sở dữ liệu thông tin protein. Ngoài các viện nghiên cứu, các trƣờng đại học, tại nƣớc ta, nguồn GEN hiện đang đƣợc lƣu trữ, bảo quản tại một số tổ chức thuộc các bộ chủ quản nhƣ Bộ Nông nghiệp và Phát triển Nông thôn, Bộ Y tế, Bộ Công thƣơng [4]…. Dƣới đây là một số kết quả nghiên cứu và nguồn GEN hiện có ở nƣớc ta. 7 Bảng 1.1. Nhiệm vụ của một số Bộ, ngành về bảo tồn quỹ GEN quốc gia TT Bộ/Ngành Nhiệm vụ - Bảo tồn nguồn GEN thực vật phục vụ cho mục tiêu lƣơng thực và NN Bộ Nông 1 nghiệp và Phát triển Nông thôn - Bảo tồn nguồn GEN vật nuôi - Bảo tồn nguồn GEN VSV đất, phân, bảo vệ thực vật và VSV thú y - Bảo tồn nguồn GEN cây rừng, cây chống chịu, cây cao su, GEN ong, GEN và giống thủy sản 2 3 4 5 Bộ Y tế - Bảo tồn nguồn GEN và giống cây thuốc - Bảo tồn nguồn GEN VSV y học Bộ Công - Bảo tồn nguồn GEN VSV công nghiệp thực phẩm Thƣơng - Bảo tồn bộ sƣu tập nguồn GEN cây công nghiệp Bộ GD& ĐT - Bảo tồn một số nguồn GEN cây trồng nông nghiệp - Bảo tồn bộ sƣu tập nguồn GEN VSV chung Bộ Quốc - Bảo tồn lƣu giữ nguồn GEN dƣợc liệu, con thuốc phục phòng vụ quốc phòng 8 Bảng 1.2. Kết quả bảo tồn, lưu giữ nguồn GEN sinh vật TT Nguồn GEN Bảo tồn, lƣu giữ tại Bảo tồn, lƣu giữ chuyển chỗ 1 Cây trồng nông 30 nhiệm vụ chỗ 28.028 nguồn GEN nghiệp 2 Cây lâm nghiệp 164 vƣờn Xấp xỉ 2000 giống 3 Cây thuốc Xấp xỉ 100 loài 2998 loài 4 Vật nuôi Xấp xỉ 30 giống 18 giống 5 Thủy sản 3 khu bảo tồn 2999 6 Vi sinh vật 21270 chủng 1.2 Sinh học phân tử Sinh học phân tử (molecular biology) là một nhánh của sinh học (biology), tập trung nghiên cứu các sinh vật ở mức độ phân tử. Cụ thể là, sinh học phân tử tập trung giải trình tự (sequencing) và phân tích các trình tự nucleotide (trình tự DNA), các trình tự axít amin (trình tự Protein), cũng nhƣ các loại dữ liệu sinh học phân tử khác để hiểu đƣợc cấu trúc, chức năng, đặc điểm, quá trình tiến hóa, cũng nhƣ mối quan hệ và tƣơng tác giữa các loài sinh vật. Sự phát triển mạnh mẽ của công nghệ giải trình tự DNA, cũng nhƣ các phƣơng pháp tính toán hiện đại đã giúp sinh học phân tử phát triển mạnh mẽ cả về cơ sở lý thuyết cũng nhƣ các ứng dụng thực tế.[1] 9 1.2.1 Axit nucleic và nucleotide Axít nuclêic (nucleic acid) là một đại phân tử sinh học (large biological molecule) mang thông tin di truyền mã hóa các chức năng, và đặc điểm của mọi sinh vật sống. Axít nuclêic gồm hai loại: DNA (Axít Deoxyribo Nuclêic) và ARN (Axít Ribo Nuclêic). Thành phần cơ bản cấu tạo một trình tự axít nuclêic là các phân tử hóa học nuclêotít (nucleotide). Trình tự DNA chứa bốn loại nucleotide khác nhau là: Adenine, Cytosine, Guanine, và Thymine. Trình tự ARN có thành phần tƣơng tự nhƣ trình tự DNA, ngoại trừ nucleotide Thymine đƣợc thay thế bởi nucleotide Uracil. Tức là, ARN chứa 4 loại nucleotide: Adenine, Cytosine, Guanine, và Uracil. Tên đầy đủ, tên viết tắt của năm loại nucleotide đƣợc mô tả ở Bảng 1.1. Bảng 1.3. Tên đầy đủ, tên viết tắt của năm loại nucleotide. Tên đầy đủ Tên viết tắt Adenine A Cytosine C Guanine G Thymine T Uracil U 10 Hình 1.1. Cấu trúc xoắn kép của một trình tự DNA Các nucleotide trên trình tự DNA liên kết với nhau để tạo thành một trình tự có cấu trúc xoắn kép nhƣ Hình 1 Cấu trúc xoắn kép của trình tự DNA gồm 2 sợi liên kết với nhau: sợi thứ nhất có chiều từ 5‟ đến 3‟; sợi thứ hai có chiều ngƣợc lại từ 3‟ đến 5‟. Các nucleotide ở sợi thứ nhất sẽ liên kết với các nucleotide ở sợi thứ hai (và ngƣợc lại) theo nguyên tắc: - Nucleotide A luôn liên kết với nucleotide T - Nucleotide G luôn liên kết với nucleotide C Do vậy, thông tin về một trình tự DNA đƣợc biểu diễn bằng một trình tự các nucleotide nằm trên một sợi (các nucleotide nằm trên sợi còn lại có thể suy luận dựa theo quy tắc trên). Để đơn giản, một trình tự DNA sẽ đƣợc biểu diễn bởi một xâu kí tự chứa 4 loại kí tự: A, C, G, và T (tên viết tắt của 4 loại nucleotide). Ví dụ: “CAGTTGACGGCGAACCGTGCGAGCAGACGGTCGTT” là một trình tự DNA. Với cách biểu diễn này, thông tin về các trình tự DNA có thể đƣợc lƣu giữ, tìm kiếm, và trao đổi một cách hiệu quả. 1.2.2 Protein và axit amin Protein/ trình tự Protein (protein) là loại dữ liệu phổ biến và quan trọng trong sinh học phân tử. Nó quyết định đến chức năng, quá trình phát triển, cũng nhƣ các bệnh tật của các sinh vật sống. Protein đƣợc cấu tạo bởi một

- Xem thêm -

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất