Đăng ký Đăng nhập
Trang chủ Phát hiện các đột biến đảo đoạn trong hệ gen giải mã từ thiết bị đọc trình tự th...

Tài liệu Phát hiện các đột biến đảo đoạn trong hệ gen giải mã từ thiết bị đọc trình tự thế hệ mới

.PDF
81
9
86

Mô tả:

1 .. ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN VĂN THÀNH PHÁT HIỆN CÁC ĐỘT BIẾN ĐẢO ĐOẠN TRONG HỆ GEN GIẢI MÃ TỪ THIẾT BỊ ĐỌC TRÌNH TỰ THẾ HỆ MỚI LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên – 2014 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 2 LỜI CAM ĐOAN Tôi xin cam đoan: Luận văn này là công trình nghiên cứu thực sự của cá nhân, đƣợc thực hiện dƣới sự hƣớng dẫn khoa học của Tiến sĩ Nguyễn Cường. Các số liệu, những kết luận nghiên cứu đƣợc trình bày trong luận văn này trung thực và chƣa từng đƣợc công bố dƣới bất cứ hình thức nào. Tôi xin chịu trách nhiệm về nghiên cứu của mình. Học viên Nguyễn Văn Thành Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 3 LỜI CÁM ƠN Lời đầu tiên, tôi xin chân thành cám ơn Tiến sĩ Nguyễn Cường nguời đã trực tiếp huớng dẫn tôi hoàn thành luận văn. Với những lời chỉ dẫn, những tài liệu, sự tận tình hƣớng dẫn và những lời động viên của Thầy đã giúp tôi vƣợt qua nhiều khó khăn trong quá trình thực hiện luận văn này. Tôi cũng xin cám ơn quý Thầy (Cô) giảng dạy chƣơng trình cao học “Khoa học máy tính” đã truyền dạy những kiến thức quý báu, những kiến thức này rất hữu ích và giúp tôi nhiều khi thực hiện nghiên cứu. Xin cám ơn các quý Thầy (Cô) công tác tại Trƣờng Đại học Công nghệ thông tin và truyền thông – Đại học Thái Nguyên đã tạo điều kiện cho tôi đƣợc tham gia và hoàn thành khóa học. Tôi xin chân thành cám ơn. Học viên Nguyễn Văn Thành Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 4 MỤC LỤC LỜI CAM ĐOAN..................................................................................................... 1 LỜI CÁM ƠN........................................................................................................... 3 MỤC LỤC ................................................................................................................ 4 DANH MỤC CÁC HÌNH ẢNH ............................................................................. 6 DANH MỤC CÁC BẢNG BIỂU ........................................................................... 7 DANH MỤC CÁC TỪ VIẾT TẮT-THUẬT NGỮ............................................... 8 PHẦN MỞ ĐẦU ...................................................................................................... 9 Chƣơng 1.TỔNG QUAN VỀ TIN SINH HỌC VÀ BÀI TOÁN PHÁT HIỆN ĐỘT BIẾN ĐẢO ĐOẠN ....................................................................................... 11 1.1 - Tổng quan về Tin sinh học ......................................................................... 11 1.2 – Cơ sở lý thuyết bài toán đột biến đảo đoạn ............................................... 12 1.2.1 - Gen và đột biến cấu trúc hệ gen ...................................................... 12 1.2.2 - Phƣơng pháp phát hiện sự biến đổi cấu trúc trong bản đồ gen ............... 15 1.2.3 - Định dạng cơ sở dữ liệu ................................................................... 23 1.2.3 - Bài toán đột biến đảo đoạn .............................................................. 27 1.3 - Các công cụ giải quyết bài toán đảo đoạn .............................................. 33 1.3.1 - Chƣơng trình Wgsim ........................................................................ 33 1.3.2 - Chƣơng trình TMAP ........................................................................ 33 1.3.3 - Chƣơng trình BWA và Bowtie. ....................................................... 33 Chƣơng 2. MỘT SỐ THUẬT TOÁN PHÁT HIỆN ĐỘT BIẾN ....................... 34 2.1 - Thuật toán ma trận điểm............................................................................. 35 2.2 - Thuật toán Blast.......................................................................................... 37 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 5 2.3 - Thuật toán lai GA-SA................................................................................. 42 2.4 - Thuật toán Needleman – Wunsch .............................................................. 45 2.5 - Thuật toán Smith-Waterman ...................................................................... 49 Chƣơng 3. CÀI ĐẶT THUẬT TOÁN VÀ ĐÁNH GIÁ KẾT QUẢ .................. 56 3.1 - Ánh xạ các đoạn trình tự. ........................................................................... 57 3.2 - Xử lý SAM và khởi tạo điểm dừng khả dĩ. ................................................ 58 3.3 - Lọc và hoàn thiện điểm dừng. .................................................................... 61 3.4 - Mô phỏng dữ liệu và thống kê kết quả ánh xạ. .......................................... 64 3.5 - Đánh giá kết quả phân tích. ........................................................................ 68 3.6 - So sánh với các phƣơng pháp hiện tại. ....................................................... 74 3.7 - Những hạn chế và cách khắc phục ............................................................. 76 KẾT LUẬN ............................................................................................................ 78 TÀI LIỆU THAM KHẢO ..................................................................................... 80 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 6 DANH MỤC CÁC HÌNH ẢNH Hình 1.1: Trong mỗi tế bào có một nhân chính giữa. ....................................... 13 Hình 1.2: Gen đƣợc cấu tạo từ DNA. Mỗi NST có nhiều gen ......................... 13 Hình 1.3: Cấu trúc một phần của gen................................................................. 13 Hình 1.4: Đột biến đảo đoạn trong hệ gen. .......................................................... 15 Hình 1.5: Các giai đoạn của đọc trình tự thế hệ mới ........................................ 22 Hình 1.6: Định dạng SAM .................................................................................. 25 Hình 1.7: Bản sao - số biến thể ( CNVs) ........................................................... 28 Hình 1.8: Đồ thị gia tăng CNV và InDel đã thêm vào CSDL từ năm 2002 ...... 28 Hình 1.9: Đồ thị sự phân phối kích thƣớc CNVs trong cơ sở dữ liệu ............. 29 Hình 1.10: Phần lớn sự đảo đoạn đến nay có cỡ 10 đến 100kb ....................... 30 Hình 2.1: Ma trận thay thế BLOSUM................................................................... 40 Hình 2.2: Ma trận thay thế PAM........................................................................... 40 Hình 3.1: Sự gióng hàng của quá trình ánh xạ r1, r2 trên vùng đảo ngƣợc ... 57 Hình 3.2: Những vùng đƣợc lựa chọn dựa vào điểm dừng trái và phải .......... 62 Hình 3.4: Số lƣợng đảo đoạn trong các NST khác nhau .................................. 65 Hình 3.5: Phân phối kích thƣớc của 90 đảo đoạn ............................................. 65 Hình 3.6: Tổng số trình tự của ánh xạ bởi Map1 và Map2 đọc lý tƣởng........ 67 Hình 3.7: Tổng số trình tự của ánh xạ bởi Map1 và Map2 cho trình tự lỗi. ... 67 Hình 3.8: Những giá trị dƣơng tính giả trong pha thứ 1 và pha thứ 2 ............ 72 Hình 3.9: Tính nhạy cảm ở pha 1 và pha 2. ....................................................... 73 Hình 3.10: Dự đoán giá trị dƣơng tính giả ở pha 1 và pha 2. .......................... 73 Hình 3.11: Tính nhạy cảm ở pha 1 và pha 2 cho trình tự có lỗi. ..................... 74 Hình 3.12: PPV ở pha 1 và pha 2 cho trình tự có lỗi. ....................................... 74 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 7 Hình 3.13: So sánh Inverse Variant vớiBreakDancer dựa vào điểm dừng. .... 76 Hình 3.15: So sánh Inverse Variant với BreakDancer dựa vào tính nhạy cảm, PPV và FScore....................................................................................................................... 76 DANH MỤC CÁC BẢNG BIỂU Bảng 1.1: Các thẻ định danh trong SAM .............................................................. 25 Bảng 1.2: Định nghĩa cờ đảo bit trong SAM ........................................................ 25 Bảng 1.3: Mô tả chuỗi CIGAR ............................................................................. 26 Bảng 1.4 Bảng cho thấy CNVs và đảo đoạn ......................................................... 28 Bảng 3.1: Những tham số đƣợc đặt mô phỏng cho các đoạn trình tự có lỗi. ....... 66 Bảng 3.2: Kết quả của Inverse Variant ở trình tự lý tƣởng có độ dài 100bp ........ 69 Bảng 3.3: Kết quả của Inverse Variant ở trình tự lý tƣởng có độ dài 200bp ........ 69 Bảng 3.4: Kết quả của Inverse Variant ở trình tự lý tƣởng có độ dài 400bp ........ 69 Bảng 3.5: Kết quả của Inverse Variant ở trình tự lý tƣởng với độ bao phủ 10X.. 70 Bảng 3.6: Kết quả của Inverse Variant ở trình tự lỗi với độ bao phủ là 10X ....... 70 Bảng 3.7: Bảng so sánh InverseVariantvới BreakDancer..................................... 75 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 8 DANH MỤC CÁC TỪ VIẾT TẮT-THUẬT NGỮ STT Nghĩa/Mô tả Từ viết tắt/thuật ngữ 1 DNA Deoxyribo Ducleic Acid 2 BP Base Pair 3 GB Giga Base Pair 4 NST Nhiễm sắc thể 5 DNA senquencing Đọc trình tự DNA 6 HGP Dự án hệ giải trình tự hệ gen con ngƣời 7 Nucleotide Là các trình tự A,T,G,C 8 SBS Đọc trình tự bằng sợ tổng hợp 9 SBL Đọc trình tự gắn nối 10 PCR Kỹ thuật khuếch đại gen 11 Nanowell Giếng nano 12 CGIAR Chuỗi thể hiện số base đƣợc ánh xạ/mất/thêm so với tham chiếu 13 SNP Đa hình đơn điểm/đơn nucleotide 14 CNV Bản sao số biến thể 15 InDel Vị trí thể hiện sự chèn hoặc xóa trong gen 16 BWA (hoặc Bowtie) Công cụ ánh xạ trình tự với dữ liệu tham chiếu 17 TMAP Chƣơng trình để xây dựng bản đồ di truyền 18 Wgsim Công cụ mô phỏng các đoạn trình tự ngắn từ dữ liệu hệ gen tham chiếu 19 Single end reads Phƣơng pháp đọc trình tự theo chiều đơn 20 PPV Dự đoán dƣơng tính giả 21 Hg19 Trình tự hệ gen ngƣời phiên bản 19 22 MAQ Phần mềm lập bản đồ cho các trình tự ngẵn từ máy đọc trình tự thế hệ mới Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 9 PHẦN MỞ ĐẦU Trong nghiên cứu về sinh học hiện đại có nhiều công nghệ và giải pháp đƣợc ứng dụng để phân tích, tổng hợp dữ liệu về cấu trúc và trình tự hệ gen của các loài sinh vật. Việc phân tích và tổng hợp bộ dữ liệu này yêu cầu một hệ thống cấu trúc lƣu trữ đáp ứng đủ tính chất về độ phức tạp và độ lớn của bộ dữ liệu kết quả. Các thiết bị đọc trình tự gen đƣợc ra đời để giải quyết các vấn đề nêu trên. Các thiết bị đọc trình tự gen là những công cụ xác định thứ tự các nucleotide gắn kết với nhau dọc theo chiều dài của gen và trình tự gắn kết nhau của các nucleotide đƣợc gọi là trình tự gen. Trong đó, đọc trình tự thế hệ mới là một bƣớc tiến vƣợt bậc về công nghệ đọc trình tự, từ khả năng đọc trình tự đoạn ngắn 1500bp (Sanger) hay 100 bp (pyrosequencing) của các thiết bị đọc trình tự trƣớc đó, đọc trình tự thế hệ mới cho phép đọc đƣợc từ 8gb đến 600gb, có nghĩa là cho phép đọc trình tự nguyên bộ gen của bất kỳ loài sinh vật nào. Với mong muốn hiểu chi tiết về cấu trúc gen các nhà nghiêncứu sinh học luôn muốn đọc trình tự hoàn chỉnh các gen của tất cả các loài sinh vât trong tự nhiên, bao gồm cả hệ gen của con ngƣời và toàn bộ trình tự gen khác của nhiều động, thực vật, vi sinh vật, đồng thời qua việc nghiên cứu đó có thể phát hiện ra những đột biến cấu trúc trong hệ gen đƣợc giải mã. Đặc biệt là dạng đột biến đảo đoạn, loại đột biến này ít gây ảnh hƣởng đến sức sống của cá thể, nhƣng nógóp phần lớn tăng cƣờng sự sai khác giữa các nhiễm sắc thể (NST) tƣơng đồng điều này dẫn đến tăng sự đa dạng giữa các thứ,các nòi trong cùng một nòi, ít ảnh hƣởng tới sức sống của cá thểvà trong đó sự sắp xếp lại hệ gen trên NST do đột biến đảo đoạn góp phần tạo sự đa dạng trong tự nhiên. Đối với con ngƣời việc đọc trình tự hệ gen rất quan trọng, nó góp phần trong việc nghiên cứu sinh học cơ bản và trong nhiều lĩnh vực ứng dụng nhƣ chẩn đoán bệnh tật, công nghệ sinh học, sinh học pháp y, sinh học hệ thống...Nhận thấy tính thiết thực của vấn đề và với sự Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 10 định hƣớng của giáo viên hƣớng dẫn, học viên đã chọn đề tài “Phát hiện các đột biến đảo đoạn trong hệ gen giải mã từ thiết bị đọc trình tự thế hệ mới” để làm rõ các vấn đề đã nêu trên. Đối tƣợng và phạm vi nghiên cứu  Kiến trúc về các thành phần và các đột biến cấu trúc trong hệ gen.  Ứng dụng thiết bị đọc trình tự thế hệ mới trong công nghệ sinh học.  Phƣơng pháp phát hiện các đột biến đảo đoạn khi sử dụng các thiết bị đọc trình tự thế hệ mới để giải mã. Hƣớng nghiên cứu của đề tài  Nghiên cứu, tìm hiểu mô hình, cách làm việc và giải mã hệ gen từ thiết bị đọc trình tự thế hệ mới.  Nghiên cứu cấu trúc dữ liệu, các phƣơng pháp tiền xử lý và lắp ráp hệ gen từ thiết bị đọc trình tự thế hệ mới.  Tìm hiểu, tham khảo các tài liệu liên quan đến các đột biến đảo đoạn trong hệ gen, từ đó xây dựng thuật toán phát hiện ra các đột biến gen đảo đoạn trong hệ gen giải mã từ thiết bị đọc trình tự thế hệ mới. Phƣơng pháp nghiên cứu  Nghiên cứu lý thuyết về các thiết bị đọc trình tự thế hệ mới, đột biến gen đảo đoạn và cách phát hiện đột biến đảo đoạn trong hệ gen giải mã từ thiết bị đọc trình tự thế hệ mới.  Thiết kế, đặc tả, xây dựng chƣơng trình, phƣơng pháp đọc trình tự gen và phát hiện đột biến đảo đoạn.  Qua những phát hiện về đột biến đảo đoạn đƣa ra kết luận. Ý nghĩa khoa học của đề tài  Làm cơ sở để phát hiện ra các đột biến đảo đoạn trong hệ gen.  Ứng dụng nhƣ chẩn đoán bệnh, sinh học pháp y, sinh học hệ thống. Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 11 Chƣơng 1.TỔNG QUAN VỀ TIN SINH HỌC VÀ BÀI TOÁN PHÁT HIỆN ĐỘT BIẾN ĐẢO ĐOẠN 1.1 - Tổng quan về Tin sinh học Tin sinh học (bioinformatics) là một lĩnh vực khoa học sử dụng các công nghệ của ngành toán học ứng dụng, tin học, thống kê, khoa học máy tính và toán sinh học (biomathematics) để giải quyết các vấn đề sinh học. Những nghiên cứu trong ngành tin sinh học (bioinformatics) thƣờng trùng lặp với sinh học tính toán (computational biology) hoặc sinh học hệ thống (system biology). Những lĩnh vực nghiên cứu chính của nó bao gồm bắt cặp trình tự (sequence alignment), bắt cặp cấu trúc protein (protein structural alignment), dự đoán cấu trúc protein (protein structural prediction), dự đoán biểu hiện gen (gene expression), tƣơng tác proteinprotein (protein-protein interaction), mô hình hoá quá trình tiến hoá. Thuật ngữ tin sinh học và sinh học tính toán thƣờng đƣợc dùng hoán đổi cho nhau, nhƣng nói một cách nghiêm túc thì cái trƣớc là tập con của cái sau. Mối quan tâm chính ở tin sinh học và sinh học tính toán là việc sử dụng các công cụ toán học để phân chiết các thông tin hữu ích từ các dữ liệu hỗn độn thu nhận đƣợc bằng các kỹ thuật sinh học với lƣu lƣợng và mức độ lớn. Nhƣ vậy, về phƣơng diện này lĩnh vực khai phá dữ liệu (data mining) có sự trùng lắp với sinh học tính toán. Bài toán đặc trƣng trong sinh học tính toán bao gồm việc lắp ráp (assembly) những trình tự ADN chất lƣợng cao từ những đoạn ngắn ADN đƣợc thu nhận từ kỹ thuật xác định ADN và việc dự đoán quy luật điều hoà gen (gene regulation) với dữ liệu từ các mARN, microarray hay khối phổ (mass-spectrometry). Các lĩnh vực nghiên cứu chính của tin sinh học gồm hệ gen học phân tích trình tự, tìm kiếm gen, tìm kiếm các đột biến, phân loại học phân tử, bảo tồn đa dạng sinh học, phân tích chức năng gen hay biểu hiện nhận diện chuỗi polypeptid dự đoán cấu trúc của protein các hệ thống sinh học kiểu mẫu, phân tích hình ảnh mức độ cao, công cụ phần mềm. Định hƣớng nghiên cứu tìm kiếm các đột biến là một bài toán rộng trong Tin sinh học. Bởi vì, các hệ gen thƣờng có nhiều kiểu đột biến với Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 12 mức độ đột biến khác nhau nhƣ là: Đột biến cấu trúc (trong đó có đột biến mất đoạn, đột biến thêm đoạn, đột biến đảo đoạn, …), đột biến điểm (đột biến đa hình đơn SNP, đột biến mất nucleotide, đột biến thêm nucleotite, ..). Trong luận văn này, tôi sẽ tiến hành nghiên cứu phƣơng pháp phát hiện đột biến đảo đoạn, một dạng của đột biến cấu trúc hệ gen. 1.2 – Cơ sở lý thuyết bài toán đột biến đảo đoạn 1.2.1 - Gen và đột biến cấu trúc hệ gen Ngày nay với tiến bộ của khoa học sinh học phân tử, ngƣời ta đã biết rõ rằng đơn vị sinh học cơ bản nhất trong một con thể sống là tế bào (cells), nhƣ cơ thể chúng ta đƣợc cấu tạo bằng khoảng 60.000 tỉ tế bào (có ƣớc tính khác cho rằng con số này là 100.000 tỉ), trong đó nhiều tế bào có những nhiệm vụ khác nhau, chẳng hạn nhƣ tế bào thần kinh có khả năng điều khiển các hoạt động của cơ thể, tế bào tim cấu thành nên tim và có chức năng co bóp cung cấp máu đi nuôi cơ thể v.v…Những tế bào này có thời gian tồn tại nhất định. Mặc dù khác nhau về chức năng và chu kỳ sống, nhƣng tất cả các tế bào đều có cấu trúc giống nhau: trong mỗi tế bào đều có một nhân (nucleus) nằm chính giữa Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 13 Hình 1.1: Trong mỗi tế bào có một nhân chính giữa. Trong nhân có chứa NST và trong NST có chứa nhiều DNA (Deoxyribo-Nucleic Acid). DNA bao gồm 4 trình tự nucleotide: A (adeline), C (cytosine), G (guanine), và T (thymine). Hình 1.2: Gen được cấu tạo từ DNA. Mỗi NST có nhiều gen Gen là đoạn DNA, là tập hợp một nhóm gồm 3 mẫu tự có tên là trinucleotide (bộ 3 mã hóa), nhƣ TAG GCC TCA... Một gen là tập hợp nhiều tam mẫu tự nhƣ thế. Nhƣ hình minh họa một đoạn của gen gồm các bộ ba TGA CTG ACT. Hình 1.3: Cấu trúc một phần của gen. Gen có chức năng gửi các tín hiệu hóa học đi đến tất cả các nơi trong cơ thể. Những tín hiệu này có chứa đầy đủ các thông tin, các chỉ thị cụ thể Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 14 cho các cơ quan trong cơ thể ta phải hoạt động ra sao. Việc tìm hiểu số lƣợng gen cũng nhƣ cơ cấu tổ chức của gen trong cơ thể con ngƣời là một điều tất yếu để mang lại những tiến bộ mới và quan trọng của y sinh học. Nhƣng không phải gen nào cũng có chức năng rõ ràng. Trong thực tế, có khoảng 47% gen không có chức năng cụ thể (hay chúng ta chƣa biết chức năng của chúng). Đột biến gen là những biến đổi nhỏ xảy ra trong cấu trúc của gen. Những biến đổi này thƣờng liên quan đến 1 cặp nucleotide (đột biến điểm) hoặc 1 số cặp nucleotide. Trong những cá thể tự nhiên, các gen đều có thể bị đột biến nhƣng với tần số thấp (từ 10-6 đến 10-4). Các cá thể mang đột biến đã biểu hiện thành kiểu hình là thể đột biến. Đột biến gen làm thay đổi cấu trúc của gen từ đó tạo ra alen mới so với dạng ban đầu. VD: Ở ruồi giấm gen A qui định mắt đỏ, sau khi bị đột biến tạo thành gen a qui định mắt trắng Các dạng đột biến Đột biến mất đoạn : Đột biến này làm NST bị mất đoạn (đoạn đó không chứa tâm động), làm giảm số lƣợng gen trên NST thƣờng gây chết hoặc giảm sức sống của cá thể Đột biến thêm đoạn: Một đoạn nào đó của NST lặp lại một vài lần xen vào NST. Việc thêm đoạn này là giảm hoặc tăng thêm cƣờng độ biểu hiện tính trạng vì làm tăng hoặc giảm số lƣợng gen trên NST Đột biến chuyển đoạn: Một đoạn NST bị chuyển dịch trên cùng một NST hay giữa hai NST khác nhau. Cả hai NST cùng cho và nhận một đoạn (chuyển đoạn tƣơng hỗ) hay một bên cho, một bên nhận (chuyển đoạn không tƣơng hỗ). Đột biến chuyển đoạn thƣờng gây chết hoặc mất khả năng sinh sản. Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 15 Đột biến đảo đoạn: Đảo đoạn là hiện tƣợng xảy ra do gãy đồng thời tại hai điểm trên một nhiễm sắc thể và sau đó đoạn bị đứt xoay 180o rồi nối lại. Hậu quả là, trật tự các gene trong đoạn đảo ngƣợc lại với trật tự bình thƣờng. Tùy theo sự tƣơng quan của đoạn đảo với vị trí tâm động, có thể chia làm hai kiểu đảo đọan. Nếu đoạn đảo không chứa tâm động, gọi là đảo đoạn cận tâm (paracentric inversion); ngƣợc lại, nếu đoạn đảo băng qua cả tâm động thì gọi là đảo đoạn quanh tâm (pericentric inversion). Sự trao đổi chéo xảy ra bên trong vòng của thể dị hợp đảo đoạn cận tâm tạo ra các giao tử chứa các khuyết đọan lớn. Hình 1.4: Đột biến đảo đoạn trong hệ gen. Mô tả: (a) Kết cặp và xuất hiện vòng; (b) Phân ly làm xuất hiện cầu nối và đoạn không tâm; (c) Cầu nối hai tâm đứt gãy ngẫu nhiên; và (d) Các sản phẩm đƣợc tạo ra. 1.2.2 - Phƣơng pháp phát hiện sự biến đổi cấu trúc trong bản đồ gen a. Phƣơng pháp lai dựa trên tiếp cận mảng Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 16 Phƣơng pháp tiếp cận sử dụng vi mảng[7] đƣợc xem là bƣớc đột phá đầu tiên trong việc phát hiện và xác định số lƣợng cũng nhƣ kiểu biến đổi cấu trúc hệ gen. Theo kỹ thuật này, hai cách tiếp cận phổ biến nhất, trƣớc tiên là ghép hệ gen so sánh mảng (mảng CGH), thứ hai là vi mảng SPN. Mặc dù cả hai kỹ thuật này đƣợc dựa trên suy luận tăng hoặc giảm số lƣợng bản sao so với một mẫu tham chiếu hoặc bản gốc khác nhau về chi tiết và áp dụng các xét nghiệm phân tử. Tuy nhiên với kỹ thuật này có thể phát hiện ra sự thay đổi cấu trúc nhƣ chèn, xóa là đáng kể, phát hiện đảo đoạn gen chỉ là số ít. b. Phƣơng pháp đơn phân tích phân tử Đơn phân tích phân tử[7] là một cách quan trọng để hình dung và hiểu đƣợc vị trí và cấu trúc của các biến thể lớn hơn ở cấp độ đơn phân tử. Phƣơng pháp phân tích này bao gồm các kỹ thuật nhƣ huỳnh quang lai tại chỗ (FISH), Fiber-FISH. Kỹ thuật này mang lại hiệu quả cho việc xác định những sự biến đổi cấu trúc chung và hiếm có của hệ gen. Tuy nhiên, chất lƣợng và độ phân giải không cao của các kỹ thuật trên gây ra giới hạn ứng dụng của chúng khi thực hiện trên các cấu trúc đặc biệt lớn (~ 500 kb - 5 Mb). Nhiều phƣơng pháp khác nhau đang đƣợc phát triển để sử dụng các đoạn DNA lớn hoặc dài hơn với quy mô lớn để hiển thị trực tiếp cải thiện độ phân giải và khả năng mở rộng của phƣơng pháp này. Lập bản đồ quang học là một kỹ thuật dựa trên một sửa đổi của bản đồ hạn chế truyền thống. Trong kỹ thuật này sự tiêu chuẩn hóa kỹ thuật đƣợc thực hiện trên DNA cố định để xác định kích thƣớc mảnh, nhỏ và thay đổi thứ tự tƣơng đối của DNA trên cơ sở so sánh với một mẫu tiêu chuẩn hóa trong phiên bản của chuỗi gen tham. Ban đầu, nó đƣợc phát triển để phân tích bộ gen của nấm men nhƣng đã đƣợc sử dụng để phân tích cấu trúc và tính quy mô của bộ gen ngƣời, những phát hiện về sự đảo đoạn, thay thế, cũng nhƣ thay đổi số lƣợng bản sao và điểm dừng của hệ gen. Lập bản đồ kỹ thuật quang học có Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 17 thông lƣợng rất hạn chế và toàn bộ phân tích của nó phụ thuộc vào bộ gen tham chiếu. Phƣơng pháp mã vạch DNA cũng đang đƣợc phát triển nhƣ là kỹ thuật thay thế đó sẽ là hữu ích để phát hiện thông lƣợng cao của sự khác biệt về cấu trúc cân bằng trong cấp độ tế bào trong tƣơng lai. c. Phƣơng pháp dựa trên trình tự gen Trong phƣơng pháp này đã giải quyết đƣợc các hạn chế ở các kỹ thuật trƣớc đó, kết quả đƣa ra làm giảm đƣợc chi phí về thời gian và cải thiện chất lƣợng của kết quả thu đƣợc. Trình tự hệ gen đƣợc dựa trên bốn nucleotide cơ bản, trình tự này của từng loài sinh vật sẽ đƣợc lƣu lại trong cơ sở dự liệu sinh học (Ngân hàng trình tự gen thế giới NCBI - National Center for Biotechnology Information)[1] , việc so sánh các cấu trúc hệ gen của các loài sinh vật với bộ gen dữ liệu tham chiếu sẽ đƣa ra đƣợc các kết luận thực tế về sự tiến hóa, sự phát triển của sinh vật. Sau đây là một số phƣơng pháp đọc trình tự gen: Phƣơng pháp Sanger Phƣơng pháp Sanger là phƣơng pháp đọc trình tự đầu tiên đã đƣợc sử dụng rộng rãi trong nhiều năm trƣớc đây. Phƣơng pháp dựa trên cơ sở kết hợp của các dideoxynucleotide (ddNTP) bằng DNA polymerase trong quá trình khuếch đại DNA trong ống nghiệm. Phƣơng pháp Pyrosequencing Năm 1996, Nyrén và Ronaghi đã phát minh ra kỹ thuật pyrosequencing[14]. Đối với phƣơng pháp đọc trình tự Sanger, quá trình đọc trình tự đƣợc thực hiện sau phản ứng khuếch đại DNA. Đối với phƣơng pháp pyrosequencing, quá trình đọc trình tự đƣợc thực hiện ngay trong giai đoạn tổng hợp sợi DNA bổ sung cho sợi khuôn, nghĩa là tổng hợp sợi DNA bổ sung đến đâu thì đọc trình tự đến đó. Nguyên lý của kỹ thuật đọc trình tự trong pyrorequencing là ghi nhận tín hiệu phát quang từ giếng phản ứng mỗi khi sợi bổ sung dựa trên sợi Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 18 khuôn kéo dài đƣợc một nucleotide. Để làm đƣợc điều này, dung dịch chứa các loại nucleotide A hoặcT hoặc C hoặc G đƣợc lập trình để cho vào giếng phản ứng có chứa đoạn DNA muốn đọc trình tự, mồi đọc trình tự, và các thành phần cho phản ứng tổng hợp sợi khuôn. Mỗi khi dung dịch nucleotide cho vào là đúng với nucleotide đƣợc bắt cặp vào sợi khuôn để tổng hợp sợi bổ sung thì sẽ giải phóng ra một pyrophosphate (PPi) sẽ đƣợc phóng ra và đƣợc enzyme sulfurylase chuyển hóa tạo ra một ATP, ATP này sẽ giúp hệ thống phát quang luciferin-luciferase phát ra ánh sáng do enzyme luciferase oxi hóa luciferin thành oxyluciferin và phát quang[15] . Với sự ghi nhận tín hiệu phát quang từ ống phản ứng theo trình tự bổ sung dung dịch các loại nucleotide, thiết bị pyrosequencing sẽ dịch ra trình tự các nucleotide trên đoạn DNA đƣợc đọc trình tự. Để huỷ đƣợc ATP và các nucleotide tự do còn thừa sau mỗi lần bổ sung nucleotide, enzyme apyrase cũng đƣợc cho vào giếng phản ứng sau khi tín hiệu phát quang đƣợc ghi nhận. Pyrosequencing là một bƣớc tiến về kỹ thuật trong đọc trình tự, cho phép đọc trình tự ngay trong quá trình tổng hợp sợi bổ sung đoạn DNA, do vậy pyrosequencing chính là công nghệ khởi đầu cho kỹ thuật “đọc trình tự tổng hợp”, nền tảng của kỹ thuật đọc trình tự bộ gen hay còn gọi là kỹ thuật đọc trình tự thế hệ mới sau này. Với ƣu thế thời gian đọc trình tự nhanh, độ chính xác cao, nên pyrosequencing có nhiều ứng dụng và có ƣu thế hơn kỹ thuật đọc trình tự Sanger, đặc biệt là trong chẩn đoán và chỉ định điều trị bệnh[16]. Vì đây là kỹ thuật mở, và có sẵn các bộ hóa chất thƣơng mại, cho nên pyrosequencing là một kỹ thuật không thể thiếu trong các phòng thí nghiệm sinh học phân tử. Phƣơng pháp đọc trình tự thế hệ mới Đọc trình tự thế hệ mới là một bƣớc tiến vƣợt bậc về công nghệ đọc trình tự. Từ khả năng đọc trình tự đoạn ngắn 1500 bp (Sanger) hay 100 bp Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 19 (pyrosequencing), đọc trình tự thế hệ mới cho phép đọc đƣợc từ 8 Gb đến 600 Gb, có nghĩa là cho phép đọc trình tự nguyên bộ gen. Do vậy đọc trình tự thế hệ mới còn đƣợc gọi là đọc trình tự bộ gen. Đọc trình tự thế hệ mới dựa trên 2 nguyên lý chính sau: Thứ nhất, đọc trình tự bằng tổng hợp (sequencing by synthesis, SBS) thƣờng đƣợc các thế hệ máy Roche 454, Ion Torrent và Illumina sử dụng. SBS liên quan đến việc sử dụng một hỗn hợp các dNTP đƣợc biến đổi tại vị trí 2‟. Hỗn hợp này bao gồm các dNTP bổ sung tự nhiên và các dNTP bổ sung có đánh dấu huỳnh quang. Quá trình xác định trình tự sẽ diễn ra tƣơng tự nhƣ phản ứng PCR thông thƣờng. Đầu tiên một đoạn trình tự mồi nằm trên đoạn adapter sẽ đƣợc gắn vào phần cuối của đoạn gDNA khuôn cần đọc trình tự. Sau đó, việc xác định trình tự đƣợc thực hiện bằng cách gắn lần lƣợt từng dNTP bổ sung có đánh dấu huỳnh quangvào phần cuối của trình tự mồi trên theo chu trình 3 bƣớc: Một polymerase kết hợp với một dNTP kết thúc có đánh dấu huỳnh quang và gắn bổ sung với base trên đoạn gen cần đọc trình tự; Thiết bị sẽ ghi lại hình ảnh, phần mềm sẽ phân tích hình ảnh thu đƣợc để xác định phân tử dNTP nào đƣợc kết hợp và từ đó tìm ra đƣợc trình tự bổ sung. Nhóm kết thúc đầu 3‟ và tín hiệu huỳnh quang sẽ đƣợc cắt bỏ bằng phƣơng pháp hóa học. SBS xác định trình tự các đoạn gen theo chiều từ đầu 5‟ đến 3‟. Quá trình này đƣợc lặp lại cho đến khi toàn bộ chiều dài của đoạn gen đƣợc đọc trình tự. Về mặt lý thuyết, độ dài đoạn đƣợc đọc bằng SBS có thể lên đến hàng trăm trình tự. Nguyên lý thứ hai, đọc trình tự gắn nối (sequencing by ligation, SBL) đƣợc sử dụng ở máy SOLiD. Phƣơng pháp xác định trình tự bằng phản ứng ghép nối (SBL): đƣợc phát minh bởi George Church. SBL đã đƣợc sử dụng Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 20 để xác định trình tự gen và là nền tảng cho các thiết bị đọc trình tự thế hệ mới. SBL là một chu trình tuần hoàn gồm 4 bƣớc: Đƣa vào các primer neo đƣợc thiết kế trình tự bổ sung với trình tự trên adapter. Quá trình lai của nonamers ngẫu nhiên với nhau. Mỗi hỗn hợp nonamer gồm có 4 loại nonamers, mỗi loại có các trình tự và vị trí đã đƣợc biết đến. Các chất phát quang khác nhau đƣợc gắn ở cuối của mỗi loại nonamer sẽ cho phép xác định trình tự trên nonamer. Các nonamer lai với các primer neo. Sau đó, thiết bị ghi hình và phần mềm sẽ xác định trình tự ở vị trí tham chiếu. Primer neo, phức hệ nonamer đƣợc đọc phóng và quá trình đƣợc lặp lại cho các vị trí query trong hỗn hợp nonamer. SBL hoạt động trong cả hai chiều: chiều xuôi (5 'đến 3') và chiều ngƣợc (3 'đến 5'). Công nghệ đọc trình tự gen thế hệ mới theo 3 bước chính như sau: Bƣớc 1 : Chuẩn bị các đoạn DNA và gắn lên các giá bám: Trƣớc hết DNA của bộ gen đƣợc cắt nhỏ thành các đoạn DNA ngắn nhờ siêu âm hay nhờ khí dung, sau đó 2 đầu các đoạn DNA ngắn này đƣợc gắn 2 đoạn adapter có trình tự nhận biết bởi các đoạn dò và trình tự mồi PCR. Các đoạn DNA này sẽ đƣợc gắn lên các giá bám là các hạt nano (Roche 454, SOLiDhay Ion Torrent) hay trên các vi bản (Illumina) nhờ các đoạn dò đặc hiệu adapter đã gắn sẵn trên các giá bám này. Bƣớc 2: Khuếch đại các đoạn DNA trên giá bám bằng mồi đặc hiệu adapter: Nếu giá bám là vi bản thì thành phần PCR đƣợc bơm trải lên vi bản và khi thực hiện PCR sẽ có từng cụm sản phẩm khuếch đại đƣợc gắn trên các vị trí tách rời nhau. Nếu giá bám là các vi hạt thì phải nhủ hoá thành phần PCR để các giọt nhủ chỉ chứa một vi hạt, nhờ vậy sau khi thực hiện PCR mỗi vi hạt chỉ có một loại sản phẩm khuếch đại bám lên. Sau đó, các vi hạt đƣợc loại bỏ nhủ dịch và bơm vào một vi chip có chứa hàng chục ngàn Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
- Xem thêm -

Tài liệu liên quan