BỘ GIÁO DỤC
VÀ ĐÀO TẠO
VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-----------------------------
Trần Huyền Linh
XÂY DỰNG CƠ SỞ DỮ LIỆU VỀ TẦN SỐ ALLELE 22
LOCUS ĐA HÌNH STR TRÊN NHIỄM SẮC THỂ
THƯỜNG Ở QUẦN THỂ NGƯỜI MÔNG TẠI HÀ GIANG,
VIỆT NAM
LUẬN VĂN THẠC SĨ
CÔNG NGHỆ SINH HỌC
Hà Nội - 2020
BỘ GIÁO DỤC
VÀ ĐÀO TẠO
VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-----------------------------
Trần Huyền Linh
XÂY DỰNG CƠ SỞ DỮ LIỆU VỀ TẦN SỐ ALLELE 22
LOCUS ĐA HÌNH STR TRÊN NHIỄM SẮC THỂ
THƯỜNG Ở QUẦN THỂ NGƯỜI MÔNG TẠI HÀ GIANG,
VIỆT NAM
Chuyên ngành: Sinh học thực nghiệm
Mã số: BIO2018
LUẬN VĂN THẠC SĨ
Công nghệ sinh học
NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS. TS. Chu Hoàng Hà
Hà Nội - 2020
Lời cam đoan
Tôi xin cam đoan những nội dung viết trong luận văn là do sự tìm tòi,
học hỏi và nghiên cứu của bản thân với sự hướng dẫn tận tình của PGS. TS.
Chu Hoàng Hà và các đồng nghiệp tại Viện Công nghệ sinh học, Viện Hàn lâm
Khoa học và Công nghệ Việt Nam.
Mọi kết quả nghiên cứu cũng như ý tưởng của các tác giả khác (nếu có)
đều được trích dẫn cụ thể. Đề tài luận văn này cho đến nay chưa được bảo vệ
tại bất kỳ một hội đồng bảo vệ luận văn thạc sĩ nào và cũng chưa được công bố
trên bất kỳ phương tiện nào. Tôi xin chịu trách nhiệm về những lời cam đoan
trên.
Hà Nội, ngày 28 tháng 5 năm 2020
Người cam đoan
Trần Huyền Linh
Lời cảm ơn
Để hoàn thành được Luận văn cao học này, tôi xin bày tỏ lời cảm ơn đến
PGS. TS. Chu Hoàng Hà đã trực tiếp định hướng, hướng dẫn tôi một cách tận
tình và giúp đỡ tôi xây dựng ý tưởng để hoàn thiện luận văn.
Tôi xin cảm ơn tập thể lãnh đạo Viện Công nghệ sinh học, lãnh đạo và cán
bộ Phòng thí nghiệm Trọng điểm Công nghệ Gen – Viện Công nghệ sinh học
đã tạo điều kiện thuận lợi cho tôi trong suốt quá trình học tập và thực hiện
nghiên cứu đề tài.
Tôi xin trân trọng cảm ơn ban lãnh đạo cùng các thầy cô giáo Khoa Sinh
học, Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ
Việt Nam đã truyền đạt kiến thức và giúp đỡ tôi trong quá trình học tập và thực
hiện luận văn.
Cuối cùng, tôi xin bày tỏ lòng biết ơn đến gia đình, người thân, bạn bè và
đồng nghiệp, những người đã luôn động viên, tạo điều kiện cho thôi hoàn thành
luận văn này./.
Học viên
Trần Huyền Linh
Danh mục các ký hiệu và chữ viết tắt
Chữ viết tắt
Nội dung
ADN
Deoxyribonucleic acid
nt
nucleotide
FTA
Tên riêng của một loại giấy thu mẫu máu
NST
nhiễm sắc thể
STR
Short tandem repeat
PCR
Polymerase chain reaction
MP
Match probability
DC
Discrimination capacity
PE
Power of Exclusion
PIC
Polymorphic information content
PI
Paternity Index
RFLP
Restriction Fragment Length Polymorphism
ESS
European Standard Set
FBI
Federal Bureau of Investigation
VNTR
Variable number of tandem repeat
EH
Expected Heterozygosity
OH
Observed Heterozygosity
NJ
Neighbor Joining
SWGDAM
Scientific Working Group on DNA Analysis Methods
LD
Linkage - Disequilibrium
Danh mục các bảng
Bảng 1.1. Thông tin về vị trí và tốc độ đột biến của một số locus thường dùng
theo cơ sở dữ liệu STRbase .............................. 15
Bảng 1.2. Thông tin về vị trí và trình tự của một đơn vị lặp của các locus có
trong bộ kit PowerPlex Fusion System theo thông tin của nhà sản xuất ...19
Bảng 2. Bảng thành phần phản ứng khuếch đại ..................29
Bảng 3.1. Số lượng allele mỗi locus ..........................33
Bảng 3.2. Bảng tần số allele 22 locus STR trên NST thường của Mông, tại Hà
Giang - Việt Nam ......................................35
Bảng 3.3. Các allele có tần số thấp phát hiện được trong quần thể ......41
Bảng 3.4. Kết quả kiểm định cân bằng HWE bằng phần mềm Arlequin v3.5
..................................................42
Bảng 3.5. Kết quả tính các chỉ số EH và OH của từng locus ..........44
Bảng 3.6. Bảng ma trận đánh giá linkage disequilibrium của các locus ...46
Bảng 3.7. Các chỉ số MP, PE, DC và PIC của các locus .............51
Danh mục các hình vẽ, đồ thị
Hình 1.1 Các locus thuộc bộ CODIS của FBI và vị trí trên NST người ....5
Hình 1.2. Kết quả các băng thu được sau phân giải bằng enzyme giới hạn và lai
Southern của một đại gia đình ..............................12
Hình 1.3. Kết quả thu được so sánh giữa hai phương pháp sử dụng nhiều locus
và các đơn locus dựa trên phương pháp RFLP ...................13
Hình 1.4. Hình ảnh kết quả điện di mao quản của một số locus sử dựng phương
pháp PCR và gắn huỳnh quang trên mỗi locus ...................13
Hình 1.5. Cơ chế sinh đột biến STR do gấp đoạn trong quá trình nhân bản 16
Hình 1.6. Quá trình xác định kích thước của một allele dựa trên ô thang chuẩn
........................................................................................................................ 19
Hình 1.7. Sự phân bố các nhánh ngôn ngữ thuộc hệ Mông - Dao tại Việt Nam.
..................................................24
Hình 1.8. Cây phát sinh chủng loại miêu tả mối quan hệ di truyền gần gũi giữa
quần thể người Kinh và một số quần thể khác ...................25
Hình 2.1. Bản đồ hành chính tỉnh Hà Giang .....................26
Hình 2.2. Độ dài và loại dye được sử dụng cho mỗi locus trong bộ kit ...28
Hình 2.3. Chu trình nhiệt của phản ứng khuếch đại với 28 chu kỳ ......29
Hình 3.1. Biểu đồ màu theo giá trị chỉ số MP của từng locus..........47
Hình 3.2. Biều đồ màu theo giá trị chỉ só PE của từng locus ..........48
Hình 3.3. Biều đồ màu theo giá trị DC của từng locus ..............49
Hình 3.4. Biểu đồ màu theo giá trị của chỉ số PI của các locus .........50
Hình 3.5. Hình ảnh giao diện phần mềm STR-VN version 1.0 .........52
Hình 3.6. Cây phát sinh chủng loại về mối tương quan di truyền giữa người
Mông và các quần thể khác ...............................54
1
MỤC LỤC
MỞ ĐẦU ............................................3
CHƯƠNG 1. TỔNG QUAN TÀI LIỆU .......................5
1.1.
Tổng quan về đoạn lặp ngắn ngẫu nhiên – STR ...........5
1.1.1.
Short tandem repeat – STR .......................5
1.1.2.
Bộ kit Powerplex Fusion system được sử dụng trong giám định
.........................................18
1.1.3.
Cơ sở dữ liệu tần số STR ........................21
1.1.4.
Di truyền quần thể và dân tộc .....................21
1.2.
Tình hình nghiên cứu trong và ngoài nước .............24
CHƯƠNG 2. NGUYÊN VẬT LIỆU VÀ PHƯƠNG PHÁP NGHIÊN
CỨU ..............................................26
2.1.
Nguyên vật liệu ................................26
2.1.1.
Địa điểm thu mẫu.............................26
2.1.2.
Thu thập và bảo quản ..........................27
2.2.
Phương pháp nghiên cứu .........................27
2.2.1.
Khuếch đại đoạn gen ..........................27
2.2.2.
Tính toán tần số và các chỉ số pháp y ................30
2.2.3. Xác định mối liên hệ giữa quần thể người Mông tại Hà Giang và
các quần thể khác ..................................31
CHƯƠNG 3. KẾT QUẢ VÀ THẢO LUẬN ...................32
3.1.
Kết quả thu mẫu và khuếch đại ADN .................32
3.2. Kết quả tính tần số các locus và xác định các allele có tần số
thấp ...........................................34
3.3.
Kết quả phân tích thống kê ........................42
3.3.1.
Kiểm định cân bằng Hardy-Weinberg ...............42
3.3.2.
Gía trị dị hợp tử mong đợi và quan sát được ...........44
3.3.3.
Kiểm tra tính di truyền liên kết của các locus STR .......45
3.4.
Kết quả phân tích các chỉ số pháp y ..................47
2
3.4.1.
Chỉ số khả năng trùng hợp ngẫu nhiên - Match probability (MP)
.........................................47
3.4.2.
Chỉ số khả năng loại trừ - Power of Exclusion ..........47
3.4.3.
Chỉ số khả năng phân biệt – Discrimination capacity......48
3.4.4.
Chỉ số đa hình - Polymorphic information content .......49
3.4.5.
Chỉ số Parternity index – PI ......................49
3.5.
Các chỉ số pháp y đánh giá tần số các allele của một quần thể 50
3.6. Kết quả phân tích mối tương quan di truyền với các quần thể
khác ...........................................52
CHƯƠNG 4. KẾT LUẬN VÀ KIẾN NGHỊ ...................55
4.1.
Kết luận .....................................55
4.2.
Kiến nghị ....................................56
TÀI LIỆU THAM KHẢO ...............................57
PHỤ LỤC ..........................................62
Phụ lục 1: Kết quả khuếch đại các locus STR của mẫu đối chứng
dương ...........................................62
Phụ lục 2: Kết quả khuếch đại các locus STR của mẫu đối chứng âm63
Phụ lục 3: Kết quả kiểm định Chi-square các cặp locus về lingkage
disequilirium ......................................64
Phụ lục 4: Thông tin các mẫu tham gia đề tài ................85
3
MỞ ĐẦU
Short tandem repeat - STR là các đoạn trình tự ngắn, được cấu thành
bằng sự lặp lại của khoảng 2 – 7 nucleotide. Trong hệ gen của người, các STR
nằm rải rác khắp nơi, chúng nằm trong vùng không mã hóa, giữa các gen và
chiếm khoảng 3% hệ gen người. Do vị trí đặc thù của STR, chúng có độ đa
dạng cao về độ dài và trình tự lặp lại mà không ảnh hưởng đến hoạt động sống
của con người. STR có tính bảo thủ cao, được truyền từ bố mẹ sang con cái, vì
vậy mà các STR khác nhau giữa các cá thể khác nhau không có quan hệ huyết
thống trực hệ. STR là các chỉ thị phân tử được ứng dụng rộng rãi trong các phân
tích khoa học hình sự, cụ thể là công tác xác định danh tính, là công cụ đắc lực
trong các vụ án hình sự phức tạp như cưỡng hiếp tập thể hoặc khi các dấu vết
còn sót tại hiện trường không đủ cung cấp thông tin cho công tác điều tra [1],
[2]. STR cũng được sử dụng trong nghiên cứu di truyền quần thể hay cho mục
đích khảo cổ học. Mỗi một quần thể người đều có những đặc trưng sinh học
riêng biệt hình thành trong quá trình sống qua nhiều thế hệ, trong đó ở cấp độ
ADN, được thể hiện bằng sự phân bố khác nhau về tần suất allele trong mỗi
nhóm dân tộc [3]. Việc thu thập dữ liệu STR các dân tộc sinh sống tại Việt Nam
đã và đang được triển khai rộng khắp kể từ những năm 2000. Ngoài ứng dụng
trong phân tích gen hình sự, các kết quả khảo sát còn được sử dụng trong nghiên
cứu độ đa dạng về mặt nhân chủng học và xây dựng cơ sở dữ liệu về tần số
phân bố allele trong quần thể người Việt Nam [4]–[6]. Tuy nhiên, việc thu thập
dữ liệu nhiều dân tộc thiểu số vùng cao còn gặp nhiều khó khăn do địa bàn cư
trú cách biệt và dân số thấp. Không chỉ vậy, Việt Nam cũng nằm trong vùng
địa lý có lịch sử nhân chủng học rất phức tạp, đang còn nhiều tranh cãi về nguồn
gốc, con đường hình thành các chủng người hiện đại đang sinh sống đó là khu
vực Đông Nam Á [7]–[10]. Do đó nghiên cứu về các quần thể người sinh sống
tại Việt Nam nói chung, về người Mông nói riêng còn rất hạn chế và chưa có
một nghiên cứu chính thức nào được tiến hành.
Thực trạng đặt ra yêu cầu cấp thiết là phải xây dựng bộ cơ sở dữ liệu
STR cho nhóm dân tộc Mông sinh sống tại Việt Nam nhằm lưu trữ và phục vụ
cho truy xuất nguồn gốc, xác định danh tính trong công tác giám định pháp y,
4
cũng như cho công tác nghiên cứu di truyền học, nhân chủng học và bảo tồn tại
Việt Nam. Do đó, chúng tôi tiến hành thực hiện đề tài: “Xây dựng cơ sở dữ
liệu về tần số allele 22 locus đa hình STR trên nhiễm sắc thể thường ở quần
thể người Mông tại Hà Giang, Việt Nam”, nhằm : i) Xây dựng bộ số liệu tần
số allele của 22 locus đa hình STR trên nhiễm sắc thể thường của người Mông;
ii) Đánh giá các chỉ số thống kê đặc trưng của tần số allele, chỉ số đa dạng di
truyền của quần thể; iii) Xác định mối quan hệ di truyền của người Mông với
các quần thể gần gũi khác.
Ý nghĩa của nghiên cứu : Nghiên cứu cung cấp cơ sở dữ liệu tần số
STR nhiễm sắc thể thường phục vụ cho công tác giám định gen, xác định huyết
thống và nghiên cứu đa dạng di truyền quần thể.
5
CHƯƠNG 1. TỔNG QUAN TÀI LIỆU
1.1. Tổng quan về đoạn lặp ngắn ngẫu nhiên – STR
1.1.1. Short tandem repeat – STR
1.1.1.1. STR là gì
ADN đã được ứng dụng trong thực tế nghiên cứu pháp y từ thế kỉ XX,
đi cùng với sự phát triển của công nghệ giải mã hệ gen người. Trong công tác
giám định pháp y, dấu hiệu sinh học dựa trên ADN cung cấp rất nhiều thông
tin đặc biệt quan trọng và cũng là một bước nhảy của khoa học hình sự. ADN
mang những đặc điểm hóa sinh ưu thế khi mà các dấu vết sinh học khác còn có
thể thu thập được ở hiện trường thường rất ít, bị phân hủy nhanh chóng và tiêu
tốn thời gian. Hàng nghìn vụ án đã được đưa ra ánh sáng với sự hỗ trợ đắc lực
của công nghệ giám định ADN. Hiện nay, đối với giám định ADN trong khoa
học hình sự cả trong và ngoài nước thì các chỉ thị short tandem repeats (STR)
được sử dụng rất phổ biến do dựa trên phản ứng khuếch đại gen – polymerase
chain reaction (PCR), có độ đặc hiệu cao cũng như cho phép thực hiện đối với
Hình 1.1 Các locus thuộc bộ CODIS của FBI và vị trí trên NST người
6
các loại mẫu phức tạp. Điển hình các tổ chức lớn như FBI (Federal Bureau of
Investigation) đã công bố quy trình thường quy cho sử dụng 13 locus STR
(CODIS) (Hình 1.1) hay Interpol cũng xác định bộ 10 locus STR chuẩn cho
nước Anh và các nước Châu Âu cho công tác giám định xác định danh tính.
Tại Việt Nam, việc sử dụng STR trong công tác giám định xác định danh tính
cũng được sử dụng thường quy tại các viện Pháp y trong cả nước.
STR là đoạn trình tự đa hình nằm trong vùng không mã hóa, có cấu trúc
gồm các đoạn lặp lại của một trình tự nt có độ dài khoảng 2 – 7 bp, chiếm
khoảng 3% hệ gen người. Do nằm ngoài vùng mã hóa, các STR rất đa dạng
giữa người với người về độ dài (có thể lên đến hàng nghìn base), trình tự đoạn
lặp mà không ảnh hưởng đến hoạt động sinh học của tế bào. Các đoạn lặp lại
này nằm rải rác ở khắp nơi trong hệ gen của người. Từ những năm 1990 đến
nay đã có hàng chục nghìn STR trên các nhiễm sắc thể (NST) được phát hiện.
Trong quá trình phân bào, các đoạn STR này không bị phân cắt, chúng có tính
bảo thủ cao. Ngoại trừ trường hợp song sinh cùng trứng, số lượng lặp lại của
các STR là độc nhất cho từng cá thể, được di truyền từ bố mẹ sang con cái và
phân biệt các cá thể không có quan hệ huyết thống trực hệ. Do đó các cá thể
này sẽ mang bộ số lượng đoạn lặp lại khác nhau của các STR [1], [2]. Bộ chỉ
thị gồm nhiều các STR nằm trên các nhiễm sắc thể khác nhau cho phép phân
biệt các cá thể riêng biệt, ngay cả với những cá thể có quan hệ họ hàng gần gũi.
Đối với nghiên cứu di truyền quần thể, cơ sở di truyền của nghiên cứu dựa trên
hai định luật căn bản của di truyền học Mendel đó là định luật di truyền phân
ly độc lập và định luật di truyền phân ly. Do đó, các chỉ số về di truyền liên kết
cân bằng và cân bằng Hardy-Weinberg được kiểm định đồng thời các phép tính
thống kê được sử dụng nhằm tăng tính chính xác, giảm sai số trong phân tích
[11]. Trong giám định hình sự, xác định danh tính có thể được hiểu là sự so
sánh hồ sơ ADN của một người nào đó, lấy từ mẫu sinh học vương lại hoặc từ
7
các dấu vết như vết máu tại hiện trường của một vụ án với một người khác có
mối liên quan nhằm xác định danh tính hoặc loại trừ khả năng.
1.1.1.2. Phân loại và danh pháp
STR được phân loại dựa trên số lượng nucleotide được lặp lại, ví dụ
dinucleotide cho 2 nucleotide, trinucleotide cho 3 nucleotide…
Tuy nhiên, STR cũng có thể phân loại bằng một vài cách khác dựa trên tính
phức tạp của trình tự lặp lại. Các STR đơn giản là các STR cấu thành bởi sự lặp
lại của một trình tự nucleotide (ví dụ (GATA)n) hay STR phức là các đoạn được
cấu thành bởi sự lặp lại của 2 hoặc nhiều hơn trình tự nucleotide (ví dụ (CG)m–
(CA)n).
Danh pháp hay tên của từng đoạn STR được đặt theo tên của gen nếu
locus này nằm một phần hoặc nằm toàn bộ trong gen. Ví dụ chỉ thị STR TH01
có nguồn gốc từ tên gen tổng hợp enzym tyrosine hydroxylase của người, nằm
trên NST số 11. Chữ "TH" xuất phát từ chữ cái đầu tyrosine hydroxylase. Phần
"01" của ký hiệu "TH01" xuất phát từ vùng intron 1 của gen tổng hợp enzym
tyrosine hydroxylase. Các trình tự ADN nằm ngoài vùng gen thì được xác định
tên bằng vị trí của chúng trên NST. Ví dụ như locus D5S818 hay DYS19 là các
locus nằm ngoài vùng gen mã hóa, chữ “D” kí hiệu cho ADN, các kí hiệu tiếp
theo lần lượt là NST số 5/ Y cho NST Y; “S” có nghĩa là trình tự chỉ có một
bản copy trên genome; con số cuối tên là thứ tự chỉ thị này được phát hiện và
sắp xếp theo từng NST cụ thể.
1.1.1.3. Các chỉ thị STR thiết yếu
Đối với công tác giám định, việc sử dụng một bộ các chỉ thị theo một
tiêu chuẩn là cần thiết vì sự chính xác và đồng nhất của các kết quả giám định.
Bộ các chỉ thị được sử dụng rộng rãi ngày nay đã được nghiên cứu và phát triển
ở phòng thí nghiệm của tiến sĩ Thomas Caskey tại Trường đại học Y khoa
8
Baylor cùng với viện Forensic Science Service tại Anh thực hiện vào đầu những
năm 1990. Những chỉ thị này được sử dụng nhiều hơn trong các kit xét nghiệm
của hãng Promega (Mỹ) so với kit của hãng Applied Biosystems (Mỹ). Bộ kit
thương mại được đưa ra thị trường đầu tiên được giới thiệu bởi hãng Promega
năm 1994. Đây là bước nhảy lớn cho ứng dụng rộng rãi của STR trong công
tác giám định pháp y. Bộ kit bao gồm các locus CSF1PO, TPOX và TH01, là
các chỉ thị dạng “CTT”. Các chỉ thị triplex thường có chỉ số xác xuất trùng hợp
ngẫu nhiên chỉ khoảng 1/500 nhưng lại được sử dụng rộng rãi tại Mỹ do đây là
bộ kit thương mại đầu tiên cho phép khuếch đại cùng lúc nhiều chỉ thị với chi
phí thấp [11].
Vào năm 1990, Cục điều tra liên bang Mỹ - FBI đã khởi động một sự án
thăm dò trên tổng cộng 14 bang và phòng thí nghiệm liên quan tại địa phương.
Dự án được biết với tên “The DNA Identification Act” nhằm mục đích xây
dựng
hệ
thống
dữ
liệu
quốc gia cho
công
tác điều
(https://www.fbi.gov/services/laboratory/biometric-analysis/codis).
tra
án
Năm
1997, một bộ gồm 13 chỉ thị STR đã được chọn cho dự án xây dựng cơ sở dữ
liệu của hệ thống Combined DNA Index System - CODIS. Các chỉ thị bao gồm
các locus CSF1PO, FGA, TH01, TPOX, vWA, D3S1358, D5S818, D7S820,
D8S1179, D13S317, D16S539, D18S51, và D21S11 (Hình 1.1). Với bộ chỉ thị
này, chỉ số trùng hợp ngẫu nhiên đã được nâng lên đến 1/1000000 trên các cá
thể không có mối quan hệ huyết thống. Trong 13 locus thì các locus FGA,
D18S51 và D21S11 có tính đa hình cao nhất. Một locus được sử dụng phổ biến
thì có đặc tính riêng, trên cả số lượng allele, dạng trình tự lặp hay ngay cả các
điểm đa dạng phổ biến quan sát được.
1.1.1.4.
Lịch sử nghiên cứu và phát triển của phương pháp giám
định gen trong khoa học hình sự
9
Thuật ngữ “DNA fingerprinting” được miêu tả lần đầu tiên vào năm
1985 bởi nhà di truyền học người Anh Alec Jeffreys. Tiến sĩ Jeffreys đã tìm
thấy các vùng gen nhất định chứa các đoạn trình tự lặp lại tuần tự, nối tiếp nhau
khi nghiên cứu các đoạn phát huỳnh quang gắn đa locus. Ông cũng phát hiện
ra rằng số đoạn lặp lại của các đoạn trình tự đặc biệt kia có tính cá thể cao, khác
nhau giữa các cá thể khác nhau. Bằng cách phát triển một công nghệ giúp kiểm
tra sự đa dạng của các đoạn lặp trên, tiến sĩ Jeffeys đã tạo ra phương thức định
danh người [12]. Phát hiện đó đã mở ra một kỷ nguyên mới trong khoa học.
Công nghệ này không chỉ nâng tầm khả năng ứng dụng trong nhiều lĩnh vực
như sinh học hệ thống, đa dạng sinh học, y học lâm sàng và cả trong khảo cổ
học. Những ứng dụng của công nghệ này đã vượt ra khỏi phạm vi nghiên cứu
khoa học thuần túy khi mà lần đầu tiên ứng dụng thành công trong điều tra án
và chiến tranh bắt đầu từ năm 1987.
Phương pháp xác định dấu vân tay ADN – DNA fingerprinting cổ điển
sử dụng phương pháp cắt enzyme giới hạn (RFLP) và Southern blot. Các đoạn
vi vệ tinh hoặc các đoạn lặp lại được gắn với probe phóng xạ. Liên kết này sẽ
bị phân giải bởi enzyme giới hạn, phân tách thành các đoạn riêng rẽ khi điện di
gel agarose và cố định lên màng bằng lai Southern blot. Do chứa các trình tự
nhận biết bởi enzyme giới hạn ở các vị trí khác nhau trên genome, các đoạn
ADN đích (vi vệ tinh hoặc các đoạn lặp) sẽ bị cắt khỏi genome thành các đoạn
có kích thước khác nhau theo số đơn vị đoạn lặp. Các đoạn này sẽ được rửa và
hiển thị trên phim X-Quang và được dùng để so sánh giữa các cá thể. Các đoạn
vi vệ tinh được gọi là 33,6 và 33,15 được dùng phổ biến ở Anh, phần lớn các
nước khối EU và Hoa Kỳ. Mặt khác, đoạn lặp năm – pentameric (CAC)/(GTG)5
lại được dùng phổ biến tại Đức. Những chỉ thị này cũng được gọi là các probe
đa locus có thể hiện thị được dải 15 - 20 trình tự có kích thước từ 3,5 đến 20
kb. Hình 1.2 là hình ảnh ví dụ một kết quả một bộ hồ sơ ADN của các cá thể
10
trong một gia đình. Tuy nhiên phương pháp này cho thấy một số hạn chế khi
ứng dụng trong điều tra án hoặc các xét nghiệm xác định huyết thống khi mà
điều kiện chạy hoặc chất lượng ADN quyết định rất lớn đến tính chính xác của
các băng ADN hiển thị được. Cho đến giữa những năm 1990, các phòng thí
nghiệm hình sự đã kết hợp với nhau để quy định cách tính các băng ADN dựa
trên các ô thang cố định nhằm khắc phục khó khăn trên. Các ô thang này quy
định tương đối vị trí các đoạn ADN quan sát được trên một ảnh điện di tiêu
chuẩn theo kích thước, từ đó làm tăng khả năng phân biệt của hệ thống. Hạn
chế thứ hai đến từ việc khi hồ sơ ADN không rõ danh tính, có nghĩa là không
rõ nguồn, thì dẫn đến các sai số thống kê do có thể có khả năng các locus di
truyền liên kết với nhau. Thêm nữa, để thu được một bộ hồ sơ ADN hoàn chỉnh
thì cần phải dùng một khối lượng phân tử ADN lớn, dẫn đến làm giảm khả năng
ứng dụng của phương pháp khi mà trên thực tế vụ án thì các mẫu sinh học lưu
lại tại hiện trường thường không lớn hoặc có thể phải xâm hại nhiều vào các
bằng chứng. Phương pháp sử dụng các locus đơn đã ra đời ngay trong năm
1987 nhằm khắc phục các hạn chế của phương pháp ban đầu [13]. Phương pháp
này có cùng nguyên lý hoạt động nhưng sử dụng một bộ gồm bốn locus đơn,
mỗi locus có hai allele. Phương pháp này chỉ cần 10 ng ADN và đã được kiểm
định bởi các thí nghiệm mở rộng và thực tế điều tra án (Hình 1.3). Tuy nhiên,
nhìn chung các phương pháp sử dụng RFLP vẫn mang nhiều hạn chế về độ
nhạy và độ đặc hiệu, cũng như khó có thể so sánh các kết quả từ các phòng thí
nghiệm khác nhau. Sau đó, phương pháp dựa trên PCR đã dần thay thế phương
pháp cũ bởi tính nhạy, tốc độ, và đặc hiệu của nó. Microsatelites – các vi vệ
tinh, được biết tới rộng rãi trong cộng đồng pháp y là các STR, được phát hiện
và trở thành chỉ thị lý tưởng cho các ứng dụng trong pháp y. Hồ sơ STR có độ
nhạy cao hơn so với các phương pháp RFLP đơn locus cũ, ít bị mất allele –
hiện tượng allele dropout như đối với hệ thống sử dụng các tiểu vệ tinh VNTR
và có khả năng phân biệt tốt hơn các phương pháp sử dụng HLA-DQA1. Do
11
đó, số lượng các công bố khoa học về các công nghệ này đã lên tới hàng nghìn,
thực hiện trên hàng trăm quần thể khác nhau, với nhiều công nghệ mới đã được
giới thiệu. Ngày nay, các bộ sinh phẩm được sử dụng đều dùng một panel nhiều
các chỉ thị STR đa allele. Các chỉ thị này có cấu trúc tương tự như các vi vệ
tinh đã được sử dụng nhưng có kích thước ngắn hơn, dễ dàng khuếch đại hơn
bằng PCR. Trong một lần chạy điện di mao quản có thể cùng lúc điện di lên
đến 30 chỉ thị STR khác nhau cho một cá thể [14].
12
Hình 1.2. Kết quả các băng thu được sau phân giải bằng enzyme giới hạn và lai
Southern của một đại gia đình
13
Hình 1.3. Kết quả thu được so sánh giữa hai phương pháp sử dụng nhiều locus và các đơn
locus dựa trên phương pháp RFLP
Hình 1.4 là hình ảnh điển hình cho một kết quả điện di mao quản các locus
STR gắn hình quang và được đo đếm bằng số đoạn lặp.
Hình 1.4. Hình ảnh kết quả điện di mao quản của một số locus sử dựng phương pháp PCR và
gắn huỳnh quang trên mỗi locus
- Xem thêm -