BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CẦN THƠ
HUỲNH PHƯỚC HẢI
MÔ HÌNH XỬ LÝ HIỆU QUẢ DỮ LIỆU
BIỂU HIỆN GEN
LUẬN ÁN TIẾN SĨ
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ NGÀNH 62480104
NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS. TS. ĐỖ THANH NGHỊ
TS. NGUYỄN VĂN HÒA
CẦN THƠ, 2019
LỜI CẢM ƠN
Để hoàn thành luận án này tôi đã nhận được sự hướng dẫn, quan tâm,
giúp đỡ nhiệt tình từ quý Thầy Cô, bạn bè và người thân. Tôi xin gửi lời cảm
ơn chân thành đến:
Thầy PGS.TS. Đỗ Thanh Nghị và Thầy TS. Nguyễn Văn Hòa đã tận tình
chỉ bảo, hướng dẫn, động viên và tạo mọi điều kiện tốt nhất cho tôi trong quá
trình học tập và nghiên cứu.
Thầy, Cô và các anh, chị của khoa Công nghệ thông tin và Truyền thông,
trường Đại học Cần Thơ đã cung cấp thêm kiến thức, tạo mọi điều kiện cho
tôi và quan tâm, hỗ trợ tôi trong quá trình học tập.
Ban giám hiệu trường Đại học An Giang, Ban chủ nhiệm Khoa Công nghệ
thông tin đã tạo điều kiện để tôi được tham gia học tập nâng cao trình độ
chuyên môn, các bạn đồng nghiệp đã không ngừng động viên và giúp đỡ tôi
trong suốt thời gian học tập.
Sau cùng tôi xin chân thành cảm ơn sâu sắc đến gia đình và người thân đã
giúp đỡ, động viên tôi trong suốt quá trình học tập và tạo điều kiện tốt nhất
để tôi hoàn thành luận án.
NCS Huỳnh Phước Hải
ii
TÓM TẮT
Trong những năm gần đây, ung thư là một trong những nguyên nhân hàng
đầu gây tử vong trên toàn thế giới. Do đó, ngày càng có nhiều nghiên cứu
được thực hiện để tìm giải pháp hiệu quả chẩn đoán và điều trị ung thư. Tuy
nhiên, cho đến nay vẫn còn nhiều thách thức do nguyên nhân gây ung thư liên
quan đến rối loạn di truyền hoặc sự thay đổi quá trình phát triển tự nhiên
trong tế bào. Phân tích biểu hiện gen bằng các mô hình học máy là công cụ
mạnh mẽ để xác định các thay đổi của các tế bào trong các điều kiện môi
trường khác nhau. Các mô hình học máy cung cấp thông tin hữu ích để chẩn
đoán và điều trị ung thư. Tuy nhiên, mô hình học máy để phân lớp dữ liệu
biểu hiện gen là dễ bị quá khớp do dữ liệu biểu hiện gen có số chiều rất lớn
và số lượng mẫu nhỏ. Phân lớp dữ liệu có số chiều lớn là một trong 10 thách
thức của học máy hiện đại. Trong luận án, chúng tôi giải quyết các vấn đề
này bằng các đóng góp sau đây.
Thứ nhất, chúng tôi đề xuất mô hình rút trích đặc trưng mới để học các
tính năng tiềm ẩn của dữ liệu biểu hiện gen bằng mạng nơ-ron tích chập sâu
(DCNN). Các đặc trưng mới được rút trích bằng DCNN cải thiện độ chính
xác phân lớp dữ liệu biểu hiện gen của các công nghệ DNA Microarray và
RNA-Seq. Kết quả thực nghiệm cho thấy độ chính xác của các bộ phân loại
được cải thiện khi dùng DCNN rút trích đặc trưng từ dữ liệu biểu hiện gen.
Bên cạnh đó, chúng tôi còn đề xuất phương pháp giải quyết cả hai thách thức
của phân lớp dữ liệu biểu hiện gen bằng giải thuật tăng cường dữ liệu SMOTE
từ đặc trưng mới được rút trích bằng mạng DCNN. Giải thuật SMOTE được
dùng để sinh dữ liệu tổng hợp từ các đặc trưng mới được rút trích bằng mạng
DCNN. Dữ liệu tổng hợp được sinh ra được tăng cường cho dữ liệu học và sử
dụng các giải thuật phân lớp hiện đại để phân loại.
Thứ hai, chúng tôi đề xuất mô hình tăng cường dữ liệu cho phân lớp biểu
hiện gen bằng mạng đối kháng sinh mẫu (GAN). Mạng GAN được xây dựng
phù hợp với dữ liệu biểu hiện gen để sinh dữ liệu tổng hợp từ dữ liệu gốc. Mô
hình được kết hợp với các giải thuật phân lớp để phân loại dữ liệu biểu hiện
gen. Kết quả thực nghiệm cho thấy mô hình đề xuất cải thiện được độ chính
iii
xác của các giải thuật gồm k láng giềng, cây quyết định, máy học véc-tơ hỗ
trợ và rừng ngẫu nhiên.
Thứ ba, chúng tôi đề xuất mô hình tập hợp các cây xiên phân ngẫu nhiên
đơn giản (RODS) dựa trên máy học véc-tơ hỗ trợ (SVM) để phân lớp hiệu
quả dữ liệu biểu hiện gen. Ý tưởng chính là kết hợp nhiều cây xiên phân ngẫu
nhiên đơn giản theo hướng tiếp cận Bagging và Boosting. Chúng tôi xây dựng
tập hợp các cây xiên phân ngẫu nhiên đơn giản dựa trên siêu phẳng tối ưu
thu được từ huấn luyện SVM. Kết quả thực nghiệm trên cho thấy mô hình
đề xuất hiệu quả hơn các giải thuật khác gồm k láng giềng, cây quyết định,
máy học véc-tơ hỗ trợ, rừng ngẫu nhiên, bagging và adaboost khi phân lớp
trực tiếp trên số chiều gốc. Ngoài ra, mô hình đề xuất cũng cải thiện được độ
chính xác của mô hình phân lớp khi kết hợp với các kỹ thuật tăng cường dữ
liệu bằng mạng GAN và rút trích đặc trưng bằng mạng DCNN.
Từ khóa: dữ liệu biểu hiện gen, mô hình phân lớp, mạng nơ-ron tích chập
sâu, mạng đối kháng sinh mẫu, mô hình tập hợp các cây xiên phân ngẫu
nhiên đơn giản, máy học véc-tơ hỗ trợ
iv
ABSTRACT
In recent years, cancer is leading cause of death worldwide. Therefore, more
and more studies have been conducted which aim to improve the ability to
discover cancers earlier and to diagnose them more accurately than was the
case only a few years ago. However, there are still many challenges in cancer
treatment because the most common causes of cancer are genetic disorders
and epigenetic alterations in the cells. Gene expression is an exceptionally
powerful tool for identifying changes in cells between different environmental
conditions or developmental stages. It is able to provide benefit information
that is used to explore and diagnose disease. Gene expression data classification models play a key role to address the fundamental problems relating to cancer. Nevertheless, these models can easy overfiting because of the
very-high-dimensional and small-sample-size issues. Classifying gene expression data is a challenge in the field of machine learning. In this dissertation
we are interested in tackling these issues with the following contributions.
Firstly, we propose a new feature extraction model to learn latent features from gene expression data using deep convolutional neural network
(DCNN). This model improves the classification accuracy of gene expression
on both RNA-Seq and DNA-Microarray platforms. Experiment results show
that DCNN is effective to extract features from gene expression data. On the
other hand, we also propose a combined enhancing and extraction method to
address both challenges of classification models using gene expression data. In
this approach, SMOTE algorithm generates new data from features extracted
by DCNN. These models are used in conjunction with various classifiers that
efficiently classify gene expression data.
Secondly, we propose a new enhancing gene expression data model with
generative adversarial network (GAN).GAN is implemented to generate synthetic data from original training datasets, which is used in conjunction with
various classifiers to predict gene expression data. Numerical test results show
that our proposed model improve the classification accuracy of algorithms including support vector machines, k nearest neighbors and random forests.
v
Finally, we investigate random ensemble oblique decision stumps (RODS)
based on linear support vector machine (SVM) that is suitable for classifying very-high-dimensional microarray gene expression data. Our classification
algorithms (called Bag-RODS and Boost-RODS) learn multiple oblique decision stumps in the way of bagging and boosting to form an ensemble of
classifiers more accurate than single model. Numerical test results show that
our proposed algorithms are more accurate than the-state-of-the-art classification models, including k nearest neighbors, support vector machines, decision
trees and ensembles of decision trees like random forests, bagging and adaboost. In addition, these models also improve the classification accuracy by
combined with enhancing data model using the GAN and feature extraction
model using DCNN.
Key words: gene expression data, classification, deep convolutional neural
network, generative adversarial network, random ensemble oblique decision
stumps, support vector machines
vi
MỤC LỤC
LỜI CẢM ƠN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
ii
TÓM TẮT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
iii
ABSTRACT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
v
MỤC LỤC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
vii
DANH MỤC CÁC HÌNH VẼ . . . . . . . . . . . . . . . . . . .
xii
DANH MỤC CÁC BẢNG BIỂU . . . . . . . . . . . . . . . . . xiv
CHƯƠNG 1. GIỚI THIỆU
1
1.1
Tính cấp thiết của luận án . . . . . . . . . . . . . . . . . . . . .
1
1.2
Mục tiêu, đối tượng, phạm vi và phương pháp nghiên cứu . . .
3
1.3
Nhiệm vụ và hướng tiếp cận của luận án . . . . . . . . . . . . .
4
1.3.1
Nghiên cứu xây dựng mô hình rút trích đặc trưng cho
dữ liệu biểu hiện gen . . . . . . . . . . . . . . . . . . . .
1.3.2
Nghiên cứu xây dựng mô hình tăng cường dữ liệu cho
dữ liệu biểu hiện gen . . . . . . . . . . . . . . . . . . . .
1.3.3
4
6
Nghiên cứu xây dựng mô hình phân lớp hiệu quả dữ
liệu biểu hiện gen . . . . . . . . . . . . . . . . . . . . . .
7
1.4
Các đóng góp của luận án . . . . . . . . . . . . . . . . . . . . .
7
1.5
Bố cục của luận án . . . . . . . . . . . . . . . . . . . . . . . . .
9
CHƯƠNG 2. CƠ SỞ LÝ THUYẾT VÀ
CÁC CÔNG TRÌNH LIÊN QUAN
11
2.1
Dữ liệu biểu hiện gen . . . . . . . . . . . . . . . . . . . . . . . .
11
2.2
Mô hình phân lớp dữ liệu biểu hiện gen . . . . . . . . . . . . .
15
2.2.1
Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . .
15
2.2.2
Đánh giá mô hình . . . . . . . . . . . . . . . . . . . . . .
16
2.2.3
Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . .
18
Các nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . .
24
2.3.1
Mô hình k láng giềng . . . . . . . . . . . . . . . . . . . .
24
2.3.2
Mô hình cây quyết định . . . . . . . . . . . . . . . . . .
25
2.3.3
Máy học véc-tơ hỗ trợ . . . . . . . . . . . . . . . . . . .
26
2.3
vii
2.3.4
Phương pháp tập hợp mô hình . . . . . . . . . . . . . .
30
2.3.5
Mô hình mạng nơ-ron nhân tạo . . . . . . . . . . . . . .
32
2.3.6
Các mô hình học sâu . . . . . . . . . . . . . . . . . . . .
33
2.4
Thảo luận các nghiên cứu liên quan . . . . . . . . . . . . . . .
36
2.5
Kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
CHƯƠNG 3. MÔ HÌNH RÚT TRÍCH ĐẶC TRƯNG CHO
DỮ LIỆU BIỂU HIỆN GEN
3.1
Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2
Mô hình mạng nơ-ron tích chập sâu rút trích đặc trưng dữ liệu
biểu hiện gen
3.2.1
3.3
3.4
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
39
41
Kiến trúc mô hình mạng nơ-ron tích chập sâu rút trích
đặc trưng cho dữ liệu biểu hiện gen . . . . . . . . . . .
41
3.2.2
Quá trình rút trích đặc trưng . . . . . . . . . . . . . . .
44
3.2.3
Các giải thuật phân lớp đặc trưng được rút trích . . . .
49
Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . .
50
3.3.1
Kết quả phân lớp dữ liệu biểu hiện gen DNA Microarray 51
3.3.2
Kết quả phân lớp dữ liệu biểu hiện gen RNA-Seq . . .
3.3.3
Kết quả phân lớp tập dữ liệu biểu hiện gen RNA-Seq lớn 68
Kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
70
CHƯƠNG 4. MÔ HÌNH TĂNG CƯỜNG MẪU ĐẶC TRƯNG
RÚT TRÍCH BẰNG SMOTE
4.1
Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2
Tăng cường mẫu bằng SMOTE dựa vào đặc trưng rút trích của
4.3
4.4
71
71
dữ liệu biểu hiện gen . . . . . . . . . . . . . . . . . . . . . . . .
73
Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . .
76
4.3.1
Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . .
76
4.3.2
Thiết lập tham số các mô hình . . . . . . . . . . . . . .
76
4.3.3
Kết quả phân lớp . . . . . . . . . . . . . . . . . . . . . .
78
Kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
89
CHƯƠNG 5. MÔ HÌNH TĂNG CƯỜNG DỮ LIỆU CHO DỮ
LIỆU BIỂU HIỆN GEN
90
5.1
Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
90
5.2
Mô hình tăng cường mẫu cho dữ liệu biểu hiện gen . . . . . . .
92
viii
5.3
Phân lớp biểu hiện gen sau khi tăng cường dữ liệu . . . . . . .
95
5.4
Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . .
96
5.4.1
Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . .
97
5.4.2
Thiết lập tham số các mô hình . . . . . . . . . . . . . .
97
5.4.3
Kết quả phân lớp . . . . . . . . . . . . . . . . . . . . . .
98
5.5
Kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
CHƯƠNG 6. MÔ HÌNH TẬP HỢP
CÂY XIÊN PHÂN NGẪU NHIÊN ĐƠN GIẢN 106
6.1
Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
6.2
Mô hình tập hợp cây xiên phân ngẫu nhiên đơn giản . . . . . . 107
6.3
6.4
6.2.1
Cây xiên phân ngẫu nhiên đơn giản . . . . . . . . . . . 107
6.2.2
Mô hình Bagging cây xiên phân ngẫu nhiên đơn giản . 110
6.2.3
Mô hình Boosting cây xiên phân ngẫu nhiên đơn giản . 112
Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . 114
6.3.1
Kết quả phân lớp trên số chiều gốc của dữ liệu . . . . . 115
6.3.2
Kết quả phân lớp sau khi tăng cường dữ liệu bằng GAN 126
6.3.3
Kết quả phân lớp đặc trưng rút trích bằng DCNN . . . 130
Kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
CHƯƠNG 7. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
135
7.1
Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
7.2
Hướng phát triển . . . . . . . . . . . . . . . . . . . . . . . . . . 137
ix
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Viết tắt
Giải thích
Adaboost
Giải thuật Adaboost
ANN
Mô hình mạng nơ-ron nhân tạo (Artificial Neural Network)
Bag-C4.5
Mô hình Bagging các cây quyết định
Bag-RODS
Mô hình Bagging các cây xiên phân ngẫu nhiên đơn giản
Boost-RODS
Mô hình Boosting các cây xiên phân ngẫu nhiên đơn giản
C4.5
Giải thuật cây quyết định C4.5
DCNN
Mô hình mạng nơ-ron tích chập sâu
(Deep Convolutional Neural Network)
GAN
Mạng đối kháng sinh mẫu (Generative Adversarial Network)
k NN
Giải thuật k láng giềng (Generative Adversarial Network)
LSVM
Giải thuật máy học véc-tơ hỗ trợ dùng hàm nhân tuyến tính
(Linear Support Vector Machines)
ODS
Mô hình cây xiên phân đơn giản (Oblique Decision Stumps)
RF
Giải thuật rừng ngẫu nhiên (Random Forests)
RODS
SMOTE
SVM
DCNN-Bag-RODS
DCNN-Boost-RODS
DCNN-C4.5
DCNN-k NN
DCNN-LSVM
DCNN-RF
DCNN-SVM
Mô hình cây xiên phân ngẫu nhiên đơn giản
(Random Oblique Decision Stumps)
Phương pháp mới sinh mẫu từ phần tử dữ liệu hiếm
(Synthetic Minority Over-sampling Technique)
Giải thuật máy học véc-tơ hỗ trợ (Support Vector Machines)
Mô hình sử dụng Bag-RODS phân lớp các đặc trưng được
rút trích bằng DCNN
Mô hình sử dụng Boost-RODS phân lớp các đặc trưng được
rút trích bằng DCNN
Mô hình sử dụng C4.5 phân lớp các đặc trưng
được rút trích bằng DCNN
Mô hình sử dụng k NN phân lớp các đặc trưng
được rút trích bằng DCNN
Mô hình sử dụng LSVM phân lớp các đặc trưng
được rút trích bằng DCNN
Mô hình sử dụng RF phân lớp các đặc trưng được
rút trích bằng DCNN
Mô hình sử dụng SVM phân lớp các đặc trưng
được rút trích bằng DCNN
x
Viết tắt
DCNN-SMOTE-C4.5
DCNN-SMOTE-k NN
DCNN-SMOTE-LSVM
DCNN-SMOTE-RF
DCNN-SMOTE-SVM
GAN-Bag-RODS
GAN-Boost-RODS
GAN-C4.5
GAN-k NN
GAN-LSVM
GAN-RF
GAN-SVM
Giải thích
Mô hình sử dụng C4.5 phân lớp các đặc trưng được
rút trích bằng DCNN và tăng cường mẫu bằng SMOTE
Mô hình sử dụng k NN phân lớp các đặc trưng được
rút trích bằng DCNN và tăng cường mẫu bằng SMOTE
Mô hình sử dụng LSVM phân lớp các đặc trưng được
rút trích bằng DCNN và tăng cường mẫu bằng SMOTE
Mô hình sử dụng RF phân lớp các đặc trưng được
rút trích bằng DCNN và tăng cường mẫu bằng SMOTE
Mô hình sử dụng SVM phân lớp các đặc trưng được
rút trích bằng DCNN và tăng cường mẫu bằng SMOTE
Mô hình sử dụng Bag-RODS phân lớp sau khi
tăng cường dữ liệu bằng GAN
Mô hình sử dụng Boost-RODS phân lớp sau khi
tăng cường dữ liệu bằng GAN
Mô hình sử dụng C4.5 phân lớp sau khi
tăng cường dữ liệu bằng GAN
Mô hình sử dụng k NN phân lớp sau khi
tăng cường dữ liệu bằng GAN
Mô hình sử dụng LSVM phân lớp sau khi
tăng cường dữ liệu bằng GAN
Mô hình sử dụng RF phân lớp sau khi
tăng cường dữ liệu bằng GAN
Mô hình sử dụng SVM phân lớp sau khi
tăng cường dữ liệu bằng GAN
xi
DANH MỤC CÁC HÌNH VẼ
Hình 1.1
Mô hình phân lớp sử dụng các phương pháp rút trích đặc trưng để
giảm chiều . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
Hình 1.2
Mô hình phân lớp sử dụng phương pháp tăng cường dữ liệu . . . . .
6
Hình 1.3
Mô hình phân lớp trực tiếp trên chiều gốc của dữ liệu
. . . . . . . .
7
Hình 2.1
Lược đồ thông tin di truyền trong tế bào . . . . . . . . . . . . . . . .
12
Hình 2.2
Biểu diễn trực quan kết quả các thí nghiệm của công nghệ DNA
Microarray và RNA Sequencing . . . . . . . . . . . . . . . . . . . . . . . .
Hình 2.3
Cấu trúc dữ liệu của ma trận biểu hiện gen sau khi chuẩn hóa . . . .
Hình 2.4
Thống kê số lượng thí nghiệm trên người theo các loại chip Affymetrix
13
15
trên ArrayExpression (Cập nhật ngày 01/04/2018) . . . . . . . . . . . . .
19
Hình 2.5
Phân lớp dữ liệu với k láng giềng (k = 5) . . . . . . . . . . . . . . .
24
Hình 2.6
Phân lớp tuyến tính với máy học SVM . . . . . . . . . . . . . . . . .
27
Hình 2.7
Các phương pháp học nhiều lớp của SVM . . . . . . . . . . . . . . .
28
Hình 2.8
Thống kê các nghiên cứu sử dụng Deep Learning trong Tin sinh học
từ năm 2004 đến 2014 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
Hình 2.9
Mô hình mạng nơ-ron tích chập . . . . . . . . . . . . . . . . . . . . .
Hình 3.1
Kiến trúc mô hình DCNN rút trích đặc trưng cho dữ liệu biểu hiện gen 43
Hình 3.2
Ma trận vuông biểu diễn biểu hiện gen . . . . . . . . . . . . . . . . .
44
Hình 3.3
Mô phỏng cách tích chập trên ma trận biểu hiện gen . . . . . . . . .
45
Hình 3.4
Mô phỏng lớp pooling trên ma trận biểu hiện gen . . . . . . . . . . .
46
Hình 3.5
Kích thước các ma trận trong các tầng của mạng DCNN khi rút trích
đặc trưng từ tập Colon [1] . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
46
Hình 3.6
4 bản đồ đặc trưng của lớp CONV1 trong tập Colon [1] . . . . . . .
47
Hình 3.7
4 bản đồ đặc trưng của lớp POOLING1 trong tập Colon [1] . . . . .
48
Hình 3.8
2 bản đồ đặc trưng của lớp CONV2 trong tập Colon [1] . . . . . . .
48
Hình 3.9
2 bản đồ đặc trưng của lớp POOLING2 trong tập Colon [1] . . . . .
49
Hình 3.10 So sánh kết quả phân lớp giữa các mô hình trước và sau khi rút trích
đặc trưng trên 50 tập dữ liệu biểu hiện gen DNA Microarray . . . . . . . .
58
Hình 3.11 So sánh kết quả phân lớp giữa DCNN-SVM và SVM trên 50 tập dữ
liệu biểu hiện gen DNA Microarray . . . . . . . . . . . . . . . . . . . . . .
59
Hình 3.12 So sánh kết quả phân lớp giữa DCNN-LSVM và LSVM trên 50 tập
dữ liệu biểu hiện gen DNA Microarray . . . . . . . . . . . . . . . . . . . .
60
Hình 3.13 So sánh kết quả phân lớp giữa DCNN-k NN và k NN trên 50 tập dữ
liệu biểu hiện gen DNA Microarray . . . . . . . . . . . . . . . . . . . . . .
xii
61
Hình 3.14 So sánh kết quả phân lớp giữa các mô hình trước và sau khi sử dụng
DCNN trên 25 tập dữ liệu biểu hiện gen RNA-Seq . . . . . . . . . . . . . .
66
Hình 3.15 So sánh kết quả phân lớp giữa DCNN-SVM và SVM trên 25 tập dữ
liệu biểu hiện gen RNA-Seq . . . . . . . . . . . . . . . . . . . . . . . . . .
66
Hình 3.16 So sánh kết quả phân lớp giữa DCNN-LSVM và LSVM trên 25 tập
dữ liệu biểu hiện gen RNA-Seq . . . . . . . . . . . . . . . . . . . . . . . .
67
Hình 3.17 So sánh kết quả phân lớp giữa DCNN-k NN và k NN trên 25 tập dữ
liệu biểu hiện gen RNA-Seq . . . . . . . . . . . . . . . . . . . . . . . . . .
67
Hình 3.18 So sánh độ chính xác phân lớp giữa các mô hình trên tập biểu hiện
gen RNA-Seq lớn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Hình 4.1
Mô hình kết hợp DCNN và SMOTE phân lớp dữ liệu biểu hiện gen .
Hình 4.2
Kiến trúc mô hình DCNN rút trích đặc trưng và tăng cường mẫu
bằng SMOTE từ dữ liệu rút trích . . . . . . . . . . . . . . . . . . . . . . .
Hình 4.3
85
86
So sánh độ chính xác phân lớp giữa DCNN-SMOTE-k NN và k NN
trên 50 tập dữ liệu biểu hiện gen DNA Microarray . . . . . . . . . . . . . .
Hình 4.7
84
So sánh độ chính xác phân lớp giữa DCNN-SMOTE-LSVM và LSVM
trên 50 tập dữ liệu biểu hiện gen DNA Microarray . . . . . . . . . . . . . .
Hình 4.6
74
So sánh độ chính xác phân lớp giữa DCNN-SMOTE-SVM và SVM
trên 50 tập dữ liệu biểu hiện gen DNA Microarray . . . . . . . . . . . . . .
Hình 4.5
73
So sánh kết quả phân lớp giữa các mô hình trước và sau khi sử dụng
DCNN, SMOTE trên 50 tập dữ liệu biểu hiện gen DNA Microarray . . . .
Hình 4.4
69
87
So sánh độ chính xác phân lớp giữa DCNN-SMOTE-RF và RF trên
50 tập dữ liệu biểu hiện gen DNA Microarray . . . . . . . . . . . . . . . .
88
Hình 5.1
Kiến trúc mạng đối kháng sinh mẫu GAN cho dữ liệu biểu hiện gen .
92
Hình 5.2
Mô tả quá trình mạng GAN huấn luyện và sinh mẫu . . . . . . . . .
93
Hình 5.3
Qui trình phân lớp dữ liệu biểu hiện gen bằng GAN
95
Hình 5.4
So sánh độ chính xác phân lớp giữa GAN-SVM và SVM trên 20 tập
. . . . . . . . .
dữ liệu biểu hiện gen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
Hình 5.5
So sánh độ chính xác phân lớp giữa GAN-LSVM và LSVM trên 20
tập dữ liệu biểu hiện gen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
Hình 5.6
So sánh độ chính xác phân lớp giữa GAN-k NN và k NN trên 20 tập
dữ liệu biểu hiện gen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
Hình 5.7
So sánh độ chính xác phân lớp giữa GAN-RF và RF trên 20 tập dữ
liệu biểu hiện gen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
Hình 5.8
So sánh độ chính xác phân lớp giữa GAN-C4.5 và C4.5 trên 20 tập
dữ liệu biểu hiện gen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
Hình 5.9
So sánh kết quả phân lớp trước và sau khi sử dụng GAN . . . . . . . 104
Hình 6.1
Phân hoạch đơn thuộc tính (trái), phân hoạch đa thuộc tính (phải) . 108
Hình 6.2
Cây xiên phân ngẫu nhiên đơn giản . . . . . . . . . . . . . . . . . . . 110
Hình 6.3
Mô hình Bagging các cây xiên phân ngẫu nhiên đơn giản . . . . . . . 111
xiii
Hình 6.4
Mô hình Boosting các cây xiên phân ngẫu nhiên đơn giản . . . . . . 112
Hình 6.5
Minh họa khả năng tổng quát hóa của SVM khi điều chỉnh hằng số C 114
Hình 6.6
So sánh trung bình độ chính xác (%) giữa các mô hình . . . . . . . . 121
Hình 6.7
So sánh độ chính xác của Bag-RODS với SVM, LSVM, k NN và C4.5
trên 50 tập dữ liệu biểu hiện gen DNA Microarray . . . . . . . . . . . . . . 122
Hình 6.8
So sánh độ chính xác của Bag-RODS với RF, Bag-C4.5 và Adaboost
trên 50 tập dữ liệu biểu hiện gen DNA Microarray . . . . . . . . . . . . . . 123
Hình 6.9
So sánh độ chính xác của Boost-RODS với LSVM, k NN và C4.5 trên
50 tập dữ liệu biểu hiện gen DNA Microarray . . . . . . . . . . . . . . . . 124
Hình 6.10 So sánh độ chính xác của Boost-RODS với RF, Bag-C4.5 và Adaboost
trên 50 tập dữ liệu biểu hiện gen DNA Microarray . . . . . . . . . . . . . . 125
Hình 6.11 So sánh độ chính xác phân lớp giữa GAN-Bag-RODS và Bag-RODS
trên 20 tập dữ liệu biểu hiện gen . . . . . . . . . . . . . . . . . . . . . . . 129
Hình 6.12 So sánh độ chính xác phân lớp giữa GAN-Boost-RODS và BoostRODS trên 20 tập dữ liệu biểu hiện gen . . . . . . . . . . . . . . . . . . . 129
Hình 6.13 So sánh trung bình độ chính xác (%) giữa các mô hình Bag-RODS,
Boost-RODS, GAN-Bag-RODS, GAN-Boost-RODS, GAN-SVM, GAN-LSVM,
GAN-RF và GAN-k NN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
Hình 6.14 So sánh trung bình độ chính xác (%) giữa các mô hình DCNN-BagRODS, DCNN-Boost-RODS, DCNN-SVM, DCNN-LSVM, DCNN-k NN . . 134
xiv
DANH MỤC CÁC BẢNG BIỂU
Bảng 2.1
Thông tin chi tiết 50 tập dữ liệu biểu hiện gen DNA Microarray . . .
19
Bảng 2.2
Thông tin 20 tập dữ liệu biểu hiện gen DNA Microarray . . . . . . .
21
Bảng 2.3
Thông tin của 25 tập dữ liệu biểu hiện gen RNA-Seq có 2 lớp . . . .
22
Bảng 2.4
Thông tin của tập dữ liệu biểu hiện gen RNA-Seq lớn . . . . . . . .
23
Bảng 3.1
Kết quả điều chỉnh tham số của mô hình DCNN-SVM trên 50 tập
dữ liệu biểu hiện gen DNA Microarray . . . . . . . . . . . . . . . . . . . .
Bảng 3.2
Kết quả phân lớp của 10 mô hình trên 50 tập dữ liệu biểu hiện gen
DNA Microarray . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Bảng 3.3
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
Kết quả điều chỉnh các tham số của mô hình DCNN-SMOTE-SVM
trên 50 tập dữ liệu biểu hiện gen DNA Microarray . . . . . . . . . . . . . .
Bảng 4.2
64
Kết quả phân lớp của các mô hình trên tập dữ liệu biểu hiện gen
RNA-Seq lớn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Bảng 4.1
63
So sánh kết quả phân lớp của 10 mô hình trên 25 tập dữ liệu biểu
hiện gen RNA-Seq
Bảng 3.6
54
Kết quả phân lớp của 10 mô hình trên 25 tập dữ liệu biểu hiện gen
RNA-Seq . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Bảng 3.5
53
So sánh kết quả phân lớp của 10 mô hình trên 50 tập dữ liệu biểu
hiện gen DNA Microarray . . . . . . . . . . . . . . . . . . . . . . . . . . .
Bảng 3.4
52
77
Kết quả phân lớp của 15 mô hình trên 50 tập dữ liệu biểu hiện gen
DNA Microarray . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Bảng 4.3
So sánh hiệu quả phân lớp giữa các mô hình trên 50 tập dữ liệu . . .
Bảng 5.1
Kết quả điều chỉnh tham số của mô hình GAN-SVM trên 20 tập dữ
liệu biểu hiện gen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Bảng 5.2
Kết quả phân lớp của 10 mô hình trên 20 tập dữ liệu . . . . . . . . .
Bảng 5.3
So sánh kết quả phân lớp giữa các mô hình trên 20 tập dữ liệu biểu
hiện gen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
79
82
98
98
99
Bảng 6.1
Kết quả điều chỉnh các tham số của Bag-RODS và Boost-RODS . . 115
Bảng 6.2
Độ chính xác phân lớp của 9 mô hình trên 50 tập dữ liệu biểu hiện
gen DNA Microarray . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
Bảng 6.3
So sánh kết quả của Bag-RODS, Boost-RODS, SVM, LSVM, RF,
k NN, C4.5, Bag-C4.5 và Adaboost trên 50 tập dữ liệu biểu hiện gen DNA
Microarray . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
xv
Bảng 6.4
Kết quả phân lớp của các mô hình Bag-RODS, Boost-RODS, GAN-
Bag-RODS và GAN-Boost-RODS trên 20 tập dữ liệu biểu hiện gen DNA
Microarray . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
Bảng 6.5
So sánh kết quả phân lớp của Bag-RODS, Boost-RODS khi kết hợp
với GAN trên 20 tập dữ liệu biểu hiện gen . . . . . . . . . . . . . . . . . . 128
Bảng 6.6
Kết quả phân lớp của các mô hình Bag-RODS, Boost-RODS, DCNN-
Bag-RODS và DCNN-Boost-RODS trên 50 tập dữ liệu biểu hiện gen DNA
Microarray . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
Bảng 6.7
So sánh kết quả phân lớp của Bag-RODS, Boost-RODS khi phân lớp
đặc trưng rút trích bằng DCNN trên 50 tập dữ liệu biểu hiện gen . . . . . 132
xvi
CHƯƠNG 1. GIỚI THIỆU
Trong chương này, chúng tôi trình bày sự cần thiết của mô hình xử lý hiệu
quả dữ liệu biểu hiện gen trong phân lớp bệnh ung thư. Tiếp theo là mục
tiêu, đối tượng, phạm vi, phương pháp nghiên cứu và các đóng góp của luận
án. Cuối cùng là bố cục của luận án.
1.1. Tính cấp thiết của luận án
Nguyên nhân gây ra bệnh ung thư liên quan đến sự thay đổi trong bộ gen
và sự kết hợp các đột biến gen xảy ra trong quá trình di truyền. Theo tổ
chức y tế thế giới (WHO), ung thư là một trong những nguyên nhân gây chết
người hàng đầu [2]. Gần đây, nghiên cứu điều trị bệnh ung thư trở thành vấn
đề quan trọng trong lĩnh vực y tế trên toàn thế giới do tỷ lệ bệnh và tử vong
cao [3]. Trong năm 2018, theo thống kê của WHO đã có thêm 18,1 triệu bệnh
nhân ung thư và 9,6 triệu người đã tử vong bởi căn bệnh này. Ngoài ra, Rahib
và các cộng sự đã nghiên cứu dự báo số lượng người bệnh ung thư sẽ tăng
20% đến 40% từ năm 2020 và 2030 so với năm 2010 [4].
Mặc dù đã có nhiều nghiên cứu điều trị bệnh ung thư. Tuy nhiên các
phương pháp hiện nay chưa thực sự mang lại hiệu quả tốt nhất cho người
bệnh do sự liên quan phức tạp giữa các yếu tố di truyền, tế bào và đột biến
gen trong quá trình phát triển của con người [5]. Phác đồ điều trị chung cho
các nhóm bệnh ung thư có thể mang lại hiệu quả khác nhau đối với từng
bệnh nhân [6]. Những năm gần đây, phương pháp điều trị cá nhân hóa còn
được gọi là y học hóa cá thể (personalized medicine) là một hướng điều trị
có hiệu quả đối với bệnh ung thư [7]. Phương pháp này tốt hơn hơn khi đánh
giá được hiệu quả điều trị dựa trên chính hồ sơ di truyền của bệnh nhân [8].
Gần đây, các nghiên cứu trên toàn bộ hệ gen người giúp khám phá ra vai trò
của các tác nhân di truyền trong quá trình gây bệnh. Trong đó, các nghiên
cứu phân tích dữ liệu biểu hiện gen đã cung cấp các thông tin quan trọng để
hỗ trợ xây dựng phác đồ điều trị phù hợp cho từng bệnh nhân dựa vào các
thông tin gen học của từng cá thể [7].
1
Sự phát triển công nghệ phân tích biểu hiện gen được sử dụng rộng rãi
trong các nghiên cứu y sinh đã tạo ra lượng dữ liệu khổng lồ được công bố
trên các kho dữ liệu trực tuyến. Biểu hiện gen (gene expression) là quá trình
mà qua đó thông tin mã hóa trong một gen được truyền vào cấu trúc đang
có trong tế bào và điều khiển tế bào [9]. Dữ liệu biểu hiện gen được các mô
hình học máy xử lý và phân tích nhằm cung cấp thông tin hữu ích để chẩn
đoán và điều trị bệnh ung thư. Tuy nhiên, đặc điểm dữ liệu biểu hiện gen có
số chiều rất lớn được phân tích từ các mức độ biểu hiện của hàng chục nghìn
gen của các tế bào qua các thí nghiệm và số mẫu nhỏ do chi phí cao của các
công nghệ [10] nên phân lớp dữ liệu biểu hiện gen là bài toán phức tạp.
Các mô hình học máy được ứng dụng xử lý dữ liệu biểu hiện gen gồm phân
lớp (classification), chọn gen (feature selection) và phân cụm (clustering) [11].
Các nghiên cứu này đã mang lại nhiều tri thức quan trọng để nâng cao chất
lượng và hiệu quả điều trị và chẩn đoán bệnh ung thư [7, 12, 13, 14]. Trong
đó, chọn gen và phân cụm gen là hai lĩnh vực nghiên cứu y sinh liên quan
nhiều đến nghiên cứu dược học và đánh giá vai trò chức năng gen trong y
học [15, 16]. Phân lớp dữ liệu biểu hiện gen là bài toán quan trọng để chẩn
đoán một bệnh phẩm mới chưa được gán nhãn [17, 18, 19, 20, 21, 22]. Đây
là hướng nghiên cứu được quan tâm nhiều nhất trong lĩnh vực phân tích dữ
liệu biểu hiện gen [11] khi tận dụng sức mạnh của các mô hình phân lớp để
chẩn đoán tự động một mẫu bệnh phẩm mới mà không cần nhiều đến kiến
thức y sinh liên quan đến dữ liệu [23].
Phân lớp dữ liệu có số chiều lớn là một trong 10 vấn đề khó của cộng đồng
khai phá dữ liệu [24]. Các mô hình phân lớp dữ liệu có số chiều lớn thường
cho kết quả tốt trên tập huấn luyện nhưng lại có kết quả thấp trên tập kiểm
tra. Thách thức chính của phân lớp biểu hiện gen là dữ liệu phân tích có số
chiều rất lớn lên đến hàng chục nghìn chiều và tách rời nhau trong không gian
có số chiều cao nên tìm mô hình phân lớp tốt là khó khăn do có nhiều khả
năng lựa chọn mô hình tốt. Vì vậy để tìm kiếm một mô hình phân lớp hiệu
quả (phân lớp dữ liệu tốt trên tập kiểm thử) trong không gian giả thuyết lớn
là vấn đề phức tạp. Xây dựng mô hình phân lớp tốt trên các tập dữ liệu có
số chiều lớn và số mẫu nhỏ là bài toán khó trong lĩnh vực học máy.
Mặc dù đã có nhiều mô hình phân lớp dữ liệu biểu hiện gen được đề xuất
nhưng độ chính xác của mô hình vẫn còn bị giới hạn do sự phức tạp của dữ
2
liệu [25]. Trong lĩnh vực học máy, khi số chiều dữ liệu tăng thì số dữ liệu phân
tích cũng tăng lên theo cấp số nhân. Bellman gọi hiện tượng này là "curse
of dimensionality" khi xem xét các vấn đề về tối ưu hóa [26]. Đặc biệt đối
với dữ liệu biểu hiện gen do dữ liệu không phủ hết trên tất cả các không gian
nên kết quả phân lớp trên tập học và tập kiểm tra rất khác nhau làm cho
mô hình phân lớp dễ bị quá khớp (overfiting). Nâng cao độ chính xác các mô
hình phân lớp dữ liệu biểu hiện gen có đặc điểm "large p, small n" là một
thách thức quan trọng [25]. Chính những thách thức này thúc đẩy chúng tôi
thực hiện nghiên cứu quan trọng này.
1.2. Mục tiêu, đối tượng, phạm vi và phương pháp nghiên
cứu
Xử lý dữ liệu biểu hiện gen là chủ đề nghiên cứu quan trọng trong tin sinh
học [27]. Trong đó, phân lớp dữ liệu biểu hiện gen là bài toán quan trọng [27]
vì các mô hình phân lớp có thể chẩn đoán tự động một mẫu bệnh phẩm ung
thư mới mà không cần nhiều đến kiến thức y sinh liên quan đến dữ liệu [23].
Các mô hình phân lớp có thể hỗ trợ các nghiên cứu y khoa chẩn đoán bệnh
chính xác hơn góp phần cải thiện hiệu quả điều trị ung thư [28, 29]. Mục tiêu
chính của luận án là đề xuất các phương pháp tiếp cận mới cho "bài toán
phân lớp dữ liệu biểu hiện gen" để nâng cao độ chính xác phân lớp với các
mục tiêu cụ thể sau:
• Nghiên cứu xây dựng mô hình rút trích đặc trưng hiệu quả cho dữ liệu
biểu hiện gen để nâng cao độ chính xác phân lớp.
• Nghiên cứu xây dựng mô hình tăng cường dữ liệu cho dữ liệu biểu hiện
gen để nâng cao độ chính xác phân lớp.
• Nghiên cứu xây dựng mô hình phân lớp hiệu quả dữ liệu biểu hiện gen.
Đối tượng nghiên cứu là các mô hình rút trích đặc trưng, mô hình sinh
mẫu dữ liệu và mô hình phân lớp dữ liệu biểu hiện gen của bệnh ung thư ở
người.
Phạm vi nghiên cứu tập trung vào bài toán phân lớp dữ liệu biểu hiện gen
của các thí nghiệm nghiên cứu bệnh ung thư trên người.
Để thực hiện nghiên cứu chúng tôi phân tích, tổng hợp các nghiên cứu có
liên quan đến nội dung nghiên cứu từ tài liệu tham khảo: sách, bài báo công
3
- Xem thêm -