Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Mô hình xử lý hiệu quả dữ liệu biểu hiện gen...

Tài liệu Mô hình xử lý hiệu quả dữ liệu biểu hiện gen

.PDF
169
226
73

Mô tả:

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CẦN THƠ HUỲNH PHƯỚC HẢI MÔ HÌNH XỬ LÝ HIỆU QUẢ DỮ LIỆU BIỂU HIỆN GEN LUẬN ÁN TIẾN SĨ CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ NGÀNH 62480104 NGƯỜI HƯỚNG DẪN KHOA HỌC PGS. TS. ĐỖ THANH NGHỊ TS. NGUYỄN VĂN HÒA CẦN THƠ, 2019 LỜI CẢM ƠN Để hoàn thành luận án này tôi đã nhận được sự hướng dẫn, quan tâm, giúp đỡ nhiệt tình từ quý Thầy Cô, bạn bè và người thân. Tôi xin gửi lời cảm ơn chân thành đến: Thầy PGS.TS. Đỗ Thanh Nghị và Thầy TS. Nguyễn Văn Hòa đã tận tình chỉ bảo, hướng dẫn, động viên và tạo mọi điều kiện tốt nhất cho tôi trong quá trình học tập và nghiên cứu. Thầy, Cô và các anh, chị của khoa Công nghệ thông tin và Truyền thông, trường Đại học Cần Thơ đã cung cấp thêm kiến thức, tạo mọi điều kiện cho tôi và quan tâm, hỗ trợ tôi trong quá trình học tập. Ban giám hiệu trường Đại học An Giang, Ban chủ nhiệm Khoa Công nghệ thông tin đã tạo điều kiện để tôi được tham gia học tập nâng cao trình độ chuyên môn, các bạn đồng nghiệp đã không ngừng động viên và giúp đỡ tôi trong suốt thời gian học tập. Sau cùng tôi xin chân thành cảm ơn sâu sắc đến gia đình và người thân đã giúp đỡ, động viên tôi trong suốt quá trình học tập và tạo điều kiện tốt nhất để tôi hoàn thành luận án. NCS Huỳnh Phước Hải ii TÓM TẮT Trong những năm gần đây, ung thư là một trong những nguyên nhân hàng đầu gây tử vong trên toàn thế giới. Do đó, ngày càng có nhiều nghiên cứu được thực hiện để tìm giải pháp hiệu quả chẩn đoán và điều trị ung thư. Tuy nhiên, cho đến nay vẫn còn nhiều thách thức do nguyên nhân gây ung thư liên quan đến rối loạn di truyền hoặc sự thay đổi quá trình phát triển tự nhiên trong tế bào. Phân tích biểu hiện gen bằng các mô hình học máy là công cụ mạnh mẽ để xác định các thay đổi của các tế bào trong các điều kiện môi trường khác nhau. Các mô hình học máy cung cấp thông tin hữu ích để chẩn đoán và điều trị ung thư. Tuy nhiên, mô hình học máy để phân lớp dữ liệu biểu hiện gen là dễ bị quá khớp do dữ liệu biểu hiện gen có số chiều rất lớn và số lượng mẫu nhỏ. Phân lớp dữ liệu có số chiều lớn là một trong 10 thách thức của học máy hiện đại. Trong luận án, chúng tôi giải quyết các vấn đề này bằng các đóng góp sau đây. Thứ nhất, chúng tôi đề xuất mô hình rút trích đặc trưng mới để học các tính năng tiềm ẩn của dữ liệu biểu hiện gen bằng mạng nơ-ron tích chập sâu (DCNN). Các đặc trưng mới được rút trích bằng DCNN cải thiện độ chính xác phân lớp dữ liệu biểu hiện gen của các công nghệ DNA Microarray và RNA-Seq. Kết quả thực nghiệm cho thấy độ chính xác của các bộ phân loại được cải thiện khi dùng DCNN rút trích đặc trưng từ dữ liệu biểu hiện gen. Bên cạnh đó, chúng tôi còn đề xuất phương pháp giải quyết cả hai thách thức của phân lớp dữ liệu biểu hiện gen bằng giải thuật tăng cường dữ liệu SMOTE từ đặc trưng mới được rút trích bằng mạng DCNN. Giải thuật SMOTE được dùng để sinh dữ liệu tổng hợp từ các đặc trưng mới được rút trích bằng mạng DCNN. Dữ liệu tổng hợp được sinh ra được tăng cường cho dữ liệu học và sử dụng các giải thuật phân lớp hiện đại để phân loại. Thứ hai, chúng tôi đề xuất mô hình tăng cường dữ liệu cho phân lớp biểu hiện gen bằng mạng đối kháng sinh mẫu (GAN). Mạng GAN được xây dựng phù hợp với dữ liệu biểu hiện gen để sinh dữ liệu tổng hợp từ dữ liệu gốc. Mô hình được kết hợp với các giải thuật phân lớp để phân loại dữ liệu biểu hiện gen. Kết quả thực nghiệm cho thấy mô hình đề xuất cải thiện được độ chính iii xác của các giải thuật gồm k láng giềng, cây quyết định, máy học véc-tơ hỗ trợ và rừng ngẫu nhiên. Thứ ba, chúng tôi đề xuất mô hình tập hợp các cây xiên phân ngẫu nhiên đơn giản (RODS) dựa trên máy học véc-tơ hỗ trợ (SVM) để phân lớp hiệu quả dữ liệu biểu hiện gen. Ý tưởng chính là kết hợp nhiều cây xiên phân ngẫu nhiên đơn giản theo hướng tiếp cận Bagging và Boosting. Chúng tôi xây dựng tập hợp các cây xiên phân ngẫu nhiên đơn giản dựa trên siêu phẳng tối ưu thu được từ huấn luyện SVM. Kết quả thực nghiệm trên cho thấy mô hình đề xuất hiệu quả hơn các giải thuật khác gồm k láng giềng, cây quyết định, máy học véc-tơ hỗ trợ, rừng ngẫu nhiên, bagging và adaboost khi phân lớp trực tiếp trên số chiều gốc. Ngoài ra, mô hình đề xuất cũng cải thiện được độ chính xác của mô hình phân lớp khi kết hợp với các kỹ thuật tăng cường dữ liệu bằng mạng GAN và rút trích đặc trưng bằng mạng DCNN. Từ khóa: dữ liệu biểu hiện gen, mô hình phân lớp, mạng nơ-ron tích chập sâu, mạng đối kháng sinh mẫu, mô hình tập hợp các cây xiên phân ngẫu nhiên đơn giản, máy học véc-tơ hỗ trợ iv ABSTRACT In recent years, cancer is leading cause of death worldwide. Therefore, more and more studies have been conducted which aim to improve the ability to discover cancers earlier and to diagnose them more accurately than was the case only a few years ago. However, there are still many challenges in cancer treatment because the most common causes of cancer are genetic disorders and epigenetic alterations in the cells. Gene expression is an exceptionally powerful tool for identifying changes in cells between different environmental conditions or developmental stages. It is able to provide benefit information that is used to explore and diagnose disease. Gene expression data classification models play a key role to address the fundamental problems relating to cancer. Nevertheless, these models can easy overfiting because of the very-high-dimensional and small-sample-size issues. Classifying gene expression data is a challenge in the field of machine learning. In this dissertation we are interested in tackling these issues with the following contributions. Firstly, we propose a new feature extraction model to learn latent features from gene expression data using deep convolutional neural network (DCNN). This model improves the classification accuracy of gene expression on both RNA-Seq and DNA-Microarray platforms. Experiment results show that DCNN is effective to extract features from gene expression data. On the other hand, we also propose a combined enhancing and extraction method to address both challenges of classification models using gene expression data. In this approach, SMOTE algorithm generates new data from features extracted by DCNN. These models are used in conjunction with various classifiers that efficiently classify gene expression data. Secondly, we propose a new enhancing gene expression data model with generative adversarial network (GAN).GAN is implemented to generate synthetic data from original training datasets, which is used in conjunction with various classifiers to predict gene expression data. Numerical test results show that our proposed model improve the classification accuracy of algorithms including support vector machines, k nearest neighbors and random forests. v Finally, we investigate random ensemble oblique decision stumps (RODS) based on linear support vector machine (SVM) that is suitable for classifying very-high-dimensional microarray gene expression data. Our classification algorithms (called Bag-RODS and Boost-RODS) learn multiple oblique decision stumps in the way of bagging and boosting to form an ensemble of classifiers more accurate than single model. Numerical test results show that our proposed algorithms are more accurate than the-state-of-the-art classification models, including k nearest neighbors, support vector machines, decision trees and ensembles of decision trees like random forests, bagging and adaboost. In addition, these models also improve the classification accuracy by combined with enhancing data model using the GAN and feature extraction model using DCNN. Key words: gene expression data, classification, deep convolutional neural network, generative adversarial network, random ensemble oblique decision stumps, support vector machines vi MỤC LỤC LỜI CẢM ƠN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii TÓM TẮT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii ABSTRACT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v MỤC LỤC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vii DANH MỤC CÁC HÌNH VẼ . . . . . . . . . . . . . . . . . . . xii DANH MỤC CÁC BẢNG BIỂU . . . . . . . . . . . . . . . . . xiv CHƯƠNG 1. GIỚI THIỆU 1 1.1 Tính cấp thiết của luận án . . . . . . . . . . . . . . . . . . . . . 1 1.2 Mục tiêu, đối tượng, phạm vi và phương pháp nghiên cứu . . . 3 1.3 Nhiệm vụ và hướng tiếp cận của luận án . . . . . . . . . . . . . 4 1.3.1 Nghiên cứu xây dựng mô hình rút trích đặc trưng cho dữ liệu biểu hiện gen . . . . . . . . . . . . . . . . . . . . 1.3.2 Nghiên cứu xây dựng mô hình tăng cường dữ liệu cho dữ liệu biểu hiện gen . . . . . . . . . . . . . . . . . . . . 1.3.3 4 6 Nghiên cứu xây dựng mô hình phân lớp hiệu quả dữ liệu biểu hiện gen . . . . . . . . . . . . . . . . . . . . . . 7 1.4 Các đóng góp của luận án . . . . . . . . . . . . . . . . . . . . . 7 1.5 Bố cục của luận án . . . . . . . . . . . . . . . . . . . . . . . . . 9 CHƯƠNG 2. CƠ SỞ LÝ THUYẾT VÀ CÁC CÔNG TRÌNH LIÊN QUAN 11 2.1 Dữ liệu biểu hiện gen . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2 Mô hình phân lớp dữ liệu biểu hiện gen . . . . . . . . . . . . . 15 2.2.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . 15 2.2.2 Đánh giá mô hình . . . . . . . . . . . . . . . . . . . . . . 16 2.2.3 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . 18 Các nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . . 24 2.3.1 Mô hình k láng giềng . . . . . . . . . . . . . . . . . . . . 24 2.3.2 Mô hình cây quyết định . . . . . . . . . . . . . . . . . . 25 2.3.3 Máy học véc-tơ hỗ trợ . . . . . . . . . . . . . . . . . . . 26 2.3 vii 2.3.4 Phương pháp tập hợp mô hình . . . . . . . . . . . . . . 30 2.3.5 Mô hình mạng nơ-ron nhân tạo . . . . . . . . . . . . . . 32 2.3.6 Các mô hình học sâu . . . . . . . . . . . . . . . . . . . . 33 2.4 Thảo luận các nghiên cứu liên quan . . . . . . . . . . . . . . . 36 2.5 Kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 CHƯƠNG 3. MÔ HÌNH RÚT TRÍCH ĐẶC TRƯNG CHO DỮ LIỆU BIỂU HIỆN GEN 3.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Mô hình mạng nơ-ron tích chập sâu rút trích đặc trưng dữ liệu biểu hiện gen 3.2.1 3.3 3.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 39 41 Kiến trúc mô hình mạng nơ-ron tích chập sâu rút trích đặc trưng cho dữ liệu biểu hiện gen . . . . . . . . . . . 41 3.2.2 Quá trình rút trích đặc trưng . . . . . . . . . . . . . . . 44 3.2.3 Các giải thuật phân lớp đặc trưng được rút trích . . . . 49 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . 50 3.3.1 Kết quả phân lớp dữ liệu biểu hiện gen DNA Microarray 51 3.3.2 Kết quả phân lớp dữ liệu biểu hiện gen RNA-Seq . . . 3.3.3 Kết quả phân lớp tập dữ liệu biểu hiện gen RNA-Seq lớn 68 Kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 70 CHƯƠNG 4. MÔ HÌNH TĂNG CƯỜNG MẪU ĐẶC TRƯNG RÚT TRÍCH BẰNG SMOTE 4.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Tăng cường mẫu bằng SMOTE dựa vào đặc trưng rút trích của 4.3 4.4 71 71 dữ liệu biểu hiện gen . . . . . . . . . . . . . . . . . . . . . . . . 73 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . 76 4.3.1 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . 76 4.3.2 Thiết lập tham số các mô hình . . . . . . . . . . . . . . 76 4.3.3 Kết quả phân lớp . . . . . . . . . . . . . . . . . . . . . . 78 Kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 CHƯƠNG 5. MÔ HÌNH TĂNG CƯỜNG DỮ LIỆU CHO DỮ LIỆU BIỂU HIỆN GEN 90 5.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 5.2 Mô hình tăng cường mẫu cho dữ liệu biểu hiện gen . . . . . . . 92 viii 5.3 Phân lớp biểu hiện gen sau khi tăng cường dữ liệu . . . . . . . 95 5.4 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . 96 5.4.1 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . 97 5.4.2 Thiết lập tham số các mô hình . . . . . . . . . . . . . . 97 5.4.3 Kết quả phân lớp . . . . . . . . . . . . . . . . . . . . . . 98 5.5 Kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 CHƯƠNG 6. MÔ HÌNH TẬP HỢP CÂY XIÊN PHÂN NGẪU NHIÊN ĐƠN GIẢN 106 6.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 6.2 Mô hình tập hợp cây xiên phân ngẫu nhiên đơn giản . . . . . . 107 6.3 6.4 6.2.1 Cây xiên phân ngẫu nhiên đơn giản . . . . . . . . . . . 107 6.2.2 Mô hình Bagging cây xiên phân ngẫu nhiên đơn giản . 110 6.2.3 Mô hình Boosting cây xiên phân ngẫu nhiên đơn giản . 112 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . 114 6.3.1 Kết quả phân lớp trên số chiều gốc của dữ liệu . . . . . 115 6.3.2 Kết quả phân lớp sau khi tăng cường dữ liệu bằng GAN 126 6.3.3 Kết quả phân lớp đặc trưng rút trích bằng DCNN . . . 130 Kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 CHƯƠNG 7. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 135 7.1 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 7.2 Hướng phát triển . . . . . . . . . . . . . . . . . . . . . . . . . . 137 ix DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Viết tắt Giải thích Adaboost Giải thuật Adaboost ANN Mô hình mạng nơ-ron nhân tạo (Artificial Neural Network) Bag-C4.5 Mô hình Bagging các cây quyết định Bag-RODS Mô hình Bagging các cây xiên phân ngẫu nhiên đơn giản Boost-RODS Mô hình Boosting các cây xiên phân ngẫu nhiên đơn giản C4.5 Giải thuật cây quyết định C4.5 DCNN Mô hình mạng nơ-ron tích chập sâu (Deep Convolutional Neural Network) GAN Mạng đối kháng sinh mẫu (Generative Adversarial Network) k NN Giải thuật k láng giềng (Generative Adversarial Network) LSVM Giải thuật máy học véc-tơ hỗ trợ dùng hàm nhân tuyến tính (Linear Support Vector Machines) ODS Mô hình cây xiên phân đơn giản (Oblique Decision Stumps) RF Giải thuật rừng ngẫu nhiên (Random Forests) RODS SMOTE SVM DCNN-Bag-RODS DCNN-Boost-RODS DCNN-C4.5 DCNN-k NN DCNN-LSVM DCNN-RF DCNN-SVM Mô hình cây xiên phân ngẫu nhiên đơn giản (Random Oblique Decision Stumps) Phương pháp mới sinh mẫu từ phần tử dữ liệu hiếm (Synthetic Minority Over-sampling Technique) Giải thuật máy học véc-tơ hỗ trợ (Support Vector Machines) Mô hình sử dụng Bag-RODS phân lớp các đặc trưng được rút trích bằng DCNN Mô hình sử dụng Boost-RODS phân lớp các đặc trưng được rút trích bằng DCNN Mô hình sử dụng C4.5 phân lớp các đặc trưng được rút trích bằng DCNN Mô hình sử dụng k NN phân lớp các đặc trưng được rút trích bằng DCNN Mô hình sử dụng LSVM phân lớp các đặc trưng được rút trích bằng DCNN Mô hình sử dụng RF phân lớp các đặc trưng được rút trích bằng DCNN Mô hình sử dụng SVM phân lớp các đặc trưng được rút trích bằng DCNN x Viết tắt DCNN-SMOTE-C4.5 DCNN-SMOTE-k NN DCNN-SMOTE-LSVM DCNN-SMOTE-RF DCNN-SMOTE-SVM GAN-Bag-RODS GAN-Boost-RODS GAN-C4.5 GAN-k NN GAN-LSVM GAN-RF GAN-SVM Giải thích Mô hình sử dụng C4.5 phân lớp các đặc trưng được rút trích bằng DCNN và tăng cường mẫu bằng SMOTE Mô hình sử dụng k NN phân lớp các đặc trưng được rút trích bằng DCNN và tăng cường mẫu bằng SMOTE Mô hình sử dụng LSVM phân lớp các đặc trưng được rút trích bằng DCNN và tăng cường mẫu bằng SMOTE Mô hình sử dụng RF phân lớp các đặc trưng được rút trích bằng DCNN và tăng cường mẫu bằng SMOTE Mô hình sử dụng SVM phân lớp các đặc trưng được rút trích bằng DCNN và tăng cường mẫu bằng SMOTE Mô hình sử dụng Bag-RODS phân lớp sau khi tăng cường dữ liệu bằng GAN Mô hình sử dụng Boost-RODS phân lớp sau khi tăng cường dữ liệu bằng GAN Mô hình sử dụng C4.5 phân lớp sau khi tăng cường dữ liệu bằng GAN Mô hình sử dụng k NN phân lớp sau khi tăng cường dữ liệu bằng GAN Mô hình sử dụng LSVM phân lớp sau khi tăng cường dữ liệu bằng GAN Mô hình sử dụng RF phân lớp sau khi tăng cường dữ liệu bằng GAN Mô hình sử dụng SVM phân lớp sau khi tăng cường dữ liệu bằng GAN xi DANH MỤC CÁC HÌNH VẼ Hình 1.1 Mô hình phân lớp sử dụng các phương pháp rút trích đặc trưng để giảm chiều . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Hình 1.2 Mô hình phân lớp sử dụng phương pháp tăng cường dữ liệu . . . . . 6 Hình 1.3 Mô hình phân lớp trực tiếp trên chiều gốc của dữ liệu . . . . . . . . 7 Hình 2.1 Lược đồ thông tin di truyền trong tế bào . . . . . . . . . . . . . . . . 12 Hình 2.2 Biểu diễn trực quan kết quả các thí nghiệm của công nghệ DNA Microarray và RNA Sequencing . . . . . . . . . . . . . . . . . . . . . . . . Hình 2.3 Cấu trúc dữ liệu của ma trận biểu hiện gen sau khi chuẩn hóa . . . . Hình 2.4 Thống kê số lượng thí nghiệm trên người theo các loại chip Affymetrix 13 15 trên ArrayExpression (Cập nhật ngày 01/04/2018) . . . . . . . . . . . . . 19 Hình 2.5 Phân lớp dữ liệu với k láng giềng (k = 5) . . . . . . . . . . . . . . . 24 Hình 2.6 Phân lớp tuyến tính với máy học SVM . . . . . . . . . . . . . . . . . 27 Hình 2.7 Các phương pháp học nhiều lớp của SVM . . . . . . . . . . . . . . . 28 Hình 2.8 Thống kê các nghiên cứu sử dụng Deep Learning trong Tin sinh học từ năm 2004 đến 2014 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 Hình 2.9 Mô hình mạng nơ-ron tích chập . . . . . . . . . . . . . . . . . . . . . Hình 3.1 Kiến trúc mô hình DCNN rút trích đặc trưng cho dữ liệu biểu hiện gen 43 Hình 3.2 Ma trận vuông biểu diễn biểu hiện gen . . . . . . . . . . . . . . . . . 44 Hình 3.3 Mô phỏng cách tích chập trên ma trận biểu hiện gen . . . . . . . . . 45 Hình 3.4 Mô phỏng lớp pooling trên ma trận biểu hiện gen . . . . . . . . . . . 46 Hình 3.5 Kích thước các ma trận trong các tầng của mạng DCNN khi rút trích đặc trưng từ tập Colon [1] . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 46 Hình 3.6 4 bản đồ đặc trưng của lớp CONV1 trong tập Colon [1] . . . . . . . 47 Hình 3.7 4 bản đồ đặc trưng của lớp POOLING1 trong tập Colon [1] . . . . . 48 Hình 3.8 2 bản đồ đặc trưng của lớp CONV2 trong tập Colon [1] . . . . . . . 48 Hình 3.9 2 bản đồ đặc trưng của lớp POOLING2 trong tập Colon [1] . . . . . 49 Hình 3.10 So sánh kết quả phân lớp giữa các mô hình trước và sau khi rút trích đặc trưng trên 50 tập dữ liệu biểu hiện gen DNA Microarray . . . . . . . . 58 Hình 3.11 So sánh kết quả phân lớp giữa DCNN-SVM và SVM trên 50 tập dữ liệu biểu hiện gen DNA Microarray . . . . . . . . . . . . . . . . . . . . . . 59 Hình 3.12 So sánh kết quả phân lớp giữa DCNN-LSVM và LSVM trên 50 tập dữ liệu biểu hiện gen DNA Microarray . . . . . . . . . . . . . . . . . . . . 60 Hình 3.13 So sánh kết quả phân lớp giữa DCNN-k NN và k NN trên 50 tập dữ liệu biểu hiện gen DNA Microarray . . . . . . . . . . . . . . . . . . . . . . xii 61 Hình 3.14 So sánh kết quả phân lớp giữa các mô hình trước và sau khi sử dụng DCNN trên 25 tập dữ liệu biểu hiện gen RNA-Seq . . . . . . . . . . . . . . 66 Hình 3.15 So sánh kết quả phân lớp giữa DCNN-SVM và SVM trên 25 tập dữ liệu biểu hiện gen RNA-Seq . . . . . . . . . . . . . . . . . . . . . . . . . . 66 Hình 3.16 So sánh kết quả phân lớp giữa DCNN-LSVM và LSVM trên 25 tập dữ liệu biểu hiện gen RNA-Seq . . . . . . . . . . . . . . . . . . . . . . . . 67 Hình 3.17 So sánh kết quả phân lớp giữa DCNN-k NN và k NN trên 25 tập dữ liệu biểu hiện gen RNA-Seq . . . . . . . . . . . . . . . . . . . . . . . . . . 67 Hình 3.18 So sánh độ chính xác phân lớp giữa các mô hình trên tập biểu hiện gen RNA-Seq lớn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Hình 4.1 Mô hình kết hợp DCNN và SMOTE phân lớp dữ liệu biểu hiện gen . Hình 4.2 Kiến trúc mô hình DCNN rút trích đặc trưng và tăng cường mẫu bằng SMOTE từ dữ liệu rút trích . . . . . . . . . . . . . . . . . . . . . . . Hình 4.3 85 86 So sánh độ chính xác phân lớp giữa DCNN-SMOTE-k NN và k NN trên 50 tập dữ liệu biểu hiện gen DNA Microarray . . . . . . . . . . . . . . Hình 4.7 84 So sánh độ chính xác phân lớp giữa DCNN-SMOTE-LSVM và LSVM trên 50 tập dữ liệu biểu hiện gen DNA Microarray . . . . . . . . . . . . . . Hình 4.6 74 So sánh độ chính xác phân lớp giữa DCNN-SMOTE-SVM và SVM trên 50 tập dữ liệu biểu hiện gen DNA Microarray . . . . . . . . . . . . . . Hình 4.5 73 So sánh kết quả phân lớp giữa các mô hình trước và sau khi sử dụng DCNN, SMOTE trên 50 tập dữ liệu biểu hiện gen DNA Microarray . . . . Hình 4.4 69 87 So sánh độ chính xác phân lớp giữa DCNN-SMOTE-RF và RF trên 50 tập dữ liệu biểu hiện gen DNA Microarray . . . . . . . . . . . . . . . . 88 Hình 5.1 Kiến trúc mạng đối kháng sinh mẫu GAN cho dữ liệu biểu hiện gen . 92 Hình 5.2 Mô tả quá trình mạng GAN huấn luyện và sinh mẫu . . . . . . . . . 93 Hình 5.3 Qui trình phân lớp dữ liệu biểu hiện gen bằng GAN 95 Hình 5.4 So sánh độ chính xác phân lớp giữa GAN-SVM và SVM trên 20 tập . . . . . . . . . dữ liệu biểu hiện gen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 Hình 5.5 So sánh độ chính xác phân lớp giữa GAN-LSVM và LSVM trên 20 tập dữ liệu biểu hiện gen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 Hình 5.6 So sánh độ chính xác phân lớp giữa GAN-k NN và k NN trên 20 tập dữ liệu biểu hiện gen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 Hình 5.7 So sánh độ chính xác phân lớp giữa GAN-RF và RF trên 20 tập dữ liệu biểu hiện gen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 Hình 5.8 So sánh độ chính xác phân lớp giữa GAN-C4.5 và C4.5 trên 20 tập dữ liệu biểu hiện gen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 Hình 5.9 So sánh kết quả phân lớp trước và sau khi sử dụng GAN . . . . . . . 104 Hình 6.1 Phân hoạch đơn thuộc tính (trái), phân hoạch đa thuộc tính (phải) . 108 Hình 6.2 Cây xiên phân ngẫu nhiên đơn giản . . . . . . . . . . . . . . . . . . . 110 Hình 6.3 Mô hình Bagging các cây xiên phân ngẫu nhiên đơn giản . . . . . . . 111 xiii Hình 6.4 Mô hình Boosting các cây xiên phân ngẫu nhiên đơn giản . . . . . . 112 Hình 6.5 Minh họa khả năng tổng quát hóa của SVM khi điều chỉnh hằng số C 114 Hình 6.6 So sánh trung bình độ chính xác (%) giữa các mô hình . . . . . . . . 121 Hình 6.7 So sánh độ chính xác của Bag-RODS với SVM, LSVM, k NN và C4.5 trên 50 tập dữ liệu biểu hiện gen DNA Microarray . . . . . . . . . . . . . . 122 Hình 6.8 So sánh độ chính xác của Bag-RODS với RF, Bag-C4.5 và Adaboost trên 50 tập dữ liệu biểu hiện gen DNA Microarray . . . . . . . . . . . . . . 123 Hình 6.9 So sánh độ chính xác của Boost-RODS với LSVM, k NN và C4.5 trên 50 tập dữ liệu biểu hiện gen DNA Microarray . . . . . . . . . . . . . . . . 124 Hình 6.10 So sánh độ chính xác của Boost-RODS với RF, Bag-C4.5 và Adaboost trên 50 tập dữ liệu biểu hiện gen DNA Microarray . . . . . . . . . . . . . . 125 Hình 6.11 So sánh độ chính xác phân lớp giữa GAN-Bag-RODS và Bag-RODS trên 20 tập dữ liệu biểu hiện gen . . . . . . . . . . . . . . . . . . . . . . . 129 Hình 6.12 So sánh độ chính xác phân lớp giữa GAN-Boost-RODS và BoostRODS trên 20 tập dữ liệu biểu hiện gen . . . . . . . . . . . . . . . . . . . 129 Hình 6.13 So sánh trung bình độ chính xác (%) giữa các mô hình Bag-RODS, Boost-RODS, GAN-Bag-RODS, GAN-Boost-RODS, GAN-SVM, GAN-LSVM, GAN-RF và GAN-k NN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 Hình 6.14 So sánh trung bình độ chính xác (%) giữa các mô hình DCNN-BagRODS, DCNN-Boost-RODS, DCNN-SVM, DCNN-LSVM, DCNN-k NN . . 134 xiv DANH MỤC CÁC BẢNG BIỂU Bảng 2.1 Thông tin chi tiết 50 tập dữ liệu biểu hiện gen DNA Microarray . . . 19 Bảng 2.2 Thông tin 20 tập dữ liệu biểu hiện gen DNA Microarray . . . . . . . 21 Bảng 2.3 Thông tin của 25 tập dữ liệu biểu hiện gen RNA-Seq có 2 lớp . . . . 22 Bảng 2.4 Thông tin của tập dữ liệu biểu hiện gen RNA-Seq lớn . . . . . . . . 23 Bảng 3.1 Kết quả điều chỉnh tham số của mô hình DCNN-SVM trên 50 tập dữ liệu biểu hiện gen DNA Microarray . . . . . . . . . . . . . . . . . . . . Bảng 3.2 Kết quả phân lớp của 10 mô hình trên 50 tập dữ liệu biểu hiện gen DNA Microarray . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bảng 3.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 Kết quả điều chỉnh các tham số của mô hình DCNN-SMOTE-SVM trên 50 tập dữ liệu biểu hiện gen DNA Microarray . . . . . . . . . . . . . . Bảng 4.2 64 Kết quả phân lớp của các mô hình trên tập dữ liệu biểu hiện gen RNA-Seq lớn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bảng 4.1 63 So sánh kết quả phân lớp của 10 mô hình trên 25 tập dữ liệu biểu hiện gen RNA-Seq Bảng 3.6 54 Kết quả phân lớp của 10 mô hình trên 25 tập dữ liệu biểu hiện gen RNA-Seq . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bảng 3.5 53 So sánh kết quả phân lớp của 10 mô hình trên 50 tập dữ liệu biểu hiện gen DNA Microarray . . . . . . . . . . . . . . . . . . . . . . . . . . . Bảng 3.4 52 77 Kết quả phân lớp của 15 mô hình trên 50 tập dữ liệu biểu hiện gen DNA Microarray . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bảng 4.3 So sánh hiệu quả phân lớp giữa các mô hình trên 50 tập dữ liệu . . . Bảng 5.1 Kết quả điều chỉnh tham số của mô hình GAN-SVM trên 20 tập dữ liệu biểu hiện gen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bảng 5.2 Kết quả phân lớp của 10 mô hình trên 20 tập dữ liệu . . . . . . . . . Bảng 5.3 So sánh kết quả phân lớp giữa các mô hình trên 20 tập dữ liệu biểu hiện gen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 82 98 98 99 Bảng 6.1 Kết quả điều chỉnh các tham số của Bag-RODS và Boost-RODS . . 115 Bảng 6.2 Độ chính xác phân lớp của 9 mô hình trên 50 tập dữ liệu biểu hiện gen DNA Microarray . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 Bảng 6.3 So sánh kết quả của Bag-RODS, Boost-RODS, SVM, LSVM, RF, k NN, C4.5, Bag-C4.5 và Adaboost trên 50 tập dữ liệu biểu hiện gen DNA Microarray . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 xv Bảng 6.4 Kết quả phân lớp của các mô hình Bag-RODS, Boost-RODS, GAN- Bag-RODS và GAN-Boost-RODS trên 20 tập dữ liệu biểu hiện gen DNA Microarray . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 Bảng 6.5 So sánh kết quả phân lớp của Bag-RODS, Boost-RODS khi kết hợp với GAN trên 20 tập dữ liệu biểu hiện gen . . . . . . . . . . . . . . . . . . 128 Bảng 6.6 Kết quả phân lớp của các mô hình Bag-RODS, Boost-RODS, DCNN- Bag-RODS và DCNN-Boost-RODS trên 50 tập dữ liệu biểu hiện gen DNA Microarray . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 Bảng 6.7 So sánh kết quả phân lớp của Bag-RODS, Boost-RODS khi phân lớp đặc trưng rút trích bằng DCNN trên 50 tập dữ liệu biểu hiện gen . . . . . 132 xvi CHƯƠNG 1. GIỚI THIỆU Trong chương này, chúng tôi trình bày sự cần thiết của mô hình xử lý hiệu quả dữ liệu biểu hiện gen trong phân lớp bệnh ung thư. Tiếp theo là mục tiêu, đối tượng, phạm vi, phương pháp nghiên cứu và các đóng góp của luận án. Cuối cùng là bố cục của luận án. 1.1. Tính cấp thiết của luận án Nguyên nhân gây ra bệnh ung thư liên quan đến sự thay đổi trong bộ gen và sự kết hợp các đột biến gen xảy ra trong quá trình di truyền. Theo tổ chức y tế thế giới (WHO), ung thư là một trong những nguyên nhân gây chết người hàng đầu [2]. Gần đây, nghiên cứu điều trị bệnh ung thư trở thành vấn đề quan trọng trong lĩnh vực y tế trên toàn thế giới do tỷ lệ bệnh và tử vong cao [3]. Trong năm 2018, theo thống kê của WHO đã có thêm 18,1 triệu bệnh nhân ung thư và 9,6 triệu người đã tử vong bởi căn bệnh này. Ngoài ra, Rahib và các cộng sự đã nghiên cứu dự báo số lượng người bệnh ung thư sẽ tăng 20% đến 40% từ năm 2020 và 2030 so với năm 2010 [4]. Mặc dù đã có nhiều nghiên cứu điều trị bệnh ung thư. Tuy nhiên các phương pháp hiện nay chưa thực sự mang lại hiệu quả tốt nhất cho người bệnh do sự liên quan phức tạp giữa các yếu tố di truyền, tế bào và đột biến gen trong quá trình phát triển của con người [5]. Phác đồ điều trị chung cho các nhóm bệnh ung thư có thể mang lại hiệu quả khác nhau đối với từng bệnh nhân [6]. Những năm gần đây, phương pháp điều trị cá nhân hóa còn được gọi là y học hóa cá thể (personalized medicine) là một hướng điều trị có hiệu quả đối với bệnh ung thư [7]. Phương pháp này tốt hơn hơn khi đánh giá được hiệu quả điều trị dựa trên chính hồ sơ di truyền của bệnh nhân [8]. Gần đây, các nghiên cứu trên toàn bộ hệ gen người giúp khám phá ra vai trò của các tác nhân di truyền trong quá trình gây bệnh. Trong đó, các nghiên cứu phân tích dữ liệu biểu hiện gen đã cung cấp các thông tin quan trọng để hỗ trợ xây dựng phác đồ điều trị phù hợp cho từng bệnh nhân dựa vào các thông tin gen học của từng cá thể [7]. 1 Sự phát triển công nghệ phân tích biểu hiện gen được sử dụng rộng rãi trong các nghiên cứu y sinh đã tạo ra lượng dữ liệu khổng lồ được công bố trên các kho dữ liệu trực tuyến. Biểu hiện gen (gene expression) là quá trình mà qua đó thông tin mã hóa trong một gen được truyền vào cấu trúc đang có trong tế bào và điều khiển tế bào [9]. Dữ liệu biểu hiện gen được các mô hình học máy xử lý và phân tích nhằm cung cấp thông tin hữu ích để chẩn đoán và điều trị bệnh ung thư. Tuy nhiên, đặc điểm dữ liệu biểu hiện gen có số chiều rất lớn được phân tích từ các mức độ biểu hiện của hàng chục nghìn gen của các tế bào qua các thí nghiệm và số mẫu nhỏ do chi phí cao của các công nghệ [10] nên phân lớp dữ liệu biểu hiện gen là bài toán phức tạp. Các mô hình học máy được ứng dụng xử lý dữ liệu biểu hiện gen gồm phân lớp (classification), chọn gen (feature selection) và phân cụm (clustering) [11]. Các nghiên cứu này đã mang lại nhiều tri thức quan trọng để nâng cao chất lượng và hiệu quả điều trị và chẩn đoán bệnh ung thư [7, 12, 13, 14]. Trong đó, chọn gen và phân cụm gen là hai lĩnh vực nghiên cứu y sinh liên quan nhiều đến nghiên cứu dược học và đánh giá vai trò chức năng gen trong y học [15, 16]. Phân lớp dữ liệu biểu hiện gen là bài toán quan trọng để chẩn đoán một bệnh phẩm mới chưa được gán nhãn [17, 18, 19, 20, 21, 22]. Đây là hướng nghiên cứu được quan tâm nhiều nhất trong lĩnh vực phân tích dữ liệu biểu hiện gen [11] khi tận dụng sức mạnh của các mô hình phân lớp để chẩn đoán tự động một mẫu bệnh phẩm mới mà không cần nhiều đến kiến thức y sinh liên quan đến dữ liệu [23]. Phân lớp dữ liệu có số chiều lớn là một trong 10 vấn đề khó của cộng đồng khai phá dữ liệu [24]. Các mô hình phân lớp dữ liệu có số chiều lớn thường cho kết quả tốt trên tập huấn luyện nhưng lại có kết quả thấp trên tập kiểm tra. Thách thức chính của phân lớp biểu hiện gen là dữ liệu phân tích có số chiều rất lớn lên đến hàng chục nghìn chiều và tách rời nhau trong không gian có số chiều cao nên tìm mô hình phân lớp tốt là khó khăn do có nhiều khả năng lựa chọn mô hình tốt. Vì vậy để tìm kiếm một mô hình phân lớp hiệu quả (phân lớp dữ liệu tốt trên tập kiểm thử) trong không gian giả thuyết lớn là vấn đề phức tạp. Xây dựng mô hình phân lớp tốt trên các tập dữ liệu có số chiều lớn và số mẫu nhỏ là bài toán khó trong lĩnh vực học máy. Mặc dù đã có nhiều mô hình phân lớp dữ liệu biểu hiện gen được đề xuất nhưng độ chính xác của mô hình vẫn còn bị giới hạn do sự phức tạp của dữ 2 liệu [25]. Trong lĩnh vực học máy, khi số chiều dữ liệu tăng thì số dữ liệu phân tích cũng tăng lên theo cấp số nhân. Bellman gọi hiện tượng này là "curse of dimensionality" khi xem xét các vấn đề về tối ưu hóa [26]. Đặc biệt đối với dữ liệu biểu hiện gen do dữ liệu không phủ hết trên tất cả các không gian nên kết quả phân lớp trên tập học và tập kiểm tra rất khác nhau làm cho mô hình phân lớp dễ bị quá khớp (overfiting). Nâng cao độ chính xác các mô hình phân lớp dữ liệu biểu hiện gen có đặc điểm "large p, small n" là một thách thức quan trọng [25]. Chính những thách thức này thúc đẩy chúng tôi thực hiện nghiên cứu quan trọng này. 1.2. Mục tiêu, đối tượng, phạm vi và phương pháp nghiên cứu Xử lý dữ liệu biểu hiện gen là chủ đề nghiên cứu quan trọng trong tin sinh học [27]. Trong đó, phân lớp dữ liệu biểu hiện gen là bài toán quan trọng [27] vì các mô hình phân lớp có thể chẩn đoán tự động một mẫu bệnh phẩm ung thư mới mà không cần nhiều đến kiến thức y sinh liên quan đến dữ liệu [23]. Các mô hình phân lớp có thể hỗ trợ các nghiên cứu y khoa chẩn đoán bệnh chính xác hơn góp phần cải thiện hiệu quả điều trị ung thư [28, 29]. Mục tiêu chính của luận án là đề xuất các phương pháp tiếp cận mới cho "bài toán phân lớp dữ liệu biểu hiện gen" để nâng cao độ chính xác phân lớp với các mục tiêu cụ thể sau: • Nghiên cứu xây dựng mô hình rút trích đặc trưng hiệu quả cho dữ liệu biểu hiện gen để nâng cao độ chính xác phân lớp. • Nghiên cứu xây dựng mô hình tăng cường dữ liệu cho dữ liệu biểu hiện gen để nâng cao độ chính xác phân lớp. • Nghiên cứu xây dựng mô hình phân lớp hiệu quả dữ liệu biểu hiện gen. Đối tượng nghiên cứu là các mô hình rút trích đặc trưng, mô hình sinh mẫu dữ liệu và mô hình phân lớp dữ liệu biểu hiện gen của bệnh ung thư ở người. Phạm vi nghiên cứu tập trung vào bài toán phân lớp dữ liệu biểu hiện gen của các thí nghiệm nghiên cứu bệnh ung thư trên người. Để thực hiện nghiên cứu chúng tôi phân tích, tổng hợp các nghiên cứu có liên quan đến nội dung nghiên cứu từ tài liệu tham khảo: sách, bài báo công 3
- Xem thêm -

Tài liệu liên quan