Tài liệu ứng dụng kỹ thuật học sâu trong chẩn đoán bệnh ngoài da

.PDF

147

thanhphoquetoi Báo vi phạm

Tải xuống 147

Mô tả:

iii MỤC LỤC LỜI CAM ĐOAN .................................................................................................... ii MỤC LỤC .............................................................................................................. iii TÓM TẮT LUẬN VĂN ..........................................................................................vi DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ............................................ vii DANH MỤC CÁC BẢNG ................................................................................... viii DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ ............................................................ix MỞ ĐẦU .................................................................................................................. 1 1. Lý do chọn đề tài .................................................................................................. 1 2. Mục đích và ý nghĩa đề tài .................................................................................... 2 3. Mục tiêu và nhiệm vụ ........................................................................................... 2 4. Đối tượng và phạm vi nghiên cứu ........................................................................ 3 5. Phương pháp nghiên cứu ...................................................................................... 3 6. Phương tiện, công cụ triển khai ............................................................................ 3 7. Cấu trúc của luận văn............................................................................................ 3 CHƯƠNG I. CƠ SỞ LÝ THUYẾT .......................................................................... 5 Tổng quan về trí tuệ nhân tạo (Artificial intelligence) ................................... 5 1.1.1. Các lĩnh vực của trí tuệ nhân tạo ............................................................. 5 1.1.2. Một số ứng dụng của trí tuệ nhân tạo ...................................................... 6 Tổng quan về ảnh và một số kỹ thuật xử lý ảnh ............................................. 7 1.2.1. Tổng quan về ảnh ..................................................................................... 7 1.2.1.1. Một số khái niệm cơ bản ................................................................... 7 1.2.1.2. Một số dạng ảnh ................................................................................ 8 1.2.2. Một số kỹ thuật xử lý ảnh ........................................................................ 9 1.2.2.1. Lược đồ ảnh (Histogram) .................................................................. 9 1.2.2.2. Nhị phân hóa ảnh ............................................................................. 10 1.2.2.3. Làm mịn ảnh .................................................................................... 10 1.2.2.4. Phép co ảnh - Erosion ...................................................................... 11 Trích chọn và biểu diễn đặc trưng hình ảnh ................................................. 11 1.3.1. Đặc trưng ảnh......................................................................................... 11 1.3.1.1. Đặc trưng màu sắc ........................................................................... 11 1.3.1.2. Đặc trưng kết cấu............................................................................. 12 1.3.1.3. Đặc trưng hình dạng ........................................................................ 12 1.3.2. Một số phương pháp trích chọn đặc trưng đơn giản .............................. 12 1.3.2.1. Trích chọn đặc trưng ảnh dựa trên màu sắc .................................... 12 iv 1.3.2.2. Trích chọn đặc trưng ảnh dựa trên kết cấu ...................................... 12 1.3.2.3. Trích chọn đặc trưng ảnh dựa trên hình dạng.................................. 13 1.3.3. Mô tả đặc trưng HOG ............................................................................ 14 1.3.3.1. Đặc trưng HOG ............................................................................... 14 1.3.3.2. Quá trình trích rút đặc trưng HOG .................................................. 14 1.3.4. Mô tả đặc trưng SIFT............................................................................. 18 1.3.4.1. Đặc trưng SIFT ................................................................................ 18 1.3.4.2. Quá trình xử lý SIFT ....................................................................... 19 1.3.4.3. Mô tả đặc trưng keypoint ................................................................ 22 Phương pháp phân đoạn ảnh......................................................................... 22 Kỹ thuật học máy.......................................................................................... 26 1.5.1. 1.5.2. Tổng quan .............................................................................................. 26 Máy phân loại Vector hỗ trợ (Support Vector Machine) ...................... 27 1.5.3. Mạng neural nhân tạo ............................................................................ 29 1.5.4. Mạng neural sâu ..................................................................................... 32 CHƯƠNG 2. KỸ THUẬT HỌC SÂU CNN TRONG CHẨN ĐOÁN BỆNH ...... 33 Bài toán chẩn đoán bệnh ngoài da bằng hình ảnh ........................................ 33 2.1.1. Các nghiên cứu liên quan....................................................................... 33 2.1.1.1. Giới thiệu về Lưu trữ ISIC .............................................................. 33 2.1.1.2. Tổng quan về Ung thư da ................................................................ 33 2.1.2. Mục tiêu bài toán chẩn đoán bệnh ......................................................... 34 2.1.3. Dữ liệu chẩn đoán bệnh ......................................................................... 35 2.1.3.1. Dữ liệu đầu vào ............................................................................... 35 2.1.3.2. Dữ liệu đầu ra .................................................................................. 36 2.1.3.3. Chứng minh tính chính xác ............................................................. 36 2.1.4. Đánh giá chẩn đoán bệnh ....................................................................... 37 2.1.4.1. Mục tiêu số liệu ............................................................................... 37 2.1.4.2. Số liệu khác ..................................................................................... 37 2.1.5. Chạy thử chương trình chẩn đoán bệnh ................................................. 38 2.1.5.1. Xác thực........................................................................................... 38 2.1.5.2. Kiểm tra ........................................................................................... 38 Mạng neural học sâu sử dụng trong nhận dạng ............................................ 38 2.2.1. Giới thiệu về mô hình CNN ................................................................... 38 2.2.2. Cấu trúc mô hình CNN .......................................................................... 39 2.2.3. Hoạt động của mô hình CNN ................................................................ 41 2.2.4. Một số kiến trúc học sâu đã huấn luyện có thể sử dụng ........................ 42 v 2.2.4.1. Mô hình Mạng AlexNet .................................................................. 42 2.2.4.2. Mô hình Mạng ZFNet ...................................................................... 44 2.2.4.3. Mô hình mạng GoogLeNet.............................................................. 45 2.2.4.4. Mô hình mạng VGG19 .................................................................... 47 Thiết kế hệ thống học sâu chẩn đoán bệnh ................................................... 48 2.3.1. Kiến trúc tổng quát ................................................................................ 48 2.3.2. Kiến trúc học sâu dựa vào mạng Deepmind inception .......................... 49 2.3.3. Tăng cường dữ liệu cho mạng học sâu .................................................. 51 CHƯƠNG 3. THỰC NGHIỆM, ĐÁNH GIÁ KẾT QUẢ ...................................... 53 Cơ sở dữ liệu thực nghiệm............................................................................ 53 Xây dựng kiến trúc học máy và môi trường cài đặt ..................................... 54 3.2.1. 3.2.2. Xây dựng kiến trúc mạng và tham số thực nghiệm ............................... 54 Môi trường và công cụ lập trình ............................................................ 57 Quy trình đánh giá, phân loại dữ liệu ........................................................... 58 Phân tích kết quả........................................................................................... 59 Kết quả thực nghiệm..................................................................................... 60 3.5.1. Kết quả đánh giá khối u ác tính trên bộ dữ liệu ISIC2017 .................... 60 3.5.2. Kết quả đánh giá các loại bệnh sắc tố da trên dữ liệu ISIC2018 ........... 61 Một số kết quả đánh giá so sánh các giải pháp............................................. 65 Một số kết quả so sánh, đánh giá sử dụng kết hợp nhiều phương pháp ....... 66 3.7.1. Các phương pháp trích xuất đặc trưng ................................................... 66 3.7.2. Các phương pháp học máy .................................................................... 67 3.7.3. Phân tích kết quả theo kỹ thuật tiền xử lý ............................................. 67 3.7.4. Phân tích kết quả theo đặc trưng............................................................ 68 3.7.5. Phân tích kết quả theo kỹ thuật học máy ............................................... 69 KẾT LUẬN VÀ KIẾN NGHỊ ................................................................................ 71 1. Kết luận ............................................................................................................... 71 2. Kiến nghị ............................................................................................................. 71 TÀI LIỆU THAM KHẢO ...................................................................................... 72 vi TÓM TẮT LUẬN VĂN ỨNG DỤNG KỸ THUẬT HỌC SÂU TRONG CHẨN ĐOÁN BỆNH NGOÀI DA Học viên: Bùi Huy Hoàng, Chuyên ngành: Khoa Học Máy Tính Mã số: 8480101 Khóa: K35, Trường Đại học Bách khoa - ĐHĐN Tóm tắt - Kỹ thuật học sâu là hướng tiếp cận mới đang thu hút đông đảo các nhà khoa học nghiên cứu và các công ty công nghệ quan tâm. Với sự hỗ trợ về nguồn dữ liệu lớn và sức mạnh tính toán của máy tính, các mạng học sâu trở nên hiệu quả hơn, đạt được độ chính xác vượt trội so với các phương pháp truyền thống và có khả năng ứng dụng cao trong thực tế. Kỹ thuật học sâu đã cho thấy khả năng đáp ứng tốt nhiệm vụ nhận dạng cũng như hiểu được nội dung và ngữ cảnh trong đó. Kỹ thuật học sâu thực sự đã trở thành một lĩnh vực nghiên cứu tiềm năng. Tuy nhiên, có rất nhiều vấn đề thách thức trong kỹ thuật học sâu như nguồn dữ liệu huấn luyện, thời gian tính toán và độ chính xác... Trong luận văn này, chúng tôi đã nghiên cứu, xây dựng kiến trúc mạng neural nhân tạo học sâu dựa trên kiến trúc CNN và các kỹ thuật phân tích hình ảnh để nhận dạng, phân loại bệnh ngoài da từ các mẫu ảnh vùng da bất thường, đồng thời sử dụng các phương pháp tăng cường dữ liệu để cải thiện độ chính xác. Đầu tiên, mạng neural học sâu được xây dựng bằng cách sử dụng một số inceptions được sử dụng phép tích chập song song khác nhau nhằm rút ngắn thời gian xử lý. Thứ hai, tăng cường hình ảnh từ tập dữ liệu huấn luyện nhằm tạo ra dữ liệu lớn hơn đủ cho mạng neural học sâu thực hiện huấn luyện. Mục đích của nó là tránh vấn đề dữ liệu huấn luyện không đủ lớn dẫn tới kết quả kém chính xác. Kết quả đánh giá thử nghiệm trên các tập dữ liệu thực cho thấy các cách phân loại được đề xuất có độ chính xác trung bình 85,44%; có cách phân loại đối với một số bệnh có độ chính xác trên 90%. Kết quả này cho thấy rằng phương pháp đề xuất của tôi trong luận văn này có thể ứng dụng để hỗ trợ chẩn đoán bệnh, nâng cao chất lượng phát hiện bệnh, góp phần phát triển dịch vụ chăm sóc sức khỏe cộng đồng. Từ khóa - Kỹ thuật học sâu, mạng neural nhân tạo, mạng neural sâu, dữ liệu huấn luyện. TECHNICAL APPLICATION OF DEPARTMENT IN DIAGNOSIS OF OUTSIDE OF SKIN DISEASE Abstract - Deep learning technique is a new approach that is attracting a lot of research scientists and technology companies interested. With the support of large data sources and computing power of computers, deep learning networks become more efficient, achieve superior accuracy compared to traditional methods and have high applicability in reality. Deep learning techniques have shown the ability to respond well to the task of identification as well as understanding the content and context in it. Deep learning techniques have really become a potential area of research. However, there are many challenges in deep learning techniques such as training data sources, calculation time and accuracy ... In this thesis, we have studied and built neural network architecture. artificial deep learning based on CNN architecture and image analysis techniques to identify and classify skin diseases from abnormal skin areas, and use data enhancement methods to improve degrees exactly. First, deep learning neural networks are built using some inceptions that use different parallel convolution to shorten processing time. Second, enhance the image from the training data set to generate data that is larger enough for deep learning neural networks to carry out training. Its purpose is to avoid the problem of training data not large enough to result in inaccurate results. The test evaluation results on real data sets show that the proposed classification has an average accuracy of over 80%; there is a classification for some diseases with accuracy above 90%. This result shows that my proposed method in this thesis can be applied to support disease diagnosis, improve the quality of disease detection, contribute to the development of community health care services. Key words - Deep learning techniques, artificial neural networks, deep neural network, training data. vii DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Ký hiệu AI AKIEC ANN AP BB BCC BKL BRF CNN DF DNN GPU HOG HSV LBP LN LR MEL NN NV PPV ReLU RF SEN SIFT SOM SPC SVM UAC VASC Diễn giải Tiếng Anh Artificial intelligence Actinic Keratosis Artificial Neural Network Average Precision Balanced Baggin Basal cell carcinoma Benign keratosis Balanced Random Forest Convolution Neural Network Dermatofibroma Deep Neural Network Graphics Processing Unit Histogram of Oriented Gradients Hue-Saturation-Value Local Binary Pattern Linear normalization Logistic Regression Melanoma Neural Network Nevus Positive predictive value Rectified Linear Unit Random Forest Sensitivity Scale-Invariant Feature Transform Self Organizing Maps Specificity Support Vetor Machines Area Under Curve Vascular lesion Tiếng Việt Trí tuệ nhân tạo Dày sừng quang hóa (rối loạn tế bào sừng dạng tiền ung thư) Mạng neural nhân tạo Độ chính xác trung bình Cân bằng đóng gói Ung thư tế bào đáy Chứng khô sừng quang hóa Rừng ngẫu nhiên cân bằng Mạng neural tích chập U da lành tính Mạng neural sâu Đơn vị xử lý đồ họa Biểu đồ định hướng Giá trị bảo hòa Mô hình nhị phân cục bộ Chuẩn hóa tuyến tính Hồi quy logistic U ác tính Mạng neural Nốt ruồi Giá trị tiên đoán tích cực Hiệu chỉnh đơn vị tuyến tính Rừng ngẫu nhiên Độ nhạy Biến đổi đặc trưng tỉ lệ không thay đổi Mạng neural tự tổ chức Độ đặc hiệu Máy vector hỗ trợ Giá trị diện tích dưới đường cong Thương tổn mạch máu viii DANH MỤC CÁC BẢNG Bảng 2.1 Mô tả kiến trúc 25 lớp của mạng AlexNet trong Matlab. .............................. 43 Bảng 2.2 Kiến trúc mạng VGG19 ................................................................................. 48 Bảng 3.1 Kiến trúc mạng học sâu DAGNetworks với 73 lớp ẩn, 1 lớp đầu vào và lớp phân loại cuối cùng ........................................................................................................ 54 Bảng 3.2 Kết quả thực hiện nhận dạng với bộ dữ liệu huấn luyện 2000 mẫu ảnh ........ 60 Bảng 3.3 Ký hiệu bệnh và số lượng mẫu dữ liệu .......................................................... 61 Bảng 3.4 Ma trận chéo kết quả chẩn đoán bệnh ............................................................ 61 Bảng 3.5 Ma trận chéo tỷ lệ phần trăm kết quả chẩn đoán bệnh................................... 62 Bảng 3.6 Kết quả đánh giá theo các tiêu chí chẩn đoán của từng loại bệnh ngoài da .. 62 Bảng 3.7 Số lượng mẫu theo các bệnh .......................................................................... 65 Bảng 3.8 Kết quả nhận dạng bệnh ................................................................................. 65 Bảng 3.9 Tỷ lệ nhận dạng đúng theo từng loại bệnh ..................................................... 65 Bảng 3.10 Phân loại AUC hiệu quả và các định nghĩa tiêu chuẩn khi sử dụng với các phương pháp trích xuất .................................................................................................. 69 ix DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ Hình 1.1 Ảnh ký tự chữ A và ma trận số của vùng chọn ................................................ 7 Hình 1.2 Ma trận số biểu thị mức xám của các điểm ảnh. .............................................. 8 Hình 1.3 Lược đồ ảnh đa mức xám kích thước 64x64 pixels ......................................... 9 Hình 1.4 Lược đồ cường độ sáng theo chiều ngang ảnh (trục Ox) ................................ 9 Hình 1.5 Lược đồ cường độ sáng theo chiều dọc ảnh (trục Oy) ................................... 10 Hình 1.6 Minh họa phép co ảnh trên ảnh nhị phân ....................................................... 11 Hình 1.7 Ảnh nhị phân ký tự A trước và sau khi co ảnh ............................................... 11 Hình 1.8 Ảnh minh họa vector liên kết hệ số góc và liên kết giữa các biên cạnh......... 14 Hình 1.9 Quá trình trích đặc trưng HOG ....................................................................... 15 Hình 1.10 Mẫu ảnh đầu vào chia thành các cell và block để tính đặc trưng HOG. ...... 15 Hình 1.11 Tính hướng và độ lớn gradient ..................................................................... 16 Hình 1.12 Tính gradient ảnh .......................................................................................... 16 Hình 1.13 Chia hướng theo các bin của lược đồ hướng gradient .................................. 17 Hình 1.14 Sơ đồ tổng quan về trích rút đặc trưng HOG. .............................................. 18 Hình 1.15 Đối tượng trong vùng cửa sổ thay đổi khi co giãn ảnh ................................ 19 Hình 1.16 Tính DoG theo các mức tỷ lệ tạo thành hình chóp ....................................... 20 Hình 1.17 Xác định điểm cực trị dựa vào các mức giá trị DoG .................................... 21 Hình 1.18 Kết quả minh họa tính DoG và tính xác điểm cực trị................................... 21 Hình 1.19 Mô tả đặc trưng keypoint bằng lược đồ hướng gradient .............................. 22 Hình 1.20 Sử dụng các phương pháp phân đoạn khác nhau trong xử lý ảnh y tế ......... 24 Hình 1.21 Minh họa phân cụm bằng k-means............................................................... 25 Hình 1.22 Quá trình nhận dạng đối tượng ..................................................................... 27 Hình 1.23 Đường thẳng phân chia 2 lớp trong không gian 2 chiều .............................. 28 Hình 1.24 Margin trong SVM ....................................................................................... 28 Hình 1.25 Mô hình ANN ............................................................................................... 30 Hình 1.26 Quá trình xử lý thông tin của một ANN ....................................................... 30 Hình 1.27 Hàm chuyển đổi ............................................................................................ 31 Hình 1.28 Mô hình mạng neural.................................................................................... 32 Hình 2.1 Hình ảnh một số bệnh về da ........................................................................... 35 x Hình 2.2 Mô hình mạng Neural tích chập ..................................................................... 39 Hình 2.3 Tính tích chập với filter .................................................................................. 39 Hình 2.4 Tính toán với phương pháp MaxPooling........................................................ 40 Hình 2.5 Hình ảnh kết quả ứng với 32 filter ................................................................. 41 Hình 2.6 Kiến trúc 8 lớp của mô hình AlexNet ............................................................ 42 Hình 2.7 Kiến trúc 8 lớp của mô hình FZNet. ............................................................... 44 Hình 2.8 Một dạng cụ thể của kiến trúc mạng GoogLeNet. ......................................... 46 Hình 2.9 Sơ đồ tổng quát giải pháp phân loại bệnh qua hình ảnh ................................. 49 Hình 2.10 Kiến trúc tổng thể của Inception V4 ............................................................ 50 Hình 3.1 Các hình ảnh u ác tính .................................................................................... 53 Hình 3.2 Các hình ảnh u lành tính ................................................................................. 53 Hình 3.3 Minh họa một số mẫu bệnh chuẩn đoán đúng ................................................ 63 Hình 3.4 Minh họa một số mẫu bệnh chẩn đoán nhầm ................................................. 64 Hình 3.5 Sơ đồ phương pháp đánh giá .......................................................................... 66 Hình 3.6 Kết quả AUC tốt nhất của các phương pháp tiền xử lý trên hai bộ dữ liệu ... 68 Hình 3.7 Kết quả AUC tốt nhất của các phương pháp trích xuất đặc trưng khác nhau với các phương pháp tiền xử lý trước đó ....................................................................... 68 1 MỞ ĐẦU 1. Lý do chọn đề tài Sức khỏe có vai trò quan trọng trong sự phát triển kinh tế - xã hội của đất nước. Theo quan điểm chung, sự phát triển bền vững của mỗi quốc gia phụ thuộc chủ yếu vào chất lượng nguồn nhân lực. Một quốc gia không thể phát triển nếu người dân không có sức khỏe, không được học hành với những kiến thức và kỹ năng cần thiết. Sức khỏe quan trọng đối với sự phát triển kinh tế - xã hội của mọi quốc gia và là một trong những quyền lợi cơ bản nhất của con người. Do vậy, sức khỏe cần phải được nhìn nhận như tài sản của con người và xã hội, hơn bất cứ của cải vật chất nào. Cùng với sự phát triển nhanh chóng của khoa học công nghệ, các kỹ thuật dựa trên trí tuệ nhân tạo và xử lý ảnh ứng dụng trong các hệ thống thông minh đạt được những kết quả vượt bậc, có nhiều bước đột phá. Cuộc cách mạng công nghiệp lần thứ 4 (Industry 4.0) hiện đang diễn ra trên phạm vi toàn cầu, đặc biệt ở các nước có nền khoa học kỹ thuật phát triển, qua đó, các hệ thống thông minh dần thay thế con người. Nền tảng của các hệ thống thông minh có thể nói bắt nguồn từ lĩnh vực trí tuệ nhân tạo và xử lý ảnh. Trong đó, xử lý ảnh là một trong những giác quan máy quan trọng nhất giúp cho quá trình thu nhận tín hiệu, xử lý, phân tích nhằm đưa ra tri thức phục vụ các hệ thống ra quyết định. Xử lý ảnh là một chuyên ngành có nhiều ứng dựng trong các lĩnh vực khoa học, đời sống. Trong thiên văn học, xử lý ảnh giúp các nhà khoa học thu thập và phân tích hình ảnh vũ trụ; trong địa lý, người ta có thể dựa vào xử lý ảnh để lập chính xác các bản đồ địa hình, địa giới; nén ảnh rất cần thiết cho lĩnh vực thông tin và truyền thông; kỹ thuật nhận dạng hình ảnh được dùng nhiều trong các lĩnh vực liên quan đến kinh tế, quân sự. Đặc biệt, trong y học, xử lý ảnh hỗ trợ rất tốt cho việc chẩn đoán hình ảnh các bệnh về khối u, xương, mạch, ung thư…, tuy nhiên, trong quá trình thu nhận ảnh, ảnh thu được phần nhiều có chất lượng không như ý muốn. Đối với ảnh y học, do đặc trưng thường chụp các bộ phận bên trong cơ thể người bằng các thiết bị chuyên dụng như máy chụp X quang, máy chụp city, máy siêu âm, máy nội soi… nên chất lượng hình ảnh thường bị mờ, nhiễu, không sắc nét… gây khó khăn cho việc chẩn đoán bệnh. Để khắc phục vấn đề trên, luận văn sử dụng kỹ thuật học sâu (deep learning) để giải quyết. Kỹ thuật học sâu thể hiện tính ưu việt hơn các kỹ thuật khác trong việc nhận diện hình ảnh cũng như nhiều lĩnh vực khác, những kết quả nghiên cứu gần đây áp dụng kỹ thuật này cho độ chính xác cao hơn. Trong lĩnh vực y tế có nhiều công ty khởi nghiệp (Enlitic, Freenome, Merck, Atomwise…) về y sinh đã đưa ra những sản phẩm điện toán có khả năng đọc phim X-quang, cộng hưởng từ (MRI) và phim chụp cắt lớp vi tính một cách nhanh chóng và chính xác bệnh chuẩn hơn cả bác sỹ điều trị. 2 2. Mục đích và ý nghĩa đề tài a. Mục đích Mục tiêu chính của đề tài là nghiên cứu các kỹ thuật trí tuệ nhân tạo, đặc biệt là kỹ thuật học sâu và các ứng dụng của nó trong thực tế. Nghiên cứu hình ảnh về da, tập trung vào các điểm ảnh bất thường dựa trên các kỹ thuật học sâu mạng tích chập 3DCNN trong lĩnh vực thị giác máy tính. Thực nghiệm áp dụng kỹ thuật mạng tích chập 3D-CNN trong trích xuất đặc trưng hình ảnh để dự đoán bệnh ngoài da. Từ đó phân tích, đánh giá hiệu quả và độ chính xác trên các thư viện chuẩn có sẵn. b. Ý nghĩa khoa học - Kế thừa những nghiên cứu về các hệ thống nhận dạng hình ảnh y tế trước đây. - Tìm hiểu, mô tả về mô hình hệ thống chẩn đoán bệnh qua ảnh chụp qua da. - So sánh giữa các kỹ thuật được sử dụng trong hệ thống nhận dạng. - Đánh giá hiệu suất của phương pháp bằng các thực nghiệm trên tập dữ liệu thực. - Vận dụng trí tuệ nhân tạo trong việc giải quyết bài toán chẩn đoán bệnh qua ảnh chụp qua da với khả năng xử lý được nhiều loại bệnh. c. Ý nghĩa thực tiễn Thiết kế được mô hình chẩn đoán bệnh qua ảnh chụp qua da để xây dựng các hệ thống ứng dụng hỗ trợ bác sỹ trong việc chẩn đoán một số bệnh về da. 3. Mục tiêu và nhiệm vụ a. Mục tiêu - Nắm vững được kỹ thuật học sâu trong bài toán chẩn đoán bệnh qua ảnh chụp qua da. - Đề xuất được mô hình chẩn đoán bệnh qua ảnh chụp qua da. b. Nhiệm vụ - Nghiên cứu kỹ thuật trí tuệ nhân tạo, mạng neural học sâu. - Phát biểu bài toán. - Phân tích và cài đặt giải thuật cho bài toán chẩn đoán bệnh qua ảnh chụp da. - Đánh giá kết quả theo yêu cầu của đề tài. 3 4. Đối tượng và phạm vi nghiên cứu a. Đối tượng nghiên cứu Nghiên cứu các kỹ thuật trí tuệ nhân tạo, kỹ thuật mạng neural học sâu để ứng dụng trong phân tích hình ảnh chụp qua da. b. Phạm vi nghiên cứu Nghiên cứu và đề xuất mô hình chẩn đoán bệnh qua ảnh chụp qua da để ứng dụng cho các phòng khám trong chẩn đoán bệnh. 5. Phương pháp nghiên cứu a. Phương pháp lý thuyết - Phương pháp phân tích điều tra số liệu: Thu thập và nghiên cứu các tài liệu có liên quan đến đề tài. - Phương pháp nghiên cứu tài liệu: Các kỹ thuật xử lý ảnh, trí tuệ nhân tạo và đặc biệt là kỹ thuật học sâu. b. Phương pháp thực nghiệm - Nghiên cứu và khai thác các mô hình nhận diện hình ảnh đã được đề xuất. - Xây dựng chương trình ứng dụng vào nhận dạng các điểm đặc trưng qua ảnh chụp qua da đối với từng loại bệnh. - Kiểm tra, thử nghiệm, nhận xét và đánh giá kết quả. 6. Phương tiện, công cụ triển khai - Sử dụng ngôn ngữ lập trình Matlab. - Thư viện thị giác máy tính, thư viện trí tuệ nhân tạo OpenCV, Computer vision tool, Neural network tool. 7. Cấu trúc của luận văn Luận văn được trình bày trong 3 chương: Mở đầu Chương 1. Cơ sở lý thuyết Trình bày được các cơ sở lý thuyết sau: + Tổng quan về trí tuệ nhân tạo + Tổng quan về ảnh và một số kỹ thuật xử lý ảnh + Trích chọn và biểu diễn đặc trưng hình ảnh 4 + Phương pháp phân đoạn ảnh + Kỹ thuật học máy Chương 2. Kỹ thuật học sâu CNN trong chẩn đoán bệnh Trình bày về các nội dung: + Bài toán chẩn đoán bệnh ngoài da bằng hình ảnh + Mạng neural học sâu sử dụng trong nhận dạng + Thiết kế hệ thống học sâu chẩn đoán bệnh Chương 3. Thực nghiệm, đánh giá kết quả Trình bày về các nội dung: + Cơ sở dữ liệu thực nghiệm + Xây dựng kiến trúc học máy và môi trường cài đặt + Quy trình đánh giá, phân loại dữ liệu + Phân tích kết quả + Kết quả thực nghiệm + Một số kết quả đánh giá so sánh các giải pháp + Một số kết quả so sánh, đánh giá sử dụng kết hợp nhiều phương pháp - Kết luận và kiến nghị. - Tài liệu tham khảo. 5 CHƯƠNG I. CƠ SỞ LÝ THUYẾT Tổng quan về trí tuệ nhân tạo (Artificial intelligence) Vào năm 1943, Warren McCulioch và Walter Pitts bắt đầu thực hiện nghiên cứu ba cơ sở lý thuyết cơ bản: Triết học cơ bản và chức năng của các neural thần kinh; phân tích các mệnh đề logic; lý thuyết dự đoán của Turing. Các tác giả đã nghiên cứu đề xuất mô hình neural nhân tạo, mỗi neural đặc trưng bởi hai trạng thái “bật”, “tắt” và phát hiện mạng neural có khả năng học. Trí tuệ nhân tạo (AI) được thiết lập bởi John McCarthy tại Hội thảo đầu tiên về chủ đề này vào mùa hè năm 1956[1]. Đồng thời, ông cũng đề xuất ngôn ngữ lập trình Lisp, một trong những ngôn ngữ lập trình hàm tiêu biểu, được sử dụng trong lĩnh vực AI. Sau đó, Alan Turing đưa ra "Turing test" như một phương pháp kiểm chứng hành vi thông minh. Marvin Minsky và Seymour Papert đưa ra các chứng minh đầu tiên về giới hạn của các mạng neural đơn giản. Ngôn ngữ lập trình logic Prolog ra đời và được phát triển bởi Alain Colmerauer. Ted Shortliffe xây dựng thành công một số hệ chuyên gia đầu tiên trợ giúp chẩn đoán trong y học, các hệ thống này sử dụng ngôn ngữ luật để biểu diễn tri thức và suy diễn. Vào đầu những năm 1980, những nghiên cứu thành công liên quan đến AI như các hệ chuyên gia (expert systems), một dạng của chương trình AI mô phỏng tri thức và các kỹ năng phân tích của một hoặc nhiều chuyên gia con người. AI được áp dụng trong logic, khai phá dữ liệu, chẩn đoán y học và nhiều lĩnh vực ứng dụng khác trong công nghiệp. Sự thành công dựa vào nhiều yếu tố: Tăng khả năng tính toán của máy tính, tập trung giải quyết các bài toán con cụ thể, xây dựng các mối quan hệ giữa AI và các lĩnh vực khác giải quyết các bài toán tương tự và một sự chuyển giao mới của các nhà nghiên cứu cho các phương pháp toán học vững chắc và chuẩn khoa học chính xác. 1.1.1. Các lĩnh vực của trí tuệ nhân tạo - Lập luận, suy diễn tự động: Khái niệm lập luận và suy diễn được sử dụng rất phổ biến trong lĩnh vực AI. Lập luận là suy diễn logic, dùng để chỉ một tiến trình rút ra kết luận (tri thức mới) từ những giả thiết đã cho (được biểu diễn dưới dạng cơ sở tri thức). Như vậy, để thực hiện lập luận người ta cần có các phương pháp lưu trữ cơ sở tri thức và các thủ tục lập luận trên cơ sở tri thức đó. - Biểu diễn tri thức: Muốn máy tính có thể lưu trữ và xử lý tri thức thì cần có các phương pháp biểu diễn tri thức. Các phương pháp biểu diễn tri thức ở đây bao gồm các ngôn ngữ biểu diễn và các kỹ thuật xử lý tri thức. Một ngôn ngữ biểu diễn tri thức được đánh giá là “tốt” nếu nó có tính biểu đạt cao và tính hiệu quả của thuật toán lập luận trên 6 ngôn ngữ đó. Tính biểu đạt của ngôn ngữ thể hiện khả năng biểu diễn một phạm vi rộng lớn các thông tin trong một miền ứng dụng. Tính hiệu quả của các thuật toán lập luận thể hiện chi phí về thời gian và không gian dành cho việc lập luận. - Lập kế hoạch: Khả năng suy ra các mục đích cần đạt được đối với các nhiệm vụ đưa ra và xác định dãy các hành động cần thực hiện để đạt được mục đích đó. - Xử lý ngôn ngữ tự nhiên: Là một nhánh của AI, tập trung vào các ứng dụng trên ngôn ngữ của con người. Các ứng dụng trong nhận dạng tiếng nói, nhận dạng chữ viết, dịch tự động, tìm kiếm thông tin… - Hệ chuyên gia: Cung cấp các hệ thống có khả năng suy luận để đưa ra những kết luận. Các hệ chuyên gia có khả năng xử lý lượng thông tin lớn và cung cấp các kết luận dựa trên những thông tin đó. Có rất nhiều hệ chuyên gia nổi tiếng như các hệ chuyên gia y học MYCIN, đoán nhận cấu trúc phân tử từ công thức hóa học DENDRAL… 1.1.2. Một số ứng dụng của trí tuệ nhân tạo Ngày nay, AI ngày càng được ứng dụng nhiều trong các lĩnh vực khác nhau, từ việc phục vụ đời sống hàng ngày của con người cho đến giáo dục, tài chính ngân hàng, y học, rô-bôt, ôtô tự hành… và thực tế chứng minh rằng việc ứng dụng AI giúp nâng cao hiệu suất lao động, cải thiện chất lượng cuộc sống của con người, phát triển kinh doanh cho các doanh nghiệp và nó cũng sẽ là nền tảng của rất nhiều các ứng dụng và dịch vụ mới khác trong tương lai. Nhờ sự phát triển khoa học vật lý lượng tử giúp cho việc tính toán và xử lý song song của các hệ thống nhanh hơn đáng kể, vì thế việc áp dụng các phương pháp học máy vào xử lý các bài toán thực tế ngày một thuận lợi hơn. Trong đó, kỹ thuật học sâu (deep learning) đã được quan tâm và phát triển mạnh giúp cho máy tính giải quyết các bài toán trong lĩnh vực học máy ngày càng tốt hơn, mà cụ thể đó là các bài toán tương tác người - máy trong lĩnh vực thị giác máy tính, nhận thức sự vật, gợi ý trong các hệ thống lớn, chẩn đoán các bệnh hiếm gặp... Một số ứng dụng phổ biến hiện nay như[2]: - Lĩnh vực giáo dục: Mô hình trường học thông minh hay học trực tuyến ngày một phát triển nhờ ứng dụng AI vào quá trình tương tác học tập giữa nhà trường và học sinh, sinh viên tạo ra một hệ sinh thái về giáo dục mà ở đó nhà trường và học sinh tương tác với nhau một cách thuận lợi và nhanh chóng thông qua hệ sinh thái này. - Lĩnh vực y tế: Chẩn đoán, điều trị và theo dõi bệnh giúp nâng cao chăm sóc sức khỏe con người, giảm chi phí chữa bệnh cho người dân, trong đó kể cả các dự án như điều trị ưng thư bằng AI, Rô-bôt chăm sóc y tế… 7 - Công nghiệp: Nhận dạng hình ảnh, giọng nói, rô-bôt thông minh, xe tự hành, hệ thống tương tác thực ảo… đã phát triển mạnh mẽ nhờ sự phát triển của mạng Neural học sâu, hệ thống xử lý phân tán song song (Parallel Distributed processing). Tổng quan về ảnh và một số kỹ thuật xử lý ảnh 1.2.1. Tổng quan về ảnh 1.2.1.1. Một số khái niệm cơ bản - Ảnh số: Ảnh số là tập hợp hữu hạn các điểm ảnh với mức xám phù hợp dùng để mô tả ảnh gần với ảnh thật. Ảnh số bao gồm một tập hữu hạn các phần tử được biểu diễn bởi giá trị số. Ảnh số có thể được biểu diễn dưới dạng ma trận hai chiều, mỗi phần tử của ảnh số gọi là điểm ảnh (pixel). Số điểm ảnh xác định độ phân giải của ảnh. Ảnh có độ phân giải càng cao thì càng thể hiện rõ nét các đặt điểm của tấm ảnh và càng làm cho tấm ảnh trở nên thực và sắc nét hơn. Hình 1.1 Ảnh ký tự chữ A và ma trận số của vùng chọn - Điểm ảnh: Điểm ảnh (Pixel) là một phần tử của ảnh số tại toạ độ (x, y) với độ xám hoặc màu nhất định. Kích thước và khoảng cách giữa các điểm ảnh đó được chọn thích hợp sao cho mắt người cảm nhận sự liên tục về không gian và mức xám (hoặc màu) của ảnh số gần như ảnh thật. Mỗi phần tử trong ma trận được gọi là một phần tử ảnh. Trong hình 1.1 mỗi điểm ảnh là một ô mang một giá trị số biểu thị mức xám từ 0 đến 255. - Mức xám của ảnh: Mức xám: Là kết quả của sự biến đổi tương ứng 1 giá trị độ sáng của 1 điểm ảnh với một giá trị nguyên dương. Thông thường nó xác định trong [0, 255] tuỳ thuộc vào giá trị mà mỗi điểm ảnh được biểu diễn. Các thang giá trị mức xám thông thường: 2, 16, 32, 64, 128. Ảnh đa mức xám thường dùng là 256, như vậy mức xám thường xác định trong khoảng [0, 255] tùy thuộc vào giá trị mà mỗi điểm ảnh được biểu diễn. 8 Hình 1.2 Ma trận số biểu thị mức xám của các điểm ảnh. - Độ phân giải của ảnh Độ phân giải (Resolution) của ảnh là mật độ điểm ảnh được ấn định trên một ảnh số được hiển thị. Theo định nghĩa, khoảng cách giữa các điểm ảnh phải được chọn sao cho mắt người vẫn thấy được sự liên tục của ảnh. Việc lựa chọn khoảng cách thích hợp tạo nên một mật độ phân bổ, đó chính là độ phân giải và được phân bố theo trục x và y trong không gian hai chiều. Một số độ phân giải thông thường được sử dụng trong các thiết bị hiển thị và lĩnh vực xử lý ảnh như 640x480, 800x600, 1024x768 (HD), 192x1080 (full HD), 3840x2160 (UHD)[2]. 1.2.1.2. Một số dạng ảnh - Ảnh màu: thường là các ảnh chứa thông tin về đối tượng được biểu diễn dưới dạng màu sắc mà mắc thường có thể quan sát được. Mỗi điểm ảnh có cấu trúc gồm nhiều kênh khác nhau, thông thường trong máy tính, nó biểu diễn 3 lớp màu cơ bản RGB (Red, Green, Blue)[2]. - Ảnh đa mức xám: thường biểu diễn thông tin liên quan đến cường độ đa xám của đối tượng trong không gian mà không được thể hiện bởi màu sắc thực của nó[2]. - Ảnh nhị phân: Giá trị xám của tất cả các điểm ảnh chỉ nhận giá trị 1 hoặc 0 như vậy mỗi điểm ảnh trong ảnh nhị phân được biểu diễn bởi 1 bit. Ảnh nhị phân thường được dùng để biểu diễn, phân biệt sự xuất hiện đối tượng và nền trong mỗi bước ảnh. 9 1.2.2. Một số kỹ thuật xử lý ảnh 1.2.2.1. Lược đồ ảnh (Histogram) Lược đồ ảnh là một đồ thị biểu diễn tần số xuất hiện của cường độ sáng điểm ảnh theo các mức hay nói cách khác lược đồ Histogram của một hình ảnh biểu diễn lược đồ về sự phân bố các mức cường độ xám của một bức ảnh[4]. Ví dụ: Cho ảnh đa mức xám đầu vào với kích thước 64x64 pixels. Như vậy số lượng điểm ảnh 64x64 bằng 4.096 điểm ảnh. Với ảnh đa mức xám 8 bit thì các điểm ảnh có giá trị nằm trong khoảng từ 0 đến 255. Lược đồ ảnh là kết quả của việc thực hiện thống kê có bao nhiêu điểm ảnh có giá trị từ 0 đến 255 từ 4.096 điểm ảnh đã cho. Lược đồ có thể tính theo từng giá trị hoặc có thể tính trong các khoảng giá trị. Hình 1.3 Lược đồ ảnh đa mức xám kích thước 64x64 pixels Lược đồ ảnh thể hiện mức cường độ sáng theo chiều ngang ảnh (trục Ox) là kết quả của việc tính tổng giá trị của các điểm ảnh theo từng cột của ảnh. Ví dụ: cho ảnh xám đầu vào có kích thước 600x200 pixels, khi đó lược đồ sẽ có 600 cột và độ cao mỗi cột là tổng giá trị (từ 0 đến 255) của 200 điểm ảnh tương ứng với 200 dòng. Hình 1.4 Lược đồ cường độ sáng theo chiều ngang ảnh (trục Ox) Tương tự lược đồ thể hiện cường độ sáng theo chiều dọc (trục Oy) là kết quả của việc tính tổng giá trị của các điểm ảnh theo từng dòng của ảnh. 10 Hình 1.5 Lược đồ cường độ sáng theo chiều dọc ảnh (trục Oy) 1.2.2.2. Nhị phân hóa ảnh Để chuyển sang ảnh nhị phân trước tiên cần chuyển ảnh về dạng ảnh xám với các mức xám có giá trị từ 0 đến 255 dựa trên ba giá trị red, green, blue theo công thức: greycolor = r * 0.299 + g * 0.587 + b * 0.114 Sử dụng ngưỡng thích hợp để chuyển các điểm ảnh về dạng 0 (màu đen) hoặc 255 (màu trắng) theo nguyên tắc: g(x, y) = 1 nếu f(x, y) > T và g(x, y) = 0 nếu f(x, y) ≤ T Trong đó: - g(x, y) là giá trị kết quả tại điểm ảnh có tọa độ (x, y); - f(x, y) là giá trị điểm ảnh (x, y) của ảnh cần xử lý; - T là ngưỡng. 1.2.2.3. Làm mịn ảnh Mịn ảnh được thực hiện dựa trên bộ lọc trơn (Smoothing filter) nhằm loại nhiễu, bước này dùng trong quá trình tiền xử lý (Pre-processing) khi phải giảm bớt một số chi tiết không cần thiết của một đối tượng nào đó trong ảnh. Một hướng áp dụng phổ biến để giảm nhiễu là lọc tuyến tính, những bộ lọc tuyến tính theo hướng này được biết đến như là lọc thông thấp. Ý tưởng cho những bộ lọc thông thấp là thay thế giá trị mức sáng của mọi điểm ảnh bằng giá trị mức sáng trung bình của các hàng xóm, định nghĩa theo mặt nạ lọc. Kết quả trên dẫn tới ảnh số văn bản mất đi những chi tiết nhiễu, ma trận của một bộ lọc làm mịn ảnh thường sử dụng có các hệ số như sau: 11 1.2.2.4. Phép co ảnh - Erosion Xét tập hợp A và tập hợp B (Phần tử cấu trúc), phép co ảnh nhị phân của tập hợp A bởi phần tử cấu trúc B được kí hiệu A⊝ B và viết dưới dạng công thức như sau[2]: A⊝B={c Trong đó: (B) C  A } A: Ma trận điểm ảnh của ảnh nhị phân. B: Là phần tử cấu trúc. Hình 1.6 Minh họa phép co ảnh trên ảnh nhị phân Hình 1.7 Ảnh nhị phân ký tự A trước và sau khi co ảnh Trích chọn và biểu diễn đặc trưng hình ảnh 1.3.1. Đặc trưng ảnh 1.3.1.1. Đặc trưng màu sắc Màu sắc là một đặc trưng nổi bật và được sử dụng phổ biến nhất trong tìm kiếm ảnh theo nội dung. Mỗi một điểm ảnh (thông tin màu sắc) có thể được biểu diễn như một điểm trong không gian màu sắc ba chiều. Các không gian màu sắc thường dùng là: RGB, Munsell, CIE, HSV. 12 1.3.1.2. Đặc trưng kết cấu Kết cấu hay còn gọi là vân (texture) là một đối tượng dùng để phân hoạch ảnh ra thành những vùng được quan tâm và để phân lớp những vùng đó. Vân cung cấp thông tin sự sắp xếp về mặt không gian của màu sắc và cường độ của một ảnh. 1.3.1.3. Đặc trưng hình dạng Hình dạng của một ảnh hay một vùng là một đặc trưng quan trọng trong việc xác định và phân biệt ảnh trong nhận dạng mẫu. Mục tiêu chính của biểu diễn hình dạng trong nhận dạng mẫu là đo thuộc tính hình học của một đối tượng được dùng trong phân lớp, so sánh và nhận dạng đối tượng. 1.3.2. Một số phương pháp trích chọn đặc trưng đơn giản 1.3.2.1. Trích chọn đặc trưng ảnh dựa trên màu sắc - Lược đồ màu (Histogram): Là đại lượng đặc trưng cho phân bố màu cục bộ của ảnh. Độ đo tính tương tự về màu sắc được tính bằng phần giao của 2 lược đồ màu ảnh truy vấn H(IQ) và ảnh trong cơ sở dữ liệu ảnh H(ID). Kết quả sẽ là một lược đồ màu thể hiện độ giống nhau giữa 2 ảnh trên. Tuy nhiên vì lược đồ màu chỉ thể hiện tính phân bố màu toàn cục của ảnh mà không xét đến tính phân bố cục bộ của điểm ảnh nên có thể có 2 ảnh xem rất khác nhau nhưng lại có cùng lược đồ màu. - Vector liên kết màu (Color Coherence Vector): Là lược đồ tinh chế lược đồ màu, chia mỗi ô màu thành 2 nhóm điểm ảnh: nhóm liên kết màu (coherence pixels) và nhóm không liên kết màu (noncoherence pixels). Vector liên kết màu còn giúp giải quyết khuyết điểm về tính không duy nhất của lược đồ màu đối với ảnh. Hai ảnh có thể có chung lược đồ màu nhưng khác nhau hoàn toàn, đây là khuyết điểm của lược đồ màu. Nhưng với tìm kiếm theo đặc trưng vector liên kết màu thì nó sẽ giải quyết được khuyết điểm không duy nhất này. 1.3.2.2. Trích chọn đặc trưng ảnh dựa trên kết cấu Kết cấu hay còn gọi là vân (texture), là một đối tượng dùng để phân hoạch ảnh ra thành những vùng được quan tâm và để phân lớp những vùng đó. Vân cung cấp thông tin sự sắp xếp về mặt không gian của màu sắc và cường độ của một ảnh. Ví dụ cấu trúc của vân của một số loại lá cây. - Ma trận đồng hiện (Co-occurence Matrix): Ma trận đồng hiện là ma trận lưu trữ số lần xuất hiện của những cặp điểm ảnh trên một vùng đang xét. Các cặp điểm này được tính theo những quy luật cho trước. Ví dụ với ảnh f như sau:

- Xem thêm -

Tài liệu ứng dụng kỹ thuật học sâu trong chẩn đoán bệnh ngoài da

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất