Tài liệu Ứng dụng thuật toán học máy xgboost vào dự đoán nguy cơ bị bệnh nám má

.PDF

tailieuonline Báo vi phạm

Tải xuống 80

Mô tả:

BỘ GIÁO DỤC VÀ ĐÀO TAO TRƯỜNG ĐẠI HỌC QUY NHƠN TRẦN XUÂN VIỆT ỨNG DỤNG THUẬT TOÁN HỌC MÁY XGBOOST VÀO DỰ ĐOÁN NGUY CƠ BỊ BỆNH NÁM MÁ LUẬN VĂN THẠC SĨ KHOA HỌC DỮ LIỆU ỨNG DỤNG Bình Định – Năm 2022 BỘ GIÁO DỤC VÀ ĐÀO TAO TRƯỜNG ĐẠI HỌC QUY NHƠN TRẦN XUÂN VIỆT ỨNG DỤNG THUẬT TOÁN HỌC MÁY XGBOOST VÀO DỰ ĐOÁN NGUY CƠ BỊ BỆNH NÁM MÁ Chuyên ngành: Khoa học dữ liệu ứng dụng Mã số: 8904648 Người hướng dẫn: TS. HỒ VĂN LÂM LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu và thực hiện luận văn thực sự của riêng tôi, dưới sự hướng dẫn của TS. Hồ Văn Lâm. Mọi tham khảo từ các nguồn tài liệu, công trình nghiên cứu liên quan trong nước và quốc tế đều được trích dẫn một cách rõ ràng trong luận văn. Mọi sao chép không hợp lệ hay vi phạm quy chế tôi xin hoàn toàn chịu trách nhiệm và chịu mọi kỷ luật của trường Đại học Quy Nhơn. Bình Định, ngày tháng năm 2022 Học viên Trần Xuân Việt LỜI CẢM ƠN Trong quá trình thực hiện và hoàn thiện luận văn này, tôi xin gửi lời cảm ơn chân thành nhất đến các thầy cô trong Khoa Toán – Thống kê và Khoa công nghệ thông tin trường Đại học Quy Nhơn cũng như các thầy thính giảng ở các trường, các viện ở Thành phố Hồ Chính Minh đã cung cấp cho tôi những kiến thức quý báu trong suốt 2 năm học vừa qua. Đặc biệt, tôi xin gửi lời cảm ơn sâu sắc nhất tới TS. Hồ Văn Lâm đã dành nhiều thời gian vô cùng quý báu để định hướng và hướng dẫn tôi tận tình cũng như tạo điều kiện thuận lợi để tôi có thể hoàn thành tốt nhất luận văn của mình. Tôi xin chân thành cảm ơn! Học viên thực hiện Trần Xuân Việt DANH MỤC MỘT SỐ TỪ VIẾT TẮT AI: Artificial Intelligence AUC: Area Under The Curve ECG: Điện tâm đồ GBM: Gradient Boosting Machine ML: Machine Learning RF: Ramdon forest ROC: Receiver Operating Characteristics XGBoost: Extreme Gradient Boost MỤC LỤC TRANG PHỤ BÌA LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC BẢNG BIỂU DANH MỤC HÌNH VẼi MỞ ĐẦU .......................................................................................................... 1 CHƯƠNG 1: TỔNG QUAN TÀI LIỆU ......................................................................6 1.1 Tổng quan về AI ................................................................................. 6 1.1.1 Giới thiệu về AI, học máy, học sâu ............................................. 6 1.1.2 Ứng dụng trí tuệ nhân tạo trong y khoa ..................................... 6 1.1.3 Ứng dụng AI trong chẩn đoán nám má và các tổn thương da lành tính ........ 7 1.1.4 Một số nghiên cứu khác .............................................................. 8 1.2 Ensemble learning (học tập theo nhóm) ............................................. 9 1.3 Khái niệm cây quyết định (decision tree) ......................................... 11 1.3.1 Cây quyết định .......................................................................... 11 1.3.2 Thuật toán cây quyết định......................................................... 11 1.3.3 Ưu điểm của cây quyết định ..................................................... 12 1.3.4 Một số thuật toán cây quyết định .............................................. 13 1.4 Thuật toán xgboost ............................................................................ 14 1.4.1 Giới thiệu XGBoost ................................................................... 15 1.4.2 Phương pháp XGBoost tối ưu hóa hệ thống ............................. 16 1.4.3 Các đặc trưng của XGBoost ..................................................... 19 1.4.4 Tốc độ thực thi XGBoost ........................................................... 20 1.4.5 Hiệu suất mô hình XGBoost ..................................................... 20 1.4.6 Thuật toán XGBoost.................................................................. 22 1.4.7 Ưu điểm của thuật toán. ........................................................... 22 1.4.8 Ứng dụng của thuật toán trong các lĩnh vực. ........................... 23 1.5 Đánh giá mô hình .............................................................................. 23 1.5.1 Độ đo dùng trong phân loại...................................................... 23 1.5.2 Đường cong ROC và AUC........................................................ 25 1.5.3 Đánh giá mô hình bằng kiểm tra chéo. .................................... 26 1.6 Tổng quan về bệnh nám má .............................................................. 28 1.6.1 Giới thiệu: ................................................................................. 28 1.6.2 Dịch tễ học: ............................................................................... 28 1.6.3 Sinh bệnh học ............................................................................ 29 1.6.4 Triệu chứng lâm sàng ............................................................... 29 1.6.5 Phân loại nám má ..................................................................... 29 CHƯƠNG 2: BÀI TOÁN DỰ ĐOÁN NGUY CƠ BỆNH NÁM MÁ VÀ GIẢI PHÁP THỰC HIỆN .......................................................................................................31 2.1 Phát biểu bài toán .............................................................................. 31 2.2 Các bước phân tích dữ liệu và ứng dụng .......................................... 31 2.3 Hiểu bài toán (business understanding) ............................................ 32 2.3.1 Đặt vấn đề:................................................................................ 32 2.3.2 Mục tiêu: ................................................................................... 32 2.3.3 Giải pháp thực hiện: ................................................................. 32 2.4 Hiểu dữ liệu (data understanding) .................................................... 33 2.5 Chuẩn bị dữ liệu ................................................................................ 43 CHƯƠNG 3: TÌM HIỂU THUẬT TOÁN XGBOOST VÀ XÂY DỰNG MÔ HÌNH HỌC MÁY DỰ BÁO CHO BÀI TOÁN DỰ ĐOÁN NGUY CƠ BỆNH NÁM MÁ ........................................................................................................ 49 3.1 Tìm hiểu thuật toán xgboost ............................................................. 49 3.1.1 Thuật toán XGBOOST .............................................................. 49 3.1.2 Cài đặt thư viện XGBoost ......................................................... 49 3.1.3 Chuẩn bị dữ liệu ....................................................................... 49 3.1.4 Huấn luyện XGBoost model đơn giản ...................................... 50 3.1.5 Các phương pháp đánh giá XGBoost model ............................ 50 3.1.6 Trực quan hóa Xgboost model .................................................. 52 3.1.7 Lưu và sử dụng XGBoost model bằng thư viện pickle ............. 54 3.1.8 Lựa chọn features cho XGBoost model .................................... 55 3.1.9 Cấu hình Early_Stopping cho XGBoost model ........................ 58 3.1.10Cấu hình Multithreading cho XGBoost model ......................... 61 3.1.11Điều chỉnh tham số của thuật toán XGBoost ........................... 62 3.1.12 Triển khai thực hiện sử dụng Grid Search để tối ưu hóa thông số XGBoost............................................................................................... 65 3.2 Thực nghiệm mô hình ....................................................................... 65 3.3 Đánh giá mô hình .............................................................................. 66 3.4 Phát triển ứng dụng dự đoán nguy cơ bệnh nám má......................... 72 KẾT LUẬN VÀ KIẾN NGHỊ ......................................................................................76 MỘT SỐ HẠN CHẾ CỦA ĐỀ TÀI NGHIÊN CỨU ..............................................78 DANH MỤC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ CỦA TÁC GIẢ..79 TÀI LIỆU THAM KHẢO QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN THẠC SĨ (BẢN SAO) DANH MỤC BẢNG, BIỂU Bảng 2.1 Bảng kiểu dữ liệu của thuộc tính ..................................................... 43 DANH MỤC BIỂU ĐỒ Biểu đồ 2.1 Tỷ lệ nám má ............................................................................... 37 Biểu đồ 2.2 Phân bố nám má theo tuổi ........................................................... 37 Biểu đồ 2.3 Phân bố theo độ tuổi .................................................................... 38 Biểu đồ 2.4 Phân bổ nghề nghiệp với nám má ............................................... 38 Biểu đồ 2.5 Liên quan giữa tiền sử bệnh mạn tính của đối tượng với tỷ lệ nám má .................................................................................................................... 39 Biểu đồ 2.6 Phân bố theo thành phần kinh tế gia đình ................................... 39 Biểu đồ 2.7 Tiền sử mang thai với nám má .................................................... 40 Biểu đồ 2.8 Tỷ lệ nám má với tiền sử dụng mỹ phẩm .................................... 40 Biểu đồ 2.9 Biểu đồ tương quan giữa các biến số .......................................... 41 Biểu đồ 2.10 Phân bố nám má và không nám má ........................................... 47 Biểu đồ 2.11 Biểu đồ phân bổ tần số của biến ................................................ 47 Biểu đồ 2.12 Ma Trận tương quan giữa các biến số ....................................... 48 Biểu đồ 3.1 Trực quan mô hình XGBoost theo chiều dọc .............................. 53 Biểu đồ 3.2 Biểu đồ trực quan mô hình XGBoost .......................................... 54 Biểu đồ 3.3 Thứ tự tầm quan trọng của các biến ............................................ 56 Biểu đồ 3.4 Sắp thứ tự các importance scores ................................................ 57 Biểu đồ 3.5 Biểu đồ ROC-AUC đối với mô hình ........................................... 66 Biểu đồ 3.6 Biểu đồ Precission-Recall............................................................ 67 Biểu đồ 3.7 Xếp hạng các biến số ảnh hưởng ................................................. 68 Biểu đồ 3.8 Xếp hạng các biến quan trọng ..................................................... 70 DANH MỤC HÌNH VẼ Hình 1.1 Bức tranh tổng thể Ensemble Learning............................................ 10 Hình 1.2 Sự phát triển của thuật toán XGBoost từ cây quyết định ................ 15 Hình 1.3 Phương pháp XGBoost tối ưu hóa thuật toán GBM tiêu chuẩn ...... 16 Hình 1.4 XGBoost so với Các thuật toán ML khác sử dụng Bộ dữ liệu Make_Classification của SKLearn (20 thuộc tính, 1 triệu dòng) ................... 18 Hình 1.5 Kết quả so sánh hiệu suất của XGBoost so với các thuật toán cây quyết định khác. ........................................................................................................ 20 Hình 1.6 Mô hình dự đoán sử dụng Gradient Boosting .................................. 21 Hình 1.7 Bảng mô tả ma trận nhầm lẫn .......................................................... 24 Hình 1.8 Ví dụ về đường cong ROC và AUC ................................................ 26 Hình 3.1 Cấu hình Early_stopping .................................................................. 58 Hình 3.2 Đồ thị thể hiện Logloss và error của mỗi epoch .............................. 60 Hình 3.3. Ma trận nhầm lẫn của dữ liệu test ................................................... 67 Hình 3.4 Sơ đồ cây quyết định của XGboost. ................................................. 69 Hình 3.5 Nhập thông tin bệnh nhân ................................................................ 73 Hình 3.6 Nhập thông tin chẩn đoán ................................................................ 73 Hình 3.7 Kết quả dự đoán của mô hình .......................................................... 74 Hình 3.8 Thông tin bệnh nhân để truy vấn và cập nhập chẩn đoán thực tế .... 74 Hình 3.9 Cập nhập kết quả chẩn đoán cho bệnh nhân .................................... 75 1 0 MỞ ĐẦU 1. LÝ DO CHỌN ĐỀ TÀI Học máy hay máy học là một lĩnh vực trong ngành Trí tuệ nhân tạo, là kỹ thuật giúp cho máy tính có thể tự học mà không cần phải cài đặt các luật quyết định. Thường một chương trình máy tính cần các quy tắc, luật lệ để có thể thực thi được một tác vụ nào đó nhưng với học máy, các máy tính có thể tự động thực thi tác vụ khi nhận dữ liệu đầu vào, hay nói cách khác máy tính có được cảm quan và suy nghĩ được như con người cũng có một cách tiếp cận khác về học máy là phương pháp vẽ các đường thể hiện mối quan hệ của tập dữ liệu [14]. Từ các kiến thức chuyên gia của Bác sỹ, các nghiên cứu về bệnh Nám má từ thông tin cộng đồng của người dân chúng tôi sử dụng một số mô hình phân tích dữ liệu để chỉ ra các mối tương quan trong dữ liệu về bệnh Nám má. Với phương pháp phân tích dữ liệu, hiển thị dữ liệu sẽ giúp các chuyên gia cũng như người dân dễ dàng nhìn thấy tầm quan trọng của các thông tin hằng ngày của người dân ảnh hưởng đến việc bị bệnh Nám má hay không? Từ kết quả phân tích mô tả này, để máy tính có thể hỗ trợ cho việc dự đoán nguy cơ bị bệnh nám má của một người chúng tôi tiến hành xây dựng một mô hình học máy có giám sát với dữ liệu đầu vào là kiến thức chuyên gia bác sỹ da liễu chuyên ngành nám má kết hợp với thông tin cộng đồng của người cần dự đoán. Mô hình học máy được xây dựng dựa trên một thuật toán học máy được đánh giá có nhiều ưu điểm XGBOOTS [22]. Vì thế, mục đích của luận văn là tìm hiểu “Ứng dụng thuật toán học máy xgboost vào dự đoán nguy cơ bị bệnh nám má”. Trong Luận văn này chúng tôi trình bày các tất cả các bước của một quy trình dự đoán bệnh nám má, ba bước đầu tiên: Hiểu nghiệp vụ (Business Understanding): xác định mục tiêu và yêu cầu của bài toán; Hiểu dữ liệu (Data 2 Understanding): thu thập và làm quen với dữ liệu thô ban đầu, đưa ra đánh giá về chất lượng của dữ liệu. Chuẩn bị dữ liệu (Data Preparation): xây dựng được bộ dữ liệu cuối cùng, “đủ tiêu chuẩn” để cho chạy mô hình và phân tích; đã được thực hiện và được xem như là dữ liệu đầu vào của luận văn này. Bước thứ 4 mô hình hoá (Modelling): Lựa chọn và áp dụng các kỹ thuật cùng phương pháp phù hợp, sau đó xây dựng mô hình phân tích dữ liệu. Trong luận văn này chúng tôi đã xây dựng mô hình học máy từ thuật toán XGBOOTS cho việc dự đoán một người có nguy cơ bị bệnh nám má hay không? Việc điều chỉnh các tham số để tối ưu hóa mô hình cũng được thực hiện trong bước này thông qua phân tích một số thuộc tính của mô hình như các biến dữ liệu ảnh hưởng đến mô hình dự đoán, các tham số của thuật toán XGBoost, cấu hình điểm dừng sớm cho thuật toán XGBoost. Sang Bước 5 chúng tôi tiếp cận một số cách đánh giá mô hình (Evaluation) như ma trận nhầm lẫn, biểu đồ ROC-AUC, biểu đồ Precission-Recall để đánh giá kết quả thu được từ mô hình, đánh giá mô hình đã đáp ứng được mục tiêu đã đề ra hay chưa, phân tích các chỉ số đạt được của mô hình và đưa quyết định về việc sử dụng kết quả phân tích vào thực tế. Bước cuối cùng triển khai giải pháp (Deployment) trong luận văn này chúng tôi đưa ra cách triển khai đã được thực hiện tại Bệnh viện PhongDa liễu Trung ương Quy Hòa, mô hình học máy được sử dụng vào một ứng dụng web giúp người dùng có thể tự dự đoán khả năng bị bệnh nám má sau khi chấp nhận cung cấp một số thông tin khảo sát [24]. Với thực trạng đó, luận văn có mục tiêu nghiên cứu, thử nghiệm ứng dụng thuật toán XGBOOTS để xây dựng mô hình học máy dự đoán nguy cơ bệnh nám má. Mục tiêu này sẽ được tiến hành với những nội dung chính gồm: - Tìm hiểu tổng quan về thuật toán XGBOOTS, các thuật toán nhị phân, ra quyết định nói chung và thuật toán XGBOOTS nói riêng. 3 - Một số lý thuyết toán học cơ bản, các kỹ thuật chính liên quan tới thông số, thuật toán tối ưu cho thuật toán XGBOOTS và cũng như tiềm năng ứng dụng thực tiễn sẽ được nghiên cứu trong luận văn này. - Đề xuất giải pháp ứng dụng của thuật toán XGBOOST trong việc dự đoán nguy cơ nám má ở bệnh nhân tại Bệnh viện Phong - Da liễu Trung ương Quy Hòa. - Xây dựng hệ thống thử nghiệm với hệ thống dự đoán nguy cơ nám má. 2. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU - Dữ liệu thông tin cá nhân bệnh nhân nám má. Phương pháp nghiên cứu a) Phương pháp nghiên cứu lý luận: Thu thập, đọc hiểu, phân tích thông tin, dữ liệu từ các giáo trình, sách, các bài báo liên quan đến thuật toán cây quyết định, Ensemble Learning, Bagging, XGboost. b) Phương pháp nghiên cứu thực tiễn: - Nghiên cứu lý thuyết: Đọc tài liệu, các bài báo, để tìm hiểu kế thừa, tổng hợp những nghiên cứu của các tác giả đi trước trong lĩnh vực nghiên cứu. - Nghiên cứu độc lập, tăng cường trao đổi khoa học với các nhóm nghiên cứu quan tâm cùng vấn đề. - Tham gia hội nghị, hội thảo khoa học trong nước. - Cùng nhóm nghiên cứu khoa học tham gia viết bài báo khoa học ở hội nghị khoa học trong nước, nước ngoài. - Tìm hiểu các vấn đề liên quan đến dữ liệu bệnh nhân nám má, các y văn để tường minh, giải thích dữ liệu của thuật toán XGboost. 3. CẤU TRÚC LUẬN VĂN: Luận văn này được chia thành ba chương như sau: Chương 1: Tổng quan tài liệu 4 Đưa ra cái nhìn tổng quan về AI, thuật toán ra cây quyết định nhị phân, thuật toán XGBOOST và Phương pháp đánh gia mô hình, thông tin tổng quan về bệnh nám má. Chương 2. Bài toán dự đoán nguy cơ bệnh nám má và giải pháp thực hiện Trong chương này, luận văn trình bày về bài toán dự đoán nguy cơ bệnh nám má và các kỹ thuật chính sử dụng thuật toán XGBOOST: Hiểu nghiệp vụ (Business Understanding): xác định mục tiêu và yêu cầu của bài toán; Hiểu dữ liệu (Data Understanding): thu thập và làm quen với dữ liệu thô ban đầu, đưa ra đánh giá về chất lượng của dữ liệu. Chuẩn bị dữ liệu (Data Preparation): xây dựng được bộ dữ liệu cuối cùng, “đủ tiêu chuẩn” để cho chạy mô hình và phân tích. Chương 3. TÌM HIỂU THUẬT TOÁN XGBOOST VÀ XÂY DỰNG MÔ HÌNH HỌC MÁY DỰ BÁO CHO BÀI TOÁN DỰ ĐOÁN NGUY CƠ BỆNH NÁM MÁ Tìm hiểu thuật toán XGBoost, cài đặt thư viện XGBoost, huấn luyện mô hình, phương pháp đánh giá, trực quan hóa. Bên cạnh đó tìm hiểu về lựa chọn cái đặc trưng quan trọng, cấu hình điểm dừng sớm cho thuật toán XGBoost, và tìm hiểu tùy chỉnh một số tham số của thuật toán XGBoost. Thực nghiệm xây dựng mô hình và đánh giá mô hình của thuật toán XGBoost dựa trên bộ dữ liệu bệnh nhân nám má. Trong luận văn này chúng tôi đưa ra cách triển khai được thực hiện tại Bệnh viện Phong - Da liễu Trung ương Quy Hòa, mô hình học máy được sử dụng vào một ứng dụng web giúp người dùng có thể tự dự đoán khả năng bị bệnh nám má sau khi chấp nhận cung cấp một số thông tin khảo sát. Phần kết luận nêu những đóng góp của luận văn. Kiến nghị một số hiệu quả khi ứng dụng vào thực tế Tiếp theo là một số hạn chế của luận văn nghiên cứu. 5 Danh mục công trình khoa học đã công bố của tác giả Cuối cùng là danh mục tài liệu tham khảo. 4. ĐÓNG GÓP CỦA LUẬN VĂN Đóng góp chính của luận văn được trình bày trong chương 2, chương 3. 6 1 CHƯƠNG 1: TỔNG QUAN TÀI LIỆU 1.1 TỔNG QUAN VỀ AI 1.1.1 Giới thiệu về AI, học máy, học sâu Thuật ngữ “Trí tuệ nhân tạo” (AI: Artificial Intelligence) lần đầu tiên được John McCarthy đặt ra cho một hội nghị về chủ đề này được tổ chức tại Dartmouth vào năm 1956 với tên gọi “khoa học và kỹ thuật chế tạo máy thông minh”[23]. Trí tuệ nhân tạo (AI: Artificial Intelligence) có thể được định nghĩa như một ngành của khoa học máy tính liên quan đến việc tự động hóa các hành vi thông minh. AI là một bộ phận của khoa học máy tính và do đó nó phải được đặt trên những nguyên lý, lý thuyết vững chắc, có khả năng ứng dụng được của lĩnh vực này. Những nguyên lý này bao gồm các cấu trúc dữ liệu dùng cho biểu diễn tri thức, các thuật toán cần thiết để áp dụng những tri thức đó, cùng các ngôn ngữ và kỹ thuật lập trình dùng cho việc cài đặt chúng.[26] Trí tuệ nhân tạo là một lĩnh vực khoa học máy tính quan trọng nhằm tạo ra những cỗ máy phức tạp với các đặc điểm của trí thông minh con người.Chúng ta có thể coi khái niệm này là “Trí tuệ nhân tạo chung”, có những cỗ máy có thể suy nghĩ và lập luận, thậm chí có thể nhìn và nghe như con người [18]. Tuy nhiên, những gì có thể đạt được tại thời điểm này thuộc khái niệm “AI thu hẹp”, nơi các công nghệ tồn tại để thực hiện các nhiệm vụ cụ thể tương đương hoặc tốt hơn khả năng của con người [18]. Trí thông minh như vậy có được từ các kỹ thuật AI được gọi là học máy và học sâu đã cải thiện hiệu suất trong các lĩnh vực như phân loại hình ảnh, phân tích văn bản, giọng nói và nhận dạng khuôn mặt với một loạt các ứng dụng đầy hứa hẹn như xe tự hành, xử lý ngôn ngữ tự nhiên trong y học. 1.1.2 Ứng dụng trí tuệ nhân tạo trong y khoa Trí tuệ nhân tạo mang lại một số lợi thế so với phân tích truyền thống và các kỹ thuật ra quyết định lâm sàng. Các thuật toán học máy có thể trở nên 7 chính xác và chính xác hơn khi chúng tương tác với dữ liệu huấn luyện lớn chứa đựng nhiều thông tin chính xác, cho phép con người có được những hiểu biết sâu sắc chưa từng có về chẩn đoán, quy trình chăm sóc, khả năng thay đổi điều trị và kết quả của bệnh nhân. Học máy (Machine Learning) là một lĩnh vực nghiên cứu của trí tuệ nhân tạo. Phần lớn các nghiên cứu thực hiện thuật toán học máy trong da liễu tập trung vào việc phân loại tổn thương da cho nhiều loại bệnh, bao gồm u ác tính, ung thư da không phải u hắc tố, bệnh vẩy nến, viêm da dị ứng, nấm móng, bệnh trứng cá đỏ và các chứng tăng sắc tố da lành tính, trong đó có nám má. Những nghiên cứu này chủ yếu dựa vào CNN để nhận dạng và phân loại hình ảnh. [8], [25]. Phân loại bệnh rung nhĩ dùng XGBOOST và học sâu. Rung nhĩ (hay rung tâm nhĩ, atrial fibrillation) là một trong những bệnh rối loạn nhịp tim thường gặp. Rung nhĩ có nguy cơ dẫn đến suy tim, đột quỵ, và các biến chứng tim mạch nguy hiểm khác. Người bị bệnh thường phải đến bệnh viện khám định kỳ để theo dõi nhịp tim bằng hệ thống máy đo điện tâm đồ (ECG), tốn kém nhiều thời gian và chi phí. Nghiên cứu mở ra một hướng phát triển mới cho bài toán phân loại tín hiệu ECG khi thực hiện phân loại trên các đoạn tín hiệu ngắn, đồng thời mang đến một giải pháp ứng dụng các mô hình học sâu khi bài toán gặp những hạn chế về mặt dữ liệu [6]. 1.1.3 Ứng dụng AI trong chẩn đoán nám má và các tổn thương da lành tính Một nghiên cứu “Phát triển và xác nhận hai mô hình trí tuệ nhân tạo để chẩn đoán các tổn thương da sắc tố, lành tính” do nhóm tác giả Yin Yang và cs tại Trung Quốc công bố tháng 5 năm 2020 cho thấy: Mô hình chẩn đoán tổn thương da sắc tố, lành tính dựa trên mạng nơ ron tích chập có hiệu suất tổng thể cao hơn một chút so với các chuyên gia về da liễu. Trong nghiên cứu này, hai mạng nơ ron tích chập được sử dụng để nhận dạng các bệnh da sắc tố đồng thời thiết lập một mô hình chẩn đoán bệnh. Vì sự phân bố của các tổn thương 8 trong hình ảnh huấn luyện ban đầu là rất phức tạp, nhóm nghiên cứu đã cắt hình ảnh xung quanh các tổn thương, huấn luyện mạng nơ ron trên các hình ảnh tổn thương được trích xuất đồng thời kết hợp các kết quả xác minh của bức tranh tổng thể và hình ảnh trích xuất để đánh giá hiệu suất của mô hình trong xác định hình ảnh viêm da tăng sắc tố. Cuối cùng, nhóm nghiên cứu đánh giá hiệu suất nhận dạng hình ảnh của hai mạng nơ-ron tích chập và mạng hội tụ trong bộ thử nghiệm thông qua so sánh giữa mạng hội tụ và đánh giá của các bác sĩ. Kết quả cho thấy AUC của DenseNet-96 cho bức tranh tổng thể là 0,98, trong khi AUC của ResNet-152 là 0,96; do đó, nhóm nghiên cứu kết luận rằng DenseNet-96 hoạt động tốt hơn ResNet-152. Từ AUC, mạng hội tụ có hiệu suất tốt nhất. Mô hình mạng hội tụ đạt được hiệu suất phân loại toàn diện tương đương với mô hình của các bác sĩ. [26]. 1.1.4 Một số nghiên cứu khác Ngày 15/10/2020 tại Hà Nội, ứng dụng đầu tiên ứng dụng AI trong chẩn đoán bệnh da liễu DeepClinics được giới thiệu ra công chúng. DeepClinics là một dự án phát triển và ứng dụng công nghệ tin học (IT - Information Technology) và đặc biệt là trí tuệ nhân tạo (AI - artificial intelligence) và máy học (ML - machine learning) vào việc tạo ra một hệ thống khám, chẩn đoán bệnh và chăm sóc sức khoẻ thế hệ mới. Ứng dụng DeepClinics để chẩn đoán sơ bộ vết thương và một số bệnh da thường gặp như: bệnh trứng cá; nám má; bệnh bạch biến; thủy đậu... Dựa trên kết quả đó, bác sĩ sẽ tư vấn trực tiếp tình trạng tổn thương, mức độ bệnh mà hệ thống đưa ra và tư vấn bổ sung phác đồ điều trị trên cơ sở những nội dung mà hệ thống DeepClinics đưa ra. Hồ sơ của người tham gia trải nghiệm mô hình DeepClinics cũng sẽ được hệ thống lưu lại như một loại hồ sơ điện tử để người dùng có thể theo dõi trong quá trình sử dụng [8]. Tháng 8 năm 2020 công ty VinBrain thuộc Tập đoàn Vingroup và Cục CNTT, Bộ Y tế đã thực hiện nghiên cứu thành công ứng dụng trí tuệ nhân tạo 9 để sử dụng hình ảnh X-Quang phổi trong việc hỗ trợ chẩn đoán COVID-19 tại Việt Nam. Nghiên cứu cũng đã tích hợp thêm chức năng hỗ trợ đánh giá tiên lượng bệnh nhân nhiễm virus SARS-CoV-2 giúp điều trị bệnh nhân hiệu quả hơn. 1.2 ENSEMBLE LEARNING (HỌC TẬP THEO NHÓM) Giả sử chúng ta có một bài toán phân loại sản phẩm sử dụng ML. Đội của bạn chia thành 3 nhóm, mỗi nhóm sử dụng một thuật toán khác nhau để train model trên tập train set. Sau đó đánh giá độ chính xác trên tập validation set: • Nhóm 1: Sử dụng thuật toán Linear Regression. • Nhóm 2: Sử dụng thuật toán k-Nearest Neighbour. • • Nhóm 3: Sử dụng thuật toán Decision Tree. Độ chính xác của mỗi nhóm lần lượt là 70%, 67% và 76%. Điều này hoàn toàn dễ hiểu bởi vì 3 models làm việc theo những các khác nhau. Ví dụ, Linear Regression cố gắng tìm ra mối quan hệ tuyến tính giữa các điểm dữ liệu, trong khi Decision Tree thì lại dựa vào mỗi quan hệ phi tuyến để liên kết dữ liệu. Có cách nào kết hợp kết quả cả 3 models để tạo ra kết quả cuối cùng hay không? Hình 1.1. Các phương pháp kết hợp nhiều mô hình Câu hỏi này là tiền đề cho một phương pháp, một họ các thuật toán hoạt động rất hiệu quả trong các bài toán ML. Đó là Ensemble Learning hay Ensemble Models. Hình dưới đây thể hiện bức tranh tổng quát về Ensemble Learning. 10 Hình 1.1 Bức tranh tổng thể Ensemble Learning

- Xem thêm -

Tài liệu Ứng dụng thuật toán học máy xgboost vào dự đoán nguy cơ bị bệnh nám má

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất