Tài liệu Nghiên cứu một số phương pháp dự báo trong khai phá dữ liệu và ứng dụng dự báo dịch tả tại hà nội

  • Số trang: 75 |
  • Loại file: PDF |
  • Lượt xem: 24 |
  • Lượt tải: 0
thanhphoquetoi

Tham gia: 05/11/2015

Mô tả:

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC MỞ HÀ NỘI LUẬN VĂN THẠC SỸ CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP DỰ BÁO TRONG KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG DỰ BÁO DỊCH TẢ TẠI HÀ NỘI DƢƠNG QUỐC HUY HÀ NỘI - 2018 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC MỞ HÀ NỘI LUẬN VĂN THẠC SỸ NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP DỰ BÁO TRONG KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG DỰ BÁO DỊCH TẢ TẠI HÀ NỘI DƢƠNG QUỐC HUY CHUYÊN NGÀNH : CÔNG NGHỆ THÔNG TIN MÃ SỐ: 60.48.02.018 TS. LÊ VĂN PHÙNG HÀ NỘI – 2018 LỜI CAM ĐOAN Tôi cam đoan rằng nội dung của luận văn này là kết quả nghiên cứu của bản thân. Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu rõ nguồn gốc một cách rõ ràng trong danh mục tài liệu tham khảo được đề cập ở phần sau của luận văn. Những đóng góp trong luận văn là kết quả nghiên cứu của tác giả đã được công bố trong các bài báo của tác giả ở phần sau của luận văn và chưa được công bố trong bất kỳ công trình khoa học nào khác. Hà Nội, tháng 11 năm 2018 Tác giả luận văn Dƣơng Quốc Huy LỜI CẢM ƠN Tôi xin bày tỏ lòng biết ơn sâu sắc tới tập thể các Giáo sư, Tiến sĩ, giảng viên khoa Công nghệ Thông tin Trường Đại học mở Hà Nội đã tận tình giảng dạy, truyền đạt kiến thức cho tôi trong suốt thời gian học tập vừa qua. Tôi xin bày tỏ lòng biết ơn đến TS. Lê Văn Phùng người đã tận tình hướng dẫn, chỉ bảo và chia sẻ những tài liệu rất hữu ích để tôi hoàn thành luận văn. Xin chân thành cảm ơn lãnh đạo Trường Đại học mở Hà Nội đã tạo điều kiện giúp đỡ tôi về mọi mặt trong suốt thời gian học tập tại trường cũng như thời gian thực hiện luận văn. Tôi xin bày tỏ lòng biết ơn sâu sắc đến gia đình, người thân, bạn bè, đồng nghiệp những người luôn động viên, khuyến khích và giúp đỡ để tôi có thể hoàn thành tốt nội dung nghiên cứu. Tôi xin chân thành cảm ơn ! Hà Nội, tháng 11 năm 2018 Tác giả luận văn Dƣơng Quốc Huy MỤC LỤC PHẦN MỞ ĐẦU.....................................................................................................1 1. Tính cấp thiết của đề tài ...................................................................................1 2. Mục tiêu nghiên cứu ........................................................................................2 3. Đối tượng và phạm vi nghiên cứu ....................................................................2 4. Phương pháp nghiên cứu ..................................................................................3 5. Kết cấu luận văn ...............................................................................................3 CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ...................................4 VÀ BÀI TOÁN DỰ BÁO ......................................................................................4 1.1. Tổng quan về khai phá dữ liệu .....................................................................4 1.1.1. Các vấn đề chung nhất về khai phá dữ liệu...........................................4 1.1.2. Tổng quan về phân loại và dự đoán trong khai phá dữ liệu ..................6 1.1.3. Tổng quan về mô hình dự báo dịch bệnh ..............................................7 1.1.4. Dự báo dịch bệnh với mô hình toán học về dịch tễ học .............. Error! Bookmark not defined. 1.1.5. Dự báo dịch bệnh dựa trên khai phá dữ liệu .........................................8 1.1.6. Tổng quan về tả và dịch tả ..................................................................12 CHƢƠNG 2: CÁC PHƢƠNG PHÁP DỰ BÁO TRONG ........................................17 KHAI PHÁ DỮ LIỆU .............................................................................................17 2.1. Các phương pháp dự đoán ...........................................................................17 2.1.1. Các mô hình điển hình về hồi quy ......................................................17 2.1.2. Kiểm thử trong hồi quy .......................................................................17 2.2. Phương pháp phân lớp .................................................................................18 2.2.1. Phân lớp kiểu Bayes ............................................................................18 2.2.2. Phân lớp dựa trên các quy tắc IF-THEN .............................................20 2.2.3. Phân lớp bằng các luật kết hợp ...........................................................20 2.2.4. Phân lớp theo các thuật toán di truyền ................................................22 2.2.5. Phân lớp theo cách tiếp cận tập thô .....................................................23 2.2.6. Phân lớp theo cách tiếp cận tập mờ.....................................................24 2.3. Một số mô hình học máy điển hình trong dự báo .......................................25 2.3.1. Hồi quy tuyến tính ..............................................................................26 2.3.2. K láng giềng .......................................................................................26 2.3.3. Cây quyết định ....................................................................................27 2.3.4. Bagging ...............................................................................................31 2.3.5. Rừng ngẫu nhiên .................................................................................32 2.3.6. Máy học vector hỗ trợ ........................................................................40 2.3.7. Naïve Bayes ........................................Error! Bookmark not defined. CHƢƠNG 3: ỨNG DỤNG DỰ BÁO DỊCH TẢ TẠI HÀ NỘI .......................44 3.1. Bài toán dịch tả tại Hà Nội ..........................................................................44 3.2. Dữ liệu .........................................................................................................45 3.3. Phương pháp thực hiện ................................................................................46 3.4. Cách đánh giá ..............................................................................................47 3.5. Thực nghiệm và kết quả ..............................................................................47 3.5.1. Kết quả thực nghiệm phân loại theo cách thứ nhất ...................................48 3.5.2. Kết quả thực nghiệm phân loại theo cách thứ hai ...............................54 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN..........................................................61 TÀI LIỆU THAM KHẢO ...................................................................................62 DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT Viết tắt Tiếng Anh Cơ sở dữ liệu CSDL CART DM Tiếng Việt Classification and Regression Thuật toán phân loại và cây hồi Trees quy Data Mining Khai phá dữ liệu ENSO El Nino Southern Oscillation KDD Knowledge Discovery from Data Phát hiện tri thức từ dữ liệu kNN k Nearest Neighbors K láng giềng OOB Out-of-bag Dữ liệu túi ước tính SVM Support Vector Machines Máy học vector hỗ trợ Ramdom Forests Rừng ngẫu nhiên RF DANH SÁCH BẢNG Bảng 3.1. Mô tả các đặc trưng thống kê ..............................................................47 Bảng 3.2. Ảnh hưởng của kích cỡ cửa sổ trượt tới hiệu năng hệ thống ..............48 Bảng 3.3. Độ ảnh hưởng của các biến số tới hiệu năng hệ thống ........................51 Bảng 3.4. Độ ảnh hưởng của biến số ENSO tới hiệu năng của hệ thống ............52 Bảng 3.5. Ảnh hưởng của các yếu tố khí hậu các tuần trước đó tới hiệu năng hệ thống..52 Bảng 3.6. Bảng ma trận lỗi phân lớp ...................................................................53 Bảng 3.7. Bảng so sánh khả năng phân lớp của các bộ phân lớp phổ biến .........54 Bảng 3.8. Ảnh hưởng của kích cỡ cửa sổ trượt tới hiệu năng hệ thống ..............55 Bảng 3.9. Độ ảnh hưởng của các biến số tới hiệu năng hệ thống ........................57 Bảng 3.10. Độ ảnh hưởng của biến số ENSO tới hiệu năng của hệ thống ............57 Bảng 3.11. Ảnh hưởng của các yếu tố khí hậu các tuần trước đó tới hiệu năng hệ thống58 Bảng 3.12. Bảng ma trận lỗi phân lớp ...................................................................59 Bảng 3.13. Bảng so sánh khả năng phân lớp của các bộ phân lớp phổ biến .........60 DANH SÁCH HÌNH Hình 1.1: Các lĩnh vực liên quan đến DM và KDD ................................................5 Hình 1.2: Quá trình chuyển đổi tỷ lệ dương tính .....................................................8 Hình 1.3: Kiến trúc hệ thống BioCaster ................................................................10 Hình 1.4: Mô hình phân cấp về lan truyền dịch tả trong môi trường ....................13 Hình 2.1: Hồi quy tuyến tính .................................................................................26 Hình 2.2: Giải thuật kNN .......................................................................................27 Hình 2.3: Cây quyết định học từ dữ liệu cho phép dự báo cho Golf .....................28 Hình 2.4: Giải thuật Bagging của cây quyết định ..................................................31 Hình 2.5: Phương pháp phân lớp random forest ....................................................35 Hình 2.6: Giải thuật rừng ngẫu nhiên. ...................................................................39 Hình 2.7: Rừng ngẫu nhiên ....................................................................................40 Hình 2.8: Phân lớp tuyến tính với học máy vector hỗ trợ .....................................41 Hình 2.9: Hồi quy với máy học vector hỗ trợ ........................................................42 Hình 3.1. Sơ đồ thực hiện của hệ thống dự báo dịch tả dựa trên phân loại tình trạng bệnh theo tháng.............................................................................46 Hình 3.2. Ảnh hưởng kích cỡ khung cửa sổ trượt tới hiệu năng hệ thống ............49 1 PHẦN MỞ ĐẦU 1. Tính cấp thiết của đề tài Dự báo trong y tế đã và đang được ứng dụng rộng rãi ở nhiều nước trên thế giới, thu hút sự chú ý của các nhà nghiên cứu, các nhà quản lý, hoạch định chính sách, những người cung cấp và sử dụng dịch vụ y tế. Dự báo là một hoạt động thường xuyên có tính tất yếu của các cá nhân và tổ chức nhằm dự báo (dự đoán) các thông tin chưa biết trên cơ sở các thông tin đã biết. Trong lĩnh vực y tế và chăm sóc sức khỏe chứa đựng một lớp rộng lớn các bài toán dự báo với phạm vi dự báo ở nhiều cấp độ từ tỉnh, quốc gia, thế giới. Chính vì vậy dự báo dịch bệnh luôn nhận được sự quan tâm của cộng đồng nghiên cứu. Nhằm góp phần ngăn chặn dịch bệnh phát triển, đã có nhiều nghiên cứu liên quan, trong đó dự báo sớm là một biện pháp góp phần đáng kể. Kết quả từ các nghiên cứu dự báo dịch bệch là bằng chứng cho việc lập kế hoạch và quản lý các hoạt động chăm sóc sức khỏe. Chính vì vậy dự báo đã được coi là công cụ cho các nhà quản lý. Cùng với sự phát triển nhanh chóng của khoa học công nghệ, nhiều phương pháp và kỹ thuật mới đã được sử dụng cho dự báo. Trong đó, mô hình dự báo bằng phương pháp học máy là một trong những kỹ thuật tiên tiến đang có xu hướng áp dụng rộng rãi. Trong bối cảnh thực hiện các nghiên cứu với sự hạn chế về thời gian và nguồn lực, sử dụng mô hình học máy trong dự báo dịch bệnh là một phương pháp thích hợp, giải quyết được tính phức tạp và không chắc chắn của các kết quả phân tích tạo cơ sở cho ra quyết định. Ở Việt Nam, ứng dụng học máy trong dự báo vẫn là một lĩnh vực non trẻ. Số lượng các chuyên gia về lĩnh vực này cũng như các nghiên cứu ứng dụng các phương pháp dự báo dịch bệnh trong y tế còn hạn chế trong khi nhu cầu cần bằng chứng trong xây dựng các chương trình, chính sách y tế đang ngày càng gia tăng. Ngày nay, các bệnh truyền nhiễm tuy không còn giữ vai trò "độc tôn" và đang có xu hướng giảm trong cộng đồng, nhưng dưới tác động của nhiều yếu tố như khí hậu, môi trường và ý thức con người, nhiều bệch dịch truyền nhiễm đã được thanh toán trước đây, nay tái xuất hiện và cùng với đó, nhiều bệch dịch mới nổi lên, 2 đặc biệt ở các vùng chịu ảnh hướng của biến đổi khí hậu và đời sống kinh tế còn nghèo. Chính vì vậy việc tìm hiểu nguyên nhân dịch bệnh đã không còn gói gọn trong việc phát hiện căn nguyên vi sinh vật, mà mở rộng ra cho nhiều loại yếu tố tự nhiên, xã hội và sinh học có các mức độ liên quan với số ca mắc bệnh trong cộng đồng. Ngoài việc phát hiện ra căn nguyên và các yếu tố ảnh hưởng, cần có các mô hình được xây dựng bằng các kỹ thuật khác nhau nhằm cảnh báo dịch bệnh sớm giúp giảm thiểu nguy cơ, tổn thất xảy ra cho con người dựa vào các thông số về tự nhiên, môi trường, hành vi, thói quen trong cộng đồng... Trong những năm gần đây, sự sẵn có và ngày càng tăng nguồn dữ liệu, đặc biệt là dữ liệu khí hậu - thời tiết từ các cảm biến từ xa và những dữ liệu phân tích lại, cũng như sự phát triển trong việc dự báo đã mang lại cơ hội mới cho phân tích và dự báo dịch bệnh trong ngành y tế. Chính vì vậy việc nghiên cứu tìm hiểu các kỹ thuật xây dựng mô hình dự báo dịch bệnh với mối liên quan của các yếu tố khí hậu tới sự xuất hiện và lan truyền dịch bệnh là rất cần thiết. 2. Mục tiêu nghiên cứu - Tổng quan được các phương pháp dự báo trong khai phá dữ liệu. - Thực nghiệm dự báo dịch tả tại Hà Nội. 3. Đối tƣợng và phạm vi nghiên cứu  Đối tƣợng nghiên cứu - Một số phương pháp dự báo trong khai phá dữ liệu - Một số các thuật toán và kỹ thuật học máy áp dụng trong dự báo. - Dịch Tả và các yếu tố khí hậu ảnh hưởng đến dịch tả tại Hà Nội. - Hệ thống dự báo dịch tả.  Phạm vi nghiên cứu - Giới hạn về không gian nghiên cứu: Địa bàn thành phố Hà Nội. - Giới hạn về thời gian nghiên cứu: khảo sát, thu thập dữ liệu về dịch tả và các yếu tố khí hậu giai đoạn từ 2007 đến 2010. 3 4. Phƣơng pháp nghiên cứu - Phương pháp nghiên cứu lý luận: Đọc tài liệu, thu thập, phân tích tài liệu để thu thập thông tin và hệ thống hóa các công trình nghiên cứu khoa học có liên quan đến đề tài. - Các phương pháp nghiên cứu thực tiễn:  Phương pháp phân tích  Phương pháp tổng hợp  Phương pháp thống kê  Phương pháp xử lý dữ liệu 5. Kết cấu luận văn Với đề tài “Nghiên cứu một số phƣơng pháp dự báo trong khai phá dữ liệu và ứng dụng dự báo dịch tả tại Hà Nội”. Học viên dự kiến thực hiện các nội dung nghiên cứu chính theo kế hoạch như sau:  Chương 1: Tổng quan về khai phá dữ liệu và bài toán dự báo.  Chương 2: Các phương pháp dự báo trong khai phá dữ liệu.  Chương 3: Ứng dụng dự báo dịch tả tại Hà Nội. 4 CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN DỰ BÁO 1.1. Tổng quan về khai phá dữ liệu 1.1.1. Các vấn đề chung nhất về khai phá dữ liệu Theo bách khoa toàn thư, khai phá dữ liệu (DM) là khâu chủ yếu trong quá trình phát hiện tri thức từ dữ liệu để trợ giúp cho việc làm quyết định trong quản lý. DM sử dụng nhiều phương pháp của phân tích thống kê, của lý thuyết nhận dạng, của các hệ học, các mạng nơ-ron nhân tạo... nhằm phát hiện các mẫu hình tri thức trực tiếp từ các kho dữ liệu. DM và phát hiện tri thức là những nghiên cứu mới trong tổ chức và khai phá các hệ thống thông tin và trợ giúp quyết định. Thuật ngữ DM do Fayyad Smyth và Piatestky-Shapiro đề xuất năm 1989. Có rất nhiều định nghĩa khác nhau về DM đã được đưa ra. Theo nghĩa đơn giản nhất, DM là việc trích lọc tri thức từ một lương lớn dữ liệu. Nó còn có một số tên gọi khác nhau như “trích chọn tri thức”, “phân tích dữ liệu/ mẫu”, “khảo cổ dữ liệu”, “nạo vét dữ liệu”,… Giáo sư Tom Mitchell đã đưa định nghĩa về DM như sau: “DM là việc sử dụng dữ liệu lịch sử để khám phá những quy tắc và cải thiện những quyết định trong tương lại”. Với một cách tiếp cận thực tế hơn, tiến sĩ Fayyed đã phát biểu: “DM thường được xem là việc khám phá tri thức trong các CSDL, là một quá trình xuất những thông tin ẩn, trước đây chưa biết và có khả năng là hữu ích, dưới dạng các quy luật, ràng buộc, quy tắc trong CSDL”. Các nhà thống kê thì xem “ DM như là một quá trình phân tích được thiêt kế thăm dò một lượng lớn các dữ liệu nhằm phát hiện ra các mẫu thích hợp và/hoặc các mối quan hệ mang tính hệ thống giữa các biến và sau đó sẽ hợp thức hóa các kết quả tìm được bằng cách áp dụng các mẫu đã phát hiện được cho tập con mới của dữ liệu”. Nói chung, DM là cốt lõi của quá trình phát hiện tri thức. Nó gồm có các thuật giải DM chuyên dùng, một số quy định về hiệu quả tính toán chấp nhận được. DM nhằm tìm ra những mẫu mới, mẫu có tính chất không tầm thường, những thông tin tiềm ẩn mang tính dự đoán chưa được biết đến và có khả năng mang lại lợi ích. Nói gọn hơn, DM là việc tìm kiếm các kiến thức/các mẫu hấp dẫn trong kho dữ liệu. 4 5 DM là hoạt động trọng tâm của quá trình phát hiện tri thức. Các lĩnh vực liên quan đến phát hiện tri thức và khai phá dữ liệu Phát hiện tri thức và khai phá dữ liệu được ứng dụng trong nhiều ngành và lĩnh vực khác nhau như: tài chính ngân hàng, thương mại, y tế, giáo dục, thống kê, máy học, trí tuệ nhân tạo, cơ sở dữ liệu, thuật toán toán học, tính toán song song với tốc độ cao, thu thập cơ sở tri thức cho hệ chuyên gia,....Trong đó phát hiện tri thức từ dữ liệu (KDD) và DM rất gần gũi với lĩnh vực thống kê, dựa nhiều vào nền tảng lý thuyết của nó, cũng như tạp trung vào kiểm định những giả thiết, sử dụng các phương pháp thống kê để phát hiện ra các mẫu, các luật bên trong dữ liệu. KDD và DM cũng liên quan chặt chẽ đến máy học, dưa nhiều vào heuristics (phương pháp giải quyết vấn đề bằng cách đánh giá kinh nghiệm, tìm giải pháp qua thử nghiệm và cải tiến) và tập trung vàocải tiến hiệu quả của giải thuật học. Kho dữ liệu và các công cụ phân tích trực tuyến cũng liên quan chặt chẽ đến KDD và DM [1]. Khoa học, Thống kê, Xác suất Công nghệ cơ sở dữ liệu Phương pháp hiển thị Trí tuệ nhân tạo DM và KDD Máy học Khoa học thông tin Khoa học kinh tế Hình 1.1: Các lĩnh vực liên quan đến DM và KDD 5 6 1.1.2. Tổng quan về phân loại và dự đoán trong khai phá dữ liệu Khai phá dữ liệu là một lĩnh vực liên ngành, chịu sự tác động của nhiều ngành kiến thức. Trước hết, do phụ thuộc vào cách tiếp cận khai phá dữ liệu đã sử dụng dẫn tới việc phải dùng các kỹ thuật của nhiều ngành khác chẳng hạn như là mạng nơ-ron, tập mờ, lý thuyết tập thô, việc trình diễn tri thức, chương trình quy nạp logic,... Tiếp đó, do phụ thuộc vào loại dữ liệu được khai phá hoặc ứng dụng khai phá dữ liệu triển khai nên hệ thống kahi phá dữ liệu phải tích hợp các kỹ thuật từ các phân tích dữ liệu không gian, trích rút thông tin, nhận biết mẫu, phân tích ảnh, xử lý tín hiệu, đồ họa vi tính, công nghệ web, kinh tế, thương mại, tin sinh học hoặc triết học [1]. Nhờ việc đóng góp của nhiều ngành kiến thức khác nhau cho khai phá dữ liệu nên việc nghiên cứu khai phá dữ liệu đã đượckỳ vọng sinh thành một lượng phong phú các hệ thống khai phá dữ liệu. Do vậy cần phải phân định rõ ràng các hệ thống khai phá dữ liệu có khả năng giúp người sử dụng phân biệt rõ ràng và xác định việc kết nối tốt nhất với nhu cầu của họ. Các hệ thống khai phá dữ liệu có thể phân loại theo các tiêu chuẩn khác nhau như sau [1]:  Theo loại của CSDL đã khai phá - Các mô hình dữ liệu (hệ thống khai phá dữ liệu quan hệ, hệ thống khai phá dữ liệu giao dịch, hệ thống khai phá dữ liệu quan hệ - đối tượng, hệ thống khai phá dữ liệu kho dữ liệu). - Các kiểu dữ liệu đã xử lý (hệ thống khai phá dữ liệu không gian, hệ thống khai phá dữ liệu chuỗi thời gian, hệ thống khai phá dữ liệu văn bản, hệ thống khai phá dữ liệu dòng dữ liệu, hệ thống khai phá dữ liệu đa phương tiện, hệ thống khai phá dữ liệu Web). - Các loại CSDL riêng cho mỗi ứng dụng.  Theo loại của tri thức đã phát hiện - Dựa trên các chức năng khai phá dữ liệu như đặc trưng hóa, tách lọc, kết hợp và phân tích tương quan, phân loại dự đoán, phân cụm, phân tích ngoại lai, phân tích tiến hóa. Một hệ thống khai phá dữ liệu toàn diện thường cung cấp đã chức năng hoặc tích hợp nhiều chức năng. 6 7 - Dựa trên hạt nhân hoặc tính trừu tượng của tri thức được khám phá bao gồm các tri thức tổng quát (ở mức trừu tượng cao), tri thức mức nguyên thủy (ở mức dữ liệu thô), hoặc tri thức ở mức đa tầng (xem xét một số mức trừu tượng). Một hệ thống khai phá dữ liệu liên tiến sẽ rất tiện cho việc phát hiện tri thức ở đa mức trừu tượng. Các hệ thống khai phá dữ liệu cũng có thể được phân loại như những thứ mà các quy tắc khai phá dữ liệu (các mẫu xuất hiện một cách phổ biến) ngược với các bất quy tắc (loại trừ, ngoại lai). Nói chung, các quy tắc khai phá dữ liệu mô tả khái niệm, sự kết hợp, phân tích tương quan, phân loại, dự đoán và phân cụm sẽ loại trừ được các phần tử ngoại lai,... Các phương pháp này cũng có thể giúp cho việc khám phá các phân tử ngoại lai.  Theo loại kỹ thuật đã sử dụng - Các kỹ thuật có thể được mô tả tùy theo mức độ tương tác sử dụng, ví dụ như các hệ tự trị, các hệ thống thăm dò tương tác. - Các hệ thống hướng truy vấn, hoặc các phương pháp phân tích dữ liệu đã sử dụng, ví dụ như các kỹ thuật hướng CSDL hay kho dữ liệu, máy học, thống kê, hiển thị, nhận dạng mẫu, mạng nơ-ron,... Một hệ thống khai phá dữ liệu phức tạp thường chấp nhận các kỹ thuật khai phá dữ liệu đa tạp hoặc trắc nghiệm một kỹ thuật tích hợp, hiệu quả trên cơ sở liên hợp nhiều cách tiếp cận riêng lẻ.  Theo loại các ứng dụng đã thích ứng - Các hệ thống khai phá dữ liệu có được trang bị riêng cho ngành tài chính, giao thông liên lạc, thị trường vốn, thư tín điện tử,... - Các ứng dụng khác nhau thường đòi hỏi sự tích hợp các phương pháp đặc tả. Do vậy, nhìn chung các hệ thống khai phá dữ liệu đa mục tiêu không thể có đủ các nhiệm vụ khai phá đặc trưng theo miền. 1.1.3. Tổng quan về mô hình dự báo dịch bệnh Mỗi một dịch bệnh có nguyên nhân bùng phát và các yếu tố liên quan khác nhau. Mục tiêu của luận văn tập trung vào dự báo dịch tả nên các thông tin tổng quan đến mô hình dự báo cũng được tìm hiểu xung quanh các mô hình dự báo Tả. 7 8 Trong phần tiếp theo của luận văn sẽ lần lượt giới thiệu một số mô hình dự báo dịch bệnh điển hình đã được công bố trong những năm gần đây. 1.1.4. Dự báo dịch bệnh dựa trên khai phá dữ liệu Yujuan Yue và cộng sự [8] trình bày các mô hình dịch Tả (tỷ lệ dương tính với V.cholerae) theo tác động của các yếu tố khí hậu tại khu vực cửa sông Châu Giang, Trung Quốc. Dữ liệu được lấy tại 24 điểm lấy mẫu (ký hiệu là Z1-Z24) thuộc 4 khu vực được giám sát nằm trong vùng 22-24 vĩ độ Bắc và 112-114 kinh độ Đông. Dữ liệu về tỷ lệ dương tính với V.cholerae, nhiệt độ nước, độ pH, nhiệt độ bề mặt đất được Trung tâm giám sát và ngăn ngừa dịch bệnh Trung Quốc (Chinese Center for Disease Control and Prevention: China CDC) cung cấp theo từng điểm lẫy mẫu hàng tháng từ tháng 01/2008 tới tháng 12/2009. Dữ liệu về nhiệt độ không khí, lượng mưa, áp suất không khí, độ ẩm, số giờ nắng, tốc độ gió được thu thập hàng ngày từ hai trạm khí tượng Quảng Châu và Thẩm Quyến; sau đó được chuyển thành dữ liệu tháng. Hình 1.2: Quá trình chuyển đổi tỷ lệ dƣơng tính Mô hình dịch Tả (xem xét quan hệ của tỷ lệ dương tính với V.cholerae) theo mỗi yếu tố khí hậu tại điểm lấy mẫu (i, j) được cụ thể hóa bằng hai phương trình sau đây: Cit,j1  Cit, j  m[(Cit1, j  Cit, j )  (Cit1, j  Cit, j )  (Cit, j 1  Cit, j )  (Cit, j 1  Cit, j )]  (14) md[(Cit1, j 1  Cit, j )  (Cit1, j 1  Cit, j )  (Cit1, j 1  Cit, j )  (Cit1, j 1  Cit, j )] Ci't, j 1  t1(TIt(i1, j )  TIt(i , j ) )  Cit,j1 (15) Theo hình 1.2 và diễn giải cụ thể trong hai phương trình (14)-(15), ô (i, j) đang được quan sát thực hiện việc trao đổi với các ô lân cận của nó theo tám hướng 8 9 một cách đồng bộ tại mỗi nhịp thời gian. Xem xét mô hình ảnh hưởng của nhiệt độ nước (các yếu tố khí hậu khác là hoàn toàn tương tự) tới dịch Tả. Các quy tắc tính toán theo ô được thi hành theo các công thức (14) và (15), trong đó t1 là hệ số nhiệt độ nước, m là hệ số chuyển giao V.cholerae giữa các ô lân cận và d là hệ số đường chéo theo sự khác biệt giữa chuyển giao V.cholerae giữa các ô đường chéo và chuyển giao V.cholerae giữa các ô lân cận. TIt(i , j ) và ô (i, j) tại các nhịp thời gian t và t+1, tương ứng. TIt(i1, j ) C It (i , j ) là giá trị nhiệt độ nước tại và C It (i1, j ) là các giá trị nồng độ V.cholerae tại ô (i, j) tại các nhịp thời gian t và t+1, tương ứng. C 'tI(1i , j ) là giá trị kết luận về nồng độ V.cholerae tại ô (i, j) vào nhịp thời gian t+1. Giá trị các tham số t1, m, d được xác định qua hồi quy tuyến tính. Năm 2008, Nigel Collier và cộng sự [10] giới thiệu một hệ thống dựa trên một phương pháp phân tích một lượng lớn các truy vấn tìm kiếm Google để theo dõi dịch cúm trong cộng đồng. Dựa trên lập luận tần số tương đối của các truy vấn nhất định có liên quan cao với số lần khám bệnh, với một bệnh nhân có các triệu chứng giống cúm có thể ước tính chính xác mức độ hiện thời trạng thái cúm hàng tuần tại mỗi khu vực của nước Mỹ, với một độ trễ báo cáo khoảng một ngày. Ước tính cúm tức thời cho phép các nhà quản lý y tế công cộng và các chuyên gia y tế đáp ứng các dịch vụ tốt hơn. Nếu một khu vực xuất hiện sự tăng mạnh số lượt khám bệnh thì khu vực đó cần được quan tâm để tập trung nguồn lực bổ sung để xác định nguyên nhân các ổ dịch, cung cấp dung lượng vaccine thêm hoặc nâng cao nhận thức truyền thông địa phương khi cần thiết. Các tác giả nhận định rằng, dù cho kết quả nghiên cứu và hệ thống còn có một số hạn chế cũng như không thể thay thế được các hệ thống truyền thống, song việc phát hiện sớm được cung cấp bởi phương pháp có thể trở thành một kênh phòng thủ quan trọng phòng chống dịch cúm tương lai tại Mỹ, và có thể trên thế giới. Hình 1.3 cung cấp mô hình kiến trúc khái quát hệ thống BioCaster giám sát dịch bệnh dựa trên dữ liệu phương tiện xã hội và để hoàn thành hệ thống đòi hỏi một nỗ lực lớn của một đội ngũ chuyên gia nhiều lĩnh vực, đặc biệt là xử lý ngôn ngữ tự nhiên và dịch tễ học. 9 10 Hình 1.3: Kiến trúc hệ thống BioCaster Năm 2012, R. Chunara và cộng sự [11] xây dựng một mô hình hỗ trợ dự báo sớm dịch Tả sử dụng dữ liệu từ Twitter. Các tác giả nhận định rằng phân tích hồi cứu dựa trên dữ liệu báo cáo từ các nguồn y tế công cộng thường bị giới hạn về thời gian và các nguồn dữ liệu khác có thể cung cấp một cơ hội thu thập thông tin sớm về cách thức một dịch bệnh đang diễn ra, và do đó tạo cơ hội cho việc thực hiện các biện pháp can thiệp kịp thời và hiệu quả hơn. Ở đây, các tác giả sử dụng hai nguồn thông tin không chính thức từ HealthMap (http://www.HealthMap.org) và Twitter (http://www.twitter.com) cùng với nguồn thông tin chính thức từ Bộ Y tế công cộng (Ministère de la Santé Publique et de la Population: MSPP) Haiti. Dữ liệu được thu thập trong thời gian 100 ngày, từ 20/10/2010 đến 28/01/2011. Các tác giả tập trung vào các khoảng thời gian bùng phát dịch bệnh, và phát hiện dữ liệu chuỗi thời gian phù hợp với một phân phối mũ. Trong trường hợp chuỗi thời gian phân phối mũ ở đây, công thức đơn giản sau được sử dụng để tính toán số nhiễm bệnh dựa trên mô hình SIR: Re = 1 + rTc Trong đó, Tc = 1/b (b là tỷ lệ chuyển dịch từ nhiễm bệnh mô hình SIR) và r tốc độ tăng trưởng. Kết quả cho thấy có mối tương quan cao xu hướng về khối lượng theo thời gian giữa dữ liệu không chính thức và dữ liệu chính thức trong giai đoạn đầu của một ổ dịch hoặc sự kiện có liên quan. Hơn nữa, sự tương quan tốt nhất với độ trễ một ngày chứng tỏ khả năng sử dụng các dữ liệu không chính thức trong 10 11 việc phát hiện sớm một ổ dịch để đạt được cái nhìn sâu sắc vào việc ước tính số nhiễm bệnh dịch Tả trong giai đoạn phát triển ban đầu của dịch bệnh. Điều này càng có ý nghĩa rất quan trọng để tiến hành các biện pháp kiểm soát dịch bệnh khi mà dữ liệu chính thức được công bố trễ hai tuần trong trường hợp dịch tả Haiti năm 2010. Các tác giả cũng cho rằng mô hình này có khả năng phù hợp với các bệnh dịch khác. Tuy nhiên, R. Chunara và cộng sự cũng chỉ ra một số hạn chế của phương pháp sử dụng dữ liệu phương tiện truyền thông dự báo dịch bệnh. Thứ nhất, hạn chế từ trình độ sử dụng phương tiện xã hội thấp kém ở những vùng dịch bệnh và điều này có thể được khắc phục trong tương lai. Thứ hai, hạn chế về nhân khẩu học cung cấp dữ liệu cá nhân trên các phương tiện xã hội (ví dụ như blog, điện thoại di động, v.v.). Thứ ba, một sai lệch tiềm ẩn là thông điệp phương tiện xã hội có thể chứa các sai lệch do dựa trên các cảnh báo sai, tin đồn, hoặc báo cáo sai, đặc biệt là trong các tình huống của sự sợ hãi hoặc hoảng sợ. Cuối cùng, độ tương quan giữa dữ liệu nguồn phương tiện xã hội với báo cáo chính thức vào khoảng thời gian cuối dịch bệnh là rất thấp. Ngoài ra còn tồn tại một số công trình nghiên cứu về khai phá phương tiện xã hội ứng dụng vào y tế như Prieto VM và cộng sự [12], José Carlos Santos và Sérgio Matos [13], Yusheng Xie và cộng sự [14]. Ali và cộng sự [15] đã phân tích dữ liệu ca bệnh Tả tại Matlab, Bangladesh từ năm 1988 đến năm 2001 và rút ra kết luận: Số ca dịch tả tại Matlab chịu ảnh hưởng mạnh của nhiệt độ tại thành phố và nhiệt độ bề mặt nước biển. Nghiên cứu này dự báo số ca mắc tả trên toàn vùng và sử dụng phương pháp phân tích chuỗi thời gian. R. C. Reiner và cộng sự [16]đã xây dựng mô hình dự báo số ca mắc tả trước 11 tháng tại Matlab. Dữ liệu được sử dụng trong nghiên cứu này là các tham số khí tượng, chỉ số dao động Nam và số ca mắc tả của Matlab từ năm 1995 đến năm 2008. Chỉ số dao động phía Nam (SOI) và tình trạng ngập lụt ở Matlab là các yếu tố khí hậu cục bộ có ảnh hưởng lớn nhất đến số ca mắc tả. Ngoài ra, nghiên cứu này đã dự báo số ca theo đơn vị thanas và có một kết luận quan trọng là các thanas tại trung tâm Matlab có vai trò trong việc lây lan bệnh ra toàn thành phố. Kỹ thuật xây dựng mô hình dự báo được sử dụng trong nghiên cứu này là mô phỏng bằng mô hình xích 11
- Xem thêm -