ỦY BAN NHÂN DÂN TỈNH BÌNH DƢƠNG
TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT
NGUYỄN BÌNH MINH
DỰ BÁO DỊCH SỐT XUẤT HUYẾT
BẰNG PHƢƠNG PHÁP HỌC MÁY
LUẬN VĂN THẠC SỸ
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ NGÀNH: 8480104
BÌNH DƢƠNG, NĂM 2019
ỦY BAN NHÂN DÂN TỈNH BÌNH DƢƠNG
TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT
NGUYỄN BÌNH MINH
DỰ BÁO DỊCH SỐT XUẤT HUYẾT
BẰNG PHƢƠNG PHÁP HỌC MÁY
LUẬN VĂN THẠC SỸ
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ NGÀNH: 8480104
NGƢỜI HƢỚNG DẪN KHOA HỌC:
TS. MAI HOÀNG BẢO ÂN
BÌNH DƢƠNG, NĂM 2019
LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của cá nhân tôi, xuất phát từ
nhu cầu thực tế trong quá trình học tập, nghiên cứu cũng nhƣ công tác tại Sở Y
tế Bình Dƣơng. Dữ liệu sử dụng trong nghiên cứu đƣợc thu thập từ Trung tâm Y
tế Dự phòng tỉnh Bình Dƣơng, Trung tâm quan trắc, môi trƣờng tỉnh và đã đƣợc
sự chấp thuận, cho phép sử dụng bằng văn bản của lãnh đạo cơ quan trên.
Tất cả các tham khảo từ các nghiên cứu liên quan đều đƣợc dẫn nguồn cụ
thể, rõ ràng. Nội dung, kết quả nghiên cứu luận văn là nỗ lực của bản thân và
chƣa từng đƣợc công bố trong các công trình nghiên cứu khoa học nào khác.
Tác giả
Nguyễn Bình Minh
LỜI CẢM ƠN
Trong quá trình học tập, nghiên cứu và thực hiện luận văn “Dự báo dịch
sốt xuất huyết trên địa bàn tỉnh Bình Dƣơng bằng phƣơng pháp học máy”, tôi đã
nhận đƣợc nhiều sự hỗ trợ, giúp đỡ từ phía thầy cô, các cá nhân và tổ chức sau:
Trƣớc hết, tôi xin chân thành cảm ơn và tri ân sâu sắc đến Thầy PGS.TS
Lê Tuấn Anh - Phó Hiệu trƣởng Phụ trách Đại học Thủ Dầu Một đã luôn dõi
theo động viên, dẫn dắt tôi và các bạn đồng môn khai phá tầm nhìn, hƣớng cho
chúng tôi tiếp cận các lĩnh vực nghiên cứu mới vừa khoa học, vừa gần gũi thực
tiễn cuộc sống. Đặc biệt, để hoàn thành luận văn này, tôi xin chân thành cảm ơn
sâu sắc đến Thầy TS. Mai Hoàng Bảo Ân - Viện John Von Neumann đã tận tâm
dìu dắt, hƣớng dẫn, góp ý, chỉnh sửa để tôi hoàn thành luận văn này.
Tôi cũng xin đƣợc gửi lời cảm ơn đến Ban Giám hiệu nhà trƣờng, Phòng
đào tạo Sau Đại học, các Thầy, Cô trong Khoa K thuật - Công nghệ, Trƣờng
Đại học Thủ Dầu Một đã tạo mọi điều kiện và môi trƣờng học tập, nghiên cứu
thuận lợi nhất. Xin cảm ơn tất cả Thầy, Cô là giảng viên thỉnh giảng đã tâm
huyết không ngại đƣờng xa để truyền đạt cho chúng tôi những kiến thức và kinh
nghiệm vô c ng quý giá trong học tập và nghiên cứu khoa học.
Tôi cũng trân trọng cảm ơn các chuyên gia y tế của Trung tâm Y tế Dự
phòng tỉnh Bình Dƣơng, cảm ơn lãnh đạo Trung tâm quan trắc môi trƣờng tỉnh
đã hỗ trợ, giúp đỡ nhiệt tình trong việc thu thập dữ liệu và chia sẻ các kiến thức
về chuyên môn trong công tác dự báo và phòng chống dịch bệnh Sốt xuất huyết.
Xin cảm ơn ngƣời thân, gia đình đã luôn ủng hộ, động viên, tạo điều kiện
thuận lợi cho tôi hoàn thành văn này. Một lần nữa xin tri ân và trân trọng cảm ơn
tất cả mọi ngƣời.
h
u
t ng 20/3/2019
Tác giả
Nguyễn Bình Minh
DANH MỤC CÁC TỪ VIẾT TẮT, CÁC KÝ HIỆU
TỪ VIẾT TẮT
TIẾNG ANH
TIẾNG VIỆT
WHO
World Health Organization
Tổ chức Y tế thế giới
TTYTDP
Centers for Disease Control
and Prevention
Trung tâm Y tế dự phòng
hoặc (Trung tâm kiểm soát,
phòng ngừa dịch bệnh)
SXH
Fever
Sốt xuất huyết
SXHD
Dengue Fever
Sốt xuất huyết Dengue
KPDL
Data Mining
Khai phá dữ liệu
CSDL
Database
Cơ sở dữ liệu
KDD
Phát hiện tri thức trong cơ sở
dữ liệu
Hệ thống thông tin địa lý
SVM
Knowledge Discovery in
Database
Geographic Information
System
Support vector machine
RF
Random Forests
Rừng ngẫu nhiên
DT
Decission Trees
Cây quyết định
LR
Linear Regression
Hồi quy tuyến tính
BI
Breteau index
chỉ số vật chứa nƣớc có lăng
quăng muỗi Aedes
GIS
DI
Máy véc tơ hỗ trợ
chỉ số mật độ muỗi vằn
DANH SÁCH CÁC BẢNG BIỂU
T n ản
Trang
Bản 1 : Bảng kết quả mô hình phân lớp của nhóm tác giả Ngọc Anh
14
Bản 2 : Bảng kết quả mô hình học máy của nhóm tác giả Đại học
15
Công nghệ Kumaraguru.
Bản 3: Bảng nhận xét nhóm các mô hình dự báo dịch bệnh.
24
Bản 4 : Kết quả thực nghiệm với các thuật toán hồi quy
37
Bản 5 : Kết quả thực nghiệm với các thuật toán phân lớp
38
Bản 6 : Độ tƣơng quan của các thuộc tính
39
Bản 7 : Bảng so sánh kết quả hồi quy của chúng tôi với các NC khác
40
Bản 8 : Bảng so sánh kết quả phân lớp của chúng tôi với các NC khác
40
DANH SÁCH CÁC HÌNH
Tên
n
Trang
Hình 1: Quá trình KPDL, phát hiện tri thức
9
H n 2 : Biểu đồ kết quả mô hình hồi quy của nhóm tác giả Ngọc Anh
14
H n 3: Sơ đồ Quy trình học máy
18
Hình 4: Mô hình Random Forests
20
H n 5: Mô hình dự đoán sử dụng Random Forest
22
Hình 6: Lƣu đồ xây dựng mô hình dự báo dịch dựa trên hồi quy, phân lớp
26
Hình 7: Mô hình thực nghiệm dựa trên hồi quy
27
Hình 8: Mô hình thực nghiệm dựa trên phân lớp
27
Hình 9: Sơ đồ quá trình thu thập, tiền xử lý dữ liệu thực nghiệm
32
H n 10 : Sơ đồ tổng quát quá trình mô tả dữ liệu, quá trình thu thập, tìm
35
hiểu, xử lý dữ liệu
H n 11 : Biểu đồ so sánh độ chính xác của mô hình hồi quy
37
H n 12 : Biểu đồ so sánh độ chính xác của mô hình phân lớp
38
H n 13 : Biểu đồ tƣơng quan của các thuộc tính tác động lên ca bệnh SXH
39
MỤC LỤC
LỜI CẢM ƠN ...............................................................................................................iv
DANH MỤC CÁC TỪ VIẾT TẮT, CÁC KÝ HIỆU .................................................v
DANH SÁCH CÁC BẢNG BIỂU ...............................................................................vi
DANH SÁCH CÁC HÌNH ......................................................................................... vii
MỞ ĐẦU .........................................................................................................................1
Tính cấp thiết của đề tài .................................................................................... 1
Mục tiêu nghiên cứu .......................................................................................... 2
Đối tƣợng và phạm vi nghiên cứu, phƣơng pháp nghiên cứu: ......................... 2
CHƢƠNG 1: GIỚI THIỆU TỔNG QUAN .................................................................5
1.1. Tổng quan về tỉnh Bình Dƣơng.................................................................. 5
1.2. Tổng quan về dịch bệnh SXH tại Việt Nam và tỉnh Bình Dƣơng. ............ 6
1.3 Tổng quan về phát hiện tri thức và khai phá dữ liệu................................... 7
1.3.1 Các phƣơng pháp khai phá dữ liệu....................................................... 9
1.3.2 Mốt số ứng dụng của phát hiện tri thức, khai phá dữ liệu ................. 11
CHƢƠNG 2: CÁC NGHIÊN CỨU LIÊN QUAN ....................................................13
2.1 Các nghiên cứu liên quan đến dự báo dịch bệnh dựa trên khai phá dữ liệu.
......................................................................................................................... 13
2.2 Một số k thuật xây dựng mô hình dự báo. .............................................. 15
2.2.1 Dự báo dựa trên khai phá Luật kết hợp: ............................................ 15
2.2.2 Dự báo bằng k thuật học máy hồi qui và phân lớp .......................... 17
2.2.2.1 Hồi qui tuyến tính (Linear Regression – LR): ............................ 19
2.2.2.3 Rừng ngẫu nhiên (Random Forests - RF): .................................. 20
2.2.2.4 Máy vector hỗ trợ (Support Vector Machines - SVM): .............. 23
2.2.2.5 Naïve Bayes: ............................................................................... 23
2.3 Một số nhóm mô hình dự báo dịch bệnh thƣờng gặp: .............................. 24
CHƢƠNG 3: XÂY DỰNG MÔ HÌNH DỰ BÁO, THỰC NGHIỆM. ....................26
3.1 Đề xuất phƣơng pháp xây dựng mô hình dự báo dịch sốt xuất huyết. ..... 26
3.2. Đánh giá độ chính xác của thuật toán và mô hình dự báo ....................... 28
3.3. Thực nghiệm mô hình. ............................................................................. 31
3.3.1 Nguồn dữ liệu: .................................................................................... 31
3.3.2. Tìm hiểu, mô tả và tiền xử lý dữ liệu: ............................................... 32
3.3.3 Thực nghiệm ...................................................................................... 36
KẾT LUẬN ..................................................................................................................42
1.
Nội dung nghiên cứu và kết quả đạt đƣợc .............................................. 42
2.
Định hƣớng phát triển : ........................................................................... 44
TÀI LIỆU THAM KHẢO........................................................................................... 45
MỞ ĐẦU
Tín cấp t iết của đề tài
Bình Dƣơng là một trong những tỉnh công nghiệp với tốc độ phát triển đô
thị hóa nhanh, kèm với đó là tình hình bệnh sốt xuất huyết cũng tăng nhanh
theo. Số ca mắc bệnh ngày càng cao hàng năm và không theo chu kỳ nhất định
mà diễn biến ngày một phức tạp. Trong vòng 10 năm từ 2007-2017 đã có nhiều
đợt dịch lớn xảy ra vào các năm 2008, 2012 và 2015, 2017; số ca mắc và tử
vong cao nhất nhì khu vực phía Nam. Trong bối cảnh tình hình dịch bệnh ngày
càng diễn biến phức tạp, luôn là vấn đề quan tâm hàng đầu của ngành y tế, trong
khi việc thực hiện triển khai các nghiên cứu, các giải pháp phòng chống dịch
thƣờng bị hạn chế về cả thời gian lẫn nguồn lực. Việc nghiên cứu các mô hình
khai phá dữ liệu, học máy trong dự báo dịch bệnh là một trong những giải pháp
có khả năng giải quyết đƣợc tính phức tạp của bài toán dự báo dịch bệnh với chi
phí thấp.
Ở Việt Nam, ứng dụng khai phá dữ liệu, học máy trong dự báo dịch bệnh
còn là một lĩnh vực mới mẻ. Số lƣợng, chất lƣợng nghiên cứu, ứng dụng lĩnh
vực này cho dự báo dịch bệnh trong y tế còn hạn chế trong khi nhu cầu thiết lập
các chƣơng trình, chính sách y tế gắn với sự phát triển của khoa học máy tính
đang ngày một gia tăng. Trong những năm qua, nguồn dữ liệu đƣợc thu thập,
lƣu trữ trong lĩnh vực y tế gia tăng ngày một lớn, bên cạnh những dữ liệu khác
nhƣ khí hậu, thời tiết, dân cƣ ...v.v... Điều này đã mang đến cơ hội mới cho phân
tích, dự báo nói chung và dự báo dịch bệnh trong ngành y tế nói riêng.
Do đó, việc nghiên cứu áp dụng các k thuật học máy, đề xuất mô hình dự
báo dịch bệnh dựa vào nguồn dữ liệu chuyên ngành hiện có, kết hợp xem xét các
yếu tố liên quan tới sự xuất hiện và lan truyền dịch bệnh là rất cần thiết nhằm
góp phần cảnh báo sớm, ngăn chặn sự b ng phát, lây lan của dịch bệnh; giúp các
cơ quan có chức năng quản lý và hoạch định chính sách, kiểm soát dịch bệnh
1
tiếp cận với một hƣớng khác mới hơn trong công tác dự báo, phòng chống dịch
ngoài các phƣơng pháp truyền thống.
Xuất phát ý tƣởng từ nhu cầu công tác, học tập, nghiên cứu có liên quan
đến lĩnh vực học máy; bên cạnh đó tác giả đƣợc tiếp cận với nguồn dữ liệu thực
tế bệnh sốt xuất huyết đƣợc lƣu trữ nhiều năm qua tại Bình Dƣơng, từ đó vấn đề
đƣợc tác giả đặt ra là : Dựa vào nguồn dữ liệu sốt xuất huyết tích lũy nhiều năm
qua kết hợp với các dữ liệu, yếu tố tác động của thời tiết, khí hậu, dân cƣ, bằng
các phƣơng pháp, k thuật, mô hình học máy liệu chúng ta có thể dự báo đƣợc
số lƣợng ca bệnh sốt xuất huyết hoặc nguy cơ xảy ra dịch vào thời điểm nào đó,
tại một địa bàn huyện thị trong tỉnh Bình Dƣơng không ? Để tìm hiểu, nghiên
cứu, giải quyết vấn đề bài toán đặt ra, tác giả đã tiến hành thực hiện luận văn với
đề tài : “
”.
Mục tiêu n
Mụ iê
ổ
i n cứu
q
:
Nghiên cứu hệ thống hoá cơ sở khoa học trong dự báo; ứng dụng các k
thuật khai phá dữ liệu, học máy làm cơ sở xây dựng các mô hình dự báo dịch
bệnh có kết hợp với các yêu tố dân số, môi trƣờng, khí hậu dựa trên nguồn dữ
liệu chuyên ngành thu thập đƣợc.
Mụ iê
ụ
ể:
Nghiên cứu tổng quan khai phá dữ liệu, học máy. Ứng dụng, lựa chọn
phƣơng pháp, k thuật thích hợp trong dự báo dịch sốt xuất huyết;
Tìm hiểu, phân tích, xử lý, khai phá nguồn dữ liệu thu thập đƣợc để xây
dựng, thực nghiệm mô hình dự báo dịch bệnh bằng các k thuật học máy. Đề
xuất sử dụng mô hình dự báo dịch bệnh sốt xuất huyết ph hợp tại Bình Dƣơng.
Đối tƣợn và p ạm vi n
i n cứu, p ƣơn p áp n
i n cứu:
2
Đối tƣợn n
i n cứu:
Để xây dựng mô hình dự báo dịch SXH trên địa bàn tỉnh Bình Dƣơng,
luận văn tập trung sử dụng, tìm hiểu, xử lý, phân tích các tập dữ liệu sau: Tập dữ
liệu về ca bệnh SXH, tập dữ liệu về khí hậu, môi trƣờng, dân số từ năm 2006
đến năm 2018. Bên cạnh việc hồi cứu dữ liệu phục vụ cho nghiên cứu, luận văn
cũng xem xét, tìm hiểu một số thuật toán và k thuật học máy áp dụng trong dự
báo nhƣ một số k thuật học máy hổi quy và phân lớp.
P ạm vi n
i n cứu:
Cơ sở dữ liệu (ca bệnh sốt xuất huyết, khí hậu, thời tiết, dân số) tại địa
bàn 09 huyện, thị, thành phố thuộc tỉnh Bình Dƣơng từ năm 2006 - 2018.
P ƣơn p áp n
i n cứu:
- Nghiên cứu tổng quan về bệnh sốt xuất huyết; các phƣơng pháp về phân
tích, dự báo dịch bệnh, tham khảo ý kiến chuyên gia về bệnh sốt xuất huyết.
- Nghiên cứu các phƣơng pháp khai phá dữ liệu, k thuật trong lĩnh học
máy.
- Hồi cứu, hiểu về dữ liệu thu thập đƣợc bằng cách trả lời các câu hỏi tự
đặt ra, tham khảo ý kiến chuyên gia; phân tích, tiền xử lý, trích lọc, chuyển đổi
dữ liệu phục vụ cho việc xây dựng, thực nghiệm mô hình dự báo.
- Chạy thực nghiệm trên các mô hình; nhận xét, so sánh, đánh giá kết quả
và đề xuất mô hình ph hợp.
Bố cục luận văn đƣợc trình bày ngoài phần Mở đầu và Kết luận gồm 03
chƣơng với các nội dung chính nhƣ sau:
Chƣơng 1: Trình bày tổng quan về tỉnh Bình Dƣơng, về tình hình dịch
bệnh sốt xuất huyết tại Việt Nam và tỉnh Bình Dƣơng; công tác phòng chống
dịch bệnh và đặc điểm dịch bệnh sốt xuất huyết tại Bình Dƣơng. Trình bày tổng
quan về phát hiện tri thức và khai phá dữ liệu.
3
Chƣơng 2: Trình bày một số nghiên cứu liên quan về dự báo dịch bệnh
nói chung và dự báo dịch bệnh sốt xuất huyết nói riêng. Trình bày mô hình dự
báo dịch sốt xuất huyết tại Bình Dƣơng dựa trên các k thuật học máy hồi quy,
phân lớp.
Chƣơng 3: Xây dựng mô hình dự báo và thực nghiệm. Mô tả, tìm hiểu,
phân tích dữ liệu sử dụng cho thực nghiệm; Trình bày các kết quả thực nghiệm,
đánh giá nhận xét, so sánh kết quả các mô hình và đề xuất chọn mô hình phù
hợp để dự báo dịch bệnh sốt xuất huyết tại tỉnh Bình Dƣơng.
4
CHƢƠNG 1: GIỚI THIỆU TỔNG QUAN
Trong chƣơng này, tác giả trình bày tổng quan về tỉnh Bình Dƣơng, về
tình hình dịch bệnh sốt xuất huyết tại Việt Nam nói chung và tỉnh Bình Dƣơng
nói riêng; công tác phòng chống dịch bệnh và đặc điểm dịch bệnh sốt xuất huyết
tại Bình Dƣơng. Trình bày tổng quan về khai phá dữ liệu, học máy và các
phƣơng pháp, mô hình dự báo dịch bệnh.
1.1. Tổn quan về tỉn B n Dƣơn .
Tỉnh Bình Dƣơng thuộc vùng Đông Nam bộ, giáp ranh với các tỉnh/thành
nhƣ: TP. Hồ Chí Minh, Đồng Nai, Bình Phƣớc, Tây Ninh; nằm trong V ng kinh
tế trọng điểm phía Nam; có diện tích tự nhiên 2.694,43 km2; dân số 2.070.951,
mật độ dân số 769 ngƣời/ km2. Bình Dƣơng có 09 đơn vị hành chính cấp huyện
(gồm: thành phố Thủ Dầu Một, thị xã Dĩ An, thị xã Thuận An, thị xã Bến Cát,
thị xã Tân Uyên và các huyện Bàu Bàng, Bắc Tân Uyên, Dầu Tiếng, Phú Giáo)
và 91 đơn vị hành chính cấp xã (46 xã, 41 phƣờng, 04 thị trấn). Toàn tỉnh hiện
có 29 khu công nghiệp và 12 cụm công nghiệp.
Khí hậu ở Bình Dƣơng cũng nhƣ khu vực miền Đông Nam bộ: nắng nóng
và mƣa nhiều, độ ẩm khá cao. Khí hậu nhiệt đới gió m a ổn định, trong năm
phân chia thành hai m a rõ rệt: m a khô và m a mƣa. M a mƣa thƣờng bắt đầu
từ tháng 5 kéo dài đến cuối tháng 10 dƣơng lịch. Vào những tháng đầu m a
mƣa, thƣờng xuất hiện những cơn mƣa rào lớn, rồi sau đó dứt hẳn. Những tháng
7, 8, 9 thƣờng là những tháng mƣa dầm. Nhiệt độ trung bình hàng năm ở Bình
Dƣơng từ 26oC-27oC. Nhiệt độ cao nhất có lúc lên tới 39,3oC và thấp nhất từ 16oC17oC (ban đêm) và 18oC vào sáng sớm. Vào m a nắng, độ ẩm trung bình hàng
năm từ 76%-80%, cao nhất là 86% (vào tháng 9) và thấp nhất là 66% (vào tháng
2). Lƣợng nƣớc mƣa trung bình hàng năm từ 1.800 - 2.000 mm.
Bình Dƣơng là một trong những tỉnh công nghiệp phát triển, tốc độ đô thị
hóa cao; tốc độ tăng dân số cơ học rất nhanh. Đi kèm với sự phát triển kinh tế thì
5
Bình Dƣơng cũng đối mặt với các vấn đề xã hội trong đó có vấn đề về chăm sóc
sức khỏe và phòng chống dịch bệnh. Nhất là tình hình bệnh SXHD cũng tăng
nhanh lên theo, số ca mắc bệnh ngày càng cao hàng năm và không theo chu kỳ
nhất định mà diễn biến ngày một phức tạp.
1.2. Tổn quan về dịc
ện SXH tại Việt Nam và tỉn B n Dƣơn .
Dịch bệnh d ng để mô tả những bệnh gây ra bởi vi sinh vật truyền nhiễm
mà thỉnh thoảng lại xảy ra với số lƣợng lớn ngƣời mắc. Một khi đƣợc đƣa vào
cộng đồng, vi sinh vật truyền nhiễm nhƣ virus và vi khuẩn có thể lây lan từ
ngƣời này sang ngƣời khác. Và nếu mỗi một ngƣời truyền bệnh cho hơn một
ngƣời khác, số ca bệnh sẽ tăng theo cấp số nhân dẫn đến sự lây lan mạnh là đặc
trƣng của một bệnh dịch.
Sốt xuất huyết Dengue là một bệnh truyền nhiễm do vi rút Dengue gây ra,
và đƣợc lây truyền qua véc-tơ trung gian là muỗi Aedes aegypti (chủ yếu)
và Aedes albopictus [1]. Bệnh ngày càng tăng nhanh và xu hƣớng lan rộng trên
toàn thế giới khi hiện nay đã có trên 100 quốc gia có sốt xuất huyết lƣu hành.
Theo số liệu báo cáo của WHO, năm 2008 có khoảng 1,2 triệu ca sốt xuất huyết,
đến 2010 nó tăng lên thành 2,2 triệu ca, và cho đến năm 2015 đã có 3,2 triệu ca
mắc đƣợc báo cáo. Nhƣng đó chỉ là số liệu trên giấy, con số thực tế đƣợc ƣớc
tính cho thấy hằng năm có khoảng 390 triệu ca mắc. Sốt xuất huyết (SXH) là
bệnh nguy hiểm, ƣớc tính mỗi năm có khoảng 500.000 ngƣời phải nhập viện,
trong đó có 2,5% ngƣời tử vong vì SXH.
Việt Nam nằm trong vành đai nhiệt đới với khí hậu thuận lợi cho sự phát
triển của các loài muỗi lây truyền sốt xuất huyết. Việt Nam có tỉ lệ mắc sốt xuất
huyết khá cao. Theo số liệu báo cáo của WHO về số ca mắc sốt xuất huyết
Dengue trung bình từ năm 2004-2010 của các quốc gia trên thế giới, Việt Nam
đứng thứ 3 với trung bình 91.321 ca mỗi năm [2].
Bình Dƣơng là một trong những tỉnh có số ca mắc SXHD cao nhất cả nƣớc.
Trong vòng 10 năm từ 2007 - 2016 đã có nhiều đợt dịch lớn xảy ra vào các năm
6
2008, 2012 và 2015, số ca mắc và tử vong cao nhất nhì khu vực phía Nam. Theo
số liệu báo cáo của TTYTDP tỉnh Bình Dƣơng, năm 2016, cả tỉnh có 3.928 ca
mắc SXHD, trong đó có 01 ca tử vong. Trong năm 2017, tính đến thời điểm cuối
tháng 7, Bình Dƣơng đã có 3.694 ca, có 01 ca tử vong.
Cũng nhƣ nhiều nơi lƣu hành bệnh sốt xuất huyết, hệ thống giám sát sốt
xuất huyết ở Việt Nam dựa vào báo cáo thụ động đƣợc chẩn đoán lâm sàng ở
bệnh nhân nhập viện. Kiểm soát véc-tơ là công cụ chính để dự phòng và kiểm
soát bệnh sốt xuất huyết. Chiến lƣợc này phải đối mặt với những hạn chế về tính
kịp thời trong phát hiện và ngăn chặn dịch, đòi hỏi cần có những biện pháp khác
để hỗ trợ kiểm soát bệnh tốt hơn.
Trong các yếu tố nguy cơ giúp truyền bệnh sốt xuất huyết thì thời tiết, khí
hậu là yếu tố đặc biệt quan trọng, gây ảnh hƣởng đến sự sinh sản và phát triển
của vec-tơ truyền bệnh, chẳng hạn nhƣ mƣa cung cấp môi trƣờng thuận lợi để
muỗi đẻ trứng, nhiệt độ cao sẽ làm giảm thời gian sinh trƣởng và phát triển của
muỗi…
Việc nghiên cứu dự báo sớm nguy cơ xảy ra dịch sốt xuất huyết là rất cần
thiết, giúp các nhà quản lý, chuyên môn chủ động trong công tác phòng chống
dịch một cách hiệu quả, giảm đƣợc nguồn lực phân bổ cũng nhƣ tránh đƣợc rủi
ro, thiệt hại lớn khi dịch xảy ra.
1.3 Tổn quan về p át iện tri t ức và k ai p á dữ liệu
Khai phá dữ liệu là một lĩnh vực trong khoa học máy tính, nó tƣơng đối
trẻ và liên ngành. KPDL là quá trình khai phá, trích xuất, khai thác và sử dụng
những dữ liệu có giá trị tiềm ẩn từ bên trong lƣợng lớn dữ liệu đƣợc lƣu trữ
trong các cơ sở dữ liệu (CSDL), kho dữ liệu, trung tâm dữ liệu… dựa trên kĩ
thuật nhƣ mạng nơ ron, lí thuyết tập thô, tập mờ, biểu diễn tri thức…
Các chuyên gia cho rằng, hiện nay chúng ta đang sống trong một xã hội
“rất giàu về thông tin nhƣng nghèo về tri thức”. Chính vì vậy đòi hỏi phải phát
7
triển các phƣơng pháp khai phá, phát hiện ra những thông tin, tri thức có ích bị
che lấp trong các “núi” dữ liệu phục vụ cho công việc của các nhà quản lý, các
chuyên gia, từ đó thúc đẩy khả năng sản xuất, kinh doanh, cạnh tranh của các tổ
chức, doanh nghiệp. Khai phá dữ liệu là một ngành học mới xuất hiện gần đây
nhằm đáp ứng nhu cầu này. Các kết quả nghiên cứu c ng với những ứng dụng
thành công trong khai phá dữ liệu, khám phá tri thức cho thấy khai phá dữ liệu là
một lĩnh vực khoa học tiềm năng, mang lại nhiều lợi ích, đồng thời có ƣu thế
hơn hẳn so với các công cụ phân tích dữ liệu truyền thống. Hiện nay các cơ sở
dữ liệu cần khai phá thƣờng có kích thƣớc rất lớn, đa dạng và ngày càng phức
tạp chẳng hạn các CSDL về thời tiết, CSDL dân cƣ các thành phố, CSDL đa
phƣơng tiện, CSDL y tế, CSDL văn bản, ...
Còn các nhà thống kê thì xem khai phá dữ liệu nhƣ là một qui trình phân
tích đƣợc thiết kế để thăm dò một lƣợng cực lớn các dữ liệu nhằm phát hiện ra
các mẫu thích hợp hoặc các mối quan hệ mang tính hệ thống giữa các biến và
sau đó sẽ hợp thức hoá các kết quả tìm đƣợc bằng cách áp dụng các mẫu đã phát
hiện đƣợc cho các tập con mới của dữ liệu.
Để khai thác nguồn thông tin có hiệu quả thì các phƣơng pháp quản trị và
khai thác cơ sở dữ liệu truyền thống đang ngày càng không đáp ứng nhu cầu. Vì
vậy việc nghiên cứu các k thuật khai thác, tổ chức khai thác dữ liệu để khám
phá tri thức là vấn đề quan trọng.
Quá trình KPDL bao gồm các giai đoạn cơ bản sau: Thu thập dữ liệu >Trích lọc dữ liệu (selection) -> chuyển đổi dữ liệu (Tranformation) -> phát
hiện và trích mẫu dữ liệu -> Đánh giá kết quả mẫu (Enaluvation of Result).
8
Hình 1: Quá trình KPDL, phát hiện tri thức
1.3.1 Các p ƣơn p áp k ai p á dữ liệu
KDD bao gồm hai yếu tố quan trọng không thể thiếu đƣợc là dự đoán
(Prediction) và mô tả (Description).
Dự đoán (Prediction): Đòi hỏi sử dụng một vài biến hoặc trƣờng để dự
đoán thông tin tiềm ẩn hoặc một giá trị tƣơng lai của một biến thuộc tính mà ta
quan tâm đến.
Mô tả (Description): Tập trung là nổi bật lên mô hình kết quả mà con
ngƣời có thể hiểu sâu về thông tin dữ liệu.
Với hai mục đích chính đã nêu ở trên, ngƣời ta thƣờng sử dụng các
phƣơng pháp sau cho khai phá dữ liệu:
- Phân lớp (Classification): Là việc học một hàm ánh xạ từ một mẫu dữ
liệu vào một trong số các lớp đã đƣợc xác định trƣớc đó.
- Hồi qui (Regression): Là việc học một hàm ánh xạ từ một mẫu dữ liệu
thành một biến dự đoán có giá trị thực.
9
- Phân nhóm (Clustering): Là việc mô tả chung để tìm ra các tập hay các
nhóm, loại mô tả dữ liệu. Các nhóm có thể tách rời nhau hoặc phân cấp.
- Tổng hợp (Summarization): Là công việc lên quan đến các phƣơng pháp
tìm kiếm một mô tả tập con dữ liệu, thƣờng áp dụng trong việc phân tích dữ liệu
có tính thăm dò và báo cáo tự động.
- Mô hình ràng buộc (Dependency modeling): Là việc tìm kiếm một mô
hình mô tả sự phụ thuộc giữa các biến, thuộc tính theo hai mức: phụ thuộc cục
bộ vào cấu trúc của mô hình, phụ thuộc vào thƣớc đo, ƣớc lƣợng của một định
lƣợng nào đó.
- Dò tìm biến đổi và độ lệch (Change and Deviation Dectection): Chú ý
vào những thay đổi quan trọng trong dữ liệu từ các giá trị chuẩn hoặc đã đƣợc
xác định trƣớc đó.
- Biểu diễn mô hình (Model Representation): Là việc dùng một ngôn ngữ
nào đó để mô tả các mẫu mô hình có thể khai phá đƣợc. Mô tả mô hình rõ ràng
thì học máy sẽ tạo ra mẫu có mô hình chính xác cho dữ liệu. Tuy nhiên, nếu mô
hình quá lớn thì khả năng dự đoán của học máy sẽ bị hạn chế. Nhƣ thế sẽ làm
cho việc tìm kiếm phức tạp hơn cũng nhƣ hiểu đƣợc mô hình là không đơn giản.
- Kiểm định mô hình (Model Evaluation): Là việc đánh giá, ƣớc lƣợng
các mô hình chi tiết, chuẩn trong quá trình xử lý và phát hiện tri thức với sự ƣớc
lƣợng có dự báo chính xác hay không và có thoả mãn cơ sở logic hay không?
Ƣớc lƣợng phải đƣợc đánh giá chéo (cross validation) với việc mô tả đặc điểm
bao gồm dự báo chính xác, tính mới lạ, tính hữu ích, tính hiểu đƣợc phù hợp với
các mô hình. Hai phƣơng pháp logic và thống kê chuẩn có thể sử dụng trong
mô hình kiểm định.
- Phƣơng pháp tìm kiếm (Search Method): Gồm có hai thành phần: (1) –
Trong bảng tham biến (phạm vi tìm kiếm tham số) thuật toán phải tìm kiếm các
tham số trong phạm vi các chuẩn của mô hình kiểm định rồi tối ƣu hoá và đƣa
ra tiêu chí (quan sát) dữ liệu và biểu diễn mô hình đã định. (2) – Mô hình tìm
kiếm, xuất hiện nhƣ một đƣờng vòng trên toàn bộ phƣơng pháp tìm kiếm, biểu
10
diễn mô hình phải thay đổi sao cho các hệ gia phả mô hình phải đƣợc thông
qua.
1.3.2 Mốt số ứng dụng của phát hiện tri thức, khai phá dữ liệu
Phát hiện tri thức và khai phá dữ liệu liên quan đến nhiều ngành, nhiều
lĩnh vực: thống kê, trí tuệ nhân tạo, cơ sở dữ liệu, thuật toán, tính toán song
song, thu thập tri thức cho các hệ chuyên gia, quan sát dữ liệu... Đặc biệt phát
hiện tri thức và khai phá dữ liệu rất gần gũi với lĩnh vực thống kê, sử dụng các
phƣơng pháp thống kê để mô hình dữ liệu và phát hiện các mẫu, luật... Ngân
hàng dữ liệu (Data Warehousing) và các công cụ phân tích trực tuyến (OLAP)
cũng liên quan rất chặt chẽ với phát hiện tri thức và khai phá dữ liệu.
Khai phá dữ liệu có nhiều ứng dụng trong thực tế. Một số ứng dụng điển
hình nhƣ:
- Bảo hiểm, tài chính và thị trƣờng chứng khoán: Phân tích tình hình tài
chính và dự báo giá của các loại cổ phiếu trong thị trƣờng chứng khoán. Danh
mục vốn và giá, lãi suất, dữ liệu thẻ tín dụng, phát hiện gian lận, ...
- Phân tích dữ liệu và hỗ trợ ra quyết định.
- Sản xuất và chế biến: Quy trình, phƣơng pháp chế biến và xử lý sự cố.
- Text mining và Web mining: Phân lớp văn bản và các trang Web, tóm
tắt văn bản.
- Lĩnh vực khoa học: Quan sát thiên văn, dữ liệu gene, dữ liệu sinh vật
học, tìm kiếm, so sánh các hệ gene và thông tin di truyền, mối liên hệ gene và
một số bệnh di truyền.
- Mạng viễn thông: Phân tích các cuộc gọi điện thoại và hệ thống giám
sát lỗi, sự cố, chất lƣợng dịch vụ, ...
11
- Xem thêm -