Tài liệu Khai phá dữ liệu có canh tác dữ liệu và ứng dụng trong khai phá dữ liệu y khoa

  • Số trang: 81 |
  • Loại file: PDF |
  • Lượt xem: 88 |
  • Lượt tải: 0
nhattuvisu

Đã đăng 27125 tài liệu

Mô tả:

LỜI CẢM ƠN Trước tiên tôi xin được gửi lời cảm ơn chân thành tới Ban Giám hiệu nhà trường, Phòng sau đại học, các thầy cô giáo trong khoa Công nghệ thông tin, trường đại học Lạc Hồng đã tạo điều kiện và môi trường học tốt nhất. Các Giáo sư – Tiến sĩ đã tâm quyết không ngại đường xá xa, đến để truyền đạt cho chúng tôi nguồn kiến thức vô cùng quý báu, cũng như cách học tập và nghiên cứu khoa học. Tôi xin chân thành cám ơn Ban Giám Đốc Bệnh viện Nhi Đồng – Đồng Nai, TS.BS Nguyễn Trọng Nơi Phó Giám Đốc, BS.CKI Nguyễn Quang Hinh Trưởng phòng Kế Hoạch Tổng Hợp, BS.CKI Nguyễn Văn Giai Trưởng khoa Nhiễm, THs.BS Chu Văn Thiện trưởng khoa Hối sức tích cực chống độc bệnh viện Nhi Đồng – Đồng Nai đã tư vấn và giúp đỡ tôi một cách chân thành trong quá trình thực hiện nghiên cứu khoa học. Đặc biệt, tôi xin gửi lời cảm ơn chân thành nhất tới Thầy giáo PGS. TS Đặng Trần Khánh. Thầy đã hướng dẫn và định hướng, giúp tôi hoàn thành tốt đề tài nghiên cứu khoa học này. Trong quá trình thực hiện luận văn, tôi đã nhận được sự giúp đỡ của các chuyên gia bác sĩ tại bệnh viện Nhi Đồng – Đồng Nai, của các bạn bè trong ngành Công nghệ thông tin, đặc biệt là sự nghiêm khắc giáo huấn của thầy Đặng Trần Khánh. Mặc dù rất cố gắng nhưng không thể tránh khỏi những thiếu sót trong lúc thực hiện, tôi rất mong đón nhận những đóng góp ý kiến từ bạn bè, thầy cô và các chuyên gia. Một lần nữa tôi rất chân thành cảm ơn tất cả mọi người đã giúp tôi hoàn thành nghiên cứu khoa học này. Tác giả Trương Minh Văn LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của bản thân, được xuất phát từ yêu cầu thực tế tại bệnh viện. Số liệu nghiên cứu có nguồn gốc rõ ràng, trung thực, được thu thập từ những hồ sơ bệnh án, đang lưu trữ tại kho lưu trữ hồ sơ bệnh án tại bệnh viện Nhi Đồng – Đồng Nai. Trong quá trình nghiên cứu, tôi được sự hỗ trợ của cấp lãnh đạo và dữ liệu thu thập trong quá trình nghiên cứu được thực hiện đúng theo quy chế của bệnh viện. Tác giả Trương Minh Văn MỤC LỤC TRANG PHỤ BÌA LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC CHỮ VIẾT TẮT DANH SÁCH BẢNG DANH SÁCH HÌNH VẼ LỜI MỞ ĐẦU .......................................................................................................... 1 CHƯƠNG I: CƠ SỞ LÝ THUYẾT VỀ KHAI PHÁ DỮ LIỆU ........................... 5 1.1 KHAI PHÁ DỮ LIỆU LÀ GÌ? ----------------------------------------------------- 5 1.1.1 Khái niệm về khám phá tri thức và khai phá dữ liệu-------------------------- 5 1.1.2 Một số định nghĩa về khai phá dữ liệu ------------------------------------------ 6 1.2 TẠI SAO PHẢI KHAI PHÁ DỮ LIỆU? ----------------------------------------- 8 1.2.1 Tại sao phải khai phá dữ liệu? --------------------------------------------------- 8 1.2.2 Khai phá dữ liệu được áp dụng trên loại dữ liệu nào? ---------------------- 10 1.2.3 Ứng dụng của khai phá dữ liệu ------------------------------------------------ 10 1.3 QUY TRÌNH VÀ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU ---------------- 11 1.3.1 Khai phá dữ liệu là một bước thiết yếu trong quy trình khám phá tri thức --------------------------------------------------------------------------------------- 11 1.3.2 Một số phương pháp khai phá dữ liệu ---------------------------------------- 13 1.4 CHỨC NĂNG CHÍNH CỦA KHAI PHÁ DỮ LIỆU ------------------------ 14 1.4.1 Mô tả (Descriptive) -------------------------------------------------------------- 14 1.4.2 Dự đoán (Predictive) ------------------------------------------------------------ 14 1.5 MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU THÔNG DỤNG ----------- 15 1.5.1 Phân lớp dữ liệu ------------------------------------------------------------------ 15 1.5.2 Phân cụm dữ liệu ---------------------------------------------------------------- 15 1.5.3 Khai phá luật kết hợp ------------------------------------------------------------ 15 1.5.4 Hồi quy ---------------------------------------------------------------------------- 15 1.5.5 Giải thuật di truyền -------------------------------------------------------------- 16 1.5.6 Mạng nơ-ron (neural network) ------------------------------------------------- 16 1.5.7 Cây quyết định ------------------------------------------------------------------- 16 1.6 MỘT SỐ THÁCH THỨC TRONG KHAI PHÁ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC ------------------------------------------------------------------------ 17 1.7 KẾT CHƯƠNG --------------------------------------------------------------------- 17 CHƯƠNG II : KHAI PHÁ DỮ LIỆU CÓ CANH TÁC DỮ LIỆU VÀ ỨNG DỤNG TRONG KHAI PHÁ DỮ LIỆU Y KHOA ............................................. 19 2.1 GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU CÓ CANH TÁC DỮ LIỆU ---- 19 2.1.1 Khái niệm ------------------------------------------------------------------------- 19 2.1.2 Mục đích và phương pháp luận của canh tác dữ liệu ----------------------- 20 2.1.3 Vai trò canh tác dữ liệu trong khám phá tri thức và khai phá dữ liệu ---- 21 2.1.4 So sánh khai phá dữ liệu thông thường và canh tác dữ liệu---------------- 25 2.1.5 Khả năng ứng dụng của canh tác dữ liệu trong khai phá dữ liệu. --------- 27 2.1.6 Quy trình canh tác dữ liệu ------------------------------------------------------ 28 2.1.7 Phương pháp canh tác dữ liệu đánh giá đặc tính ---------------------------- 30 2.1.7.1 Đặc tính chung của dữ liệu.......................................................... 30 2.1.7.2 Chọn lựa đặc tính và đánh giá đặc tính cho khai phá dữ liệu ....... 30 2.2 ỨNG DỤNG CANH TÁC DỮ LIỆU TRONG KHAI PHÁ DỮ LIỆU Y KHOA ------------------------------------------------------------------------------------- 31 2.2.1 Vai trò của diều dưỡng, bác sĩ trong canh tác dữ liệu y khoa ------------- 31 2.2.2 Tập dữ liệu y khoa --------------------------------------------------------------- 32 2.2.3 Phương pháp giải quyết --------------------------------------------------------- 32 2.2.3.1 Phương pháp giải quyết công việc 1 ............................................ 32 2.2.3.2 Phương pháp giải quyết công việc 2 ............................................ 33 2.2.3.3 Phương pháp giải quyết công việc 3 ............................................ 33 2.3 ỨNG DỤNG CANH TÁC DỮ LIỆU TRONG KHAI PHÁ DỮ LIỆU BỆNH SỐT XUẤT HUYẾT ---------------------------------------------------------- 33 2.3 .1 Tập thuộc tính ban đầu --------------------------------------------------------- 33 2.3 .1.1 Thông tin hành chính ................................................................. 33 2.3.1.2 Triệu chứng lâm sàng.................................................................. 34 2.3 .1.3 Cận lâm sàng ............................................................................. 34 2.3 .1.4 Tình trạng đến khám và nhập viện ............................................. 34 2.3.2 Phương pháp giải quyết --------------------------------------------------------- 34 2.3.2.1 Phương pháp giải quyết công việc 1 ............................................ 34 2.3.2.2 Phương pháp giải quyết công việc 2 ............................................ 35 2.3.2.3 Phương pháp giải quyết công việc 3 ............................................ 35 2.3.3 Tập thuộc tính sau khi canh tác dữ liệu --------------------------------------- 35 2.4 KẾT CHƯƠNG --------------------------------------------------------------------- 36 CHƯƠNGII: KỸ THUẬT KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH 37 3.1 CÂY QUYẾT ĐỊNH --------------------------------------------------------------- 37 3.1.1 Khái niệm ------------------------------------------------------------------------- 37 3.1.2 Biểu diễn cây quyết định ------------------------------------------------------- 38 3.1.3 Các bước chính xây dựng cây quyết định ------------------------------------ 39 3.1.4 Cây quyết định so với kỹ thuật khai phá khác ------------------------------- 40 3.1.4.1 Một số ưu điểm của cây quyết định ............................................. 40 3.1.4.2 Một số điểm yếu của cây quyết định ........................................... 42 3.2 MỘT SỐ THUẬT TOÁN KPDL BẰNG CÂY QUYẾT ĐỊNH ------------ 43 3.2.1 Thuật toán ID3 ------------------------------------------------------------------- 43 3.2.1.1 Lịch sử phát triển ........................................................................ 43 3.2.1.2 Mã giã giải thuật ID3 .................................................................. 44 3.2.1.4 Lựa chọn thuộc tính kiểm tra ...................................................... 44 3.2.1.5 Một vài ưu khuyết điểm của thuật toán ID3 ................................ 49 3.2.2 Thuật toán C4.5 ------------------------------------------------------------------ 49 3.2.2.1 Lịch sử phát triển ........................................................................ 49 3.2.2.2 Mã giã của thuật toán C4.5 ......................................................... 50 3.2.2.3 Một số cải tiến của thuật toán C4.5 ............................................. 52 3.2.3. Thuật toán SPRINT ------------------------------------------------------------- 54 3.2.3.1 Lịch sử phát triển ........................................................................ 54 3.2.3.2 Mã giã của thuật toán SPRINT.................................................... 55 3.2.3.3. SPRINT sử dụng Gini-index làm độ đo tìm điểm phân chia tập dữ liệu “tốt nhất” .................................................................................... 56 3.3 KẾT CHƯƠNG --------------------------------------------------------------------- 57 CHƯƠNG IV: XÂY DỰNG HỆ THỐNG CHƯƠNG TRÌNH VÀ THỰC NGHIỆM ............................................................................................................. 60 4.1 MỤC TIÊU -------------------------------------------------------------------------- 60 4.2 ĐỐI TƯỢNG VÀ PHẠM VI ----------------------------------------------------- 60 4.3 PHƯƠNG PHÁP GIẢI QUYẾT ------------------------------------------------- 60 4.4 QUY TRÌNH XÂY DỰNG HỆ THỐNG --------------------------------------- 60 4.4.1 Tìm hiểu nghiệp vụ của bài toán ----------------------------------------------- 60 4.4.2 Thu thập dữ liệu ------------------------------------------------------------------ 61 4.4.2.1 Nguyên tắc chọn lựa thuộc tính khai phá..................................... 61 4.4.2.2 Tiến hành thu thập dữ liệu........................................................... 61 4.4.2.3 Xử lý dữ liệu-chuyển đổi dữ liệu................................................. 62 4.4.3 Chọn lựa kỹ thuật khai phá ----------------------------------------------------- 63 4.4.4 Xây dựng chương trình --------------------------------------------------------- 63 4.4.4.1 Dữ liệu đầu vào........................................................................... 63 4.4.4.2 Mô tả dữ liệu đầu vào ................................................................. 63 4.4.4.3 Dữ liệu đầu ra ............................................................................. 64 4.4.4.4 Sử dụng thuật toán cho bài toán .................................................. 64 4.4.4.5 Ngôn ngữ phát triển và cơ sở dữ liệu sử dụng ............................. 64 4.5 THỰC NGHIỆM ------------------------------------------------------------------- 64 4.5.1 Dữ liệu và chương trình thực nghiệm ----------------------------------------- 64 4.5.1.1 Dữ liệu thực nghiệm ................................................................... 64 4.5.1.2 Hướng dẫn sử dụng hệ thống ...................................................... 65 4.6 KẾT QUẢ THỰC NGHIỆM ----------------------------------------------------- 67 4.7 NHẬN XÉT KẾT QUẢ THỰC NGHIỆM ------------------------------------- 67 CHƯƠNG V: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ..................................... 69 5.1 KẾT LUẬN -------------------------------------------------------------------------- 69 5.1.1 Kết quả đạt được ----------------------------------------------------------------- 69 5.1.1.1 Lý thuyết .................................................................................... 69 5.1.1.2 Thực nghiệm ............................................................................... 70 5.1.2 Kết quả chưa đạt được ---------------------------------------------------------- 70 5.2 HƯỚNG PHÁT TRIỂN ----------------------------------------------------------- 71 5.2.1 Lý thuyết -------------------------------------------------------------------------- 71 5.2.2 Thực hành ------------------------------------------------------------------------- 71 TÀI LIỆU THAM KHẢO PHỤ LỤC DANH MỤC CÁC CHỮ VIẾT TẮT CLS Cận lâm sàng. CSDL Cơ sở dữ liệu. CTDL Canh tác dữ liệu. DL Dữ liệu. DM Data Mining. HSBA Hồ sơ bệnh án. ICD10 Danh mục bệnh quốc tế KDD Knowledge Discovery in Databaes. KHTH Kế Hoạch Tổng Hợp. KPDL Khai phá dữ liệu. LS Lâm sàng. NSV Nhiễm siêu vi. NTV Nhà tư vấn. SXH Sốt xuất huyết . SXHD Sốt xuất huyết Dengue. SXHD-CB Sốt xuất huyết Dengue cảnh báo. SXHD-VS Sốt xuất huyết Dengue vào sốc. WHO Tổ chức Y tế thế giới. DANH SÁCH BẢNG Bảng 2.1 So sánh qui trình canh tác nông nghiệp và canh tác dữ liệu............ 19 Bảng 3.1 Tập dữ liệu huấn luyện cho khái niệm mục tiêu Play tennis .............. 45 Bảng 4.1 Bảng kết quả thực nghiệm của hệ thống............................................ 71 DANH SÁCH HÌNH VẼ Hình 1.1 Minh họa cho hình ảnh khai phá dữ liệu trong tập dữ liệu ................. 5 Hình 1.2 Quy trình khám phá tri thức từ cơ sở dữ liệu ...................................... 7 Hình 1.3 Chúng ta đang giàu dữ liệu nhưng nghèo tri thức .............................. 9 Hình 1.4 Biễu diễn chức năng chính của khai phá dữ liệu ........................ 14 Hình 2.1 Quá trình khám phá tri thức và khai phá dữ liệu ........................ 23 Hình 2.2 Canh tác dữ liệu tác động quy trình khám phá tri thức ............. 24 Hình 2.3 So sánh khai phá dữ liệu có và không có canh tác dữ liệu ................. 26 Hình 3.1 Biễu diễn cây quyết định cơ bản ................................................... 37 Hình 3.2 Cây quyết định cho việc chơi Tennis ......................................... 38 Hình 3.3 Tạo Node gốc Outlook .................................................................. 48 Hình 3.4 Thuộc tính kiểm tra cho con kế node gốc .................................. 48 Hình 4.1 Đơn xin mượn hồ sơ bệnh án nghiên cứu khoa học................... 62 Hình 4.2 Giao diện chính hệ thống chương trình.................................... 65 Hình 4.3 Màn hình hiển thị dữ liệu tập huấn .......................................... 65 Hình 4.4 Hiển thị cây quyết định dạng treeview ..................................... 66 Hình 4.5 Màn hành giao diện chẩn đoán ................................................... 66 1 LỜI MỞ ĐẦU 1/Tính cấp thiết của đề tài Tình hình bệnh sốt xuất huyết (SXH) trên thới giới Tỉ lệ mắc bệnh SXH trên toàn thế giới đang gia tăng mạnh mẽ trong những năm gần đây. Theo Tổ chức Y tế thế giới (WHO), trong vòng 10 năm gần đây, bệnh sốt SXH hay còn gọi sốt Dengue (SD)/ sốt xuất huyết Dengue (SXHD) trở nên trầm trọng, có trên 100 nước ở châu Phi, châu Mỹ, vùng Ðông Ðịa Trung Hải, các nước Ðông Nam á và Tây Thái Bình Dương đều báo cáo có bệnh này. Trong vòng 9 năm từ 1990 đến 1998, số trường hợp trung bình hằng năm mắc SD/SXHD khoảng 514.139.000 người. Đông Nam Á và Tây Thái Bình Dương là khu vực chịu ảnh hưởng nặng nề nhất. Do sự phát triển dân cư và đô thị hóa tạo điều kiện cho muỗi Aedes aegypti[pl3], dịch xuất hiện thường xuyên và tăng nhanh, đến nay, Sốt xuất huyết đã trở thành bệnh lưu hành. Trong đó, Malaysia, Singapore, Đài Loan, Thái Lan và Việt Nam có tỉ lệ tử vong trung bình khoảng 0,5%. Tình hình bệnh sốt xuất huyết tại Việt Nam Theo thống kê báo cáo của Bộ Y tế Việt Nam, tình hình bệnh sốt xuất huyết diễn ra phức tạp, tỉ lệ mắc bệnh và tử vong còn rất cao[pl3]. Trong 6 tháng đầu năm 2012 cả nước có 26.000 ca bị mắc bệnh SXH, số tử vong 30 ca trong đó TPHCM 6 ca, bệnh viện Nhi Đồng – Đồng Nai 7 ca.[báo cáo giao ban tại bệnh viện Nhi Đồng – Đồng Nai, tháng 7/2012] Bệnh SD/SXHD trở thành một bệnh dịch lưu hành ở nước ta. Bệnh không chỉ xuất hiện ở đô thị mà cả vùng nông thôn, nơi có muỗi vectơ truyền bệnh. Dịch lớn SD/SXHD bùng nổ theo chu kỳ khoảng 3-5 năm. Năm 1998, trên toàn quốc bùng nổ vụ dịch lớn, số mắc bệnh và tử vong cao (mắc: 234.920 người, tử vong 377[2]) [pl3] [pl3] Tham khảo phụ lục 3 Tham khảo phụ lục 3 2 Bệnh SXHD là bệnh truyền nhiễm gây dịch do virus Dengue gây nên. Virus Dengue có 4 týp huyết thanh là DEN -1, DEN -2, DEN -3, DEN -4. Virus truyền từ người bệnh sang người lành do muỗi đốt. Muỗi Aedes aegypti là côn trùng trung gian truyền bệnh chủ yếu. Đặc điểm của SXH D là sốt, xuất huyết và thoát huyết tương, có thể dẫn đến sốc giảm thể tích tuần hoàn và rối loạn đông máu, nếu không được chẩn đoán sớm và xử trí kịp thời dễ dẫn đến tử vong . Công việc chẩn đoán SXH tương đối dễ dàng nhờ phác đồ hướng dẫn của Tổ chức Y tế thế giới (WHO) năm 1997 và phát đồ điều trị bệnh SXH của Bộ Y tế Việt Nam [2], nhưng để dự đoán một bệnh nhân sốt xuất huyết Dengue vào sốc (SXHD-VS) thì còn nhiều khó khăn trong thực tế lâm sàng. Do đó vẫn còn bệnh nhân tử vong cao, cũng như chi phí điều trị cao cho những bệnh nhân vào sốc, đây là bài toán nan giải cho Y tế cộng đồng nói chung và tại bệnh viện Nhi Đồng – Đồng Nai nói riêng. 2/Tính thực tiễn của đề tài Y học là môn khoa học không ngừng phát triển. Tiếp cận và cập nhật hóa thông tin y học chứng cớ[pl1] và y học thực chứng[pl2] từ những cơ sở dữ liệu, để nâng cao chất lượng chăm sóc sức khỏe cho nhân dân là điều không thể thiếu trong thực hành lâm sàng. Với sự phát triển mạnh mẽ của ngành Công Nghệ Thông Tin (CNTT), một trong những ngành mũi nhọn của nhiều quốc gia trên thới giới. Sự phát triển vượt bậc đó là kết quả tất yếu của việc ứng dụng của nó trong nhiều lĩnh vực khác nhau trong cuộc sống như: Giáo dục, Y tế, Kinh tế, Khoa học, Xây dựng nó đã trở thành một phần không thể thiếu được trong cuộc sống hàng ngày của con người. Trong kỷ nguyên bùng nổ thông tin, việc áp dụng các phương pháp tìm kiếm thông tin từ những nguồn dữ liệu khác nhau là nhu cầu thiết thực cho toàn xã hội. Trong các phương [pl1] [pl2] Tham khảo phụ lục 1 Tham khảo phụ lục 2 3 pháp tìm kiếm thông tin đó, khai phá dữ liệu để tìm ra tri thức, phục vụ đời sống xã hội là một phương pháp mới, đang được các nhà nghiên cứu khoa học quan tâm. Tuy nhiên, khai phá dữ liệu trong lĩnh vực y khoa ở nước ta quả thật còn rất ít, gặp nhiều khó khăn, do hiện nay nhiều bệnh viện ở nước ta chưa có bệnh án điện tử. Việc khai phá trong lĩnh vực này thực sự mang lại nhiều ý nghĩa cho y học chứng cớ và y học thực chứng, để hỗ trợ cho các bác sĩ, chẩn đoán bệnh sớm và điều trị bệnh có hiệu quả, giảm bớt tử vong cũng như chi phí điều trị, đây là một nhu cầu thiết thực trong các bệnh viện. Xuất phát từ những thực tế trên, tác giả đã chọn đề tài “Khai phá dữ liệu có canh tác dữ liệu và ứng dụng trong khai phá dữ liệu y khoa” để nghiên cứu cho luận văn thạc sĩ của mình. 3/Mục đích và ý nghĩa nghiên cứu - Giới thiệu về phương pháp khai phá dữ liệu có sử dụng tri thức chuyên gia (lĩnh vực có liên quan) trong quá trình chọn lựa thuộc tính nhằm các mục đích sau: - Giảm bớt thuộc tính nhiễu, dư thừa trong khai phá dữ liệu. - Giảm bớt thời gian và chi phí khai phá dữ liệu, giúp các thuật toán khai phá dữ liệu chạy nhanh và chính xác hơn, từ đó các luật sinh ra trong quá trình khai phá cũng tốt hơn. Giá trị chẩn đoán từ các luật cũng có độ tin cậy cao hơn. - Sử dụng kỹ thuật khai phá dữ liệu bằng cây quyết định với thuật toán C4.5, tạo ra các luật, thông qua kiểm nghiệm thực tiễn, hỗ trợ bác sĩ chẩn đoán và điều trị bệnh. Với mục đích đặt ra cho đề tài nêu trên, việc nghiên cứu thực sự có ý nghĩa rất to lớn cho nền y học, tạo ra các y học chứng cớ và y học thực chứng, cải cách chẩn đoán, tạo công cụ hỗ trợ đắc lực trong quá trình chẩn đoán bệnh (trong luận văn này nghiên cứu hỗ trợ chẩn đoán bệnh SXH), nhằm giảm thiểu tử vong và giảm chi phí điều trị cho bệnh nhân. 4 Kỳ vọng của đề tài là giải pháp hỗ trợ, mong được áp dụng tại bệnh viện Nhi Đồng – Đồng Nai, cũng như những bệnh viện tuyến huyện, thiếu chuyên gia bác sĩ giỏi, nhằm hướng cải cách chẩn đoán và điều trị bệnh nhân, cụ thể là bệnh SXHD 4/Đối tượng và phạm vi nghiên cứu Gồm các hồ sơ bệnh án lưu trữ bằng giấy, thuộc đối tượng trẻ em từ 0 tuổi đến 15 tuổi, được chẩn đoán SXH theo tiêu chuẩn WHO 1997 và Bộ Y Tế Việt Nam[2], đã nhập viện và điều trị tại bệnh viện Nhi Đồng – Đồng Nai từ năm 2009 đến năm 2012. 5/Phương pháp nghiên cứu - Phương pháp nghiên cứu hồi cứu [5] - Sử dụng kiến thức khai phá dữ liệu cộng với tri thức chuyên gia bác sĩ, y học chứng cớ và y học thực chứng trong quá trình khai phá dữ liệu y khoa. - Sử dụng kỹ thuật khai phá dữ liệu bằng cây quyết định với thuật toán C4.5. 6/Kết cấu luận văn Luận văn gồm 5 chương: Ngoài phần mở đầu, tham khảo, phụ lục. - Chương I: Cơ sở lý thuyết về khai phá dữ liệu. - Chương II : Khai phá dữ liệu có canh tác dữ liệu và ứng dụng trong khai phá dữ liệu y khoa. - Chương III: Kỹ thuật khai phá dữ liệu bằng cây quyết định. - Chương IV: Xây dựng hệ thống chương trình hỗ trợ chẩn đoán bệnh SXH và thực nghiệm. - Chương V: Kết luận và hướng phát triển. 5 Chương I CƠ SỞ LÝ THUYẾT VỀ KHAI PHÁ DỮ LIỆU 1.1 KHAI PHÁ DỮ LIỆU LÀ GÌ? 1.1.1 Khái niệm về khám phá tri thức và khai phá dữ liệu Khám phá tri thức trong các cơ sở dữ liệu (Knowledge Discovery in Database-KDD) là một qui trình nhận biết các mẫu hoặc các mô hình trong dữ liệu với các tính năng: hợp thức, mới, khả ích, và có thể hiểu được. Khai phá dữ liệu (Data Mining-DM) [6] là một khái niệm ra đời vào những năm cuối của thập kỷ 1980. Cụm từ “khai phá dữ liệu” nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá trị tiềm ẩn trong các tập dữ liệu lớn. Thuật ngữ này thực sự là một cái tên nhầm lẫn. Hãy nhớ rằng việc khai thác vàng từ đá hoặc cát được gọi là khai thác vàng chứ không phải là khai thác đá, cát. Như vậy, khai phá dữ liệu (KPDL) nên được đặt tên thích hợp hơn là “khai thác kiến thức từ dữ liệu”.Tuy nhiên, “khai phá dữ liệu” vẫn được dùng cách phổ biến. Hình 1.1 minh họa đơn giản và trực quan cho khái niệm này. Hình 1-1: Minh họa cho hình ảnh khai phá dữ liệu trong tập dữ liệu 6 Khái niệm KDD và KPDL được các nhà khoa học xem là tương đương nhau. Tuy nhưng, nếu phân chia một cách rành mạch và chi tiết thì KPDL là một bước chính trong quá trình KDD. Khám phá tri thức trong CSDL là lĩnh vực liên quan đến nhiều ngành như: Tổ chức dữ liệu, xác suất, thống kê, lý thuyết thông tin, học máy, CSDL, thuật toán, trí tuệ nhân tạo, tính toán song song và hiệu năng cao. Các kỹ thuật chính áp dụng trong khám phá tri thức phần lớn được thừa kế từ các ngành này. 1.1.2 Một số định nghĩa về khai phá dữ liệu Sau đây là một số định nghĩa khác nhau về KPDL: Định nghĩa của Giáo sư Tom Mitchell: “Khai phá dữ liệu là việc sử dụng dữ liệu lịch sử để khám phá những qui tắc và cải thiện những quyết định trong tương lai.” Định nghĩa của Ferruzza: “Khai phá dữ liệu là tập hợp các phương pháp được dùng trong tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối quan hệ và các mẫu chưa biết bên trong dữ liệu” Định nghĩa của Parsaye: “Khai phá dữ liệu là quá trình trợ giúp quyết định, trong đó chúng ta tìm kiếm các mẫu thông tin chưa biết và bất ngờ trong CSDL lớn” Với một cách tiếp cận ứng dụng hơn, tiến sĩ Fayyad đã phát biểu:”Khai phá dữ liệu thường được xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một quá trình trích xuất những thông tin ẩn, trước đây chưa biết và có khả năng hữu ích, dưới dạng các quy luật, ràng buộc, qui tắc trong cơ sở dữ liệu.” Còn các nhà Thống kê thì xem "Khai phá dữ liệu như là một quá trình phân tích được thiết kế thăm dò một lượng cực lớn các dữ liệu nhằm phát hiện ra các mẫu thích hợp và/ hoặc các mối quan hệ mang tính hệ thống giữa các biến và sau đó sẽ hợp thức hoá các kết quả tìm được bằng cách áp dụng các mẫu đã phát hiện được cho tập con mới của dữ liệu". 7 Tuy nhiên trên thực tế, KPDL được xem là một bước thiết yếu trong quá trình khám phá tri thức trong CSDL bao gồm các thụât toán KPDL chuyên dùng, dưới một số quy định về hiệu quả tính toán chấp nhận được, để tìm ra các mẫu hoặc các mô hình trong dữ liệu. Quá trình này được mô tả trong hình 1.2 và bao gồm một chuỗi lặp đi lặp lại các bước sau [6]: • Làm sạch dữ liệu (loại bỏ dữ liệu nhiễu và dữ liệu không phù hợp). • Tích hợp dữ liệu (nơi nhiều nguồn dữ liệu có thể được kết hợp). • Lựa chọn dữ liệu (nơi mà các dữ liệu liên quan đến công việc phân tích được lấy từ cơ sở dữ liệu). • Chuyển đổi dữ liệu (nơi dữ liệu được chuyển đổi, hợp nhất thành các hình thức thích hợp để khai thác bằng cách thực hiện các hoạt động tóm tắt hoặc tập hợp). • Khai phá dữ liệu (một quá trình cần thiết mà các phương pháp thông minh được áp dụng để trích xuất mẫu dữ liệu). • Đánh giá mẫu (xác định các mô hình thực sự quan tâm đại diện cho kiến thức dựa trên một vài đo lường lưu tâm). • Biểu diễn tri thức (nơi kỹ thuật biểu diễn tri thức và sự hình dung được sử dụng để trình bày các tri thức được khai thác đến người dùng). Hình 1.2 Quy trình khám phá tri thức từ cơ sở dữ liệu 8 1.2 TẠI SAO PHẢI KHAI PHÁ DỮ LIỆU? 1.2.1 Tại sao phải khai phá dữ liệu? Trong thời đại ngày nay, việc nắm bắt được thông tin được coi là chìa khóa của thành công. Ai thu thập, phân tích và hiểu được thông tin và hành động được nhờ vào những thông tin đó là kẻ thắng cuộc. Chính vì vậy, việc tạo ra thông tin và mức tiêu thụ thông tin ngày nay ngày càng gia tăng. Cùng với sự phát triển vượt bậc của CNTT và việc ứng dụng CNTT trong nhiều lĩnh vực khác nhau trong nhiều năm qua cũng đồng hành với lượng dữ liệu lưu trữ ngày một nhiều lên. Những dữ liệu này thường ẩn chứa những giá trị nhất định nào đó. Tuy nhiên, Trong thực tế thì chỉ có một ít dữ liệu là được phân tích (cụ thể là hồ sơ bệnh án trong các bệnh viện), số còn lại họ không biết sẽ phải làm gì, nhưng họ vẫn tiếp tục thu thập rất tốn kém, với ý nghĩ lo sợ rằng sẽ có cái gì đó quan trọng đã bị bỏ qua sau này có lúc cần đến (có thể chứng minh quan trọng trong tương lai). Tuy nhiên, thực tế đã chứng minh, dữ liệu (DL) là một thứ gì đó vô giá chỉ có con người chưa khám phá ra hết những giá trị của nó. Sau đây là một số chuyên gia nhận định về giá trị DL lưu trữ như sau:  Jim Gray, chuyên gia của Microsoft, giải thưởng Turing 1998 “Chúng ta đang ngập trong dữ liệu khoa học, dữ liệu y tế, dữ liệu nhân khẩu học, dữ liệu tài chính, và các dữ liệu tiếp thị. Con người không có đủ thời gian để xem xét dữ liệu như vậy. Sự chú ý của con người đã trở thành nguồn tài nguyên quý giá. Vì vậy, chúng ta phải tìm cách tự động phân tích dữ liệu, tự động phân loại nó, tự động tóm tắt nó, tự động phát hiện và mô tả các xu hướng trong nó, và tự động chỉ dẫn các dị thường. Đây là một trong những lĩnh vực năng động và thú vị nhất của cộng đồng nghiên cứu cơ sở dữ liệu. Các nhà nghiên cứu trong lĩnh vực bao gồm thống kê, trực quan hóa, trí tuệ nhân tạo, và học máy đang đóng góp cho lĩnh 9 vực này. Bề rộng của lĩnh vực làm cho nó trở nên khó khăn để nắm bắt những tiến bộ phi thường trong vài thập kỷ gần đây”.  Kenneth Cukier: “Thông tin từ khan hiếm tới dư dật. Điều đó mang lại lợi ích mới to lớn… tạo nên khả năng làm được nhiều việc mà trước đây không thể thực hiện được: nhận ra các xu hướng kinh doanh, ngăn ngừa bệnh tật, chống tội phạm … Được quản lý tốt, dữ liệu như vậy có thể được sử dụng để mở khóa các nguồn mới có giá trị kinh tế, cung cấp những hiểu biết mới vào khoa học và tạo ra lợi ích từ quản lý”. Chính vì vậy, đúng như John Naisbett nhận định, hiện nay chúng ta đang sống trong một xã hội “rất giàu về thông tin nhưng nghèo về tri thức”. Lượng DL khổng lồ này thực sự là một nguồn “tài nguyên” rất giá trị bởi thông tin là yếu tố then chốt để phục vụ cho mọi nhu cầu thiết thực trong hoạt động hàng ngày của chúng ta. Vậy chúng ta làm gì với một khối DL này. Hình 1.3 thể hiện sự băng khoăn đó. Hình 1.3. Chúng ta đang giàu dữ liệu nhưng nghèo tri thức [6] “Necessity is the mother of invention” - Data Mining ra đời như một hướng giải quyết hữu hiệu cho câu hỏi vừa đặt ra ở trên. Khá nhiều định nghĩa về Data Mining đã được trình bày ở trên. Data Mining được xem như là một 10 công nghệ tri thức, giúp khai thác những thông tin hữu ích từ những kho DL, được tích trữ trong suốt quá trình hoạt động của một công ty, tổ chức nào đó. 1.2.2 Khai phá dữ liệu được áp dụng trên loại dữ liệu nào? Khai phá dữ liệu được áp dụng trên nhiều loại DL khác nhau. Về nguyên tắc, KPDL được áp dụng đối với bất kỳ loại DL lưu trữ nào, cũng như các DL tạm thời[6]. Do đó, phạm vi DL của chúng ta sẽ bao gồm các CSDL quan hệ(Relational Databases), kho dữ liệu (DataWarehouses), CSDL giao dịch(Transactional Databases), hệ thống CSDL nâng cao(Advanced Data and Information Systems), DL dòng (Stream data), World Wide Web … Hệ thống CSDL nâng cao bao gồm các đối tượng CSDL quan hệ và CSDL có tính định hướng theo ứng dụng cụ thể, chẳng hạn như CSDL đa truyền thông, CSDL đa chiều, CSDL chuỗi thời gian, CSDL văn bản... Những thách thức và kỹ thuật KPDL có thể khác nhau cho mỗi hệ thống lưu trữ. 1.2.3 Ứng dụng của khai phá dữ liệu KPDL được vận dụng để giải quyết các vấn đề thuộc nhiều lĩnh vực khác nhau. Chẳng hạn như giải quyết các bài toán phức tạp trong các ngành đòi hỏi kỹ thuật cao như : Tìm kiếm mỏ dầu, từ ảnh viễn thám, cảnh báo hỏng hóc trong các hệ thống sản xuất; Được ứng dụng cho việc quy hoạch và phát triển các hệ thống quản lý và sản xuất trong thực tế như: Dự đoán tái sử dụng điện, mức độ tiêu thụ sản phẩm, phân nhóm khách hàng; Áp dụng cho các vấn đề xã hội như: Phát hiện tội phạm, tăng cường an ninh, trong y khoa chẩn đoán bệnh… Một số ứng dụng cụ thể như sau: - KPDL được sử dụng để phân tích DL, hỗ trợ ra quyết định. - Trong sinh học: nó dùng để tìm kiếm , so sánh các hệ gen và thông tin di chuyền, tìm mối liên hệ giữa các hệ gen và chẩn đoán một số bệnh di chuyền - Trong y học: KPDL giúp tìm ra mối liên hệ giữa các triệu chứng lâm sàng, chẩn đoán bệnh.
- Xem thêm -