Đăng ký Đăng nhập
Trang chủ Khai thác tập mục hữu ích cao trên cơ sở dữ liệu tăng trưởng...

Tài liệu Khai thác tập mục hữu ích cao trên cơ sở dữ liệu tăng trưởng

.PDF
87
265
126

Mô tả:

CHUẨN Y CỦA HỘI ĐỒNG BẢO VỆ LUẬN VĂN --o0o-- Luận văn tựa đề “KHAI THÁC TẬP MỤC HỮU ÍCH CAO TRÊN CƠ SỞ DỮ LIỆU TĂNG TRƯỞNG” được Võ Thiện Khoa thực hiện và nộp nhằm thỏa một trong các yêu cầu tốt nghiệp Thạc sĩ ngành Khoa Học Máy Tính. Ngày bảo vệ luận văn, TPHCM, ngày 05 tháng 12 năm 2015 Chủ tịch Hội đồng GS.TSKH. Hoàng Văn Kiếm Đại học Quốc tế Hồng Bàng Ngày tháng năm 20 Hiệu Trưởng PGS.TS. Thái Bá Cần Ngày tháng năm 20 Người hướng dẫn PGS.TS. Võ Đình Bảy Đại học Công Nghệ - TpHCM Ngày tháng năm 20 Viện Đào Tạo Sau Đại Học GS. TSKH. Hoàng Văn Kiếm Ngày tháng năm 20 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC QUỐC TẾ HỒNG BÀNG Luận văn thạc sĩ: Khai thác tập mục hữu ích cao trên cơ sở dữ liệu tăng trưởng Do học viên: Võ Thiện Khoa - Cao học khóa: 1 – Đợt 2 - Ngành: Khoa học máy tính thực hiện. Người hướng dẫn: PGS. TS. Võ Đình Bảy. Đã bảo vệ trước Hội đồng, ngày: 05/12/2015 theo Quyết định số ……., / ngày / của Hiệu trưởng ĐH Quốc Tế Hồng Bàng. Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: TT Họ và tên Chức danh Hội đồng 1 GS.TSKH. Hoàng Văn Kiếm Chủ tịch 2 PGS.TS. Trần Công Hùng Phản biện 1 3 PGS.TS. Lê Hoàng Thái Phản biện 2 4 TS. Nguyễn Hòa Ủy viên 5 TS. Lê Xuân Trường Ủy viên, Thư ký Chủ tịch Hội đồng đánh giá Luận văn GS.TSKH. Hoàng Văn Kiếm LÝ LỊCH CÁ NHÂN  1. SƠ LƯỢC LÝ LỊCH - Họ tên : Võ Thiện Khoa. - Ngày sinh : 16/10/1983. - Nơi sinh : Thành Phố Hồ Chí Minh. - Tốt nghiệp THPT : Trường THPH Bà Điểm, xã Bà Điểm, huyện Hóc Môn, TP.HCM. 2. QUÁ TRÌNH HỌC TẬP Thời gian Nơi học tâp 2001 - 2003 Học tại trường Trung cấp Giao Thông Vận Tải khu vực 3. 2004 - 2006 Học tại trường Cao đẳng Công Nghiệp 4. 2007 - 2009 Học tại trường Đại học Kỹ Thuật Công Nghệ. 3. QUÁ TRÌNH CÔNG TÁC Thời gian Nơi công tác 2009 - 2010 Làm việc tại Công ty phát triển phần mềm Khoa Việt. 2011 - nay Làm việc tại Bệnh viện Chợ Rẫy. - Địa chỉ liên lạc: 8/5D tổ 4 ấp Bắc Lân, xã Bà Điểm, huyện Hóc Môn, TP. HCM. - Email: [email protected]. - Điện thoại di động: 0908.650.611. i LỜI CAM ĐOAN  Tôi cam đoan rằng luận văn “Khai thác tập mục hữu ích cao trên cơ sở dữ liệu tăng trưởng” là bài nghiên cứu của chính tôi. Ngoại trừ những tài liệu tham khảo được trích dẫn trong luận văn này, tôi cam đoan rằng phần còn lại của luận văn này chưa từng được công bố hay được sử dụng để nhận bằng cấp ở những nơi khác. Không có sản phẩm hay nghiên cứu nào của người khác được sử dụng trong luận văn này mà không được trích dẫn theo đúng quy định. TP. HCM, ngày tháng năm 2015 Tác giả luận văn Võ Thiện Khoa ii LỜI CẢM ƠN  Lời đầu tôi xin chân thành cảm ơn TS. Võ Đình Bảy đã tận tình truyền đạt và hướng dẫn tôi trong suốt thời gian thực hiện luận văn này. Thầy luôn tận tâm giúp đỡ, định hướng cho tôi trong suốt thời gian nghiên cứu khoa học. Thầy đã giúp tôi tiếp cận với khoa học và biết cách sáng tạo trong khoa học, với những điều mới trong xã hội và đạt được thành công trong bài nghiên cứu của mình. Tiếp theo tôi xin bày tỏ lòng biết ơn đến Ban Giam hiệu, quí thầy cô trong Viện đào tạo Sau Đại học trường Đại học Quốc tế Hồng Bàng đã cung cấp những kiến thức quý báu cho tôi trong suốt quá trình học tập và nghiên cứu tại trường. Cuối cùng, chân thành gởi lời cảm ơn đến gia đình, bạn bè và những người thân luôn quan tâm và giúp đỡ tôi trong suốt thời gian học tập và nghiên cứu hoàn thành luận văn này. Vì thời gian có hạn và kiến thức còn hạn chế, nên luận văn khó tránh khỏi những thiếu sót, rất mong nhận được sự đóng góp ý kiến quý báu của quý thầy cô, anh chị và các bạn. iii TÓM TẮT  Khai thác dữ liệu là quá trình khám phá thông tin tìm ẩn và các mối liên hệ lẫn nhau có trong các cơ sở dữ liệu lớn. Khai thác dữ liệu truyền thống là thường dạng tĩnh và xử lý dữ liệu được thực hiện hàng loạt. Nhưng trên thực tế, cơ sở dữ liệu thường xuyên biến động do đó cách này không hiệu quả gây lãng phí khi một lượng nhỏ dữ liệu được thêm vào cơ sở dữ liệu lớn. Do đó, Hong và các đồng sự [11] đã đề xuất ra khái niệm tập gần phổ biến để khai thác tập phổ biến trên cơ sở dữ liệu tăng trưởng. Tác giả đã xử dụng hai ngưỡng phổ biến đó là: ngưỡng phổ biến trên (tương đương với ngưỡng phổ biến tối thiểu, minSup) và ngưỡng phổ biến dưới để giảm số lần duyệt lại cơ sở dữ liệu gốc. Thuật toán Pre-HUI là thuật toán khai thác tập mục hữu ích cáo trên cơ sở dữ liệu tăng trưởng được đề xuất vào năm 2014 [7]. Luận văn đề xuất thuật toán khai thác tập mục hữu ích cao trên cơ sở dữ liệu trưởng dựa trên cấu trúc cây WIT (Weighted Itemset-Tidset tree) bằng cách tỉa những ứng viên có độ hữu ích thấp và cải tiến bước sinh tập ứng viên trước khi sử dụng phương pháp khai thác dữ liệu được đề xuất. Do đó, thuật toán mới này sẽ cải thiện tốt hơn về thời gian và bộ nhớ sử dụng trong quá trình khai thác tập mục hữu ích cao. iv ABSTRACT  Data mining is the process of discovering hidden information and mutual relationships in large databases. Traditional data mining is often static and data is processed in batch mode. But in reality, the database is constantly fluctuating so this approach is inefficient when a small amount of data is added to the database. Therefore, Hong and colleagues [11] have proposed the concept of “Pre-large” to discover nearly frequent itemsets in incremental databases. The authors have used two bounds: upper bound utility and lower bound utility to reduce the number of scans on the original database. Pre-HUI is an algorithm for mining high itemset utility in incremental databases [7]. Thesis proposes a new algorithm for mining high itemset utility in incremental databases based on the WIT tree (Weighted itemset-Tidset tree) by pruning the low utility candidates. Therefore, this new algorithm will improve the time and memory used in the process of mining high itemset utility. v NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN -o0o............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. vi NHẬN XÉT CỦA GIẢNG VIÊN PHẢN BIỆN 1 -o0o............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. vii NHẬN XÉT CỦA GIẢNG VIÊN PHẢN BIỆN 2 -o0o............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. viii NHẬN XÉT CỦA HỘI ĐỒNG PHẢN BIỆN -o0o............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ............................................................................................................................................. ix MỤC LỤC LÝ LỊCH CÁ NHÂN ................................................................................................ i LỜI CAM ĐOAN ..................................................................................................... ii LỜI CẢM ƠN .......................................................................................................... iii TÓM TẮT ................................................................................................................ iv ABSTRACT ...............................................................................................................v MỤC LỤC ..................................................................................................................x DANH MỤC HÌNH VẼ ......................................................................................... xii DANH MỤC BẢNG .............................................................................................. xiii DANH MỤC CÁC CHỮ VIẾT TẮT.....................................................................xv CHƯƠNG 1: TỔNG QUAN.....................................................................................1 1.1 Lý do chọn đề tài, lĩnh vực nghiên cứu .............................................................1 1.2 Vấn đề nghiên cứu của đề tài ............................................................................2 1.3 Mục tiêu nghiên cứu ..........................................................................................2 1.4 Những nội dung chính yếu cần nghiên cứu ......................................................2 1.5 Cấu trúc luận văn ..............................................................................................2 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT ........................................................................4 2.1 Tổng quan về khai thác dữ liệu .........................................................................4 2.1.1 Khám phá tri thức và khai thác dữ liệu. ....................................................4 2.1.2 Quá trình khám phá tri thức.......................................................................4 2.1.3 Các kỹ thuật khai thác dữ liệu ...................................................................7 2.1.4 Ứng dụng trong khai thác dữ liệu ..............................................................7 2.1.5 Những thách thức trong khai thác dữ liệu .................................................8 2.2 Tổng quan về khai thác luật kết hợp .................................................................8 2.3 Giới thiệu về khai thác tập mục hữu ích cao ...................................................12 2.4 Khai thác tập mục hữu ích cao trên cơ sở dữ liệu tăng trưởng .......................21 2.4.1 Tổng quan.................................................................................................21 x 2.4.2 Một số định nghĩa của bài toán ...............................................................24 2.4.3 Nội dung thuật toán Pre-HUI ..................................................................27 2.4.4 Minh họa thuật toán .................................................................................32 CHƯƠNG 3: THUẬT TOÁN CẢI TIẾN .............................................................39 3.1 Ưu và khuyến điểm của thuật toán Pre-HUI ...................................................39 3.2 Thuật toán cải tiến dựa trên cấu trúc cây WIT ................................................39 3.2.1 Nội dung thuật toán ..................................................................................39 3.2.2 Minh họa thuật toán .................................................................................44 3.2.3 Những điểm mới của thuật toán cải tiến ..................................................51 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ .................................................52 4.1 Môi trường thực nghiệm .................................................................................52 4.2 Giới thiệu cơ sở dữ liệu thực nghiệm ..............................................................52 4.2.1 Tổng quan về CSDL thực nghiệm ............................................................52 4.2.2 So sánh thời gian chạy thực nghiệm ........................................................53 4.3 Thực nghiệm trên CSDL chuẩn ......................................................................56 4.3.1 Thực nghiệm trên CSDL Retail ................................................................56 4.3.2 Thực nghiệm trên CSDL BMS-POS .........................................................59 4.4 Kết quả thực nghiệm .......................................................................................63 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .....................................64 5.1 Kết luận ...........................................................................................................64 5.2 Hạn chế của đề tài ...........................................................................................64 5.3 Hướng phát triển .............................................................................................65 DANH MỤC TÀI LIỆU THAM KHẢO ...............................................................66 1. Tài liệu tiếng việt ..............................................................................................66 2. Tài liệu tiếng anh ...............................................................................................66 xi DANH MỤC HÌNH VẼ Hình 2.1: Qui trình khám phái tri thức. ........................................................................... 5 Hình 2.2: Xây dựng cây WIT-Tree. .............................................................................. 19 Hình 2.3: Thuật toán TWU-Mining. ............................................................................. 20 Hình 2.4: Kết quả thuật toán TWU-Mining. ................................................................. 21 Hình 2.5: Thuật toán Pre-HUI. ...................................................................................... 29 Hình 3.1: Thuật toán cải tiến. ........................................................................................ 42 Hình 3.2: Biểu diễn cây H_PTWU trên CSDL D. ........................................................ 45 Hình 3.3: Biểu diễn cây H_PTWU khi xóa itemset A .................................................. 47 Hình 3.4: Biểu diễn cây H_PTWU khi cập nhật itemset B ........................................... 47 Hình 3.5: Biểu diễn cây H_PTWU đã cập nhật các 1-itemset ...................................... 48 Hình 3.6: Biểu diễn cây H_PTWU khi xét nút B có 2-itemset . ................................... 49 Hình 3.7: Biểu diễn cây H_PTWU khi xét nút B có 3-itemset từ 2-itemset. ................ 49 Hình 3.8: Biểu diễn cây H_PTWU khi đã hoàn tất thêm giao dịch mới. ...................... 50 Hình 4.1: Thực nghiệm CSDL bán thuốc khi thêm 2.000 giao dịch cho mỗi lần. ........ 53 Hình 4.2: Thực nghiệm CSDL bán thuốc khi thêm 4000 giao dịch cho mỗi lần. ......... 54 Hình 4.3: Thực nghiệm CSDL bán thuốc khi thêm 5.000 giao dịch cho mỗi lần. ....... 55 Hình 4.4: Thực nghiệm CSDL Retail khi thêm 1.000 giao dịch cho mỗi lần. .............. 57 Hình 4.5: Thực nghiệm CSDL Retail khi thêm 2.000 giao dịch cho mỗi lần. .............. 58 Hình 4.6: Thực nghiệm CSDL Retail khi thêm 3.000 giao dịch cho mỗi lần. .............. 59 Hình 4.7: Thực nghiệm CSDL BMS-POS khi thêm 10.000 giao dịch cho mỗi lần. .... 60 Hình 4.8: Thực nghiệm CSDL BMS-POS khi thêm 20.000 giao dịch cho mỗi lần. .... 61 Hình 4.9: Thực nghiệm CSDL BMS-POS khi thêm 30.000 giao dịch cho mỗi lần. .... 62 xii DANH MỤC BẢNG Bảng 2.1: Bảng biểu diễn CSDL giao dịch .................................................................. 13 Bảng 2.2: Bảng lợi nhuận của các item trong CSDL ................................................... 14 Bảng 2.3: Bảng độ hữu ích các giao dịch trong CSDL ................................................ 15 Bảng 2.4: Two-Phase với 1-itemset ............................................................................. 17 Bảng 2.5: Two-Phase với 2-itemset ............................................................................. 17 Bảng 2.6: Two-Phase với 3-itemset ............................................................................. 17 Bảng 2.7: Two-Phase với các itemset có độ hữu ích cao. ............................................ 18 Bảng 2.8: WIT-Tree với từng item đơn........................................................................ 19 Bảng 2.9: Ví dụ 2 giao dịch .......................................................................................... 22 Bảng 2.10: Ví dụ về bảng lợi nhuận ............................................................................. 22 Bảng 2.11: Bảng lợi nhuận ........................................................................................... 24 Bảng 2.12: CSDL ban đầu ............................................................................................ 25 Bảng 2.13: CSDL thêm vào.......................................................................................... 25 Bảng 2.14: Bảng tập itemset có trọng số giao dịch lớn và lợi ích thật sự .................... 32 Bảng 2.15: Bảng tập itemset có trọng số giao dịch gần lớn và lợi ích thật sự ............. 32 Bảng 2.16: Bảng các độ hữu ích của các giao dịch mới ............................................... 33 Bảng 2.17: Bảng twu và au của 1-itemset trong giao dịch mới ................................... 34 Bảng 2.18: Bảng cập nhật 1-itemset trong tập 𝐻𝑇𝑊𝑈1𝐷 .......................................... 34 Bảng 2.19: Bảng cập nhật 1-itemset trong tập 𝐻𝑇𝑊𝑈1𝐷 .......................................... 35 Bảng 2.20: Bảng twu Large và Pre-large 1-itemset với au của chúng ......................... 36 Bảng 2.21: Bảng kết quả cuối cùng thuật toán Pre-HUI .............................................. 37 Bảng 2.22: Bảng tập hữu ích cao trong thuật toán Pre-HUI ........................................ 37 Bảng 3.1: Bảng twu và au của các 1-itemset trong giao dịch mới ............................... 46 xiii Bảng 3.2: Bảng các itemset có độ hữu ích cao trong thuật toán cải tiến ...................... 50 Bảng 4.1: Thời gian thực nghiệm trên CSDL bán thuốc với mỗi lần thêm là 2.000 giao dịch ........................................................................................................................ 53 Bảng 4.2: Thời gian thực nghiệm trên CSDL bán thuốc với mỗi lần thêm là 4.000 giao dịch. ....................................................................................................................... 54 Bảng 4.3: Thời gian thực nghiệm trên CSDL bán thuốc với mỗi lần thêm là 5.000 giao dịch. ....................................................................................................................... 55 Bảng 4.4: Các CSDL thực nghiệm chuẩn .................................................................... 56 Bảng 4.5: Thời gian thực nghiệm trên CSDL Retail với mỗi lần thêm là 1.000 giao dịch. ............................................................................................................................... 56 Bảng 4.6: Thời gian thực nghiệm trên CSDL Retail với mỗi lần thêm là 2.000 giao dịch ................................................................................................................................ 57 Bảng 4.7: Thời gian thực nghiệm trên CSDL Retail với mỗi lần thêm là 2.000 giao dịch. ............................................................................................................................... 58 Bảng 4.8: Thời gian thực nghiệm trên CSDL BMS-POS với mỗi lần thêm là 10.000 giao dịch ............................................................................................................ 60 Bảng 4.9: Thời gian thực nghiệm trên CSDL BMS-POS với mỗi lần thêm là 20.000 giao dịch ............................................................................................................ 61 Bảng 4.10: Thời gian thực nghiệm trên CSDL BMS-POS với mỗi lần thêm là 30.000 giao dịch ............................................................................................................ 62 xiv DANH MỤC CÁC CHỮ VIẾT TẮT Ký hiệu Ý nghĩa tiếng Việt Ý nghĩa tiếng Anh AU Độ hữu ích thực sự Actual utility CSDL Cơ sở dữ liệu Data base H_PTWU Tập các tập mục có trọng Large (high) and Pre-large số độ hữu ích lớn và tiền transaction-weighted utilization lớn của giao dịch HTWU Tập các tập mục có trọng Large (high) số độ hữu ích lớn của giao transaction-weighted dịch utilization HU Tập các tập mục có độ High-utility itemset hữu ích cao Itemset Tập mục KDD Khám phá tri thức trong Knowledge Discovery in cơ sở dữ liệu Databases KTDL Khai thác dữ liệu Pre-HUI Thuật toán Pre-HUI PTWU Tập các tập mục có trọng Pre-large số độ hữu ích tiền lớn của transaction-weighted utilization giao dịch SL Ngưỡng độ hữu ích dưới The lower utility threshold SU Ngưỡng độ hữu ích trên The upper utility threshold TID Mã giao dịch Transaction identification TU Độ hữu ích của giao dịch Transaction utility TWU Trọng số độ hữu ích của Transaction-weighted giao dịch utilization WIT-Tree Cây WIT Itemset Data Mining Weighted Itemset-Tidset tree xv CHƯƠNG 1: TỔNG QUAN 1.1 Lý do chọn đề tài, lĩnh vực nghiên cứu Trong những năm gần đây, cùng với sự phát triển vượt bậc của công nghệ thông tin, truyền thông, khả năng thu thập và lưu trữ thông tin của các hệ thống thông tin không ngừng được nâng cao. Với lượng dữ liệu khổng lồ và luôn gia tăng theo thời gian, rõ ràng các phương pháp phân tích dữ liệu truyền thống sẽ không còn hiệu quả, gây tốn kém và dễ dẫn đến những kết quả sai lệch. Để có thể khai thác hiệu quả các cơ sở dữ liệu lớn, một lĩnh vực khoa học mới đã ra đời: Khám phá tri thức trong cơ sở dữ liệu (Knowledge Discovery in Databases – KDD). Khai thác dữ liệu (Data Mining) là một công đoạn chính trong quá trình khám phá tri thức, nhằm tìm kiếm, phát hiện các tri thức mới, hữu ích tiềm ẩn trong các cơ sở dữ liệu lớn. Việc khai thác tập phổ biến thường được mô tả là một quá trình lấy thông tin có giá trị từ cơ sở dữ liệu lớn, nó bắt nguồn từ dạng mẫu có sẵn tồn tại trong cơ sở dữ liệu, các mẫu này có khuynh hướng gom nhóm lại với nhau và được định nghĩa như là một mô hình khai thác. Khai thác tập mục hữu ích cao (high-utility itemset) là một mở rộng của bài toán khai thác tập mục phổ biến, đã được nhiều tác giả quan tâm với mục đích đánh giá ý nghĩa của các tập mục trong khai thác luật kết hợp. Để khai thác tập mục hữu ích cao, một giá trị được sử dụng đó là lợi ích của itemset, chẳng hạn tổng lợi nhuận mà doanh nghiệp thu được nếu bán itemset ấy trong tập giao dịch. Khác với khai thác itemset phổ biến, lợi ích của itemset không thỏa tính chất bao đóng giảm (downward closure property) nên độ phức tạp của bài toán cao. Ngoài ra, CSDL thường biến động, các giao dịch thường xuyên được cập nhật chẳng hạn được thêm mới thường xuyên. Việc cập nhật lại các itemset kết quả khi cơ sở dữ liệu thay đổi cũng là một trong những nhu cầu cấp thiết. Chính vì vậy tôi chọn đề tài “Khai thác tập mục hữu ích cao trên cơ sở dữ liệu tăng trưởng” nhằm góp phần rút ngắn thời gian cũng như việc sử dụng bộ nhớ trong quá trình khai thác. Trang 1 1.2 Vấn đề nghiên cứu của đề tài  Làm thế nào để khai thác tập mục trên CSDL lớn và thường xuyên thay đổi?  Có cách nào để cập nhật lại tập mục khi dữ liệu thay đổi?  Làm thế nào để giảm số lần duyệt lại CSDL gốc trong quá trình khai thác dữ liệu?  Bài toán có thể áp dụng trong khai thác dữ liệu bán thuốc tại bệnh viện ở Thành phố Hồ Chí Minh hay không? 1.3 Mục tiêu nghiên cứu Nghiên cứu bài toán khai thác tập phổ biến trên cơ sở dữ liệu tăng trưởng. Nghiên cứu thuật toán Pre-HUI trong việc khai thác tập mục hữu ích cao. Phát triển thuật toán mới cho khai thác tập mục hữu ích cao trên cơ sở dữ liệu tăng trưởng. Áp dụng vào thực tế với CSDL bán thuốc của bệnh viện. 1.4 Những nội dung chính yếu cần nghiên cứu - Tìm hiểu về những xu hướng hiện nay trong khai thác dữ liệu. - Tìm hiểu một số kỹ thuật và thuật toán đang được sử dụng trong khai thác dữ liệu. - Các thuật toán khai thác tập hữu ích cao (high utility itemset – HUI). - Nghiên cứu bài toán khai thác tập mục hữu ích cao trên CSDL tăng trưởng. - Nghiên cứu và đề xuất thuật toán cải tiến nhằm nâng cao hiệu quả về mặt thời gian khai thác. - Thực nghiệm trên các cơ sở dữ liệu chuẩn để minh chứng tính hiệu quả của thuật toán cải tiến. 1.5 Cấu trúc luận văn Luận văn tổ chức thành 5 chương có nội dung như sau: - Chương 1: Giới thiệu tổng quan tới bối cảnh thực tiễn định hình hướng nghiên cứu của luận văn. Trang 2 - Chương 2: Trình bày tổng quan về khai thác dữ liệu (KTDL), khai thác luật kết hợp và phương pháp khai thác tập phổ biến. Giới thiệu về khai thác tập mục hữu cao và thuật toán. Nghiên cứu bài toán khai thác tập mục hữu ích cao từ cơ sở dữ liệu tăng trưởng và thuật toán Pre-HUI. - Chương 3: Nghiên cứu mặt hạn chế của thuật toán Pre-HUI. Nghiên cứu và đề xuất thuật toán cải tiến nhằm nâng cao hiệu quả về mặt thời gian khai thác dựa trên cấu trúc cây WIT(Weighted Itemset-Tidset tree). - Chương 4: Giới thiệu môi trường thực nghiệm, CSDL dùng để thực nghiệm. So sánh về thời gian thực hiện giữa Pre-HUI và thuật toán đề xuất. - Chương 5: Kết luận và hướng phát triển. Trang 3
- Xem thêm -

Tài liệu liên quan