Đăng ký Đăng nhập
Trang chủ Phát hiện luật kết hợp và luật chuỗi mờ trong cơ sở dữ liệu định lượng có yếu tố...

Tài liệu Phát hiện luật kết hợp và luật chuỗi mờ trong cơ sở dữ liệu định lượng có yếu tố thời gian

.PDF
146
1
125

Mô tả:

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ ----------------------------- TRƢƠNG ĐỨC PHƢƠNG PHÁT HIỆN LUẬT KẾT HỢP VÀ LUẬT CHUỖI MỜ TRONG CƠ SỞ DỮ LIỆU ĐỊNH LƢỢNG CÓ YẾU TỐ THỜI GIAN LUẬN ÁN TIẾN SĨ MÁY TÍNH HÀ NỘI – 2021 VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ ……..….***………… TRƢƠNG ĐỨC PHƢƠNG PHÁT HIỆN LUẬT KẾT HỢP VÀ LUẬT CHUỖI MỜ TRONG CƠ SỞ DỮ LIỆU ĐỊNH LƯỢNG CÓ YẾU TỐ THỜI GIAN LUẬN ÁN TIẾN SĨ MÁY TÍNH Chuyên ngành : Hệ thống thông tin Mã số: 9 48 01 04 Ngƣời hƣớng dẫn khoa học: 1. PGS.TS. Đỗ Văn Thành 2. PGS.TS. Nguyễn Đức Dũng Hà Nội – 2021 i LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các kết quả được viết chung với các tác giả khác đều được sự đồng ý của các đồng tác giả trước khi đưa vào luận án. Các kết quả nêu trong luận án là trung thực và chưa từng được công bố trong các công trình nào khác. Luận án được hoàn thành trong thời gian tôi làm Nghiên cứu sinh tại Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam. Tác giả luận án NCS. Trƣơng Đức Phƣơng ii LỜI CẢM ƠN Luận án Tiến sỹ “Phát hiện luật kết hợp và luật chuỗi mờ trong cơ sở dữ liệu định lượng có yếu tố thời gian” được thực hiện dưới sự hướng dẫn khoa học của PGS.TS. Đỗ Văn Thành và PGS.TS. Nguyễn Đức Dũng. Trước tiên tôi xin được bày tỏ lòng biết ơn sâu sắc tới các thầy hướng dẫn PGS. TS. Đỗ Văn Thành và PGS.TS. Nguyễn Đức Dũng. Trong quá trình thực hiện luận án, nghiên cứu sinh đã nhận được nhiều định hướng khoa học, những bài học quý báu, sự hướng dẫn nhiệt tình từ các thầy hướng dẫn. Các thầy cũng đã luôn tận tâm động viên, khuyến khích và chỉ dẫn giúp đỡ nghiên cứu sinh hoàn thành được bản luận án này. Tôi xin chân thành cảm ơn các thầy cô Học viện Khoa học và Công nghệ đã tạo điều kiện thuận lợi cho tôi trong suốt quá trình nghiên cứu và thực hiện luận án. Tôi xin cảm ơn Ban Giám hiệu, tập thể cán bộ, giảng viên khoa Khoa học Tự nhiên và Công nghệ, trường Đại học Thủ đô Hà Nội đã tạo điều kiện giúp đỡ tôi trong suốt thời gian học tập và nghiên cứu. Nhân dịp này, tôi cũng xin bày tỏ lòng biết ơn sâu sắc tới gia đình và bạn bè đã cho tôi điểm tựa vững chắc, tạo động lực để tôi hoàn thành luận án này. Tác giả NCS. Trương Đức Phương 1 MỤC LỤC DANH MỤC HÌNH VẼ .................................................................................. 4 DANH MỤC BẢNG BIỂU ............................................................................. 6 DANH MỤC CÁC TỪ VIẾT TẮT ................................................................ 8 MỞ ĐẦU .......................................................................................................... 9 CHƯƠNG 1. TỔNG QUAN VỀ LUẬT KẾT HỢP VÀ MẪU CHUỖI, LUẬT CHUỖI CHUNG ................................................................................. 18 1.1. Luật kết hợp ........................................................................................ 18 1.1.1. Phát hiện luật kết hợp trong các CSDL giao dịch .............................. 18 1.1.2. Phát hiện luật kết hợp trong các CSDL định lượng ........................... 21 1.1.3. Phát hiện luật kết hợp tính đến khoảng cách thời gian xảy ra của các giao dịch trong các CSDL có yếu tố thời gian ................................................ 23 1.2. Mẫu chuỗi ........................................................................................... 25 1.2.1. Phát hiện mẫu chuỗi trong các CSDL chuỗi giao dịch ...................... 25 1.2.2. Phát hiện mẫu chuỗi trong các CSDL chuỗi định lượng.................... 29 1.2.3. Phát hiện mẫu chuỗi tính đến khoảng cách thời gian xảy ra của các giao dịch trong các CSDL chuỗi có yếu tố thời gian ..................................... 31 1.3. Luật chuỗi chung ................................................................................ 34 1.3.1. Khái niệm luật chuỗi chung................................................................ 34 1.3.2. Phát hiện luật chuỗi chung ................................................................. 34 Kết luận Chương 1 .......................................................................................... 38 CHƯƠNG 2. PHÁT HIỆN LUẬT KẾT HỢP CÓ TÍNH ĐẾN KHOẢNG CÁCH THỜI GIAN TRONG CÁC CSDL ĐỊNH LƯỢNG CÓ YẾU TỐ THỜI GIAN ............................................................................................... 42 2.1. Giới thiệu ............................................................................................ 42 2.2. Một số khái niệm cơ bản .................................................................... 44 2.3. Thuật toán phát hiện luật kết hợp mờ với khoảng cách thời gian mờ 52 2.3.1. Bài toán đặt ra ..................................................................................... 52 2.3.2. Ý tưởng thuật toán .............................................................................. 53 2.3.3. Thuật toán FTQ .................................................................................. 54 2.3.4. Tính đúng đắn và tính đầy đủ của thuật toán ..................................... 58 2.3.5. Độ phức tạp thuật toán........................................................................ 60 2 2.3.6. Trường hợp suy biến của luật kết hợp mờ với khoảng cách thời gian mờ ............................................................................................................ 62 2.4. Thử nghiệm thuật toán........................................................................ 63 2.4.1. Dữ liệu thử nghiệm ............................................................................. 63 2.4.2. Kết quả thử nghiệm ............................................................................ 66 Kết luận Chương 2 .......................................................................................... 72 CHƯƠNG 3. PHÁT HIỆN MẪU CHUỖI CÓ TÍNH ĐẾN KHOẢNG CÁCH THỜI GIAN TRONG CÁC CSDL CHUỖI ĐỊNH LƯỢNG CÓ YẾU TỐ THỜI GIAN .............................................................................................. 74 3.1. Giới thiệu ............................................................................................ 74 3.2. Một số khái niệm cơ bản .................................................................... 76 3.3. Thuật toán phát hiện mẫu chuỗi mờ với khoảng cách thời gian mờ .. 84 3.3.1. Bài toán đặt ra ..................................................................................... 84 3.3.2. Ý tưởng thuật toán .............................................................................. 84 3.3.3. Thuật toán FSPFTIM.......................................................................... 85 3.3.4. Tính đúng đắn và tính đầy đủ của thuật toán ..................................... 88 3.3.5. Độ phức tạp thuật toán........................................................................ 90 3.3.6. Trường hợp suy biến của mẫu chuỗi mờ với khoảng cách thời gian mờ ............................................................................................................ 91 3.3.7. Minh họa thuật toán ............................................................................ 92 3.4. Thử nghiệm thuật toán........................................................................ 93 3.4.1. Dữ liệu thử nghiệm ............................................................................. 93 3.4.2. Kết quả thử nghiệm ............................................................................ 95 Kết luận Chương 3 ........................................................................................ 100 CHƯƠNG 4. PHÁT HIỆN LUẬT CHUỖI CHUNG CÓ TÍNH ĐẾN KHOẢNG CÁCH THỜI GIAN TRONG CÁC CSDL CHUỖI ĐỊNH LƯỢNG CÓ YẾU TỐ THỜI GIAN. ............................................................ 101 4.1. Giới thiệu .......................................................................................... 101 4.2. Một số khái niệm cơ bản .................................................................. 103 4.3. mờ Thuật toán phát hiện luật chuỗi chung mờ với khoảng cách thời gian .......................................................................................................... 108 4.3.1. Bài toán đặt ra ................................................................................... 108 4.3.2. Thuật toán IFERMiner ..................................................................... 108 4.3.3. Tính đúng đắn và đầy đủ .................................................................. 112 3 4.3.4. Độ phức tạp của thuật toán IFERMiner ........................................... 114 4.3.5. Trường hợp suy biến của luật chuỗi chung mờ với khoảng cách thời gian mờ .......................................................................................................... 120 4.4. Thử nghiệm thuật toán...................................................................... 121 4.4.1. Dữ liệu thử nghiệm ........................................................................... 121 4.4.2. Kết quả thử nghiệm .......................................................................... 123 Kết luận Chương 4 ........................................................................................ 129 KẾT LUẬN VÀ KIẾN NGHỊ ...................................................................... 130 DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ .............................................. 132 TÀI LIỆU THAM KHẢO ............................................................................. 133 4 DANH MỤC HÌNH VẼ Hình 1.1. Các vấn đề liên quan đến nghiên cứu của luận án .......................... 41 Hình 2.1. Các hàm thành viên của các tập mờ ứng với tỉ lệ tăng/giảm của các mã chứng khoán .............................................................................................. 65 Hình 2.2. Các hàm thành viên của các tập mờ của Tỉ lệ thay đổi chỉ số VN30 ......................................................................................................................... 65 Hình 2.3. Các hàm thành viên của các tập mờ thời gian ................................ 65 Hình 2.4. Mối quan hệ giữa số lượng luật tìm được từ thuật toán FTQ và độ tin cậy cực tiểu min_conf trong các trường hợp khác nhau về độ hỗ trợ cực tiểu min_sup .................................................................................................... 66 Hình 2.5. Mối quan hệ giữa số lượng luật tìm được và min_sup với min_conf khác nhau......................................................................................................... 67 Hình 2.6. Chi phí thời gian thực hiện khi min_conf=70% ............................. 67 Hình 2.7. So sánh số luật của phương pháp mờ hóa (A) và phương pháp chia khoảng (B) đối với khoảng cách thời gian khi thực hiện thuật toán FTQ ...... 68 Hình 2.8. So sánh thời gian chạy của phương pháp mờ hóa (A) và phương pháp chia khoảng (B) đối với khoảng cách thời gian khi thực hiện thuật toán FTQ ................................................................................................................. 68 Hình 3.1. Các hàm thành viên của các tập mờ thuộc LT ................................ 81 Hình 3.2. Mối quan hệ giữa số lượng mẫu chuỗi mờ với khoảng cách thời gian mờ với min_sup (a) và giữa thời gian chạy của thuật toán với min_sup (b) trong trường hợp số phân hoạch thuộc tính định lượng khác nhau khi thực hiện trên tập dữ liệu S100I1000T3D341K. ..................................................... 95 Hình 3.3. Mối quan hệ giữa số lượng mẫu chuỗi mờ với khoảng cách thời gian mờ với min_sup (a) và giữa thời gian chạy của thuật toán với min_sup (b) trong trường hợp số phân hoạch thuộc tính định lượng khác nhau khi thực hiện trên tập dữ liệu Online Retail_France ..................................................... 96 5 Hình 3.4. Mối quan hệ giữa số lượng mẫu chuỗi mờ với khoảng cách thời gian mờ với min_sup (a) và giữa thời gian chạy của thuật toán với min_sup (b) trong trường hợp số phân hoạch khoảng cách thời gian (Kt) khác nhau đối với tập dữ liệu S100I1000T3D341K............................................................... 97 Hình 3.5. Mối quan hệ giữa số lượng mẫu chuỗi mờ với khoảng cách thời gian mờ với min_sup (a) và giữa thời gian chạy của thuật toán với min_sup (b) trong trường hợp số phân hoạch khoảng cách thời gian (Kt) khác nhau đối với tập dữ liệu Online Retail_France .............................................................. 97 Hình 3.6. So sánh số mẫu chuỗi của phương pháp mờ hóa (A) và phương pháp chia khoảng (B) đối với khoảng cách thời gian khi thực hiện thuật toán FSPFTIM......................................................................................................... 98 Hình 3.7. So sánh thời gian chạy của phương pháp mờ hóa (A) và phương pháp chia khoảng (B) đối với khoảng cách thời gian khi thực hiện thuật toán FSPFTIM......................................................................................................... 98 Hình 4.1. Mối quan hệ giữa số lượng các luật FCSI valid với min_sup và min_conf........................................................................................................ 124 Hình 4.2. Mối quan hệ giữa thời gian thực hiện thuật toán với min_sup và min_conf........................................................................................................ 125 Hình 4.3. So sánh số luật của phương pháp mờ hóa (A) và phương pháp chia khoảng (B) đối với khoảng cách thời gian khi thực hiện thuật toán IFERMiner ....................................................................................................................... 126 Hình 4.4. So sánh thời gian chạy của phương pháp mờ hóa (A) và phương pháp chia khoảng (B) đối với khoảng cách thời gian khi thực hiện thuật toán IFERMiner .................................................................................................... 127 6 DANH MỤC BẢNG BIỂU Bảng 1.1. Ví dụ về CSDL giao dịch ............................................................... 18 Bảng 1.2. Ví dụ về CSDL định lượng ............................................................. 22 Bảng 1.3. Ví dụ về CSDL giao dịch mua hàng có yếu tố thời gian................ 24 Bảng 1.4. Một số nghiên cứu về phát hiện luật kết hợp có tính đến khoảng cách thời gian .................................................................................................. 24 Bảng 1.5. Ví dụ về CSDL chuỗi giao dịch ..................................................... 25 Bảng 1.6. Ví dụ CSDL chuỗi định lượng........................................................ 29 Bảng 1.7. Ví dụ CSDL chuỗi giao dịch có yếu tố thời gian ........................... 31 Bảng 1.8. Một số nghiên cứu về phát hiện mẫu chuỗi có tính đến khoảng cách thời gian ........................................................................................................... 32 Bảng 1.9. Một số nghiên cứu về phát hiện luật chuỗi chung .......................... 34 Bảng 2.1. Ví dụ về CSDL định lượng có yếu tố thời gian.............................. 44 Bảng 2.2. CSDL mờ có yếu tố thời gian DF .................................................. 46 Bảng 2.3. Dữ liệu thử nghiệm ISTANBUL STOCK EXCHANGE ............... 63 Bảng 2.4. Kết quả thử nghiệm thuật toán FTQ với min_sup=7% và min_con=70% ................................................................................................. 69 Bảng 2.5. Ý nghĩa các luật thu được đối với CSDL VNINDEX .................... 70 Bảng 3.1. Ví dụ về CSDL chuỗi định lượng có yếu tố thời gian QSD .......... 77 Bảng 3.2. CSDL chuỗi mờ có yếu tố thời gian FSD ...................................... 78 Bảng 3.3. Dữ liệu thử nghiệm S100I1000T3D341K và Online Retail_France ......................................................................................................................... 94 Bảng 3.4. Các mẫu chuỗi mờ với khoảng cách thời gian mờ tìm được từ Online Retail_France ...................................................................................... 99 Bảng 4.1. Dữ liệu thử nghiệm thuật toán IFERMiner .................................. 122 7 Bảng 4.2. Các luật FCSI valid có độ hỗ trợ cao nhất tương ứng với min_sup = 3% và min_conf = 75% ............................................................................. 128 8 Từ viết tắt DANH MỤC CÁC TỪ VIẾT TẮT Nội dung GSP IQSP FSPFTI BFS Nghiên cứu sinh Cơ sở dữ liệu Fuzzy Inter-Transaction Asociation Rules Mining Fuzzy Time-Interval in Time Series Fuzzy Time-interval in temporal Quantitative database algorithm Fuzzy Sequential Patterns with Fuzzy Time-Intervals Mining Fuzzy Grids Based Sequential Patterns Mining Algorithm Fuzzy Quantitative Sequential Pattern with Multiple Minimum Supports Generalized Sequential Pattern Incremental mining of Quantitative Sequential Pattern Fuzzy Sequential Patterns with Fixed Time-Intervals Breadth First Search DFS FCSI TAS Depth First Search Fuzzy Common Sequence with time – Interval Temporally-Annotated Sequences NCS CSDL FITARM FTITS FTQ FSPFTIM FGBSPMA FQSP-MMS 9 MỞ ĐẦU 1. Tính cấp thiết của luận án và động lực nghiên cứu Phát hiện luật kết hợp và mẫu chuỗi, luật chuỗi nằm trong số những vấn đề quan trọng trong lĩnh vực khai phá dữ liệu. Đến nay, rất nhiều công trình nghiên cứu liên quan đến các lĩnh vực này. Các luật kết hợp và mẫu chuỗi, luật chuỗi được đề xuất là rất đa dạng, chúng có thể là các luật, mẫu chuỗi giao dịch/định lượng; có trọng số/không trọng số; có yếu tố thời gian/không có yếu tố thời gian;.v.v.. Vấn đề phát hiện luật kết hợp trong các CSDL giao địch được đề xuất lần đầu vào năm 1993 [1] và đến nay đã có nhiều thuật toán được xây dựng theo rất nhiều cách tiếp cận khác nhau để phát hiện các luật này trong các CSDL giao dịch: APRIORI [2], PARTITION [3], A-CLOSE [4], A-CLOSE+ [5], CLOSE [6], CLOSET [7], CLOSET+ [8], CHARM [9], MAFIA [10], GENMAX [11], ECLAT [12], DIC [13], FP-GROWTH [14], CFPMINE [15], ETARM [16], LRM [17], PARM [18], NEGFIN [19]. Tuy nhiên các CSDL trong thực tế thường có các thuộc tính nhận giá trị số hoặc giá trị phân loại. Những CSDL như vậy được gọi là CSDL định lượng. Việc phát hiện các luật kết hợp trong CSDL định lượng thường sử dụng một trong 2 cách đó là: rời rạc hóa [20]–[23] và mờ hóa các thuộc tính định lượng [24]–[29]. Bản chất của cách tiếp cận thứ nhất là đưa CSDL định lượng về CSDL giao dịch bằng cách chuyển các thuộc tính định lượng thành một số mục (item) tương ứng và sau đó áp dụng một trong các thuật toán phát hiện các luật kết hợp trong các CSDL giao dịch đã biết. Ví dụ: xét thuộc tính Tuổi, nếu chia độ tuổi thành 3 loại: “Trẻ” (dưới 30 tuổi), “Trung niên” (30 đến 59 tuổi), “Già” (từ 60 tuổi) thì người ở độ tuổi 15 tương ứng với “Trẻ”, tuổi 59 tương ứng với “Trung niên” trong CSDL giao dịch. Cách tiếp cận này có nhược điểm là không tự nhiên, gây ra hiện tượng “sắc nét” tại giáp ranh những điểm chia các thuộc tính định lượng. Cách tiếp cận thứ hai nhằm khắc 10 phục nhược điểm của cách tiếp cận thứ nhất, nhưng khi đó các thuật toán phát hiện các luật kết hợp trong các CSDL cần được cải tiến và phát triển tiếp. CSDL có yếu tố thời gian (temporal database) là CSDL có lưu trữ thông tin về thời điểm xảy ra của các giao dịch [30] [31]. Năm 1998, Lu và các cộng sự [32] đã đề xuất luật kết hợp có tính đến độ chênh lệch về thời điểm (gọi là khoảng cách thời gian) xảy ra giữa các giao dịch trong các CSDL giao dịch có yếu tố thời gian, luật có dạng → với a, b là các tập mục dữ liệu. Trong [32], hai thuật toán E-Apriori và EH-Apriori được đề xuất để phát hiện các luật dạng này. Về ý tưởng chính, hai thuật toán E-Apriori, EH-Apriori dựa trên ý tưởng thuật toán Apriori và sử dụng cửa sổ trượt đối với khoảng cách thời gian. Để phát hiện các luật kết hợp có tính đến khoảng cách thời gian trong các CSDL giao dịch có yếu tố thời gian, nhiều thuật toán tiếp tục được đề xuất như: FITI [33], ITARM [34], ITP-Miner [35], IAR Miner [36], CITPMiner [37], NCITPS-MINER [38]. Việc phát hiện luật kết hợp có tính đến khoảng cách thời gian mới chỉ dừng lại đối với CSDL giao dịch có yếu tố thời gian mà chưa được thực hiện đối với các CSDL định lượng có yếu tố thời gian. Đây là khoảng trống nghiên cứu mà luận án mong muốn giải quyết. Luật chuỗi, mẫu chuỗi như được hiểu từ trước đến nay còn được gọi là luật chuỗi, mẫu chuỗi cổ điển để phân biệt với một loại luật chuỗi, mẫu chuỗi mới được đề xuất trong những năm gần đây. Các mẫu chuỗi cổ điển (được gọi ngắn gọn là mẫu chuỗi) là các chuỗi cổ điển (nói gọn là chuỗi) phổ biến trong các CSDL chuỗi giao dịch. Các mẫu chuỗi này biểu diễn mối quan hệ có trình tự thời gian xảy ra giữa các giao dịch trong chuỗi. Phát hiện mẫu chuỗi trong các CSDL chuỗi giao dịch được giới thiệu lần đầu năm 1995 [39] và đến nay đã nhận được rất nhiều sự quan tâm. Hiện đã có nhiều thuật toán phát hiện các mẫu chuỗi trong các CSDL chuỗi giao dịch như GSP [40], SPIRIT [41], SPADE [42], SPAM [43], FAST [44], CM-SPADE [45], MAXSP [46], GENMINER [47], FREESPAN [48], PREFIXSPAN [49], CLOSPAN [50], MSPIC-DBV [51], HSPREC [52],... 11 Các CSDL chuỗi trong đó các thuộc tính có thể nhận các giá trị số hoặc phân loại và khi đó, chúng được gọi là CSDL chuỗi định lượng. Để phát hiện các mẫu chuỗi trong các CSDL chuỗi định lượng, phương pháp mờ hóa các thuộc tính định lượng được sử dụng và mẫu chuỗi được phát hiện được gọi là mẫu chuỗi mờ. Các thuật toán phát hiện mẫu chuỗi mờ điển hình là SPEEDYFUZZY [53], MINIFUZZY [53], FGBSPMA [54], MST [55] FQSPMMS [56], FUZZY APRIORISOME [57], IQSP [58], FSP [59],.. Các CSDL chuỗi giao dịch có yếu tố thời gian là CSDL có lưu trữ thông tin về thời điểm xảy ra của các giao dịch. Năm 2000, Yoshida và các cộng sự [60] đã đề xuất mẫu chuỗi có tính đến khoảng cách thời gian trong CSDL chuỗi giao dịch có yếu tố thời gian, mẫu chuỗi này có dạng 〈 〉 với a, b, c là các tập mục, [1−4] và [5−9] là khoảng thời gian có thể xảy ra lần lượt giữa a, b và giữa b, c. Để phát hiện mẫu chuỗi có tính đến khoảng cách thời gian, thuật toán Delta-Pattern đã được đề xuất trong [60]. Phát hiện mẫu chuỗi có tính đến khoảng cách thời gian như trong [60] tiếp tục được giải quyết bởi các thuật toán I-Apriori và I-PrefixSpan [61], TAS [62]. Năm 2005, để khắc phục hiện tượng “sắc nét” tại các điểm giáp danh của các khoảng chia đối với khoảng cách thời gian, Chen và Huang [63] đã đề xuất mẫu chuỗi có tính đến khoảng cách thời gian mà ở đó khoảng cách thời gian là các tập mờ, mẫu chuỗi khi đó có dạng 〈 〉 với Short, Long là các tập mờ, mỗi tập mờ có hàm thành viên tương ứng. Trong [63], hai thuật toán FTI-Apriori và FTI-PrefixSpan được đề xuất để phát hiện các mẫu chuỗi này. Mẫu chuỗi này tiếp tục được phát hiện bởi thuật toán FP Growth- PrefixSpan [64]. Năm 2009, Chang và các cộng sự [65] [66] đề xuất mẫu chuỗi 〈 〉 trong đó là các số mờ lần lượt thể hiện khoảng cách thời gian xảy ra giữa a với b và b với c. Khác với đề xuất trong [63] với các tập mờ (cùng hàm thành viên) ứng với các khoảng cách thời gian là cho trước, các số mờ trong [65] [66] được xác định dựa trên dữ liệu trong CSDL ban đầu. Các thuật toán SPFTI [65] và ISPFTI [66] được 12 đề xuất để phát hiện các mẫu chuỗi này. Tuy nhiên, đến năm 2018 các nghiên cứu về phát hiện mẫu chuỗi có tính đến khoảng cách thời gian chỉ áp dụng đối với các CSDL chuỗi giao dịch có yếu tố thời gian mà chưa áp dụng đối với CSDL chuỗi định lượng có yếu tố thời gian. Đây là khoảng trống thứ 2 trong việc xác định vấn đề nghiên cứu của luận án. Năm 2019, Dương và các cộng sự [67] đề xuất mẫu chuỗi có lợi ích cao tính đến khoảng cách thời gian trong các CSDL chuỗi định lượng có yếu tố thời gian và thuật toán UIPrefixSpan để phát hiện mẫu chuỗi lợi ích cao này. Mẫu chuỗi có lợi ích cao tính đến khoảng cách thời gian tiếp tục được phát hiện bởi thuật toán HUISP [68]. Khái niệm luật chuỗi chung mới được xuất hiện trong vài năm gần đây [69], [70] do Fournier-Viger và các cộng sự đề xuất. Luật chuỗi chung được phát hiện trong các CSDL chuỗi giao dịch biểu diễn mối quan hệ của 2 tập mục, ở đó các mục ở các phần tiền đề (bên trái) và hệ quả (bên phải) của luật không cần sắp thứ tự mà chỉ cần thỏa mãn điều kiện các mục ở phần tiền đề phải được xảy ra trước các mục ở phần hệ quả. Thuật toán phát hiện các luật chuỗi chung đầu tiên là CMRules [69] sau đó tiếp tục được phát triển bởi Rule Growth [71], ERMiner [72]. Các luật chuỗi chung thực sự là có ích và đã được ứng dụng trong thực tế [73]. Luật chuỗi chung đến nay mới chỉ được phát hiện trong các CSDL chuỗi giao dịch mà chưa được áp dụng đối với CSDL chuỗi định lượng có yếu tố thời gian. Đây là khoảng trống thứ 3 được xác định trong vấn đề nghiên cứu của luận án. Luận án này nhằm giải quyết 3 khoảng trống được xác định ở trên. Việc nghiên cứu giải quyết những vấn đề đó là thực sự cần thiết không chỉ ở phương diện phát triển lý thuyết mà cả ở phương diện ứng dụng thực tế. Đó là động lực để tác giả luận án thực hiện nghiên cứu đề tài “Phát hiện luật kết hợp và luật chuỗi mờ trong cơ sở dữ liệu định lượng có yếu tố thời gian”. Cụ thể luận án đề xuất và giải quyết các vấn đề về phát hiện các luật kết hợp và mẫu chuỗi, luật chuỗi chung có tính đến khoảng cách thời gian xảy ra giữa 13 các giao dịch tương ứng trong các CSDL định lượng có yếu tố thời gian và CSDL chuỗi định lượng có yếu tố thời gian. Luận án thực sự có đóng góp mới về mặt lý thuyết, cung cấp các giải pháp cho những vấn đề chưa được giải quyết trong hướng nghiên cứu về phát hiện các luật kết hợp và các mẫu chuỗi, luật chuỗi chung tương ứng trong CSDL định lượng và CSDL chuỗi định lượng cùng có yếu tố thời gian. 2. Mục tiêu, đối tƣợng và phạm vi nghiên cứu của luận án 2.1. Mục tiêu của luận án Mục tiêu của luận án là đề xuất giải pháp phát hiện các luật kết hợp và các mẫu chuỗi, luật chuỗi chung có tính đến khoảng cách thời gian xảy ra giữa các giao dịch tương ứng trong các CSDL định lượng và các CSDL chuỗi định lượng cùng có yếu tố thời gian. Các giải pháp như vậy cần quan tâm khắc phục hiện tượng không tự nhiên, “sắc nét” khi phân chia các giá trị định lượng, cũng như các khoảng cách thời gian xảy ra giữa các giao dịch thành các khoảng. Cụ thể luận án tập trung đề xuất các giải pháp nhằm:  Phát hiện các luật kết hợp có tính đến khoảng cách thời gian xảy ra giữa các giao dịch trong các CSDL định lượng có yếu tố thời gian. Các luật tìm được khi đó được gọi là các luật kết hợp mờ với khoảng cách thời gian mờ.  Phát hiện các mẫu chuỗi có tính đến khoảng cách thời gian xảy ra giữa các giao dịch trong các CSDL chuỗi định lượng có yếu tố thời gian. Các mẫu chuỗi tìm được khi đó được gọi là mẫu chuỗi mờ với khoảng cách thời gian mờ.  Phát hiện các luật chuỗi chung (là luật chuỗi ở dạng tổng quát và chung hơn so với các luật chuỗi (cổ điển) như được biết từ trước đến nay) có tính đến khoảng cách thời gian xảy ra giữa các giao dịch trong các CSDL chuỗi 14 định lượng có yếu tố thời gian. Các luật tìm được được gọi là các luật chuỗi chung mờ với khoảng cách thời gian mờ. Trong luận án, NCS tập trung vào nghiên cứu đề xuất các thuật toán mới để phát hiện các luật kết hợp và các mẫu chuỗi, luật chuỗi chung; đánh giá tính đúng đắn và tính đầy đủ, tính độ phức tạp tính toán của thuật toán; thử nghiệm và phân tích ý nghĩa của các luật kết hợp, các mẫu chuỗi và luật chuỗi chung phát hiện được; so sánh kết quả thử nghiệm với phương pháp chia khoảng. Vấn đề đặt ra trong luận án là mới, chưa có nghiên cứu tương tự trước đó nên việc đánh giá và so sánh với các nghiên cứu trước đó sẽ được thực hiện bằng cách chỉ ra rằng các luật kết hợp và mẫu chuỗi, luật chuỗi chung tìm được trong các nghiên cứu trước đó chỉ là dạng riêng tương ứng của luật kết hợp và mẫu chuỗi, luật chuỗi chung được phát hiện bởi các thuật toán được đề xuất trong luận án này. 2.2. Đối tượng nghiên cứu: là các thuật toán phát hiện các luật kết hợp, và các mẫu chuỗi, luật chuỗi chung có tính đến khoảng cách thời gian trong các CSDL định lượng và CSDL chuỗi định lượng cùng có yếu tố thời gian. 2.3. Phạm vi nghiên cứu:  Luận án nghiên cứu các luật kết hợp, các mẫu chuỗi, các luật chuỗi chung, các CSDL định lượng và CSDL chuỗi định lượng cùng có yếu tố thời gian.  Các tập mờ được sử dụng như các tham số cho trước làm đầu vào cho các thuật toán đề xuất, luận án không tập trung nghiên cứu sâu về lý thuyết mờ.  Do các luật kết hợp, mẫu chuỗi, luật chuỗi chung được đề xuất trong luận án là mới, nên các phần thực nghiệm của luận án không so sánh kết quả với các thuật toán khác. 3. Phƣơng pháp nghiên cứu Luận án đã sử dụng các phương pháp nghiên cứu sau: 15  Phương pháp tổng hợp, phân tích: được sử dụng để tổng hợp và phân tích các nghiên cứu về những vấn đề liên quan để phát hiện các khoảng trống nghiên cứu và xác định vấn đề nghiên cứu mà luận án cần giải quyết. Phương pháp phân tích cũng thường được sử dụng khi đề xuất các khái niệm mới liên quan đến vấn đề nghiên cứu của luận án sao cho những khái niệm mới được phát triển dựa trên nhiều nhất có thể các khái niệm đã có liên quan.  Phương pháp so sánh: được sử dụng để so sánh các kỹ thuật, thuật toán đã được đề xuất để giải quyết những vấn đề nghiên cứu liên quan, từ đó hình thành ý tưởng cho thuật toán mới cho vấn đề nghiên cứu.  Phương pháp thiết kế và đánh giá độ phức tạp thuật toán: được sử dụng để thiết kế thuật toán giải quyết bài toán cụ thể được đặt ra trong luận án và ước lượng độ phức tạp tính toán của các thuật toán này.  Phương pháp thực nghiệm: Các thuật toán được đề xuất đều được thực nghiệm trên các tập dữ liệu thực để đánh giá sự đúng đắn và tính khả thi của thuật toán. 4. Các đóng góp chính của luận án Những đóng góp chính của luận án là đề xuất và giải quyết các vấn đề sau:  Đề xuất vấn đề và thuật toán phát hiện luật kết hợp có tính đến khoảng cách thời gian xảy ra giữa các giao dịch trong các CSDL định lượng có yếu tố thời gian, ở đó các thuộc tính định lượng và khoảng cách thời gian xảy ra giữa các giao dịch được chuyển thành các thuộc tính mờ và khoảng cách thời gian mờ [CT4].  Đề xuất vấn đề và thuật toán phát hiện mẫu chuỗi (cổ điển) có tính đến khoảng cách thời gian xảy ra giữa các giao dịch trong các CSDL chuỗi định lượng có yếu tố thời gian, ở đó các thuộc tính định lượng và khoảng cách thời gian xảy ra giữa các giao dịch cũng được chuyển thành các thuộc tính mờ và khoảng cách thời gian mờ [CT5]. 16  Đề xuất vấn đề và thuật toán phát hiện luật chuỗi chung có tính đến khoảng cách thời gian xảy ra giữa các giao dịch trong các CSDL chuỗi định lượng có yếu tố thời gian, ở đó các thuộc tính định lượng và khoảng cách thời gian cũng được chuyển thành các thuộc tính mờ và khoảng cách thời gian mờ [CT9]. 5. Bố cục luận án Luận án gồm phần mở đầu, 04 chương nội dung và phần kết luận:  Phần mở đầu: Trình bày sự cần thiết và động lực nghiên cứu của đề tài; mục tiêu, đối tượng, phạm vi nghiên cứu; phương pháp nghiên cứu; những đóng góp chính và cấu trúc của luận án.  Chương 1: Tổng quan về luật kết hợp và mẫu chuỗi, luật chuỗi chung. Chương này trình bày các khái niệm, phương pháp phát hiện các luật kết hợp, mẫu chuỗi, luật chuỗi chung của các nghiên cứu trước đó. Từ đó xác định những các khoảng trống nghiên cứu và xác định vấn đề cụ thể trong luận án.  Chương 2: Phát hiện luật kết hợp có tính đến khoảng cách thời gian trong các CSDL định lượng có yếu tố thời gian. Chương này đề xuất vấn đề và thuật toán phát hiện các luật kết hợp có tính đến khoảng cách thời gian xảy ra giữa các giao dịch trong các CSDL định lượng có yếu tố thời gian. Tính đúng đắn và đầy đủ của thuật toán, việc thực nghiệm thuật toán trên tập dữ liệu thực, ý nghĩa của các luật kết hợp phát hiện được và so sánh với những nghiên cứu trước đó cũng được trình bày trong Chương.  Chương 3: Phát hiện mẫu chuỗi có tính đến khoảng cách thời gian trong các CSDL chuỗi định lượng có yếu tố thời gian. Chương này đề xuất vấn đề và thuật toán phát hiện mẫu chuỗi có tính đến khoảng cách thời gian xảy ra giữa các giao dịch trong các CSDL chuỗi định lượng có yếu tố thời gian. Tính đúng đắn và tính đầy đủ, độ phức tạp tính toán của thuật toán được đề xuất, việc thực nghiệm thuật toán trên tập dữ liệu thực, ý nghĩa
- Xem thêm -

Tài liệu liên quan