Đăng ký Đăng nhập
Trang chủ Phát hiện luật kết hợp mờ có hỗ trợ không giống nhau...

Tài liệu Phát hiện luật kết hợp mờ có hỗ trợ không giống nhau

.PDF
85
3
100

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI KHOA CÔNG NGHỆ HOÀNG VIỆT NGUYÊN Phát hiện luật kết hợp mờ có hỗ trợ không giống nhau LUẬN VĂN THẠC SĨ Người hướng dẫn: TS. Đỗ Văn Thành Hà nội - 2003 f n* r Phát hiện luật kêt hợp mờ có độ hô trợ không giông nhau Trang 1 MỤC LỤC LỜI GIỚI THIỆU CHƯƠNG I C ơ SỞ LÝ THUYẾT CỦA CÁC THUẬT TOÁN KHAI PHÁ LUẬT KẾT HỢP CHARM VÀ ACLOSE..................................................................................10 I. Giới thiệu luật kết hợp.................................................................................................. 10 Lì. Ỷ nghĩa thực tiễn của luật kết hợp....................................................................10 1.2. Mô hình hình thức luật kết hợp........................................................................ 11 1.3. Phân loại thuật toán phát hiện luật kết hợp hiện c ó ...................................... 13 II. Cơ sở lý thuyết thuật toán CHARM và ACLOSE....................................................15 II. 1. Các kiến thức chuẩn b ị ....................................................................................15 II. 2. Phương pháp xây dựng thuật toán CHARM và ACLOSE......................... 19 III. Thuật toán CHARM và ACLOSE..........................................................................20 III. 1. Thuật toán CHARM........................................................................................20 III. 2. Thuật toán AC LO SE......................................................................................25 IV. So sánh thuật toán CHARM VÀ AC LOSE............................................................ 32 CHƯƠNG II MỘT SỐ CÁCH TIẾP CẬN PHÁI HIỆN LUẬT KẾT HỢP M ỚI..37 I. Phát hiện luật kết hợp có ràng buộc độ hỗ trợ............................................................ 38 1.1. Vấn đề đặt r a ..................................................................................................... 38 1.2. Các kiến thức chuẩn bị......................................................................................39 1.3. Thuật toán phát hiện luật kết hợp ràng buộc độ hỗ trợ ................................ 40 II. Phát hiện luật kết hợp gắn trọng số ............................................................................ 41 II. 1. Vấn đề đặt ra.....................................................................................................41 11.2. Các kiến thức chuẩn b ị....................................................................................41 II. 3. Thuật toán phát hiện luật kết hợp với mụcdữ liệu gắn trọng số ..................45 III. Phát hiện luật kết hợp có độ hỗ trợ không giống nhau........................................... 49 III. 1. Vấn đề đặt r a .................................................................................................. 49 111.2. Các kiền thức cần thiết...................................................................................49 Hoàng Việt Nguyên - Luận văn ThạcSĩ - Khoa Công nghệ ĐHQ(Ỉ Hà Nội __ ĐẠí học q u ò c gia hà. NÔI 'Ị TRÙNGTÃM THỜNGTỊN.THƯVIỆN I f f Phát hiện luật kêt hợp mờ có độ hô trợ không giỏng nhau Trang 2 III. 3. Thuật toán tìm tập phổ biến cực đại có độ hỗ trợ không giống nhau.... 51 CHƯƠNG III PHÁT HIỆN LUẬT KẾT HỢP MỜ VỚI MỤC DỮ LIỆU CÓ Đ ộ HỒ TRỢ KHÔNG GIỐNG NHAU............................................................................... 60 I. Tại sao cần phải phát hiện luật kết hợp m ờ............................................................... 60 II. Luật kết họp m ờ ...........................................................................................................62 II.ỉ. Luật kết hợp m ờ ...............................................................................................62 II.2. Một số thuật toán phát hiện luật kết hợp mờ hiện c ỏ .................................. 63 III. Các kiến thức cần thiết xây dựng thuật toán tìm tập phổ biến mờ cực đại có độ hỗ trợ không giống nhau..................................................................................................66 IV. Thuật toán phát hiện tập phổ biến mờ có độ hỗ trợ không giống nhau...............72 IV. 1. Tư tưởng xây dựng thuật toán.....................................................................72 IV.2. Thuật toán FUZZY CHARM-NEW.............................................................. 74 IV.3. Ví dụ minh hoạ thuật toán FUZZY CHARM-NEW..................................... 75 IV.4. Nhận xét - Đánh g iả ....................................................................................... 79 KÉT LUẬN TÀI LIỆU THAM KHẢO Hoàng Việt Nguyên - Luận văn ThạcSĩ - Khoa Công nghệ ĐHQG Hà Nội r ** r Phát hiện luật kêt hợp mờ cỏ độ hô trợ không giông nhau Trang 3 DANH MỤC HÌNH VẺ Hĩnh 1. Hệ thống một số thuật toán phát hiện luật kết hợp hiện có ....................... 14 Hình 2. Cây tìm kiếm minh hoạ thuật toán CHARM ...............................................24 Hình 3. So sảnh các thuật toán -Cây tìm kiếm thuật toán Apriori ..................35 Hình 4. So sảnh các thuật toán - Cây tìm kiếm thuật toán CHARM ........... 35 Hình 5. So sảnh các thuật toán - Cây tìm kiếm thuật toán ACLOSE............... 36 Hình 6. Cây tìm kiếm thuật toán CHARM-NEW.........................................................56 Hình 7.Rời rạc hoá mục dữ liệu Tuổi(Age) trong miền giá trị [10..40] thành 3 khoảng[10..20], [20..30], [30..40]............................................................................. 62 Hình s. Gắn ihuộc tính Tuổi(Age) trong miền giả trị [10..40] với tập mờ Tuỏi trẻ, Tuổi thanh niên, Tuổi trung niên. Các giá trị thuộc tính trong miền [20..30] thuộc về tập mờ Tuổi thanh niên.......................................................................................... 62 Hình 9. Cây tìm kiếm mô tả thuật toán FUZZY CHARM-NEW...............................77 Hoàng Việt Nguyên - Luận văn ThạcSĩ - Khoa Công nghệ ĐHQG Hà Nội r ~ r Phát hiện luật kêt hợp mờ cỏ độ hô trợ không giông nhau Trang 4 DANH MỤC BẢNG BIẺU • Bảng 1. Cơ sở dữ liệu tác v ụ ...........................................................................................12 Bảng 2. Độ ho trợ của các tập mục dừ liệu .................................................................. 12 Bảng 3. Luật kết hợp........................................................................................................13 Bảng 4. CSDL minh họa thuật toán CHARM.............................................................. 23 Bảng 5. Bảng ký kiệu thuật toán ACLOSE ...................................................................26 Bảng 6. CSDL ví dụ thuật toán ACLOSE .....................................................................30 Bảng 7. Ket quả thuật toán ACLOSE ........................................................................... 32 Bảng 8. Ví dụ minh hoạ ràng buộc độ ho trợ ...............................................................40 Bảng 9. CSDL minh huạ các mục dữ liệu gắn trọng sổ ............................................ 47 Bảng 10. Các biên K- hỗ trợ cho tập Y gắn trọng sổ .................................................48 Bảng 11. CSDL minh hoạ thuật toán CHARM-NEW.................................................. 55 Bảng 12. Rời rạc hoá dữ liệu trong trường hợp các thuộc tính định lượng rời rạ c .............................................................................................................................. 60 Bảng 13. Rời rạc hoá dữ liệu trong trường hợp các thuộc tính định lượng liên tụ c.............................................................................................................................. 61 Bảng 14. Cơ sở dữ liệu định lượng ban đần ................................................................. 68 Bảng 15. Cơ sở dữ liệu m ờ ............................................................................................69 Bảng 16. CSDL định lượng minh họa thuật toán FUZZY CHARM-NEW..................75 Bảng 17. Ngữ cảnh dữ liệu mờ của CSDL minh họa ................................................. 76 Bảng 18. Một ngữ cảnh phát hiện dữ liệu mờ của ví dụ minh hoạ ........................... 76 Hoàng Việt Nguyên - Luận văn ThạcSĩ - Khoa Công nghệ ĐHQG Hà Nội Phát hiện luật kết hợp mờ có độ hỗ trợ không giống nhau Trang 5 KÝ HIỆU VÀ TỪ VIÉT TẤT Từ hoặc cụm từ Từ viêt tăt Từ tiêng Anh Cơ sở dữ liệu CSDL Database Định danh TID Transaction ID Hoàng Việt Nguyên - Luận văn ThạcSĩ - Khoa Công nghệ ĐHQG Hà Nội r ~ r Phát hiện luật kêt hợp mờ có độ hô trợ không giông nhau Trang 6 LỜI GIỚI THIỆU Vấn đề phát hiện luật kết họp từ các cơ sở dữ liệu tác vụ (CSDL có thuộc tính nhận giá trị nhị phân) được nhóm Data Quest thuộc Trung tâm nghiên cứu Amaden của tập đoàn IBM kết hợp cùng một số nhà khoa học của Trường Đại học Tổng hợp Hensinki đề xuất lần đầu vào năm 1993 [5]. Từ đó đến nay nó được đặc biệt quan tâm phát triển , hiện đã trở thành một trong những khuynh hướng nghiên cứu và ứng dụng quan trọng của khai phá dữ liệu (data mining). Việc phát hiện luật kết hợp không chỉ được ứng dụng trong thương mại mà hiện còn được ứng dụng trong rất nhiều ngành kinh tế, khoa học, xã hội khác như Tài chính, Ngân hàng, Y tế, Giáo dục, nghiên cứu môi trường,.. . [1-3,5-7,9,13]. Vấn đề phát hiện luật kết hợp được phân thành 2 vấn đề con đó là: (a) Tìm các tập phổ biến (đó là tập các mục dữ liệu có độ hỗ trợ không nhỏ hơn giá trị chung minsup nào đó) và (b) sinh ra luật kết hợp có độ tin cậy không nhỏ hơn một giá trị minconf nào đó từ các tập phổ biến vừa tìm được. Sự phức tạp và khó khăn của vấn đề phát hiện luật kết hợp chủ yếu tập trung ở vần đề tìm tập phổ biến (a). Việc cải tiến hoặc tìm kiếm các thuật toán hiệu quả hơn để tìm các tập phổ biến từ các CSDL nói chung là lớn, thậm chí rất lớn là hướng nghiên cứu được ưu tiên nhất trong vấn đề phát hiện luật kết hợp thời gian qua. Hiện tại đã có khá nhiều thuật toán phát hiện luật kết hợp theo nhiều cách tiếp cận khác nhau và các thuật toán này đều dựa trên việc tìm các tập phổ biến với độ hỗ trợ chung như nhau. Quan điểm sử dụng độ hỗ trợ chung để tìm các tập phổ biến đã cho thấy là chưa thật hợp lý với thực tế cuộc sống và người ta đã khắc phục vấn đề này bằng cách xây dựng thuật toán phát hiện luật kết hợp trong điều kiện có ràng buộc độ hỗ trợ [11] hoặc Phát hiện luật kết hợp khi tập dữ liệu (itemsets) được gắn với trọng số [8] hoặc các luật kết hợp được phát hiện thông qua việc tìm các tập phổ biển với các mục dữ liệu có độ hỗ trợ cực tiểu không giống nhau [2]. Thực tế việc phát hiện các luật kết hợp thực Hoàng Việt Nguyên - Luận văn ThạcSĩ - Khoa Công nghệ ĐHQG Hà Nội r /V f Phát hiện luật kêt hợp mờ có độ hô trợ không giông nhau Trang 7 sự trở lên có ý nghĩa ứng dụng to lớn khi người ta giải quyết được vấn đề phát hiện luật kết hợp từ các cơ sở dữ liệu định lượng (CSDL mà các thuộc tính nhận giá trị số hoặc phân loại). Phương pháp giải quyết ở đây là chuyển cơ sở dữ liệu định lượng thành cơ sở dữ liệu tác vụ (hay CSDL nhị phân), rồi sau đó áp dụng các thuật toán phát hiện luật kết họp từ CSDL tác vụ đã biết. Việc chuyển CSDL định lượng thành CSDL tác vụ có nhược điểm quan trọng là cồng kềnh và thiếu “tự nhiên” tại các điểm “gãy” như đã được chỉ rõ trong [8], Khắc phục tình trạng này người ta đề xuất ứng dụng lý thuyết tập mờ trong quá trình chuyển đổi CSDL định lượng thành CSDL mới thay thế vai trò của CSDL nhị phân (có thể gọi là CSDL mờ), và từ đó vấn đề phát hiện luật kết hợp mờ được ra đời. Dây ỉà vấn đề được quan tâm nghiên cứu mạnh trong vài năm gần đây. Các nghiên cứu trong [2,8] đã làm nẩy sinh vấn đề nghiên cứu và xây dựng kỹ thuật phát hiện luật kết hợp mờ với các mục dữ liệu có độ hỗ trợ cực tiểu không giổng nhau từ các CSDL có định lượng. Đề tài luận văn cao học “Phát hiện luật kết hợp mờ có độ hỗ trợ không giống nhau” được thực hiện theo hướng góp phần giải đáp vấn đề đó. Cụ thể mục đích của bản luận văn này là hệ thống những vấn đề liên quan theo hướng chuẩn bị một số kiến thức cơ bản cần thiết nhằm giải quyết vấn đề đặt ra và trình bầv một số kết quả nghiên cứu ban đầu về giải pháp kỹ thuật giải quyết vấn đề đó. Luận văn có 83 trang bao gồm phần mở đầu, 3 chương nội dung, phần kết luận và tài liệu tham khảo. Chương 1: Cơ sở lý thuyết của các thuật toán khai phá luật kết hợp CHARM và ACLOSE gồm các trang từ 10 đến trang 38. Sau khi trình bày tổng quát một số khái niệm, nội dung cơ bản nhất về vấn đề phát hiện luật kết hợp, các thuật toán phát hiện luật kết hợp, chương này sẽ tập trung trình bầy cơ sở lý thuyết của 2 thuật toán phát hiện luật kết họp mới và hiệu quả nhất hiện nay CHARM và ACLOSE cũng như giới thiệu chi tiết về 2 thuật toán đó. Thực sự 2 thuật toán này đã được xây dựng Hoàng Việt Nguyên - Luận văn ThạcSĩ Khoa Công nghệ ĐHQG Hà Nội - Phát hiện luật kết hợp mờ có độ hỗ trợ không giống nhau Trang 8 theo cách tiếp cận rất khác với các cách tiếp cận của các thuật toán được xây dựng trước đó và việc đánh giá so sánh hai thuật toán này với nhau cũng góp phần làm rõ thêm cách tiếp cận xây dựng của chúng. Chương 2: Một số cách tiếp cận phát hiện luật kết hợp mới từ trang 39 đến trang 61 sẽ tập trung trình bầy một số hạn chế của các luật kết họp được phát hiện trong điều kiện chúng có độ hỗ trợ cực tiểu chung như nhau (cho đến thời điểm này việc ứng dụng các luật kết họp chủ yếu được thực hiện trong điều kiện như vậy) và một số cách tiếp cận nghiên cứu nhằm khắc phục những hạn chế đó. Chương này trình bầy 3 cách tiếp cận chính hiện nay là phát hiện luật kết hợp khi các tập dữ liệu (itemsets) có ràng buộc độ hỗ trợ; phát hiện luật kết họp có các mục dữ liệu được gắn trọng số và phát hiện luật kết họfp khi các mục đừ liệu có độ hỗ trợ cực tiểu không giống nhau. Một số so sánh đánh giá ban đầu về 3 cách tiếp cận đó cũng được giới thiệu trong chương 2. Chương 3: Phát hiện luật kết hợp mờ có độ hỗ trợ cực tiếu không giống nhau gồm các trang từ trang 62 đến trang 82. Sau khi trình bầy một số lý do vì sao cần phát hiện luật kết hợp mờ, một số khái niệm cơ bản của phát hiện luật kết hợp mờ, chương 3 sẽ tập trung trình bầy một số kiến thức chuẩn bị và thuật toán FUZZY CHARM-NEW để tìm các tập phổ biến mờ với các tập thuộc tính có độ hỗ trợ cực tiểu không giống nhau. Trong Phần kết luận sẽ trình bầy tóm tắt những nội dung chính của luận văn, một số hạn chế chủ yếu và hướng nghiên cứu tiếp theo của bản luận văn này. Cuối cùng tác giả xin cảm ơn sự giúp đỡ và hướng dẫn tận tình của Ts. Đỗ Văn Thành - Văn Phòng Chính Phủ trong quá trình thực hiện luận văn. Tác giả xin chân thành cám ơn các thầy cô khoa Công nghệ- Đại học Quốc gia Hà Nội đã tạo điều Hoàng Việt Nguyên Luận văn ThạcSĩ - Khoa Công nghệ ĐHQG Hà Nội - f ~ r Phát hiện luật kêt hợp mờ có độ hô trợ không giông nhau Trang 9 kiện và giúp đỡ trong quá trình học tập và làm luận văn và Xê mi na: “ Khai phá tri thức trong các cơ sở dữ liệu” của Khoa đã tạo điều kiện cho tác giả được trình bầy và đã góp ý kiến để tác giả chỉnh sửa, hoàn thiện bản luận văn này. Xin cám ơn sự giúp đỡ của bạn bè đồng nghiệp và các bạn lớp 7KT - Khoa Công Nghệ trong suốt quá trình học tập và làm khoá luận. Hà Nội, ngày 01 tháng 06 năm 2003 Học viên Hoàng Việt Nguyên Hoàng Việt Nguyên - Luận văn ThạcSĩ - Khoa Công nghệ ĐHQG Hà Nội r r ~ Phát hiện luật kêt hợp mờ có độ hô trợ không giông nhau Trang 10 CHƯƠNG I CO SỞ LÝ THUYÉT CỦA CÁC THUẬT TOÁN KHAI PHÁ LUẬT KÉT HỢP CHARM VÀ ACLOSE I. Giới thiệu luật kết hợp 1.1. Ỷ nghĩa thực tiễn của luật kết hợp Phát hiện luật kết hợp được đề xuất lần đầu bởi R. Agrawal vào năm 1993 [5], được quan tâm phát triển mạnh trong những năm qua và hiện đã trở thành một trong những khuynh hướng nghiên cứu ứng dụng quan trong của Khai phá dữ liệu (Data Mining) [5,6,7,9,13,14]. Xuất phát từ “rổ “ dữ liệu (data basket) về tình hình bán hàng cùa siêu thị, người ta mong muốn phát hiện được những tri thức tiềm ẩn có giá trị nhằm hỗ trợ cửa hàng trong việc hoạch định chiến lược kinh doanh như tiếp thị quảng cáo (nên thiết kế mẫu quảng cáo thế nào?), cơ cấu các mặt hàng cần được bán, bố trí hợp lý các gian hàng trong siêu thị (bố trí sắp xếp hàng hoá ra sao? cần bổ sung thêm những hàng hoá gì, số lượng bao nhiêu?),..., vấn đề phát hiện luật kết hợp đã ra đời [5,6 ]. về bản chất luật kết hợp biểu thị mối quan hệ giữa tập con các mặt hàng (gọi là tập mục dữ liệu ) trong cơ sở dữ liệu siêu thị. Như vậy, để phát hiện được các luật kết họp cần phải tìm tất cả các tập con của các mặt hàng được thường xuyên xuất hiện trong cơ sở dữ liệu (được gọi là tập phổ biến) và rút ra các luật cho biết tập con của các mặt hàng này đã ảnh hưởng thế nào đến sự xuất hiện của tập con các mặt hàng khác. Các phát biểu như: “90% những người mua bánh mì và bơ cũng mua sữa và cà phê”, là một dạng của luật kết hợp. Hoàng Việt Nguyên - Luận văn ThạcSĩ - Khoa Công nghệ ĐHQG Hà Nội F f Trang 11 Phát hiện luật kêt hợp mờ có độ hô trợ không giông nhau 1.2. Mô hình hình thức luật kết hợp Giả sử I C 3 = { i|, i2, im} là tập của các thuộc tính nhị phân. X c tập dữ liệu (tên mỗi loại hàng được xem là một mục dữ liệu), Y) (0 < conf(r) < 1): c o n f ^ Y) = supp(X u Y) / supp(vY). Độ tin cậy cũng có thể định nghĩa thông qua xác suất có điều kiện như sau: c o n f ( ^ y) = P (7 |A )= V(XuY)IV(X). Nói cách khác độ tin cậy của luật r : X -> Y chính là xác suất có điều kiện của các tác vụ chứa Y xét trong điều kiện chứa X. Vỉ dụ 1: trong thực tế bán hàng thường ta nhận được các phát biểu kiểu như : "30% những người mua mua bia, ruợu mạnh cũng mua lạp xườn ”, hoặc "5% những người mua hàng mua cả 3 mặt hàng bia, rượu mạnh, lạp xườn". Khi đó 30% là độ tin cậy, 5% là độ hỗ trợ của luật. Tập phổ biến (Frequent Itemset) : Tập mục dữ liệu X được gọi là tập phổ biến nếu supp(Z) > minsupp là độ hỗ trợ cực tiểu do người sử dụng xác định. Hoàng Việt Nguyên - Luận văn ThạcSĩ - Khoa Công nghệ ĐHQG Hà Nội I gọi là r r ~ Phát hiện luật kêt hợp mờ có độ hô trợ không giông nhau Trang 12 CSDL lưu trừ các dữ liệu tác vụ ( CSDL nhị phân) có thể được lưu trữ dưới dạng bảng m x n . Ví dụ 2: Bảng 1 mô tả CSDL tác vụ ( Transaction Database). Mỗi giá trị của mục dữ liệu thể hiện thuộc tính xuất hiện, hay không xuất hiện (nhận giá trị 0) trong tác vụ. Độ hỗ trợ được xác định thông qua việc xác định giá trị của các thuộc tính trên miền {0,1}. Item A Item B tl 1 0 1 1 t2 0 0 1 0 t3 1 0 1 1 t4 0 0 1 0 t5 0 0 1 tó 0 0 1 0 0 0 0 0 1 0 1 1 0 1 0 1 1 0 1 1 1 t7 t8 t9 tio Item c TID Item D Bảng 1. Cơ sở cữ liệu tác vụ Ví dụ 3: Bảng 2 lưu giá trị độ hỗ trợ của mỗi tập mục dừ liệu, tập mục dữ liệu in nghiêng là tập phổ biến với minsupp= 0.2. Ví dụ mục A xuất hiện 3 lần trong tác vụ và tổng số có 10 tác vụ, do đó supp(A) = 3 / 10 = 0.3, hai mục CD xuất hiện đồng thời 5 lần trong 10 tác vụ, do đó suppiCD) = 5 / 10 = 0.5. Itemset Supp(X) Itemset Supp(X) A 0.30 BD 0.10 B 0.10 CD 0.50 c 0.80 ABC 0.00 D 0.70 ABD 0.00 Hoàng Việt Nguyên - Luận văn ThạcSĩ - Khoa Công nghệ ĐHQG Hà Nội Phát hiện luật kết hợp mờ có độ ho trợ không giống nhau Trang 13 AB 0.00 A CD 0.20 AC 0.20 BCD 0.10 AD 0.30 ACBC 0.00 BC 0.10 {} {} Bảng 2. Độ hồ trợ của các tập mục dữ liệu r 7 r Các luật kêt họp thu được từ các tập mục dữ liệu phô biên trong bảng 3: Luật kêt họp A -* B A,c -* D c - A A,D -» A -» D C,D -*• A c D -» A c - D D -* c Bảng 3. Luật kêt hợp 1.3. Phân loại thuật toán ph át hiện luật kết hợp hiện có Vấn đề phát hiện tất cả các luật kết hợp có độ hỗ trợ và độ tin cậy vượt quá ngưỡng xác định nào đó (tương ứng là minSupp và minConf do người sử dụng xác định) được phân rã thành 2 vấn đề con là tìm các tập có độ hỗ trợ lớn hơn một giá trị xác định trước và sinh luật từ tập tìm được. Có hai cách tiếp cận để xác định độ hỗ trợ của một tập mục dữ liệu [5,6], đó là: Counting: Độ hỗ trợ của một tập mục dữ liệu được tính thông qua các thể hiện của nó trong tập các tác vụ trong CSDL. Biến đếm được khởi tạo bằng 0 cho mỗi tập mục dữ liệu đang được xét, sau đó duyệt các tác vụ trong CSDL và mỗi khi xác định được ứng cử viên là tập con của tác vụ thì biến đếm tăng lên một đơn vị. Intersection'. Xác định độ hỗ trợ của tập mục dữ liệu bằng cách thiết lập các tập giao Tidlist là tập định danh của các tác vụ. Với mỗi tập mục dữ liệu X tồn tại một Hoàng Việt Nguyên - Luận văn ThạcSĩ - Khoa Công nghệ ĐHQG Hà Nội f r ~ Phát hiện luật kêt hợp mờ có độ hô trợ không giông nhau Trang 14 x.tidlist. Tập giao Tidlist của tập mục dữ liệu c = X u Y là c.tidlist =x.tidlist nY.tidlist. Độ hỗ trợ của tập c sẽ là |C.tidlist| = II c.tidlistịl / II ơ||. Các thuật toán phát hiện luật kết họp hiện có được hệ thống theo sơ đồ dưới đây, việc phân loại tiến hành trước tiên theo chiến lược tìm kiếm, sau đóphân loại theo cách xác định giá trị độ hỗ trợ cho các tập mục dữ liệu. Có hai chiến lược tìm kiếm: BFS ( Breadth Fist Search - Tìm kiếm theo chiều rộng) và DFS (Depth First Search - Tìm kiếm theo chiều sâu ) . Có hai cách xác định độ hỗ trợ của tập mục dữ liệu là Counting và Intersection. Ta có sơ đồ phân loại các thuật toán phát hiện luật kết hợp thông thường như sau: n /\ C ou nting /\ intersection l / Apriori Pratition Apriori TID ACLOSE Counting Intersection l / FP-growth Eclat CHARM D ie Hình 1. Hệ thống một số thuật toán phát hiện luật kết hợp hiện có Trong sơ đồ trên, thuật toán CHARM và ACLOSE đánh giá là hiệu quả nhất vì cả hai thuật toán này đều dựa trên tính chất đóng của các tập phổ biến để tìm ra một số ít tập phổ biến có tính chất đặc biệt: các luật sinh ra từ những tập phổ biến này là tương đương với tập các luật sinh ra từ tất cả các tập phổ biến. Hoàng Việt Nguyên - Luận văn ThạcSĩ - Khoa Công nghệ ĐHQG Hà Nội r r *v Trang 15 Phát hiện luật kêt hợp mờ có độ hô trợ không giông nhau II. Cơ sở lý thuyết thuật toán CHARM và ACLOSE Sự khó khăn và phức tạp của phát hiện luật kết hợp từ CSDL chủ yếu là ở vấn đề tìm các tập phổ biến từ cơ sở dữ liệu đã cho. Thuật toán mới nhất và được xem là hiệu quả nhất để phát hiện luật kết họp cho đến thời điểm này là CHARM và ACLOSE [15,16]. Khác với các các thuật toán thông thường khác, cách tiếp cận của hai thuật toán này thể hiện ưu điểm ở chỗ: Các tác giả của hai thuật toán CHARM và ACLOSE đều chỉ ra được rằng các luật kết họp được sinh ra từ các tập phổ biến đóng cực đại và từ các tập phổ biến là như nhau. Do đó việc tìm các tập phổ biến được đưa về tìm các tập phổ biến đóng và vì thế không gian tìm kiếm trong cả hai thuật toán này được giảm nhiều đồng thời các luật kết hợp được sinh ra cũng được thu gọn, giảm bớt đáng kể các luật trùng lắp, dư thừa. Cả hai thuật toán CHARM và ACLOSE thực chất đều được xây dựng trên cơ sở lý thuyết toán học khá giống nhau [15,16]. Nội dung dưới đây sẽ tập trung trình bầy cơ sở lý thuyết toán học và giới thiệu cụ thể hai thuật toán này . II.l. Các kiến thức chuẩn biỉ Phần này trình bày một số khái niệm hình thức liên quan [15,16] Định nghĩa 1. Ngữ cảnh phát hiện dữ liệu (Data mining context) là bộ ba 'V = (ỡ, 3, R), trong đó o là tập hữu hạn các đối tượng (object), 3 là tập hữu hạn tất cả các mục dữ liệu và R c 0 x 3 là quan hệ nhị phân, ở đó mỗi cặp (o,i) c R ký hiệu cho sự kiện đối tượng oe o quan hệ với mục dữ liệu 1 G 3. Định nghĩa 2. (Kết nối Galois) Cho 2° với f(0) = { ie3( I Vog o , (o,i) 6 R}, g(I) = {o eớ I Vi el, (o,i)eR} f(0) là tập mục dữ liệu chung cho tất cả các đối tượng của o và g(I) là tập các đối tượng quan hệ với tất cả các mục dữ liệu trong I. Cặp ánh xạ (f,g) gọi là kết nối Galois giữa tập các tập con của o và tập các tập con của 3 . Hoàng Việt Nguyên - Luận văn ThạcSĩ - Khoa Công nghệ ĐHQG Hà Nội r r ~ Phải hiện luật kêt hợp mờ có độ hô trợ không giông nhau Trang 16 Từ định nghĩa này, có các tính chất sau đây: Tính chất 1: Với I], I2 c 3 và Oi, 0 2 CỊ o, ta có: ( l ’) 0 , c 0 2 => f ( 0 , ) 3 f ( 0 2) U l C l 2 =>g ( I i ) 3 g ( I 2) 2 .0 C g(I) « I C f(0) s là một tập. Hàm c: 2s -> 2S xác định giữa tập tất cả các tập con s, là toán tử đóng (closure operator) trên s nếu với tất cả I, I’ c s, c thoả mãn Định nghĩa 3. Cho của các tính chất sau: 1.MỞ rộng (Extension): I C c(I) 2.Đơn điệu (Monotonicity): nếu II C 12, thì c(Il) C c(I2) 3.Tính Idempotency: c(c(I)) = c(I); Tập con I của s được gọi là đóng (closed) nếu c(I) = I. Định nghĩa 4: Các ánh xạ họp h = f0g trong 21và h ’ = g0f trong 2° được gọi là các phép toán đóng Galois. Các ánh xạ này có các tính chất sau: Mở rộng: (3) I C h(I) (3’) 0 c h ’(0) Idempotency:(4) h(h(I)) = h(I) Đơn điệu: (5) I) c l 2 => h(Ii) C h(I2) (4’) h ’(h’(0)) = h ’(0) (5’) o , C 0 2 => h ’( 0 ,) c h ’( 0 2) Tập mục dữ liệu I C 3 được gọi là đóng nếu và chỉ nếu h(I) = I. Khi đó tập mục dữ liệu đóng nhỏ nhất chứa I chính là h(I) và h(I) được gọi là bao đóng của I. Tỉnh chất 2. Gỉa sử li I2 là 2 tập mục dữ liệu thể thì h (li I2 ) = h(h(Ii) h(I2)) Định nghĩa 5. (Dàn tập mục dữ liệu đóng) Ký hiệu c là tập tất cả các tập mục dữ liệu đóng nhận được từ rD theo phép toán Galois h. Cặp j£c = (C, < ) được gọi là dàn các tập mục dữ liệu, cấu trúc dàn này có hai 2 tính chất: 1.Tồn tại một sắp thứ tự từng phần trên các phần tử của dàn sao cho với mọi phần tử I, I’ c j£q, I < I’ khi và chỉ khi I c I’; 2.Tất cả các tập con của có một phần tử biên dưới lớn nhất (phần tử join) và có một phần tử biên trên nhỏ nhất (phần tử meet), và Ẩ>c là một dàn đầy đủ. Hoàng Việt Nguyên - Luận văn ThạcSĩ - Khoa Công nghệ ĐHQG Hà Nội Phát hiện luật kết hợp mờ có độ hỗ trợ không giống nhau Trang 17 Định lý cơ bản của Dàn Galois: Join (S) = h(uC ) với C eS và Meet(S) = n C với C eS. Dưới đây ta định nghĩa các tập phổ biến vàtập phổ biếnđóng,cácluật kếthợp và luật kết hợp chắc theo kết nổi Galois: Định nghĩa 6. Giả s ử l c 3 là tập mục dữ liệucủa r/), độhỗ trợ của tập I trong rD là : support(I) = ||g(I)||/|ịỡỊ| . Định nghĩa 7. Tập mục dữ liệu I được gọi là tập phổ biến nểu support(I) > minsupp; tập phổ biến và đóng được gọi là tập phổ biến đóng. Ký hiệu Fc là tập tất cả các tập phổ biến đóng nhận được từ cơ sở dữ liệu rtì, tức là F c = { I c 3 / 1 = h(I) và support(I) > minsupp} Tính chất 3: Tập con của tập phổ biến là tập phổ biến. Chứng minh: Giả sử I, I’ c: 3 t, I là tập phổ biến, r c I. Theo tính chất của kết nối Galois I’c I => g(I’)3 g(I) => support (I’) > support(I) > minsupp. Tính chất 3 Mọi tập chứa tập con không phải là tập phổ biển đều không là phổ biến. Định nghĩa 8. Tập Mc gồm tất cả các tập phổ biến đóng không phải là tập con thực sự của bất kỳ một tập phổ biến đóng nào khác được gọi là tập các tập phổ biến đóng cực đại, nói cách khác: Mc - { IgFc / không tồn tại tập I’ e Fcvà I c l ’ } Tính chất 4: Tập các tập phổ biến cực đại và tập các tập phổ biến đóng cực đại là trùng nhau, tức là: ^ Chứng minh: Ta chỉ cần chứng minh ràng với mọi I eM, I sẽ là tập đóng tức là I = h(I). Theo tính chất (2) của dàn Galois ta có I ( h(I) và do I là tập phổ biến cực đại nên support(h(I)) = support(I) > minsupp, ta suy ra rằng I = h(I) hay I là tập phổ biến đóng cực đại. Định nghĩa 9. (theo cách sử dụng kết nối Galois) Luật kết hợp có dạng Ỉ! —» I2, ở đây It, I2 là các tập mục dữ liệu và I] n l 2 = 0 , định nghĩa: Hoàng Việt Nguyên - Luận văn ThạcSĩ - Khoa Công nghệ ĐHQG Hà Nội au.oc G i A HA K'Óf ị THÔNGTlN.THƯVIỆNị r ** r Phát hiện luật kêt hợp mờ có độ hô trợ không giông nhau Trang 18 supportỢi -> I2) = II g(IiUl2)||/|| o II; conf(I, -> I2) = support(11 u l 2)/support(I!) = II g(IiUl2)/|| g(I])|| Tỉnh chất 4: Độ hồ trợ của tập mục dữ liệu ICZ 3 nhận từ cơ sơ dừ liệu D bằng độ hỗ trợ bao đóng của nó, tức là support(I) = support(h(I)). Chứng minh: Giả sử I C 3 là một tập mục dừ liệu, độ hồ trợ của I trong I2 được gọi là luật chính xác nếu conf(Ii -> I2) = 1 và được gọi là luật xấp xỉ nếu conf(l! —> I2) < 1 . Định nghĩa 10: Tập mục dữ liệu I từ h(I j ) - lị / Ij e \ là cơ sở đối với tất cả các luật chính xác, tức là với mọi r’ e (Q. ở đó: conf(r’) = 1 > minconf thì o 1= r \ Hệ quả 1. (Định lý cơ bản về luật tin cậy chính xác) Giả sử CỊ*P là tập các tập mục dữ liệu phổ biến giả đóng trong ('D. Tập = { r: It => h(l! ) - 1| / 1| G Cf^p \ là cơ sở đối với tất cả các luật tin cậy chính xác. Định lý 2. (Định lý về tập thu gọn của các luật kết hợp xấp xỉ) Giả sử ê là tập tất cả các tập mục dữ liệu đóng và li - h / Ỉ2 Trang 19 li và I ] , I2 e ê )■ là tập chuẩn được thu gọn đối với các luật kết hợp xấp xỉ, tức là với mọi r’ e <ĩl ở đó 1> conf(r’) > minconf thì d 1= r’. Hệ quả 2. (Định lý về tập thu gọn của các luật kết hợp tin cậy xấp xỉ) Giả sử là tập tất cả các tập mục dữ liệu đóng phổ biến trong 'Z) . Tập (B d = \ r: I2 => li - 12 / 12 c I] và I] , I2 e <7^ \ là tập chuẩn được thu gọn đối với tất cả các luật kết hợp tin cậy xấp xỉ (approximate valid association rules), tức với mọi f e d , thì (H = <1r: I2 => li - 12 / 12 c li và I] là tập phổ biến, minconf < conf(r’) í1 thì H d 1= r’. II.2. Phương pháp xăy dựng thuật toán CHARM và ACLOSE Có thể nhận thấy rằng tập mục dữ liệu đóng là tập cực đại của các mục dữ liệu là chung đối với các tác vụ. Dựa trên tính chất của dàn các tập mục dữ liệu đóng trong <ĩ) người ta có thể tìm được tất cả các tập phổ biến từ CSDL này bàng cách sinh ra các tập con của các tập phổ biến đóng cực đại với độ hỗ trợ của nó được suy dẫn từ độ hỗ trợ của các tập mục dữ liệu đóng phổ biến. Từ các tập phổ biến tìm được sẽ sinh ra tất cả các luật kết hợp theo đúng tinh thần của thuật toán Apriori [5,6,15,16]. Tuy nhiên theo hệ quả 2 có thể sinh ra trực tiếp tập các luật kết hợp tin cậy được thu gọn từ các tập phổ biến đóng cực đại. Các thuật toán A-CLOSE và CHARM về cơ bản được xây dựng theo các bước sau đây: 1. Tim tất cả các tập phổ biến đóng cực đại; 2. Xác định cơ sở luật kết hợp tin cậy chính xác (exact valid association rule basis): bằng cách xác định các tập giả đóng trong r: I2 —> li - 12 / 1 2 và sau đó sinh ra các luật c: l i , li là tập phổ biến đóng và I2 là tập giả đóng. 3. Xây dịmg tập thu gọn của các luật kết hợp tin cậy xấp xỉ: bằng cách sinh ra các luật ở dạng r: I2 —> li - 12 / 12 l i , I] I2 là các tập phổ biến đóng. Hoàng Việt Nguyên - Luận văn ThạcSĩ - Khoa Công nghệ ĐHQG Hà Nội
- Xem thêm -

Tài liệu liên quan