Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Một số phương pháp rút gọn thuộc tính trong bảng quyết định...

Tài liệu Một số phương pháp rút gọn thuộc tính trong bảng quyết định

.PDF
78
14
100

Mô tả:

ð I H C THÁI NGUYÊN TRƯ NG ð I H C CNTT VÀ TRUY N THÔNG HOÀNG TH NG C MAI M TS PHƯƠNG PHÁP RÚT G N THU C TÍNH TRONG B NG QUY T ð NH LU N VĂN TH C SĨ CÔNG NGH THÔNG TIN Thái Nguyên - Năm 2013 ð I H C THÁI NGUYÊN TRƯ NG ð I H C CNTT VÀ TRUY N THÔNG HOÀNG TH NG C MAI M TS PHƯƠNG PHÁP RÚT G N THU C TÍNH TRONG B NG QUY T ð NH LU N VĂN TH C SĨ CÔNG NGH THÔNG TIN Chuyên ngành: Khoa h c máy tính Mã s : 60.48.01 NGƯ I HƯ NG D N KHOA H C: GS.TS Vũ ð c Thi Thái Nguyên - Năm 2013 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn M CL C L I C M ƠN ......................................................................................................... I L I CAM ðOAN ................................................................................................... II DANH M C CÁC THU T NG ........................................................................ III B NG CÁC KÝ HI U .........................................................................................IV DANH SÁCH B NG............................................................................................VI L I M ð U ......................................................................................................... 1 Chương 1. KHÁI QUÁT V T P THÔ VÀ RÚT G N THU C TÍNH ................. 5 1.1. H thông tin .................................................................................................... 5 1.2. T p thô ........................................................................................................... 7 1.3. B ng quy t ñ nh.............................................................................................. 9 1.4. T p rút g n và lõi ........................................................................................... 9 1.5. Ma tr n phân bi t và hàm phân bi t .............................................................. 10 1.6. M i liên h gi a các t p rút g n c a các phương pháp rút g n thu c tính. .... 11 1.6.1. Entropy trong h thông tin và các tính ch t. ............................................... 12 1.6.2. T p rút g n d a trên entropy thông tin ....................................................... 14 1.6.3. M i liên h c a t p rút g n d a trên Shannon entropy ............................... 15 1.6.4. M i liên h c a t p rút g n d a trên ñ khác bi t gi a các tri th c............. 19 1.7. S thay ñ i các ñ ño ñánh giá hi u năng b ng quy t ñ nh khi rút g n thu c tính. ..................................................................................................................... 22 1.7.1. Lu t quy t ñ nh và các ñ ño c ñi n ......................................................... 23 1.7.2. ð ño hi u năng c i ti n c a b ng quy t ñ nh ............................................ 24 1.7.3. ð! xu t ñ ño hi u năng m"i c a b ng quy t ñ nh ..................................... 25 1.7.4. S thay ñ i các ñ ño khi th c hi n các phương pháp rút g n thu c tính ... 29 1.8. K t lu n Chương 1 ....................................................................................... 31 Chương 2. M T S# PHƯƠNG PHÁP RÚT G N THU C TÍNH TRONG B NG QUY%T ð&NH. ..................................................................................................... 32 2.1. M' ñ(u ......................................................................................................... 32 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 2.2. Thu t toán tìm t p rút g n s) d*ng Liang entropy......................................... 39 2.2.1. T p rút g n d a trên Liang entropy v"i phân ho+ch c i ti n..................... 40 2.2.2. Thu t toán tìm t p rút g n s) d*ng Liang entropy.................................... 43 2.3. Thu t toán tìm t p rút g n s) d*ng metric .................................................. 48 2.3.1. Kho ng cách Jaccard gi a hai t p h,p h u h+n ........................................ 49 2.3.2. Metric trên h thông tin ........................................................................... 50 2.3.3. T p rút g n d a trên metric ..................................................................... 51 2.3.4. Thu t toán tìm t p rút g n s) d*ng metric ............................................... 54 2.3.5. Thu t toán tìm t p rút g n theo ngư-ng ch.c ch.n c a b ng quy t ñ nh ........ 59 2.4. K t lu n Chương 2 ..................................................................................... 61 Chương 3: CHƯƠNG TRÌNH TH/ NGHI M ..................................................... 62 3.1. Bài toán ..................................................................................................... 62 3.2. Phương pháp .............................................................................................. 62 3.3. Xây d ng chương trình th) nghi m ............................................................ 63 3.4. K t qu th) nghi m ................................................................................... 64 3.5. K t lu n chương 3 ..................................................................................... 65 K%T LU N ........................................................................................................... 66 TÀI LI U THAM KH O ..................................................................................... 67 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn I L I C M ƠN Tôi xin chân thành c m ơn ñ n: - Trư0ng ð+i h c Công ngh thông tin và Truy!n thông, ð+i h c Thái Nguyên - Vi n Công ngh Thông tin và các th(y cô giáo ñã tr c ti p gi ng d+y, hư"ng d1n tôi trong quá trình h c t p và ñ nh hư"ng quan tr ng trong vi c hình thành ý tư'ng nghiên c u. Tôi xin chân thành c m ơn Chi b , BGH, BCH Công ñoàn, T Khoa h c t nhiên và cán b giáo viên, nhân viên Trư0ng THPT Bình ð ñã ñ ng viên, giúp ñ-, t+o ñi!u ki n thu n l,i cho tôi trong quá trình h c t p và nghiên c u. ð2c bi t, tôi xin bày t3 lòng bi t ơn sâu s.c ñ n GS.TS Vũ ð c Thi, ngư0i th(y ñã tr c ti p hư"ng d1n và giúp ñ- tôi hoàn thành lu n văn t t nghi p. Cu i cùng xin chân thành c m ơn nh ng ngư0i thân và gia ñình ñã luôn chia s5 m i khó khăn và là ch6 d a v ng ch.c v! v t ch t, tinh th(n ñ tôi hoàn thành chương trình khóa h c cũng như trong su t th0i gian hoàn thành lu n văn. M2c dù ñã có nhi!u c g.ng, nhưng do th0i gian có h+n và b n thân còn nh ng h+n ch nh t ñ nh nên lu n văn không tránh kh3i thi u sót. Mong nh n ñư,c các ý ki n phê bình, góp ý c a H i ñ7ng ch m lu n văn, các th(y cô giáo và ñ7ng nghi p ñ công trình nghiên c u ñư,c hoàn ch8nh hơn. Thái Nguyên, tháng 01 năm 2013 Tác gi Hoàng Th Ng c Mai Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn II L I CAM ðOAN Tôi xin cam ñoan lu n văn này là công trình do tôi t ng h,p và nghiên c u. Trong lu n văn có s) d*ng m t s tài li u tham kh o như ñã nêu trong ph(n tài li u tham kh o. Tác gi Lu n văn Hoàng Th Ng c Mai Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn III DANH M C CÁC THU T NG T p thô Rough Set H thông tin Information System H thông tin ñ(y ñ Complete Information System B ng quy t ñ nh Decision Table B ng quy t ñ nh ñ(y ñ Comple Decision Table B ng quy t ñ nh không nh t quán Inconsistent Decision Table Quan h không phân bi t ñư,c Indiscernibility Relation Rút g n thu c tính Attribute Reduction T p rút g n Reduct T p lõi Core Shannon entropy Entropy Liang entropy Entropy m"i c a Jiye Liang trong [28] Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn IV B NG CÁC KÝ HI U IS = (U , A,V , f ) DS = (U , C ∪ D, V , f ) H thông tin Cho b ng quy t ñ nh U S ñ i tư,ng C S thu c tính ñi!u ki n trong b ng quy t ñ nh u (a) Giá tr ñ i tư,ng c a u c a thu c tính a [ u ]B L"p tương ñương ch a u c a quan h IND ( B ) SB ( u ) L"p dung sai c a ñ i tư,ng u trên quan h SIM ( B ) U/B Phân ho+ch U sinh b'i t p thu c tính B BX B - x p x8 dư"i c a X BX B - x p x8 trên c a X BN B ( X ) B - mi!n biên c a X POS B ( D ) B - mi!n dương c a D PRED ( C ) T p t t c các rút g n d a trên mi!n dương HRED ( C ) T p t t c các rút g n d a trên Shannon entropy SRED ( C ) T p t t c các rút g n c a phương pháp ma tr n phân bi t ERED ( C ) T p t t c các rút g n d a trên Liang entropy NERED ( C ) T p t t c các rút g n d a trên Liang entropy v"i phân ho+ch c i ti n. MRED ( C ) T p t t c các rút g n d a trên metric KRED ( C ) T p t t c các rút g n d a trên ñ ño lư,ng tri th c khác nhau. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn V COREP ( C ) T p lõi d a trên mi!n dương COREH ( C ) T p lõi d a trên Shannon entropy CORES ( C ) T p lõi c a phương pháp ma tr n phân bi t. COREE ( C ) T p lõi d a trên Liang entropy. COREM ( C ) T p lõi d a trên metric COREK ( C ) T p lõi d a trên ñ ño lư,ng tri th c khác nhau. H ( P) Shannon entropy c a t p thu c tính P H (Q \ P ) Shannon entropy có ñi!u ki n c a Q khi ñã bi t P E ( P) Liang entropy c a t p thu c tính P E (Q \ P ) Liang entropy có ñi!u ki n c a Q khi ñã bi t P K ( P) Tri th c sinh b'i t p thu c tính P d ( K ( P ) , K (Q)) Metric gi a hai tri th c K ( P ) và K ( Q ) trên h thông tin ñ(y ñ s) d*ng kho ng cách Jaccard gi a hai t p h,p. DQP ( K ( P ) , K ( Q ) ) Lư,ng tri th c khác nhau gi a K ( P ) và K ( Q ) Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn VI DANH SÁCH B NG B ng 1.1. B ng thông tin v b nh cúm ........................................................... 6 B ng 1.3. B ng quy t ñ nh minh h a Ví d 1.3 ............................................ 18 B ng 1.4. B ng quy t ñ nh minh h a Ví d 1.4 ............................................ 46 B ng 2.1. B ng quy t ñ nh minh h a Ví d 2.1. ........................................... 46 B ng 2.2. B ng quy t ñ nh v b nh c m cúm ............................................... 53 B ng 2.3. B ng quy t ñ nh minh h a Ví d 2.5 ............................................ 57 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 1 L IM ð U 1. Tính c p thi t c!a ñ# tài Hi n nay, trên th gi"i có r t nhi!u thu t toán khai phá tri th c b9ng cách phân l"p và r0i r+c d li u như: S) d*ng cây quy t ñ nh, phương pháp th ng kê, các m+ng nơ ron, thu t toán di truy!n,...Trong m t vài năm g(n ñây, lý thuy t tâp thô ñư,c nhi!u nhóm nghiên c u ho+t ñ ng trong lĩnh v c tin h c nói chung và khai phá tri th c nói riêng nghiên c u và áp d*ng trong th c t . Lý thuy t t p thô ñư,c xây d ng trên n!n t ng toán h c v ng ch.c giúp cung c p nh ng công c* h u ích ñ gi i quy t nh ng bài toán phân l"p d li u và khai phá lu t,...Lý thuy t t p thô do Zdzisaw Pawlak ñ! xu t vào nh ng năm ñ(u th p niên tám mươi c a th k8 hai mươi - ñư,c xem là công c* h u hi u ñ gi i quy t các bài toán phân l"p, phát hi n lu t… ch a d li u mơ h7, không ch.c ch.n. T; khi xu t hi n, lý thuy t t p thô ñã ñư,c s) d*ng hi u qu trong các bư"c c a quá trình khai phá d li u và khám phá tri th c, bao g7m r0i r+c hóa d li u, rút g n thu c tính, trích l c các tri th c ti!m và sôi ñ ng c a các nghiên c u v! rút g n thu c tính. Ph(n l"n các nghiên c u này ñ!u t p trung vào ba phương pháp: phương pháp d a trên mi!n dương; phương pháp s) d*ng các ñ ño không ch.c ch.n và phương pháp s) d*ng ma tr n phân bi t. Lĩnh v c nghiên c u ñ ño không ch.c ch.n c a tri th c trong m y năm g(n ñây t p trung vào hai hư"ng ti p c n chính là entropy thông tin và h+t tri th c. M t l"p ñ2c bi t c a các h thông tin ñóng vai trò quan tr ng trong nhi!u ng d*ng là b ng quy t ñ nh. B ng quy t ñ nh DS là m t h th ng thông tin v"i t p thu c tính A ñư,c chia thành hai t p con khác r6ng r0i nhau C và D . Nói cách khác, DS = (U , C ∪ D ) v"i C ∩ D = ∅ . B ng quy t ñ nh là nh t quán khi ph* thu c hàm C → D là ñúng. ð i v"i b ng quy t ñ nh nh t quán, t p con các thu c tính ñi!u ki n R ⊆ C ñư,c g i là m t t p rút g n c a b ng quy t ñ nh n u R là t p t i thi u th3a mãn ph* thu c hàm R → D . N u xem b ng quy t ñ nh là quan h r trên t p thu c tính C ∪ D và D ch8 ch a m t thu c tính duy nh t {d } thì khái ni m t p rút g n trong b ng quy t ñ nh tương ñương v"i khái ni m t p t i thi u c a thu c tính {d } trên quan h . Khi ñó, các bài toán liên quan ñ n t p rút g n trong b ng quy t ñ nh có th gi i quy t b9ng các k t qu liên quan ñ n t p t i thi u c a m t thu c tính trên quan h trong lý thuy t cơ s' d li u quan h . Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 3 Xu t phát t; nh ng lý do trên, tôi ch n và nghiên c u ñ! tài lu n văn: “M t s phương pháp rút g n thu c tính trong b ng quy t ñ nh”. 2. M$c tiêu c!a lu n văn M*c tiêu c a lu n văn là tìm hi u m t s v n ñ! liên quan ñ n phương pháp rút g n thu c tính trong h thông tin và xây d ng chương trình th) nghi m m t s thu t toán liên quan ñ n t p rút g n trong b ng quy t ñ nh. 3. Các ñóng góp c!a lu n văn Lu n văn ñã có hai ñóng góp chính sau: Th nh t là nghiên c u m i liên h gi a các t p rút g n c a các phương pháp rút g n thu c tính, tìm hi u các ñ ño c i ti n ñánh giá hi u năng b ng quy t ñ nh và nghiên c u s thay ñ i c a các ñ ño này khi th c hi n các phương pháp rút g n thu c tính. Th hai là xây d ng toán heuristic tìm t p rút g n c a b ng quy t ñ nh ñ(y ñ s) d*ng Liang entropy và metric. 4. B c$c lu n văn Lu n văn ñư,c vi t trong ba chương, g7m 66 trang Chương m t khái quát v! t p thô và rút g n thu c tính. Chương hai trình bày k t qu nghiên c u v! ba v n ñ!. Th nh t nghiên c u m i liên h gi a các t p rút g n c a các phương pháp rút g n thu c tính, bao g7m phương pháp d a trên mi!n dương, phương pháp s) d*ng các ñ ño không ch.c ch.n (entropy thông tin, h+t tri th c) và phương pháp s) d*ng ma tr n phân bi t. Th hai là tìm hi u các ñ ño c i ti n ñánh gia hi u năng c a b ng quy t ñ nh và nghiên c u s thay ñ i c a các ñ ño này khi th c hi n các phương pháp rút g n thu c tính. Th ba là ñ! xây d ng chương trình th) nghi m thu t toán heuristic (Thu t toán 2.2, Thu t toán 2.4 và Thu t toán 2.5). Thu t toán 2.5 tìm t p rút g n Pawlak s) d*ng Liang entropy, Thu t toán 2.4 tìm t p rút g n trong b ng quy t ñ nh s) d*ng metric, Thu t toán 2.5 là Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 4 c i ti n c a Thu t toán 2.4 tìm t p rút g n theo tham s là ngư-ng ch.c ch.n c a b ng quy t ñ nh. Các thu t toán trên ñ!u có ñ ph c t+p tính toán trong th0i gian ña th c và hi u qu hơn các thu t toán khác ñã công b . Chương 3 Chương trình th) nghi m xây d ng b ng quy t ñ nh d a trên Thu t toán 2.4 tìm t p rút g n s) d*ng metric ñã trình bày trong Chương 2. K t qu th) nghi m c a chương trình th c hi n trên công c* mã ngu7n m' NetBeans IDE 7.1.2 Cu i cùng, ph(n k t lu n nêu nh ng ñóng góp c a lu n văn, hư"ng phát tri n và nh ng v n ñ! quan tâm c a tác gi . Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 5 Chương 1. KHÁI QUÁT V T P THÔ VÀ RÚT G N THU C TÍNH 1.1. H' thông tin H thông tin là công c* bi u di=n tri th c dư"i d+ng m t b ng d li u g7m P c t ng v"i P thu c tính và n hàng ng v"i n ñ i tư,ng. M t cách hình th c, nó ñư,c ñ nh nghĩa như sau: ð nh nghĩa 1.1. H th ng thông tin là m t b t IS = (U , A,V , f ) trong ñó U là t p h u h+n, khác r6ng các ñ i tư,ng; A là t p h u h+n, khác r6ng các thu c tính; V = ∏ Va v"i Va là t p giá tr c a thu c tính a ∈ A ; f là hàm thông tin, a∈ A v"i m i a ∈ A và u ∈ U hàm f cho giá tr f ( u , a ) ∈ Va . V"i m6i u ∈U , a ∈ A , ta kí hi u giá tr c a ñ i tư,ng u t+i thu c tính a là u ( a ) thay vì f ( u , a ) . N u B = {b1 , b2 ,..., bk } ⊆ A là m t t p con các thu c tính thì ta s> ký hi u b các giá tr u ( bi ) b'i u ( B ) . Như v y, n u u và v là hai ñ i tư,ng, thì ta s> vi t u ( B ) = v ( B ) n u u ( bi ) = v ( bi ) v"i m i i = 1,..., k . Cho h thông tin IS = (U , A,V , f ) . V"i m6i t p con các thu c tính p ⊆ A , t7n t+i m t quan h hai ngôi trên U , ký hi u là IND ( P ) , xác ñ nh b'i IND ( P ) = {( u, v ) ∈U × U | ∀a ∈ P, f ( u, a ) = f ( v, a )} . IND ( P ) ñư,c g i là quan h B - không phân bi t ñư,c. D= th y r9ng ñây là m t quan h tương ñương trên U . N u ( v, u ) ∈ IND ( B ) thì hai ñ i tư,ng u và v không phân bi t b'i các thu c tính trong B . Ký hi u phân ho+ch c a U sinh b'i quan h tương ñương IND ( P ) là U / IND ( P ) , vi t t.t là U / P . M6i ph(n t) trong U / P là m t l"p tương ñương hay m t kh i. Ký hi u l"p tương ñương U / P ch a ñ i tư,ng u là [u ]P , khi ñó, [u ]P = {v ∈U | ( u, v ) ∈ IND ( P )} . Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 6 ð nh nghĩa 1.2. [11, 12] Cho h th ng thông tin IS = (U , A,V , f ) v"i P, Q ⊆ A . Ta nói: 1) U / P = U / Q khi và ch8 khi ∀u ∈ U , [u ]P = [u ]Q 2) U / P ≤ U / Q khi và ch8 khi ∀u ∈ U , [u ]P ⊆ [u ]Q ; 3) U / P < U / Q khi và ch8 khi ∀u ∈ U , [u ]P ⊆ [u ]Q và t7n t+i v sao cho [ v ]P ⊆ [ v ]Q Tính ch t 1.1. [11, 12] Xét h th ng thông tin S = (U , A,V , f ) và P, Q ⊆ A . N u P ⊆ Q thì U / Q ≤ U / P . Tính ch t 1.2. [11, 12] Xét h thông tin IS = (U, A, V, ƒ) và P, Q ⊆ A . V i m i u ∈ U ta có [u ]P ∪Q = [u ]P ∩ [u ]Q . Ví d$ 1.1. Xét h thông tin IS = (U , A,V , f ) bi u di=n các tri u ch ng cúm c a b nh nhân cho ' B ng 1.1 v"i U = ( u1 , u2 , u3 , u4 , u5 , u6 , u7 , u8 ) , C = ( a1 , a2 , a3 ) v"i a1 (ðau ñ(u), a2 (Thân nhi t), a3 (C m cúm). ðau ñ)u U Thân nhi't C m cúm u1 Có Bình thư0ng Không u2 Có Cao Có u3 Có R t cao Có u4 Không Bình thư0ng Không u5 Không Cao Không u6 Không R t cao Có u7 Không Cao Có u8 Không R t cao Không B ng 1.1. B ng thông tin v b nh cúm Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 7 Ta có U / {a1} = {{u1 , u2 , u3} , {u4 , u5 , u6 , u7 , u8 }} , U / {a2 } = {{u1 , u4 } , {u2 , u5 , u7 } , {u3 , u6 , u8 }} , U / {a3 } = {{u1 , u4 , u5 , u8 } , {u2 , u3 , u6u7 }} , U / {a1 , a2 } = {{u1} , {u2 } , {u3 } , {u4 }{u5 , u7 } , {u6 , u8 }} Như v y, các b nh nhân u2 , u3 không phân bi t nhau v! ñau ñ(u ( a1 ) và c m cúm ( a3 ) , nhưng phân bi t ñư,c v! thân nhi t ( a2 ) . 1.2. T p thô Cho h thông tin IS = (U , A,V , f ) và t p ñ i tư,ng X ⊆ U . V"i m t t p thu c tính B ⊆ A cho trư"c, chúng ta có các l"p tương ñương c a phân ho+ch U / B , th thì m t t p ñ i tư,ng X có th bi u di=n thông qua các l"p tương ñương này như th nào? Trong lý thuy t t p thô, ñ bi u di=n X thông qua các l"p tương ñương c a U / B (còn g i là bi u di=n X b9ng tri th c s?n có B ), ngư0i ta x p x8 X b'i h,p c a m t s h u h+n các l"p tương ñương c a U / B . Có hai cách x p x8 t p ñ i tư,ng X thông qua thu c tính B , ñư,c g i là B -x p x dư i và B x p x trên c a X , ký hi u l(n lư,t là BX và BX ñư,c xác ñ nh như sau: BX = {u ∈ U | [u ]B ⊆ X } , BX = {u ∈ U | [u ]B ∩ X ≠ ∅} . T p BX bao g7m t t c các ph(n t) c a U ch.c ch.n thu c vào X , còn t p BX bao g7m các ph(n t) c a U có kh năng ñư,c phân lo+i vào X d a vào t p thu c tính B . T; hai t p x p x8 nêu trên, ta ñ nh nghĩa các t p BN B ( X ) = BX − BX : B - mi n biên c a X . U − BX : B -mi n ngoài c a X D= th y B - mi n biên c a X là t p ch a các ñ i tư,ng có th thu c X , còn mi!n B - mi n ngoài c a X ch a các ñ i tư,ng ch.c ch.n không thu c Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 8 X . S) d*ng các l"p c a phân ho+ch U / B , các x p x8 dư"i và trên c a X có th vi t l+i. BX = {Y ∈U / B | Y ⊆ X } . BX = {Y ∈U / B | Y ∩ X = ∅} . Trong trư0ng h,p BN B ( X ) = ∅ , X ñư,c g i là t p rõ, ngư,c l+i X ñư,c g i là t p thô. V"i B, D ⊆ A , ta g i B - mi n dương c a D là t p ñư,c xác ñ nh như sau POS B ( D ) = BX X ∈U / D Rõ ràng POS B ( D ) là t p t t c ñ i tư,ng u sao cho v"i m i v ∈U mà ta u ( B) = v ( B) ñ!u có u ( D) = v ( D) . Nói cách khác, POS B ( D ) = {u ∈ U | [u ]B ⊆ [u ]D } . Ví d$ 1.2. Xét h thông tin IS = (U , A,V , f ) ' Ví d* 1.1. V"i B = {a1 , a2 } và X = {u2 , u3 , u6 , u7 } ta có U / B = {{u1} , {u2 } , {u3 } , {u4 } , {u5 , u7 } , {u6 , u8 }} . Do ñó, BX = {u2 , u3 } và BX = {u2 , u3 , u5 , u6 , u7 , u8 } . Như v y, B -mi n biên c a X là t p h,p BN B ( X ) = {u5 , u6 , u7 , u8 } . N u ñ2t D = {a3 } thì U / D = { X 1 = {u1 , u4 , u5 , u8 } , X 2 = {u2 , u3 , u6 , u7 }} . BX 1 = {u1 , u4 } , BX 2 = {u2 , u3 } . Do ñó, POSB ( D ) = ( BX ) = {u1 , u2 , u3 , u4 } . X ∈U / D V"i các khái ni m c a t p x p x8 ñ i v"i phân ho+ch U / B , các t p thô ñư,c chia thành b n lo+i như sau: 1) T p X là B - xác ñ nh thô n u BX ≠ ∅ và BX ≠ U 2) T p X là B - không xác ñ nh trong n u BX = ∅ và BX ≠ U 3) T p X là B - không xác ñ nh ngoài n u BX ≠ ∅ và BX = U 4) T p X là B - không xác ñ nh hoàn toàn n u BX ≠ ∅ và BX = U . Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 9 1.3. B ng quy t ñ nh M t l"p ñ2c bi t c a các h th ng thông tin có vai trò quan tr ng trong nhi!u ng d*ng là b ng quy t ñ nh. B ng quy t ñ nh là m t d+ng ñ2c bi t c a h thông tin, trong ñó t p các thu c tính A bao g7m hai t p con r0i nhau: t p các thu c tính ñi!u ki n C và t p các thu c tính quy t ñ nh D . Như v y, b ng quy t ñ nh là m t h th ng thông tin DS = (U , C ∪ D,V , f ) trong ñó C ∩ D = ∅ . B ng quy t ñ nh DS ñư,c g i là nh t quán khi và ch8 khi ph* thu c hàm C → D nghi m ñúng, nghĩa là v"i m i u , v ∈ U , u (C ) = v(C ) kéo theo u ( D) = v( D) . Ngư,c l+i, DS là không nh t quán. D= th y b ng quy t ñ nh DS là nh t quán khi và ch8 khi POSC ( D) = U . Trong trư0ng h,p b ng không nh t quán thì POSC ( D ) chính là t p con c c ñ+i c a U sao cho ph* thu c hàm C → D ñúng. 1.4. T p rút g n và lõi Trong b ng quy t ñ nh, các thu c tính ñi!u ki n ñư,c chia thành ba nhóm: thu c tính lõi, thu c tính cơ b n (hay thu c tính rút g n) và thu c tính dư th;a (hay thu c tính không c(n thi t). - Thu c tính lõi là thu c tính c(n thi t và c t y u, không th thi u trong vi c phân l"p chính xác t p d li u. - Thu c tính dư th;a là nh ng thu c tính không c(n thi t, nghĩa là có th lo+i b3 các thu c tính như v y mà không nh hư'ng ñ n vi c phân l"p d li u. - Thu c tính cơ b n là thu c tính n9m trong m t t p rút g n nào ñó. Ta s> ñưa ra các ñ nh nghĩa chính xác như sau: Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 10 ð nh nghĩa 1.3. Cho b ng quy t ñ nh DS = (U , C ∪ D,V , f ) , thu c tính a ∈ C ñư,c g i là c(n thi t n u POSC ( D ) ≠ POS(C −{a}) ( D) . T p t t c các thu c tính c(n thi t trong DS ñư,c g i là t p lõi và kí hi u là COREP (C ) . ð nh nghĩa 1.4. Cho b ng quy t ñ nh DS = (U , C ∪ D,V , f ) . N u R ⊆ C th3a mãn: 1) POS R ( D) = POSC ( D) 2) POS R ( D) ≠ POSC ( D ) v"i ∀R ' ⊂ R thì R là m t rút g n c a C ' T p rút g n ñ nh nghĩa như trên g i là m t t p rút g n d a trên mi!n dương theo Pawlak. ð nh nghĩa 1.4 cho th y, R là t p rút g n n u nó là t p t i thi u th3a mãn POSR ( D) = POSC ( D) . Có th t7n t+i nhi!u t p rút g n c a C . Ta kí hi u PREDP ( C ) là t p t t c các rút g n theo Pawlak c a C . Khi ñó, R. COREP (C ) = R∈PRED ( C ) T; ñ nh nghĩa v! t p lõi và t p rút g n, ta ñ nh nghĩa thu c tính dư th;a và thu c tính cơ b n trong b ng quy t ñ nh như sau: ð nh nghĩa 1.5. Cho b ng quy t ñ nh DS = (U , C ∪ D, V , f ) và a ∈ C . Ta nói r9ng a là thu c tính cơ b n c a C n u t7n t+i m t rút g n R ∈ PRED(C ) sao cho a∈R . ð nh nghĩa 1.6. Cho b ng quy t ñ nh DS = (U , C ∪ D, V , f ) và a ∈ C . Ta nói r9ng a là thu c tính dư th;a c a C n u a ∈ C − R. R∈PRED ( C ) 1.5. Ma tr n phân bi't và hàm phân bi't Ngư0i ñ(u tiên xây d ng phương pháp rút g n thu c tính trong b ng quy t ñ nh là Skowron. Ông ñã ñưa ra khái ni m ma tr n phân bi t và hàm phân bi t, t; ñó ñưa ra phương pháp tìm t p rút g n s) d*ng hàm phân bi t. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
- Xem thêm -

Tài liệu liên quan