Đăng ký Đăng nhập
Trang chủ Khai phá dữ liệu trong sql server 2012.pdf...

Tài liệu Khai phá dữ liệu trong sql server 2012.pdf

.PDF
83
389
130

Mô tả:

TONG QUAN YE KHAI PHA DIY LIEU CHUCFNG 1. TONG QUAN VE KHAI PHA Dir LIEU 1.1. Khii niem va khai phi d* lieu 1.1.1. GM thifu vi Mai plui chi Wu Trong nhcmg am gin day, su phat then mph me ciut CNT'T va nganh ding nghiep phis cimg da lam cho kha ning thu nhap va Itru fru thong tin ciia cac thimg thong tin tang nhanh met cach cheng mat. Ben conh do viec tin hoc hea met each 6 at va nhanh chiong cac hoot dOng san xuat, kinh doanh cling nhu nhieu lInh Arc hog dOng khk di tio ra cho chimg to met lucmg de lieu luu tray Ichting 16. Hang trieu CSDL da dugc sir dung trong cac host dong san xuat, kinh doanh, wan trong do co nhieu CSDL cac len cot Gigabyte, thorn chi la Terabye. So bang nay din tin ye'u cau cap thiet la can co nhung k9 thuit va ding cu mei de to Ong chuyen doi Wong de lieu khang to Ida thanh the tri thirc co ich. Tir do, cac Id thuili khai pha de lieu di fro thanh met linh we then so dm nen cting nghe thong tin the giei hien nay. 1.1.2. Dinh nghia vi khai pith dfr lifu Phat hien tri thirc (Knowledge Discovery) trong cac co se du lieu la met qui trinh nhan biet the miu ho4c the mo Mob trong de lieu voi cac tinh fling: hqp thee mei, kha ich, va c6 the hiau duqc. Con khai thic de lieu (data mining) la men nge tuong del mei, no ra din vao . cua dun thap 4 1980. C6 nit nhieu djnh nghia khac nhau khoang nhfrng nam cu & khai phi de lieu. Giao su Tom Mitchell da dua ra djnh nghia cita khai pha de lieu nhu sau:" Khai phi de lieu la viec sir dung da lieu lich sir de kham phi nheng qui tic va cai thien nhcmg quyet djnh tong tuong lai". Veri met each ti6'p c4r1 ling dung han, tien si Fayyad da phat bleu:" Khai phi da lieu durang duqc xem la viec kham phi tri thirc trong cac co se de lieu, la meat qua trinh trich xuat nheng thong tin in, trues day chua hi& va co kha fling heu ich, duel ding cac quy luat, rang bu0c, qui tic trong co se du lieu". Con cac nha thong ke thi xem" khai phi da lieu nhu la min qua trinh phan tich dugc thiet ke tham do mitt luong coc len cac der lieu nhim phat hien ra cac miu thich hqp vil hok cac mOi quan he mang tinh he thing gifts cac hien va sau de se hqp thirc hoi cac ket qua rim duqc bing each ap dung the miu da phat hien duqc cho tip con ve mei cita de lieu". Trang 1190 A11278 — Doan Thanh Cong A11500 — Nguyin Dec Hoing TONG QUAN VE KHAI PHA DIY LI$U N6i tom lai: khai pha 80 lieu la met buoy trong quy trinh phat hien tri thirc gom co cac that town khai thic du lieu chuyen dimg dtrOi met se quy djnh ve hieu qua tinh town chap nhan duqc di tim ra cac mitt hoac cac me hinh trong dO lieu. 1.2. Cic bulk trong khai phi do Ilea 1.2.1. Clic ki thuOt khan ph6 drr lifu M3c du khai thic dfr lieu nhu lit met thuat nge tuong del mai, nhung hau bet cac ky thuat khai thic du lieu da ten tai tong nhieu nim. Ma tier than cita khai thic dur lieu deu xuat phat tir: thong ke, hoc may ya co so a lieu. Mot so thOt town khai thic d0 lieu, bao gOm ca hOi quy, chugi that wan, va cay quyet djnh deu duqc phat minh boi cac nhi thOng ke hqc. Ky thuorhei quy" CIA ton tai trong nhieu the kY. Cac thuat toan"chuOi than gian" di duqc nghien ciru trong nhieu thap ky. Thuat town thy quyet djnh la met trong nhieu k9 thuat gin day, co nien dai tir gifta nhUng nam 1980. Khan thic d0 lieu tap trong yao phat hien to (king ho#c ban qr ()Ong matt. Met di thuat town hoc may(machine learning) duqc lip dtmg cho khai thic dti lieu: a. Mang noron (Neural networks) Day la mot trong nhftng icy thuat khai pha du lieu dirge ling dung ph6 bien Men ' met nen tang town hqc vtIng yang, kha nang htan '' nay. K9 thuat nay phat trien dva ten luyen trong ky thuat nay (lira tren mil hinh than kinh trong trong cita con ngu&i. Kat qua ma mpg naron hqc duqc c6 kha nang tao ra cac mo hinh dv bio, dv doin yeti de chinh xitc yi dO tin cay cao. NO co kha nang phat hien ra duqc cac xu bluing phirc tap ma k9 thuat thong thubng Ichic kh6 c6 the phat hien ra duqc. Tuy nhien phuong phip tnang no ron rat phirc tap yi qua trinh tien Minh no g#p rat nhieu kh6 khan: doi hoi mat nhieu thai gian, nhieu 80 lieu, nhieu Ian lciem tra thir nghiem. b. Giii thuat di truyen Li qui trinh m8 phong theo tier hoi cua tSr nhien. Y Wang chinh cua giai thuat 11 dva vim quy luat di truyen trong bien dOi, chip Ice tv nhien yi tiers boa trong sinh hoc. Viec xay dvng cac thuat town di truyen me phong sinh hoc nhim tim ra cac giii phip tot What bao gem cac btreic sau: - Tao ra ca the ma di truyen dual long cac xau cita met bang ma lct tv han che. - Thiet lap mei tnrang nhan tao trorTh may tinh co cac giii phip co the tham gia"dau tranh sinh tO'n"veri nhau de zit djnh dO do thanh cong hay that thich nghi". hay con goi Trang 2190 A11278 — Doan Thanh Gong A11500 — Nguygn Thic Holing TONG QUAN VE KHAI PHA DIY LISU - Phat trien cac"phep lai ghep" de the gild phip ket hqp vei nhau. Khi do cac rcau mi di truyen cua giii phip cha va mg bi cat di vi xep lai, trong qua trinh sinh sin nhu vay cac kieu dOt bien co the duqc ap dung. may - Cung cap mot (lull the cac giii phip ban diu tucmg d6i da long vi a tinh thqc hien"cu(ic chai tien hem" bing each loci be cac gal phip tir min ca the va thay the chung bing cac con chin hoac cac dOt hien cua cac giai phip bk. Thu* wan se ket thitc khi mot h9 cac giiti phip thinh citing duqc sinh ra. Khai phi de lieu (KPDL) la viec frith chcm d.3c trtmg MI lieu mot each ty doting tir mot Si dii lieu 16n. Tri thin do thtrimg o cac ding maw c6 tinh chat khong tam thuong, An (khong twang minh) nhung 13i co the mang 13i ich lqi lam neu no duce sir clung dung chi). Co the coi KPDL 11 cot lai cfut qua trinh phat hien tri thac trong co so dii lieu (Knowledge Discovery in Databases — KDD) 1.2.2. Luling di lifu Khai thic der lieu la mot trong nhUng thanh vien quan trong trong data warehouse family. Trutmg hqp khai thic dft lieu nio la phu hqp veri dien kien ctla cac luOng der lieu trong mot kith bin kinh doanh dien hinh? Hinh sau minh h9a mot luting dir lieu doanh nghiep dien hinh ma khai that der lieu co the duqc ap dung trong cac giai down Ichic nhau. Application -4 Si ill O Data Mining P- ♦4 • Online transaction Processing (OLTP) ••■ Onlbe Analytical Processing Hinh 1: M6 hinh khai phti du lieu doanh nghiep Trang 3190 A11278 — Doan Thanh Cling A11500 — Nguyln Dire Hoing TONG QUAN VE KHAI PHA Dir Met ung dung kinh doanh luu till the dt1 lieu giao Bich trong met ca so &I lieu bb 15, giao djch true tuyan (online transaction processing- OLTP). Cie clit lieu OLTP duqc chiet xuat, chuyin doi va nap vio data warehouse met each thuong xuyen. Luqc itO Gila data warehouse thuimg khic nhau tir met luqc 46 OLTP. Met lucre d6 data warehouse dk tnrng cob hinh ding du met ngoi sao hay met bong tuyet.V6i bang giao djch o chinh gifta luqc 46 va dtrqc bao quash bei met be dimension tables(cic bang kich thubc). Tnnk lien, vi ph6 hien nhit, khai that dO lieu co the duqc by dung cho cac kho dO lieu nth ma dft lieu di duct lim mtch. Cac miu duqc phat hien bed cic mo hinh khai thic c6 the duqc trinh bay cho cite nhit quan lt tiep chi thong qua the bio cao. Khai thic dft lieu co the c6 met lien ket true tiep den cic ling dung kinh doanh, ph6 bien nhit la thong qua cac du doin. Nh(mg khai thic dft lieu vio ling dung kinh doanh dang ngay met phO bien han. Vi du: Trong met kich bin bin hang qua Web, met khi met khach hang dit met sin vio trong gio hang, met du bao troy van khai thic der lieu duqc thuc hien de c6 duqc mot danh sich cic sin phAm duqc de nghj dua tren phin tich. Khai thic du lieu cling co the duqc cip dung de pit tich kh6i OLAP, la met cc so du lieu da chieu ved nhieu kich thubc vi don vi do. Kich thy& c6 the len den hang trieu bin ghi do d6 se kho khAn cho vier tim ra mo hinh quan tan. Ky thubt khai thic dO lieu c6 the duqc ap dung de kham phi ra cac mo hinh an trong met khoi OLAP. Vi du: Met thulit than lien ket co the duqc bp dung cho mot Ich6i ban hang, phin tich mau mua ctia khich hing cho met vimg cµ the va then gian. Chling to c6 the ip dung ky thubtIchai thic dO lieu de du bao cac bien phip nhu ban hing vi lqi nhubn. Trong 4190 A11278 — Doan Thanh tong A11500 — Nguyin Due Hoing TONG QUAN VE KHAI PHA D() LISU 1.2.3. Yong did min m#t dv tin Heal phd dit Eavaluboo of Data Hag Transfortution I Clean-mg Praprocetsr4 Selection Preto-ton qp- Gathering 40! IIlai Ktnit ir i' rin, — . Dot Dlia Alli I erarafra" 4r Target Data Cleansed Preprocessed 14Warted Data Hinh 2: Yong doff aia men dv an khai phti du lieu. a. Gom du lieu (gathering) va Trich lqc du lieu (selection) Gom du lieu: Tap hqp du lieu la boat dau tien trong khai phi du lieu. Busk nay lay du lieu tir trong mOt co so de lieu, mOt kho dft lieu, them chi di' lieu tir nhimg nguon cung Ong web. Trich lqc du lieu: O giai down nay du lieu duqc lira chon va phfin chic theo mOt se lieu chuan nao d6. c. Lam sach va tiers xir 15r der lieu (cleansing prepocessing) a ga be hoac lam giam nhieu vi each Lam sach de' lieu: Day la qua trinh xir ly xir 15, cac gia tri khuyet. Burk lam giarn su mop mer khi hqc. Phan tich stir thich hqp: Nhieu thuOc tinh trong du lieu co the khOng thich hqp hay khong can thiet de phan loai. Vi vay phop phan tich sar thich hqp duqc the hien teen der lieu veri muc dich ger be bat lck nhung thuOc tinh khong thich hqp hay khong can thiet. Trong hqc may bait nay duqc gqi la trich hoc dac tnrng. Phip phan tich nay giup phan loci hieu qua va nfing cao kha rang ma rung. Trong 5190 A11278 — Doan Thinh COng A11500 — Nguyen Dirc Hoang TONG QUAN VE KHAI PHA Dti Giai doan nay la giai don hay bj sao ling, nhtmg thuc 4 no la med buck rat quan trqng trong qua trinh khai phi de lieu. M6t s6 16i thubng mac phai trong khi gom de lieu la de lieu khong day du hok khong thong nhat, thieu chit chi. Vi 4y du lieu thubng chfra cic gia trj vo nghia va kh8ng co kha ning kit not du lieu, vi di; Sinh vien co tuai=200. Giai doan nay nh&m xir ly cac de lieu nhu tren (de lieu vo nghia, de lieu khong co kha fling kit nai). Nheng de lieu ding nay thubng duce xem la thOng tin du thin, khong c6 gia tq. Bed viy day li mOt qua trinh rat quan tong. Neu de lieu khong duqc lam such - tiers xi: ly - chuan bj threw thi se gay nen nheng kit qui sai tech nghiem tang ve sau. d. Chuyen d6i de lieu (tranformation) Trong giai doan nay, de lieu co the duqc to chile va sir dung lai. Muc dich ctia viec chuy'en dal de lieu li lam cho de lieu phit hqp han veri muc dich khai phi de lieu. De lieu co the duqc tong quit him teri cac mirc khai niem cao han. Dieu nay rat him ich cho cac thuk tinh co gia tr1 lien tuc. Vi du, cac gia trj so cua thuk tinh thu nhip duce tang quit hoa sang cac pham vi rai rac nhu thap, twig binh va cao. Tuang Ur, cac thutjc tinh gii trj nhu dtrimg ph6 dirge tong quit hoa ten khai niem cao han nhu thinh ph6. Nher do cac thao tic vio/ra trong qtth tint' xir li se it di. De lieu co the duqc tieu chuan h6a, &lc biet khi the mpg na-ron hay cac phuong phap dung phep do khoing each trong cac buck xir H. Tieu chuan hoa bien dot theo ty le tat ca cac gia trj cita mOt thuk tinh cho truck de chfmg rai vao pham vi chi djnh nhu [-1,0;1,0] hay [0;1,0]. Tuy nhien dieu nay can cher cac thutjc tinh co pham vi ban &anion (nhu thu nhip) co nhieu inh huerng dal veri cac thuk tinh c6 pham vi the) han ban dau (nhu cac thuk tinh nhj phin). e. Phut hien va trich mau de lieu (pattern extraction and discovery) trong giai doan nay nhieu thuit toan Day la butc to duy trong khai phi de khac nhau di duqc sir dung de trich ra cac man tir dft lieu. Thuit town thubng dimg de trich man de lieu li thuit town phan loci dir lieu, kit hqp MI lieu, thuit town ma hinh hoa de lieu min ur. Li mOt trong cac buerc quan IA:mg nhat vi tan thin gian What cita qua trinh KDD, trong d6 sir dung nheng phuang phip thong minh de chat Ice ra nhimg nth dt1 lieu. Chu yeu la cac k9 thujt ciut machine learning (hoc may) de khai phi, trich chon nheng mau (patterns), cac rang bu6c lien he (realionships) biet trong dit lieu Trang 6190 A11278 — Doan Thanh Cong A11500 — NguyIn Dim Hoing TONG QUAN VE KIIAI PHA Din Lieu C6 the cac mo hinh khong china cac mau c6 the sir dung. Co the la dft lieu hoin than ngiu nhien hoc dft lieu c6 qua nhieu thong tin gay nhieu. Dieu nay you cau can phai lap lai cac buoy lim sach vi chuyin doi dft lieu de chit lqc ra cac dft lieu c6 nghia ham. Day la met qua trinh lap lai vi tot dill len de dtra ra cac th6ng tin phi' hqp, coy nghia yeti ngtrai quan trf f. Dinh gia ket qua ink vi bleu dien tri thirc (evaluation of result and Knowledge presentation) Day la giai doan curfoi sung trong qui trinh khai pha &I lieu, a giai doan nay cac matt dft lieu duqc chiet xuat ra bai phan mem khai phi du lieu. KhOng phai man der lieu nao cling hftu ich, d8i khi no can bi sai tech. Vi vay can phai dua ra nhiing lieu chuir' danh gia do uu tien cho cac mttu der lieu de rut ra duqc nhemg tri link can thiet. Bieu dien tri thfrc: sir dung cac kgr thuit de bien dien vi the hien tivc quan cho nguiri dung. Cac citch bieu dien nen a clang gait gui vi de hieu vai ngtriri dung nhtr clang dri thj, cay,... de dua ra cac bio cao gulp ngtreri quan tri co the dua ra cac quyet djnh mang tinh chat quan tong. 1.2.4. Chain khai phsi din life SAS: la nhit cling cap san pham khai phi de lieu tau uhit .4 mat thi. phan. Dung dau trong linh vuc thOng ke trong nhieu thop kY. Co sa SAS chira met be rat phong pith cac chile ning thOng ke c6 the duqc sir dung cho tit ca cac loai phan tich din Ho trq khai thic van ban, moi tnrimg di) hqa di xay dung cac mg hinh, co cac thuat toan khai thic dit lieu phi') bier nhu: cay quyit djnh, mang naron, hOi quy... SPSS: gOm cac san pham khai thic &I lieu nhu"SPSS base"vrAnswer Tree. Ke thira gOi khai thic dft lieu Clementine — mot trong nhiing cong ty Mu lien gith thieu cac khii them luOng khai thic dft lieu, cho phip ngtrai ding lam sach dft chuy'en dOi der lieu vi thvc hien cac mo hinh thin nghiem IBM: sin pham khai thic dft lieu la Intelligent Miner a Disc. N6 chira mitt tap hop cac thuat than va cac cling cu tnrc quan. Dun ra nhiing me hinh khai thic du lieu trong Predictive Modeling Markup Language (PMML). PMML la cac file XML chira me to cim cac matt me hinh vi so lieu thong ke cua cac dirt lieu mau vai !nue Bich du bao Microsoft la nha cung cap dft lieu chuyen nghiep dau lien bao gilm cac tinh ring khai thic trong met ca se der lieu quan he. SQL Server 2000 c6 hai thuat toan khai thic dft lieu la: Microsoft Decision Tree vi Microsoft Clustering. Vai cac phien bin Trang 71 90 A11278 — Doan Thinh Cong A11500 — Nguyen Dim Hoang TONG QUAN VE KHAI PHA DIT LI$U tiep theo cua SQL Server la 2005, 2008, 2012 cic tinh rang khai phi co kr chi lieu ngly cang duqc rang cep va sin phew ctia Microsoft ngly cang chiem linh thj truang Oracle: Oracle 9i twit xtremg vao nim 2000, oft met cap thu#t town khai thic du lieu dtra tren association (141 kit hqp) va Naive Hayes. Oracle lOg bao gam nhieu cong cv va thu#t toin khai thic de lieu hon. Oracle cling kit hqp veri Java Data Mining API la gai phin mem cho khai phi der lieu Angoss: chit yeu xay (tong ck th41 toin decision trees, cluster analysis vi cic me hinh du doin cho phep nguiri dung hieu de lieu ctia ho tir nhieu quan diem khic nhau. Cic th4t win duqc ha trq ben cong co troc quan manh me et4 giii thich flitting tri thirc khai phi duqc, n6 ding liun viec tot vai cic lien ich cita he quan trt Microsoft SQL Server KXEN: cung cep mot s6 thuol town khai phi de lieu nhtr: SVM, regression, time series, segmentation...Va cic giai phip khai phi de lieu cho khei OLAP. Ngoai ra, cung cep tien ich Excel add — in de khai phi di lieu trong moi truerng Excel. 13. Cic hiring dip clin den yin 1.3.1. Kiln Ink Su min a khai phi do lieu he thing khai phd Aar Mist Co se du lieu: gam kho de lieu hoc ck cich luu tra thong tin khic (Database, data warehouse, worldwideweb, information repositories). Day la mot hay mot tip cic CSDL, cic kho der lieu, cic trang tinh hay ck dung luu tre thong tin khic.Trong nheng tinh hung co the, thanh phan nay la nguan nh#p (input) dm ck kt thuftt tich hqp va lam such de May chit CSDL hay may chti kho dit lieu (Database or Data warehouse server): may chit nay c6 trich nhiem ley nhemg de lieu thich hqp dtra tren cic you aulchai phi cua ngtroi dung. Trang 8190 A11278 — Doan Thanh C8ng A11500 — Nguyen Dire Hoang TONG QUAN VE KHAI PHA DIY LltU Giao difm ad hos wen Wog Ulm !nog miu May khai phi da, liiu May chi' CSOL hay kho dat lido Lim each yi doh hqp SY lido Co so de, lido Kho canidu Co. so tri thtk (Knowledge base): duqc dung de lureng dan qui trinh tim kiem, danh gia the mau ket qui duqc tim they. Ca sa tri thirc c6 the 11 the phan cap khai niem, niem tin ciia ngutri sir dung, cac ring but* hay the ngtrecng gii tri, sieu &I lieu... May khai pith du lieu (Data mining engine): Thinh phan nay chira cic khai chirc ming thuc hien tac vu khai phi da lieu nhu: die trung h6a, ket hqp, phan lop, phfin cum, phan tich su tien Module danh gib malt (Pattern evaluation): Thinh phin nay c6 the duqc tich hqp vio thinh phan Data mining engine. NO co the dung cac nguOng ve do quan tam de 19c mau da kham phi duqc. Cling co the module danh gia mau duqc tich hqp vio module khai phi, toy theo su cii dit ctia phucmg phip khai phi duqc dung. Giao di en do hpa nguai dung (Graphical user interface): Wang tic gift nguai sir dung vi he thing khai phi du lieu. Thinh phin ha trq su - Nguiti sir dung co the chi djnh cau troy vin hay tic vu khai phi du lieu. - Ngubi sir dung co the duqc cung cap thong tin ha my vies tim kiem, thuc hien khai phi du lieu saw hcm thong qua cic ket qui khai phi trung gian. - Ngtroi sir dung sung co the xem cic Itrqc dO co s6 dit lieu/kho der lieu, cac eau trite chl lieu; dinh gia cic mau khai phi duqc; true quan hea cac mau nay a cic clang khic nhau. Trang 91 90 A11278 — Doan Thanh Gong A11500 — Nguyen Disc Hoing TONG QUAN VE KHAI PHA Dir tau 1.3.2. Clic chic sang chills ciao Mai pho dile lieu Cac chfrc nang nay duqc the hien qua a. Dac trtmg hem va phan biet: Dac flung h6a 11 viec tong ket town b0 the dk diem hay cac tinh chat chung cua mot lop du lieu dich. DO lieu d6 twang Ung veri mot kip do ngtthi dung dac ta bang mot cdu truy van CSDL. DO lieu tra ve ctia qua trinh ddc hung hem co the &the bieu dien bang nhOng khuon ding khic nhau. b. Phan tich sv ket hqp: La kham pha ra cac luat ket hqp trong mot tap lern dO lieu. Cac IWO ket hqp the hien m6i quan he glad cac gia tri thuOc fink ma ta nhan thdy duqc to tan suat xuat hien ding veri nhau. Cac ludt ket hqp duqt kham phi to mot tap lern cac ban ghi giao dich trong kinh doanh vi nhOng luat coy nghia co the gitip cho cac nha doanh nghiep ra quyet dinh. c. Phan lop va dtr down: Phan lop la qua trinh tim mot tap cac m8 hinh (hoac cac clue= nang) m8 ta va phan biet cac lop du lieu. Ck mo hinh nay se duck sir di ving cho ink dich dv doin ve lop cua mot s6 d6i twang. Vi'ec xay dvng m8 hinh dva tren sv phan tich cita mitt tap cac dir lieu huan luyen, mitt m8 hinh nhu vay co the duck bleu dien trong nhieu Bang: ludt phan 16p, cay quyet dinh hay mpg naron... De phan lop vi dv doin co the thvc hien tunic mot sv phan tich thich hqp. Sr phan tich d6 nhitm xac dinh nhOng thutjc firth kheng tham gia vi qua trinh phan lop vi dv down, cluing se bi loai tth sau buerc nay. d. Phan cvni: !Chong gating nhu phan lop vi dv down, phan cvm se phan tich cac dai twang clit lieu khi chua biet nhan cfia lop. Cac d6i twang Sr phan cvm co attic dich nh6m cac dEti tuqng lai then nguyen trong ding mot nhom giot ng nhau a mt.= cao nhit vi cac d6i thong khac nhom giting nhau it nhat. e. Phan tich phan ter ngoai cuOc: Trang 10190 A11278 — Doan Thinh Cong A11500 — Nguyen Mc Hoang TONG QUAN VE ICHAI PHA Dli LL$U Min so CSDL c6 the china cac din wag du lieu khong tuan theo me hinh der lieu, nhiing del tuqng nhu viy gel la phin tin ngoai cuOc. Hiu het cac phuong phap khai pha der lieu deu coi phin tin ngoai cuec la nhieu va loii be chung.Tuy nhien trong met se ling dung nao d6 nhu phat hien nhieu ching han, cac str viec hiem khi xay ra lai duqc quan tam hon nhting gi thuirng xuyen phai. Sr phan tich du lieu ngoai cuOc xem nhu la sr khai pha cac phin tin ngoai cuoc. C6 met so phucrng phap de phat hien phAn tir ngoai cuOc: dung cac test mang tinh thong k8 tren co so met gia thiet ve phan phoi du lieu hay met me hinh xac suit cho dit lieu, dung cac phucmg phap dva ten dt) tech di kitm tra sv klik nhau tong nhcmg di c trung chinh cita cac del tuqng tong met nh6m. 1.3.3. Cdc dong dfr lit'u cti thi khai plod Nhu chimg ta di biet, tri thirc cua nhan loci la tong hoa cua cac mot quan he, lien quan met thiet, logic yeti nhau va duqc hat tnlr duoi clang du lieu thy du lieu kia.Trong thvc to c6 rat nhieu me hinh co so de lieu, my nhien trong cac linh vvc Ung dung cy the khac nhau, chung ta c6 the dinh nghia va phan biet ra rat nhieu ding du lieu sao cho thuin lqi nhAt tong qui trinh sir dung. Khai pha du lieu c6 kha ning chip nhin met se kik' du lieu sau: Ca so. du lieu quan mo hinh clft lieu quan he (relationnal databases): la cac dit lieu duqc to chat theo he fit phe hien trong nhieu nginh. Do d6 hiu het cac he quan tri cc se dir lieu dEu he trq dung co sa du lieu quan he nhu Oracle, MS SQL Server, IBM DB2, MS Access... Ca see da lieu da chieu (multidimensional structures, data warehouses): day cling la clang dft lieu tac nghiep c6 cac ban ghi that:mg la cac giao tic. Dang du lieu nay cling phe hien hi'c1/41 nay. Ca set dit lieu quan he - Wong dei tuqng (object relational databases): la clang du lieu lai giera hai me hinh quan he va hut:mg del tuqng. Du lieu khong gian, thoi gian va chuti thoi gian (spatial, temporal and time series data): la clang de lieu ca tich hop thuoc tinh ve khong gian dit lieu nhu dit lieu ban at mang cap dien thoai hoic thiri gian nhu dft lieu ark dien thoai, phat hanh bao chi, chi se chimg khoan... Trang 11190 A11278 — Doan Thanh Cong A11500 — Nguyen Dirc Holing TONG QUAN VE KHAI PHA Dir tau Ca so' du lieu da phieang tien (Multimedia databases): la dang de lieu am thanh, hinh inh, text & WWW... Dang de lieu nay nit phong phit, da dang va duqc phi') bien rOng rdi, nhAt la tr'en intemet. 1.3.4. Nhung vin di kho khan trong khai phi dir Iteu a. VAn de ve Ca SO De Lieu DAu vao dm met he thong khai phi de lieu thuang la tap cac de lieu the, so nhieu Inc kh6ng dAy dit va 131 nhieu. Ngoai ra trong thvc to de lieu lai luon bien dong khong ngUng va duqc b6 xung lien fix tao thanh mot Itnyng de lieu Ichiing to chira ding ca nheng th8ng tin c6 ich va khong c6 ich. Chinh vi voy trong bAt kY met he thong khai pha da lieu nio viec dAu fien can lim la phin tich va xem xet co se de lieu ma he thong khai phi. b. Co sa de lieu lot Viec sir dung cong cu phan tich true tuyen khong khai thic het duqc nhemg thong tin dm CSDL hien the& chinh vi v'ay nheng floral xir ly de lieu khong con each nao khk la Itm de lieu lai de phuc vu cho muc dich sir dung sau nay. Der lieu dtrqc hru chira dung ca thong tin co ich va vo ich. Viec tich ley nay ngay tang len va cho den nay cac CSDL tai hang trieu ban ghi c6 kith think len den Tetabytes. Tity timg img dung cu the, viec lam nhu nio de loai 136 de lieu china, nheng thong tin ve nghia lai c6 nheng each khic nhau. Vi vOy phucmg phip xir lY de lieu het sire da clang va phirc tap, khong co met quy tic chung cho moi irng dung. c. SO chieu dit lieu Ian Tip de lieu thvc chat la mot tap cac so do tar mei tnrang hok qua trinh. Twang hqp don gian that, chimg to co tap hqp cac dOi ttnyng, moi del tucmg co mot tap p se. do. SO do chinh la thuec firth dm dive the (dti tam, ban ghi...). Cimg vet you au cim thOng tin la da clang va dAy do ma de, lieu can luu duqc thi se Itrottg thuOc tinh cfmg can phai nhieu len. MOi thuOc tinh co the &Km cm la mot chieu trong khong gian CSDL. Chinh vi the se chieu cita bai town trong he khai phi de lieu ming rat len. MOi tap du lieu c6 so chieu Ian se lam tang khong gian tam kitm cea mo hinh. Bien phap khic phut vim de nay la phai giam s6 chieu cea de lieu can khai pha va sir dung cac tri thirc ca sin de" loai be, nheng bien Wong pho hqp. d. Du lieu thay dei lien Ate Trang 121 90 A11278 — Doan Thanh Ding A11500 — Nguyen Dire Holing TONG QUAN VlE KHAI PHA Div LIEU Hau ha cac CSDL c6 n6i dung thay d6i lien tic theo thai gian va gay ra he qua la viec khai phi du lieu bj anh hiking tai theri diem quan sat du lieu. Viec thay dbi dit lieu nhanh cheing co the lim mat gii trj cue cac min truck do, lion nfra cac bien trong CSDL city img dung dA cho cling bj thay da, bj x6a hok bj tang len theo thbi gian. e. Cac thu6c tinh der lieu khong phu hqp MOt dk diem quan trong cue CSDL la tinh khong phu hqp cue dr lieu. Nghia la rinic du lieu tit thinh khong thich hqp veri y nghia hien tai cita viec khai pha. Mq't khia canh lchic aim tinh khong phu hqp cua thu6c tinh do la gia trj cue thuOc tinh do khong phin anh duqc y nghia hien tai ma chi thich hqp trong lich sir cue no. f. Dit lieu khong day di* Viec thiEu hut khong day du 6 day bao ham ca su khong day du ve gia trj va thuOc tinh coa dll lieu. Su co mat hay khong c6 tn4 elm gia trj cac thu6c tinh phu hqp inh haring rat 16n den viec khai phi der lieu. Viec quan sat khong day diz mat CSDL den den dua ra cac Met luon sai lam, tri thirc khai phi duce co the sai tech veri thuc g. Ck van de khic Der lieu bi nhieu: ngoli viec du lieu bj 161, khong day dd thi ban than du lieu cling tier!) An kha nAng bj nhieu. Van de Overfilling: Vii cac he thong khai pha der lieu theo mo hinh hqc giam sit, tiro la hoc theo tri thirc dA biEt auk, khi do viec khai phi du lieu co the se xay ra tinh trong qua phi' hqp veri Met qua dA Met. Nghia la ket qua cita mo hinh phu hqp vai tap dit lieu hart luyen nhung lei khong this stir dua ra cac tri thirc tot theo nghia img vai tap der lieu kiem tra. BE khic phuc tinh twig nay thtrang phai thuc Men them viec kiEm tra cheo (cross validation) dE dinh gia m6 hinh, ho*c sir dung Men phip thong ke ca diEn. Kha fling twang tic veri nguari sir dung: nit nhiEu ding cu khai phi dit lieu kung thvc sr c6 kha nAng twang tic veri ngtreri sir ding va khong a ding icat hqp v6ri cac tri thirc dA biet trtrerc d6. Co nhieu Men phitp Mile phuc van de nay nhu sir dung CSDL suy dien phat hien tri thirc,nhting tri thirc nay sau do sir dung de huang den cho viec tim lciem, khai phi dll lieu hok sir dung sr phan b6 xic suet du lieu nhu mat dang ma hem tri thirc co sin. 'Chi sing tich hqp vai he thong khic: Mdt ling dung de dat duqc hieu qua cao va link ho.t can co kha ning tich hqp veri cac he thong khac. Nhtmg tre'n dive to viec nay Trang 13190 A11278 — Doan Thanh Ding A11500 — Nguyen Dire Hoing TONG QUAN VE !GUI PHA DI! LIEU kha kho khin trong cac he khai phi de lieu. Dieu fly xuat phat tir chinh trong cac 1c9 thuit khai phi de lieu li phai xiy clung *It mo hinh pha hqp de tim ra cac min du tnmg. 1.4. Xu hiring nghien cfru vi vier irng dung cis khai phi d* lieu hien nay 1.4.1. Man nghiin criu vvc mai vi mic de can rat nhieu van de chug duqc Khai phi de lieu li mot nghien ciru melt cic chgon vgn, nhung tiem ning vi khi ning ang dung caa no rat cao vi di duqc chimg minh qua nhieu Ling dung thvc te. Hien fly co mot so huemg nghien ciru ma khai phi de lieu quan tam den: OLAM (Online Analytical Mining): li sr tich hqp gala CSDL, kho dir lieu vi khai phi de lieu. MOt s8 he ca sec a lieu hien nay nhu Oracle, MS SQL Server da tich hqp xiy citing kho de lieu vi phan tich tnrc tuyin (OLAP). Nhcmg tinh nang nay duqc he trq dtrai dang cac Ong cu di kem vi nguai sir ding phii mua de sir dung. Cac nhi nghien eau trong rah vvc CSDL can mutin co them sv tich him giea CSDL, kho de lieu vi khai phi dir lieu. Khim phi duqc nhieu tri thirc khic nhau tit cac kieu de lieu Ichic nhau. Tinh chinh xac vi hieu qua, kha ning ma ring vi tich hqp, xir ly de lieu bt nhieu, khong day da vi tinh c6 ich cira tri thirc duqc khim phi. Van de non ngO troy van trong khai phi dit lieu phii cung cap cho ngtrai sir dung mot neon nge thuin lien, gait gfri nhu SQL trong CSDL quan he. Khai phi de lieu di duqc ling dung rat thinh tong trong CSDL thi trubng. Day li mot phtrong phi phan tich CSDL khich hang, tim kiem cac man trong sot cac khich hang vi sir dung cic ink nay de Iva chop cac khich hang nem ning trong tucmg lai. Tap chi Business Week caa my da dinh gii co ham 50% cic nhi bin le dang vi c6 (lath sir dung CSDL thI taking cho host dOng kinh doanh tea ho. Cic ling dung khac tea khai phi de lieu trong kinh doanh nhu phin tich tht tnkmg chimg khoin, phin tich van kien tai chinh, phan tich vi bio cao cac thay doi de lieu bin hang sieu chi... 1.4.2. Ong dyng csia khai pith der Wu trong Myr ti Khai phi do lieu lien quan den nhieu nginh nghe, nhieu Iinh Arc nhu: thong ke, tri tue nhan tao, he chuyen gia, CSDL, thuit town, tinh song song... Meat he thong khai phi du lieu dien hinh bao gom cic phuong thee, thuit town, k9 thuit tir nhieu filth vvc khic nhau. Diem chung giea cic he thong nay la tau trich rat tir cac kho de lieu co kith thuerc rat lem. Trang 14190 A11278 — Doan Thanh Cimg A11500 — Nguyen Dirc Hoing TONG QUAN VE ICHAI PHA Do- tau Khai pha dit lieu duqc sir dung trong rat nhieu cac linh vtic khoa hue, kinh doanh...: Bao hiem, tai chinh va chimg khoan: a day khai pha dit lieu co nhiem vµ phan tich tinh hinh tai chinh, dg bao gia, chi se cac loai co phieu, phan tich du lieu the tin clung phat hien gian lan tai chinh Thong ke, phan tich dit lieu ha trq ra guy& dinh: dtra vao s6 lieu c6 sin, phan tich dit lieu de dua ra nhi-mg quyet dinh dung luc, co lqi nhat Dieu trj y hoc, chain sec y te: mot so thong tin ve chuin down benh km trong he thOng quan l$, benh vien, tit do phan tich mOi lien he gifta cac chirng benh, chuin down benh de dua ra phuong phap dieu trj. Test Mining va Web Mining: phan 16p van ban va cac trang web, tom tit nOi dung van ban, tir do co the Whom cac van ban, trang web theo clang chi de, lqc be cac trang dOc hai. Quin trj mpg, phat hien truy cap bit thuerng: Phan tich der lieu troy cap de phat hien cac truy cap bit thirimg hay cac truy cap veci muc Bich xAu. Linh vvc khoa hoc: quan sat thien van, de lieu gene, dit lieu sinh vat, tim kiem so sanh cac he gene va thong tin di truyen... 1.4.3. ling dyng cite khai phd dir1ifu trong Wee gitii quyit Sc nhom bei Win kink doanh Phan tich khach hang: Nhitng khach hang nao co nhieu kha nang chuyen sang den thu cash tranh? Vien th8ng, ngan hang, bao hiem la nheng nganh cong nghiep Clang phai dOi mat nghiem gong v6i yin de can!' tranh hien nay. Trung binh moi thue bao dien thoai moi tieu tan khoang 200$ diu to tiep thj. Chuan analysis c6 the the gulp cac nha quitn ljr tiep thj hi'eu duqc 15, do thay doi caa khach hang, cal thien quan he khach hang, va can ding tang khach hang trung thanh. Ban hang cheo: Nhimg san phan nao la khach hang co the mua? Cross-selling la mOt thach thirc kinh doanh quan tong cho cac nha ban le. Nhieu nha ban le dk biet la cac nha ban le trrc tuyen, sir dung tinh fling nay de tang doanh se ban hang cila hce.Vi dv, neu ban ghe tham cira hang sach truc tuyen Sur Arnazon.com hay Barnes and Noble.com de mua mOt cam sach, ban c6 the nhan thiy ring cac trang web nay cung cap cho ban mOt tap hqp cac kien nghj ve sach lien quan. Nhitng khuy'en cao nay co the dirge bit nguen tit viec phan tich va khai thac di: lieu. , Trang 15190 A11278 — Doan Thanh Cong A11500 — Nguyen Dirc Hoang TONG QUAN Nit KHAI PHA Hos tau Day c6 phai la mit you au b6i thuing gian Lan bao hiem? Phcit hien gian COng ty bao hiem xir 15, hang ngan tuyen ha mit ngay. Khong de ding cho ho de dieu tra tirng tnrOng hqp. Khai thic du lieu co the glop xac djnh nhimg you cau ma nhieu kha nang la sai. Quan ly nii do: Khoan vay do nen duqc chip than cho khach hang nay khong? Day la cau hoi ph6 biEn nhat trong kjch ban ngan hang. K9 that khai thic de lieu co the duqc sir dung de diem mirc di rdi ro ctia khach hang, giap quan 15, din ra quyet djnh thich hqp cho mai img dung. Phan logi kluich hang: 1Chach hang ciut tii la ai? Phan Ioai khach hang glop ac nha quan 15, dap thj hieu duqc cat cau hinh khac nhau cim khkh hang va c6 nhimg Milli ding tiep thj phi' hop dtra ten cat phan loci. Myc tieu quang cao: Banner quang cao se hien thj dieu gi cho tirng khach hang truy cap cp the? Web ban le va cac trang web cling thong tin nhu de ca nhan hoa nii dung dm ho cho khach hang. Su dung dieu htrOng elm khach hang hoc cac m6 hinh mua hang trot tuyen, cac trang web nay c6 the sir dung cac giai phap khai that di: lieu de hien thj mix tieu quang cao cho rnmc dich cim khach hang. Dg bcio ban hang: Co bao nhieu loci ruqu tii se ban trong cira hang tan nay ? K9 that khai that da lieu du bao c6 the duqc sir dung de tra lai nhimg cau &Si lien quan den thOri gian Trang 16190 A11278 — Doan Thanh COng A11500 — Nguyen Bac Hang CAC KY THUAT KHAI PHA Hy LIEU CHUtING 2. CAC Kt THUAT !MAI PHA DO' la Cac 1C9 thuat khai pha de lieu thoc chit khong ca gi med. N6 la so ke thin, kit hqp va ma rong cua the kg thuat ca ban di &nye nghien ciru tir truerc nhu hqc may, nhan clang, thong ke (hei quy, phan loci, phan nhom), cac me hinh de tht, mang bayes, tri tu'e Stan tao, thu thap tri thirc he chuyen gia.... Tuy nhi'en, lied so ket hqp tai tinh cua khai pha du lieu, Icy thuat nay c6 tru the han hin cac phuang phap truerc do, dem lai nhieu teen vong trong viec phat trien nghien thu khoa hqc ding nler ap ding thoc tien va no co the dirge Chia lam 2 nhom chinh sau: Ky thuat khai pha de lieu mo ta: co nhiem vu mo to ve cac tinh chit hoac cac dac tinh chung caa der lieu trong CSDL hien co. Nham kg thult nay gem cac phuang phap: phan nhom, king hqp, phat hien so teen dei va de tech, phan tich luat ket hqp... Ky thuat khai pha du lieu do down: co nhiem vu dun n cac do down doa vao suy dien teen der lieu hien that Nhom kg thuat nay gem cac phuang phap: phap lop, hei quy... 2.1. Peen lop de lieu 2.1.1. Ma hinh phon cay quyit dJnh a. Gieri thieu Trong limb vtre hoc may, cay quyet dinh la met kieu ano hinh do bao (predictive model), nghia la met anh xa tir cac quan sat ve met so vat/hien Wog toi the ket luan ye gia try' !nue tieu dm so vat/hien tuqng. Mei net trong (internal node) tuong ung veri met hien; duerng not gicra no veri net con dm no the hien gia tri co the cho biin do. MOi net la dai then cho gia tri do down elm hien muc lieu, cho trtrerc cac gia trt do doin cua cac bien duct bieu dien beri dtremg di tir nut gee tai nut la de. Ky thuiit hoc may dung trong cay guy& deth dirge goi la hoc bing cay quyet dinh, hay chi gqi veri tai ten ngin gon la cay quyet dinh. Vi du: Cay quyet dinh phan lap mire twang Trang 161 90 A11278 — Doan Thanh Gong A11500 — NguyIn Dec Hoing LIU CAC KY THU4T KHAI > 35 < 35 salary < 40 >40 bad 50 good bad >50 good Hinh 3: Vi du ve cay quyet djnh b. Cac kieu cay quy& dinh Cay quyet djnh con co hai loci: - Cay hei quy (Regression tree): uec luang cac ham c6 gia trj la se thuc thay vi duqc sir dung cho cac nhiem vu phan loci. (Vi du: Sc tinh gia met ngoi nha hoac khoing thiri gian met benh nhan nim vien.) - Cay phan loci (Classification tree): niu y la met Men phan loci nhu: gioi tinh (nam hay n0), ket qua cita met tran du (thing hay thua). c. diem cita cay quyet djnh So vei cac phuang phap khai pha der lieu khac, cay quyet dinh la phuang phap c6 met se uu diem: - Cay quyet djnh de hitu. Ngutri to co the hieu and hinh cay quyet djnh sau khi duqc giai thich ngin. - Viec chitin bj du lieu cho met cay quyet djnh la co ban hoic kb:mg can thiet. Ck k9 that 'chic thutmg dei hoi chuin hea du lieu, can tao cac bien phu (dummy variable) va loai 136 cac gia trj rang. - Cay quyet dinh co the xir IS/ Ca der lieu co gia tri bing se va dit lieu co gia tri la ten the loci. Cac kji thuat khk thueng chuyen de phan tich cac be dit lieu chi gem met lout bier. Ching han, cac luat quan he chi 05 the dimg cho cac bier ten, trong khi mang na-ron chi co the dung cho cac bi'en ca gia tri bing se. Trang 17190 A11278 — Doan Thanh Ding A l 1500 — NguyIn Dec Hoing CAC KY THU4T KHAI PHA Did LIVU - Cay quyet djnh la met mo hinh hop tring. Mang no-ron la met vi du ye me hinh help den, do lai giai thich cho ket qua qua phirc tap de co the hieu duqc. - Co the thim djnh met ma hinh bang cac kiem tra thOng ice. Dieu nay lim cho to c6 the tin Prang vao mo hinh. d. Phan km de lieu bing cay quyet djnh Phan lap dua ten cay quyet djnh rat thich hqp cho viec khai phi de lieu vi cay quyet djnh co cau tnic don gian, de hieu vi co the duqc xay dung lcha nhanh tir cay quyet djnh co the a ding rat ra cac 141 Quy nap cay quyet djnh la met qua trinh hqc tip coa cay quyet djnh tir cac phan 16p coa be di) lieu huin luyen (training tuple). Met cay quyet dinh la met bieu do ding de lieu nhu ciu trim cay, moi nut trong (khang phai la) mpg ttung cho met thuec tinh kiem tra, mOi nhanh dai then cho ket qua ctia viec kiem tra, va moi nut la (hay nit giai hen) gift met lop phan. Nut diu fien ten cay la nut gOc. Qua trinh phan 16p de lieu thong qua 2 buoy co ban nhu sau: - Xay dung me, hinh tir tip huin luyen - Sir dung ma hinh, kiem tra tinh thing din dm mo hinh va dung no de phan lop do lieu mei. e. Xay dung cay quyet djnh Xay thmg cay quyet dinh deu duqc chia ra lam 3 giai (loan co ban: - ray chmg cay: Thuc hien chia met cach de quy tip mau de lieu huat' luye'n cho den khi cac ink a mai nut la thuOc ding mot lop - CM tia cay: Li viec lam ding de tOi uu hoa cay. Cit tia cay chinh la viec tren met cay con vao trong met nut la. - Dinh gia cay: Dung de danh gia de chinh xac caa cay ket qua. Tieu chi dinh gia la tiring so mau duqc phan lap chinh xac tren king s6 mau dua vao. 2.1.2. Mil hinh phiin ldp dB. lieu Bayer a. Gieri thieu Naïve Bayes la phucmg phap phan loth dua vao xac suit duqc sir dung rOng rai trong lint) vim may hqc [Mitchell, 1996] [Joachims, 1997] [Jason, 2001], duqc sir dung lin dku tien trong 14th vuc phan loth bai Maron vao nam 1961 [Maron, 1961] sau do Trang 18190 A11278 — Doan Thinh Cemg A11500 — Nguy4n Dire Hoing CAC Kt THUAT ICHAI PHA Dir LItU ter nen phO bien dimg trong nhieu linh Arc nhu trong cac cong cu tim kiem [Rijsbergen et al, 1970], cac be, luc email [Sahami et al, 1998]... MO hinh phin 16p Naïve Bayes dva tren djnh 19 ctia Bayes ve xac suit co dieu kien, veri gia thief cac thuOc tinh la dOc lip xac suit. b. That tan phin lore Naïve Bayes That town dva tren djnh ly Bayes duqc phat bieu nhu sau: P(AIB) = P(BIA)P(A) P(B) - P(AIB): Xac suit xay ra A khi B di xay ra. - P(BIA): Xac suit xay ra B khi A xay ra. - P(A): Xac sat xay ra A,khong quan tam den B - P(B): Xac suit xay ra B khong quan tam den A Ap dung trong bai tan phin loci, cac dii kien gom co: - X: tip der lieu huin luyen di ducat vector hoa dui% ding = (x 1 , x2 , ... , x„) m}. - Ci: phin lop i, veri i = {1, - Cac thuOc tinh detc lip dieu kien doi meit veri nhau. Theo djnh ly Bayes: P(ci lx) = p pc co P ( ci) P (X) Theo tinh chit dOc lap dieu kien: P(XICi = ) finxkico k= 1 Trong de: - P (CL IX) la xac sat thuOc phan lop i khi biet truck mau X. - P(Ci) xac suit la phin lop i. - P(xk ICi) xac sat thuOc tinh Mir k mang gia tri xk khi da hi& X thuOc phin 16p i. c. Cac buerc thvc hien thuot town Naïve Bayes Thuit town gem hai giai down huin luyen va phan 16p: Trang 19190 A11278 — Doin Thanh Cong A11500 — Nguyen Dirc Hoang
- Xem thêm -

Tài liệu liên quan