Tài liệu Tích hợp dữ liệu, kho dữ liệu và ứng dụng trong lĩnh vực quản lý tài chính công

  • Số trang: 88 |
  • Loại file: PDF |
  • Lượt xem: 140 |
  • Lượt tải: 0
nhattuvisu

Tham gia: 29/07/2015

Mô tả:

0— L ĐẠI 1IỌC ọ u o c GIA 1IA NỌI TRƯỜNG d a• i h o• c ( ô n c n g h é• PHAN NHẢT • KIÊN T ÍC H H O P DỦ L IÊ U , K H O DŨ L IÉ U V À Ử N G D U N G TRONG LĨNH v ự c QUẢN LÝ TÀI CHÍNH CÔNG Ngành: Công nghệ thông tin Ma số: 1.01.10 LUẬN VĂN THẠC s ĩ NGƯÒI HƯỚNG DÁN KHOA HỌC rs. ĐỎ VÃN THÀNH DAI H O C Q U Ố C G IA HẢ N Ò ĨRUNG TÀMTHÔNG TIN ÌHƯVlẺN V - LO/ 1là Nội - 2008 1 MỤC LỤC DANII MỤC CÁ C KÝ I III l i . c Á c ( I l ữ VIH'r I A I ........................................................... 3 DANH MỤC CÁC BẠNCì mi I ............................................................................................. 4 l )ẠNI I MỤC C Á C HÍNII VI'. DÓ T I I Ị ..................................................................................... 5 M( ) DẢU.................................................................................. ....................................................................... 7 CHƯƠNG l - T Í C I I l ỉ Ợ P D Ĩ T l II;.u VÀ KHO D Ơ I . I I . U .................................................................y 1. rích hợp dừ l i ệ u ................................................................................................................................. /. I Khái niệm lích hợp (ỉữ liệu ........................................................................................................ l) 1.2 Lịch sư phát iriên cua licit hợp (lữ liệu .................................................................................. 1.3 ì i (iụ minh họa ................................................................................................... I I 1.4 Lý ilinycl tic tì hợp dừ liệu ....................................................................................................... 12 2. Tồng quan quá trình từ dữ liệu đến thực hiện ra quyết đị nh ................................................ 15 3. Kho dữ liệu.................................................................................................................................... 18 ỉ. / Khái niệm kho dừ liệu ............................................................................................................. IX 3.2 Những đặc tỉìêm ctr ban CIIU kho dữ liệu ..............................................................................20 3.3 Sự khác nhau ỉỉiừti các hự thong CSDL tác nghiệp vả các kho (lữ liệu ........................ 23 3.4 Kiến trúc kho (lữ liệu .................................................................................................................25 3.5 Síô hình kho dừ liệu ................................................................................................................... 27 3.6 c 'hiển lược thieí ke, Xíiy thmg kho dừ liệu ............................................................................ 3 1 4. Cơ sớ dữ liệu chu đề (Data Mart)...............................................................................................36 4. ỉ Khái niệm cơ sơ (lừ liệu chu đ ề .............................................................................................. 36 4.2 Những lý i/o can pliái xây dựng các cơ sớ dừ liệu chu d ề ................................................38 5. Khai phá dữ liệu (Data Mininu)................................................................................................. 39 5. / Khải niệm ......................................................................................................................................3 y 5.2 c 'ác kỹ ịhuật khai phá dừ Hệu.................................................................................................. 4 1 6. kết l u ậ n ................................................................................................................................................ 42 CHƯƠNG II - GIỚI THIỆU MỌT SỎ KHO DỮ LIỆU VÀ C S m . C H Ủ Đ È ............................43 1. Ớ tron» nước........................................................................................................................................ 43 I I Cơ .sớ dừ liệu chú dè về kinh tế vĩ mô ....................................................................................43 1.2 Hẹ cơ sờ dừ liệu phát ỉrièn bển vừttg của l iệt Xam .......................................... ............... 46 2. Ớ ngoài n ư ớ c .................................................................................................................................. 53 3. kct l u ậ n ...........................................................................................................................................57 CHƯƠNG III - ỬNG DỤNíi XẢY DỤÌMG c ơ SỜ Dfr l.lị:n CHỦ l)Ẻ Đ ộ c I.ẠP TRONCi QUẢN LÝ TẢI CHÍNH C Ò N ( Ỉ .......... ................................................................................................58 1. Cìiới thiệu vân đ è ................................................................................................................................ 58 2. Mục tiêu xây dựng cơ sớ dữ liệu cluì dề về thu - chi ngân sách........................................... 58 3. Yêu cầu cùa cơ sờ dù' liệu chù đò VC thu - chi ngân s á c h ...................................................... 59 J. / Yên cần Ví' liệ tlionịỉ chi tien .....................................................................................................59 3.2 Yêu cầu khi thiẻl ké cơ sơ dừ liệu ........................................................................................... 59 3.3 Yêu can ve chia Iiãnịỉ vua ( SDL và kha nàng mớrộng, nàng cap ........ ........................60 4. Xây dựntỉ hệ thống chi tiêu thu - chi ngàn sách....................................................................... 61 5. Thiel kế Cơ sờ dừ liệu clui dề về thu - chi ngân sách............................................................. 62 5.1 Mò hình phân rà chức nàng......................................................................................................62 5.2 Mỏ hình cỉữ liệu ............................................................................................................................64 6. Một so chức năng chu yếu cua C SD1. chú đề về thu - chi lìgân sách................................. 65 7. két l u ậ n ................................................................................................................................................. 79 KÍ T I.UẬN CỈIU NG..............................................................................................................................80 IÀI I l l. i ir il I A M K H Ả O ............................................................................................................................SI PIIỤ I Ụ C ........................................................................................................................................................ 82 DANH MỤC CÁC KÝ HIẸU, CÁC CHỪ VIÈT TÁT Diễn }>iai K\' hiệu CN 1 1 c omi nghệ ihông tin cọ Cơ quan CSI )I Cư sơ dừ liệu l)M Data Mart l)SS Decision Suport System - ỉ lệ thông hồ trự quvêt định l)\v Data Warehouse - Kho dừ liệu IR Entities Relationship - Quan hệ thực the III. Extract. Transform. Load - Trích chọn. Chuẩn hoá. Nạp Ill Cộnụ dồnụ các quốc gia sứ dụnu đồnu tiền chung Châu Âu CÌAV Global As View KBNN Kho bạc Nhá nước KDI) Knowledge Discover) in Databases - Khai phá tri thức từ CSDI.. K l -XII Kinh te - xà hôi l.AV Local As View I.IIỌ Lien hợp quốc MDGs Millenium Development Goals - Các mục liêu phát triên thiên niên ky MOLAP Multidimensional-OI.AP - Xứ lý phân tích trực tuyên kiêu đa chiêu NSN N Ngân sách Nhà nước OLAP Online Analytical Processing - Xư lý phân tích trực tuyến OI I P Online Transaction Processinii - Xứ lý giao dịch trực tuyến PTBV Phát tricn bền vừng KOI .AI’ Relational-* M AP - Xù lý phân tích trục tuyến kiểu quan hệ Cư sơ dừ liệu chu dê DANH MỤC CÁC BẢNG BIẾU Tồn há 11«Ị Bang I : So sánh CSDI tác imhiộp và Kho dừ liệu Bang 2: So sánh các hộ thốnii OI I P và OLAI’ s DANH MỤC CÁC HÌNH VẼ, ĐỎ THỊ Tên hình vẽ Trang I linh I : Biêu dỏ dơn uián cua một kho dừ liệu Hình 2: lỉiêu đỏ niai pháp tích hợp dữ liệu iheo kiêu liên kết lỏng 10 Hinh 3: Mô tá khônu gian ban ụhi cùa các ánh xạ (iA V \á L.AV 13 I lĩnh 4: Mỏ ta quá trình từ dừ liệu don thực hiện ra quyết định 16 Hình 9 5: Minh hoạ khái niệm lích hợp và chuyên dôi thông tin dữ liệu từ các CSDL tác ntỉhiệp vào Kho dữ liệu 21 Mình 6: Kiến trúc Kho dù liệu 25 I linh 7: Mò ta mô hình Kho dừ liệu trường hợp 3 chiểu 28 I linh 8: Mô tá sơ dồ dừ liệu nhiều chiều theo sơ dồ hình sao 29 I linh 9: Mô tà sơ đồ dừ liệu nhiều chièu theo sơ dồ bông tuyết 30 I lình10: Mỏ tà sơ đồ dữ liệu nhiều chiều theo sơ dồ chòm sao sự kiện I linh 11: Mò tả phương pháp triển khai kho dìr liệu 30 35 ỉ linh 12: Moi quan hệ giữa các CSDL tác imhiệp với k h o dữ liệu và C SD Lchuđề 37 I linh 13: I.uồng dữ liệu trong một tỏ chức, cơ quan 38 Hình 14: Mô lã quá trình khai phá dữ liệu 40 I lình 15: Sơ liồ phân rã chức nãng CSDI. chú đề thu - chi NSNN 63 I lình 16: Sơ đồ dữ liệu cua C’SDI. chu đề thu - chi NSNN 64 I linh 17: (Yie khoan mục chi tiẻu thu - chi niĩân sách 65 1linh IX: Giám sát. theo dõi tình hình thục hiện các mục tiêu chu yếu 66 1linh 19: I im kiếm, lựa chọn chí liêu theo lĩnh vực và nhóm chi tiêu 67 I lình 20: Tìm kiếm, lựa chọn chi tiêu theo nguồn số liệu 67 I lình 21 : l .ựa chọn khoáng thời gian lấy số liệu cho các chi tiêu 68 I Unh 22: Lựa chọn địa bàn theo địa danh 68 Minh 23: l .ựa chọn địa bàn theo vị tri trên bàn đồ 69 I linh 24: Mán 11inh liệt kê kết quà truy vấn dìr liệu 69 I lình 25: Màn hình liệt kè ' là c ó rất nhièu clĩr liệu nhirnu lại dõi ihônsỉ tin. Quá trình nỗ lực lîiai tjlivct níỉhịch lv nà) dà dần đến hình thành một xu lurỡnii nghiên cửu và ứng tiụnu dang rat phô bien và sôi ilộníí troníi the giớ i C N T T hiện nay. dó là van lie phát hiện Iri thức từ các c ơ sờ dừ liệu (K n o w le d g e D isco v ery in Databases - KI)D). Ọuá trình K.DD ạỏm nhiều iiiai đoạn, tronii dó có hai 2 Ìai doạn quan trọnc nhất, dó là: x â \ d ự n c kho dữ liệu (D ata W arehousing) và khai phá dừ liệu (Data Vlininụ). Xâ\ dựng kho dừ liệu là iìiai đoạn dâu tien của quá trình KDD. Mục dich cua giai đoạn nàv là \ â \ dựnc một loại c ơ sở dữ liệu (C S I )I .) k h ôn a chuẩn hoá, liru trừ dừ liệu tích hợp, có uiá trị lịch sư và dược chiết xuất từ nhiều nguồn, lừ nhiều CSDL khác nhau. Các CSDL này nói chIInu thirờnẹ dược phát triển trên nền các hệ quàn trị C SD I. khác nhau. Vì vậy khi xây d ự ng kho dừ liệu tlurờnu phai nghiên cửu ííiai qu\ểt vấn dề tích hợp các hệ thốnu thông tin liên quan bao gồm cá tích hợp hệ thốnạ phần ciriiũ. phần mềm và dừ liệu. Luận văn này tập trunẹ chú yếu vào việc kháo cứu những vấn dề Iiên quan đến lích hợp dữ liệu; kiến trúc và các thành phần c ơ bản cùa kho dừ liệu: khai phá dìr liệu, và ứnu dụnii nhừng kiến thức dược kháo cứu để thứ nghiệm xâ\ dựng một loại kho clừ liệu, dó là CSDL chú dề dộc lập (Data Mart), trong lĩnh vực tài chinh c ô n e ữ V iệt Nam. ♦ V» • l.uận vãn g ô m có 3 ch ư ơn g nội dung, không kê các phần m ở dầu. kết luận, lài liệu tham khảo và phụ lục: • Chương ! - Tíc h lìựp dữ liệu và kho (lừ liệu. Trình bày các khái niệm, lý tluiyết c ơ ban và các van đề liên quan dến tích hợp dữ liệu và kho dữ liệu. • Chương / / - Giới thiệu một số kho (lữ liệu và CSDL chú dề. (ìiới thiệu khái quát v ề mục liíclì, dặc điểm, chức năn ti cùa m ột s ố kho dừ liệu, CSDL chu để tiêu biêu ơ tronụ và ngoài nước hiện nay. c * ụ • Chương l ỉ l - ủh g dụng xây dựng CSDL ch ti đề độc lập trong quản lý Tài chính công. Trình bà\ việc ứne dụ nu l\' thuvết Kho dừ liệu de \â\ dựĩiíĩ ihứ nchiệm một CSDI chù dê phục vụ phân tích, dự háo vê tình hình thu chi nuàn sách áp d ụ n u tro nu lĩnh vực l ài ch ín h cônư. lác giá xin íuri lời irân trọn li cam ơn đèn I hâ\ ui áo hirớnii dần IS. I)ồ Văn I hành cùníì toàn the các bạn hè. dồng niihiệp dà nhiệt tinh aiúp dỡ. cu 112 cáp nluìnu thônạ tin. tư liệu quv háu dè hoàn thành luận vãn này. Do khuôn khô thời gian có hạn nên nội ilium luận văn chắc chăn SC còn nhiều thiếu SÓI. tác già rat nions, nhận dược sự íiỏp tham eia V kiến của các thav cỏ ui áo. bạn bò dônti nuhiệp dê eôns trình ìiỉihiên cứu nù\ neà\ cànu tlirợc hoàn thiện hơn nữa. Xin chân thành cám ơn! CHƯƠNG I - TÍCH HỢP DỮ LIẸU VÀ KHO DỮ LIẸU I. Tích họp (lũ liệu /. / Khái niệm tícli hợp (lũ liệu T íc h h ợ p d ừ liệu lù q u á trình ket h ợ p cá c loại d ữ liệu lừ nh iề u nỉỉUÔn khác nhau và CIII1Ü cấp cho niurời sư dụng một cái nhìn dồna nhất về các dừ liệu dó. Vấn đề quan trọng này đà và claim xuất hiện ngày càna nhiều tronti các lĩnh vực I • w tỉ s— • • m »— c • khác nhau cua dời sốnu \ã hội. chãns hạn trong lĩnh vực thương mại khi các cỏn ạ IV tương tự nhau can hợp nliẩl dừ liệu cua họ. hoặc tro nu lĩnh vực khua học nhằm kết hợp các két quà million cửu từ các kho tri thức khác nhau. Tích hợp dừ liệu xuai hiện với cườnạ độ ngà\ càns tãnu và làm bùna nô nhu cầu chia se dữ liệu. Nó đà trớ thành tiêu diếm cùa rất nhiều học thuyết và các vấn đẻ mơ còn can dược uiai íỊUvet. Trong thực hành, tích hợp dữ liệu thườn ụ dược gọi là lích hợp thâmỉ tin doanh nghiệp {Enterprise information Integration). 1.2 Lịcli sử phát irìên cua tích họp dữ liệu Ngà) nay. tích hợp dữ liệu khônu còn là van đe mới me. l ừ những năm 1960. sau khi các CSDL xual hiện phô bien và dược sư dụnu một cách rộng rãi. dà dần dcn nhu cầu chia sẻ hoặc tích hợp các CSDL. Việc tích hợp có thề dược thực hiện ở nhiều cấp độ trong kiến trúc của CSDL. và một trong nhữ na phươnii pháp phô biên là xây dựng kho dữ liệu (Data Warehousing - xem hình I ). Ở đó. dừ liệu từ nhiều niiuồn khác nhau dược trích chọn, clìiiãn hóa và nạp {Extract, Transform, Load ~ gọi tat là tiến trình ETL) vào một imuồn. và có thế được truv vấn với một lược dồ dơn lé. ỉ/ình I : Bien i1ồ (lơn gian cua một kho dữ liệu. Thông Ún từ các c 'SOI. nịỉitòn íhrực Iríclì chọn, clinân hóa và nạ/) vào kho (lữ liệu 10 Vê mặt kiến trúc. ílà\ cô thô dược \C111 Iilur một pluronu pháp liên kôt chặl bơi \ì dữ liệu cùng dược tập irune trôna một kho đơn nhât tại thời diêm truy vấn. Nluriiü van dề phát sinh dối với phươnu pháp Iiàv là khônu dám báo dược tinh cập nhật tức thòi cua dừ liệ u (\í dụ khi một I1ÜUÔI1 dữ liệu UOC được cập nhật mới. nhirnti trona kho dữ liệu vần chứa dừ liệu cù hơn), dần liên lien trình í: I I cần phai dược thi hành lại nhiều lần. Niioài ra. cũna khó có thê xây tiựnu các kho dừ liệu khi chúnạ ta chi có một niao diện lm\ vấn lới các nmiòn dữ liệu mà khônu truy cập tới dừ liệu dầy dù. Tronu nlũrna năm aần đây. việc tích hợp dữ liệu có xu hướng nới lòna liên kết aiừa các dừ liệu. Y urơrm ỡ đây là cun lí cấp một aiao diện tru\ vân dons nhài thôn*! qua một lược đo trung gian hay còn uọi là CSDL ào (xem hình 2). Vò bọc Vó bọc Hình 2: Biêu (tồ ỊỊiái pháp lích hợp (lữ liựn theo kiên liên két lòng. Xây tlựiHỉ một lược ito Inins’ Ịỉitm mil qua đó người sư tỉụnỊĩ có thê đưa ra các truy vail. I heo mô hình tích hợp này. các truy van dong nhất sau khi di qua lược đồ trung iỊÍan (Mediated Schema) và các vo bọc ( Wrappers) sẽ được chuân hóa thành các truy vấn cơ sở trên các CSDL nuuồn. Quá trình này cũnu có thể dược gợi là quá trinh hói đáp dựa trên khuna nhìn ( View), bời vì chúng ta có thê xem mồi Iiiiuòn dừ liệu như là một khunii nhìn trên lược do trung aian. Plurơnụ pháp tiếp cận nlur \ ậ\ dược aọi là plurơnu pháp kìumsi nhìn cục bộ (Local /l.s l ieu LAV). C'ùnt» có một mô hình lích hợp khác tron 12 dó lược dồ trung aian dược thièt kê như là một khunu nhìn trên các dừ liệu rmuồn. IMiươim pháp tiôp cận này dược íiọi là phương pháp killin g n h ìn to à n c ụ c (G lo b a l A s I '/Vu- - G A V ). ihirônt» dược sir đụim khi CỎ nlnrmi rac roi phái sinh khi tra lời các till) \an qua lược dô truim uian. I u\ nhiên, nhược diêm cùa phương pháp này là sẽ phai sưa lại kliunuk . nhìn cho lược • dồ trunu w Wuian mồi khi có them một * nuuôn dữ liệu • mới dược * lich hợp hoặc khi một n Lílion hiện tại tha\ dối lược dồ cùa nó. Hiện nay. một sổ nahiên cứu vè vẩn đò lích hợp dừ liệu còn có liên quan Jell vắn dò lích liợp ngữ lìiỉliui (Semantic Integration), vần dò nàv khônu chi ra làm the nào dc \à \ dựna kiên trúc tích hợp. mà là làm thế nào dê uiui quyêt các \unii dột nạừ niihĩa eiừa các nguồn dừ liệu không, dônu nhât. Ví dụ nếu hai cô nu 1\ hợp nhất CSDI. cùa họ lại. thì các khái niệm và định nahìa nào đỏ tronu các lược dồ riêne cùa họ. chăn a hạn "lợi nhuận", sẽ có nhìrng V nghĩa khác nhau. Ironụ một CSDI.. nó có thê cỏ nuhĩa là lợi nhuận barm đông dô-1a (dưới dạnu sô ilụrc dấu phây tlộnu). ironạ khi ironti CSDI. kia. nó lại có nghĩa là số lirợnu hàna hán dược (dưới dạna số nạuyên). Một chiến lược aiài pháp chuim cho các ván dề nlitr vậy là sứ dụng các bàn thê (ontologies) troniì đó dịnh nghĩa mội cách rõ rànu các thuật nu ừ cùa lược dô và từ đó giúp aiài quvét dược các xunu đột ngừ nghĩa. /..? Vi dụ minh họa ( ìiá SƯ có một sư dim * ưnu w dụnu • w vvch tronc w đó nmrời W • ü c có thê tru\ có nuhĩa là nhừnu nairời phát triển ứng tlụim sẽ xây dự'liu một lược dồ dế mô hình hóa một cách tốt nhất các loại câu tra lời mà nsười sứ dụng cùa hụ monu muốn. Lược dồ áo nàv được ạọi là lược đồ tnmg %ian (mediated schema). ! icp tlico. họ sẽ thiết ke các vo bọc (wrappers) hoặc các bộ điẻii hợp (adapters) cho 12 mồi Iiíiuồn dữ liệu, cliánu hạn như CSDI tội phạm và trang ueb thời tiêt. Các hộ dieu hợp nà\ ch 1 dơn uian là cluiãn hóa các kết qua lm\ \ ân cục bộ (dược tra vè bơi riêna ùrnii tra nu \vcb hoặc limu CSDI ) thành một dạng dồ \ư K cho Irunu w c > s- y *— tàm lích hợp dừ liệu (\cni hình 2). Khi một iiLurời sư dụng irne dụnu tru\ vân lược dỏ Irunu tiian. Irung tâm tích hợp dữ liệu sẽ chuân hóa iruy vân nàv thành các truy vấn thích hợp cho ùrnu nuuôn dừ liệu riêng lè. Và cuôi cùng, các kct qua cua các truy vấn này sẽ dược kết hợp thành một câu tra lời cho truy van cùa nmrời sử dụnụ. Một lợi ích cua íiiái pháp nà\ lù các nuuôn dữ liệu mới có thê được hô SUI1Ỉ2 một cách đơn gian bans cách xây dựnạ một bộ diều hợp cho chium. Điều này Iirơna phan với các hệ thonu I I I. hoặc một íiiái pháp CSDL dơn nhất, trorm dỏ toàn bộ tập dừ liệu mới phai dược lích hợp một cách thu côn li vào hệ thổnu. 1.4 LÝ thuyết tích hợp ilũ liệu LÁ thuyết tích hợp dữ liệu là một tập hợp C O I 1 cua lý thuyết CSDL. Các kếl qua cua nỏ cho chúng ta biết rana dừ liệu có thê tích hợp dược hay khò nu và có nhữnỉiW . khó khàn wui khi thực hiện. Tuy•* ra nuw nhĩrnu nuhĩa van còn khá trừu • • w dịnli • W lirợnu. nhưna nhìn chunti chúng cũn ụ là dù dế hiên điền được tat cả nhừnii thê loại cùa các hệ thống tích hợp. 1.4.1 Các (tịnh nghĩa Các hệ thônu lích hợp dừ liệu dược định nuliĩa một cách chính tăc như một hộ ha iront» dó Ci là lược dồ toàn cục (hoặc truim íiian). s là tập hợp các lược đồ nmiồn khônu dont» nhất, và M là phép ánh xạ các lim vân eiừa các lược dồ nuuồn và lược đồ toàn cục. Cu (ì và s đều được biếu diền trong các nuỏn ntĩừ thông qua các hanư chừ cái hao gom các biêu tượng cho các quan hệ ricnii cua cliủtm. Ảnh xạ M bao uồm nhừnu xác nhận uiữa các truy vấn trên G và các truy vẩn trên s . Khi nũirời sir dụn« đặt cá c truy vấn trên hộ thốna tích hợp dữ liệu, họ sè dặt các tru\ van qua G và sau đỏ ánh xạ sẽ xác nhận nhừnu kêt nôi íiiừa các phần tư iron SI lược đồ toàn cục và các lược dồ nuuồn. MỘI CSDI, qua một lược dồ dược định nghĩa là một tập hợp các tập. mỗi tập tương irnu với một quan hệ (tronc; một CSDL quan hệ). CSDI. írn» với lược do nuuồn s là tập hợp các tập ban ghi cho mỗi nÜIIôn dữ liệu khôn2 dònu nliât vã nỏ được íiọi là cơ sớ dừ liệu ngìiôn {source database). CỈ1Ú \ rănu CSDI 13 nạuồn dơn nhất này thực lố có ihè là một tập hợp các C S D I. rời rạc. t'S D I ứnu với lược d ô iriin u íiian a o Cì dược s ọ i là cơ sơ (lữ liệu loàn cục (global database). C S D I . to à n cục p h a i th o a m à n á n h xạ M d ố i v ớ i C S D I Million. l ính hợp lệ cùa ánh xạ nà\ phụ thuộc vào tính chài cua sự tươna quan giữa Ci và s . Có hai p l u r ơ n u pháp phố h iế n de m ô hình hóa mối tươna qu an này. đó là kh u n g nhìn toàn cục (G A V ) và khung nhìn cục bộ ( I A V ). K hung nhìn toàn cục K hung nhin cục bộ Hình 3: Mõ lu klìòiìịỉ gian bán ghi cua các (inh xạ GA I ' vil LA I Trona CÌAV. hệ thons dược rà no. buộc với tập các ban ghi ánh xạ bưi các hộ trung íỊian (mediators) trong dó tập các han ghi có thê dược biêu diên qua các nẹuồn có the là rộ 11ạ hơn và da dạng hơn nhiều. Trong I..AV, hệ thống dược rà nu buộc với tập các bán ehi trong các nguồn. và dúm li có thê dược biêu diền qua lược đô toàn cục có thê là rộniì hơn nhiều. Vi vậy. các hệ thông I.A V thường phai dổi phó với các câu trá lời không hoàn chinh. Trong CiAV. cơ sở dừ liệu loàn cục dược mô hinh hóa nlur một tập các khung nhìn trên truy vấn trên s. s. I rons trườna hợp này M liên kết mồi phan tử cùa G với một Việc xử K iruN vấn trờ thành một thao tác dề dà nu hơi vi các liên kết ui ira G và s đà dược định nuhĩa sẵn từ trước, vấn dè phức tạp là ờ việc cune cap mà cùa bộ trung gian dê chi dần cho hệ thonu tích hợp dữ liệu biết chính xác làm thế nào dỏ tru\ xuất các phẩn tứ từ các C S D I. nguồn. Nẻu cỏ nguồn mới nào dược hổ sunu vào hệ thốn2. thì can phai có sự cập nhật cho bộ truns íĩian. vù vì vậ\ phươnu pháp CÌAV nên dược áp dụna trona các Irườns hợp các nẹuồn dừ •liệu khôn ự tha\« dõi. w w tlurònu xuyên r Xét plurơnu pháp G A V doi với hệ thống tích hợp dừ liệu troim ví dụ ư phần trên, naưừi thict ke hệ ihốni» tnrớc tiên sè phát triên các bộ trunn íỉian cho mỗi 14 imuon thònií till cua thành pho và sau dó thict kế lược dô loàn cục xoa\ quanh các hộ■ trunii *<_ *—íiian n à \. V í (.III. uia sir một tronu các nmiôn là iranu • v_\vcb ■w C *—vồ thời I ici. Khi d ỏ n s ir ờ i t h iế t k ê s è b ô s u n s m ộ t p h â n l ử t ir ơ n g ứ n u v ớ i th ò i tiẽt v à o lược dô toàn cục. S a u d ó thi vân tic c h u Ycu lã \ ici mà thích hợ p ch o h ộ iruna üiitn lio nó sè chuẩn hói) các thuộc tính cua ihời lict thành m ột truy vấn trôn iranii \\ch thời liát. Vấn dề này cỏ ihé trở nên phức tạp nỏII có một niiuồn khác liên quan đốn thời tiết hỡi vi Iiũưừi thiết kế lúc dó s è phái đối mật với việc viết mà de kel hợp một cách dúnti dan các kết quà từ hai Iimion khác nhau. ỉ rái lại. tronii I-A V . cơ sư tiừ liệu nmiồn dirợc mô hình hóa như một tập các khung nhìn trẽn G. Tronii trường hợp nà}. M SC liên kết mồi phẩn tir cua s với một • lru> w vấn trên (i. Ớ dây, « các liên két chính xác W--SỊĨĨra G và s là kliônu w còn dược định nuhĩa sần. Như sè mô tủ trong phần tiếp theo, sự khó khăn cua việc xác dinh xem làm thể nào để iruy xuất các phần tư từ các nguồn sẽ tập trune ờ hộ xứ lýr tru\» vấn. I.ợi ích cua mô hình I.A V là các Million mới có the dược w • bô suriii với mội • lượne • C / côntỉ W v iệ■ c ít hơn nhiều s o với ironü *—hệ thốníi• G A V w . \ ì vậ\. phương pháp L A V nên dược áp dụng trong các tnrờnii hợp mà các lược dồ trime gian là không thường xuyên tliay đối. Xét phương pháp I.A V dối với hệ thống tích hợp dìrliệu trong VI dụ ờ phần trôn, ntiirời thiết kế hệ thống tnrức tiên sẽ thiết kế lược dồ loàn cục và sau dó chì cần nạp vào các lược dồ lirơnu ửnũ cua cúc nuuồn Nấn nổi ticp "thật". Mục tiêu cua hệ th on s tích hợp lá \ ici lại các truy van dại diện bời các khunu nhìn đè làm cho các kêt quá cua chúnu là tương đươna hoặc d ư ợc chứa tối da hởi truy vấn cùa rmười sứ dụnu. Iro n s các hệ thốníi G A V . một neười thiết kế hệ thổnụ sẽ viết mà hộ trung nuhĩa cách viết lại V—íiian đế định ■ >_ • truy 1 vấn. Mồi Iphẩn ur tron Wạ truy tể vân cua nturời W SƯ dụnạ lirơnu ử nu với một tru\ vấn trên nguồn. Xư lý truy vấn chi đơn gián lù m ờ rộ nu các m ục đích con tronu truy van cùa ngirừi sử dụne, llico quy lác dã dược xác định troua bộ truníi gian và vì và) truy vấn kết quá là nan như tươim dươnc. Trong các hệ Ihong I .AV . các truy van phài trai qua thèm một thao tác viết lại cư sứ nữa. bơi vì ở đây khônu có bộ trunu ụian đê doi chiếu truy vấn cùa ntiirời sứ ciụnu với một chiến lược mờ rộng dơn aiàn. Hệ ihong tích hợp phai tien hành tìm kiếm trên khônu w cíiian cùa các iru\• van claim w c ó dè tim ra một • han viết lại tốt nhất. Ban viết lại nàv có thể khôniỉ phái là một Iruy vấn tirơim dươnu nlurim dược ch ử a toi đa, và các bàn ahi két quà có the là không hoàn chinh. Thuật toán M in iC on hiện tại dana là thuật toán viết lại tru\ vấn hàna đầu cho các hệ thôrm tích hợp dữ liệu I.AV. 2. Tổng quan q u á trình tù' (lữ liệu đến thực hiện ra quyết định Một tiêu cot »yéu cùa \ iộc là nhăm tônỉi • troníi V nhĩrnụ w - mục • • tích hợp » I dừ liệu • W hợp. phân tích các ihônc. tin từ dữ liệu quá khử và từ dó dưa ra nhfrnu quvêt dịnh 16 theo chiều hướníi có lợi ironu urơnỉi lai. Ọuá trình llụre hiện mục tiêu Iià\. bal tlầu lừ nhĩrtm C SD I tác Iiũhiệp đơn le ch o tlỏn klii dưa ra dược nlũrim quvci (.lịnh cần thiết, ckrợc gọi là qiiíi trình tù' dừ liệu (Jen thực hiện ra quyết (.lịnh. Ọuá trình từ dừ liệu tiến liên hành ra quvỏt dịnh là tlirờna bậc thanu tiồni 3 bậc chính: C S D l. và hạ tân li kỳ thuật, Khai plìá dữ liệu (Data M inina) và Cô nu cụ tác n ghiệp thông minh (Intelligent Business I ool). Quá trình này dược m ô ta qua hình 4. trona dó dừ liệu dơn liian là một giá trị do một sự kiện nào dó. I)ữ liệu có thê d ược thô hiện dưới dạnii sô. vàn han. biêu banu. do thị. ban dò. hình anh. âm th a n h ... D ừ liệu dạne so và vãn hàn dược sư dụnii phô biến nhất. Trong CNTT. Ihôna tin d ược tlùra nhận là: th ôn s tin = dừ liệu + kinh n sh iệm (hay kiến thức c ơ sớ ) và tri thức thông tin + suy luận. B ậ c th a n g t h ứ lìliấ t - B ậ c d ữ liệ u . Truníi tâm cua I1Ó là xây tkrnii các Kho dừ liệu (Data w areh ou se) nham phục vụ cho nhiệm vụ Khai phá dừ liệu ớ bước tiêp theo. Kiến trúc, m ục dich sứ dụnu và kỳ thuật x â \ dựiiỉì các Kho dữ liệu là ral khác s o với cá c C S D l. tác nghiệp (Operational Database). Hình 4: Mõ 1(1 (/tui triuli lừ (lữ liệu dền thực hiện ra t/iạ cl định 17 Dữ liệu phát sinh tù' c;ic hoại dộnu liànu I1ÍÙI\ và dược tlui thập \ ư l\’ dê phục vụ cônu v iệ c nghiệp \ ụ cua một dơn vị. lô chức được uọi là d ữ liệu lác n g h iệ p (O p e r a tio n a l D a ta ). CSDI tác níihiệp phục vụ cho các xir lý g ia o clịclì trự c tu y ê n (O n lin e T ra n sa ctio n P ro c e ssin g - OI I P), cụ thô nói chu 11li ch ú n a dêu hỗ trợ \ iệc chiết \u ấ l. lônu hợp. tinh loàn tự tlộnụ các dừ liệu irone C SD L : \ â \ dựiiỉi báo cáo tốnụ hợp hoặc chuyên dè tự dộnu. truy vấn tim kiểm thỗrm tin ụr tlộns. cập nhật và khai thác dược C S D L từ xa ... Nlũrns thông tin. dừ liệu dược chiếi xuất từ C SD Ỉ lác nahiệp thường là loại thôna tin. dìr liệu mà n eư ời SU' dụng cơ han dà hicl trước, hàm lượng trí tuệ của thôrrn tin không cao và chi dáp ứn<> cho hoạt độim tác nghiệp, nluìnu quyết định m an s íiiá trị "Iiũủn hạn". Kho dữ liệu trái lại phục vụ ch o các x ư /Ý p h â n tíc h tr ự c tu y ê n {O n L i ne A n a ly tic a l P r o c e s s in g - O l.A P ). nhàm phát hiện thônu tin. tri thức mới với hàm lirựim trí tuệ cao. k h o dữ liệu thực chat là tập hợp các dừ liệu VC tat cà các chu dò liên quan den toàn hộ hoạt dộna cùa một dơn vị, tô chức nào đó. Các Kho dữ liệu lưu trữ dừ liệu lịch sir. phụ thuộc thời gian, không thể sưa dối dược, và được tích hợp từ nhiều hệ thôn» thõng tin. CSD1. tác nehiệp được phát triên dựa trên nhiều hệ quàn trị C S D L khác nhau. Mô hình cư hán nhất cùa Kho dữ liệu là CSD L nhiều chiều. Kho dữ liệu thườn» rat do sộ và xây dựnu cù nu khá ton kém. Khi Kho dừ liệu chi tập truim vào một chú dè nào đó thì dược sợi là Cơ sở dữ liệu cliu (lẻ (D a ta M a rt). Nlnr vậy C ơ sỡ dừ liệu chù dề chính là một tập con cùa Kho dừ liệu dược tập trung vào một sô chù dồ dược lựu chọn. Kho dừ liệu dược ra dời khoảng I0 nãm liần dày. nham khác phục tình trạntì con nẹười dã có rất nhiều (Jữ liệu nhưnii khai thác sứ dụng chưa dược hao nhiêu. Kho dừ liệu dang dược quan tâm xây dựnu ờ các nước tiên tien ca ơ quy mô quốc uia lần quy m ô các doanh nạhiệp. Thông qua các Kho dữ liệu cù n g với các c ô n g c ụ k h a i p h á d ừ liệu ( D a ta M in in g T ool), nu ười ta có thê phân tích dô nhận dạng toàn diện the mạnh diêm yểu cùa một dơn \ ị. tồ chức (thậm chí có thè là cùa một quốc sia ). dự báo khá loàn diện. da\ đu và hồ trợ một cách hiệu qua Iron wạ việc dinh chiến lược, kẻ hoạch sún xuất kinh doanh cùa đơn vị.• tô • hoạch » ♦ * 4 chức đó. OAt N 0 C Q u ố c G IA HÀ NỘI ÎO v ‘> tẳ. m ĩh ! Ô N G TtN ÌHƯ VIEN ' V - L0 / _ } 18 ỉìậ c th a n " t h ử h a i - H ộc t h ô n g tin . ỉ runu tàm lá khai phủ i/ữ liệ u (D a ta M in in g ) hu\ x â y d ự n g m õ h ìn h (lự b á o (M o d ellin g ), là giai doạn phức tạp nhái cua quá trình khai phá tri thức trone, các C SD I. (K I)D ). Một sô kv thuật khai phú đừ liệu chu you dà. chum và sè clirợc ứnii dụ nu dô tlự báo kinh lố sẽ dược tập truníĩ giới thiệu ironu một phần ơ dưới. B ậ c th a n g t h ứ b a - H ộc tr i t h ứ c : I ruiiii tâm cua nó là các H ệ tr ự ỹ ú p q u y ế t đ ịn h (D e c is io n S ìip o ri S y s te m - D S S ) ha\ các c ô n g cụ tá c n g h iệ p th ô n i’ m in h {In te llig e n t B u sin e ss T o o ls). N ó i chim e dó là phân móm tin học cỏ khíi nãne SUY luận trên CSDl tri thức dược xây dựnu sau íiiui doạn Khai phá dừ liệu. Một cách dơn giàn, cơ sứ dừ liệu tri thức là một li ạ ntl cüa C S D L nhầm quán trị dữ liệu là các câu troníi niiôn ngừ m ệnh đề cồ diên, niiôn ntiừ logic tân lừ cấp I. cấp 2.... trên dó có xâ\ dựna cơ chế SUY luận tự tlộnu dựa trên một lý thuyết lô aie nà o đ ó như: logic da trị. loẹ ic x á c suất, louic I11Ờ. loaic kh á n ăn e. lý thuyết chứng c ớ và niêm tin .... V iệ c su y luận ớ d à \ dược hiêu là han a cách áp d ụ n s cư chế SUN luận dã dược xác định, từ m ột tập tri thức nào dó tro nu C S D L tri thức có thể suy ra dược một sỏ tri thức m ới hoặc từ một câu hòi do người sử d une dưa vào cỏ thổ trà lời dược câu hói dó c ỏ thể suy ra dược hay k h ôn g từ tập tri Ihức dà ch o bane, cá ch thực h iện cơ ch ế SUY luận trên tập tri thức dó. L ĩn h vự c n à y thuộc vê Trí tuệ nhân tạo tronu C N T T . Chậm hơn vài năm so với sự xuất hiện cùa KI)[), một khác chu »yếu dựa trên nền ta nu « lĩnh vực . w cua In' tuệ• nhân tạo dà ra dời dược s ọ i là Tác n h â n th õ n g m in h (In te llig e n t A g e n t). Các côn li cụ thònu minh tác níihiệp hiện nay d ược x â y dựna chú yếu theo kỹ thuật, c ô n g n eh ệ cua Tác nhân thỏnu minh. ví dụ như cá c phần mềm tin học ch o robot, phần mỏm đánh cừ. khám chữa bệnh troniì y học. phần mềm lự d ộn g lái ô tô. máy bay. tàu h oa... dược xây tlựnii theo côntì nuhệ như vậy. Tác nhân thông minh dược xem là bước phát triển mới cúa Trí tuệ nhân tạo. 3. Kho d ữ liệu / Khải niệm kho dừ liệu Kho dừ liệu c u n s càp các kiên trúc và côníi cụ cỊLian 1} cho doanh nuhiệp de tô chức, khai thác và sư dụng dừ liệu một cách cỏ hệ ihong nham dira ra nlùnm quyết dịnh manu tính chiến lược. Níiày nay rất nhiều các tỏ chức đã nhận thấv 19 rail lw.a các hệ• thônu w kho dữ liệu là m ột cônu cụ cạnh tranh rât hữu ích. thúc dày m / sự phát triôn ch u n g cua the íiiứi. í rong nhiêu năm nân ilâv. 11li ười ta dã chi phi nhiều triệu đ ô-la ch o \ iộc xâ \ dựníi các kho dừ liệu doanh niíhiệp. N h iêu nuười dã ch o ranụ. với sự cạnh tranh tro nu mỗi ngành CỎI1U nahiộp. thi việc x â \ dựng kho dữ liệu là MÌ khi liếp ihị cuối cù nu bat buộc phai c ó dô c ó ih ẽ cỉáp i m s dược các nhu cầu cùa khách hànu. Khái niệm kho dừ liệu ntihĩa theo nhiòu cách khác nhau, nên • • dà d ư ợ• c dinh • Vkhó có thè dira ra một ngh • dinh • C' ĩa chính xác, hoàn chỉnh, lliê u một • cách dơn íiiân, kho dừ liệu thực chất là tập hợp các C S D L tích hợp. lurớnu chủ dề, được thiết kế đê hồ trợ ch o cli ứ c n ă n g tr ợ g iú p (/livết (lịnh, mà m ồi dơn vị dừ liệu đều liên quan tới tronu một khoảng thời ạian cụ thê. C ác hộ th o n s kilo dữ liệu cho phép tích hợp nhiêu loại hộ thỏnụ ứn g dụnạ khúc nhau. Chúnti hồ trợ v iệ c xư l\' thỏnu sứ w tin b a ncs- cách c u n wẹ7 cap I một * môi trườnu W nền d ồnụ w nhất và c ó tính lịch • cua dĩr liệu dê phục vụ ch o v iệ c phân tích. 1 h eo W.1 l.ln m o n . cha đe cua các hệ th o ns—s kho dừ liệu, thi một . . kho dừ liệu . là một tập hợp dừ liệu cỏ chu dề, tích hợp. gan với thời uiun và bổn v ữ n g nhằm hồ trợ ch o v iệ c ra quyết định cùa c á c nhà quán lý. Dây là một định Iiíihĩa rmản uọn nhưng chinh xác, bao hàm dầy tỉú các đặc tinh cùa một kho dữ liệu. Bốn đặc trima: Inrớnịỉ c h u đ ề { s u b je c t-o rie n te d ), tíc h h ợ p Ụ n te r g r a te d ). g ắ n th ờ i g ia n (time-variant) và bển v ữ n g ( nonvolatile) là các dấu liiỌu phân biệt các kho dừ liệu với các hệ thonu dừ liệu khác, ví dụ như các hệ thonu c ơ s ở dữ liệu quan hệ. các hộ thổní» xứ K ụiao dịch, và cá c hệ thone file. Kho dừ liệu thườnu • *— rất lớn. tới hànaw irăm ( iib y t e ha> ihậm ch í liànu• V— Terabyte. Kho đừ liệu ckrợc \ â \ d ự n g đê tiện lợi ch o v iệ c truy cập dữ liệu theo nhiều nuuồn. nhiều kiêu dữ liệu khác nhau sao ch o có thê kết hợp dược cà nhìrnẹ im li dụ nu cua các côn <2 nu hộ hiện dại và ke thừa d ư ợ c từ nlùrne hệ thốnu ihỏnu c - tin và C S D I . dà có sần lừ trước. K h o d ữ liệ u c ó k iề u trúc, m ụ c đ íc h s ử dụng và kỷ thuật xây (lựMỊ khác với các CSDL lác nghiệp thô/lí* thường. Các hệ thông w th ôn cg tin thu thập • I xứ l\' * dừ liệu • theo cỏn u W imhệ W ' • kho dừ liệu • dược s o• i là hệ• xử 1Ý phân tích trực tuyến (O I.A P). Tóm lại. kho dừ liộu là nơi lưu trữ các dừ liệu d o n c nhất v ề mặt n e ừ nahĩa nham phục vụ Iilur một ihê hiện \ ậ t IV của m ô hĩnh hỗ trợ IỊUYCI dịnh và lưu trừ 20 các thòniỉ tin mà một tô chức can tic dưa ra các (.Ịiivct (.lịnh chiến lược. Một kho dừ liệu cù nu ilurờnu dư ợc \ c m như một kiến trúc được xây dự rte bần ti cách tích hợp dừ liệu lừ nhiều nụuồn k h ô n g d ồ n e nhất dô hỗ trự các i m \ Nấn có hoặc kliônii c ó cau trúc, các háo cá o phân tích và dưa ra các quvêt định. V iệc \ â \ dựníi kho dừ liệu c ù n g rât hữu dụnu nêu nhìn từ nóc dộ tích hợp các cơ s ơ dừ liệu không d ồ n g nhất. Rất nhiều lò chức tlìirờna tập hợp nhiều loại dừ liçu hồn tạp khác nhau và duy trì các c ơ s ở dử liệu lớn từ nhiêu nguôn thônũ tin phân tán. tự trị và khônu đồnu nhất. V iệc tích hợp các dữ liệu dó và làm cho \ ì ệ c tru\ cập vào dừ liệu trơ nên dề dànu và hiệu qua. đén na\ Nần luôn là một khao khát và thách ihírc to lớn. D à c ó rất nhiều níihiên cứu và nỗ lực irons w • w neành côn u níihiệp dừ liệu nham tới m ục tiêu này. Phirơnu pháp liếp cận truyền thốrm ch o v iệ c tích hợp các dừ liệu khònu dont! nhát là xâv d ự n s các vo bọc ( w r a p p e r s ) và các b ộ tích h ợ p ( in ten*rcifors) ha> bộ in m iỊ g ia n ( m e d ia to r s ) ữ phía trên các c ơ s ơ cỉừ liệu hỗn tạp. Khi một truy van d ư ợc dưa tứi phía một m áy khách, m ột từ diên dặc tà dừ liệu sẽ d ư ợc sir dụnu dê phiên dịch truy van d ó thành các truy vấn thích hợp c h o các phiu dừ liệu hỗn tạp khác c ó liên quan. Sau dó những truy vấn này s ẽ d ư ợ c ánh xạ và dược íúri lới các hộ xử K truy van cục bộ. C ác kết quà tra v ề từ các phía dìr liệu hỗn lạp sẽ d ư ợc tích hợp tron li một bộ tra lời toàn cục. P h irơ n g p h á p tiế p c ậ n (lịnh liirớng tr u y v ấ n (q u e r v -d r iv e n a p p r o a c h ) nàv dòi hỏi sự xư lý tích hợp và chắt lọc thồnu tin rất phức tạp. và dôi hói sự cạnh tranh íiiừa các n eu ồn dừ liệu trong việc xử lý cụ c hộ lại m ồi nguồn. N ó c ó the sc rat tốn kém và k h ôn g hiệu quả đối với các truy vun thườn!» xuvên, dặc hiệt là nhừng truy vấn đòi hỏi sự tích hợp. 3 .2 N h ữ n g đ ặ c đ iể m c ơ b (in c ủ a k h o (ilĩ liệ u M ọi kho dừ liệu, lus c ó rất nhiều đặc diêm khúc nhau tùy thuộc vào nội dunu và m ục clích khai thác, n hư ng nhìn chung (Jeu c ó nhừna, dặc diêm cư ban sau đây: T ín h h ư ở n g c h ú d è . Một kho dữ liệu thường d ư ợc tô ch ứ c theo các chu dề chính đe eiú p ch o tổ chức có the d ề dàng xác định d ư ợ c nhìrtm thôn» tin cần thiét tro n g ù r n s hoạt d ộ n g c u a m ìn h , c h a n g hạn n in r k h á c h h à n e . nhà CLII1Ü cấp . sail phàm \ à bán lìànsỉ. Khônu chi lưu trừ tập irung các hoạt d ộ n a \ à ttiao dịch liànu nuà\ cua một tỏ chức, kho d ử liệu còn c ó kha nănu m ô hình hóa \ à phân
- Xem thêm -