0— L
ĐẠI 1IỌC ọ u o c GIA 1IA NỌI
TRƯỜNG d a• i h o• c ( ô n c n g h é•
PHAN NHẢT
• KIÊN
T ÍC H H O P DỦ L IÊ U , K H O DŨ L IÉ U V À Ử N G D U N G
TRONG LĨNH v ự c QUẢN LÝ TÀI CHÍNH CÔNG
Ngành: Công nghệ thông tin
Ma số: 1.01.10
LUẬN VĂN THẠC s ĩ
NGƯÒI HƯỚNG DÁN KHOA HỌC
rs. ĐỎ VÃN THÀNH
DAI H O C Q U Ố C G IA HẢ N Ò
ĨRUNG TÀMTHÔNG TIN ÌHƯVlẺN
V - LO/
1là Nội - 2008
1
MỤC LỤC
DANII MỤC CÁ C KÝ I III l i .
c Á c ( I l ữ VIH'r I A I ........................................................... 3
DANH MỤC CÁC BẠNCì mi
I ............................................................................................. 4
l )ẠNI I MỤC C Á C HÍNII VI'.
DÓ T I I Ị ..................................................................................... 5
M( ) DẢU.................................................................................. ....................................................................... 7
CHƯƠNG l - T Í C I I l ỉ Ợ P D Ĩ T l II;.u VÀ KHO D Ơ I . I I . U .................................................................y
1. rích hợp dừ l i ệ u .................................................................................................................................
/. I Khái niệm lích hợp (ỉữ liệu ........................................................................................................ l)
1.2 Lịch sư phát iriên cua licit hợp (lữ liệu ..................................................................................
1.3 ì i (iụ minh họa ................................................................................................... I I
1.4 Lý ilinycl tic tì hợp dừ liệu ....................................................................................................... 12
2. Tồng quan quá trình từ dữ liệu đến thực hiện ra quyết đị nh ................................................ 15
3. Kho dữ liệu.................................................................................................................................... 18
ỉ. / Khái niệm kho dừ liệu ............................................................................................................. IX
3.2 Những đặc tỉìêm ctr ban CIIU kho dữ liệu ..............................................................................20
3.3 Sự khác nhau ỉỉiừti các hự thong CSDL tác nghiệp vả các kho (lữ liệu ........................ 23
3.4 Kiến trúc kho (lữ liệu .................................................................................................................25
3.5 Síô hình kho dừ liệu ................................................................................................................... 27
3.6 c 'hiển lược thieí ke, Xíiy thmg kho dừ liệu ............................................................................ 3 1
4. Cơ sớ dữ liệu chu đề (Data Mart)...............................................................................................36
4. ỉ Khái niệm cơ sơ (lừ liệu chu đ ề .............................................................................................. 36
4.2 Những lý i/o can pliái xây dựng các cơ sớ dừ liệu chu d ề ................................................38
5. Khai phá dữ liệu (Data Mininu)................................................................................................. 39
5. / Khải niệm ......................................................................................................................................3 y
5.2 c 'ác kỹ ịhuật khai phá dừ Hệu.................................................................................................. 4 1
6. kết l u ậ n ................................................................................................................................................ 42
CHƯƠNG II - GIỚI THIỆU MỌT SỎ KHO DỮ LIỆU VÀ C S m . C H Ủ Đ È ............................43
1. Ớ tron» nước........................................................................................................................................ 43
I I Cơ .sớ dừ liệu chú dè về kinh tế vĩ mô ....................................................................................43
1.2 Hẹ cơ sờ dừ liệu phát ỉrièn bển vừttg của l iệt Xam .......................................... ............... 46
2. Ớ ngoài n ư ớ c .................................................................................................................................. 53
3. kct l u ậ n ...........................................................................................................................................57
CHƯƠNG III - ỬNG DỤNíi XẢY DỤÌMG c ơ SỜ Dfr l.lị:n CHỦ l)Ẻ Đ ộ c I.ẠP TRONCi
QUẢN LÝ TẢI CHÍNH C Ò N ( Ỉ .......... ................................................................................................58
1. Cìiới thiệu vân đ è ................................................................................................................................ 58
2. Mục tiêu xây dựng cơ sớ dữ liệu cluì dề về thu - chi ngân sách........................................... 58
3. Yêu cầu cùa cơ sờ dù' liệu chù đò VC thu - chi ngân s á c h ...................................................... 59
J. / Yên cần Ví' liệ tlionịỉ chi tien .....................................................................................................59
3.2 Yêu cầu khi thiẻl ké cơ sơ dừ liệu ........................................................................................... 59
3.3 Yêu can ve chia Iiãnịỉ vua ( SDL và kha nàng mớrộng, nàng cap ........ ........................60
4. Xây dựntỉ hệ thống chi tiêu thu - chi ngàn sách....................................................................... 61
5. Thiel kế Cơ sờ dừ liệu clui dề về thu - chi ngân sách............................................................. 62
5.1 Mò hình phân rà chức nàng......................................................................................................62
5.2 Mỏ hình cỉữ liệu ............................................................................................................................64
6. Một so chức năng chu yếu cua C SD1. chú đề về thu - chi lìgân sách................................. 65
7. két l u ậ n ................................................................................................................................................. 79
KÍ T I.UẬN CỈIU NG..............................................................................................................................80
IÀI I l l. i ir il I A M K H Ả O ............................................................................................................................SI
PIIỤ I Ụ C ........................................................................................................................................................ 82
DANH MỤC CÁC KÝ HIẸU, CÁC CHỪ VIÈT TÁT
Diễn }>iai
K\' hiệu
CN 1 1
c omi nghệ ihông tin
cọ
Cơ quan
CSI )I
Cư sơ dừ liệu
l)M
Data Mart
l)SS
Decision Suport System - ỉ lệ thông hồ trự quvêt định
l)\v
Data Warehouse - Kho dừ liệu
IR
Entities Relationship - Quan hệ thực the
III.
Extract. Transform. Load - Trích chọn. Chuẩn hoá. Nạp
Ill
Cộnụ dồnụ các quốc gia sứ dụnu đồnu tiền chung Châu Âu
CÌAV
Global As View
KBNN
Kho bạc Nhá nước
KDI)
Knowledge Discover) in Databases - Khai phá tri thức từ CSDI..
K l -XII
Kinh te - xà hôi
l.AV
Local As View
I.IIỌ
Lien hợp quốc
MDGs
Millenium Development Goals - Các mục liêu phát triên thiên niên ky
MOLAP
Multidimensional-OI.AP - Xứ lý phân tích trực tuyên kiêu đa chiêu
NSN N
Ngân sách Nhà nước
OLAP
Online Analytical Processing - Xư lý phân tích trực tuyến
OI I P
Online Transaction Processinii - Xứ lý giao dịch trực tuyến
PTBV
Phát tricn bền vừng
KOI .AI’
Relational-* M AP - Xù lý phân tích trục tuyến kiểu quan hệ
Cư sơ dừ liệu chu dê
DANH MỤC CÁC BẢNG BIẾU
Tồn há 11«Ị
Bang I : So sánh CSDI tác imhiộp và Kho dừ liệu
Bang 2: So sánh các hộ thốnii OI I P và OLAI’
s
DANH MỤC CÁC HÌNH VẼ, ĐỎ THỊ
Tên hình vẽ
Trang
I linh
I : Biêu dỏ dơn uián cua một kho dừ liệu
Hình
2: lỉiêu đỏ niai pháp tích hợp dữ liệu iheo kiêu liên kết lỏng
10
Hinh
3: Mô tá khônu gian ban ụhi cùa các ánh xạ (iA V \á L.AV
13
I lĩnh
4: Mỏ ta quá trình từ dừ liệu don thực hiện ra quyết định
16
Hình
9
5: Minh hoạ khái niệm lích hợp và chuyên dôi thông tin dữ liệu
từ các CSDL tác ntỉhiệp vào Kho dữ liệu
21
Mình 6: Kiến trúc Kho dù liệu
25
I linh
7: Mò ta mô hình Kho dừ liệu trường hợp 3 chiểu
28
I linh
8: Mô tá sơ dồ dừ liệu nhiều chiều theo sơ dồ hình sao
29
I linh
9: Mô tà sơ đồ dừ liệu nhiều chièu theo sơ dồ bông tuyết
30
I lình10: Mỏ
tà sơ đồ dữ liệu nhiều chiều theo sơ dồ chòm sao sự kiện
I linh 11: Mò tả phương pháp triển khai kho dìr liệu
30
35
ỉ linh 12: Moi quan hệ giữa các CSDL tác imhiệp với k h o dữ liệu và
C SD Lchuđề
37
I linh 13: I.uồng dữ liệu trong một tỏ chức, cơ quan
38
Hình 14: Mô lã quá trình khai phá dữ liệu
40
I lình 15: Sơ liồ phân rã chức nãng CSDI. chú đề thu - chi NSNN
63
I lình 16: Sơ đồ dữ liệu cua C’SDI. chu đề thu - chi NSNN
64
I linh 17: (Yie khoan mục chi tiẻu thu - chi niĩân sách
65
1linh IX: Giám sát. theo dõi tình hình thục hiện các mục tiêu chu yếu
66
1linh 19: I im kiếm, lựa chọn chí liêu theo lĩnh vực và nhóm chi tiêu
67
I lình 20: Tìm kiếm, lựa chọn chi tiêu theo nguồn số liệu
67
I lình 21 : l .ựa chọn khoáng thời gian lấy số liệu cho các chi tiêu
68
I Unh 22: Lựa chọn địa bàn theo địa danh
68
Minh 23: l .ựa chọn địa bàn theo vị tri trên bàn đồ
69
I linh 24: Mán 11inh liệt kê kết quà truy vấn dìr liệu
69
I lình 25: Màn hình liệt kè ' là c ó rất nhièu clĩr liệu
nhirnu lại dõi ihônsỉ tin. Quá trình nỗ lực lîiai tjlivct níỉhịch lv nà) dà dần đến
hình thành một xu lurỡnii nghiên cửu và ứng tiụnu dang rat phô bien và sôi ilộníí
troníi the giớ i C N T T hiện nay. dó là van lie phát hiện Iri thức từ các c ơ sờ dừ
liệu (K n o w le d g e D isco v ery in Databases - KI)D).
Ọuá trình K.DD ạỏm nhiều iiiai đoạn, tronii dó có hai 2 Ìai doạn quan trọnc
nhất, dó là: x â \ d ự n c kho dữ liệu (D ata W arehousing) và khai phá dừ liệu (Data
Vlininụ). Xâ\ dựng kho dừ liệu là iìiai đoạn dâu tien của quá trình KDD. Mục
dich cua giai đoạn nàv là \ â \ dựnc một loại c ơ sở dữ liệu (C S I )I .) k h ôn a chuẩn
hoá, liru trừ dừ liệu tích hợp, có uiá trị lịch sư và dược chiết xuất từ nhiều nguồn,
lừ nhiều CSDL khác nhau. Các CSDL này nói chIInu thirờnẹ dược phát triển
trên nền các hệ quàn trị C SD I. khác nhau. Vì vậy khi xây d ự ng kho dừ liệu
tlurờnu phai nghiên cửu ííiai qu\ểt vấn dề tích hợp các hệ thốnu thông tin liên
quan bao gồm cá tích hợp hệ thốnạ phần ciriiũ. phần mềm và dừ liệu.
Luận văn này tập trunẹ chú yếu vào việc kháo cứu những vấn dề Iiên quan
đến lích hợp dữ liệu; kiến trúc và các thành phần c ơ bản cùa kho dừ liệu: khai
phá dìr liệu, và ứnu dụnii nhừng kiến thức dược kháo cứu để thứ nghiệm xâ\
dựng một loại kho clừ liệu, dó là CSDL chú dề dộc lập (Data Mart), trong lĩnh
vực tài chinh c ô n e ữ V iệt Nam.
♦
V»
•
l.uận vãn g ô m có 3 ch ư ơn g nội dung, không kê các phần m ở dầu. kết luận,
lài liệu tham khảo và phụ lục:
• Chương ! - Tíc h lìựp dữ liệu và kho (lừ liệu. Trình bày các khái niệm, lý
tluiyết c ơ ban và các van đề liên quan dến tích hợp dữ liệu và kho dữ liệu.
• Chương / / - Giới thiệu một số kho (lữ liệu và CSDL chú dề. (ìiới thiệu
khái quát v ề mục liíclì, dặc điểm, chức năn ti cùa m ột s ố kho dừ liệu,
CSDL chu để tiêu biêu ơ tronụ và ngoài
nước hiện
nay.
c
*
ụ
• Chương l ỉ l - ủh g dụng xây dựng CSDL ch ti đề độc lập trong quản lý
Tài chính công. Trình bà\ việc ứne dụ nu l\' thuvết Kho dừ liệu de \â\
dựĩiíĩ ihứ nchiệm một CSDI chù dê phục vụ phân tích, dự háo vê tình
hình thu
chi nuàn sách áp d ụ n u tro nu lĩnh vực
l ài ch ín h cônư.
lác giá xin íuri lời irân trọn li cam ơn đèn I hâ\ ui áo hirớnii dần
IS. I)ồ
Văn I hành cùníì toàn the các bạn hè. dồng niihiệp dà nhiệt tinh aiúp dỡ. cu 112
cáp nluìnu thônạ tin. tư liệu quv háu dè hoàn thành luận vãn này. Do khuôn khô
thời gian có hạn nên nội ilium luận văn chắc chăn SC còn nhiều thiếu SÓI. tác già
rat nions, nhận dược sự íiỏp
tham eia V kiến của các thav cỏ ui áo. bạn bò dônti
nuhiệp dê eôns trình ìiỉihiên cứu nù\ neà\ cànu tlirợc hoàn thiện hơn nữa.
Xin chân thành cám ơn!
CHƯƠNG I - TÍCH HỢP DỮ LIẸU VÀ KHO DỮ LIẸU
I. Tích họp (lũ liệu
/. / Khái niệm tícli hợp (lũ liệu
T íc h h ợ p d ừ liệu lù q u á trình ket h ợ p cá c loại d ữ liệu lừ nh iề u nỉỉUÔn khác
nhau và CIII1Ü cấp cho niurời sư dụng một cái nhìn dồna nhất về các dừ liệu dó.
Vấn đề quan trọng này đà và claim xuất hiện ngày càna nhiều tronti các lĩnh vực
I
•
w
tỉ
s—
•
•
m
»—
c •
khác nhau cua dời sốnu \ã hội. chãns hạn trong lĩnh vực thương mại khi các
cỏn ạ IV tương tự nhau can hợp nliẩl dừ liệu cua họ. hoặc tro nu lĩnh vực khua học
nhằm kết hợp các két quà million cửu từ các kho tri thức khác nhau. Tích hợp dừ
liệu xuai hiện với cườnạ độ ngà\ càns tãnu và làm bùna nô nhu cầu chia se dữ
liệu. Nó đà trớ thành tiêu diếm cùa rất nhiều học thuyết và các vấn đẻ mơ còn
can dược uiai
íỊUvet.
Trong thực hành, tích hợp dữ liệu thườn ụ dược gọi là lích
hợp thâmỉ tin doanh nghiệp {Enterprise information Integration).
1.2 Lịcli sử phát irìên cua tích họp dữ liệu
Ngà) nay. tích hợp dữ liệu khônu còn là van đe mới me. l ừ những năm
1960. sau khi các CSDL xual hiện phô bien và dược sư dụnu một cách rộng rãi.
dà dần dcn nhu cầu chia sẻ hoặc tích hợp các CSDL. Việc tích hợp có thề dược
thực hiện ở nhiều cấp độ trong kiến trúc của CSDL. và một trong nhữ na phươnii
pháp phô biên là xây dựng kho dữ liệu (Data Warehousing - xem hình I ). Ở đó.
dừ liệu từ nhiều niiuồn khác nhau dược trích chọn, clìiiãn hóa và nạp {Extract,
Transform, Load ~ gọi tat là tiến trình ETL) vào một imuồn. và có thế được truv
vấn với một lược dồ dơn lé.
ỉ/ình I : Bien i1ồ (lơn gian cua một kho dữ liệu.
Thông Ún từ các c 'SOI. nịỉitòn íhrực Iríclì chọn, clinân hóa và nạ/) vào kho (lữ liệu
10
Vê mặt kiến trúc. ílà\ cô thô dược \C111 Iilur một pluronu pháp liên kôt chặl
bơi \ì dữ liệu cùng dược tập irune trôna một kho đơn nhât tại thời diêm truy
vấn. Nluriiü van dề phát sinh dối với phươnu pháp Iiàv là khônu dám báo dược
tinh cập nhật tức thòi cua dừ
liệ u
(\í dụ khi một
I1ÜUÔI1
dữ liệu UOC được cập
nhật mới. nhirnti trona kho dữ liệu vần chứa dừ liệu cù hơn), dần liên lien trình
í: I I cần phai dược thi hành lại nhiều lần. Niioài ra. cũna khó có thê xây tiựnu
các kho dừ liệu khi chúnạ ta chi có một niao diện lm\ vấn lới các nmiòn dữ liệu
mà khônu truy cập tới dừ liệu dầy dù.
Tronu nlũrna năm aần đây. việc tích hợp dữ liệu có xu hướng nới lòna liên
kết aiừa các dừ liệu. Y urơrm ỡ đây là cun lí cấp một aiao diện tru\ vân dons
nhài thôn*! qua một lược đo trung gian hay còn uọi là CSDL ào (xem hình 2).
Vò bọc
Vó bọc
Hình 2: Biêu (tồ ỊỊiái pháp lích hợp (lữ liựn theo kiên liên két lòng.
Xây tlựiHỉ một lược ito Inins’ Ịỉitm mil qua đó người sư tỉụnỊĩ có thê đưa ra các truy vail.
I heo mô hình tích hợp này. các truy van dong nhất sau khi di qua lược đồ
trung iỊÍan (Mediated Schema) và các vo bọc ( Wrappers) sẽ được chuân hóa
thành các truy vấn cơ sở trên các CSDL nuuồn. Quá trình này cũnu có thể dược
gợi là quá trinh hói đáp dựa trên khuna nhìn ( View), bời vì chúng ta có thê xem
mồi Iiiiuòn dừ liệu như là một khunii nhìn trên lược do trung aian. Plurơnụ pháp
tiếp cận nlur \ ậ\ dược aọi là plurơnu pháp kìumsi nhìn cục bộ (Local /l.s l ieu LAV). C'ùnt» có một mô hình lích hợp khác tron 12 dó lược dồ trung aian dược
thièt kê như là một khunu nhìn trên các dừ liệu rmuồn. IMiươim pháp tiôp cận này
dược íiọi là phương pháp killin g n h ìn to à n c ụ c (G lo b a l A s I '/Vu- - G A V ). ihirônt»
dược sir đụim khi CỎ nlnrmi rac roi phái sinh khi tra lời các till) \an qua lược dô
truim uian.
I u\ nhiên, nhược diêm cùa phương pháp này là sẽ phai sưa lại
kliunuk . nhìn cho lược
• dồ trunu
w Wuian mồi khi có them một
* nuuôn dữ liệu
• mới dược
*
lich hợp hoặc khi một n Lílion hiện tại tha\ dối lược dồ cùa nó.
Hiện nay. một sổ nahiên cứu vè vẩn đò lích hợp dừ liệu còn có liên quan
Jell vắn dò lích liợp ngữ lìiỉliui (Semantic Integration), vần dò nàv khônu chi ra
làm the nào dc \à \ dựna kiên trúc tích hợp. mà là làm thế nào dê uiui quyêt các
\unii dột nạừ niihĩa eiừa các nguồn dừ liệu không, dônu nhât. Ví dụ nếu hai cô nu
1\ hợp nhất CSDI. cùa họ lại. thì các khái niệm và định nahìa nào đỏ tronu các
lược dồ riêne cùa họ. chăn a hạn "lợi nhuận", sẽ có nhìrng V nghĩa khác nhau.
Ironụ một CSDI.. nó có thê cỏ nuhĩa là lợi nhuận barm đông dô-1a (dưới dạnu sô
ilụrc dấu phây tlộnu). ironạ khi ironti CSDI. kia. nó lại có nghĩa là số lirợnu hàna
hán dược (dưới dạna số nạuyên). Một chiến lược aiài pháp chuim cho các ván
dề nlitr vậy là sứ dụng các bàn thê (ontologies) troniì đó dịnh nghĩa mội cách rõ
rànu các thuật nu ừ cùa lược dô và từ đó giúp aiài quvét dược các xunu đột ngừ
nghĩa.
/..? Vi dụ minh họa
( ìiá SƯ có một
sư dim
* ưnu
w dụnu
• w vvch tronc
w đó nmrời
W
• ü
c có thê tru\
có nuhĩa là nhừnu nairời phát triển ứng tlụim sẽ xây dự'liu một lược dồ dế mô
hình hóa một cách tốt nhất các loại câu tra lời mà nsười sứ dụng cùa hụ monu
muốn. Lược dồ áo nàv được ạọi là lược đồ tnmg %ian (mediated schema). ! icp
tlico. họ sẽ
thiết
ke
các
vo bọc (wrappers)
hoặc các
bộ điẻii hợp (adapters)
cho
12
mồi Iiíiuồn dữ liệu, cliánu hạn như CSDI tội phạm và trang ueb thời tiêt. Các hộ
dieu hợp nà\ ch 1 dơn uian là cluiãn hóa các kết qua lm\ \ ân cục bộ (dược tra vè
bơi riêna ùrnii tra nu \vcb hoặc limu CSDI ) thành một dạng dồ \ư K cho Irunu
w
c
>
s-
y
*—
tàm lích hợp dừ liệu (\cni hình 2). Khi một iiLurời sư dụng irne dụnu tru\ vân
lược dỏ Irunu tiian. Irung tâm tích hợp dữ liệu sẽ chuân hóa iruy vân nàv thành
các truy vấn thích hợp cho ùrnu nuuôn dừ liệu riêng lè. Và cuôi cùng, các kct
qua cua các truy vấn này sẽ dược kết hợp thành một câu tra lời cho truy van cùa
nmrời sử dụnụ.
Một lợi ích cua íiiái pháp nà\ lù các nuuôn dữ liệu mới có thê được hô SUI1Ỉ2
một cách đơn gian bans cách xây dựnạ một bộ diều hợp cho chium. Điều này
Iirơna phan với các hệ thonu I I I. hoặc một íiiái pháp CSDL dơn nhất, trorm dỏ
toàn bộ tập dừ liệu mới phai dược lích hợp một cách thu côn li vào hệ thổnu.
1.4 LÝ thuyết tích hợp ilũ liệu
LÁ thuyết tích hợp dữ liệu là một tập hợp
C O I
1 cua lý thuyết CSDL. Các kếl
qua cua nỏ cho chúng ta biết rana dừ liệu có thê tích hợp dược hay khò nu và có
nhữnỉiW . khó khàn wui khi thực
hiện.
Tuy•* ra nuw nhĩrnu
nuhĩa
van còn khá trừu
•
•
w dịnli
•
W
lirợnu. nhưna nhìn chunti chúng cũn ụ là dù dế hiên điền được tat cả nhừnii thê
loại cùa các hệ thống tích hợp.
1.4.1 Các (tịnh nghĩa
Các hệ thônu lích hợp dừ liệu dược định nuliĩa một cách chính tăc như một
hộ ha iront» dó Ci là lược dồ toàn cục (hoặc truim íiian). s là tập hợp
các lược đồ nmiồn khônu dont» nhất, và M là phép ánh xạ các lim vân eiừa các
lược dồ nuuồn và lược đồ toàn cục. Cu (ì và s đều được biếu diền trong các
nuỏn ntĩừ thông qua các hanư chừ cái hao gom các biêu tượng cho các quan hệ
ricnii cua cliủtm. Ảnh xạ M bao uồm nhừnu xác nhận uiữa các truy vấn trên G
và các truy vẩn trên s . Khi nũirời sir dụn« đặt cá c truy vấn trên hộ thốna tích hợp
dữ liệu, họ sè dặt các tru\ van qua G và sau đỏ ánh xạ sẽ xác nhận nhừnu kêt nôi
íiiừa các phần tư iron SI lược đồ toàn cục và các lược dồ nuuồn.
MỘI CSDI, qua một lược dồ dược định nghĩa là một tập hợp các tập. mỗi
tập tương irnu với một quan hệ (tronc; một CSDL quan hệ). CSDI. írn» với lược
do nuuồn s là tập hợp các tập ban ghi cho mỗi nÜIIôn dữ liệu khôn2 dònu nliât
vã nỏ được íiọi là cơ sớ dừ liệu ngìiôn {source database). CỈ1Ú \ rănu CSDI
13
nạuồn dơn nhất này thực lố có ihè là một tập hợp các C S D I. rời rạc. t'S D I
ứnu
với lược d ô iriin u íiian a o Cì dược s ọ i là cơ sơ (lữ liệu loàn cục (global
database). C S D I . to à n cục p h a i th o a m à n á n h xạ M d ố i v ớ i C S D I Million. l ính
hợp lệ cùa ánh xạ nà\ phụ thuộc vào tính chài cua sự tươna quan giữa Ci và s .
Có hai p l u r ơ n u pháp phố h iế n de m ô hình hóa mối tươna qu an này. đó là kh u n g
nhìn toàn cục (G A V ) và khung nhìn cục bộ ( I A V ).
K hung nhìn toàn cục
K hung nhin cục bộ
Hình 3: Mõ lu klìòiìịỉ gian bán ghi cua các (inh xạ GA I ' vil LA I
Trona CÌAV. hệ thons dược rà no. buộc với tập các ban ghi ánh xạ bưi các
hộ trung íỊian (mediators) trong dó tập các han ghi có thê dược biêu diên qua các
nẹuồn có the là rộ 11ạ hơn và da dạng hơn nhiều. Trong I..AV, hệ thống dược rà nu
buộc với tập các bán ehi trong các nguồn. và dúm li có thê dược biêu diền qua
lược đô toàn cục có thê là rộniì hơn nhiều. Vi vậy. các hệ thông I.A V thường
phai dổi phó với các câu trá lời không hoàn chinh.
Trong CiAV. cơ sở dừ liệu loàn cục dược mô hinh hóa nlur một tập các
khung nhìn trên
truy vấn trên
s.
s.
I rons trườna hợp này M liên kết mồi phan tử cùa G với một
Việc xử K iruN vấn trờ thành một thao tác dề dà nu hơi vi các
liên kết ui ira G và
s đà dược định
nuhĩa sẵn từ trước, vấn dè phức tạp là ờ việc
cune cap mà cùa bộ trung gian dê chi dần cho hệ thonu tích hợp dữ liệu biết
chính xác làm thế nào dỏ tru\ xuất các phẩn tứ từ các C S D I. nguồn. Nẻu cỏ
nguồn mới nào dược hổ sunu vào hệ thốn2. thì can phai có sự cập nhật cho bộ
truns íĩian. vù vì vậ\ phươnu pháp CÌAV nên dược áp dụna trona các Irườns hợp
các nẹuồn
dừ •liệu khôn ự
tha\« dõi.
w
w tlurònu xuyên
r
Xét plurơnu pháp G A V doi với hệ thống tích hợp dừ liệu troim ví dụ ư phần
trên, naưừi thict ke hệ ihốni» tnrớc tiên sè phát triên các bộ trunn íỉian cho mỗi
14
imuon thònií till cua thành pho và sau dó thict kế lược dô loàn cục xoa\ quanh
các hộ■ trunii
*<_ *—íiian n à \. V í (.III. uia sir một tronu các nmiôn là iranu • v_\vcb
■w
C *—vồ thời
I ici. Khi d ỏ n s ir ờ i t h iế t k ê s è b ô s u n s m ộ t p h â n l ử t ir ơ n g ứ n u v ớ i th ò i tiẽt v à o
lược dô toàn cục. S a u d ó thi vân tic c h u Ycu lã \ ici mà thích hợ p ch o h ộ iruna
üiitn lio nó sè chuẩn hói) các thuộc tính cua ihời lict thành m ột truy vấn trôn iranii
\\ch thời liát. Vấn dề này cỏ ihé trở nên phức tạp nỏII có một niiuồn khác liên
quan đốn thời tiết hỡi vi Iiũưừi thiết kế lúc dó s è phái đối mật với việc viết mà de
kel hợp một cách dúnti dan các kết quà từ hai Iimion khác nhau.
ỉ rái lại. tronii I-A V . cơ sư tiừ liệu nmiồn dirợc mô hình hóa như một tập
các khung nhìn trẽn G. Tronii trường hợp nà}. M SC liên kết mồi phẩn tir cua s
với một
• lru>
w vấn trên (i. Ớ dây,
« các liên két chính xác W--SỊĨĨra G và s là kliônu
w còn
dược định nuhĩa sần. Như sè mô tủ trong phần tiếp theo, sự khó khăn cua việc
xác dinh xem làm thể nào để iruy xuất các phần tư từ các nguồn sẽ tập trune ờ
hộ xứ lýr tru\» vấn. I.ợi ích cua mô hình I.A V là các Million
mới có the dược
w
• bô
suriii với mội
• lượne
• C / côntỉ
W v iệ■ c ít hơn nhiều s o với ironü *—hệ thốníi• G A V
w . \ ì vậ\.
phương pháp L A V nên dược áp dụng trong các tnrờnii hợp mà các lược dồ trime
gian là không thường xuyên tliay đối.
Xét phương pháp I.A V dối với hệ thống tích
hợp dìrliệu trong VI dụ ờ phần
trôn, ntiirời thiết kế hệ thống tnrức tiên sẽ thiết kế lược dồ loàn cục và sau dó chì
cần nạp vào các lược dồ lirơnu ửnũ cua cúc nuuồn Nấn nổi ticp "thật". Mục tiêu cua hệ th on s tích hợp lá \ ici lại
các truy van dại diện bời các khunu nhìn đè làm cho các kêt quá cua chúnu là
tương đươna hoặc d ư ợc chứa tối da hởi truy vấn cùa rmười sứ dụnu.
Iro n s các hệ thốníi G A V . một neười thiết kế hệ thổnụ sẽ viết mà hộ trung
nuhĩa
cách viết lại
V—íiian đế định
■
>_
• truy
1 vấn. Mồi Iphẩn ur tron Wạ truy
tể vân cua nturời
W
SƯ dụnạ lirơnu ử nu với một tru\ vấn trên nguồn. Xư lý truy vấn chi đơn gián lù
m ờ rộ nu các m ục đích con tronu truy van cùa ngirừi sử dụne, llico quy lác dã
dược xác định troua bộ truníi gian và vì và) truy vấn kết quá là nan như tươim
dươnc.
Trong các hệ Ihong I .AV . các truy van phài trai qua thèm một thao tác viết
lại cư sứ nữa. bơi vì ở đây khônu có bộ trunu ụian đê doi chiếu truy vấn cùa
ntiirời sứ ciụnu với một chiến lược mờ rộng dơn aiàn. Hệ ihong tích hợp phai
tien hành tìm kiếm trên khônu
w cíiian cùa các iru\• van claim
w c ó dè tim ra một
• han
viết lại tốt nhất. Ban viết lại nàv có thể khôniỉ phái là một Iruy vấn tirơim dươnu
nlurim dược ch ử a toi đa, và các bàn ahi két quà có the là không hoàn chinh.
Thuật toán M in iC on hiện tại dana là thuật toán viết lại tru\ vấn hàna đầu cho
các hệ thôrm tích hợp dữ liệu I.AV.
2. Tổng quan q u á trình tù' (lữ liệu đến thực hiện ra quyết định
Một
tiêu cot »yéu cùa \ iộc
là nhăm tônỉi
• troníi
V nhĩrnụ
w - mục
•
• tích hợp
» I dừ liệu
•
W
hợp. phân tích các ihônc. tin từ dữ liệu quá khử và từ dó dưa ra nhfrnu quvêt dịnh
16
theo chiều hướníi có lợi ironu urơnỉi lai. Ọuá trình llụre hiện mục tiêu Iià\. bal
tlầu lừ nhĩrtm C SD I
tác Iiũhiệp đơn le ch o tlỏn klii dưa ra dược nlũrim quvci
(.lịnh cần thiết, ckrợc gọi là qiiíi trình tù' dừ liệu (Jen thực hiện ra quyết (.lịnh.
Ọuá trình từ dừ liệu tiến liên hành ra quvỏt dịnh là tlirờna bậc thanu tiồni 3
bậc chính: C S D l. và hạ tân li kỳ thuật, Khai plìá dữ liệu (Data M inina) và Cô nu
cụ tác n ghiệp thông minh (Intelligent Business I ool). Quá trình này dược m ô ta
qua hình 4. trona dó dừ liệu dơn liian là một giá trị do một sự kiện nào dó. I)ữ
liệu có thê d ược thô hiện dưới dạnii sô. vàn han. biêu banu. do thị. ban dò. hình
anh. âm th a n h ... D ừ liệu dạne so và vãn hàn dược sư dụnii phô biến nhất. Trong
CNTT. Ihôna tin d ược tlùra nhận là: th ôn s tin = dừ liệu + kinh n sh iệm (hay kiến
thức c ơ sớ ) và tri thức
thông tin + suy luận.
B ậ c th a n g t h ứ lìliấ t - B ậ c d ữ liệ u . Truníi tâm cua I1Ó là xây tkrnii các Kho
dừ liệu (Data w areh ou se) nham phục vụ cho nhiệm vụ Khai phá dừ liệu ớ bước
tiêp theo. Kiến trúc, m ục dich sứ dụnu và kỳ thuật x â \ dựiiỉì các Kho dữ liệu là
ral khác s o với cá c C S D l. tác nghiệp (Operational Database).
Hình 4: Mõ 1(1 (/tui triuli lừ (lữ liệu dền thực hiện ra t/iạ cl định
17
Dữ liệu phát sinh tù' c;ic hoại dộnu liànu I1ÍÙI\ và dược tlui thập \ ư l\’ dê
phục vụ cônu v iệ c nghiệp \ ụ cua một dơn vị. lô chức được uọi là d ữ liệu lác
n g h iệ p (O p e r a tio n a l D a ta ). CSDI
tác níihiệp phục vụ cho các xir lý g ia o clịclì
trự c tu y ê n (O n lin e T ra n sa ctio n P ro c e ssin g - OI I P), cụ thô nói chu 11li ch ú n a dêu
hỗ trợ \ iệc chiết \u ấ l. lônu hợp. tinh loàn tự tlộnụ các dừ liệu irone C SD L : \ â \
dựiiỉi báo cáo tốnụ hợp hoặc chuyên dè tự dộnu. truy vấn tim kiểm thỗrm tin ụr
tlộns. cập nhật và khai thác dược C S D L từ xa ... Nlũrns thông tin. dừ liệu dược
chiếi xuất từ C SD Ỉ
lác nahiệp thường là loại thôna tin. dìr liệu mà n eư ời SU'
dụng cơ han dà hicl trước, hàm lượng trí tuệ của thôrrn tin không cao và chi dáp
ứn<> cho hoạt độim tác nghiệp, nluìnu quyết định m an s íiiá trị "Iiũủn hạn".
Kho dữ liệu trái lại phục vụ ch o các x ư /Ý p h â n tíc h tr ự c tu y ê n {O n L i ne
A n a ly tic a l P r o c e s s in g - O l.A P ). nhàm phát hiện thônu tin. tri thức mới với hàm
lirựim trí tuệ cao. k h o dữ liệu thực chat là tập hợp các dừ liệu VC tat cà các chu
dò liên quan den toàn hộ hoạt dộna cùa một dơn vị, tô chức nào đó. Các Kho dữ
liệu lưu trữ dừ liệu lịch sir. phụ thuộc thời gian, không thể sưa dối dược, và được
tích hợp từ nhiều hệ thôn» thõng tin. CSD1. tác nehiệp được phát triên dựa trên
nhiều hệ quàn trị C S D L khác nhau. Mô hình cư hán nhất cùa Kho dữ liệu là
CSD L nhiều chiều.
Kho dữ liệu thườn» rat do sộ và xây dựnu cù nu khá ton kém. Khi Kho dừ
liệu chi tập truim vào một chú dè nào đó thì dược sợi là Cơ sở dữ liệu cliu (lẻ
(D a ta M a rt). Nlnr vậy C ơ sỡ dừ liệu chù dề chính là một tập con cùa Kho dừ
liệu dược tập trung vào một sô chù dồ dược lựu chọn.
Kho dừ liệu dược ra dời khoảng I0 nãm liần dày. nham khác phục tình
trạntì con nẹười dã có rất nhiều (Jữ liệu nhưnii khai thác sứ dụng chưa dược hao
nhiêu. Kho dừ liệu dang dược quan tâm xây dựnu ờ các nước tiên tien ca ơ quy
mô quốc uia lần quy m ô các doanh nạhiệp. Thông qua các Kho dữ liệu cù n g với
các c ô n g c ụ k h a i p h á d ừ liệu ( D a ta M in in g T ool), nu ười ta có thê phân tích dô
nhận dạng toàn diện the mạnh diêm yểu cùa một dơn \ ị. tồ chức (thậm chí có thè
là cùa một quốc sia ). dự báo khá loàn diện. da\ đu và hồ trợ một cách hiệu qua
Iron wạ việc
dinh
chiến lược,
kẻ hoạch
sún xuất kinh doanh cùa đơn vị.• tô
• hoạch
»
♦
*
4
chức đó.
OAt N 0 C Q u ố c G IA HÀ NỘI
ÎO v ‘> tẳ. m
ĩh
!
Ô N G TtN ÌHƯ VIEN '
V - L0 /
_ }
18
ỉìậ c th a n " t h ử h a i - H ộc t h ô n g tin . ỉ runu tàm lá khai phủ i/ữ liệ u (D a ta
M in in g ) hu\ x â y d ự n g m õ h ìn h (lự b á o (M o d ellin g ), là giai doạn phức tạp nhái
cua quá trình khai phá tri thức trone, các C SD I. (K I)D ). Một sô kv thuật khai phú
đừ liệu chu you dà. chum và sè clirợc ứnii dụ nu dô tlự báo kinh lố sẽ dược tập
truníĩ giới thiệu ironu một phần ơ dưới.
B ậ c th a n g t h ứ b a - H ộc tr i t h ứ c : I ruiiii tâm cua nó là các H ệ tr ự ỹ ú p
q u y ế t đ ịn h (D e c is io n S ìip o ri S y s te m - D S S ) ha\ các c ô n g cụ tá c n g h iệ p th ô n i’
m in h {In te llig e n t B u sin e ss T o o ls). N ó i chim e dó là phân móm tin học cỏ khíi
nãne SUY luận trên CSDl tri thức dược xây dựnu sau íiiui doạn Khai phá dừ liệu.
Một cách dơn giàn, cơ sứ dừ liệu tri thức là một li ạ ntl cüa C S D L nhầm quán trị
dữ liệu là các câu troníi niiôn ngừ m ệnh đề cồ diên, niiôn ntiừ logic tân lừ cấp I.
cấp 2.... trên dó có xâ\ dựna cơ chế SUY luận tự tlộnu dựa trên một lý thuyết lô
aie nà o đ ó như: logic da trị. loẹ ic x á c suất, louic I11Ờ. loaic kh á n ăn e. lý thuyết
chứng c ớ và niêm tin .... V iệ c su y luận ớ d à \ dược hiêu là han a cách áp d ụ n s cư
chế SUN luận dã dược xác định, từ m ột tập tri thức nào dó tro nu C S D L tri thức có
thể suy ra dược một sỏ tri thức m ới hoặc từ một câu hòi do người sử d une dưa
vào cỏ thổ trà lời dược câu hói dó c ỏ thể suy ra dược hay k h ôn g từ tập tri Ihức dà
ch o bane, cá ch thực h iện cơ ch ế SUY luận trên tập tri thức dó. L ĩn h vự c n à y thuộc
vê Trí tuệ nhân tạo tronu C N T T . Chậm hơn vài năm so với sự xuất hiện cùa
KI)[), một
khác chu »yếu dựa trên nền ta nu
« lĩnh vực
.
w cua In' tuệ• nhân tạo dà ra
dời dược s ọ i là Tác n h â n th õ n g m in h (In te llig e n t A g e n t). Các côn li cụ thònu
minh tác níihiệp hiện nay d ược x â y dựna chú yếu theo kỹ thuật, c ô n g n eh ệ cua
Tác nhân thỏnu minh. ví dụ như cá c phần mềm tin học ch o robot, phần mỏm
đánh cừ. khám chữa bệnh troniì y học. phần mềm lự d ộn g lái ô tô. máy bay. tàu
h oa... dược xây tlựnii theo côntì nuhệ như vậy. Tác nhân thông minh dược xem
là bước phát triển mới cúa Trí tuệ nhân tạo.
3. Kho d ữ liệu
/
Khải niệm kho dừ liệu
Kho dừ liệu c u n s càp các kiên trúc và côníi cụ cỊLian 1} cho doanh nuhiệp de
tô chức, khai thác và sư dụng dừ liệu một cách cỏ hệ ihong nham dira ra nlùnm
quyết dịnh manu tính chiến lược. Níiày nay rất nhiều các tỏ chức đã nhận thấv
19
rail lw.a các hệ• thônu
w kho dữ liệu là m ột cônu cụ cạnh tranh rât hữu ích. thúc dày
m
/ sự
phát triôn ch u n g cua the íiiứi. í rong nhiêu năm nân ilâv. 11li ười ta dã chi phi
nhiều triệu đ ô-la ch o \ iộc xâ \ dựníi các kho dừ liệu doanh niíhiệp. N h iêu nuười
dã ch o ranụ. với sự cạnh tranh tro nu mỗi ngành CỎI1U nahiộp. thi việc x â \ dựng
kho dữ liệu là MÌ khi liếp ihị cuối cù nu bat buộc phai c ó dô c ó ih ẽ cỉáp i m s dược
các nhu cầu cùa khách hànu.
Khái niệm
kho dừ liệu
ntihĩa
theo nhiòu cách khác nhau, nên
•
• dà d ư ợ• c dinh
•
Vkhó có thè dira ra một
ngh
• dinh
•
C' ĩa chính xác, hoàn chỉnh, lliê u một
• cách dơn
íiiân, kho dừ liệu thực chất là tập hợp các C S D L tích hợp. lurớnu chủ dề, được
thiết kế đê hồ trợ ch o cli ứ c n ă n g tr ợ g iú p (/livết (lịnh, mà m ồi dơn vị dừ liệu đều
liên quan tới tronu một khoảng thời ạian cụ thê. C ác hộ th o n s kilo dữ liệu cho
phép tích hợp nhiêu loại hộ thỏnụ ứn g dụnạ khúc nhau. Chúnti hồ trợ v iệ c xư l\'
thỏnu
sứ
w tin b a ncs- cách c u n wẹ7 cap
I một
* môi trườnu
W nền d ồnụ
w nhất và c ó tính lịch
•
cua dĩr liệu dê phục vụ ch o v iệ c phân tích.
1 h eo W.1 l.ln m o n . cha đe cua các hệ th o ns—s kho dừ liệu,
thi một
.
. kho dừ liệu
.
là một tập hợp dừ liệu cỏ chu dề, tích hợp. gan với thời uiun và bổn v ữ n g nhằm
hồ trợ ch o v iệ c ra quyết định cùa c á c nhà quán lý. Dây là một định Iiíihĩa rmản
uọn nhưng chinh xác, bao hàm dầy tỉú các đặc tinh cùa một kho dữ liệu. Bốn đặc
trima: Inrớnịỉ c h u đ ề { s u b je c t-o rie n te d ), tíc h h ợ p Ụ n te r g r a te d ). g ắ n th ờ i g ia n
(time-variant) và bển v ữ n g ( nonvolatile) là các dấu liiỌu phân biệt các kho dừ
liệu với các hệ thonu dừ liệu khác, ví dụ như các hệ thonu c ơ s ở dữ liệu quan hệ.
các hộ thổní» xứ K ụiao dịch, và cá c hệ thone file.
Kho dừ
liệu
thườnu
•
*— rất lớn. tới
hànaw irăm ( iib y t e ha>
ihậm ch í liànu• V—
Terabyte. Kho đừ liệu ckrợc \ â \ d ự n g đê tiện lợi ch o v iệ c truy cập dữ liệu theo
nhiều nuuồn.
nhiều kiêu dữ liệu khác
nhau sao ch o có thê kết hợp dược cà
nhìrnẹ im li dụ nu cua các côn <2 nu hộ hiện dại và ke thừa d ư ợ c từ nlùrne hệ thốnu
ihỏnu
c - tin và C S D I . dà có sần lừ trước. K h o d ữ liệ u c ó k iề u trúc, m ụ c đ íc h s ử
dụng và kỷ thuật xây (lựMỊ khác với các CSDL lác nghiệp thô/lí* thường. Các hệ
thông
w th ôn cg tin thu thập
• I xứ l\'
* dừ liệu
• theo cỏn u
W imhệ
W ' • kho dừ liệu
• dược s o• i là hệ•
xử 1Ý phân tích trực tuyến (O I.A P).
Tóm lại. kho dừ liộu là nơi lưu trữ các dừ liệu d o n c nhất v ề mặt n e ừ nahĩa
nham phục vụ Iilur một ihê hiện \ ậ t IV của m ô hĩnh hỗ trợ IỊUYCI dịnh và lưu trừ
20
các thòniỉ tin mà một tô chức can tic dưa ra các (.Ịiivct (.lịnh chiến lược. Một kho
dừ liệu cù nu ilurờnu dư ợc \ c m như một kiến trúc được xây dự rte bần ti cách tích
hợp dừ liệu lừ nhiều nụuồn k h ô n g d ồ n e nhất dô hỗ trự các i m \ Nấn có hoặc
kliônii c ó cau trúc, các háo cá o phân tích và dưa ra các quvêt định.
V iệc \ â \ dựníi kho dừ liệu c ù n g rât hữu dụnu nêu nhìn từ nóc dộ tích hợp
các cơ s ơ dừ liệu không d ồ n g nhất. Rất nhiều lò chức tlìirờna tập hợp nhiều loại
dừ liçu hồn tạp khác nhau và duy trì các c ơ s ở dử liệu lớn từ nhiêu nguôn thônũ
tin phân tán. tự trị và khônu đồnu nhất. V iệc tích hợp các dữ liệu dó và làm cho
\ ì ệ c tru\ cập vào dừ liệu trơ nên dề dànu và hiệu qua. đén na\ Nần luôn là một
khao khát và thách ihírc to lớn. D à c ó rất nhiều níihiên
cứu và nỗ lực
irons
w
•
w
neành côn u níihiệp dừ liệu nham tới m ục tiêu này.
Phirơnu pháp liếp cận truyền thốrm ch o v iệ c tích hợp các dừ liệu khònu
dont! nhát là xâv d ự n s các vo
bọc ( w r a p p e r s ) và các b ộ tích h ợ p ( in ten*rcifors)
ha> bộ in m iỊ g ia n ( m e d ia to r s ) ữ phía trên các c ơ s ơ cỉừ liệu hỗn tạp. Khi một
truy van d ư ợc dưa tứi phía một m áy khách, m ột từ diên dặc tà dừ liệu sẽ d ư ợc sir
dụnu dê phiên dịch truy van d ó thành các truy vấn thích hợp c h o các phiu dừ liệu
hỗn tạp khác c ó liên quan. Sau dó những truy vấn này s ẽ d ư ợ c ánh xạ và dược
íúri lới các hộ xử K truy van cục bộ. C ác kết quà tra v ề từ các phía dìr liệu hỗn
lạp sẽ d ư ợc tích hợp tron li một bộ tra lời toàn cục. P h irơ n g p h á p tiế p c ậ n (lịnh
liirớng tr u y v ấ n (q u e r v -d r iv e n a p p r o a c h ) nàv dòi hỏi sự xư lý tích hợp và chắt
lọc thồnu tin rất phức tạp. và dôi hói sự cạnh tranh íiiừa các n eu ồn dừ liệu trong
việc xử lý cụ c hộ lại m ồi nguồn. N ó c ó the sc rat tốn kém và k h ôn g hiệu quả đối
với các truy vun thườn!» xuvên, dặc hiệt là nhừng truy vấn đòi hỏi sự tích hợp.
3 .2 N h ữ n g đ ặ c đ iể m c ơ b (in c ủ a k h o (ilĩ liệ u
M ọi kho dừ liệu, lus c ó rất nhiều đặc diêm khúc nhau tùy thuộc vào nội
dunu và m ục clích khai thác, n hư ng nhìn chung (Jeu c ó nhừna, dặc diêm cư ban
sau đây:
T ín h h ư ở n g c h ú d è . Một kho dữ liệu thường d ư ợc tô ch ứ c theo các chu dề
chính đe eiú p ch o tổ chức có the d ề dàng xác định d ư ợ c nhìrtm thôn» tin cần
thiét tro n g ù r n s hoạt d ộ n g c u a m ìn h , c h a n g hạn n in r k h á c h h à n e . nhà CLII1Ü cấp .
sail phàm \ à bán lìànsỉ. Khônu chi lưu trừ tập irung các hoạt d ộ n a \ à ttiao dịch
liànu nuà\ cua một tỏ chức, kho d ử liệu còn c ó kha nănu m ô hình hóa \ à phân
- Xem thêm -