Đ Ạ I H Ọ C Q U Ố C G IA IIÀ NỘI
KHOA CÔNG NGHỆ
-----------oOo-.......... —
NGUYỄN THÊ QUYỂN
KHAI THÁC D ữ LIỆU
VÀ XỬ LÝ PHÂN TÍCH TRỨC TUYẾN
1AJẬN VÃN THẠC s ĩ KHOA HỌC
Chuyên ngành: Công Nghệ Thông Tin
Mã số: 010110
Người hướng dẫn khoa học: PGS TS Đoàn Vãn Ban
_ — -------
0/Y. IU_)C - uoc
HA NO' Ị
TRUNGTẦMTHỎM( TiN niƯVỌỊ
Nc V
\ữ /M *
_____________________ _
__ _
\
Hà Nội - Năm 2002
MỌC
LỤC
■
■
Trang:
Phần m ỏ đầu
Chương 1:
01
HỆ TRỢ GIÚP QUYÊT ĐịhH Dựfl VÀO Dữ LIỆU
1.1 H ệ trợ giúp quyết đ ị n h .............................................................................................................0 4
1 .1 .1 Giới t h i ệ u ..............................................................................................................................0 4
1 .1 .2 H ệ trợ giúp quyết đ ị n h .................................................................................................... 0 5
1 .1 .3 P h â n loại các h ệ trợ giúp q u yết đ ị n h .........................................................................0 6
1 .2 H ệ trợ giúp quyết đ ịn h dựa vào d ữ l i ệ u ............................................................................. 0 7
1 .2 .1 T iêp c ậ n KDL và O L A P ................................................................................................. 0 7
1 .2 .2 T G Q D dựa vào d ữ liệu trê n c ơ sở K D L & O L A P ................................................ 0 9
1 .2 .3 T iến trình T G Q Đ dựa vào d ữ liệu c h o bài toán cụ t h ể .......................................10
Chương 2:
KHO DỮ LIỆU - DflTfl WAREHOUSE
2.1 T h à n h p h ầ n cấu th à n h m ộ t K D L ......................................................................................... 13
2 . 1 .1 Siêu d ữ liệu - M e ta d a t a ................................................................................................... 13
2 . 1 . 2 C ác n g u ồ n d ữ l i ệ u ............................................................................................................. 14
2 . 1 . 3 H ệ th ố n g x ử lý giao dịch trực tuyến - O L T P ......................................................... 1 4
2 . 1 .3 . 1 N hững đ ặc điểm của h ệ th ố n g O L T P ..............................................................15
2 . 1 . 3 . 2 C ác cô n g cụ thu th ậ p , làm sạch và ch u y ển đổi d ữ liệu n g u ồ n ........... 16
2 . 1 . 4 C ơ sở d ữ liệu K D L ............................................................................................................. 18
2 . 1 . 5 K h o d ữ liệu - D a ta w a re h o u s e .....................................................................................19
2 . 1 .5 . 1 Đ ịn h n g h ĩ a ................................................................................................................... 19
2 . 1 . 5 . 2 Đ ặc đ iểm d ữ liệu tro n g K D L ...............................................................................2 0
2 . 1 . 6 K ho d ữ liệu c h ủ đ ề - D a t a m a r t ....................................................................................21
2 . 2 S ử d ụ n g K D L ................................................................................................................................ 2 2
2 . 3 P h ư ơ n g p h á p xây d ự n g K D L ..................................................................................................2 3
2 . 4 T h iế t k ế c ơ sở d ữ liệu ch o K D L ............................................................................................2 4
2 . 4 . 1 G iản đ ồ h ìn h s a o - S t a r ....................................................................................................2 5
2 . 4 .2 G iản đ ồ h ìn h tuyết rơi - S n o w f l a k e .......................................................................... 2 7
2 . 4 .3 G iản đ ồ kết h ợ p ................................................................................................................. 2 8
2 . 4 .4 N h ữ n g v ấn đề liên q u a n tới thiết k ế g iản đ ồ h ìn h s a o ....................................... 2 8
2 . 4 .4 . 1 Đ á n h chỉ s ô ................................................................................................................2 8
2 . 4 . 4 . 2 C hỉ thị về m ứ c ........................................................................................................... 2 9
2 . 4 . 5 N hữ n g n h â n tố thiết k ế c ầ n p h ải được c ân n h ắ c ................................................ 3 0
2 .5 Q u ả n lý và q u ả n trị K D L ..........................................................................................................3 2
Chưởng 3:
xđ LÝ PHÂN TÍCH TRựC TUYÊN \lè KHfil THÁC DỮ LIỆU
3 .1 Giới thiệu m ộ t s ố kỹ th u ật khai th ác d ữ l i ệ u ...................................................................3 3
3 .1 .1 M ạng n e u r o n .......................................................................................................................3 3
3 . 1 .2 Giải th u ật di tr u y ề n ........................................................................................................... 3 5
3 . 1 .2 . 1 Tái t ạ o ..........................................................................................................................3 6
3 . 1 . 2 . 2 T ạ p lai........................................................................................................................... 3 7
3 . 1 . 2 . 3 Đ ột b i ế n .......................................................................................................................3 8
3 . 1 . 3 O L A P ..................................................................................................................................... 3 9
3 .2 X ử 10 p h â n tích trực tuyến - O L A P ......................................................................................4 0
3 .2 .1 Đ ịnh n ghĩa O L A P ............................................................................................................. 4 0
3 . 2 . 2 N guyên tắc của O L A P .....................................................................................................4 1
3 . 2 . 3 T iế p c ậ n đ a c h i ề u .............................................................................................................. 4 3
3 . 2 . 4 S ự p h â n tích đa c h i ề u ......................................................................................................4 5
3 . 2 . 5 Kiến trúc khối của O L A P .............................................................................................. 4 5
3 . 2 .5 . 1 Giới thiệu kiến trúc k h ố i ....................................................................................... 4 5
3 . 2 . 5 . 2 Khối (C ube)................................................................................................................. 4 7
3 . 2 . 5 . 3 C h iều (D im e n s io n )................................................................................................... 5 0
3 . 2 . 5 . 4 C ác đ ơ n vị đ o lường (M e a s u re ) ...........................................................................54
3 . 2 . 5 . 5 C á c p h â n h o ạ c h ( P a rtitio n )..................................................................................5 4
3 . 2 . 5 . 6 C á c p h ư ơ n g p h á p lưu trữ d ữ liệu (MOLAP, R O L A P , H O L A P ) .........5 5
3 .3 T h u ậ t to á n chỉ s ố h ó a các khu n g nhìn
trong xử lý p h â n tích trực tuyến k h o d ữ l i ệ u ............................................................... 5 7
3 . 3 .1 M ột s ố khái n iệm c ơ b ả n .................................................................................................5 8
3 .3 .1 .1 C ác khối dữ liệu co n (subcube)..........................................................................5 8
3 . 3 . 1 . 2 C âu hỏi (Q ueries)................................................................................................... 5 9
3 . 3 . 1 . 3 Chỉ số (Indexes)......................................................................................................5 9
3 . 3 . 1 . 4 Q u a n hệ tính to án và p h ụ t h u ộ c ..................................................................... 6 0
3 .3 .2 T h u ật toán c h ọ n view và i n d e x .................................................................................6 2
3 .3 .3 Kết l u ậ n ..............................................................................................................................6 6
Chương 4:
THIẼT KÊ HỆ TRỢ GIÚP QUỴÊT ĐỊNH Dựơ VÀO DỮ LIỆU
4 .1 Giới thiệu hệ t h ố n g ................................................................................................................. 6 7
4 .1 .1 Mục tiêu của hệ t h ố n g ..................................................................................................6 7
4 .1 .2 T ổ chức của hệ t h ố n g ................................................................................................... 6 7
4 .2 Cài đặi. hệ t h ố n g .......................................................................................................................6 8
4 .2 .1 Chức n ăn g tạo lập C S D L đa c h i ề u ..........................................................................6 8
4 . 2 .2 C hức n ăn g p h â n tích, hiển thị dữ l i ệ u .................................................................... 6 9
4 . 2 .3 C hức n ăn g tạo và thực hiện các Q u e r y ................................................................. 6 9
4 . 3 C hư ơ ng trình cài đ ặ t .............................................................................................................. 6 9
4 . 4 Ví dụ m inh h ọ a ........................................................................................................................ 7 6
Phần kết luận
Tài liêu tham khảo
79
82
1
-
PHÂN MỞ Đ â u
1. Đ ăt vấn đề
Trong các hoạt động sản xuất, kinh doanh hiện nay luôn cần có sự đáp ứng nhanh
nhạy, tức thời đối với các thay đổi liên tục của môi trường kinh doanh (khách hàng,
cạnh tranh, qui luật kinh tế, luật lệ nhà nước, tình hình sản xuất, kinh doanh, tài
chính của doanh nghiệp, ...)• Vì vậy các nhà quán lý buộc phải thường xuyên ra
cùng lúc nhiều quyết định dứng đắn (mà chúng sẽ ánh hưởng đáng kế đến xu hướng
hoạt dộng và sự cạng tranh của doanh nghiệp) một cách nhanh chỏng. Do đó vấn để
trợ giúp quyết định trở nên rất cần thiết. Người ta cần phải thu thập, tổng hựp và
phân tích dữ liệu từ nhiều nguồn khác nhau mội cách nhanh và hiệu quả thì mới có
thể ra được những quyết định nhanh chóng và phù hợp. Điều này dẫn đến việc cẩn
phát triển những hệ thông tinh thông biết cách làm iliê nào để nít tía và phân tích dữ
liệu cho người sử dụng.
Các nhà quản lý, điểu hành không những cần biết được công việc đang diễn ra
như thế nào trong tổ chức của mình mà còn cần biết cái gì sẽ xảy ru sau dó, có nghĩa
là thông tin mang tính phân tích và hệ thông dể hỗ trợ quyết định. Tuy nhiên việc
xây dựng một hệ thống như thế vấp phải một số hạn chế về mặt kỹ thuật, đặc biệt là
khi kích thước cũng như dộ phức tạp của môi trường ứngdụng lăng lên. Những hệ
thống thông tin xây dựng theo phương pháp truyền lliống không còn đáp ứng được
các yêu cầu của người sử dụng và các nhà quản lý hệ thòng thông tin.
Hiện nay, đã có rất nhiều phần mềm cung cấp cho người sử dụng những khả năng
truy vấn và lập các báo cáo thông tin, đặc biệt là các hệ quản trị CSDL quan hệ. Tuy
nhiên, CSDL quan hệ, với cấu trúc hai chiều (dòng và cột), đã không được thiết kế
để cung cấp các quan điểm đa chiểu trên dữ liêu đầu vào của các phân tích phức tạp.
Sử dụng các hệ thống này, chúng ta sẽ gặp rất nhiều khó khăn và bấl tiện trong việc
tổ chức dữ liệu đa chiều vào các bảng hai chiểu, không thể triển khai dữ liệu phân
tích với số lượng lớn, công cụ phân tích để tạo ra các dữ liệu quyết định không
mạnh, thuận tiện, linh hoạt, nhanh chóng, và nhất là không dễ dàng để sử dụng đối
với các nhà quản lý, những người ra quyết định.
P h á n HÌO íìán
2
-
Như vậy, cần thiết phải xây ciựng một hệ thống mới có khả năng lổ chức dữ liệu
đa chiểu và có khả năng phân tích dữ liệu linh hoại dể trả lời được các truy vấn da
chiểu một cách dễ dàng, nhanh chóng nhằm hỗ n ợ cho việc ra quyếl định của các
nhà quản lý.
2. Mục tiêu của luận văn
Luận văn dề cập đến việc xây dựng một hệ trợ giúp quyết định dựa vào dữ liệu, sử
dụng phương pháp luận xử lý phân tích trực luyến (OLAP). Luận văn sẽ tập trung
vào hai công việc chính là nghiên cứu vấn đề tổ chức cơ sở dữ liệu đa chiều, phân
tích và hiển thị clữ liệu để irợ giúp ra quyết định.
Hệ trợ giúp quyết định theo tiếp cận này, có ihể giúp cho nhà quán lý thiết lập
một mô hình OLAP cho ứng dụng cụ thể của mình trong việc tổ chức cơ sở dữ liệu
đa chiều, và giúp cho họ dễ dàng uốn nắn hoạt dộng phân tích, tìm kiếm thông tin
theo những khía cạnh khác nhau của dĩr liệu, nhằm Ihu Ihập được tối đa những gì họ
cần hiểu rõ, để (ừ dó có thể ra dược những quyêi định tốt nhất một cách nhanh
chóng. Không giống với các hệ trự giúp quyết định truyền thống thường được xây
dựng với mục đích đưa ra giải pháp tối ưu cho một bài toán cụ thể, trong một phạm
vi ứng dụng hẹp, hệ trợ giúp quyết định dựa vào dữ liệu hướng đến việc giúp người
sử dụng có thể khai thác dược tối da khả năng liềm ẩn của một khối lượng dữ liệu
lớn, nhằm thu được những thông tin tổng hợp ở đủ các khía cạnh khác nhau của dữ
liệu, để từ đó có thể ra các quyết định đúng một cách nhanh chóng. Do đặc điểm
này, phạm vi ứng dụng của hệ trự giúp quyết định dựa vào dữ liệu là rộng. Nó có thể
được sử dụng để trợ giúp quyết định cho các bài toán khác nhau, trong những lĩnh
vực khác nhau.
3. B ô cục của luận văn
Luận văn bao gồm 4 chương
C hương 1: Chủ yếu giới thiệu vể hệ trự giúp quyếl định dựa vào dữ liệu (hai
thành phần chính: kho dữ liệu (Data Waeihouse - KDL) và OLAP) và tiến trình trự
giúp quyết định dựa vào dữ liệu.
r i u u i m o (lau
3
-
Chương 2: Trình bày những lý thuyết chung về mó hình KDL, phương pháp xây
dựng và thiết kế cơ sở dữ liệu cho KDL.
Chương 3: Giới thiệu một sỏ kỹ thuật khai thác dữ liệu, trình bày những lý thuyết cư
bản về xử lý phân tích trực tuyến, các khái niệm và các đặc trưng của liếp cận đa chiểu.
Chương 4: Thiết kế và cài dặt hệ thống, với hai thành phần chính là chức năng
tạo lập cơ sở dữ liệu đa chiều và chức năng phân tích, hiển thị dữ liệu.
r i i ầ n m ờ dầu
4
-
CHƯƠNG Ị ; HỆ TRỢ GIÚP QGỴÊT ĐỊNH DỢ6 VÀO DỬ LIỆU
1.1 HỆ TRỢ GIÚP QUYẾT ĐỊNH
1 .1 .1 Giới thiệu
Ngay từ những năm 60 việc sử dụng các phương tiện tin học để tổ chức và khai
thác các CSDL đã được phát triển. Kể từ đó trở đi, lất nhiều CSDL đã dược tổ chức,
phát triển và khai thác ớ mọi qui mô và ở khắp các lĩnh vực hoạt động của con người
và xã hội. Nhiều hệ quản trị CSDL mạnh với các công cụ phong phú và thuận tiện đã
giúp cho con người khai Ihác có hiệu quả các nguồn tài nguyên dữ liệu. Mô hình
CSDL quan hệ và ngôn ngữ vấn đáp chuẩn (SQL) đã có vai trò hết sức quan trọng
trong việc tổ chức và khai thác các CSDL đó.
Giai đoạn đầu những năm 60 là thập kỷ của kỹ thuậl Ihu thập dữ liệu, tiếp dó là
thời kỳ của kỹ thuật truy nhập dữ liệu, với những ứng dụng như Hệ thông tin quản lý
MIS Ị8 ], 121 ] tập trung xử lý dữ liệu, thông tin Iheo các ihủ tục có cấu uúc nhằm hỗ
trợ điều khiển, dự báo và giám sát công việc. Và đáu thập kỷ 70, mội loại hình ứng
dụng mới ra đời đó là Hệ trợ giúp quyết định DSS 113] nhằm mục đích hỗ trợ các
nhà quản lý cấp cao và ra quyết định điều hành.
Khái niệm DSS được Scott Morton dưa ra dầu những năm 70 với ihuật ngữ hệ
thống hỗ trợ quản lý MSS [8 ], [21). Hệ thống được xác định: “Hệ ihôìig dựa trên sự
tương tác máy tính, giúp người ra quyết định dùng các dữ liệu và mô hình để giải
các bài toán không có cấu trúc - nhữns bài toán mờ. phức tap với lời giải không
hoàn chỉnh” . Theo Gorry và Scott Morton (năm 1971), các vấn đề xử lý có thể được
phãn chia thành: có cấu trúc, nửa cấu trúc và không có cấu trúc [21]. Trong đó các
hệ thông tin quản lý MIS được dùng để giải quyết loại bài toán thứ nhất. Còn đối với
lớp các bài toán thứ hai và thứ ba là phạm vi giải quyết của DSS, hệ chuyên gia ES.
Hệ trợ giúp quyết định là những hệ ứng dụng xây dựng trên máy tính nhằm giải
quyết các bài toán, các vấn đề có cấu trúc kém. Vui trò chính của hệ trợ giúp quyết
định là nhằm mục đích giúp các nhà ra quyết định giải quyết những vấn đề, trong
l l ẹ tr ợ g iú p quvet (lịnli dựa vùi) dừ lie II
5
-
những hoàn cảnh chưa dược dịnh nglũa rõ ràng, các nhà ra quyết định có thể sẽ chưa
biết rõ vấn đề cũng như giải pháp, liêu chuẩn đánh giá sự thành công của lựa chọn.
Sự ra đời của hệ trợ giúp quyết định đánh dấu bước phát Iriển quan trọng trong
lĩnh vực ứng dụng tin học trong quản lý và diều hành công việc, kế từ đó nó đã
không ngừng được nghiên cứu và phát triển cả về lý thuyết và thực tế Iiiến khai ứng
dụng. DSS tỏ ra có một thế mạnh nổi trội, rất cần thiết cho lãnh đạo và quản lý khiến
nhiều tổ chức quan tâm nghiên cứu đầu tư xây dựng và phái triển.
1 . 1 . 2 H ệ trơ giúp quyết đinh
Hệ trợ giúp quyết định ban dầu rất thô sơ, được phát triển từ các phần mềm bảng
tính. Hệ trợ giúp quyết định sau đó sử dụng các mô hình tối ưu của việc nghiên cứu
các hoạt động nghiệp vụ và khoa học quản lý (OR/MS), sử dụng các kỹ thuật như là
qui hoạch tuyến tính. Phân tích “What i f ’ dã trớ nèn dặc biệt phù hợp với các mô
hình OR. Sử dụng cách tưưng tác fron_ends, những người làm quyết định có thể
khám phá ra các khá năng và những gợi ý tốt hưu là những phán đoán cảm tính
trong việc ra quyết định.
Hộ trợ giúp quyết định trở nên tinh thông hơn khi sử dụng các kỹ thuật trí luệ
nhân tạo. Những hệ thống này có thể được xem như nlnìng hệ thống dựa trên tri thức
(Knovvledege-Based Systems) [15].
Với mục đích là làm như thế nào dó dể có thể giúp Mguời sử đụng thực hiện các
phân lích nhằm đề xuất dược các quyết định cần ihiêì, cluing ta có thể quan niệm rằng
bấi cú ioại hệ thông nào tuân thủ một mô hình tổ chức và xử lý riêng biệt của 11Ó, mà
có thể trợ giúp việc ra quyết định, dều được xem là mội hệ trợ giúp quyết định.
Các loại hệ trợ giúp quyết định truyền thống như sử dụng báng tính, tối ưu
toán học, phân tích sô' hay mồ hình mô phỏng sẽ vãn tiếp tục phát huy được tác
dụng trong việc giải quyết nhiều vấn đé. Tuy nhiên những người làm những công
việc sử dụng tri thức trong doanh nghiệp ngày càng yêu cầu hệ thống phái biết
nhiều hơn, và phải làm dược nhiều hưn trong việc Huy xuất, tống hợp và phân
tích thông tin. Họ sẽ càng lúc càng phụ thuộc nhiều hưn vào hệ thống để có ihể
l i e t r ơ iỉiÚỊ) qiiveì (lịnh (lưa VIÌO d ừ lieit
6
-
ra các quyết định nhanh chóng, với độ till cậy cao hơn. Đày là xu hướng phái
triển của hê thống thông tin nói chung và của hệ irợ giúp quyết định nói riêng.
1 . 1 . 3 P hân loại cá c hệ trợ giú p quyết đinh
Hì nh 1-1. Phân loại các hệ thông till quán lý
Hệ xử lý tác vụ: mục đích chính của các hệ xử lý tác vụ là giữ cho việc ghi nhận
các giao tác được chính xác. Hệ thống này được xây dựng để chỉ có thể làm ra những
quyết định đơn giản trong việc xác định dữ liệu được ghi nhận là có hợp lệ hay không.
Hệ xử lý tác vụ làm công việc hợp lệ hoá trước khi ghi nhận giao tác để CSDL dưực
trong sạch hơn.
Hệ t r ợ giúp quyết định: bao gồm những hệ thống dược thiết kế để trợ giúp các
nhà quản lý ra quyết định. Khác với hệ xử lý giao tác phục vụ cho các hoạt động hàng
ngày, một hệ trợ giúp quyết định phục vụ cho những mục tiêu dài hạn hơn và có thể
cần đến một vài ý kiến, phán đoán dóng góp từ các chuyên gia. Nlui cầu cần thiết
thêm các phán đoán của con người sẽ nhiều hơn nến bài toán đặt ra kliỏng có cấu trúc
chặt chẽ, khiến cho hệ thống khó có thể nấm bất được lất cả những sắc thái của tình
huống tạo ra quyết định.
Hiện nay hệ trợ giúp quyết định có thể được chia thành hai hướng cơ bản. Hướng
đầu tiên, dựa vào mô hình, tiếp tục theo xu hướng của các hệ trợ giúp quyết định cũ.
Giá trị của hệ thống này là ở chất lượng của mô hình của I1Ó. Khả năng phân tích của
nó được dựa trên một lý thuyết hay trên một mô hình mạnh, cùng với một giao diện
tốt để làm cho mô hình dễ sử dụng.
ỉ lẹ trọ ÍỊĨIÌỊỈ quyết (linh (lựu vao tíìi liẹu
7
-
Loại thứ hai của các hệ trợ giúp quyếl định là dựa vào dữ liệu. Giá liị của hệ thống
này là ở khả năng tổ chức một lưựng lớn dữ liệu và khá năng tổng hợp, phân tích dữ
liệu của nó. Với sự phát triển cao của các kỹ
th u ật
mạng và CSDL, hệ trợ giúp quyết
định hướng theo dữ liệu là inộl thành tựu lớn. Đây là mộl hước ngoặt thú vị từ tiếp cận
truyền thống sang tiếp cận mới trong đó cấu Irúc và dữ liệu tách nhau ra và được tổ
chức động trong KDL [20], phán ánh bước tiến quan trọng về CSDL tương tác của các
hệ trợ giúp quyết định. Với tiếp cận mới này, dữ liệu dóng vai trò cung ứng và là động
lực cho một hệ trợ giúp quyết định làm ra những thông tin cần thiết khác. Tuy nhiên
dữ liệu được thu thập từ nhiều nguồn rấl da dạng. Người sử dụng sẽ như bưi trong
đống dữ liệu phức tạp nhưng nhiều tiềm ẩn, nhiều diều lũru ích này. Vì vậy yêu cầu
lớn nhất đặt ru với hệ trợ giúp quyết định loại này là xử lý, phân tích để phát hiện
được nhĩrng thông till bổ ích tỉr các kho dữ liệu đó.
1.2 HỆ T R Ợ GIÚP QUYẾT ĐỊNH D ự A VÀO DỮ LIỆU
1 .2 .1 T iếp cậ n KDL và OLAP
Hoạt động xử lý thông tin có ihể được phân ihành hai loại: phân tích tác vụ
(operations analysis) và phân tích hướng quyết định (decision orienled analysis).
KDL và O LA P có thổ được xem như là các thành phần của hoạt động xử lý thông tin
hướng quyết định dựa trên phân tích (Analysis based decision oriented information
processing). Trong dó, KDL dóng vai trò cung cấp dữ liệu và OLAP đóng vai trò
phân tích, khai thác các dữ liệu này. Nói một cách khác, để có thể trợ giúp quyết
định dựa vào dữ liệu cần xây dựng hai thành phần quan Irọng là KDL và OLAR
Để có khả năng cung cấp những dữ liệu quyết định cho những người ra quyết định,
cần sử dụng một cách lưu chứa dữ liệu cho phép họ quản lý, khai thác dữ liệu dễ dàng
hơn. Cách lưu chứa dữ liệu này là KDL. Một KDL là mội CSDL dược thiết kế để trả
lời các câu hỏi của doanh nghiệp. Nó là nơi chứa nhiều loại dữ liệu doanh nghiệp từ
các nguồn khác nhau (các hệ thống xử lý tác vụ). Dữ liệu từ những nguồn này được
chuyển dịch vào trong KDL, được đánh chỉ mục, và dược kết nối lại để có llìể được
truy xuất nhanh chóng và dễ dàng hơn, phục vụ cho các ứng dụng irợ giúp ra quyết
ỉ ỉ ẹ trọ íỊÌúp qitvếí (lịnli (lựa rao (lù liẹu
8
-
định. Về trực giác, KDL dược hiếu như là một kho dữ liệu ổn định phản ánh hoạt
động của một dưn vị trong quá khứ.
Và một khi dữ liệu đã dược thu thập, người sử dụng còn cần có một phương cách
tốt để dễ dàng khai thác chúng, nhằm truy xuất dược các mẫu dữ liệu m à họ quan
tâm. Hệ thống OLAP giúp cho họ làm điều này. Có vài cách tiếp cận khác nhau tới
việc biểu diễn OLAP, nhưng chung nhất là tiếp cận lưu chứa dữ liệu đa chiCu. Biếu
diễn này cho ta một ma trận được định chiều của các ô. Sẽ có các ô chứa dữ liệu
nhập từ ngoài (các phần tử dữ liệu cơ sở) và các ó còn lại sẽ được tính toán từ các
tiến trình gộp và chuyển dịch dữ liệu. Hệ thống OLAP là một hệ thống quản lý dữ
liệu giàu năng lực. Nó cho phép người sử dụng cắt lát dữ liệu theo nhiều khía cạnh
khác nhau. Và nếu người sử dụng cần thiết quan tâm chi liết hơn vé mẫu dừ liệu nào
đó, họ có thể khoan sâu xuống (drill_down) chi tiết của dữ liệu. Hệ ihống OLAP
cho phép người sử dụng “tiến sâu” vào dữ liệu và khám phá chúng ở nhiều mức.
Người sử dụng có thể truy xuất được những dữ liệu cần thiết một cách nhanh chóng
và dễ dàng, mà không cần thực hiện lại công việc lập trình. Các yêu cầu chức năng
chính yếu của một hệ thống OLA P là: truy xất và lính loán nhanh, có khả năng phân
tích mạnh, linh hoạt (định nghĩa linh hoạt: phân lích linh hoạt, giao diện linh hoạt,
hiển thị dữ liệu linh hoạt) và hỗ trợ nhiều người sử dụng (cũng như các hệ thống thông
tin khác, các hệ thống OLAP vẫn cùng các yêu cầu chức năng như: sự chính xác và
thích hợp với thời gian. Tuy nhiên chúng lại là các hệ Ihống duy nhất cố gắng cung
cấp thêm các yêu cầu chức năng đặc biệt quan trọng đó là: khả năng truy xuất nhanh,
linh hoạt, thuận tiện tới số lượng lớn các dữ liệu được phát sinh từ các nguồn dữ liệu
nhập có thể thay đổi thường xuyên, và hỗ trợ nhiều người sử dụng, trên mạng lưới).
OLAP nhấm tới việc đáp ứng xu hướng gia tăng số lượng và sự phức tạp của các
dữ liệu cần thiết cho việc ra quyết định, tới việc gia tăng số người đang sử dụng một
nguồn dữ liệu góp chung, tới việc gia tăng số lượng công việc cần thiết ra các quyết
định không theo k ế hoạch, và tới sự gia tãng việc phân phối dữ liệu và xử lý liên
quan đến một truy vấn.
Hẹ trợ iỊÌúp qiiyet (lịnh dựa vao (lù liẹu
9
-
Tóm lại: muốn có khả năng cùng lúc nhìn vào nhiều CSDL khác nhau, qua việc kếi
hợp dữ liệu của chúng dổ làm cho chúng có [hổ được Iruy vấn dễ dàng hơn, thì KDL là
một lựa chọn lốt. Còn nếu chúng ta muốn cung cấp cho người sử dụng khả năng phán
tích dữ liêu nhanh chóng và phong phú thì giải pháp OLAP là thích họp.
Dưới đây là sơ đồ về hệ thôìig KDL và OLAP:
Đầu tiên dữ liệu lừ các nguồn dữ liệu từ xa khác nhau (của các hệ lliống xử lý tác
vụ) được nạp vào. Trong quá trình nạp, dữ liệu cần đưực đổi sanh dạng chung nhất,
được làm sạch, và được chuyển dịch thành những kết quả gộp tương đối mà có ihể
hữu dụng cho việc phân tích. Cuối cùng dĩr liệu được dật vào KDL và dược đánh chỉ
mục để có thể truy xuất được nhanh. Mộl khi dữ liệu dã ớ trong KDL, xử lý OLAP
trở nên quan trọng cho việc trả lơi các truy vấn. Các hệ thống OLAP cho chúng ta
khám phá dữ liệu trong những cách hướng tới việc ra quyết định. Các hệ thống
OLAP cần có các giao diện đổ họa cho phép người sử dụng nhìn thấy dữ liệu trong
dạng số (như bảng) và trong những dạng biểu diễn dồ họa (như biểu đổ thanh).
Người sử dụng có thể khoan sâu xuống bằng việc chọn vào các vùng trên màn hình
để xem chi tiết hơn.
Hình 1-2. K D L và liê thông O L A P
1 . 2 . 2 TG Q Đ dựa v à o dữ liệu trên cơ s ỏ KDL & OLAP
Hệ thống OLA P cho chúng ta khám phá dữ liệu theo chiều hướng đi đến sự quyết
định. Nó cho phép chúng ta thực hiện các cách cắl lát khác nhau theo những kliía
ỉ l ẹ Irọ lịiitp q n y e l í/ị III! d u a vào (lừ l i e II
10
-
cạnh khác nhau một cách dể dàng. Nói mội cách khác, chúng ta sẽ có khả năng truy
xuất và xem dữ liệu lừ nhiều khía cạnh khác nhau. Nhưng quan trọng hơn là hệ
thống sẽ cho chúng ta những lối vào bên trong dữ liệu để tìm hiểu, dựa trên chính
những đặc tính của dữ liệu. Hệ thống cũng sẽ cho cluing ta khoan sâu vào trong dữ
liệu để truy xuất dược những llìông till chi tiết ở những mức độ khác nhau mà chúng
ta có thể cần đến. Điểm quan trọng cuối cùng là những công cụ OLAP thường
nhanh và dễ sử dụng. Chúng ta có thể lướt qua hàng megabytes hay gigabytes dữ
liệu mà khổng phải đợi hàng giờ mới nhìn thấy được kết quả.
Hệ thống OLAP lất khác với hệ quản trị CSDL truyền thống: không chỉ dừng lại
ớ việc truy vấn tĩnh, người sử dụng còn có thể uốn nắn việc tìm kiếm dữ liệu, sao
cho phù hợp với những nhu cầu chính xác của họ. Và vì hệ thống OLAP cung cấp
cho người sử lỉụng khả năng tiến sấu vào dữ liệu, cắt lát, khoan xuống các thông iin
chi tiết, nên người sử dụng sẽ có thể hiểu rõ hơn về tlữ liệu, để từ đó có thể ra các
quyết định phù hợp, mội cách nhanh chóng. Hệ thong OLAP cho phép người sử
dụng khiến cho dữ liệu nói chuyện với chính chúng.
Với mục đích có thể hiểu được các loại dữ liệu để sử dụng và cách lổ chức chúng,
ta cần làm việc với những nhà ra quyết dinh. Họ sẽ cho chúng la biết họ sẽ sử dụng
các dữ liệu như thê nào và lìlũrng câu hỏi nào mà họ mong muốn được trá lời. Chính
từ trong việc tổ chức mô hình OLAP, chúng ta sẽ khám phá ra được những loại dữ
liệu nào đang sẵn có, và những dữ liệu sơ cấp nào cần được thu thập dể có thể phục
vụ tốt cho việc tạo ra những quyết định hiệu quả.
Như vậy trợ giúp quyết định hướng theo dữ liệu nhằm vào việc lổ chức hiệu quả
KDL và sử dụng giải pháp OLAP để cung cấp tỏi da các thông tin theo xu hướng
quyêì định cho người sử dụng, trự giúp cho họ làm ra dược những quyết định phù
hợp một cách dễ dàng và nhanh chóng nhất.
1 . 2 . 3 T iến trình TGQĐ dựa vào dữ liệu ch o bài toán cụ th ể
Hợ trự g iú p qtiyeí (lịnli dưa vào (lừ lie II
11
-
1. Xác định yêu cầu bài toán
1.1 Xác định các vấn dề gặp phải
"
1 it_______________________
'1....
' ' .............” ....
aL
1.2 Xác định các mục tiêu cần dạt đến
X I
~ ................... ..........
2. Xây dựng m ô hình O LA P cho bài toán
2.1 Xác dinh các khối dữ liêu cơ sờ
.... ".... - ' .............
......
—...... *............................
, 4 ...... 1 JT
________________________________
............. ....
2.2 Định nghĩa cấu trúc các chiểu
1 II -------------------------------aLk
2.3 Định nghĩa các c ôn g thức/luậl
cần thiết cho lính loán
........ —
.................—
: .... ..... .........£ L
3. Phân tích dữ liệu - Ra quyếi dinh
3.1 Chỉ dinh yêu cầu truy vấn
....... ........
..... -.... T 1 ■,1,-“
...
- •- - ..... -............. - , aL Xc______________________ _]_L________________
_____
3.2 Nhãn xét kết quà truy vấn
.........— — .... .
■“'TI
■
----■
-------------------------------------------------ai. ________________________________
3.3 Ra quyêì định
Hì nh 1-3. Tiến trình T G Q Đ dựa vào dừ liệu cho bài toán cụ thế
Trước khi thiết kê mô hình OLAP cho bài toán, cluing ta cần xác định lõ các vấn
đề gặp phải trong các tình huống xem xét. Nó có thổ là sự không ổn định, sự mất
cân đối, sự sút giảm hay sự kém hiệu quả của hoạt đỏng kinh doanh chẳng hạn. Các
vấn đề được nêu ra căn cứ vào việc tìm hiểu tình huống thực tế một cách khách quan
và toàn diện. Trên cơ sở các nhận định này, chúng ta sẽ đặt ra những mục tiêu cần
đạt tới. Ví dụ như: khắc phục hoặc giảm thiểu hạn chế, cái tiến hiệu q u ả , ...
Để ứng dụng OLAP, chúng ta cần xây dựng một mô hình phục vụ cho phân tích
OLAP dựa trên tình huống của bài toán, các vấn đề, và các mục tiêu đã xem xét. Đó
là quá trình xác định các khối dữ liệu dự định tổ chức, định nghĩa cấu trúc các chiều
và định nghĩa các công thức/luật cần thiết cho tính toán. Trcng việc xác định các khối
dữ liệu, sẽ phát sinh ra vấn đề tại sao lại lổ chức n khôi mà không là 111 khối, tổ chức
những khối nào là có lợi nhất? Tương tự, trong việc tổ chức cấu trúc các chiều, cũng
như việc định nghĩa các công thức, sẽ đặt ra những câu hỏi: phân cấp chiều như vậy
dã phù hợp và đầy đủ chưa, các công Ihức định nghĩa như vây dã đúng chưa, hợp lý
không? Tất cả các vấn đẻ này phần lớn phụ thuôc vào việc cân nhấc hiộu quả xử lý
đối với bài toán cụ thể, vào sự phân tích tình huông, hoàn cảnh thực tế một cách đầy
H ệ trợ g iú p
(J iiy e i
(lịnli (lựa vào (lù liệII
12
-
đủ, và cả trên điều kiện triển khai llurc hiện mô hình: thiết bị phần cứng, ưu, khuyết
của hệ thống OLAP sử dụng, ... Khó lạo lập dược một chuẩn mực, phương pháp để
xây dựng mô hình OLAP cho tất cả các bài toán, mà công việc này chủ yếu lùy thuộc
vào bài toán cụ thế, vào môi trường triển khai và cả vào kinh n g h iệm ,...
Trên cơ sở mô hình OLAP, CSDL OLAP đã dược thiết lập, người khai thác hệ
thống sẽ uốn nắn việc tìm kiếm thông tin của mình bằng cách liên lục đặt ra những
yêu cầu truy vấn, thực hiện, rồi nhận xét kết quả, nhằm tìm hiểu rõ dần những nội
dung tiềm ẩn của dữ liệu nguồn (thu thập được theo những vấn dề đang quan tâm),
để tiến tới chỗ có đủ cơ sớ nhận định, từ đó ra được các quyết định cần thiết.
Ở đây, việc trợ giúp ra quyếl định không nhằm dưa ra cho người sử dụng một số
phương án khả dĩ hiệu quả để giúp họ lựa chọn hoặc đưa hẳn ra một plnrơng án khả dĩ
tôi ưu để giúp họ quyết định như các hệ trợ giúp quyết định dựa vào mô hình thường
làm, mà nó tạo phương tiện đổ cung cấp nhiều nhất các lliông tin phong phú, đa dạng,
trên các khía cạnh, ở các mức khác nhau một cách nhanh chóng, giúp cho người khai
thác có thể uốn nắn việc tìm kiếm dữ liệu, hầu nắm bắi dược đến lôi đa những gì họ
cần hiểu lõ, để chính họ sẽ ra những quyết định phù hợp . Và như vậy ihì người khai
thác cần là chuyên gia về lĩnh vực của bài toán ứng dụng cụ thể. Tuy nhiên không như
khuynh hướng của hệ trợ giúp quyết định dựa vào mò hình: phần lớn phạm vi ứng
dụng là hẹp cho từng vấn dề cụ thể và chỉ giúp quyết định được một vài vấn đề, hệ
thống trợ giúp quyết định dựa vào dữ liệu, có phạm vi ứng dụng là lất rộng và có Ihể
giúp ra nhiều quyết định khác nhau. Trong mỗi ứng (lụng cụ thể, chúng ta chỉ cẩn
thiết lập mô hình OLAP lương ứng cho nó, là có thể hỗ nợ ra quyết định.
l l ẹ trọ giú p quvết (lịnh dưa vào (lừ liẹu
13
CHƯONG 2 :
-
KHO D Ở LIỆU - D fiT fl W A R E H O U S E
Hiện nay hầu hết các tổ chức đều đang phải đương dầu với sự thay đổi của thị
trường. Người ta thấy rằng để có thể đưa ra một quyết định đúng đắn, trước hết phải
có khả năng nhanh chóng truy nhập tới tất cả các loại iliỏng tin. Đôi với một tổ chức
nào đó, để có thể có quyết định đúng đắn, cần nghiên cứu cả những dữ liệu quá khứ,
phân tích nhằm định ra toàn bộ các xu hướng có thể. Trong bối cảnh công nghệ
thông tin phát triển, dữ liệu được tập trung trong nluìng cơ sở dữ liệu khổng lổ, nhu
cầu truy cập vào tất cả các thông tin là cần thiết. Cách có hiệu quá nhất đế trợ giúp
nhu cầu truy nhập thông tin là tổ chức KDL.
2.1 TH ẢNH PHẦN CẤU THẢNH MỘT KDL
Các thành phần cấu thành KDL cung cấp một khung cơ bản để hao đổi về kiến
trúc, cấu trúc và các chiến lược của KDL.
2 . 1 . 1 S iêu dừ liêu - Metadata
•
Trong việc tổ chức KDL, không những người dùng đầu cuối mà nguy cả những
nhăn viên quản trị dều cần liuy nhập loàn bộ Ihỏng Ún Irong báng gồm các dối
tượng, cũng như các thuộc tính. Do đó họ muốn biết một số vấn đề:
■ Có thể tìm thấy dữ liệu ở đâu?
K h o d ù Hen - Data Ware hou se
14
-
a Tồn lại những loại thông tin, dữ liệu nào?
■ Dữ liệu thuộc loại nào, có dạng ra sao?
■ Trong các cơ sở dữ liệu khác nhau thì dữ liệu có liên quan với nhau như thế nào?
■ Dữ liệu được lấy từ đâu và
I1Ó
thuộc ai quản lý?
Vì vậy hình thành một dạng cơ sớ dữ liệu khác đưực gọi là Metadata nhằm IĨ1Ỏ tá
cấu trúc nội dung của cơ sở dữ liệu chính. Trong môi tnrờng cơ sở dữ liệu phức hợp,
một M etadata phù hợp là không thể thiếu bởi nó định ra cấu trúc cơ sở dữ liệu tác
nghiệp và cả cấu trúc KDL. Một vấn dề xuất hiện thường xuyên Irong KDL là khả
năng giao tiếp với người sử (lụng cuối vể những thông tin bên trong KDL và cách
thức chúng được truy nhập. Chính Metadata là cách dể người sử dụng và các ứng
dụng có thể tiếp cận được với những thông tin được lưu trữ trong KDL. Nó có thể
định nghĩa tất cả các phần tử dữ liệu và các thuộc tính của chúng. Metadata cần
được thu thập khi KDL được Ihiết kế và xây dựng. Metadata phái có sẵn cho tất cả
những người sử dụng KDL để hướng dẫn họ dùng KDL. Các công cụ trợ giúp cũng
được thiết lập và cần được đánh giá trước khi quyết định mua nó.
2 . 1 . 2 C ác n g u ồ n dữ liệu
Bao gồm các hệ thống trong và ngoài của một tổ chức, lất phong phú vê chủng loại.
Các hệ thống nằm trong được coi như các hệ tlìống nguồn hoặc các hệ thống đã có sẩn.
■ Hệ thống đã có trước (LS): là một hệ thông lác nghiệp hỗ trợ kinh doanh. Hệ
thống này dã từng được phát triển sử dụng các công nghệ có sẩn và vẫn phù hợp với
các nhu cầu của kinh doanh. Các hệ thông này có thể dược thực hiện trong nhiều
năm và có lẽ không có hoặc có rất ÍI minh chứng bằng lài liệu.
*
Dữ liệu ngoài: là dữ liệu không nằm trong các hệ thống tác nghiệp của một tổ
chức, là những dữ liệu do người sử dụng cuối yêu cầu để diền vào bức tranh tổng thể
các nhu cầu kinh doanh của họ.
Các LS được phát triển xung quanh các vùng kinh doanh phục vụ cho dự án. Các
ứng dụng được phát triển cùng với dữ liệu mà các dữ liệu này lại đáp ứng nhiều nhu
cầu khác nhau. Cùng là một dữ liệu nhưng lại có lèn khác nhau, hoặc thuộc các hệ
K h o (lữ lien - Dala \\ (II ơlioiisi'
15
-
thống đo lường khác nhau. Kết quá cuối cùng là các nguồn dữ liệu cán dược dánli
giá và các định nghĩa cần được đưa vào Metadata dể nhắm tới các ván đề sau:
♦ Xác định các nguồn khác nhau, các cấu irúc file khác nhau, các nền
(platform) khác nhau.
♦ Hiểu dược dữ liệu nào có trong các hệ thông nguồn dang lổn tại, các định
nghĩa kinh doanh của dữ liệu, và bất kỳ các luật kinh doanh nào cho dữ liệu.
♦ Phát hiện sự giao nhau về thông tin của các hệ thõng khác nhau.
♦ Quyết định dữ liệu tốt nhất trong các hệ thống. Mỗi hệ thống cần được đánh
giá để quyết định hệ thống nào có dữ liệu rõ ràng và chính xác hơn.
2 . 1 . 3 H ệ th ố n g xử lý g ia o dich trực tuyên - OLTP [4]
Dữ liệu phát sinh từ các hoạt dộng hàng ngày được iliu thập, xử lý để phục vụ
côi '15 viôc nghiệp vụ cụ thể của một tổ chức thường dược gọi là dữ liệu lác nghiệp và
hoạt động thu thập xử lý loại dữ liệu này được gọi là xử lý giao dịch trực tuyến
(OLTP).
Dữ liệu tại các CSDL tác nghiệp điíực lây lừ nhiều nguồn khác nhau nên dể bị
nhiễu, hỗn tạp - dữ liệu không sạch, không loàn vẹn. Do đó việc kiếm tra dữ liệu, làm
sạch dữ liệu phải được tiến hành ngay tại đây nhằm báo đảm tính toàn vẹn, tính dứng
dắn của dữ liệu dể phục vụ cho việc xây dựng KDL và liự giúp ra quyếi định sau này.
2 . 1 . 3 . 1 N hững đ ặc đ iếm của hệ th ốn g OLTP
■ Trợ giúp số lượng lớn những người sử dụng dồng thời trong việc thêm và sửa
đổi dữ liệu.
■ Diễn tả trạng thái thay đổi bắt buộc của tổ chức nhưng không lưu lại lịch sử
của nó.
■ Chứa đựng những số lưựng lớn các dữ liệu, bao gồm dữ liệu tổng quái để
kiểm soát những sự thực hiện.
■ Được điểu chỉnh để đáp ứng nhanh tới sự thực hiên tích cực.
■ Cung cấp cơ sở hạ tầng công nghệ để hỗ trự giúp các thao tác thường ngày
của một tổ chức.
Kho (lữ liệu - Data W a r e h o u s e
16
-
Chính từ những đặc diêm này, nếu chúng ta sử dụng cư sở dữ liệu OLTP cho phân
tích trực tuyến thì thường gặp những khó khăn sau:
■ Các yêu cầu phân tích, tổng kết những khối lượng lớn dữ liệu, ảnh hướng tới
khả năng của hệ thống.
*
Sự thực hiện của hệ thống khi đáp ứng những yêu cầu phân tích phức tạp có
thể chậm hoặc không ổn định, cung cấp sự hỗ irợ không dầy dủ cho những người sử
dụng trong phân tích trực tuyến.
■ Sự thay đổi dữ liệu thường xuyên gây trở ngại cho tính tin cậy của thông tin
phân tích.
■ An ninh trở nên phức tạp hơn khi sự phân tích trực tuyến được kết hợp với xử
lý giao dịch trực tuyến.
KDL với nhiệm vụ tổ chức dữ liệu cho mục đích phân tích đã giải quyết được các
khó khăn trên bằng việc cung cấp những khóa chính. Cấc KDL:
■ Có thể kết hợp dữ liệu lừ những nguồn dữ liệu hỗn tạp vào trong một cấu trúc
thuần nhất dơn.
■ Tổ chức số liệu trong những cấu trúc dơn gian hóa cho hiệu quá của các yêu
cầu có tính phân tích hơn là cho việc xử lý giao dịch.
■ Chứa dữ liệu thay đổi, đó là tính hợp lệ, chắc chắn, và hợp lý hoá trong phân tích.
■ Cung cấp dữ liệu ổn dịnh biểu diễn cho lịch sử kinh doanh.
■ Được cộp nhật định kỳ dữ liệu bổ sung hơn ià những giao dịch thường xuyên.
■ Nlũrng yêu cầu an toàn dơn giản.
■ Cung cấp một cơ sở dữ liệu dược tổ chức cho OLAP hưn là cho OLTP.
2 . 1 . 3 . 2 Các cô n g cụ thu thập, làm sạch và chuyển đôi dữ liệu nguồn
Một phần quan trọng trong cài đặt là sử dụng những tlữ liệu dã dược linh chế lừ
những hệ thống tác nghiệp và dưa chúng vào một khuôn dạng thích hợp cho các ứng
dụng thông tin. Những công cụ này thực hiện tất cả các công việc chuyển đổi, tóm
tắt, những thay dổi quan Irọng, những thay đổi về cấu Iníc và những cô dọng cần
thiết cho sự chuyển đổi dữ liệu riêng lẽ thành thông tin có thể được dùng trong
nlũrng công cụ hỗ trợ quyết định. Nó sản sinh ra những chương trình và kiểm soát
K h o d ừ liệu - Data \ \ a r e h o u s e
- Xem thêm -