1
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Thị Thu Hằng
XÂY DỰNG KHO DỮ LIỆU CHO HỆ THỐNG
TỔNG HỢP THÔNG TIN KINH TẾ - XÃ HỘI
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60.48.05
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. Nguyễn Tuệ
Hà Nội – 2009
2
LỜI CẢM ƠN
Đầu tiên, tôi xin gửi lời cảm ơn sâu sắc nhất tới TS Nguyễn Tuệ, ngƣời hƣớng
dẫn khoa học, đã tận tình chỉ bảo, giúp đỡ tôi thực hiện luận văn.
Tôi xin chân thành cảm ơn TS Nguyễn Văn Hùng, ngƣời tạo điều kiện và
giúp đỡ tôi tìm hiểu thực tế bài toán để hoàn thành luận văn
Tôi xin chân thành cảm ơn các thầy cô trƣờng Đại học Công nghệ, Đại học
Quốc gia Hà Nội đã giảng dạy và truyền đạt kiến thức cho tôi.
Cuối cùng, tôi xin cảm ơn những ngƣời thân và các bạn bè đồng nghiệp đã
chia sẻ, giúp đỡ tôi hoàn thành luận văn này.
Mặc dù đã hết sức cố gắng với tất cả sự nỗ lực của bản thân, nhƣng chắc luận
văn vẫn còn những thiếu sót. Kính mong nhận đƣợc những ý kiến đóng góp
của quý Thầy, Cô và bạn bè đồng nghiệp.
Tôi xin chân thành cảm ơn!
Hà Nội, ngày 30/11/2009
Học viên thực hiện
Nguyễn Thị Thu Hằng
3
LỜI CAM ĐOAN
Tôi xin cam đoan luận văn “Xây dựng kho dữ liệu cho Hệ thống tổng hợp
thông tin kinh tế - xã hội” là công trình nghiên cứu của riêng tôi, không sao
chép của bất kỳ ai. Nội dung của luận án đƣợc trình bày từ những kiến thức
tổng hợp của cá nhân, tổng hợp từ các nguồn tài liệu có xuất xứ rõ ràng và
trích dẫn hợp pháp. Kết quả nghiên cứu đƣợc trình bày trong luận văn này
chƣa từng đƣợc công bố tại bất kỳ công trình nào khác.
Tôi xin chịu hoàn toàn trách nhiệm, và nếu sai, tôi xin chịu mọi hình thức kỷ
luật theo quy định.
Hà Nội, ngày 30 tháng 11 năm 2009
Học viên thực hiện
Nguyễn Thị Thu Hằng
4
MỤC LỤC
LỜI CẢM ƠN .................................................................................................... 2
LỜI CAM ĐOAN .............................................................................................. 3
MỤC LỤC ......................................................................................................... 4
BẢNG CÁC KÝ HIỆU VÀ TỪ VIẾT TẮT ....................................................... 6
DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU ........................................................ 7
MỞ ĐẦU ........................................................................................................... 9
CHƢƠNG 1 – LÝ THUYẾT XÂY DỰNG KHO DỮ LIỆU ............................ 12
1.1 Các khái niệm cơ bản về kho dữ liệu ....................................................... 12
1.1.1 Kho dữ liệu – data warehouse ........................................................... 12
1.1.2 Các loại dữ liệu trong Data Warehouse ............................................. 15
1.2 Thiết kế kho dữ liệu ................................................................................ 16
1.2.1 Các giai đoạn thiết kế kho dữ liệu ..................................................... 16
1.2.2 Mô hình dữ liệu ................................................................................ 16
CHƢƠNG 2 – MÔ TẢ, ĐÁNH GIÁ, PHÂN TÍCH QUY TRÌNH NGHIỆP VỤ
CỦA HỆ THỐNG TỔNG HỢP KINH TẾ - XÃ HỘI ...................................... 22
2.1 Quy trình xác định, tạo lập, lƣu trữ, cung cấp thông tin tổng hợp KTXH 22
2.1.1 Quy trình xác định, tạo lập và lƣu trữ thông tin tổng hợp KTXH tại
các đơn vị trực thuộc Bộ XD ..................................................................... 22
2.1.2 Quy trình cung cấp và tổ chức khai thác thông tin tổng hợp KTXH tại
các đơn vị trực thuộc Bộ XD ..................................................................... 23
2.2 Quy trình cung cấp và tổ chức khai thác thông tin tổng hợp KTXH ........ 24
2.2.1 Xác định nội dung và các hình thức cung cấp, khai thác thông tin .... 24
2.2.2 Cung cấp thông tin tới các địa chỉ cần thiết qua đƣờng truyền mạng . 25
2.2.3 Cung cấp thông tin tổng hợp KTXH phục vụ công tác điều hành quản
lý ............................................................................................................... 25
2.3 Qui trình thực hiện chế độ thông tin báo cáo ........................................... 26
2.3.1 Quy trình nghiệp vụ tổng quát........................................................... 26
2.3.2 Quy trình làm báo cáo tại tại Bộ Xây dựng ....................................... 26
2.4 Mô tả thông tin dữ liệu ............................................................................ 28
2.4.1 Mô hình dữ liệu ................................................................................ 28
2.4.2 Hệ thống chỉ tiêu tổng hợp chung của Bộ Xây Dựng ........................ 29
2.4.3 Hệ thống chỉ tiêu tổng hợp của các đơn vị ........................................ 43
CHƢƠNG 3 - XÂY DỰNG KHO DỮ LIỆU THỬ NGHIỆM ......................... 54
3.1 Giới thiệu công cụ OLAP trong SQL Server 2005 .................................. 54
3.1.1 Giới thiệu OLAP ............................................................................... 54
3.1.2 Giới thiệu dịch vụ OLAP của Microsoft SQL Server ........................ 55
3.1.3 Các mô hình lƣu trữ .......................................................................... 56
3.1.4 Kiến trúc khối (cube) của OLAP ....................................................... 59
5
3.1.5 Mô hình kiến trúc của dịch vụ OLAP................................................ 60
3.2 Thiết kế cơ sở dữ liệu .............................................................................. 63
3.2.1 Dữ liệu nguồn ................................................................................... 63
3.2.2 Thiết kế các chiều lƣu trữ dữ liệu ...................................................... 65
3.3 Cài đặt kho dữ liệu thử nghiệm ............................................................... 66
3.3.1 Khởi tạo và cài đặt Project ................................................................ 66
3.3.2 Khai thác kho dữ liệu ........................................................................ 69
KẾT LUẬN ...................................................................................................... 73
TÀI LIỆU THAM KHẢO ................................................................................ 74
6
BẢNG CÁC KÝ HIỆU VÀ TỪ VIẾT TẮT
Từ viết tắt
Từ tiếng anh
Từ hoặc cụm từ
BMSL
Biểu mẫu số liệu
CNTT
Công nghệ thông tin
CSDL
Database
Cơ sở dữ liệu
DM
Data Mart
Kho dữ liệu cục bộ
DW
Data Warehouse
Kho dữ liệu
EDM
Enterprise Data Model
Mô hình dữ liệu mức xí
nghiệp
HTTT
Hệ thống thông tin
TT THDL
Trung tâm tổng hợp dữ
liệu
KTXH
Kinh tế - Xã hội
LAN
Local Area Network
Mạng cục bộ
OLAP
On-Line Analytical Processing
Xử lý phân tích trực tuyến
SA
Subject Area
Vùng chủ đề
VP
Văn phòng
XD
Xây dựng
7
DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU
Danh mục hình vẽ
Hình 1.1 – Mô phỏng sơ đồ hình sao của một CDSL ..................................... 18
Hình 1.2 – Mô phỏng sơ đồ tuyết rơi (mở rộng của sơ đồ hình sao) .............. 19
Hình 1.3 – Mô phỏng các chiều trong kinh doanh ......................................... 20
Hình 2.1 – Quy trình xác định, tạo lập, lƣu trữ thông tin cấp sở.................... 23
Hình 2.2 – Quy trình thu thập số liệu tại cấp Bộ .......................................... 24
Hình 2.3 – Mô hình tạo báo cáo ở văn phòng Bộ XD ................................... 27
Hình 2.4 – Mô hình tổ chức dữ liệu của Hệ thống tại cấp Bộ ........................ 28
Hình 3.1 – Mối quan hệ của nhiều loại công nghệ trong Analysis Services
(dịch vụ phân tích) của SQL Server 2005 ...................................................... 55
Hình 3.2 – Kiến trúc dịch vụ OLAP .............................................................. 56
Hình 3.3 – Mô hình Multidimensional OLAP ............................................... 57
Hình 3.4 – Mô hình Relation OLAP .............................................................. 58
Hình 3.5 – Mô hình Hybird OLAP ................................................................ 59
Hình 3.6 – Mô hình kiến trúc của dịch vụ OLAP........................................... 61
Hình 3.7 – Kiến trúc thành phần Server ......................................................... 62
Hình 3.8 – Kiến trúc thành phần Client ......................................................... 63
Hình 3.9 – Mô hình Data Mart của hệ thống TH KT-XH .............................. 66
Hình 3.10 – Khung nhìn dữ liệu của Data Mart hệ thống ............................... 67
Hình 3.11 – Cấu trúc khối (cube) TH_KTXH.cube ....................................... 67
Hình 3.12 – Kết quả triển khai project TH_KTXH trong Analysis Service.... 68
Hình 3.13 – Báo cáo về tình hình thực hiện quản lý quy hoạch phát triển vật
liệu xây dựng trong phạm vi cả nƣớc của Vụ Vật liệu xây dựng từ năm 2000
đến 2008 ........................................................................................................ 69
Hình 3.14 – Báo cáo quản lý quy hoạch phát triển vật liệu xây dựng trong
phạm vi cả nƣớc của Vụ Vật liệu xây dựng từ năm 2000 đến 2008 – sử dụng
dịch vụ Reporting Services ............................................................................ 70
Hình 3.15 – Báo cáo sản lƣợng Xi măng các loại từ năm 2000 đến 2008 – sử
dụng dịch vụ Reporting Services ................................................................... 71
8
Hình 3.16 – Báo cáo sản lƣợng sản xuất Cát xây dựng của doang nghiệp quốc
doanh từ năm 2000 đến 2008, so sánh số liệu thực và số liệu ƣớc ................. 72
Danh mục bảng biểu
Bảng 2.1. Thống kê các mẫu báo cáo và tình trạng cung cấp thông tin về hệ
thống chỉ tiêu tổng hợp .................................................................................. 30
Bảng 2.2. Hệ thống chỉ tiêu tổng hợp dùng chung tại Bộ XD ........................ 32
9
MỞ ĐẦU
Thế kỷ 21 là thời đại của nền kinh tế trí thức. Mọi hoạt động của chúng ta
muốn đạt hiệu quả cao, giành đƣợc thắng lợi trong thế cạnh tranh gay gắt thì
nhất thiết phải có những phƣơng pháp để có đƣợc những thông tin, tri thức
cần thiết một cách nhanh và chính xác.
Việc áp dụng công nghệ thông tin vào thực tiễn sản xuất nghiệp vụ đã mang
lại những hiệu quả và lợi ích to lớn. Công nghệ ngày càng đƣợc phát triển,
hoàn thiện hơn để đáp ứng những yêu cầu ngày càng cao của thực tế nghiên
cứu, quản lý sản xuất và nghiệp vụ. Sự mở rộng qui mô áp dụng từ những ứng
dụng đơn lẻ đến các hệ thống thông tin cỡ lớn đã dẫn đến những thành công
vƣợt bậc trong nghiệp vụ. Các hệ thống thông tin từ chỗ chỉ giải quyết những
xử lý công việc hàng ngày nay đã tiến tới đáp ứng đƣợc những yêu cầu ở mức
độ cao hơn. Các nhà quản lý điều hành không những biết đƣợc công việc
đang diễn ra nhƣ thế nào mà còn biết cái gì sẽ xảy ra sau đó, có nghĩa là thông
tin mang tính phân tích và hệ thống thông tin có khả năng hỗ trợ quyết định.
Hiện nay, phƣơng pháp xây dựng kho dữ liệu đã phát triển cả về lý thuyết
cũng nhƣ thực tế. Lý thuyết xây dựng kho dữ liệu đã đƣợc hình thành rõ nét,
bên cạnh đó các nhà cung cấp phần mềm cũng đã đƣa ra các công cụ để xây
dựng, lƣu trữ, duy trì và phát triển kho dữ liệu. Một kho dữ liệu có thể giúp đỡ
các nhà quản lý, các doanh nghiệp … có khả năng quản lý dữ liệu, khai thác
thông tin để đƣa ra những quyết định nhanh chóng và phù hợp
Quá trình tìm hiểu thực tế việc tin học hóa quán lý hành chính nhà nƣớc cho
thấy việc tổng hợp và quản lý các thông tin về kinh tế - xã hội hàng ngày, để
cung cấp thông tin cho “quá trình phân tích, hoạch định chiến lƣợc và hỗ trợ
ra quyết định” là một nhu cầu bức thiết của những ngƣời quản lý, là thách
thức, bài toán thực tế đang đƣợc tìm hƣớng giải quyết.
Đề tài này dựa trên những lý thuyết, phƣơng pháp luận, công cụ xây dựng kho
dữ liệu, từ đó triển khai xây dựng một kho dữ liệu thực tế, nhằm hƣớng tới
giải quyết yêu cầu của bài toán nói trên. Luận văn gồm 3 chƣơng:
Chƣơng 1: Lý thuyết xây dựng kho dữ liệu. Chƣơng này trình bày những
khái niệm cô đọng nhất về Data warehouse và các bƣớc thiết kế kho dữ liệu
cho Hệ thống
Chƣơng 2. Mô tả, đánh giá, phân tích quy trình nghiệp vụ của Hệ thống Tổng
hợp thông tin kinh tế - xã hội phục vụ điều hành cho Bộ Xây Dựng
Chƣơng 3. Xây dựng kho dữ liệu thử nghiệm. Chƣơng này trình bày việc
xây dựng kho dữ liệu thử nghiệm dựa trên SQL Server 2005
10
Giới thiệu bài toán Xây dựng kho dữ liệu cho Hệ thống tổng hợp thông
tin kinh tế - xã hội
Tổng hợp Kinh tế - Xã hội (KTXH) là một hệ thống thông tin đƣợc xây dựng
nhằm góp phần tin học hóa quản lý hành chính nhà nƣớc. “Thông tin tổng hợp
KTXH” đƣợc hiểu là thông tin phản ánh các diễn biến về KTXH đã đƣợc tổng
hợp từ các hiện tƣợng KTXH phát sinh ở các đơn vị kinh tế cơ sở để phục vụ
công tác chỉ đạo điều hành trong hệ thống các cơ quan hành chính nhà nƣớc.
Đơn vị kinh tế cơ sở gồm: Cơ quan nhà nƣớc, đơn vị sự nghiệp, đơn vị thuộc
lực lƣợng vũ trang nhân dân, tổ chức chính trị, tổ chức chính trị - xã hội, tổ
chức chính trị xã hội - nghề nghiệp, tổ chức xã hội, tổ chức xã hội - nghề
nghiệp, doanh nghiệp và các đơn vị trực thuộc doanh nghiệp thuộc mọi thành
phần kinh tế, hợp tác xã, tổ hợp tác, hộ kinh doanh cá thể, hộ gia đình, cá
nhân, các tổ chức khác của Việt Nam ở trong nƣớc, ở nƣớc ngoài và tổ chức,
cá nhân nƣớc ngoài hoạt động trên lãnh thổ Việt Nam.
Quá trình tìm hiểu thực tế cho thấy mỗi Ủy ban nhân dân tỉnh hoặc các bộ,
ngành đều có nhu cầu nắm bắt, tổng hợp và quản lý các thông tin về kinh tế xã hội hàng ngày, để cung cấp thông tin cho “quá trình phân tích, hoạch định
chiến lƣợc và hỗ trợ ra quyết định”.
Hệ thống Tổng hợp thông tin kinh tế xã hội đã đƣợc tìm hiểu, khảo sát và
triển khải thử tại nhiều địa phƣơng nhƣ Thanh Hóa, Hà Nam, Lạng Sơn …
các bộ ngành nhƣ bộ Xây dựng … Từ khảo sát thực tế đã chỉ ra những bất cấp
trong việc thu thập và lƣu trữ thông tin kinh tế - xã hội hàng ngày của các
UBND, các bộ các ngành. Việc thu thập thông tin thủ công, thông tin đƣợc
lƣu trong các file tài liệu rời rạc hoặc những CSDL riêng biệt, gây khó khăn
cho việc tổng hợp số liệu, thống kê số liệu, dẫn đến việc phân tích thông tin,
hỗ trợ các quyết định chiến lƣợc của các cấp lãnh đạo chƣa thực sự nhanh
chóng và hiệu quả.
Để giải quyết những bất cập và đáp ứng nhu cầu thực tế, đã có nhiều đề án cụ
thể đƣợc đƣa ra xem xét, một trong số các đề án giải quyết những hạn chế nêu
trên là xây dựng kho dữ liệu. Khối lƣợng công việc rất lớn, có phạm vi rộng
và thời gian thực hiện khéo dài. Do vậy, bài toán trong luận án này sẽ tìm
hiểu, đi sâu và xây dựng kho dữ liệu cho HTTT tổng hợp KTXH phục vụ điều
hành của Bộ Xây Dựng.
HTTT tổng hợp KTXH phục vụ điều hành quản lý tại Bộ XD có nhiệm vụ
xác định, tạo lập, lƣu trữ, xử lý và quản lý các thông tin tổng hợp liên quan
đến tất cả các lĩnh vực hoạt động KTXH nhƣ kinh tế tổng hợp, kinh tế ngành,
tổ chức cán bộ, ... của Bộ XD, từ đó hình thành các kho dữ liệu về các số liệu
chỉ tiêu tổng hợp KTXH và các thông tin báo cáo, nhằm:
11
Cung cấp thông tin tổng hợp phục vụ chỉ đạo điều hành của lãnh đạo, các
hoạt động chuyên môn, nghiệp vụ của các bộ phận và các chuyên viên tại
văn phòng Bộ XD, tại các cục, vụ, viện, và các đơn vị trực thuộc Bộ XD
(kể cả các sở XD thuộc các tỉnh/ thành phố trong cả nƣớc).
Phục vụ việc thực hiện chế độ thông tin báo cáo từ các đơn vị lên văn
phòng Bộ XD và từ Bộ lên Chính phủ.
Mục tiêu
Việc xây dựng kho dữ liệu cho HTTT tổng hợp KTXH phải đảm bảo đƣợc
các yêu cầu cơ bản:
Xác định đầy đủ nội dung thông tin tổng hợp KTXH
Chuẩn hoá hệ thống chỉ tiêu, hệ thống mẫu biểu số liệu (BMSL), thống
nhất các loại số liệu, các thông tin danh mục dùng chung;
Có khả năng trích lọc, chuyển đổi, kết xuất, tích hợp dữ liệu từ các CSDL
chuyên ngành của các đơn vị (nếu có) vào Kho dữ liệu thông tin tổng hợp
KTXH.
Lƣu trữ, quản lý toàn bộ các số liệu chỉ tiêu, dữ liệu báo cáo của các đơn vị
cấp cục, vụ, viện và của Bộ, hình thành các kho dữ liệu về số liệu chỉ tiêu,
về các thông tin báo cáo, đƣợc phân loại một cách có hệ thống và thống
nhất. Các kho dữ liệu sẽ đƣợc tổ chức theo mô hình thống nhất để có thể
tích hợp chúng với nhau một cách thuận tiện và dễ dàng.
Trên cơ sở các kho dữ liệu về thông tin tổng hợp KTXH, tổ chức các hình
thức khai thác thông tin dƣới dạng thông tin kết xuất theo khuôn dạng định
sẵn và các dạng thông tin kết xuất động theo yêu cầu, cung cấp các công
cụ thống kê, phân tích, dự báo liên quan đến các lĩnh vực KTXH để hỗ trợ
ra quyết định, xuất bản thông tin lên
Phạm vi thực hiện
Bài toàn xây dựng kho dữ liệu cho hệ thống thông tin tổng hợp kinh tế - xã
hội sẽ đƣợc cụ thể hóa bằng việc xây dựng kho dữ liệu thử nghiệm cho hệ
thống thông tin tổng hợp KT – XH phục vụ điều hành của Bộ Xây dựng.
Bài toán sẽ đi tìm hiểu và phân tích các quy trình xác định, tạo lập, lƣu trữ và
khai thác thông tin trong hệ thống tổng hợp KTXH, tìm hiểu các loại, kiểu dữ
liệu đƣợc lƣu trữ để từ đó xây dựng cơ sở dữ liệu cho kho dữ liệu
Công cụ sử dụng trong việc xây dựng kho dữ liệu đƣợc sử dụng trong bài toán
là hệ quản trị cơ sở dữ liệu Microsoft SQL Server 2005
12
CHƢƠNG 1 – LÝ THUYẾT XÂY DỰNG KHO DỮ LIỆU
1.1 Các khái niệm cơ bản về kho dữ liệu
1.1.1 Kho dữ liệu – data warehouse
1.1.1.1 Định nghĩa kho dữ liệu – data warehouse
Kho dữ liệu (Data Warehouse - DW) là tuyển tập các cơ sở dữ liệu tích hợp,
hƣớng chủ đề, đƣợc thiết kế để hỗ trợ cho chức năng trợ giúp quyết định, mà
mỗi đơn vị dữ liệu đều liên quan tới một khoảng thời gian cụ thể.
Công nghệ “Kho dữ liệu” (Data Warehouse Technology) là tập các phƣơng
pháp, kỹ thuật và các công cụ có thể kết hợp, hỗ trợ nhau để cung cấp thông
tin cho ngƣời sử dụng trên cơ sở tích hợp từ nhiều nguồn dữ liệu, nhiều môi
trƣờng khác nhau (Theo John Ladley)
Công nghệ DW ra đời nhằm đáp ứng mọi yêu cầu về thông tin của ngƣời sử
dụng, hỗ trợ để các nhân viên của "tổ chức" thực hiện tốt, hiệu quả công việc
của minh, nhƣ có những quyết định hợp lý, nhanh và bán đƣợc nhiều hàng
hơn, năng sản cao hơn, thu đƣợc lợi nhuận cao hơn, v.v... Giúp cho tổ chức,
xác định, quản lý và điều hành các dự án, các nghiệp vụ một cách hiệu quả và
chính xác, ngoài ra DW tích hợp dữ liệu và các siêu dữ liệu từ nhiều nguồn
khác nhau
Kho dữ liệu thƣờng rất lớn tới hàng trăm GB hay thậm chí hàng Terabyte.
Kho dữ liệu đƣợc xây dựng để tiện lợi cho việc truy cập theo nhiều nguồn,
nhiều kiểu dữ liệu khác nhau sao cho có thể kết hợp đƣợc cả những ứng dụng
của các công nghệ hiện đại và kế thừa đƣợc từ những hệ thống đã có sẵn từ
trƣớc. [1]
1.1.1.2 Đặc tính của kho dữ liệu
Dữ liệu trong DW có những đặc tính cơ bản sau:
Hƣớng chủ đề (Object Oriented)
Dữ liệu đƣợc tập hợp, phân lớp, lƣu trữ và xử lý theo từng chủ đề, để dễ
dàng xác định đƣợc những thông tin cần thiết trong từng hoạt động. Các dữ
liệu của mỗi chủ đề chính trong tổ chức đƣợc liên kết với các khóa đại diện
và đƣa vào cùng một vị trí.
Tích hợp (Integrated)
Một tổ chức có rất nhiều dữ liệu từ nhiều hệ thống khác nhau. Dữ liệu tập
hợp trong kho dữ liệu đƣợc thu thập từ nhiều nguồn và trộn ghép với nhau
tạo thành một thể thống nhất.Việc hợp nhất các dữ liệu này trở thành một
13
tập hợp dữ liệu có nghĩa cho việc phân tích là rất khó khăn. Dữ liệu tích
hợp phải đảm bảo tính nhất quán, đôi khi chấp nhận sự dƣ thừa dữ liệu để
tăng hiệu quả của các truy vấn.
Tính ổn định, không biến động (non- volatility)
Dữ liệu trong DW là dữ liệu chỉ đọc và chỉ có thể đƣợc kiểm tra, không
đƣợc sửa đổi bởi ngƣời sử dụng đầu cuối. Nó chỉ cho phép thực hiện hai
thao tác cơ bản: nạp dữ liệu vào kho và truy cập vào vào các vùng trong
DW.
Tính không biến động thể hiện ở chỗ: Dữ liệu đƣợc lƣu trữ lâu dài trong
kho dữ liệu. Mặc dù có thêm dữ liệu mới nhập vào nhƣng dữ liệu cũ trong
kho vẫn không bị xoá, điều đó cho phép cung cấp thông tin về một khoảng
thời gian dài, cung cấp đủ số liệu cần thiết cho các mô hình nghiệp vụ phân
tích, dự báo, từ đó có đƣợc những quyết định hợp lý, phù hợp với các qui
luật tiến hoá của tự nhiên.
Tính thời gian cụ thể
Một kho dữ liệu bao hàm một khối lƣợng lớn dữ liệu lịch sử. Dữ liệu đƣợc
lƣu trữ thành một loạt các bản sao, mỗi bản sao phản ánh những giá trị của
dữ liệu tại một thời điểm nhất định, thể hiện một khung nhìn của một vùng
chủ đề trong một giai đoạn. Do vậy, DW cho phép khôi phục lại dữ liệu
lịch sử và so sánh một cách chính xác các giai đoạn khác nhau. Yếu tố thời
gian đóng vai trò nhƣ một phần của khóa để đảm bảo tính đơn nhất của mỗi
bản ghi và cung cấp đặc trƣng về thời gian cho dữ liệu
Dữ liệu trong kho dữ liệu tác nghiệp cần phải chính xác ở chính thời điểm
truy cập, còn ở DW chỉ cần có hiệu lực trong khoảng thời gian nào đó,
trong khoảng 5 đến 10 năm hoặc lâu hơn. Dữ liệu của CSDL tác nghiệp
thƣờng sau một khoảng thời gian nhất định thì sẽ trở thành dữ liệu lịch sử
và chúng sẽ đƣợc chuyển thành kho dữ liệu. Đó chính là những dữ liệu hợp
lý về những chủ điểm cần lƣu trữ.
1.1.1.3 Các yêu cầu chức năng của kho dữ liệu
Khả năng cân bằng (scalable) : Kho dữ liệu có khả năng lƣu trữ và quản lý
một số lƣợng khổng lồ các giao dịch và dữ liệu tổng hợp. Kho dữ liệu có
thể lớn lên theo thời gian, có thêm dữ liệu mới hoặc giữ lại dữ liệu lịch sử
cho một thời gian dài mà không bị quá tải, vẫn đảm bảo tính ổn định hoạt
động
Khả năng quản trị (manageable): Kho dữ liệu có khả năng quản trị việc tạo
quyết định
14
Khả năng sẵn sàng (avaiable) : Kho dữ liệu luôn sẵn sàng bất kỳ khi nào
cần
Khả năng mở rộng (extensible): Thực hiện 1 cách dễ dàng khi thêm các
loại dữ liệu mới, dữ liệu kết hợp và dữ liệu tổng hợp và kho dữ liệu
Khả năng mềm dẻo (Flexible): hỗ trợ nhiều cách truy nhập dữ liệu chi tiết,
dữ liệu tổng hợp theo phân tích nhiều chiều
Khả năng tích hợp (Integrated): kho dữ liệu phải có khả năng tích hợp đầy
đủ với các hệ thống sẵn có, môi trƣờng tác nghiệp. Do vậy, có thể tải dữ
liệu từ nhiều nguồn
Khả năng truy cập sử dụng đƣợc (Accessible): Kho dữ liệu phải có khả
năng truy cập sử dụng đƣợc, từ các công cụ mềm dẻo tới phạm vi rộng rãi
ngƣời sử dụng
Khả năng tin cậy (Reliable): dữ liệu tải từ nhiều nguồn khác nhau phải
đƣợc hợp nhất, chuấn hóa bảo đảm tính toàn vẹn dữ liệu và hợp lệ tại một
thời điểm bất kỳ
1.1.1.4 Kho dữ liệu cục bộ - Datamart
Kho dữ liệu cục bộ (Datamart – DM) là CSDL có những đặc điểm giống với
kho dữ liệu nhƣng với quy mô nhỏ hơn và lƣu trữ dữ liệu về một lĩnh vực,
một chuyên ngành. Datamart là kho dữ liệu hƣớng chủ đề. Các Datamart có
thể đƣợc hình thành từ một tập con dữ liệu của kho dữ liệu hoặc cũng có thể
đƣợc xây dựng độc lập và sau khi xây dựng xong, các datamart có thể đƣợc
kết nối tích hợp lại với nhau tạo thành kho dữ liệu. Vì vậy có thể xây dựng
kho dữ liệu bắt đầu bằng việc xây dựng các Datamart hay ngƣợc lại xây dựng
kho dữ liệu trƣớc sau đó tạo ra các Datamart.
Datamart (DM) là một kho dữ liệu thứ cấp các dữ liệu tích hợp của DW.
Datamart đƣợc hƣớng tới một phần của dữ liệu thƣờng đƣợc gọi là một vùng
chủ đề (Subject Area - SA) đƣợc tạo ra và giành cho một nhóm ngƣời sử
dụng. Dữ liệu trong Datamart cho thông tin về một chủ đề xác định, không
phải về toàn bộ các hoạt động nghiệp vụ đang diễn ra trong một tổ chức. Thể
hiện thƣờng xuyên nhất của datamart là một kho dữ liệu riêng rẽ theo phƣơng
diện vật lí, thƣờng đƣợc lƣu trữ trên một server riêng, trong một mạng cục bộ
phục vụ cho một nhóm ngƣời nhất định. Đôi khi datamart một cách đơn giản
với công nghệ OLAP tạo ra các quan hệ theo dạng hình sao đặc biệt hoặc
những siêu khối (hypercube) dữ liệu cho việc phân tích của một nhóm ngƣời
có cùng mối quan tâm trên một phạm vi dữ liệu. [2]
Có thể chia ra làm 2 loại: Datamart độc lập và Datamart phụ thuộc
15
1.1.2 Các loại dữ liệu trong Data Warehouse
1.1.2.1 Dữ liệu nghiệp vụ
Dữ liệu nghiệp vụ (Business data – BD) là dữ liệu dùng để vận hành và quản
lý một doanh nghiệp hoặc một tổ chức. Nó phản ánh những hoạt động của
doanh nghiệp và những đối tƣợng trong thế giới thực nhƣ là khách hàng, địa
điểm, sản phẩm v.v.. Nó đƣợc tạo ra và sử dụng bởi các hệ thống xử lý giao
tác cũng nhƣ các hệ thống hỗ trợ quyết định.
1.1.2.2 Siêu dữ liệu (Metadata)
Metadata là dữ liệu về dữ liệu đƣợc sử dụng trong DW (hay gọi là siêu dữ
liệu) trả lời các câu hỏi ai, cái gì, khi nào, tại sao, nhƣ thế nào về dữ liệu. Nó
đƣợc sử dụng cho việc xây dựng, duy trì, quản lí và sử dụng DW. Metadata là
một trong những phƣơng diện quan trọng nhất của DW
Siêu dữ liệu nghiệp vụ (Business Metadata): Chứa đựng những thông tin
khiến cho ngƣời sử dụng dễ dàng hiểu đƣợc khung cảnh của thông tin
đƣợc lƣu trữ trong DW
Siêu dữ liệu kĩ thuật (Technical Metadata): Chứa đựng những thông tin về
dữ liệu trong DW của những ngƣời thiết kế và quản trị khi tiến hành công
việc phát triển và quản lí
Siêu dữ liệu tác nghiệp ( Operational Metadata)
Metadata hỗ trợ trực tiếp cho ngƣời sử dụng giúp họ có thể hiểu đƣợc nội
dung và tìm thấy đƣợc dữ liệu cần thiết. Trong thực tế khả năng kết hợp của
công cụ trích lọc dữ liệu và Metadata còn rất kém. Do đó cần phải tạo ra
những giao diện dùng Metadata cho ngƣời sử dụng .
Metadata định nghĩa nội dung và vị trí của dữ liệu trong DW, mối quan hệ
giữa cơ sở dữ liệu tác nghiệp với DW và các khung nhìn dữ liệu của DW có
thể truy nhập đƣợc bởi công cụ của ngƣời sử dụng đầu cuối. Ngƣời sử dụng
đầu cuối cần đến Metadata khi cần đến những định nghĩa dữ liệu hay các
vùng chủ thể.
Tất cả các thành phần của DW đều cần và có thể lấy dữ liệu từ Metadata.
Metadata đƣợc lƣu trữ ở khu vực trung tâm. Metadata có thể xuất hiện theo
nhiều khuôn dạng và có thể trong suốt.
16
1.2 Thiết kế kho dữ liệu
1.2.1 Các giai đoạn thiết kế kho dữ liệu
Có nhiều phƣơng pháp thiết kế kho dữ liệu, mặc dù khác nhau nhƣng nhìn
chung các phƣơng pháp đều chứa một số công việc cơ bản cho việc thiết kế
kho dữ liệu gồm các giai đoạn sau: [2]
Xác định mô hình nghiệp vụ (Defining the business model)
Phân tích các định hƣớng chiến lƣợc để rút ra các quá trình nghiệp vụ đƣợc
thực hiện trong kho dữ liệu. Các yêu cầu nghiệp vụ phải đƣợc phân tích,
xác định và tài liệu hóa đơn vị đo và chiều nghiệp vụ (businesss measures
và business demensions) cho mỗi quá trình nghiệp vụ
Xác định mô hình logic (Defining the logical model)
Dùng kỹ thuật đồ họa để thể thiện các định nghĩa, đặc điểm và mối quan hệ
của dữ liệu trong nghiệp vụ, hoặc khái niệm chuyên môn, nhằm mục đích
mô tả hệ thống cho ngƣời sử dụng cuối. Thông thƣờng phƣơng pháp này
dùng chuẩn 3NF
Xác định mô hình Demensional (Defining the demensional model)
Mô hình nghiệp vụ đƣợc chuyển thành mô hình Demensional, lƣợc đồ các
bảng và thuộc tính của bảng đƣợc định nghĩ, liên kết giữa các bảng đƣợc
tạo dựng và nguồn của kho dữ liệu đƣợc xác định.
Xác định mô hình vật lý (Defining the physical model)
Mô hình Demensional đƣợc chuyển thành mô hình vật lý, bao gồm các
khai báo về định nghĩa kiểu dữ liệu của các thuộc tính, khích thƣớc dự tính,
chiến lƣợc tạo chỉ mục (index) và lƣu trữ dữ liệu
1.2.2 Mô hình dữ liệu
Mô hình DW đƣợc phát sinh từ một mô hình dữ liệu tổng thể (mô hình dữ
liệu mức xí nghiệp) (Enterprise Data Model - EDM). Một EDM là một bức
tranh tổng thể mà các mô hình khác có thể hoạt động trên đó. Nó đƣợc tổ
chức thành các vùng theo chủ điểm, Subject Area - SA là phần chính của sự
chia nhỏ các công việc cần đƣợc quan tâm đáp ứng nhu cầu ngƣời sử dụng.
Nếu một tổ chức không có sẵn EDM thích hợp, EDM cũ đƣợc phép dùng tiếp
và bổ sung các SA mới.
Để bắt đầu việc thiết lập một mô hình, cần quan tâm tới khung nhìn tại vị trí
hiện tại và trong tƣơng lai sắp tới. Vị trí hiện tại có nghĩa là mô tả và hiểu
những dữ liệu đƣợc chứa trong những hệ thống kế thừa (nguồn kế thừa). Nếu
17
các hệ thống nguồn đang ở trong trạng thái không ổn định thì chọn để tiếp tục
những công việc cần thiết.
Mô hình dữ liệu DW có tính chủ đề, phụ thuộc vào công việc nghiệp vụ và
các vấn đề nảy sinh. Mô hình dữ liệu của DW có thể thiết lập theo:
Sơ đồ hình sao (Star Schema)
Sơ đồ tuyết rơi (Snowflake)
Mô hình đa chiều (Multiple Dimension)
1.2.2.1 Sơ đồ hình sao (Star Schema)
Sơ đồ hình sao đƣợc đƣa ra lần đầu tiên bởi Dr. Ralph Kimball nhƣ là một lựa
chọn thiết kế cơ sở dữ liệu cho DW. Nó đƣợc gọi là sơ đồ hình sao bởi vì các
sự kiện nằm ở trung tâm của mô hình và đƣợc bao quanh bởi các phạm vi liên
quan, rất giống với các điểm của một ngôi sao. Sơ đồ hình sao cho phép một
hệ thống đối tƣợng có thể kết nối với nhiều đối tƣợng khác. Mô hình này thể
hiện cách nhìn của ngƣời sử dụng về nhiều vấn đề trong tác nghiệp.
Trong sơ đồ hình sao, dữ liệu đƣợc xác định và phân loại theo 2 kiểu:
Các sự kiện đƣợc tổ chức thành bảng Fact
Bảng Fact chứa các thông tin cơ sở ở mức giao tác ở trong nghiệp vụ mà
các ứng dụng cần thiết. Ví dụ, khi phân tích dữ liệu kinh doanh thì cần
những dữ liệu về những mặt hàng đã bán đƣợc trong các giao dịch bán
hàng về số lƣợng, chủng loại, giá thành, v.v.. Những dữ liệu này đều đƣợc
lƣu ở bảng Fact của kho dữ liệu. Tuy nhiên, trƣớc khi các dữ liệu này đƣợc
đƣa vào kho dữ liệu thì cần phải chọn một trƣờng dữ liệu nào đó thƣờng sử
dụng trong các chiều phân tích để tham chiếu (xem nhƣ khoá ngoại trong
các quan hệ liên kết) và sau đó đƣa vào bảng các chiều. Các sự kiện là các
đại lƣợng số của công việc. Các bảng Fact thƣờng rất lớn, chứa hàng triệu
dòng mà phần lớn là số.
Phạm vi, hay các chiều của dữ liệu, đƣợc tổ chức thành các bảng
Dimension.
Bảng Dimension, ngƣợc lại, thƣờng là tƣơng đối nhỏ so với các bảng Fact,
chứa các thông tin mô tả. Đó là các bộ lọc hoặc các ràng buộc của những
sự kiện ở bảng Fact. Bảng Dimension chứa các dữ liệu cần thiết cho việc
thực hiện các giao tác nghiệp vụ theo một chiều, hay phạm vi nào đó. Ví
dụ, trong ứng dụng phân tích kinh doanh, bảng Dimension bao gồm: thời
gian, vùng bán hàng, loại sản phẩm, v.v.
18
Period
perKey
month
year
quarter
…
SalesMonthly
perKey
SalesWeekly
prodKey
perKey
mktKey
SalesDaily
prodKey
Market
mktKey
city
state
region
…
dollars
perKey
mktKey
weight
prodKey
dollars
…
mktKey
weight
values
…
units
…
Product
prodKey
product
color
model
size
…
Hình 1.1 – Mô phỏng sơ đồ hình sao của một CDSL
Ƣu điểm của sơ đồ hình sao
Hỗ trợ rất đa dạng các câu truy vấn và xử lý khá hiệu quả những câu truy
vấn đó.
Phù hợp với thói quen của ngƣời sử dụng nhận và sử dụng dữ liệu, nên dữ
liệu đƣợc hiểu trực quan hơn.
Sơ đồ này rất trực quan, dễ sử dụng, thể hiện khung nhìn đa chiều của dữ
liệu dùng ngữ nghĩa của cơ sở dữ liệu quan hệ. Khóa của bảng sự kiện
đƣợc tạo bởi những khóa của các bảng chứa thông tin theo từng phạm vi
(Dimension Table). Tất cả các khóa đều đƣợc xác định với cùng một chuẩn
đặt tên.
1.2.2.2 Sơ đồ tuyết rơi (Snowflake)
Sơ đồ hình tuyết rơi là một sự mở rộng của sơ đồ hình sao tại đó mỗi cánh sao
không phải là một bảng Dimension mà là nhiều bảng.
Trong dạng sơ đồ này, mỗi bảng theo chiều của sơ đồ hình sao đƣợc chuẩn
hóa hơn. Sơ đồ hình tuyết rơi cải thiện năng suất truy vấn, tối thiểu không
gian đĩa cần thiết để lƣu trữ dữ liệu và cải thiện năng suất nhờ việc chỉ phải
kết hợp những bảng có kích thƣớc nhỏ hơn thay vì phải kết hợp những bảng
có kích thƣớc lớn lại không chuẩn hóa.
Nó cũng làm tăng tính linh hoạt của các ứng dụng bởi sự chuẩn hóa và ít
mang bản chất theo chiều hơn. Nó làm tăng số lƣợng các bảng và làm tăng
tính phúc tạp của một vài truy vấn cần có sự tham chiếu tới nhiều bảng.
19
Period
perKey
month
year
quarter
…
SalesMonthly
perKey
SalesWeekly
prodKey
perKey
mktKey
SalesDaily
prodKey
Markets
mktKey
city
countryKey
state
region
regionKey
…
…
…
dollars
perKey
mktKey
weight
prodKey
dollars
…
mktKey
weight
values
…
units
…
Product
prodKey
product
color
model
size
…
Hình 1.2 – Mô phỏng sơ đồ tuyết rơi (mở rộng của sơ đồ hình sao)
1.2.2.3 Mô hình đa chiều (Multiple Dimension)
Các nhà quản lý kinh doanh có khuynh hƣớng suy nghĩ theo “nhiều chiều”
(multidimensionally). Ví dụ nhƣ họ có khuynh hƣớng mô tả những gì mà
công ty làm nhƣ: “Chúng tôi kinh doanh các sản phẩm trong nhiều thị
trường khác nhau, và chúng tôi đánh giá hiệu quả thực hiện của chúng tôi
qua thời gian”.
Những ngƣời thiết kế kho dữ liệu thƣờng lắng nghe cẩn thận những từ đó và
họ thêm vào những nhấn mạnh đặc biệt của họ nhƣ: “Chúng tôi kinh doanh
các sản phẩm trong nhiều thị trường khác nhau, và chúng tôi đánh giá hiệu
quả thực hiện của chúng tôi qua thời gian”.
Một cách trực quan, việc kinh doanh nhƣ một khối (cube) dữ liệu, với các
nhãn trên mỗi cạnh của khối. Các điểm bên trong khối là các giao điểm của
các cạnh. Với mô tả kinh doanh ở trên, các cạnh của khối là Sản phẩm, Thị
trƣờng, và Thời gian. Hầu hết mọi ngƣời đều có thể nhanh chóng hiểu và
tƣởng tƣợng rằng các điểm bên trong khối là các độ đo hiệu quả kinh doanh
mà đƣợc kết hợp giữa các giá trị Sản phẩm, Thị trƣờng và Thời gian.
20
Saûn phaåm
Thôøi gian
Thò tröôøng
Hình 1.3 - Mô phỏng các chiều trong kinh doanh
Một khối dữ liệu (datacube) thì không nhất thiết phải có cấu trúc 3 chiều (3D), nhƣng về cơ bản là có thể có N chiều (N-D). Những cạnh của khối đƣợc
gọi là các chiều (dimensions), mà đó là các mặt hoặc các thực thể ứng với
những khía cạnh mà tổ chức muốn ghi nhận. Mỗi chiều có thể kết hợp với
một bảng chiều (dimension table) nhằm mô tả cho chiều đó. Ví dụ, một bảng
chiều của Sản phẩm có thể chứa những thuộc tính nhƣ Ma_sanpham, Mo_ta,
Ten_sanpham, Loai_SP,… mà có thể đƣợc chỉ ra bởi nhà quản trị hoặc các
nhà phân tích dữ liệu. Với những chiều không đƣợc phân loại, nhƣ là Thời
gian, hệ thống kho dữ liệu sẽ có thể tự động phát sinh tƣơng ứng với bảng
chiều (dimension table) dựa trên loại dữ liệu. Cần nói thêm rằng, chiều Thời
gian trên thực tế có ý nghĩa đặc biệt đối với việc hỗ trợ quyết định cho các
khuynh hƣớng phân tích. Thƣờng thì nó đƣợc mong muốn có một vài tri thức
gắn liền với lịch và những mặt khác của chiều thời gian.
Hơn nữa, một khối dữ liệu trong kho dữ liệu phần lớn đƣợc xây dựng để đo
hiệu quả của công ty. Do đó một mô hình dữ liệu đa chiều đặc thù đƣợc tổ
chức xung quanh một chủ đề mà đƣợc thể hiện bởi một bảng sự kiện (fact
table) của nhiều độ đo số học (là các đối tƣợng của phân tích). Ví dụ, một
bảng sự kiện có thể chứa số mặt hàng bán, thu nhập, tồn kho, ngân sách,…
Mỗi độ đo số học phụ thuộc vào một tập các chiều cung cấp ngữ cảnh cho độ
đo đó. Vì thế, các chiều kết hợp với nhau đƣợc xem nhƣ xác định duy nhất độ
đo, là một giá trị trong không gian đa chiều. Ví dụ nhƣ một kết hợp của Sản
phẩm, Thời gian, Thị trƣờng vào 1 thời điểm là một độ đo duy nhất so với các
kết hợp khác.
Các chiều đƣợc phân cấp theo loại. Ví dụ nhƣ chiều Thời gian có thể đƣợc mô
tả bởi các thuộc tính nhƣ Năm, Quý, Tháng và Ngày. Mặt khác, các thuộc tính
của một chiều có thể đƣợc tổ chức vào một lƣới mà chỉ ra một phần trật tự của
chiều. Vì thế, cũng với chiều Thời gian có thể đƣợc tổ chức thành Năm, Quý,
Tháng, Tuần và Ngày. Với sự sắp xếp này, chiều Thời gian không còn phân
cấp vì có những tuần trong năm có thể thuộc về nhiều tháng khác nhau.
Vì vậy, nếu mỗi chiều chứa nhiều mức trừu tƣợng, dữ liệu có thể đƣợc xem từ
nhiều khung nhìn linh động khác nhau. Một số thao tác điển hình của khối dữ
- Xem thêm -