ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
––––––––––oOo––––––––––
TẠ LIÊN DUNG
ĐỀ TÀI
ỨNG DỤNG CÔNG NGHỆ KHO DỮ LIỆU
TRONG CÔNG TÁC QUẢN LÝ NGUỒN VỐN
TẠI NGÂN HÀNG
Chuyên ngành: Công nghệ thông tin
Mã số:
1.01.10
LUẬN VĂN THẠC SĨ
Người hướng dẫn khoa học:
PGS.TS Nguyễn Đình Hoá
HÀ NỘI 2007
Kho dữ liệu chuyển vốn Nội bộ tại BIDV
MỤC LỤC
LỜI CÁM ƠN ........................................................................................................................ 5
CHƢƠNG 1. TỔNG QUAN VỀ KHO DỮ LIỆU .............................................................. 6
I. KHÁI NIỆM CHUNG VỀ KHO DỮ LIỆU ............................................ 6
1. Hệ thống cơ sở dữ liệu xử lý giao dịch (OLTP) .................................. 6
2. Hệ thống Kho dữ liệu.......................................................................... 9
3. Chợ dữ liệu (Data Mart).................................................................... 12
4. Kiến trúc của một Kho dữ liệu .......................................................... 13
II. CÁC THÀNH PHẦN CỦA KHO DỮ LIỆU ....................................... 14
1. Rút trích dữ liệu (ETL – Extract Transformation Loading) ............... 15
a. Trích dữ liệu - Extract................................................................... 16
b. Chuyển đổi dữ liệu - Transform .................................................... 16
c. Nạp dữ liệu (Load) ........................................................................ 17
d. Làm mới dữ liệu ............................................................................ 18
2. Tổng hợp, phân tích dữ liệu và tạo Kho dữ liệu OLAP ..................... 20
a. Dạng nhiều chiều (Multidimensional) - MOLAP ........................... 21
b. Dạng quan hệ (relational) - ROLAP ............................................. 21
c. Dạng lai (Hybird) - HOLAP .......................................................... 21
3. Phân phối dữ liệu lƣu trữ (báo cáo) tới ngƣời sử dụng. ..................... 22
4. Mô hình khái niệm và các công cụ đầu cuối ..................................... 23
a. Mô hình khái niệm ........................................................................ 23
b. Các công cụ đầu cuối .................................................................... 24
5. Các phƣơng pháp thiết kế cơ sở dữ liệu ............................................ 26
CHƢƠNG 2. CẤU TRÚC CỦA KHO DỮ LIỆU TẠI BIDV ........................................... 29
I. HỆ ĐIỀU HÀNH VÀ CƠ SỞ DỮ LIỆU NGUỒN:............................... 29
1. Dữ liệu tập trung: .............................................................................. 29
2. Giao dịch online: .............................................................................. 30
3. Batchrun offline ................................................................................ 30
II. HỆ THỐNG KHO DỮ LIỆU ............................................................... 31
1. Mô hình kho dữ liệu của BIDV ......................................................... 31
2. Cách thức hoạt động của kho dữ liệu tại BIDV ................................. 33
III. CÁC VẤN ĐỀ ĐANG TỒN TẠI CỦA KHO DỮ LIỆU TẠI BIDV .. 35
1. Rút trích dữ liệu (ETL). .................................................................... 35
2. Kho dữ liệu OLAP ............................................................................ 36
3. Các vấn đề về phân phối báo cáo tới ngƣời sử dụng cuối. ................. 36
1. Mô hình ngân hàng ........................................................................... 37
2. Hệ thống thông tin tại Hội sở chính của BIDV ................................. 38
3. Sự cần thiết của kho dữ liệu trong ngân hàng. ................................... 39
CHƢƠNG 3. YÊU CẦU CHUNG CỦA HỆ THỐNG CHUYỂN VỐN NỘI BỘ ............. 40
I. YÊU CẦU CHUNG .............................................................................. 40
II. GIẢI THÍCH MỘT SỐ TỪ NGỮ ĐƢỢC SỬ DỤNG TRONG TÀI
LIỆU ........................................................................................................ 41
III. CÁC YÊU CẦU CỤ THỂ: ................................................................. 42
Tạ Liên Dung - K10T3
2
Kho dữ liệu chuyển vốn Nội bộ tại BIDV
1. Kỳ hạn chuyển vốn ........................................................................... 42
2. Giá chuyển vốn: ................................................................................ 43
3. Đồng tiền giao dịch:.......................................................................... 44
4. Thu nhập:.......................................................................................... 44
5. Đánh giá hiệu quả của đơn vị kinh doanh: ........................................ 45
6. Điều chỉnh chi phí: ........................................................................... 47
7. Điều chỉnh thu nhập .......................................................................... 49
CHƢƠNG 4. PHÂN TÍCH THIẾT KẾ HỆ THỐNG CHUYỂN VỐN NỘI BỘ................ 51
I. SƠ ĐỒ LUỒNG DỮ LIỆU ................................................................... 51
II. MÔ TẢ HOẠT ĐỘNG CỦA HỆ THỐNG .......................................... 53
III. MÔ TẢ CÁC BẢNG DỮ LIỆU THỰC THỂ CỦA CƠ SỞ DỮ LIỆU
SQL - KHO DỮ LIỆU.............................................................................. 54
1. Atmftpday......................................................................................... 54
2. Atmftpday_R .................................................................................... 55
3. Amtftpmonth .................................................................................... 56
4. Contract_ftp ...................................................................................... 57
5. Cdmast_FTP ..................................................................................... 57
6. DDmast_Ftp ..................................................................................... 58
7. Glmast_ftp ........................................................................................ 59
8. Lnmast_ftp ....................................................................................... 59
9. kiemtralechPH_GL ........................................................................... 60
10. Thunhapftp ..................................................................................... 61
11. Ssfxhs ............................................................................................. 61
12. Zbranch .......................................................................................... 61
13. zcurtyp ............................................................................................ 62
14. Zftpday ........................................................................................... 62
15. Zftpmat ........................................................................................... 62
16. Zftpmat_R ...................................................................................... 63
17. Zgl0 ................................................................................................ 63
18. Zgl1 ................................................................................................ 63
19. Zgl2 ................................................................................................ 64
20. Zgl3 ................................................................................................ 64
21. Zgl4 ................................................................................................ 64
22. Zgltncp ........................................................................................... 64
23. Zngayhethong ................................................................................. 65
24. Zprod0 ............................................................................................ 65
25. Zprod1 ............................................................................................ 65
26. Zprod2 ............................................................................................ 66
27. Zprod3 ............................................................................................ 66
28. Zprod4 ............................................................................................ 66
IV. MÔ TẢ PACKAGE CỦA CHƢƠNG TRÌNH ................................... 67
V. MÔ TẢ CÁC KHỐI OLAP ................................................................. 67
1. FTPday_08: ...................................................................................... 67
Tạ Liên Dung - K10T3
3
Kho dữ liệu chuyển vốn Nội bộ tại BIDV
2. FTPday_TH ...................................................................................... 69
3. FTPMonth ........................................................................................ 70
4. TNCP ............................................................................................... 71
5. GL_POS ........................................................................................... 72
6. Ktralech ............................................................................................ 73
VI. CHƢƠNG TRÌNH BÁO CÁO ĐỊNH GIÁ CHUYỂN VỐN NỘI BỘ 75
VII. CHƢƠNG TRÌNH THAM SỐ .......................................................... 80
VIII. KẾT LUẬN ..................................................................................... 81
Tạ Liên Dung - K10T3
4
Kho dữ liệu chuyển vốn Nội bộ tại BIDV
CHƢƠNG 1. TỔNG QUAN VỀ KHO DỮ LIỆU
I. KHÁI NIỆM CHUNG VỀ KHO DỮ LIỆU
Máy tính từ khi ra đời đã đóng vai trò vô cùng quan trọng trong lịch sử phát
triển của nhân loại. Các máy tính cung cấp những công cụ tính toán mạnh, cho
phép con người giải được các bài toán có số lượng tính toán khổng lồ mà trước
đó không thể thực hiện được bằng tay. Máy tính cũng góp phần làm đẩy nhanh
tốc độ phát triển của nền khoa học kỹ thuật trên toàn thế giới.
Cùng với sự phát triển như vũ bão của công nghệ phần cứng trong lĩnh vực
công nghệ thông tin, công nghệ phần mềm cũng có những bước tiến dài trong
lĩnh vực quản lý dữ liệu. Ban đầu là sự xuất hiện của những CSDL quan hệ chạy
trên các máy để bàn như DBASE, ACCESS, FOXPRO, SQL Server..., tạo điều
kiện vô cùng thuận lợi cho nguời phát triển. Dường như máy tính và những
chương trình của nó đã giải quyết được hầu hết các vấn đề trong lĩnh vực quản
lý. Tuy nhiên, trong thực tế, các công ty, tổ chức muốn thành công trên thị
trường, ngoài việc tổ chức bán hàng tốt (giao dịch đơn giản, thuận tiện cho
người mua và người quản lý bán hàng...), người lãnh đạo công ty phải nắm được
thực chất các quá trình diễn ra trong đơn vị mình và trong môi trường kinh
doanh mà đơn vị đó hoạt động để đưa ra các quyết định điều hành đúng đắn, kịp
thời.
Các hệ phần mềm kế toán, lập kế hoạch, giao dịch khách hàng, lập hoá
đơn... mới chỉ có thể tự động thực hiện các chức năng giao dịch cơ bản của một
đơn vị kinh doanh. Chính vì lý do đó những hệ thống này có một cái tên cổ điển
là hệ thống xử lý giao dịch (OLTP- online transaction processing).
1. Hệ thống cơ sở dữ liệu xử lý giao dịch (OLTP)
Hệ thống OLTP cho phép các giao dịch thay đổi dữ liệu trong bảng (thông
qua các lệnh insert, update, delete, join...) trong quá trình xử lý. Hệ thống cho
phép nhiều ứng dụng cùng truy cập dữ liệu tại một thời điểm.
Các ứng dụng trên client bao gồm tất cả các loại ứng dụng như ngân hàng,
bán vé trực tuyến, bán vé hàng không, thanh toán cước phí... Sử dụng hệ thống
OLTP có các ưu điểm sau:
Tạ Liên Dung - K10T3
6
Kho dữ liệu chuyển vốn Nội bộ tại BIDV
- Xử lý các chuyển tác tương tác.
- Dễ bảo trì và khống chế dữ liệu thừa.
- Thiết lập dữ liệu quan hệ trọn vẹn.
- Tính hiệu quả cao.
- Giảm thời gian giao dịch của khách hàng.
Các CSDL trong các hệ OLTP thường được thiết kế thoả mãn 3NF (Third
Normal Form) hoặc tốt hơn. Đặc điểm của hệ thống OLTP là nó lưu trữ các dữ
liệu "thô", có nghĩa là mức độ tổng quát, trừu tượng của dữ liệu này rất thấp. Nói
cách khác OLPT rất có ích để tìm trả lời những câu truy vấn dạng: Tổng sản
lượng sản phẩm X do công ty bán được trong 6 tháng đầu năm, mặt hàng nào
bán chạy nhất tại địa phương Y trong tháng vừa qua... Trong khi đó các nhà
quản lý ở mức cao của công ty rất ít khi quan tâm đến những câu hỏi loại đó.
Điều họ cần chú ý là những câu hỏi trừu tượng hơn như: Tiêu thụ A tại B đang
giảm, nếu thay đổi 3%-5% giá của sản phẩm A tại khu vực B, tình trạng tiêu thụ
sẽ thay đổi ra sao trong 6 tháng cuối năm và tại sao?
Các hệ thống OLTP hiện nay trả lời rất tốt câu hỏi dạng 1 bằng các công cụ
của hệ CSDL quan hệ nhưng để tìm đáp án cho những câu hỏi dạng 2 là không
đơn giản. Những yếu tố căn bản cản trở việc sử dụng dữ liệu của các hệ thống
OLPT trong việc phân tích dữ liệu là:
+ Các số liệu ở mức quá chi tiết
+ Các số liệu được phân bố ở những hệ thống khác nhau, có các thủ tục
truy cập khác nhau và ở những CSDL hoàn toàn khác nhau.
+ Các số liệu không được cập nhập cùng một chu kỳ dẫn đến sự mất đồng
bộ.
+ Việc tổ chức truy cập từ rất nhiều bảng dữ liệu khác nhau có ảnh hưởng
rất xấu tới hiệu suất của các hệ thống vì mục đích của các hệ thống này là nhằm
phục vụ các giao dịch trực tuyến.
Trong môi trường thừa thãi số liệu, nhà phân tích không thể tìm ra cho
mình thông tin cần thiết nhằm có được sự hiểu biết thấu đáo về những quá trình
Tạ Liên Dung - K10T3
7
Kho dữ liệu chuyển vốn Nội bộ tại BIDV
xảy ra xung quanh. Tình trạng số liệu quá chi tiết và không có được sự liên kết
với nhau của các số liệu phản ánh các quá trình tương đối độc lập của một thực
thể là lý do trực tiếp dẫn đến sự khủng hoảng này.
Vì vậy, người ta đã đưa ra giải pháp tích hợp các hệ thống OLTP để tạo ra
một hệ thống chứa đầy đủ thông tin. Tuy nhiên giải pháp này có hai nhược điểm
lớn:
- Phải liên kết các hệ thống có xuất xứ khác nhau về phần cứng và phần
mềm hệ thống. Các chương trình cần có sự thống nhất về định nghĩa dữ liệu
cũng như phương pháp biểu diễn dữ liệu. Vấn đề này rất phức tạp thậm chí đối
với các hệ thống có thiết kế phân tích tốt và hoàn toàn không khả thi đối với
những hệ thống được mô tả kém.
- Việc truy vấn để tạo báo cáo thường xuyên phải khoá rất nhiều bảng, cản
trở sự truy xuất của nhân viên khai thác trong quá trình làm việc hàng ngày và
làm ảnh hưởng trực tiếp đến khách hàng.
Với sự phát triển như vũ bão của các ngành công nghệ, nhu cầu sử dụng cơ
sở dữ liệu hiện nay cũng đã thay đổi rất nhiều, từ việc quản lý, phân tích dữ liệu
truyền thống tiến tới nhu cầu phân tích xử lý dữ liệu trực tuyến, nhất là nhu cầu
hỗ trợ quyết định.
Vào những năm 90 của thế kỷ trước, B.Inmon đề xướng một giải pháp kỹ
thuật gọi là Data Warehoushing - kỹ thuật xây dựng các kho dữ liệu. Data
Warehouse hay DWH (kho dữ liệu) được định nghĩa như một tập hợp các
phương tiện cho phép hình dung dữ liệu một cách tổng thể, hướng đối tượng để
giúp cho việc phân tích và ra quyết định.
Những người đầu tiên đưa ra ý tưởng về DWH xác định rằng tiến hành
phân tích trực tiếp trên dữ liệu của các hệ xử lý giao dịch và không hiệu quả.
Các dữ liệu từ một vài OLTP được biến đổi và sau đó đưa vào một nguồn dữ
liệu duy nhất là DWH. Quá trình này được gọi là đưa dữ liệu vào DWH, gồm
các công đoạn chính sau:
+ Làm sạch (Bỏ các dữ liệu không cần thiết hoặc quá chuyên dụng)
+ Liên kết các số liệu (Tính trước số liệu tích, tổng, trung bình ...)
Tạ Liên Dung - K10T3
8
Kho dữ liệu chuyển vốn Nội bộ tại BIDV
+ Biến đổi dữ liệu: số liệu được biến đổi thành dạng thích hợp, tổ chức lại
phù hợp với DWH
+ Tích hợp số liệu từ các nguồn khác nhau.
+ Đồng bộ hoá số liệu ở một thời điểm xác định.
DWH là hệ thống dữ liệu đã được chuẩn bị để xây dựng hệ hỗ trợ quyết
định (DSS-Decision Support Systems) và hệ phân tích trực tuyến (OLAP-Online
Analysis Processing) vì rằng dữ liệu trong DWH thoả mãn tính chất toàn vẹn và
có sự liên kết nội tại: Mặc dù dữ liệu được cung cấp từ nhiều OLTP, chúng được
liên kết bằng sự thống nhất trong quy tắc đặt tên, đơn vị đo, hệ thống các thuộc
tính chung... Điều này có giá trị đặc biệt khi xí nghiệp vận hành một lúc vài hệ
thống, trong đó các dữ liệu được biểu diễn bằng những đơn vị khác nhau (ví dụ
như các cách biểu diễn ngày, tháng khác nhau hoặc biểu diễn logic khác nhau).
Các chỉ số quan trọng có như tổng số, giá trị trung bình trong các giai đoạn khác
nhau, trung bình cộng... cũng được biểu diễn rất đa dạng ở các hệ khác nhau.
Khi đưa số liệu vào DWH, mọi chỉ số không tương thích được chuyển đổi, tránh
các lỗi tiềm tàng trong hệ thống.
Kho dữ liệu và xử lý phân tích trực tuyến (OLAP) là những yếu tố cần thiết
của hệ hỗ trợ quyết định, hiện đang trở thành tâm điểm chú ý của ngành công
nghiệp cơ sở dữ liệu. Rất nhiều dịch vụ, sản phẩm thương mại cũng như tất cả
các hệ quản trị cơ sở dữ liệu hiện nay cũng hỗ trợ các lĩnh vực này. Hệ hỗ trợ
quyết định đặt ra một số yêu cầu khá khác biệt cho công nghệ cơ sở dữ liệu so
với các ứng dụng xử lý giao dịch trực tuyến truyền thống.
2. Hệ thống Kho dữ liệu
Một kho dữ liệu là một tập hợp dữ liệu ổn định, hướng đối tượng, tích hợp
và biến thiên theo thời gian, nó dược sử dụng chủ yếu trong việc ra quyết định
có tổ chức. Kho dữ liệu được cài đặt độc lập so với cơ sở dữ liệu thao tác ban
đầu do nó hỗ trợ quá trình xử lý phân tích trực tuyến (OLAP), vì thế, các yêu
cầu về hiệu năng và chức năng của nó khá khác biệt so với các yêu cầu của các
ứng dụng xử lý giao dịch trực tuyến (OLTP) truyền thống trong cơ sở dữ liệu
tương tác. Các đặc tính của kho dữ liệu thông thường là:
Tạ Liên Dung - K10T3
9
Kho dữ liệu chuyển vốn Nội bộ tại BIDV
Hướng chủ đề: Các hệ thống OLTP có thể chứa hàng trăm Gbyte số liệu,
tuy nhiên những số liệu này có thể hoàn toàn vô ích trong việc phân tích trực
tuyến (VD: Địa chỉ, ID khách hàng...). Các dữ liệu kiểu này thường không được
đưa vào DWH để hạn chế dữ liệu cần xem xét xuống mức tối thiểu nhưng cũng
bảo đảm các thông tin theo từng SA (vùng chủ đề- Subject area). Một vùng chủ
đề là một chủ đề được tách ra từ một tập hợp lớn các chủ đề mà người sử dụng
quan tâm trong công việc kinh doanh, (Ví dụ khách hàng, thời gian hay sản
phẩm).
Số liệu có tính lịch sử: Các hệ OLTP thường bao quát một khoảng thời gian
không lớn và chúng được lưu trữ theo chu kỳ. Ngược lại trong DWH, dữ liệu
của hàng chục năm được lưu trữ nhằm phát hiện sự liên hệ của các yếu tố có thể
ảnh hưởng đến những chỉ tiêu cần quan tâm trong một thời gian dài.
Số liệu chỉ để đọc: Dữ liệu đưa vào DWH chỉ để đọc, việc sửa dữ liệu hầu
như không được tiến hành vì điều này có thể dẫn đến phá vỡ sự toàn vẹn. Thông
thường người ta không yêu cầu giảm thời gian đưa dữ liệu vào DWH xuống
mức tối thiểu, nhưng cần tối ưu hoá DWH sao cho các truy vấn phục vụ cho việc
phân tích đạt tốc độ tốt nhất. Các sơ đồ quan hệ sẽ tạo ra các Index hợp lý cũng
như tạo ra sẵn các dữ liệu kết hợp.
Số liệu không biến động: Thông tin trong DW được tải vào sau khi dữ liệu
trong hệ thống điều hành được cho là quá cũ. Không biến động thể hiện ở chỗ:
Dữ liệu được lưu trữ lâu dài trong kho dữ liệu. Mặc dù có thêm dữ liệu mới nhập
vào nhưng dữ liệu cũ trong kho vẫn không bị xoá, điều đó cho phép cung cấp
thông tin về một khoảng thời gian dài, cung cấp đủ số liệu cần thiết cho các mô
hình nghiệp vụ phân tích, dự báo.
Các ứng dụng OLTP tiêu biểu thường tự động hoá các tác vụ xử lý dữ liệu
văn phòng, chẳng hạn như nhập đơn đặt hàng hoặc các giao dịch ngân hàng. Các
tác vụ này là các thao tác cơ bản lặp đi lặp lại hằng ngày một cách có tổ chức.
Các tác vụ này thường là các giao dịch có cấu trúc và được lặp lại, ngắn gọn, cơ
bản, và phân lập. Các giao dịch này yêu cầu dữ liệu chi tiết, cập nhật, đồng thời
đọc hoặc cập nhật một số bản ghi được truy cập đặc biệt qua các khoá chính của
chúng. Các cơ sở dữ liệu tương tác thường có kích cỡ khoảng hoàng trăm
megabytes cho đến vài gigabytes. Tính ổn định và khả năng khôi phục lại của cơ
sở dữ liệu là có giới hạn, và việc tối đa hoá thông lượng giao dịch là việc đo
Tạ Liên Dung - K10T3
10
Kho dữ liệu chuyển vốn Nội bộ tại BIDV
lường hiệu năng then chốt. Do đó, cơ sở dữ liệu được thiết kế để phản ánh các
ngữ nghĩa quản trị của các ứng dụng tri thức và, đặc biệt là, để tối thiểu hoá các
xung đột đồng thời.
Trái ngược với các ứng dụng OLTP, kho dữ liệu được thiết kế cho mục
đích hỗ trợ quyết định. Các dữ liệu hợp nhất, tổng hợp và lịch sử quan trọng hơn
là các bản ghi độc lập, chi tiết. Vì kho dữ liệu chứa các dữ liệu đồng nhất, có thể
được lấy từ một số cơ sở dữ liệu thao tác, qua các giai đoạn thời gian khá dài,
chúng được sắp xếp để có thể chứa được khối lượng dữ liệu lớn hơn các cơ sở
dữ liệu thao tác thông thường. Các kho dữ liệu doanh nghiệp được xây dựng để
có thể chứa tới hàng trăm gigabyte cho tới hàng terabyte dữ liệu. Khối lượng
công việc thường là truy vấn ad hoc, các truy vấn phức tạp (các truy vấn này có
thể truy cập tới vài triệu bản ghi và thực hiện rất nhiều các thao tác quét, kết nối
và tập hợp). Thông lượng truy vấn và thời gian đáp ứng trong kho dữ liệu quan
trọng hơn nhiều so với thông lượng giao dịch.
Để làm cho công việc phân tích và hình dung dữ liệu trở nên dễ dàng hơn,
dữ liệu trong kho thường có mô hình nhiều chiều. Ví dụ, trong kho dữ liệu bán
hàng, thời gian bán hàng, người bán, sản phẩm có thể là một số chiều dữ liệu.
Thông thường, những chiều này được phân thành các cấp độ; thời gian bán hàng
có thể được tổ chức dưới dạng cấp độ như ngày - tháng - quý - năm, sản phẩm
có thể được tổ chức dưới dạng sản phẩm - danh mục - công nghiệp.
Nếu ta cố gắng thực thi các truy vấn xử lý phân tích trực tuyến (OLAP)
phức tạp trên cơ sở dữ liệu thao tác thì kết quả thu được là hiệu suất rất thấp
(thời gian trả lời truy vấn rất lâu), thậm chí là không thể chấp nhận được. Hơn
nữa, việc hỗ trợ quyết định đòi hỏi dữ liệu có thể không có từ cơ sở dữ liệu thao
tác, ví dụ như, để hiểu các xu hướng hoặc đưa ra tiên đoán yêu cầu phải có dữ
liệu lịch sử, trong khi đó, cơ sở dữ liệu tương tác chỉ lưu dữ liệu hiện tại. Việc
hỗ trợ quyết định thường đòi hỏi dữ liệu hợp nhất từ nhiều nguồn dữ liệu hỗn
tạp: những nguồn dữ liệu này có thể là các nguồn dữ liệu mở rộng và một số cơ
sở dữ liệu tương tác. Các nguồn khác nhau có chất lượng dữ liệu khác nhau,
hoặc sử dụng các đại diện, mã hoá và định dạng trái ngược với nhau.
Ngoài ra, việc hỗ trợ các mô hình dữ liệu nhiều chiều và các thao tác cơ
bản của OLAP (mở rộng mức độ tổ hợp, thu nhỏ mức độ tổ hợp hoặc mở rộng
chi tiết) yêu cầu cách tổ chức dữ liệu, các phương pháp truy cập dữ liệu cũng
Tạ Liên Dung - K10T3
11
Kho dữ liệu chuyển vốn Nội bộ tại BIDV
như các phương pháp cài đặt cụ thể, đặc biệt khác với mục đích thương mại của
OLTP. Đó là những lý do mà kho dữ liệu khác biệt hoàn toàn so với cơ sở dữ
liệu quan hệ.
3. Chợ dữ liệu (Data Mart)
Do việc xây dựng một kho dữ liệu doanh nghiệp chiếm nhiều thời gian và
phức tạp, có thể kéo dài nhiều năm và khá tốn kém. Một số tổ chức đang sắp xếp
sử dụng các chợ dữ liệu (data mart) thay cho kho dữ liệu.
Chợ dữ liệu (data mart) là nơi chứa dữ liệu được tập hợp từ các dữ liệu thao
tác và các nguồn dữ liệu khác được thiết kế để phục vụ cho một nhóm công
nhân tri thức (knowledge workers). Dữ liệu có thể được lấy từ một cơ sở dữ liệu
doanh nghiệp lớn hoặc một kho dữ liệu hoặc một nguồn cụ thể và nạp vào chợ
dữ liệu. Chợ dữ liệu đặc biệt chú trọng tới các yêu cầu đặc thù của một nhóm
người sử dụng tri thức cụ thể theo các lĩnh vực phân tích, nội dung, cách thể
hiện và tính dễ sử dụng. Những người sử dụng chợ dữ liệu có thể muốn thể hiện
dữ liệu một cách thân thiện hơn.
Trên thực tế, chợ dữ liệu là một phiên bản đặc biệt của kho dữ liệu. Hầu hết
các nhà khoa học nhất trí rằng thiết kế của chợ dữ liệu nghiên về hướng khởi
động từ một phân tích nhu cầu của người sử dụng và thiết kế của kho dữ liệu
thiên về phân tích những dữ liệu nào đã tồn tại và cách thức nó được tập hợp lại
theo một thể thống nhất ra sao. Nhìn chung, một kho dữ liệu có tính chiến lược
nhưng thỉnh thoảng vẫn có những khái niệm không kết thúc; một chợ dữ liệu có
tính chiến lược và nhắm đến việc đáp ứng những nhu cầu trước mắt.
Giống như DWH, chợ dữ liệu cũng chứa một ảnh chụp của dữ liệu thao tác
nhằm giúp các nhà kinh doanh xây dựng các chiến lược dựa trên việc phân tích
các xu hướng và kinh nghiệm trong quá khứ. Điểm khác biệt chủ yếu là chợ dữ
liệu được tạo ra dựa trên các nhu cầu đặc thù được định nghĩa trước của một
nhóm dữ liệu được lựa chọn. Một cấu hình chợ dữ liệu nhấn mạnh đến tính dễ
truy cập thông tin có liên quan.
Một tổ chức có thể có nhiều chợ dữ liệu, mỗi chợ dữ liệu có thể được thiết
kế cho một hoặc nhiều đơn vị kinh doanh. Một chợ dữ liệu có thể độc lập hoặc
phụ thuộc vào các chợ dữ liệu khác trong tổ chức.
Tạ Liên Dung - K10T3
12
Kho dữ liệu chuyển vốn Nội bộ tại BIDV
Các lý do mà chợ dữ liệu được sử dụng thay cho kho dữ liệu:
- Dễ truy cập tới các dữ liệu cần thiết một cách thường xuyên
- Một nhóm người sử dụng có thể tạo ra một khung nhìn chung
- Cải tiến thời gian đáp lại người dùng cuối
- Dễ cài đặt
- Chi phí thấp hơn cài đặt một kho dữ liệu đầy đủ
- Người dùng tiềm năng được định nghĩa rõ ràng hơn so với kho dữ liệu
đầy đủ.
4. Kiến trúc của một Kho dữ liệu
Kiến trúc tham chiếu của một kho dữ liệu cho phép người xây dựng và
người khai thác có cái nhìn tổng quát về các bộ phận cấu thành nên kho dữ liệu.
Hình 1 thể hiện kiến trúc cơ bản của một kho dữ liệu.
Các nguồn
khác
Cơ sở dữ liệu
thao tác
Metadata
Rút trích
Chuyển đổi
Nạp
Làm mới
Theo dõi
và tích hợp
OLAP Server
Serve
Kho dữ liệu
Phân tích
Truy vấn
Báo cáo
Khai thác dữ liệu
Chợ dữ liệu
Các nguồn dữ liệu
Lƣu trữ dữ liệu
OLAP Engine
Các công cụ đầu cuối
Hình 1. Kiến trúc cơ bản của kho dữ liệu
Các thành phần của kho dữ liệu được thể hiện trên Hình 1 bao gồm:
Tạ Liên Dung - K10T3
13
Kho dữ liệu chuyển vốn Nội bộ tại BIDV
- Các nguồn dữ liệu: Các nguồn dữ liệu có thể là các cơ sở dữ liệu thao tác,
hoặc các nguồn khác.
- Thành phần lưu trữ dữ liệu: Sau khi dữ liệu được rút trích và nạp vào kho
dữ liệu, nó sẽ được đặt ở thành phần lưu trữ dữ liệu.
- OLAP Engine: Dữ liệu được tổng hợp và đưa vào các OLAP Engine dưới
dạng bảng nhiều chiều để tiện cho người sử dụng khai thác.
- Các công cụ đầu cuối: Người sử dụng có thể khai thác thông tin thông qua
các công cụ đầu cuối
Ngoài ra, ta thấy các thao tác cơ bản được thực hiện trong kho dữ liệu là:
- Rút trích
- Chuyển đổi
- Nạp
- Làm mới
- Khai thác dữ liệu
Việc nắm vững cấu trúc khối và lớp cho phép ta linh hoạt trong việc triển
khai các hệ thống DWH trên thực tế. Tuỳ nhu cầu và khả năng tài chính, chúng
ta có thể xuất phát từ việc xây dựng các kho dữ liệu cục bộ (các Datamart) trước
để có thể khai thác ngay số liệu theo từng chủ đề. Một cách xây dựng khác là tổ
chức kho dữ liệu tổng thể trước, sau đó sẽ tổ chức các Datamart. Mỗi phương án
đều có những ưu điểm và nhược điểm riêng. Trên thực tế, tuỳ điều kiện cụ thể,
chúng ta có thể chọn giải pháp triển khai thích hợp.
Ngoài ra, các DWH trên từng lĩnh vực khác nhau cũng có nhiều đặc điểm
riêng do mỗi lĩnh vực có đặc thù dữ liệu riêng.
II. CÁC THÀNH PHẦN CỦA KHO DỮ LIỆU
Hình 1 thể hiện cấu trúc cơ bản của kho dữ liệu, ở phần này, tôi xin trình
bày cụ thể các thành phần, các tiến trình cơ bản của kho dữ liệu.
Tạ Liên Dung - K10T3
14
Kho dữ liệu chuyển vốn Nội bộ tại BIDV
1. Rút trích dữ liệu (ETL – Extract Transformation Loading)
Tiến trình ETL trong kho dữ liệu gồm có 3 bước chính: trích dữ liệu từ các
nguồn dữ liệu bên ngoài (Extract), chuyển đổi nó cho phù hợp với yêu cầu của
công việc (Transform), sự chuyển đổi này có nhiều mức độ khác nhau và không
cố định (ultimately), và cuối cùng là nạp dữ liệu vào nơi chứa cuối cùng - chẳng
hạn kho dữ liệu (Load).
Cơ sở dữ liệu
ORACLE
Cơ sở dữ liệu
DB2
MS
SQLSERVER
Tầng Rút
trích dữ liệu
(ETL)
Kho dữ liệu
Các loại
CSDL khác
Hình 2. Module rút trích dữ liệu
ETL phần cốt lõi của kho dữ liệu, nó cho phép lấy dữ liệu từ các nguồn
khác nhau như tệp excel, tệp *.dbf, tệp *.mdb… theo các tiêu chí cần thiết để
đưa về một chuẩn chung. Module Rút trích dữ liệu được mô tả trong Hình 2.
Mỗi kho dữ liệu của các hãng khác nhau có một công cụ ETL riêng, đặc thù của
hãng đó, nhưng dù có đặc thù như thế nào đi chăng nữa thì ETL phải đáp ứng
được các yêu cầu sau:
- Lấy được dữ liệu từ mọi định dạng khác nhau.
- Đưa dữ liệu về định dạng chung
- Dễ dàng chỉnh sửa hoặc bổ sung các tiêu chí lấy dữ liệu
Thực vậy, hai tiêu chí đầu là bắt buộc đối với tất cả các công cụ ETL, nếu
không thoả mãn được hai tiêu chí này, dữ liệu trong kho sẽ không đầy đủ, không
đáp ứng được các tiêu chí do người sử dụng đặt ra, do đó kho dữ liệu sẽ không
thể tồn tại. Tiêu chí thứ ba có tính chất định tính, do đó, tùy theo nhà cung cấp,
mỗi công cụ ETL cho phép mức độ chỉnh sửa hoặc bổ sung các tiêu chí lấy dữ
Tạ Liên Dung - K10T3
15
Kho dữ liệu chuyển vốn Nội bộ tại BIDV
liệu khác nhau đối với người sử dụng. Tuy nhiên, để có thể chỉnh sửa hoặc bổ
sung các tiêu chí này, người sử dụng cũng phải nắm vững nghiệp vụ và phải
được đào tạo kỹ về các cấu trúc logic của công cụ ETL.
Module ETL là cấu phần quan trọng trong mô hình Kho dữ liệu, sự tối ưu
hoá module này giúp cho các báo cáo của kho dữ liệu có thông tin đúng đắn,
không bị dư thừa dữ liệu, tốc độ xử lý của kho ổn định, thời gian xử lý ngắn.
Ta sẽ đi sâu phân tích các cấu phần của ETL.
a. Trích dữ liệu - Extract
Cấu phần đầu tiên của ETL là trích dữ liệu từ các nguồn dữ liệu khác nhau.
Hầu hết các kho dữ liệu đều phải lấy dữ liệu từ nhiều nguồn dữ liệu có định
dạng hoặc tổ chức khác nhau. Hầu hết các nguồn dữ liệu thông thường đều ở
dạng cơ sở dữ liệu quan hệ hoặc các cơ sở dữ liệu "phẳng" (không có quan hệ
giữa các bản ghi và các bảng) còn gọi là flat files database, nhưng cũng có thể
chứa các cấu trúc cơ sở dữ liệu như IMS hoặc các cấu trúc dữ liệu khác chẳng
hạn như VSAM hoặc ISAM. Quá trình trích dữ liệu sẽ chuyển đổi dữ liệu từ các
nguồn trên thành một định dạng chung để sử dụng trong quá trình chuyển đổi dữ
liệu (transformation).
b. Chuyển đổi dữ liệu - Transform
Quá trình chuyển đổi dữ liệu áp dụng một loạt các quy tắc hoặc các hàm
cho các dữ liệu đã được trích ở bước trước, sau đó nó chuyển dữ liệu trên cho
quá trình nạp dữ liệu tới đích định trước, trong thực tế, quá trình chuyển đổi
chính là quá trình làm sạch dữ liệu. Một số nguồn dữ liệu không đòi hỏi hoặc
đòi hỏi rất ít thao tác của dữ liệu. Trong các trường hợp khác, để đáp ứng các
yêu cầu về mặt kỹ thuật hoặc nghiệp vụ thì quá trình chuyển đổi dữ liệu có thể
thực hiện các tác vụ sau:
- Chỉ chọn một số cột nhất định, hoặc không chọn các cột null cho quá trình
nạp.
- Chuyển đổi mã hoá các giá trị (ví dụ: trong dữ liệu nguồn, ở cột giới tính,
người ta sử dụng 1 đại diện cho nam, 2 đại diện cho nữ, nhưng trong kho dữ liệu
người tại lại sử dụng M cho giới tính nam, F cho giới tính nữ), quá trình này gọi
Tạ Liên Dung - K10T3
16
Kho dữ liệu chuyển vốn Nội bộ tại BIDV
là tự động làm sạch dữ liệu. Trong suốt quá trình ETL, không có sự can thiệp
làm sạch dữ liệu thủ công.
- Mã hoá các giá trị ở dạng "tự do" (nhập text). Chuyển các giá trị tự do này
về các giá trị quy định.
- Tạo ra các giá trị tính toán dựa trên các trường có sẵn, ví dụ thành tiền =
đơn giá x số lượng.
- Liên kết các dữ liệu với nhau từ các nguồn. VD: trong Excel có các
trường giá trị được tính toán bằng các công thức lookup, merge... thì phải tính
lại các giá trị thực của trường đó.
- Tính tổng của các dòng dữ liệu. (vd: tính tổng doanh số của mỗi nhân
viên bán hàng, ...)
- Tạo ra các giá trị khoá surrogate - khoá này là giá trị định danh duy nhất
của các thực thể mô hình hoặc các đối tượng trong CSDL.
- Chuyển đổi dữ liệu theo chiều ngang hoặc dọc.
- Tách dữ liệu từ một cột thành nhiều cột. (Vd: họ tên tách rời thành họ, họ
đệm, tên...)
- Ngoài ra, quá trình chuyển đổi dữ liệu có thể áp dụng một hoặc tổ hợp các
quy tắc chuẩn hoá dữ liệu trên để chuyển đổi dữ liệu cho phù hợp.
c. Nạp dữ liệu (Load)
Sau khi rút trích, làm sạch và chuyển đổi, dữ liệu phải được nạp vào kho dữ
liệu. Quá trình này có thể cần phải có một tiến trình tiền xử lý: kiểm tra tính ràng
buộc toàn vẹn, sắp xếp, tính tổng và các tính toán khác để xây dựng các bảng kết
quả tính toán được lưu trữ trong kho dữ liệu; xây dựng chỉ mục và các đường
dẫn truy cập khác; và phân nhỏ thành nhiều vùng lưu trữ đích. Tiêu biểu là các
ứng dụng nạp theo lô được sử dụng cho mục đích này. Ngoài ra, để đưa dữ liệu
vào trong kho, một ứng dụng nạp phải cho phép quản trị hệ thống theo dõi trạng
thái, hủy, treo và tiếp tục tiến trình nạp, đồng thời cho phép khởi động lại tiến
trình nếu bị lỗi mà không mất toàn vẹn dữ liệu.
Tạ Liên Dung - K10T3
17
Kho dữ liệu chuyển vốn Nội bộ tại BIDV
Ứng dụng nạp của kho dữ liệu phải đối đầu với lượng dữ liệu rất lớn (lớn
hơn nhiều so với dữ liệu của cơ sở dữ liệu thao tác). Chỉ có một khoảng thời
gian nhỏ (thường là về đêm) để nạp dữ liệu, thường là vào ban đêm, khi kho dữ
liệu offline để làm mới dữ liệu. Việc nạp dữ liệu liên tiếp có thể mất nhiều thời
gian, ví dụ như nạp một terabyte dữ liệu có thể mất hàng tuần hoặc hàng tháng!
Hơn nữa, Việc nạp có thể ứng dụng theo hình thức tuần tự hoặc song song. Việc
nạp toàn bộ dữ liệu có một lợi ích là nó có thể được xử lý như một giao dịch lô
lớn, nó sẽ xây dựng một cơ sở dữ liệu mới. Trong khi hệ thống đang thực hiện
việc nạp dữ liệu trên cơ sở dữ liệu mới này, cơ sở dữ liệu hiện tại vẫn hỗ trợ các
truy vấn; khi thao tác nạp thành công, cơ sở dữ liệu hiện tại được thay thế bởi cơ
sở dữ liệu mới. Việc sử dụng các điểm kiểm tra định kỳ đảm bảo rằng nếu có lỗi
xảy ra trong quá trình nạp, quá trình có thể được bắt đầu lại từ điểm kiểm tra
cuối cùng.
Tuy nhiên, thậm chí khi sử dụng phương pháp nạp song song, một quá
trình nạp đầy đủ có thể vẫn mất rất nhiều thời gian. Hầu hết các ứng dụng
thương mại sử dụng việc nạp bổ sung trong quá trình làm mới dữ liệu để giảm
thiểu khối lượng dữ liệu phải đưa vào kho dữ liệu. Chỉ những dữ liệu cập nhật
mới được bổ sung vào kho. Tuy nhiên, quá trình nạp hiện tại khá khó quản lý.
Việc nạp bổ sung thường hay xung đột với các truy vấn đang được thực hiện, vì
thế nó được xử lý như một chuỗi các giao dịch ngắn tuần tự (áp dụng xác nhận
liên tục, ví dụ: sau mỗi 1000 bản ghi hoặc một ít bản ghi lại xác nhận một lần),
nhưng hiện tại chuỗi giao dịch tuần tự này được sử dụng kết hợp để đảm bảo
tính nhất quán của dữ liệu tính toán và chỉ mục với dữ liệu gốc.
d. Làm mới dữ liệu
Làm mới dữ liệu bao gồm việc cập nhật lan truyền trên dữ liệu nguồn, do
đó cập nhật trên dữ liệu cơ bản và dữ liệu tính toán được lưu trữ trong kho. Có
hai nhóm vấn đề cần phải quyết định: khi nào phải làm mới dữ liệu và làm mới
dữ liệu như thế nào. Thông thường, kho dữ liệu được làm mới theo định kỳ (ví
dụ: hàng ngày hoặc hàng tuần). Chỉ khi các truy vấn OLAP cần dữ liệu mới nhất
(ví dụ: số lượng hàng hoá trong kho tính đến thời điểm truy vấn, chính xác đến
từng phút), ta cần phải lan truyền mọi cập nhật. Chính sách làm mới dữ liệu
được thiết lập bởi người quản trị kho dữ liệu, dựa trên các yêu cầu của người sử
dụng và có thể khác nhau đối với các nguồn dữ liệu khác nhau.
Tạ Liên Dung - K10T3
18
Kho dữ liệu chuyển vốn Nội bộ tại BIDV
Các kỹ thuật làm mới dữ liệu cũng dựa trên đặc thù của dữ liệu nguồn và
khả năng chứa của máy chủ cơ sở dữ liệu. Việc rút trích tệp hoặc cơ sở dữ liệu
hiện tại thường có chi phí cao, nhưng có thể là chọn lựa duy nhất đối với các
nguồn dữ liệu di sản. Hầu hết các hệ thống cơ sở dữ liệu đương thời đều cung
cấp các máy chủ thứ bản (replication) để hỗ trợ các kỹ thuật bổ sung cho các cập
nhật lan truyền từ một cơ sở dữ liệu chính tới một hoặc nhiều bản sao. Những
máy chủ thứ bản như vậy có thể được sử dụng để làm mới bằng cách bổ sung dữ
liệu cho kho khi dữ liệu nguồn thay đổi. Có hai kỹ thuật sao chép cơ bản:
chuyển giao dữ liệu và chuyển giao giao dịch.
Ở kỹ thuật chuyển giao dữ liệu (ví dụ, được sử dụng trong máy chủ thứ bản
Oracle, Praxic OmniReplicator), một bảng trong kho dữ liệu được xử lý như một
ảnh chụp từ xa của một bảng trong cơ sở dữ liệu nguồn. Các trigger after_row
được sử dụng để cập nhật một bảng log ảnh khi bảng nguồn thay đổi; và một
lịch tự động làm mới (hoặc một thủ tục làm mới) sẽ được thiết lập để lan truyền
dữ liệu đã cập nhật tới ảnh ở xa.
Ở kỹ thuật chuyển giao giao dịch, log giao dịch chính qui được sử dụng
thay cho các trigger và một bảng log ảnh đặc biệt. Tại địa chỉ nguồn, log giao
dịch được sử dụng để phát hiện các cập nhật trên các bảng được sao chép, và
những bản ghi log này được chuyển cho một máy chủ thứ bản, tại đây các giao
dịch tương ứng được đóng gói để cập nhật các bản sao. Chuyển giao giao dịch
có lợi là nó không đòi hỏi sử dụng các trigger mà thường có thể làm tăng tải trên
cơ sở dữ liệu thao tác nguồn. Tuy nhiên, ta không thể luôn sử dụng dễ dàng
phương thức này trên các hệ quản trị cơ sở dữ liệu của các hãng khác nhau, vì
không có API chuẩn nào để truy cập log giao dịch. Những máy chủ thứ bản như
vậy được sử dụng để làm mới kho dữ liệu. Ngoài ra chu trình làm mới dữ liệu
cũng thường được lựa chọn sao cho lượng dữ liệu không làm quá tải tiện ích nạp
bổ sung.
Ngoài các thay đổi lan truyền từ dữ liệu cơ bản trong kho, dữ liệu tính toán
cũng được cập nhật tương ứng. Vấn đề xây dựng các cập nhật chuẩn logic để
cập nhật bổ sung dữ liệu tính toán (các khung nhìn vật chất hoá) là chủ đề của
nhiều nghiên cứu. Đối với kho dữ liệu, các lớp quan trọng nhất của dữ liệu tính
toán là các bảng tổng cộng, các chỉ mục bảng đơn và chỉ mục kết nối.
Tạ Liên Dung - K10T3
19
Kho dữ liệu chuyển vốn Nội bộ tại BIDV
2. Tổng hợp, phân tích dữ liệu và tạo Kho dữ liệu OLAP
Từ dạng dữ liệu nguồn ban đầu, sau khi được rút trích, dữ liệu được lưu trữ
dưới dạng dữ liệu thuần nhất và được phân tích, tổng hợp lại để tạo ra các báo
cáo nhiều chiều (multi dimensions) - kho dữ liệu OLAP. Module tổng hợp phân
tích dữ liệu được thể hiện như Hình 3.
Kho dữ liệu
Tầng phân
tích, tổng
hợp dữ liệu
và tạo báo
cáo nhiều
chiều
Kho dữ liệu
OLAP
Hình 3. Module tổng hợp, phân tích dữ liệu và tạo báo cáo nhiều chiều
Một trong những ưu điểm nổi bật của kho dữ liệu là tạo được các báo cáo
đa chiều. Công cụ để tạo được các báo cáo nhiều chiều này chính là OLAP
(Online Analytical Processing). Hầu hết các hệ quản trị cơ sở dữ liệu lớn như
DB2, MSSQL của Microsoft, Oracle của hãng Oracle... đều xây dựng công cụ
cơ sở dữ liệu OLAP.
Online Analytical Processing viết tắt là OLAP cho phép trả nhanh các truy
vấn phân tích mà trên thực tế là phải dựa vào nhiều chiều dữ liệu mới trả lời
được. OLAP được ứng dụng chủ yếu trong các lĩnh vực báo cáo bán hàng,
marketing, báo cáo điều hành, báo cáo budgeting và dự đoán, báo cáo tài chính
và các lĩnh vực tương tự.
Cơ sở dữ liệu OLAP hơi có khác biệt so với cơ sở dữ liệu xử lý giao dịch
trực tuyến thông thường (OLTP). Cơ sở dữ liệu OLAP có mô hình dữ liệu nhiều
chiều cho phép xử lý các truy vấn ad-hoc và truy vấn phân tích phức tạp trong
thời gian rất nhanh. Đầu ra của cơ sở dữ liệu OLAP thường được thể hiện ở
dạng ma trận hoặc pivot. Các chiều của cơ sở dữ liệu OLAP được thể hiện ở
dạng dòng và cột của ma trận, các đơn vị đo (measures), các giá trị.
Tạ Liên Dung - K10T3
20
Kho dữ liệu chuyển vốn Nội bộ tại BIDV
Bất kỳ hệ thống cơ sở dữ liệu OLAP nào cũng đều chứa một OLAP cube
hay còn gọi là cube nhiều chiều (multidimensional cube) hay hypercube. Nó bao
gồm một số yếu tố gọi là measures - được thể hiện thành dimension (chiều).
Siêu dữ liệu cube thường được tạo thành từ các bảng trong một cơ sở dữ liệu
quan hệ, các bảng này có dạng sơ đồ hình sao hoặc sơ đồ hình bông tuyết. Các
measure được tạo thành từ các bản ghi trong fact table và các dimensions được
tạo thành từ các bảng dimension.
Nhiều khảo sát chỉ ra rằng đối với các câu lệnh truy vấn phức tạp, các
OLAP cube có thể trả về câu trả lời trong một khoảng thời gian chỉ bằng 0.1%
so với các cơ sở dữ liệu quan hệ OLTP. Cơ chế đơn độc quan trọng nhất trong
OLAP cho phép nó đạt được hiệu quả như vậy là cách sử dụng các tập hợp
(aggregations). Các tập hợp này được xây dựng từ các bảng nhân tố (fact table)
bằng cách thay đổi các tính chất chủ chốt của các dimension đặc trưng và tập
hợp dữ liệu theo những dimension này. Số lượng các tập hợp thích hợp được
quyết định bởi từng tổ hợp thích hợp của các dimension.
Cơ sở dữ liệu OLAP thông thường sẽ có các dạng sau:
a. Dạng nhiều chiều (Multidimensional) - MOLAP
MOLAP là dạng 'truyền thống' của OLAP và đôi khi người ta coi nó là
OLAP. MOLAP thường sử dụng cấu trúc dữ liệu tối ưu đối với các thuộc tính
như khoảng thời gian, địa điểm, sản phẩm hoặc mã tài khoản. Cách thức mà mỗi
dimension sẽ được tập hợp sẽ được xác định trước theo một hoặc nhiều cấp bậc.
b. Dạng quan hệ (relational) - ROLAP
ROLAP làm việc trực tiếp với các cơ sở dữ liệu quan hệ. Các bảng dữ liệu
cơ bản và các bảng dimension được lưu trữ như các bảng quan hệ. Các bảng mới
được tạo ra để lưu trữ các thông tin tập hợp. ROLAP phụ thuộc vào thiết kế sơ
đồ xác định.
c. Dạng lai (Hybird) - HOLAP
HOLAP là một dạng database sử dụng kết hợp cả hai cách lưu trữ dữ liệu
quan hệ và lưu trữ dữ liệu đặc thù. Hiện tại các chuyên gia tin học trên thế giới
vẫn không thống nhất về cách định nghĩa của HOLAP.
Tạ Liên Dung - K10T3
21
- Xem thêm -