0
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
LUẬN VĂN THẠC SỸ
PHÁT HIỆN LUẬT KẾT HỢP NHIỀU CHIỀU
MỜ TỪ CƠ SỞ DỮ LIỆU ĐỊNH LƯỢNG
Học viên: Nguyễn Thị Thanh Huyền
Người hướng dẫn khoa học: Ts. Đỗ Văn Thành
4/2006
1
MỤC LỤC
Bảng từ viết tắt ................................................................................................. 3
Danh mục bảng biểu ........................................................................................ 4
Danh mục hình vẽ............................................................................................. 6
MỞ ĐẦU .......................................................................................................... 7
Chương 1
TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU NHIỀU CHIỀU ........... 10
1.1 Tại sao phải xây dựng kho dữ liệu? ......................................................... 10
1.2 Khái niệm kho dữ liệu – Data Warehouse .............................................. 11
1.3 Mục đích của kho dữ liệu ........................................................................ 13
1.4 Đặc điểm của kho dữ liệu........................................................................ 14
1.5. Mô hình của Kho dữ liệu (DW)............................................................... 18
1.5.1. Các khái niệm cơ bản........................................................................... 18
1.5.2.Mô hình dữ liệu nhiều chiều.................................................................. 20
1.5.3. Sơ đồ cơ sở dữ liệu nhiều chiều ........................................................... 22
1.6. Kho dữ liệu chủ đề .................................................................................. 25
1.7. Phân bậc khái niệm................................................................................. 27
Kết luận .......................................................................................................... 29
Chương 2
PHÁT HIỆN LUẬT KẾT HỢP NHIỀU CHIỀU ........... 30
2.1. Mô hình hình thức của phát hiện luật kết hợp ........................................ 30
2.2. Phát hiện luật kết hợp nhiều chiều.......................................................... 33
2.2.1. Các khái niệm cơ bản........................................................................... 33
2.2.2. Biểu thức luật mẫu ............................................................................... 42
2.3. Các thuật toán phát hiện luật kết hợp nhiều chiều ................................. 50
2.3.1. Chuyển đổi mẫu.................................................................................... 50
2.3.2. Giai đoạn tìm tập các ứng cử viên ....................................................... 54
2
2.3.3. Giai đoạn tìm tập mục dữ liệu chuẩn phổ biến.................................... 63
Kết luận .......................................................................................................... 73
Chương 3
PHÁT HIỆN LUẬT KẾT NHIỀU CHIỀU MỜ ............ 74
3.1. Giới thiệu................................................................................................. 74
3.2. Phân loại CSDL nhiều chiều................................................................... 78
3.3. Phát hiện luật kết hợp từ CSDL nhiều chiều loại 2 ................................ 81
3.3.1. Các khái niệm cơ bản........................................................................... 81
3.3.2. Phát hiện luật kết hợp nhiều chiều mờ từ CSDL nhiều chiều mờ loại 2
........................................................................................................................ 86
3.4. Phát hiện luật kết hợp từ CSDL tác vụ nhiều chiều loại 3 ..................... 90
3.4.1. Chuyển CSDL nhiều chiều loại 3 về CSDL nhiều chiều mới............... 90
3.4.2. Các khái niệm cơ bản........................................................................... 95
3.4.3. Phát hiện luật kết hợp nhiều chiều mờ từ CSDL nhiều chiều mờ loại 3
........................................................................................................................ 97
Kết luận .......................................................................................................... 97
KẾT LUẬN ................................................................................................... 100
TÀI LIỆU THAM KHẢO .............................................................................. 102
3
Bảng từ viết tắt
Từ hoặc cụm từ
Viết
tắt
Tiếng anh
Cơ sở dữ liệu
CSDL
Database
Kho dữ liệu
DW
Data Warehouse
Xử lý phân tích trực tuyến
OLAP OnLine Analystical Processing
Xử lý giao dịch trực tuyến
OLTP
Hệ thống ứng dụng tác nghiệp OAS
Online Transaction Processing
Operational Application System
4
Danh mục bảng biểu
Bảng 1: Dữ liệu bán hàng của Công ty Điện tử theo 2 chiều thoi_gian và
mat_hang của chi nhánh bán hàng thuộc thành phố Hà nội. Các tiêu chuẩn
đánh giá là tong_so_ban (đơn vị triệu VNĐ). ............................................... 20
Bảng 2: Dữ liệu bán hàng của Công ty Điện tử được nhìn theo 3 chiều (3-D)
chiều thoi_gian, mat_hang và vi_tri. Tiêu chuẩn đánh giá là Tong_so_ban
(đơn vị triệu VNĐ).......................................................................................... 21
Bảng 3: CSDL tác vụ tại một cửa hàng ......................................................... 31
Bảng 4: Cơ sở dữ liệu tác vụ và được biểu diển dưới dạng bảng ................. 31
Bảng 5:CSDL tác vụ tại một siêu thị............................................................. 34
Bảng 6:CSDL tác vụ mở rộng tại một siêu thị sau khi chuyển đổi................ 36
Bảng 7: Tập ứng viên được đếm trong kế hoạch phát hiện phân biệt........... 56
Bảng 8: Ví dụ kết nối giữa U và V ................................................................. 58
Bảng 9: Các tập ứng viên được đếm trong kế hoạch phát hiện kết nối......... 59
Bảng 10: Thủ tục lập kế hoạch kết nối.......................................................... 61
Bảng 11: Thủ tục phát hiện phân biệt............................................................ 64
Bảng 12: CSDL của 1 công ty máy tính......................................................... 67
Bảng 13: Kế hoạch phát hiện phân biệt và kết hợp cho mẫu:
∆ 0 (∗), ∆1 (∗) → ∆ 2 (∗) ..................................................................................... 67
Bảng 14: Thuật toán phát hiện kết hợp.......................................................... 70
Bảng 15: sử dụng phương pháp rời rạc thuộc tính định lượng có số giá trị
nhỏ. ................................................................................................................. 74
Bảng 16: sử dụng phương pháp rời rạc thuộc tính định lượng có giá trị số. 75
Bảng 17: CSDL định lượng............................................................................ 77
Bảng 18: CSDL mờ ........................................................................................ 78
5
Bảng 19: CSDL nhiều chiều loại 2 ................................................................ 79
Bảng 20: CSDL nhiều chiều loại 3 ................................................................ 80
Bảng 21: CSDL nhiều chiều loại 4 ................................................................ 80
Bảng 22: CSDL nhiều chiều mờ loại 2 .......................................................... 83
Bảng 23:CSDL nhiều chiều mờ loại 2 mở rộng............................................. 84
Bảng 24:Bảng kí hiệu sử dụng trong thuật toán phát hiện luật kết hợp nhiều
chiều mờ ......................................................................................................... 86
Bảng 25: tập mục dữ liệu mờ mở rộng phổ biến có độ dài bằng 1 ............... 88
Bảng 26: tập mục dữ liệu mở rộng mờ phổ biến có độ dài là 2 .................... 89
Bảng 27: CSDL tác vụ nhiều chiều mờ loại 3................................................ 94
6
Danh mục hình vẽ
Hình 1: Luồng dữ liệu trong một tổ chức ...................................................... 12
Hình 2: Tích hợp dữ liệu ................................................................................ 15
Hình 3: Tích hợp dữ liệu ............................................................................... 15
Hình 4: Tính thời gian của dữ liệu................................................................. 17
Hình 5: Khối dữ liệu 3-D thể hiện cho dữ liệu của bảng 2 ........................... 21
Hình 6: Sơ đồ hình sao của DW bán hàng của Công ty Điện tử................... 23
Hình 7: Sơ đồ hình bông tuyết của DW bán hàng của Công ty Điện tử........ 24
Hình 8: Sơ đồ hình chòm sao sự kiện của DW bán hàng của Công ty Điện tử
........................................................................................................................ 25
Hình 9: Phân bậc khái niệm đối với chiều vi_tri........................................... 27
Hình 10: Cấu trúc dàn của các thuộc tính đối với chiều vi_tri trong DW Bán hàng
........................................................................................................................ 28
Hình 11: Đồ thị của CSDL trong bảng .......................................................... 34
Hình 12: Đồ thị hàm thành viên của các tập mờ: “Đường_tăng_thấp”,
“Đường_tăng_TB”, “Đường_tăng_cao”...................................................... 82
Hình 13: Đồ thị hàm thành viên của các tập mờ: “Sữa_tăng_thấp”,
“Sữa_tăng_TB”, “Sữa_tăng_cao”................................................................ 83
Hình 14: Khung lưới dựa trên việc phân hoạch 3 thuộc tính chiều .............. 90
Hình 15: Ví dụ về các phân hoạch mờ........................................................... 91
Hình 16: Định nghĩa các hàm thành viên cho các khoảng mờ...................... 93
7
MỞ ĐẦU
Vấn đề phát hiện luật kết hợp được quan tâm phát triển mạnh, hiện đã
trở thành một trong những khuynh hướng nghiên cứu và ứng dụng quan trọng
của khai phá dữ liệu (data mining). Việc phát hiện luật kết hợp nhằm tìm ra
các mối quan hệ giữa các thuộc tính dữ liệu trong cơ sở dữ liệu. Phát hiện luật
kết hợp đã được ứng dụng hiệu quả trong nhiều ngành kinh tế, khoa học, xã
hội như Thương mại, Tài chính, Ngân hàng, Y tế, Giáo dục, nghiên cứu môi
trường, ...
Để phát hiện luật kết hợp từ các cơ sở dữ liệu (CSDL), trước hết người
ta xây dựng các phương pháp nhằm phát hiện luật kết hợp từ các CSDL nhị
phân và sau đó phát triển thành phương pháp phát hiện luật kết hợp từ CSDL
định lượng bằng cách sử dụng kỹ thuật chia khoảng giá trị các thuộc tính
trong CSDL định lượng và đưa nó về CSDL nhị phân rồi ứng dụng thuật toán
phát hiện luật kết hợp từ CSDL nhị phân đã biết hoặc là sử dụng lý thuyết tập
mờ để chuyển CSDL định lượng thành CSDL mờ và cải tiến phát triển thuật
toán phát hiện luật kết hợp nhị phân cho phù hợp. Cách tiếp cận sau cùng
đang được quan tâm nhiều vì nó khắc phục được nhược điểm “thiếu tự nhiên”
và “quá cồng kềnh” của cách tiếp cận chia khoảng giá trị thuộc tính trong
CSDL định lượng. Luật kết hợp được phát hiện khi đó được gọi là luật kết
hợp mờ.
Tương tự như vậy để phát hiện luật kết hợp từ CSDL nhiều chiều (hay
Kho dữ liệu – Dataware house) trước hết người ta cũng xây dựng các phương
pháp nhằm phát hiện luật kết hợp từ các cơ sở dữ liệu nhiều chiều nhị phân và
nó được gọi là luật kết hợp nhiều chiều. Đến nay vấn đề phát hiện luật kết hợp
nhiều chiều cơ bản đã được giải quyết, trong khi các kết quả nghiên cứu đề
8
xuất phương pháp phát hiện luật kết hợp từ cơ sở dữ liệu nhiều chiều định
lượng còn rất hạn chế.
Luận văn này liên quan đến những vấn đề phát hiện luật kết hợp từ
CSDL nhiều chiều định lượng theo cách tiếp cận đang được quan tâm sử dụng
nhằm phát hiện luật kết hợp mờ từ cơ sở dữ liệu định lượng.
Cụ thể mục đích của luận văn này là:
Về mặt lý thuyết: luận văn trình bày một cách tổng quan một số vấn đề
về kho dữ liệu, phát hiện luật kết hợp từ CSDL nhị phân, phát hiện luật kết
hợp nhiều chiều từ CSDL định lượng và đề xuất kỹ thuật phát hiện luật kết
hợp nhiều chiều mờ từ các CSDL nhiều chiều định lượng bằng cách mờ hoá
chiều của CSDL.
Về mặt ứng dụng: Cung cấp một cách hệ thống một số khái niệm và kỹ
thuật để phát hiện luật kết hợp từ CSDL nhiều chiều và nhiều chiều định
lượng. Kỹ thuật được đề xuất trong luận văn sẽ góp phần để xây dựng chương
trình ứng dụng nhằm phát hiện luật kết hợp nhiều chiều mờ từ CSDL định
lượng.
Luận văn bao gồm phần mở đầu, 3 chương nội dung và phần kết luận
Chương 1 - Tổng quan về cơ sở dữ liệu nhiều chiều: Chương này bao
gồm các trang từ 10 đến 29, trình bày các kiến thức cơ bản về kho dữ liệu:
khái niệm, mục đích của việc xây dựng kho dữ liệu, đặc điểm, các loại kho dữ
liệu, mô hình trong kho dữ liệu, phân bậc khái niệm của chiều trong CSDL
nhiều chiều. Mục đích của chương là cung cấp các kiến thức cơ bản về kho dữ
liệu (hay CSDL nhiều chiều) để làm cơ sở cho các chương tiếp theo.
Chương 2 - Tổng quan về luật kết hợp tác vụ nhiều chiều: Từ trang 30
đến trang 73, sẽ trình bày các phương pháp phát hiện luật kết hợp nhiều chiều
9
từ CSDL tác vụ nhiều chiều nhị phân. Chương này giới thiệu thuật toán phát
hiện luật kết hợp tác vụ nhiều chiều: phân biệt và kết hợp.
Chương 3 - Phát hiện luật kết hợp nhiều chiều mờ từ CSDL định lượng.
Chương này gồm các trang từ trang 74 đến trang 99, trình bày phương pháp
phát hiện luật kết hợp nhiều chiều mờ. Trong chương này sẽ trình bày các
khái niệm: CSDL tác vụ nhiều chiều mờ, mục dữ liệu mờ mở rộng, cách tính
độ hỗ trợ cho các tập mục dữ liệu mờ mở rộng,… và đề xuất thuật toán phát
hiện luật kết hợp tác vụ nhiều chiều mờ và thuật toán phát hiện luật kết hợp
nhiều chiều mờ thu gọn
Phần kết luận: nêu lên những kết quả chủ yếu của luận văn và những
hạn chế trong việc giải quyết đề tài luận văn cùng với hướng phát triển tiếp
theo.
Tôi xin bày tỏ lòng kính trọng và biết ơn sâu sắc tới thầy Đỗ Văn
Thành - Trung tâm Thông Tin và Dự báo KT-XH Quốc Gia đã tận tình hướng
dẫn và giúp đỡ tôi hoàn thành bản luận văn.
Tôi cũng xin cảm ơn các thầy cô khoa Công nghệ Thông tin, Trường
Đại học Công Nghệ - Đại học Quốc Gia Hà Nội đã giúp tôi hoàn thành khoá
học.
10
Chương 1
TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU NHIỀU CHIỀU
1.1 Tại sao phải xây dựng kho dữ liệu?
Nhân loại đang sống trong thời đại của nền kinh tế tri thức. Mọi hoạt
động của con người muốn đạt hiệu quả cao, giành được thắng lợi trong thế
cạnh tranh gay gắt thì nhất thiết phải có những phương pháp để có được
những thông tin, tri thức có chất lượng cần thiết một cách nhanh chóng và kịp
thời. Thông tin có thể có được ở mọi nơi, mọi thời điểm và tồn tại ở nhiều
dạng khác nhau: âm thanh, hình ảnh, văn bản...
Việc áp dụng công nghệ thông tin vào thực tiễn sản xuất kinh doanh đã
mang lại những hiệu quả và lợi ích to lớn. Công nghệ ngày càng được phát
triển, hoàn thiện hơn để đáp ứng những yêu cầu ngày càng cao của thực tế
nghiên cứu, quản lý sản xuất và kinh doanh. Sự mở rộng qui mô áp dụng từ
những ứng dụng đơn lẻ đến các hệ thống thông tin cỡ lớn đã dẫn đến những
thành công vượt bậc trong kinh doanh. Các hệ thống thông tin từ chỗ chỉ giải
quyết những xử lý công việc hàng ngày đã tiến tới đáp ứng được những yêu
cầu ở mức độ cao hơn. Các nhà quản lý điều hành có thể biết được công việc
đang diễn ra như thế nào. Tuy nhiên việc xây dựng một hệ thống như thế vấp
phải một số hạn chế về mặt kỹ thuật, đặc biệt là khi kích thước cũng như độ
phức tạp của hệ thống thông tin tăng lên. Những hệ thống thông tin xây dựng
theo phương pháp truyền thống chưa đáp ứng được yêu cầu của người sử
dụng và các nhà quản lý hệ thống thông tin.
Khắc phục những hạn chế nêu trên là công việc rất phức tạp bởi vì dữ
liệu ngày một nhiều, lưu trữ phân tán ở nhiều dạng không tương thích với
nhau, thậm chí còn ở những dạng phi cấu trúc. Nhiều hệ CSDL đã được xây
dựng không tương thích với nhau và không tương thích với những hệ thông
tin mới được xây dựng. Một vấn đề đặt ra là làm thế nào để tổ chức, khai thác
11
được những khối lượng dữ liệu khổng lồ và đa dạng từ những hệ thống thông
tin đã được xây dựng ?
Có một số vấn đề tồn tại chủ yếu của hệ thống thông tin:
1. Phát triển chương trình trên các Hệ thống thông tin khác nhau là không
đơn giản
Một chức năng có thể được thể hiện ở rất nhiều chương trình, nhưng
việc tổ chức và sử dụng lại nó là rất khó khăn do hạn chế về kỹ thuật. Việc
chuyển đổi dữ liệu từ các khuôn dạng tác nghiệp khác nhau để phù hợp với
người sử dụng là phức tạp.
2. Duy trì những chương trình này gặp rất nhiều vấn đề:
Mỗi thay đổi ở một ứng dụng sẽ ảnh hưởng đến tất cả các ứng dụng
khác có quan hệ với nó. Nhưng thông thường sự phụ thuộc lẫn nhau giữa các
chương trình không rõ ràng hoặc không xác định được.
3. Khối lượng dữ liệu lưu trữ tăng rất nhanh: do không kiểm soát được khả
năng chồng chéo dữ liệu trong các hệ thống thông tin.
4. Quản trị dữ liệu phức tạp: do thiếu những định nghĩa chuẩn, thống nhất về
dữ liệu dẫn đến việc mất khả năng kiểm soát đồng thời nhiều hệ thống thông
tin và một thành phần dữ liệu có thể tồn tại ở nhiều nguồn khác nhau
Giải pháp cho tất cả các vấn đề tồn tại nêu trên chính là xây dựng một
kho dữ liệu (Data Warehouse).
1.2 Khái niệm kho dữ liệu – Data Warehouse
Định nghĩa: Kho dữ liệu (Data Warehouse - DW) được hiểu là bộ dữ
liệu có giá trị lịch sử, theo chuỗi thời gian, được tích hợp và định hướng vào
từng chủ đề nhằm hỗ trợ quá trình ra quyết định trong quản lý .[4]
Kho dữ liệu thường rất lớn tới hàng trăm GigaByte hay thậm chí hàng
Terabyte.
12
Kho dữ liệu được xây dựng để thuận lợi cho việc truy cập dữ liệu theo
nhiều nguồn được phát triển dựa trên nhiều hệ quản trị CSDL khác nhau sao
cho có thể kết hợp được cả những ứng dụng của các công nghệ hiện đại và kế
thừa được từ những hệ thống đã có sẵn từ trước. Dữ liệu phát sinh từ các hoạt
động hàng ngày và được thu thập xử lí để phục vụ công việc kinh doanh cụ
thể của một tổ chức thường được gọi là dữ liệu tác nghiệp (operational data)
và hoạt động thu thập xử lí loại dữ liệu này được gọi là xử lí giao dịch trực
tuyến (On_line Transaction Processing - OLPT). Ngược lại, kho dữ liệu phục
vụ cho việc phân tích với kết quả mang tính thông tin cao. Các hệ thống thông
tin thu thập xử lí dữ liệu loại này còn được gọi là hệ xử lí phân tích trực tuyến
(On_Line Analytical Processing - OLAP).
Nói cách khác, kho dữ liệu là một tập hợp các CSDL rất lớn tới hàng
trăm Gigabyte hay thậm chí hàng Tera byte dữ liệu từ nhiều phân hệ của hệ
thống, lưu trữ và phân tích phục vụ cho việc cung cấp các dịch vụ thông tin
liên quan tới các hoạt động sản xuất, kinh doanh một tổ chức, cơ quan hay
doanh nghiệp.
Dòng dữ liệu trong một tổ chức (cơ quan, doanh nghiệp, công ty, v.v.)
có thể mô tả khái quát như sau:
CSDL tác nghiệp
Hệ thống
thông tin
cũ
Kho dữ liệu
(dữ liệu lịch sử)
Dữ liệu chủ đề
Siêu dữ liệu
Hình 1: Luồng dữ liệu trong một tổ chức
Kho dữ liệu cá
nhân
13
Dữ liệu cá nhân (Personal Data) không thuộc phạm vi quản lý của hệ
quản trị kho dữ liệu. Nó chứa các thông tin được trích xuất từ các hệ thống dữ
liệu tác nghiệp, kho dữ liệu và từ những kho dữ liệu chủ đề liên quan bằng các
phép gộp, tổng hợp hay xử lý bằng một cách nào đó.
1.3 Mục đích của kho dữ liệu
Mục tiêu chính của kho dữ liệu là nhằm đáp ứng các tiêu chuẩn cơ bản:
1. Đáp ứng mọi yêu cầu về thông tin của người sử dụng.
2. Tích hợp dữ liệu và các siêu dữ liệu từ nhiều nguồn khác nhau.
3. Phục vụ phân tích phát hiện tri thức mới từ dữ liệu:
a. Hỗ trợ để các nhân viên của tổ chức thực hiện tốt, hiệu quả công
việc của mình như: có những quyết định hợp lý, nhanh và chính
xác.
4. Hỗ trợ tổ chức xây dựng chiến lược, kế hoạch hoạt động sản xuất,
kinh doanh hiệu quả.
Để đạt được những yêu cầu trên, khi xây dựng DW cần chú ý:
•
Nâng cao chất lượng dữ liệu bằng các phương pháp làm sạch và tinh
lọc dữ liệu theo những hướng chủ đề nhất định
•
Tổng hợp và kết hợp dữ liệu
•
Đồng bộ hoá các nguồn dữ liệu với DW
•
Phân định và đồng nhất các hệ quản trị cơ sở dữ liệu tác nghiệp như
là các công cụ chuẩn để phục vụ cho DW.
•
Quản lí siêu dữ liệu
•
Cung cấp thông tin được tích hợp, tóm tắt hoặc được liên kết, tổ chức
theo các chủ đề
14
•
DW được sử dụng trong các hệ thống hỗ trợ quyết định (Decision
suport system - DSS), hỗ trợ cho các truy vấn đặc biệt.
1.4 Đặc điểm của kho dữ liệu
Kho dữ liệu (DW) có những tính chất cơ bản sau [3],[4]:
1.4.1. Tính tích hợp (Integration)
Dữ liệu trong DW được tổ chức theo nhiều cách khác nhau sao cho phù
hợp với các qui ước đặt tên, thống nhất về số đo, cơ cấu mã hoá và cấu trúc
vật lý của dữ liệu, v.v. Một DW là một khung nhìn thông tin mức toàn doanh
nghiệp, thống nhất các khung nhìn khác nhau thành một khung nhìn theo một
chủ điểm nào đó. Ví dụ hệ thống OLTP (xử lí giao dịch trực tuyến) truyền
thống được xây dựng trên một vùng kinh doanh, một hệ thống bán hàng và
một hệ thống marketing có thể có chung một dạng thông tin về khách hàng,
nhưng các vấn đề về tài chính có thể cần một khung nhìn khác cho thông tin
về khách hàng. Một DW sẽ có một khung nhìn toàn thể về một khách hàng.
Khung nhìn đó bao gồm các phần dữ liệu khác nhau từ tài chính và
marketing.
Tính tích hợp thể hiện ở chỗ: Dữ liệu tập hợp trong kho dữ liệu được thu
thập từ nhiều nguồn và trộn ghép với nhau tạo thành một thể thống nhất.
Ví dụ: Dữ liệu từ những chương trình ứng dụng thực hiện trên các CSDL
tác nghiệp được tích hợp lại theo cách mã hoá và số đo thống nhất như sau:
15
Sự tích hợp
Data Warehouse
CSDL tác nghiệp
Appl. A: m, f
m, f
Appl. B: 0, 1
Appl. C: male, female
Appl. A: pipeline cm
cm
Appl. B: pipeline inch (2,54 cm)
Appl. C: pipeline yard (0.914 cm)
Hình 2: Tích hợp dữ liệu
Hệ thống dữ
liệu tác nghiệp
Hệ thống kiểm tra Tài khoản
Lê Anh Tuấn
Nam
Mở Tài khoản năm 1994
Hệ thống Tài khoản tiết kiệm
Lê Anh Tuấn
M (Mã)
Mở Tài khoản năm 1992
Kho dữ liệu
Tích hợp
và biến đổi
Khách hàng
Lê Anh Tuấn
Nam
132 - Cầu Giấy
Khách hàng từ năm 1992
Hệ thống Tài khoản đầu tư
Lê Anh Tuấn
132 - Cầu Giấy
Mở tài khoản năm 1995
Hình 3: Tích hợp dữ liệu
1.4.2.Hướng chủ đề
Dữ liệu trong DW được tổ chức theo các chủ đề giúp thuận lợi, dễ dàng
trong việc xác định những thông tin cần thiết trong từng hoạt động mỗi cơ
quan, đơn vị. Ví dụ, trong hệ thống quản lý tài chính cũ có thể dữ liệu được tổ
16
chức theo chức năng: cho vay, quản lý tín dụng, quản lý ngân sách, v.v.
Ngược lại, trong DW về tài chính, dữ liệu được tổ chức theo chủ điểm dựa
chủ yếu theo các đối tượng: khách hàng, sản phẩm, các doanh nghiệp, v.v. Sự
khác nhau của hai cách tiếp cận trên dẫn đến sự khác nhau về nội dung dữ liệu
được lưu trữ trong hệ thống:
DW không lưu trữ dữ liệu chi tiết, chỉ cần lưu trữ những dữ liệu có tính
tổng hợp phục vụ chủ yếu cho quá trình phân tích để trợ giúp quyết
định.
Các hệ thống ứng dụng tác nghiệp (Operational Application SystemOAS), CSDL tác nghiệp cần những dữ liệu chi tiết, phục vụ trực tiếp
cho những yêu cầu xử lý theo các chức năng của lĩnh vực ứng dụng
hiện thời. Do vậy mối quan hệ của dữ liệu trong những hệ thống này
cũng khác, đòi hỏi phải có tính chi tiết hơn, có tính thời sự, v.v.
1.4.3. Dữ liệu gắn thời gian và có tính lịch sử
Kho dữ liệu bao hàm một khối lượng lớn dữ liệu lịch sử. Dữ liệu được lưu
trữ thành một loạt các ảnh chụp dữ liệu (snapshot), mỗi bản ghi phản ánh
những giá trị của dữ liệu tại một thời điểm nhất định thể hiện một khung nhìn
của một chủ điểm trong một giai đoạn, do vậy cho phép khôi phục lại lịch sử
và so sánh một cách chính xác các giai đoạn khác nhau. Yếu tố thời gian đóng
vai trò như một phần của khoá để bảo đảm tính đơn nhất và cung cấp đặc
trưng về thời gian cho dữ liệu.
Dữ liệu trong OAS cần phải chính xác ở chính thời điểm truy cập, còn ở
DW chỉ cần có hiệu lực trong khoảng thời gian nào đó, trong khoảng 5 đến 10
năm hoặc lâu hơn. Dữ liệu của CSDL tác nghiệp thường sau một khoảng thời
gian nhất định sẽ trở thành dữ liệu lịch sử và chúng sẽ được chuyển vào kho
dữ liệu. Đó chính là những dữ liệu hợp lý về những chủ điểm cần lưu trữ.
17
CSDL tác nghiệp
DW
Dữ liệu kinh doanh:
+ Thời gian ngắn 30-60 ngày
ảnh chụp dữ liệu:
+ Thời gian dài: 5 đến 10 năm
+ Có thể có yếu tố thời gian hoặc + Luôn có yếu tố thời gian
không
+ Dữ liệu có thể cập nhật
+ Khi dữ liệu được chụp lại thì
không cập nhật được
Hình 4: Tính thời gian của dữ liệu
1.4.4. Dữ liệu có tính ổn định (nonvolatility)
Dữ liệu trong DW là dữ liệu chỉ đọc và chỉ có thể được kiểm tra, không
được sửa đổi bởi người sử dụng đầu cuối. Nó chỉ cho phép thực hiện hai thao
tác cơ bản:
Nạp dữ liệu vào kho
Truy cập vào các vùng trong DW.
1.4.5. Dữ liệu không biến động
Thông tin trong DW được tải vào sau khi dữ liệu trong hệ thông tin tác
nghiệp được cho là quá cũ. Tính không biến động thể hiện ở chỗ: Dữ liệu
được lưu trữ lâu dài trong kho dữ liệu. Mặc dù có thêm dữ liệu mới nhập vào
nhưng dữ liệu cũ trong kho vẫn không bị xoá, điều đó cho phép cung cấp
thông tin về một khoảng thời gian dài, cung cấp đủ số liệu cần thiết cho các
mô hình kinh doanh phân tích, dự báo, từ đó có được những quyết định hợp
lý, phù hợp với các qui luật tiến hoá của tự nhiên.
18
1.4.6. Dữ liệu tổng hợp
Dữ liệu tác nghiệp thuần tuý không được lưu trữ trong DW. Dữ liệu tổng
hợp được tích lại qua nhiều giai đoạn khác nhau theo các chủ điểm như đã
nêu trên.
1.5. Mô hình của Kho dữ liệu (DW)
1.5.1. Các khái niệm cơ bản
a. Khối dữ liệu (Data cube)
Các DW và các công cụ (Tools) OLAP được dựa trên mô hình dữ liệu
nhiều chiều. Mô hình dữ liệu nhiều chiều nhìn dữ liệu dưới dạng các khối
(cube) dữ liệu.
Khối dữ liệu cho phép dữ liệu được mô hình và được nhìn theo đa chiều.
Các chiều là các phối cảnh hoặc các thực thể mà các đơn vị, tổ chức muốn lưu
giữ các bản ghi thông tin theo chúng. Ví dụ một Công ty Điện tử có thể xây
dựng một DW bán hàng nhằm lưu giữ các bản ghi thông tin về tình hình bán
hàng của công ty theo các chiều thoi_gian, mat_hang, chi_nhanh và vi_tri.
Các chiều này cho phép công ty theo dõi được tình hình bán hàng của công ty
như tình hình bán của mỗi mặt hàng trong từng tháng, các chi nhánh và vị trí
ở đó những mặt này đã được bán,... Mỗi chiều có thể có một bảng liên kết
nhằm mô tả rõ hơn về nó được gọi là bảng chiều. Chẳng hạn bảng chiều đối
với chiều mat_hang có thể chứa các thuộc tính như ten_mat_hang, chi_nhanh
và kieu. Các bảng chiều do người sử dụng xác định hoặc cũng có thể được
sinh ra hoặc được bổ sung một cách tự động dựa trên các phân bố dữ liệu.
Các tiêu chuẩn đánh giá: Phân loại và tính toán
Một điểm nhiều chiều trong không gian khối dữ liệu được xác định bởi
bộ giá trị của chiều. Ví dụ (thoi_gian = “Q1”, mat_hang = “GTGĐ”, vi_tri =
“Hà nội”). Một tiêu chuẩn đánh giá khối dữ liệu là một hàm số có thể được
19
đánh giá tại các điểm thuộc không gian khối dữ liệu (hàm số đó được gọi là
hàm tích hợp). Một giá trị đánh giá được tính toán đối với một điểm cho trước
bằng cách tích hợp dữ liệu ứng với bộ giá trị chiều tương ứng xác định điểm
đã cho.
Các tiêu chuẩn đánh giá được tổ chức theo 3 chiến lược tuỳ thuộc vào kiểu
mà hàm tích hợp sử dụng.
Phân bố (distribute): Hàm tích hợp là hàm phân bố nếu nó có thể được tính
theo cách như sau: giả sử dữ liệu được chia thành n tập, việc tính toán của
hàm này trên mỗi tập như vậy sẽ cho một giá trị tích hợp; nếu giá trị của hàm
tại n giá trị tích hợp đó giống như kết quả của việc áp dụng hàm đó trên toàn
bộ tập dữ liệu chưa được phân chia. Ví dụ các hàm min(), max(), count() đều
là những hàm phân bố.
Tiêu chuẩn đánh giá là phân bố nếu nó nhận được bằng việc ứng dụng một
hàm tích hợp phân bố.
Đại số (Algebric): Hàm tích hợp là đại số nếu nó có thể được tính toán
bằng một hàm số đại số có m đối số, trong đó mỗi một đối số nhận được bằng
việc áp dụng một hàm tích hợp phân bố. Ví dụ Average() = Sum()/ Count() là
hàm tích hợp đại số.
Tiêu chuẩn đánh giá là đại số nếu nó nhận được bằng việc áp dụng một
hàm tích hợp đại số.
Holistic: hàm tích hợp là holistic nếu không tồn tại hàm đại số m đối số (m
là hằng) đặc trưng cho việc tính toán. Ví dụ: hàm tính tần xuất xuất hiện của
mặt hàng được bán Tansuat() là hàm holistic.
Tiêu chuẩn đánh giá là holistic nếu nó nhận được bằng việc áp dụng một
hàm tích hợp holistic.
- Xem thêm -