Đăng ký Đăng nhập
Trang chủ Xử lý phân tích trực tuyến OLAP và ứng dụng trong khai thác kho dữ liệu...

Tài liệu Xử lý phân tích trực tuyến OLAP và ứng dụng trong khai thác kho dữ liệu

.PDF
107
314
92

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI --------------***-------------- TRẦN THỊ THÚY NGA XỬ LÝ PHÂN TÍCH TRỰC TUYẾN OLAP VÀ ỨNG DỤNG TRONG KHAI THÁC KHO DỮ LIỆU LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Chuyên ngành: Mã số: 1 .01 .10 Hướng dẫn khoa học: PGS.TS Đoàn Văn Ban hµ néi - 2007 1 MỤC LỤC LỜI CẢM ƠN ....................................................................................1 MỤC LỤC ..........................................................................................2 CÁC THUẬT NGỮ VIẾT TẮT ........................................................5 MỞ ĐẦU............................................................................................6 CHƯƠNG 1. KHO DỮ LIỆU ...........................................................9 1.1 TỔNG QUAN VỀ KHO DỮ LIỆU (DATAWAREHOUSE) ................... 9 1.1.1 SỰ RA ĐỜI VÀ PHÁT TRIỂN CÔNG NGHỆ KHO DỮ LIỆU ....... 9 1.1.2 KHO DỮ LIỆU LÀ GÌ?................................................................... 11 1.1.3 MÔ HÌNH CHUNG CỦA CÔNG NGHỆ KHO DỮ LIỆU .............. 12 1.1.4 ĐẶC TÍNH CỦA DỮ LIỆU TRONG KHO DỮ LIỆU .................... 13 1.1.5 PHÂN BIỆT DW VỚI NHỮNG HỆ CƠ SỞ DỮ LIỆU TÁC NGHIỆP .................................................................................................... 14 1.1.6 MỘT SỐ KHÁI NIỆM CƠ BẢN ..................................................... 15 1.1.6.1 KHO DỮ LIỆU CỤC BỘ - DATAMART ................................. 15 1.1.6.2 KHO DỮ LIỆU TÁC NGHIỆP, CƠ SỞ DỮ LIỆU THAO TÁC16 1.1.6.3 KHO DỮ LIỆU ẢO ................................................................... 18 1.2 CÁC KIỂU DỮ LIỆU ............................................................................ 18 1.2.1 DỮ LIỆU NGHIỆP VỤ ................................................................... 18 1.2.2 DỮ LIỆU NGHIỆP VỤ PHI CẤU TRÚC ....................................... 19 1.2.3 SIÊU DỮ LIỆU (METADATA ) ..................................................... 19 1.3 KIẾN TRÚC DỮ LIỆU DW .................................................................. 20 1.3.1 KIẾN TRÚC THAM CHIẾU CƠ BẢN VÀ MỘT SỐ NGUYÊN LÝ HOẠT ĐỘNG CỦA KHO DỮ LIỆU ........................................................ 20 1.3.1.1 KHỐI CÁC NGUỒN DỮ LIỆU ................................................. 21 1.3.1.2 KHỐI TẠO DỰNG KHO DỮ LIỆU ......................................... 21 1.3.1.3 KHỐI TẠO DỰNG DATA MART ........................................... 22 1.3.1.4 KHỐI TRUY NHẬP VÀ SỬ DỤNG......................................... 22 1.3.1.5 LỚP QUẢN LÝ DỮ LIỆU ........................................................ 23 1.3.1.6 LỚP QUẢN LÝ SIÊU DỮ LIỆU .............................................. 23 1.3.1.7 LỚP CHUYỂN TẢI DỮ LIỆU .................................................. 23 1.3.1.8 LỚP KẾT CẤU HẠ TẦNG ....................................................... 23 1.3.2 KIẾN TRÚC LOGIC CỦA DW ...................................................... 24 1.4 MÔ HÌNH DỮ LIỆU ............................................................................. 25 1.4.1 NỀN TẢNG CỦA VIỆC HÌNH THÀNH MÔ HÌNH ...................... 25 1.4.2 SƠ ĐỒ HÌNH SAO - STAR SCHEMA ........................................... 26 1.4.3 SƠ ĐỒ HÌNH TUYẾT RƠI - SNOWFLAKE .................................. 28 1.4.4 SƠ ĐỒ KẾT HỢP ............................................................................ 29 1.5 KẾT LUẬN CHƯƠNG 1 ........................................................................ 29 CHƯƠNG 2 ......................................................................................31 XỬ LÝ PHÂN TÍCH TRỰC TUYẾN OLAP ................................31 -2- 2.1 TỔNG QUAN VỀ XỬ LÝ PHÂN TÍCH TRỰC TUYẾN ...................... 31 2.2 ĐỊNH NGHĨA OLAP ............................................................................. 32 2.3 MÔ HÌNH CƠ SỞ DỮ LIỆU DẠNG KHỐI .......................................... 33 2.3.1 TỔNG QUAN................................................................................... 33 2.3.2 ĐỊNH NGHĨA KHỐI ....................................................................... 34 2.3.3 LÁT CẮT ........................................................................................ 34 2.3.4 KHOÁ CỦA KHỐI ......................................................................... 35 2.3.5 HIỂN THỊ KHỐI TRÊN MÀN HÌNH MÁY TÍNH ......................... 36 2.4 KIẾN TRÚC KHỐI OLAP .................................................................... 38 2.4.1 KHỐI (CUBE) ................................................................................. 38 2.4.2 CHIỀU (DIMENSION) ................................................................... 39 2.4.3 CÁC ĐƠN VỊ ĐO LƯỜNG ............................................................. 40 2.4.4 CÁC PHÂN HOẠCH (PARTITIONS) ............................................ 40 2.5 SỰ PHÂN LOẠI OLAP ........................................................................ 40 2.5.1 MOLAP (MULTIDIMENSIONAL OLAP) ...................................... 40 2.5.2 ROLAP (RELATIONAL OLAP) .................................................... 43 2.5.3 HOLAP (HYBRID OLAP) .............................................................. 43 2.6 KẾT LUẬN CHƯƠNG 2 ....................................................................... 46 CHƯƠNG 3 ......................................................................................47 PHÂN TÍCH THIẾT KẾ.................................................................47 KHO DỮ LIỆU THƯƠNG MẠI ĐIỆN TỬ ...................................47 3.1. GIỚI THIỆU CHUNG VỀ HỆ THỐNG THƯƠNG MẠI ĐIỆN TỬ..... 47 3.1.1 TỔNG QUAN................................................................................... 47 3.1.2 CÁC THÀNH PHẦN CHÍNH CỦA HỆ THỐNG THƯƠNG MẠI ĐIỆN TỬ ................................................................................................... 47 3.2. PHƯƠNG PHÁP LUẬN XÂY DỰNG KHO DỮ LIỆU ........................ 49 3.2.1 PHƯƠNG PHÁP LUẬN CHUNG ................................................... 49 3.2.2 PHƯƠNG PHÁP THIẾT KẾ TRUYỀN THỐNG ............................ 49 3.2.3 PHÂN TÍCH CÓ CẤU TRÚC .......................................................... 50 3.2.4 PHƯƠNG PHÁP LUẬN XÂY DỰNG KHO DỮ LIỆU .................. 52 3.2.4.1 XÁC ĐỊNH CÁC YÊU CẦU ..................................................... 52 3.2.4.2 GIAI ĐOẠN MÔ TẢ ................................................................. 52 3.2.4.3 GIAI ĐOẠN XÂY DỰNG KHO ................................................ 52 3.2.4.4 GIAI ĐOẠN NHẬP VÀ QUẢN TRỊ DỮ LIỆU ......................... 53 3.3 ĐÔI NÉT VỀ CÔNG CỤ THỰC HIỆN ................................................ 53 3.3.1 HỆ QUẢN TRỊ CSDL SQL SERVER ............................................. 53 3.3.2 BỘ CÔNG CỤ MICROSOFT SQL SERVER ................................. 54 3.3.3 NGÔN NGỮ TRUY VẤN ĐA CHIỀU MDX ................................. 54 3.3.3.1 KHÁI QUÁT CHUNG ............................................................... 54 3.3.3.2 SO SÁNH SỰ KHÁC NHAU GIỮA NGÔN NGỮ SQL VÀ NGÔN NGỮ MDX ................................................................................ 56 3.4 PHÂN TÍCH, THIẾT KẾ KHO DỮ LIỆU THƯƠNG MẠI ĐIỆN TỬ .. 57 3.4.1 NHÌN LẠI HỆ THỐNG THIẾT KẾ OLTP....................................... 57 -3- 3.4.1.1 PHÂN TÍCH DỊCH VỤ MUA BÁN HÀNG HOÁ HỮU HÌNH VÀ PHI VẬT THỂ ................................................................................. 59 3.4.1.2 PHÂN TÍCH DỊCH VỤ MUA BÁN MỘT SỐ DỊCH VỤ DU LỊCH ...................................................................................................... 61 3.4.2 PHÂN TÍCH HỆ THỐNG KHO DỮ LIỆU THƯƠNG MẠI ĐIỆN TỬ .................................................................................................................. 62 3.4.2.1 PHÂN TÍCH CÁC CHỨC NĂNG ............................................. 63 3.4.2.2 PHÂN TÍCH VỀ DỮ LIỆU ....................................................... 65 3.4.2.3 XÁC ĐỊNH CÁC BẢNG SỰ KIỆN (FACT TABLE -FT) VÀ CÁC BẢNG CHIỀU (DIMENSION TABLE) CỦA KHO DỮ LIỆU .... 66 3.4.3 THIẾT KẾ HỆ THỐNG ................................................................... 67 3.5 KẾT LUẬN CHƯƠNG 3 ........................................................................ 72 CHƯƠNG 4 ......................................................................................74 XÂY DỰNG KHO DỮ LIỆU TMĐT VÀ ......................................74 GIẢI PHÁP XỬ LÝ PHÂN TÍCH TRỰC TUYẾN OLAP ...........74 4.1 TRÍCH CHỌN, XỬ LÝ, NẠP DỮ LIỆU VÀO KHO ............................. 74 4.1.1 TỔ CHỨC HỆ THỐNG .................................................................... 74 4.1.2 THU THẬP VÀ TẠO LẬP DỮ LIỆU CHO KHO DỮ LIỆU .......... 75 4.1.2.1 TRÍCH CHỌN, CHUYỂN TẢI VÀ NẠP DỮ LIỆU .................. 75 4.1.2.2 LỌC, TINH CHẾ DỮ LIỆU ...................................................... 75 4.1.2.3 THẨM ĐỊNH VÀ CHUYỂN ĐỔI DỮ LIỆU ............................. 76 4.1.2.4 TÍCH HỢP DỮ LIỆU ................................................................. 76 4.1.2.5 TẢI DỮ LIỆU VÀO KHO ......................................................... 76 4.2 XÂY DỰNG CÁC KHỐI VÀ CHIỀU CHO GIẢI PHÁP OLAP ........ 77 4.2.1 TIẾN TRÌNH TRỢ GIÚP QUYẾT ĐỊNH DỰA VÀO DỮ LIỆU..... 77 4.2.2 XÂY DỰNG CÁC KHỐI OLAP ..................................................... 78 4.2.2.1 KHỐI (CUBE) ........................................................................... 78 4.2.2.2 CHIỀU (DIMENSION) .............................................................. 80 4.2.2.3 CÁC ĐƠN VỊ ĐO LƯỜNG (MEASURE) ................................ 81 4.2.2.4 CÁC PHÂN HOẠCH (PARTITION) ......................................... 82 4.2.2.5 KHỐI ẢO ................................................................................... 82 4.3 PHÂN TÍCH VÀ HIỂN THỊ DỮ LIỆU .................................................. 82 4.3.1 HIỂN THỊ DỮ LIỆU CỦA KHỐI .................................................... 82 4.3.2 TRUY VẤN DỮ LIỆU ..................................................................... 83 4.4. CÀI ĐẶT MINH HOẠ .......................................................................... 83 4.4.1 TẠO KHO DỮ LIỆU THƯƠNG MẠI ĐIỆN TỬ ............................. 83 4.4.1.1 TẠO LẬP BẢNG CHIỀU .......................................................... 83 4.4.1.2 TẠO BẢNG SỰ KIỆN ............................................................... 85 4.4.2 TẠO KHỐI ....................................................................................... 89 4.5 KẾT LUẬN CHƯƠNG 4 ................................................................. 102 KẾT LUẬN .................................................................................... 104 TÀI LIỆU THAM KHẢO ............................................................. 107 -4- CÁC THUẬT NGỮ VIẾT TẮT Tên viết tắt Tên khoa học Giải nghĩa BD Business Data Dữ liệu nghiệp vụ BIW Business Information Warehouse Kho thông tin tác nghiệp CNTT Công nghệ thông tin DB Database Cơ sở dữ liệu DM DataMart Kho dữ liệu cục bộ DSS Decision Support System Hệ hỗ trợ quyết định DW DataWarehouse Kho dữ liệu EDM Enterprise Data Model Mô hình dữ liệu mức xí nghiệp FT Fact Table Bảng thực HQT Hệ quản trị LS Legacy System Hệ thống đã có trước MDX MultiDimension Express Biểu thức (truy vấn) đa chiều NSD User Người sử dụng OAS Operational Application System Hệ tác nghiệp ODS Operational Database Store Kho dữ liệu tác nghiệp OLAP On-Line Analysis Processing Xử lý phân tích trực tuyến OLTP On-Line Transaction Prcessing Xử lý giao dịch trực tuyến OM Operational Metadata Siêu dữ liệu tác nghiệp OS Operational System Hệ thống tác nghiệp SA Subject Area Vùng chủ đề Thương mại điện tử TMĐT VDW Kho dữ liệu ảo Virtual Data Warehouse -5- MỞ ĐẦU 1. Đặt vấn đề Trong thời đại của nền kinh tế tri thức mà chúng ta đang sống, mọi hoạt động của chúng ta muốn đạt hiệu quả cao thì nhất thiết phải có được thông tin, tri thức cần thiết một cách nhanh chóng và chính xác. Thông tin có thể có được ở mọi nơi, mọi thời điểm và từ nhiều dạng khác nhau. Mục tiêu của các tổ chức, các xí nghiệp là phải phục vụ tốt theo yêu cầu của khách hàng, giành được ưu thế trong cạnh tranh để phát triển. Để có thể quản lý được các hoạt động của xí nghiệp, người quản lý không chỉ cần biết cái gì đang xảy ra mà còn phải biết được lý do tại sao. Trong giai đoạn xử lý dữ liệu tự động nhờ những kỹ thuật của công nghệ thông tin, các xí nghiệp đã xây dựng được nhiều ứng dụng để trả lời nhanh các câu hỏi "Những cái gì đã xảy ra?". Các hệ thống thông tin hiện tại sẽ giúp cho các nhà quản lý hiểu được "tại sao những điều đó lại xảy ra?" và để giành được lợi thế trong cạnh tranh, đáp ứng yêu cầu thay đổi thường xuyên của người sử dụng thì các xí nghiệp phải đoán biết được "Những gì có thể sẽ xảy ra tiếp theo?". Để có thể trả lời những câu hỏi trên thì cần có các phương pháp, công cụ để tổ chức, xử lý khai thác tốt dữ liệu. Những mục tiêu trên không dễ gì có được bởi vì dữ liệu ngày một nhiều, lưu trữ ở nhiều dạng không tương thích với nhau, thậm chí còn ở những dạng phi cấu trúc. Người sử dụng thường xuyên gặp phải những khó khăn như: không tìm thấy hoặc không lấy ra được dữ liệu cần thiết, không thể hiểu và sử dụng được dữ liệu tìm thấy, tổng hợp dữ liệu rất khó khăn và chậm chạm, mất nhiều thời gian, v.v.. Ngày nay, Internet đã mở ra nhiều khả năng và triển vọng cho các doanh nghiệp, cung cấp cho chúng ta nhiều phạm trù thông tin phong phú, rất cần thiết cho các hoạt động. WWW cung cấp đủ các thông tin về mọi lĩnh vực của xã hội loài người, từ các công trình nghiên cứu, kết quả học tập, thông tin quảng cáo, du lịch, thương mại điện tử,v.v...Tuy nhiên, một vấn đề đặt ra là làm thế nào để tổ chức, khai thác được những khối lượng dữ liệu khổng lồ và đa dạng đó. Sự phát triển nhanh chóng của Internet không chỉ cung cấp cho chúng ta một lượng thông tin khổng lồ mà Internet ngày càng gắn liền với nhiều hoạt -6- động của con người. Rất nhiều hoạt động của chúng ta có thể thực hiện được một cách thuận tiện và nhanh chóng hơn thông qua Internet. Thương mại điện tử là một trong những hoạt động điển hình. Việc mua bán, trao đổi hàng hoá và nhiều dịch vụ khác được thực hiện trên Internet đã đem lại rất nhiều thuận tiện cho cả người mua và người bán. Hoạt động này đã và đang phát triển trên thế giới và chắc chắn sẽ phát triển mạnh mẽ tại Việt Nam trong một tương lai không xa. Qua thực tế nhận thấy cần phải có một công nghệ cơ sở dữ liệu mới nhằm giải quyết được những bất cập mà phương pháp truyền thống hiện tại không thoả mãn được. Công nghệ mới này không chỉ đáp ứng được các nhu cầu của người dùng mà còn đòi hỏi phải tạo ra một môi trường dùng chung, tích hợp được các hệ thống CSDL đã có. Xuất phát từ những đặc điểm chung và tính thời sự nêu trên, tôi đã chọn đề tài "Xử lý phân tích trực tuyến OLAP và ứng dụng trong khai thác kho dữ liệu" mong được đóng góp một phần nhỏ bé trong việc nghiên cứu giải pháp tích hợp dữ liệu từ nhiều nguồn khác nhau về lưu trữ trong một kho dữ liệu và sử dụng công cụ xử lý phân tích trực tuyến OLAP để khai thác thông tin một cách có hiệu quả và nhanh chóng, trợ giúp các nhà quản lý, các nhà lãnh đạo đưa ra những quyết định đúng đắn, kịp thời cho các chiến lược phát triển của họ. 2. Mục tiêu của luận văn Mục tiêu của đề tài là nghiên cứu công nghệ kho dữ liệu và xử lý phân tích trực tuyến OLAP để khai thác kho nhằm cung cấp thông tin nhanh chóng và chính xác cho các nhà lãnh đạo và quản lý, bao gồm các vấn đề chính sau đây: - Nghiên cứu công nghệ kho dữ liệu, giải pháp tích hợp và tận dụng các nguồn dữ liệu có sẵn để tạo thành kho, các khái niệm cơ bản của kho dữ liệu, các kiểu dữ liệu, mô hình và kiến trúc kho dữ liệu. - Nghiên cứu một phương pháp khai thác kho dữ liệu - xử lý phân tích trực tuyến OLAP, sử dụng mô hình khối dữ liệu đa chiều để xây dựng và lưu trữ dữ liệu đã được tổng hợp phục vụ cho việc khai thác được nhanh chóng và thuận tiện. -7- - Ứng dụng lý thuyết đã nghiên cứu để xây dựng kho dữ liệu thương mại điện tử và các khối dữ liệu đa chiều để phân tích, xử lý và lưu trữ các dữ liệu tổng hợp, phục vụ cho việc khai thác thông tin nhanh chóng và hiệu quả. - Nghiên cứu cách khai thác thông tin trong khối dữ liệu đa chiều bằng cách tạo lập và thực hiện truy vấn trên khối; hiển thị kết quả phân tích dưới nhiều hình thức trực quan, sinh động, uyển chuyển nhằm hỗ trợ có hiệu quả cho công tác quản lý, điều hành của ban lãnh đạo. 3. Bố cục của luận văn Luận văn gồm 4 chương: Chƣơng 1: Trình bày khái quát chung về công nghệ kho dữ liệu: các khái niệm cơ bản, các kiểu dữ liệu, kiến trúc và mô hình kho dữ liệu. Chƣơng 2: Trình bày một công cụ khai thác kho dữ liệu - xử lý phân tích trực tuyến OLAP: khái niệm chung về OLAP, mô hình và kiến trúc khối OLAP, sự phân loại OLAP. Chƣơng 3: Giới thiệu khái quát hệ thống thương mại điện tử, tìm hiểu yêu cầu, phân tích, thiết kế kho dữ liệu thương mại điện tử; đưa ra giải pháp và giới thiệu công cụ để xây dựng và khai thác kho dữ liệu. Chƣơng 4: Trình bày các bước thực hiện việc xây dựng, cài đặt kho dữ liệu và tạo dựng khối OLAP nhờ công cụ Enterprise Manager và Analysis Services được tích hợp trong Microsoft SQL Server 2000; khai thác và hiển thị dữ liệu của khối bằng MDX và OLAPBrowserPro. -8- CHƢƠNG 1. KHO DỮ LIỆU 1.1 TỔNG QUAN VỀ KHO DỮ LIỆU (DATAWAREHOUSE) 1.1.1 Sự ra đời và phát triển công nghệ kho dữ liệu Ngày nay thông tin đóng vai trò rất quan trọng trong môi trường nghiệp vụ, sự thành công hay thất bại của nghiệp vụ liên quan đến việc có thể sử dụng hiệu quả thông tin được hay không. Sự thay đổi nhanh chóng trong môi trường hoạt động nghiệp vụ đòi hỏi phải truy cập được ngay thông tin cần thiết. Rất ít tổ chức có đủ lượng thông tin cần thiết, thậm chí vẫn thiếu những thông tin cơ bản nhất, mặc dù họ đang “chìm ngập trong dữ liệu”. Vấn đề đặt ra là làm thế nào để có được những thông tin cần thiết từ các dữ liệu đó? Trước hết, chúng ta cần phân biệt được điểm khác biệt cơ bản giữa dữ liệu và thông tin. Dữ liệu bao gồm các sự kiện, văn bản đồ hoạ, âm thanh, đoạn phim có một giá trị nào đó đối với người sử dụng chúng và được lưu trữ xử lý trong máy tính. Thông tin là dữ liệu đã được xử lý theo cách mà chúng ta có thể làm tăng hàm lượng tri thức cho người sử dụng nó [5]. Do các doanh nghiệp tự chuyển đổi để có thể cạnh tranh trong môi trường biến đổi liên tục, thế giới thông tin trong con mắt những nhà quản lý và lãnh đạo cũng thay đổi theo. Trong thế giới thực, các ranh giới luôn biến đổi, bị xoá bỏ và xây dựng lại. Trước kia mục tiêu chính là phân lớp, cấu trúc thì ngày nay là tính năng động, chuyển đổi. Cùng với sự phát triển của công nghệ thông tin, các hệ thống tác nghiệp ngày càng phát triển cả về chất lượng và số lượng, hỗ trợ đắc lực trong công tác quản lý và điều hành trên từng lĩnh vực khác nhau. Mỗi hệ thống được xây dựng độc lập trên một lĩnh vực, phục vụ một mục đích nào đó của người sử dụng. Trong các hệ thống đó, đa phần cơ sở dữ liệu (CSDL) được lưu trữ dưới dạng mô hình CSDL quan hệ và dữ liệu không được lưu trữ dưới dạng tổng hợp. Một thực tế đặt ra và cũng là một bức xúc của người lãnh đạo là khi lượng thông tin lưu trữ ngày càng lớn nhưng sự phát triển lại theo những chủ đề, những lĩnh vực rất khác nhau nên gây ra nhiều khó khăn trong công tác phân tích, tổng hợp số liệu hỗ trợ kịp thời trong công tác quản lý và điều hành. Thông -9- tin quản lý cung cấp đến lãnh đạo từ nhiều nguồn khác nhau, có khi cùng một chỉ tiêu qua mỗi bộ phận xử lý lại cho những kết quả hoàn toàn trái ngược nhau gây khó khăn cho các nhà lãnh đạo trong việc đưa ra các quyết định một cách kịp thời. Dữ liệu lưu trữ trong các CSDL thường theo hạn định nên thường không có tính lịch sử, gây ra nhiều khó khăn trong việc đối chiếu, so sánh số liệu, từ đó đưa ra các đánh giá đúng sự phát triển và kịp thời để có những điều chỉnh hoặc bổ sung kế hoạch. Như vậy, vấn đề đặt ra đòi hỏi phải có một mô hình dữ liệu nào đó cho phép lưu trữ dữ liệu lớn có tính lịch sử và theo thời gian; đồng thời, cung cấp phương pháp truy nhập nhanh, phân tích dữ liệu theo nhiều chiều khác nhau sẵn sàng đáp ứng những câu hỏi theo bất kỳ tình huống nào của người lãnh đạo. Việc xây dựng lại từ đầu một ứng dụng để đáp ứng được yêu cầu trên là không đơn giản và khó chấp nhận vì dữ liệu hiện tại đã có và đang trợ giúp hoạt động quản lý trên nhiều lĩnh vực vì vậy cần có một công nghệ nào đó ra đời đáp ứng được yêu cầu trên đồng thời sử dụng lại được số liệu của các CSDL sẵn có để kết hợp lại thành một kho dữ liệu mang tính chiến lược, trở thành tài sản quý báu của doanh nghiệp. Ngoài ra, khi lượng dữ liệu tăng lên thì việc tìm kiếm, tra cứu, tổng hợp dữ liệu sẽ gặp rất nhiều khó khăn và mất nhiều thời gian nên cũng đòi hỏi một giảp pháp cho phép tính toán trước số liệu sẵn có. Trước yêu cầu thực tế đặt ra, công nghệ kho dữ liệu (DataWarehouseDW) ra đời đáp ứng và thoả mãn những yêu cầu trên, trợ giúp đắc lực cho các nhà quản lý, lãnh đạo khi đứng trước những bài toán mang tính chiến lược. Như vậy, kho dữ liệu nảy sinh từ hai vấn đề [3]: - Nhu cầu nghiệp vụ cần có cách nhìn thông tin trên quy mô toàn xí nghiệp. - Sự cần thiết có hệ thống thông tin để quản lý hiệu quả dữ liệu của các tổ chức. Hai điều này tuy không liên quan đến nhau nhưng kết hợp lại sẽ tạo ra những quan điểm và giải pháp mới. Nếu xác định được các nhu cầu của hệ thống thông tin để quản lý dữ liệu thì nhu cầu nghiệp vụ về cách nhìn thông tin trên quy mô toàn xí nghiệp sẽ dễ dàng đạt được. Tương tự, nhu cầu thứ nhất cũng như những lợi ích nghiệp vụ mà nó đem lại sẽ là những biện hộ cần thiết cho - 10 - việc giải quyết vấn đề quản lý dữ liệu. Chính sự kết hợp này làm cho khái niệm kho dữ liệu phát triển. Đôi nét về quá trình phát triển công nghệ kho dữ liệu [3]: - Cuối những năm 80, kho dữ liệu bắt đầu xuất hiện. - Năm 1988, có một bài báo đầu tiên mô tả cấu trúc kho dữ liệu. Bài báo này mô tả những công việc đã thực hiện để thiết kế kho dữ liệu phục vụ chi nhánh IBM tại châu Âu. - Đầu thập niên 90, cuộc cách mạng về xử lý dữ liệu không chỉ là phổ cập kho dữ liệu mà còn tạo điều kiện để mở rộng khái niệm kho dữ liệu ra ngoài những kiểu dữ liệu truyền thống, bắt đầu kết hợp tất cả các khía cạnh về cách thức người dùng thực thi nhiệm vụ của mình. -Thế kỷ 21 - kỷ nguyên của quản lý dựa trên thông tin. Ngày nay, chúng ta chờ đợi và dự đoán tương lai dựa trên những phác thảo quá khứ. Điểm mấu chốt của sự dự đoán này là nhu cầu tăng lợi thế cạnh tranh đã khiến nền tảng hỗ trợ việc ra quyết định chuyển từ dữ liệu sang thông tin. Định hướng này có thể được mô tả bởi thuật ngữ quản lý dựa trên thông tin (information-based management). 1.1.2 Kho dữ liệu là gì? Có thể gói gọn ngành tin học trong ba từ là lưu trữ, xử lý và khai thác thông tin. Về mặt lưu trữ, các hệ quản trị cơ sở dữ liệu đều thực hiện rất tốt. Tuy nhiên, khi lượng thông tin cần lưu trữ và khai thác trở nên khổng lồ đặc biệt trong những ngành như ngân hàng, tài chính,... đã làm nảy sinh khái niệm DataWarehouse hay kho dữ liệu. Kho dữ liệu là tuyển tập các CSDL tích hợp, hướng chủ đề, được thiết kế để hỗ trợ cho chức năng trợ giúp quyết định, mà mỗi đơn vị dữ liệu đều liên quan tới một khoảng thời gian cụ thể [1]. Nói cách khác, kho dữ liệu là một tập hợp các CSDL rất lớn tới hàng trăm GB hay thậm chí hàng Terabyte dữ liệu từ nhiều phân hệ của hệ thống, lưu trữ và phân tích phục vụ cho việc cung cấp các dịch vụ thông tin liên quan tới nghiệp vụ hệ thống. - 11 - Mục tiêu chính của kho dữ liệu là giải quyết những vấn đề cơ bản sau: 1. Tích hợp dữ liệu và các siêu dữ liệu từ những nguồn khác nhau. 2. Nâng cao chất lượng dữ liệu bằng các phương pháp làm sạch và tinh lọc dữ liệu theo những hướng chủ đề nhất định. 3. Tổng hợp và kết nối dữ liệu. 4. Đồng bộ hoá các nguồn dữ liệu với DW. 5. Phân định và đồng nhất các hệ quản trị cơ sở dữ liệu tác nghiệp như là các công cụ chuẩn để phục vụ cho DW. 6. Quản lý những siêu dữ liệu. 7. Cung cấp thông tin được tích hợp, tóm tắt hoặc được liên kết, được tổ chức theo các chủ đề. 8. Dùng trong các hệ thống hỗ trợ quyết định (DSS), các hệ thống thông tin tác nghiệp hoặc hỗ trợ cho các truy vấn đặc biệt. 1.1.3 Mô hình chung của công nghệ kho dữ liệu Có thể khái quát mô hình chung của công nghệ kho dữ liệu được chia làm 3 khối sau [2]: 1. Khối thiết kế CSDL kho dữ liệu: Làm nhiệm vụ thu thập các yêu cầu của người sử dụng, xây dựng mô hình khái niệm, mô hình logic và mô hình vật lý cho kho dữ liệu. 2. Khối thiết kế kiến trúc kho dữ liệu, được chia thành 3 phần: - Kiến trúc tải dữ liệu: Có nhiệm vụ thu thập dữ liệu từ các nguồn dữ liệu khác nhau, chuyển đổi, làm sạch và nạp vào CSDL dự trữ trước khi đưa sang CSDL kho dữ liệu. - Kiến trúc dữ liệu: làm nhiệm vụ lưu trữ các dạng dữ liệu trong kho dữ liệu. - Kiến trúc truy cập: Cung cấp cho các đối tượng sử dụng thông qua các công cụ phân tích, khai phá dữ liệu. 3. Khối vận hành và quản trị kho dữ liệu: Khối này làm nhiệm vụ: quản lý về an toàn, bảo mật và độ ưu tiên; quản lý sự cập nhật dữ liệu từ các - 12 - nguồn khác nhau; kiểm tra chất lượng dữ liệu; tái tạo dữ liệu; chia nhỏ và phân tán dữ liệu; lưu trữ các bản sao và phục hồi dữ liệu. 1.1.4 Đặc tính của dữ liệu trong kho dữ liệu 1. Tính tích hợp Một DW là một khung nhìn thông tin mức toàn xí nghiệp, thống nhất các khung nhìn khác nhau thành một khung nhìn theo một chủ điểm nào đó. Tính tích hợp trong DW được chia theo nhiều cách phù hợp với quy ước về tên gọi, số đo, cấu trúc mã hoá và những thuộc tính vật lý của dữ liệu...Các tên gọi, biến, thuộc tính có thể được mô tả khác nhau trong các ứng dụng, song chúng sẽ được tích hợp lại trong kho dữ liệu ở dạng chung nhất. Như vậy, tính tích hợp trong kho thể hiện ở chỗ: dữ liệu tập hợp trong kho dữ liệu được thu thập từ nhiều nguồn và trộn ghép với nhau tạo thành một thể thống nhất. 2. Hướng chủ đề Dữ liệu trong DW được tổ chức theo các chủ đề phục vụ cho những tổ chức dễ dàng xác định được những thông tin cần thiết trong từng hoạt động của mình. Do đó, cách tổ chức của kho dữ liệu dựa vào dữ liệu là chính. DW không lưu trữ dữ liệu chi tiết, chỉ cần lưu trữ những dữ liệu có tính tổng hợp phục vụ chủ yếu cho quá trình phân tích để trợ giúp quyết định. 3. Dữ liệu có tính lịch sử Dữ liệu trong hệ thống tác nghiệp cần phải chính xác ở chính thời điểm truy cập, còn ở DW chỉ cần có hiệu lực trong khoảng thời gian nào đó. Dữ liệu của CSDL tác nghiệp thường sau một khoảng thời gian nhất định thì sẽ trở thành dữ liệu lịch sử và chúng sẽ được chuyển thành kho dữ liệu. Đó chính là những dữ liệu hợp lý về những chủ điểm cần lưu trữ. 4. Dữ liệu gắn thời gian Một kho dữ liệu bao hàm một khối lượng lớn dữ liệu lịch sử. Các dữ liệu này chỉ cần chính xác trong khoảng thời gian nào đó, không yêu cầu phải chính xác tại thời điểm truy nhập. Dữ liệu trong kho dữ liệu khi đã chính xác thì được ghi lưu lại, không cho phép cập nhật và nó được sử dụng như bức ảnh chụp. Do - 13 - vậy, nó cho phép khôi phục lại lịch sử và so sánh một cách chính xác các giai đoạn khác nhau. Yếu tố thời gian đóng vai trò như một phần của khoá để bảo đảm tính đơn nhất của mỗi hàng và cung cấp đặc trưng về thời gian cho dữ liệu. 5. Dữ liệu có tính ổn định Dữ liệu trong kho dữ liệu là dữ liệu chỉ đọc và chỉ có thể được kiểm tra, không được sửa đổi bởi người sử dụng đầu cuối. Nó chỉ cho phép thực hiện hai thao tác cơ bản là nạp dữ liệu vào kho và truy cập vào các vùng trong kho dữ liệu (Load and Access ). 6. Dữ liệu không biến động Tính không biến động thể hiện ở chỗ dữ liệu được lưu trữ lâu dài trong kho dữ liệu. Mặc dù có thêm dữ liệu mới nhập vào nhưng dữ liệu cũ trong kho vẫn không bị xoá, điều đó cho phép cung cấp thông tin về một khoảng thời gian dài, cung cấp đủ số liệu cần thiết cho các mô hình nghiệp vụ phân tích, dự báo, từ đó có được những quyết định hợp lý, phù hợp với các qui luật tiến hoá của tự nhiên. 7. Dữ liệu tổng hợp Dữ liệu tác nghiệp thuần tuý không được lưu trữ trong kho dữ liệu. Kho dữ liệu chỉ lưu những dữ liệu tổng hợp được tích lại qua nhiều giai đoạn khác nhau theo các chủ điểm. Tóm lại, dữ liệu được lọc ra từ nhiều môi trường tác nghiệp, được xây dựng tổ chức thành kho dữ liệu. Đó là những dữ liệu cần thiết cho việc xử lý để có được những thông tin đầy đủ và chính xác cho các nhà quản lý, các tổ chức xí nghiệp hoạt động có hiệu quả và phát triển được trong môi trường cạnh tranh. 1.1.5 Phân biệt DW với những hệ cơ sở dữ liệu tác nghiệp Dựa trên những đặc trưng của DW, ta nhận thấy thực ra nét khác biệt của DW so với CSDL chỉ là ở quan niệm, cách nhìn vấn đề [7]: - Trước tiên DW là CSDL rất lớn. DW về bản chất cũng là một CSDL bình thường, các hệ quản trị cơ sở dữ liệu quản lý và lưu trữ nó như các CSDL thông thường tuy nhiên có hỗ trợ thêm về quản lý dữ liệu lớn và truy vấn. - CSDL hướng về xử lý thời gian thực, DW hướng về tính ổn định. - 14 - - CSDL phục vụ xử lý giao dịch, cập nhật. DW thường chỉ đọc, phục vụ cho những nhu cầu báo cáo, ra quyết định. - DW lấy thông tin có thể từ nhiều nguồn khác nhau: DB2, Oracle, SQL server thậm chí cả File thông thường rồi làm sạch chúng và đưa vào cấu trúc của nó - đó là VLDB (Very Large Database). Dữ liệu từ CSDL tác nghiệp được chắt lọc và tổng hợp lại để chuyển sang môi trường kho dữ liệu. Rất nhiều dữ liệu khác không được chuyển về kho dữ liệu, chỉ những dữ liệu cần thiết cho công tác quản lý hay trợ giúp quyết định mới được chuyển sang kho dữ liệu. - Kho dữ liệu phải được xác định theo hướng chủ đề. Nó được thực hiện theo ý đồ của người sử dụng đầu cuối trong khi các hệ CSDL tác nghiệp dùng để phục vụ các mục đích áp dụng chung. Kho dữ liệu rất lớn nên muốn cho từng bộ phận chuyên biệt người sử dụng cuối cùng có thể khai thác thông tin dễ dàng thì bản thân kho dữ liệu phải được chuyên hoá, phân ra thành những chủ đề. Những chủ đề chuyên môn hóa đó tạo thành một CSDL chuyên biệt - đó là Data Mart (DM). - Một điểm quan trọng là CSDL thường được chuẩn hóa để tiện cho việc khai thác. DW thì lại phải phi chuẩn hoá rồi sau đó có thể chuẩn hoá theo giản đồ hình sao trong DM, nghĩa là kho dữ liệu sẽ trùng lặp thông tin. Điều này là hiển nhiên vì mục đích của chuẩn hoá nhằm tránh sự trùng lặp dữ liệu, do đó sẽ nhất quán trong việc cập nhật, thêm, xoá, sửa. Trong khi đó, DW là CSDL rất lớn phục vụ chủ yếu cho báo cáo truy vấn chỉ đọc nên việc trùng lặp thông tin sẽ giúp tìm kiếm nhanh hơn. 1.1.6 Một số khái niệm cơ bản 1.1.6.1 Kho dữ liệu cục bộ - Datamart Kho dữ liệu cục bộ (DataMart -DM) là CSDL có những đặc điểm giống với kho dữ liệu nhưng với quy mô nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực, một chuyên ngành. DM là kho dữ liệu hướng chủ đề. Các DM có thể được hình thành từ một tập con dữ liệu của kho dữ liệu hoặc cũng có thể được xây dựng độc lập và sau khi xây dựng xong, các DM có thể được kết nối tích hợp lại với nhau tạo thành kho dữ liệu. Vì vậy, có thể xây dựng kho dữ liệu bắt đầu bằng - 15 - việc xây dựng các DM hay ngược lại xây dựng kho dữ liệu trước sau đó tạo ra các DM. DM hướng tới một phần của dữ liệu thường được gọi là một vùng chủ đề (Subject Area -SA) được tạo ra và dành cho một nhóm người sử dụng. Dữ liệu trong DM cho thông tin về một chủ đề xác định, không phải về toàn bộ các hoạt động nghiệp vụ đang diễn ra trong một tổ chức. Thể hiện thường xuyên nhất của DM là một kho dữ liệu riêng rẽ theo phương diện vật lý, thường được lưu trữ trên một Server riêng, trong một mạng cục bộ phục vụ cho một nhóm người nhất định. Có thể chia ra làm 2 loại: DM độc lập và DM phụ thuộc.  DM phụ thuộc: chứa những dữ liệu được lấy từ kho dữ liệu và những dữ liệu này sẽ được trích lọc và tinh chế, tích hợp lại ở mức cao hơn để phục vụ một chủ đề nhất định của DM.  DM độc lập: không giống như DM phụ thuộc, DM loại này được xây dựng trước kho dữ liệu và dữ liệu được trực tiếp lấy từ các nguồn khác nhau. Phương pháp này đơn giản hơn và chi phí thấp hơn nhưng đổi lại có những điểm yếu. Mỗi DM độc lập có cách tích hợp riêng, do đó dữ liệu từ nhiều DM khó đồng nhất với nhau. 1.1.6.2 Kho dữ liệu tác nghiệp, cơ sở dữ liệu thao tác Kho dữ liệu tác nghiệp (Operational Database Store- ODS) là hệ thống tác nghiệp tích hợp căn bản dùng cho mục đích thực hiện công việc trợ giúp quyết định và phân tích trên dữ liệu giao dịch tác nghiệp. Nói một cách khác, kho dữ liệu tác nghiệp là một khái niệm có kiến trúc để hỗ trợ cho việc tạo quyết định tác nghiệp hàng ngày lưu trữ những dữ liệu có giá trị hiện thời được chuyển đến từ các ứng dụng tác nghiệp. Điều đó khiến cho dữ liệu lưu trữ trong kho dữ liệu tác nghiệp biến động thường xuyên khi những dữ liệu liên quan trong các hệ thống tác nghiệp có sự thay đổi. Kho dữ liệu tác nghiệp cung cấp một sự lựa chọn cho các ứng dụng trợ giúp quyết định tác nghiệp, truy nhập dữ liệu một cách trực tiếp từ các hệ thống xử lý các giao dịch trực tuyến. Kho dữ liệu tác nghiệp cần phải được xây dựng riêng biệt và là một phần của kho dữ liệu. EIS A B - 16 DW DSS Hình 1.1 Sự phân cách giữa ODS với DW Một trong những sự khác nhau cơ bản và quan trọng nhất là ở nội dung và các cấu trúc dữ liệu được lưu trữ. Kho dữ liệu tác nghiệp chứa những dữ liệu có giá trị hiện thời hoặc gần với dữ liệu hiện thời, còn kho dữ liệu chứa những dữ liệu lịch sử, có giá trị trong một quá khứ gần. Kho dữ liệu tác nghiệp có thể cập nhật còn kho dữ liệu không cập nhật được [1]. Một sự khác nhau nữa là công nghệ hỗ trợ cho hai hệ thống đó. Kho dữ liệu tác nghiệp đòi hỏi phải là môi trường được phép cập nhật, ghi, thay đổi được những dữ liệu cần thiết để cho phù hợp với nghiệp vụ và nhanh chóng trả lời được các yêu cầu của người sử dụng, kho dữ liệu thì ngược lại, chỉ yêu cầu đơn giản là nạp và truy cập. Về mặt chức năng, kho dữ liệu tác nghiệp cung cấp một khung nhìn tập trung về dữ liệu gần với thời gian thực từ các hệ thống tác nghiệp. Trong mối quan hệ với kho dữ liệu, kho dữ liệu tác nghiệp có thể được sử dụng như kho dữ liệu dùng cho việc tập hợp dữ liệu từ các nguồn khác nhau. Ngược lại, kho dữ liệu tác nghiệp không hoạt động như là một kho dữ liệu trung gian cho kho dữ liệu, đặc biệt trong trường hợp kho dữ liệu cần dữ liệu từ những nguồn bên ngoài, không nằm trong kho dữ liệu tác nghiệp. Trong trường hợp đó, kho dữ liệu có thể lấy dữ liệu một cách riêng rẽ từ kho dữ liệu tác nghiệp hoặc một nguồn dữ liệu bên ngoài được thêm vào thành phần tinh chế dữ liệu của kho dữ liệu. Như vậy kho dữ liệu tác nghiệp là hệ thống:  Hướng theo chủ đề.  Tích hợp. - 17 -  Có thể thay đổi được, có thể cập nhật.  Tuyển tập các dữ liệu hiện tại hoặc gần với hiện tại hỗ trợ cho những quyết định tác nghiệp hàng ngày. Do đó có thể nói kho dữ liệu tác nghiệp khác chủ yếu với kho dữ liệu ở hai điểm cuối. Dữ liệu từ nhiều ứng dụng hiện tại cần được chuyển đổi để lưu vào kho dữ liệu tác nghiệp. 1.1.6.3 Kho dữ liệu ảo Khi xây dựng và khai thác DW, người ta còn hay sử dụng khái niệm kho dữ liệu ảo (Virtual Data Warehouse - VDW) như là một cách để cài đặt nhanh chóng DW mà không cần sao chép lại nhiều bộ dữ liệu. VDW là một kho dữ liệu logic mà ở đó NSD được quyền truy nhập trực tiếp vào nhiều nguồn dữ liệu thao tác khác nhau thông qua những công cụ trung gian. VDW được sử dụng để nâng cấp khả năng của mạng đối với mọi công cụ của NSD, ở mọi nơi trên mạng đều có thể truy cập vào các dữ liệu thời gian thực và các dữ liệu dẫn xuất cần thiết. 1.2 CÁC KIỂU DỮ LIỆU 1.2.1 Dữ liệu nghiệp vụ Dữ liệu nghiệp vụ (Business Data – BD) là dữ liệu dùng để vận hành và quản lý một doanh nghiệp hoặc một tổ chức. Nó phản ánh những hoạt động của doanh nghiệp và những đối tượng trong thế giới thực như là khách hàng, địa điểm, sản phẩm,v.v.. Nó được tạo ra và sử dụng bởi các hệ thống xử lý giao tác cũng như các hệ thống hỗ trợ quyết định (DSS). Dựa trên dữ liệu có cấu trúc, dữ liệu nghiệp vụ được chia làm 3 loại sau:  Dữ liệu thời gian thực (real- time data): Dữ liệu chi tiết, tức thời, dùng để vận hành công việc và được truy xuất theo chế độ đọc/ghi thông qua các giao dịch đã được xác định trước. Dữ liệu thời gian thực được tạo lập, thao tác và sử dụng dụng trong các ứng dụng thao tác hay sản xuất. Chúng có thể tổ chức thành các files hay CSDL. - 18 -  Dữ liệu dẫn xuất (derived data): Dữ liệu xác định theo thời điểm hoặc dữ liệu định kỳ, ở mức chi tiết hoặc tổng hợp, thuộc chế độ chỉ đọc, nhận được từ việc xử lý dữ liệu thời gian thực và dùng để quản lý công việc nghiệp vụ.  Dữ liệu tƣơng hợp, hoà hợp (reconciled data): Dữ liệu tương hợp là một loại dữ liệu dẫn xuất đặc biệt, sinh ra bởi một tiến trình được thiết kế nhằm bảo đảm sự vững chắc nội tại của dữ liệu kết quả, tiến trình này thực hiện dựa vào dữ liệu thời gian thực tại mức chi tiết, duy trì hoặc tạo ra các dữ liệu lịch sử. 1.2.2 Dữ liệu nghiệp vụ phi cấu trúc Ngược lại với dữ liệu có cấu trúc, dữ liệu phi cấu trúc là những dữ liệu không thuần nhất, ví dụ hình ảnh, âm thanh hay đoạn phim. Tầm quan trọng của dữ liệu phi cấu trúc ngày càng tăng lên trong công việc nghiệp vụ cũng như trong các hệ thống thông tin. Dữ liệu phi cấu trúc có kích thước lớn, khó thao tác và không được hỗ trợ tốt trong các cơ sở dữ liệu và các công cụ khác. Tuy vậy, một kho chứa thông thường không thể không có dữ liệu loại này, nhưng nó chỉ được đưa vào kho sau khi đã hoàn thành việc đưa dữ liệu có cấu trúc vào kho. 1.2.3 Siêu dữ liệu (Metadata ) Metadata (hay gọi là siêu dữ liệu) là dữ liệu về dữ liệu được sử dụng trong kho dữ liệu trả lời các câu hỏi ai, cái gì, khi nào, tại sao, như thế nào về dữ liệu. Nó được sử dụng cho việc xây dựng, duy trì, quản lý và sử dụng kho dữ liệu. Metadata được chia thành 3 loại: siêu dữ liệu nghiệp vụ, siêu dữ liệu kĩ thuật và siêu dữ liệu tác nghiệp. 1. Siêu dữ liệu nghiệp vụ (Business Metadata): chứa đựng những thông tin giúp cho người sử dụng dễ dàng hiểu được khung cảnh của thông tin được lưu trữ trong kho dữ liệu. Nó chứa đựng những thông tin cho tất cả những người sử dụng đầu cuối. - 19 - 2. Siêu dữ liệu kỹ thuật (Technical Metadata): chứa đựng những thông tin về dữ liệu trong kho dữ liệu của những người thiết kế và quản trị khi tiến hành công việc phát triển và quản lý. 3. Siêu dữ liệu tác nghiệp (Operational Metadata - OM)  Siêu dữ liệu tác nghiệp giúp cho việc duy trì và triển khai kho dữ liệu và mô tả thông tin chứa đựng trong các bảng đích.  Mô tả cốt lõi, khả năng tạo cơ sở dữ liệu đích (tạo ra bảng và thông tin dưới dạng liệt kê), thông tin được lưu trữ hay trực tuyến, ngày làm tươi mới dữ liệu, số lượng các bản ghi, lịch thực hiện các công việc và những người sử dụng có khả năng truy nhập vào dữ liệu. Metadata cung cấp cho người sử dụng sự truy nhập tương tác để giúp cho họ có thể hiểu được nội dung và tìm thấy được dữ liệu cần thiết. Tất cả các thành phần của kho dữ liệu đều cần và có thể lấy dữ liệu từ Metadata. Metadata được lưu trữ ở khu vực trung tâm. 1.3 KIẾN TRÚC DỮ LIỆU DW 1.3.1 Kiến trúc tham chiếu cơ bản và một số nguyên lý hoạt động của kho dữ liệu Kiến trúc của kho dữ liệu dưới đây mô tả các thành phần của kho: LỚP QUẢN LÝ DỮ LIỆU KHỐI CÁC NGUỒN DỮ LIỆU KHỐI TẠO DỰNG KHO DỮ LIỆU KHỐI TẠO DỰNG DATA MART KHỐI TRUY NHẬP VÀ SỬ DỤNG LỚP QUẢN LÝ SIÊU DỮ LIỆU LỚP CHUYỂN TẢI DỮ LIỆU LỚP KẾT CẤU HẠ TẦNG - 20 -
- Xem thêm -

Tài liệu liên quan