Ứng dụng công nghệ kho dữ liệu trong công tác quản lý nguồn vốn tại ngân hàng

  • Số trang: 81 |
  • Loại file: PDF |
  • Lượt xem: 16 |
  • Lượt tải: 0
nhattuvisu

Đã đăng 26946 tài liệu

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ––––––––––oOo–––––––––– TẠ LIÊN DUNG ĐỀ TÀI ỨNG DỤNG CÔNG NGHỆ KHO DỮ LIỆU TRONG CÔNG TÁC QUẢN LÝ NGUỒN VỐN TẠI NGÂN HÀNG Chuyên ngành: Công nghệ thông tin Mã số: 1.01.10 LUẬN VĂN THẠC SĨ Người hướng dẫn khoa học: PGS.TS Nguyễn Đình Hoá HÀ NỘI 2007 Kho dữ liệu chuyển vốn Nội bộ tại BIDV MỤC LỤC LỜI CÁM ƠN ........................................................................................................................ 5 CHƢƠNG 1. TỔNG QUAN VỀ KHO DỮ LIỆU .............................................................. 6 I. KHÁI NIỆM CHUNG VỀ KHO DỮ LIỆU ............................................ 6 1. Hệ thống cơ sở dữ liệu xử lý giao dịch (OLTP) .................................. 6 2. Hệ thống Kho dữ liệu.......................................................................... 9 3. Chợ dữ liệu (Data Mart).................................................................... 12 4. Kiến trúc của một Kho dữ liệu .......................................................... 13 II. CÁC THÀNH PHẦN CỦA KHO DỮ LIỆU ....................................... 14 1. Rút trích dữ liệu (ETL – Extract Transformation Loading) ............... 15 a. Trích dữ liệu - Extract................................................................... 16 b. Chuyển đổi dữ liệu - Transform .................................................... 16 c. Nạp dữ liệu (Load) ........................................................................ 17 d. Làm mới dữ liệu ............................................................................ 18 2. Tổng hợp, phân tích dữ liệu và tạo Kho dữ liệu OLAP ..................... 20 a. Dạng nhiều chiều (Multidimensional) - MOLAP ........................... 21 b. Dạng quan hệ (relational) - ROLAP ............................................. 21 c. Dạng lai (Hybird) - HOLAP .......................................................... 21 3. Phân phối dữ liệu lƣu trữ (báo cáo) tới ngƣời sử dụng. ..................... 22 4. Mô hình khái niệm và các công cụ đầu cuối ..................................... 23 a. Mô hình khái niệm ........................................................................ 23 b. Các công cụ đầu cuối .................................................................... 24 5. Các phƣơng pháp thiết kế cơ sở dữ liệu ............................................ 26 CHƢƠNG 2. CẤU TRÚC CỦA KHO DỮ LIỆU TẠI BIDV ........................................... 29 I. HỆ ĐIỀU HÀNH VÀ CƠ SỞ DỮ LIỆU NGUỒN:............................... 29 1. Dữ liệu tập trung: .............................................................................. 29 2. Giao dịch online: .............................................................................. 30 3. Batchrun offline ................................................................................ 30 II. HỆ THỐNG KHO DỮ LIỆU ............................................................... 31 1. Mô hình kho dữ liệu của BIDV ......................................................... 31 2. Cách thức hoạt động của kho dữ liệu tại BIDV ................................. 33 III. CÁC VẤN ĐỀ ĐANG TỒN TẠI CỦA KHO DỮ LIỆU TẠI BIDV .. 35 1. Rút trích dữ liệu (ETL). .................................................................... 35 2. Kho dữ liệu OLAP ............................................................................ 36 3. Các vấn đề về phân phối báo cáo tới ngƣời sử dụng cuối. ................. 36 1. Mô hình ngân hàng ........................................................................... 37 2. Hệ thống thông tin tại Hội sở chính của BIDV ................................. 38 3. Sự cần thiết của kho dữ liệu trong ngân hàng. ................................... 39 CHƢƠNG 3. YÊU CẦU CHUNG CỦA HỆ THỐNG CHUYỂN VỐN NỘI BỘ ............. 40 I. YÊU CẦU CHUNG .............................................................................. 40 II. GIẢI THÍCH MỘT SỐ TỪ NGỮ ĐƢỢC SỬ DỤNG TRONG TÀI LIỆU ........................................................................................................ 41 III. CÁC YÊU CẦU CỤ THỂ: ................................................................. 42 Tạ Liên Dung - K10T3 2 Kho dữ liệu chuyển vốn Nội bộ tại BIDV 1. Kỳ hạn chuyển vốn ........................................................................... 42 2. Giá chuyển vốn: ................................................................................ 43 3. Đồng tiền giao dịch:.......................................................................... 44 4. Thu nhập:.......................................................................................... 44 5. Đánh giá hiệu quả của đơn vị kinh doanh: ........................................ 45 6. Điều chỉnh chi phí: ........................................................................... 47 7. Điều chỉnh thu nhập .......................................................................... 49 CHƢƠNG 4. PHÂN TÍCH THIẾT KẾ HỆ THỐNG CHUYỂN VỐN NỘI BỘ................ 51 I. SƠ ĐỒ LUỒNG DỮ LIỆU ................................................................... 51 II. MÔ TẢ HOẠT ĐỘNG CỦA HỆ THỐNG .......................................... 53 III. MÔ TẢ CÁC BẢNG DỮ LIỆU THỰC THỂ CỦA CƠ SỞ DỮ LIỆU SQL - KHO DỮ LIỆU.............................................................................. 54 1. Atmftpday......................................................................................... 54 2. Atmftpday_R .................................................................................... 55 3. Amtftpmonth .................................................................................... 56 4. Contract_ftp ...................................................................................... 57 5. Cdmast_FTP ..................................................................................... 57 6. DDmast_Ftp ..................................................................................... 58 7. Glmast_ftp ........................................................................................ 59 8. Lnmast_ftp ....................................................................................... 59 9. kiemtralechPH_GL ........................................................................... 60 10. Thunhapftp ..................................................................................... 61 11. Ssfxhs ............................................................................................. 61 12. Zbranch .......................................................................................... 61 13. zcurtyp ............................................................................................ 62 14. Zftpday ........................................................................................... 62 15. Zftpmat ........................................................................................... 62 16. Zftpmat_R ...................................................................................... 63 17. Zgl0 ................................................................................................ 63 18. Zgl1 ................................................................................................ 63 19. Zgl2 ................................................................................................ 64 20. Zgl3 ................................................................................................ 64 21. Zgl4 ................................................................................................ 64 22. Zgltncp ........................................................................................... 64 23. Zngayhethong ................................................................................. 65 24. Zprod0 ............................................................................................ 65 25. Zprod1 ............................................................................................ 65 26. Zprod2 ............................................................................................ 66 27. Zprod3 ............................................................................................ 66 28. Zprod4 ............................................................................................ 66 IV. MÔ TẢ PACKAGE CỦA CHƢƠNG TRÌNH ................................... 67 V. MÔ TẢ CÁC KHỐI OLAP ................................................................. 67 1. FTPday_08: ...................................................................................... 67 Tạ Liên Dung - K10T3 3 Kho dữ liệu chuyển vốn Nội bộ tại BIDV 2. FTPday_TH ...................................................................................... 69 3. FTPMonth ........................................................................................ 70 4. TNCP ............................................................................................... 71 5. GL_POS ........................................................................................... 72 6. Ktralech ............................................................................................ 73 VI. CHƢƠNG TRÌNH BÁO CÁO ĐỊNH GIÁ CHUYỂN VỐN NỘI BỘ 75 VII. CHƢƠNG TRÌNH THAM SỐ .......................................................... 80 VIII. KẾT LUẬN ..................................................................................... 81 Tạ Liên Dung - K10T3 4 Kho dữ liệu chuyển vốn Nội bộ tại BIDV CHƢƠNG 1. TỔNG QUAN VỀ KHO DỮ LIỆU I. KHÁI NIỆM CHUNG VỀ KHO DỮ LIỆU Máy tính từ khi ra đời đã đóng vai trò vô cùng quan trọng trong lịch sử phát triển của nhân loại. Các máy tính cung cấp những công cụ tính toán mạnh, cho phép con người giải được các bài toán có số lượng tính toán khổng lồ mà trước đó không thể thực hiện được bằng tay. Máy tính cũng góp phần làm đẩy nhanh tốc độ phát triển của nền khoa học kỹ thuật trên toàn thế giới. Cùng với sự phát triển như vũ bão của công nghệ phần cứng trong lĩnh vực công nghệ thông tin, công nghệ phần mềm cũng có những bước tiến dài trong lĩnh vực quản lý dữ liệu. Ban đầu là sự xuất hiện của những CSDL quan hệ chạy trên các máy để bàn như DBASE, ACCESS, FOXPRO, SQL Server..., tạo điều kiện vô cùng thuận lợi cho nguời phát triển. Dường như máy tính và những chương trình của nó đã giải quyết được hầu hết các vấn đề trong lĩnh vực quản lý. Tuy nhiên, trong thực tế, các công ty, tổ chức muốn thành công trên thị trường, ngoài việc tổ chức bán hàng tốt (giao dịch đơn giản, thuận tiện cho người mua và người quản lý bán hàng...), người lãnh đạo công ty phải nắm được thực chất các quá trình diễn ra trong đơn vị mình và trong môi trường kinh doanh mà đơn vị đó hoạt động để đưa ra các quyết định điều hành đúng đắn, kịp thời. Các hệ phần mềm kế toán, lập kế hoạch, giao dịch khách hàng, lập hoá đơn... mới chỉ có thể tự động thực hiện các chức năng giao dịch cơ bản của một đơn vị kinh doanh. Chính vì lý do đó những hệ thống này có một cái tên cổ điển là hệ thống xử lý giao dịch (OLTP- online transaction processing). 1. Hệ thống cơ sở dữ liệu xử lý giao dịch (OLTP) Hệ thống OLTP cho phép các giao dịch thay đổi dữ liệu trong bảng (thông qua các lệnh insert, update, delete, join...) trong quá trình xử lý. Hệ thống cho phép nhiều ứng dụng cùng truy cập dữ liệu tại một thời điểm. Các ứng dụng trên client bao gồm tất cả các loại ứng dụng như ngân hàng, bán vé trực tuyến, bán vé hàng không, thanh toán cước phí... Sử dụng hệ thống OLTP có các ưu điểm sau: Tạ Liên Dung - K10T3 6 Kho dữ liệu chuyển vốn Nội bộ tại BIDV - Xử lý các chuyển tác tương tác. - Dễ bảo trì và khống chế dữ liệu thừa. - Thiết lập dữ liệu quan hệ trọn vẹn. - Tính hiệu quả cao. - Giảm thời gian giao dịch của khách hàng. Các CSDL trong các hệ OLTP thường được thiết kế thoả mãn 3NF (Third Normal Form) hoặc tốt hơn. Đặc điểm của hệ thống OLTP là nó lưu trữ các dữ liệu "thô", có nghĩa là mức độ tổng quát, trừu tượng của dữ liệu này rất thấp. Nói cách khác OLPT rất có ích để tìm trả lời những câu truy vấn dạng: Tổng sản lượng sản phẩm X do công ty bán được trong 6 tháng đầu năm, mặt hàng nào bán chạy nhất tại địa phương Y trong tháng vừa qua... Trong khi đó các nhà quản lý ở mức cao của công ty rất ít khi quan tâm đến những câu hỏi loại đó. Điều họ cần chú ý là những câu hỏi trừu tượng hơn như: Tiêu thụ A tại B đang giảm, nếu thay đổi 3%-5% giá của sản phẩm A tại khu vực B, tình trạng tiêu thụ sẽ thay đổi ra sao trong 6 tháng cuối năm và tại sao? Các hệ thống OLTP hiện nay trả lời rất tốt câu hỏi dạng 1 bằng các công cụ của hệ CSDL quan hệ nhưng để tìm đáp án cho những câu hỏi dạng 2 là không đơn giản. Những yếu tố căn bản cản trở việc sử dụng dữ liệu của các hệ thống OLPT trong việc phân tích dữ liệu là: + Các số liệu ở mức quá chi tiết + Các số liệu được phân bố ở những hệ thống khác nhau, có các thủ tục truy cập khác nhau và ở những CSDL hoàn toàn khác nhau. + Các số liệu không được cập nhập cùng một chu kỳ dẫn đến sự mất đồng bộ. + Việc tổ chức truy cập từ rất nhiều bảng dữ liệu khác nhau có ảnh hưởng rất xấu tới hiệu suất của các hệ thống vì mục đích của các hệ thống này là nhằm phục vụ các giao dịch trực tuyến. Trong môi trường thừa thãi số liệu, nhà phân tích không thể tìm ra cho mình thông tin cần thiết nhằm có được sự hiểu biết thấu đáo về những quá trình Tạ Liên Dung - K10T3 7 Kho dữ liệu chuyển vốn Nội bộ tại BIDV xảy ra xung quanh. Tình trạng số liệu quá chi tiết và không có được sự liên kết với nhau của các số liệu phản ánh các quá trình tương đối độc lập của một thực thể là lý do trực tiếp dẫn đến sự khủng hoảng này. Vì vậy, người ta đã đưa ra giải pháp tích hợp các hệ thống OLTP để tạo ra một hệ thống chứa đầy đủ thông tin. Tuy nhiên giải pháp này có hai nhược điểm lớn: - Phải liên kết các hệ thống có xuất xứ khác nhau về phần cứng và phần mềm hệ thống. Các chương trình cần có sự thống nhất về định nghĩa dữ liệu cũng như phương pháp biểu diễn dữ liệu. Vấn đề này rất phức tạp thậm chí đối với các hệ thống có thiết kế phân tích tốt và hoàn toàn không khả thi đối với những hệ thống được mô tả kém. - Việc truy vấn để tạo báo cáo thường xuyên phải khoá rất nhiều bảng, cản trở sự truy xuất của nhân viên khai thác trong quá trình làm việc hàng ngày và làm ảnh hưởng trực tiếp đến khách hàng. Với sự phát triển như vũ bão của các ngành công nghệ, nhu cầu sử dụng cơ sở dữ liệu hiện nay cũng đã thay đổi rất nhiều, từ việc quản lý, phân tích dữ liệu truyền thống tiến tới nhu cầu phân tích xử lý dữ liệu trực tuyến, nhất là nhu cầu hỗ trợ quyết định. Vào những năm 90 của thế kỷ trước, B.Inmon đề xướng một giải pháp kỹ thuật gọi là Data Warehoushing - kỹ thuật xây dựng các kho dữ liệu. Data Warehouse hay DWH (kho dữ liệu) được định nghĩa như một tập hợp các phương tiện cho phép hình dung dữ liệu một cách tổng thể, hướng đối tượng để giúp cho việc phân tích và ra quyết định. Những người đầu tiên đưa ra ý tưởng về DWH xác định rằng tiến hành phân tích trực tiếp trên dữ liệu của các hệ xử lý giao dịch và không hiệu quả. Các dữ liệu từ một vài OLTP được biến đổi và sau đó đưa vào một nguồn dữ liệu duy nhất là DWH. Quá trình này được gọi là đưa dữ liệu vào DWH, gồm các công đoạn chính sau: + Làm sạch (Bỏ các dữ liệu không cần thiết hoặc quá chuyên dụng) + Liên kết các số liệu (Tính trước số liệu tích, tổng, trung bình ...) Tạ Liên Dung - K10T3 8 Kho dữ liệu chuyển vốn Nội bộ tại BIDV + Biến đổi dữ liệu: số liệu được biến đổi thành dạng thích hợp, tổ chức lại phù hợp với DWH + Tích hợp số liệu từ các nguồn khác nhau. + Đồng bộ hoá số liệu ở một thời điểm xác định. DWH là hệ thống dữ liệu đã được chuẩn bị để xây dựng hệ hỗ trợ quyết định (DSS-Decision Support Systems) và hệ phân tích trực tuyến (OLAP-Online Analysis Processing) vì rằng dữ liệu trong DWH thoả mãn tính chất toàn vẹn và có sự liên kết nội tại: Mặc dù dữ liệu được cung cấp từ nhiều OLTP, chúng được liên kết bằng sự thống nhất trong quy tắc đặt tên, đơn vị đo, hệ thống các thuộc tính chung... Điều này có giá trị đặc biệt khi xí nghiệp vận hành một lúc vài hệ thống, trong đó các dữ liệu được biểu diễn bằng những đơn vị khác nhau (ví dụ như các cách biểu diễn ngày, tháng khác nhau hoặc biểu diễn logic khác nhau). Các chỉ số quan trọng có như tổng số, giá trị trung bình trong các giai đoạn khác nhau, trung bình cộng... cũng được biểu diễn rất đa dạng ở các hệ khác nhau. Khi đưa số liệu vào DWH, mọi chỉ số không tương thích được chuyển đổi, tránh các lỗi tiềm tàng trong hệ thống. Kho dữ liệu và xử lý phân tích trực tuyến (OLAP) là những yếu tố cần thiết của hệ hỗ trợ quyết định, hiện đang trở thành tâm điểm chú ý của ngành công nghiệp cơ sở dữ liệu. Rất nhiều dịch vụ, sản phẩm thương mại cũng như tất cả các hệ quản trị cơ sở dữ liệu hiện nay cũng hỗ trợ các lĩnh vực này. Hệ hỗ trợ quyết định đặt ra một số yêu cầu khá khác biệt cho công nghệ cơ sở dữ liệu so với các ứng dụng xử lý giao dịch trực tuyến truyền thống. 2. Hệ thống Kho dữ liệu Một kho dữ liệu là một tập hợp dữ liệu ổn định, hướng đối tượng, tích hợp và biến thiên theo thời gian, nó dược sử dụng chủ yếu trong việc ra quyết định có tổ chức. Kho dữ liệu được cài đặt độc lập so với cơ sở dữ liệu thao tác ban đầu do nó hỗ trợ quá trình xử lý phân tích trực tuyến (OLAP), vì thế, các yêu cầu về hiệu năng và chức năng của nó khá khác biệt so với các yêu cầu của các ứng dụng xử lý giao dịch trực tuyến (OLTP) truyền thống trong cơ sở dữ liệu tương tác. Các đặc tính của kho dữ liệu thông thường là: Tạ Liên Dung - K10T3 9 Kho dữ liệu chuyển vốn Nội bộ tại BIDV Hướng chủ đề: Các hệ thống OLTP có thể chứa hàng trăm Gbyte số liệu, tuy nhiên những số liệu này có thể hoàn toàn vô ích trong việc phân tích trực tuyến (VD: Địa chỉ, ID khách hàng...). Các dữ liệu kiểu này thường không được đưa vào DWH để hạn chế dữ liệu cần xem xét xuống mức tối thiểu nhưng cũng bảo đảm các thông tin theo từng SA (vùng chủ đề- Subject area). Một vùng chủ đề là một chủ đề được tách ra từ một tập hợp lớn các chủ đề mà người sử dụng quan tâm trong công việc kinh doanh, (Ví dụ khách hàng, thời gian hay sản phẩm). Số liệu có tính lịch sử: Các hệ OLTP thường bao quát một khoảng thời gian không lớn và chúng được lưu trữ theo chu kỳ. Ngược lại trong DWH, dữ liệu của hàng chục năm được lưu trữ nhằm phát hiện sự liên hệ của các yếu tố có thể ảnh hưởng đến những chỉ tiêu cần quan tâm trong một thời gian dài. Số liệu chỉ để đọc: Dữ liệu đưa vào DWH chỉ để đọc, việc sửa dữ liệu hầu như không được tiến hành vì điều này có thể dẫn đến phá vỡ sự toàn vẹn. Thông thường người ta không yêu cầu giảm thời gian đưa dữ liệu vào DWH xuống mức tối thiểu, nhưng cần tối ưu hoá DWH sao cho các truy vấn phục vụ cho việc phân tích đạt tốc độ tốt nhất. Các sơ đồ quan hệ sẽ tạo ra các Index hợp lý cũng như tạo ra sẵn các dữ liệu kết hợp. Số liệu không biến động: Thông tin trong DW được tải vào sau khi dữ liệu trong hệ thống điều hành được cho là quá cũ. Không biến động thể hiện ở chỗ: Dữ liệu được lưu trữ lâu dài trong kho dữ liệu. Mặc dù có thêm dữ liệu mới nhập vào nhưng dữ liệu cũ trong kho vẫn không bị xoá, điều đó cho phép cung cấp thông tin về một khoảng thời gian dài, cung cấp đủ số liệu cần thiết cho các mô hình nghiệp vụ phân tích, dự báo. Các ứng dụng OLTP tiêu biểu thường tự động hoá các tác vụ xử lý dữ liệu văn phòng, chẳng hạn như nhập đơn đặt hàng hoặc các giao dịch ngân hàng. Các tác vụ này là các thao tác cơ bản lặp đi lặp lại hằng ngày một cách có tổ chức. Các tác vụ này thường là các giao dịch có cấu trúc và được lặp lại, ngắn gọn, cơ bản, và phân lập. Các giao dịch này yêu cầu dữ liệu chi tiết, cập nhật, đồng thời đọc hoặc cập nhật một số bản ghi được truy cập đặc biệt qua các khoá chính của chúng. Các cơ sở dữ liệu tương tác thường có kích cỡ khoảng hoàng trăm megabytes cho đến vài gigabytes. Tính ổn định và khả năng khôi phục lại của cơ sở dữ liệu là có giới hạn, và việc tối đa hoá thông lượng giao dịch là việc đo Tạ Liên Dung - K10T3 10 Kho dữ liệu chuyển vốn Nội bộ tại BIDV lường hiệu năng then chốt. Do đó, cơ sở dữ liệu được thiết kế để phản ánh các ngữ nghĩa quản trị của các ứng dụng tri thức và, đặc biệt là, để tối thiểu hoá các xung đột đồng thời. Trái ngược với các ứng dụng OLTP, kho dữ liệu được thiết kế cho mục đích hỗ trợ quyết định. Các dữ liệu hợp nhất, tổng hợp và lịch sử quan trọng hơn là các bản ghi độc lập, chi tiết. Vì kho dữ liệu chứa các dữ liệu đồng nhất, có thể được lấy từ một số cơ sở dữ liệu thao tác, qua các giai đoạn thời gian khá dài, chúng được sắp xếp để có thể chứa được khối lượng dữ liệu lớn hơn các cơ sở dữ liệu thao tác thông thường. Các kho dữ liệu doanh nghiệp được xây dựng để có thể chứa tới hàng trăm gigabyte cho tới hàng terabyte dữ liệu. Khối lượng công việc thường là truy vấn ad hoc, các truy vấn phức tạp (các truy vấn này có thể truy cập tới vài triệu bản ghi và thực hiện rất nhiều các thao tác quét, kết nối và tập hợp). Thông lượng truy vấn và thời gian đáp ứng trong kho dữ liệu quan trọng hơn nhiều so với thông lượng giao dịch. Để làm cho công việc phân tích và hình dung dữ liệu trở nên dễ dàng hơn, dữ liệu trong kho thường có mô hình nhiều chiều. Ví dụ, trong kho dữ liệu bán hàng, thời gian bán hàng, người bán, sản phẩm có thể là một số chiều dữ liệu. Thông thường, những chiều này được phân thành các cấp độ; thời gian bán hàng có thể được tổ chức dưới dạng cấp độ như ngày - tháng - quý - năm, sản phẩm có thể được tổ chức dưới dạng sản phẩm - danh mục - công nghiệp. Nếu ta cố gắng thực thi các truy vấn xử lý phân tích trực tuyến (OLAP) phức tạp trên cơ sở dữ liệu thao tác thì kết quả thu được là hiệu suất rất thấp (thời gian trả lời truy vấn rất lâu), thậm chí là không thể chấp nhận được. Hơn nữa, việc hỗ trợ quyết định đòi hỏi dữ liệu có thể không có từ cơ sở dữ liệu thao tác, ví dụ như, để hiểu các xu hướng hoặc đưa ra tiên đoán yêu cầu phải có dữ liệu lịch sử, trong khi đó, cơ sở dữ liệu tương tác chỉ lưu dữ liệu hiện tại. Việc hỗ trợ quyết định thường đòi hỏi dữ liệu hợp nhất từ nhiều nguồn dữ liệu hỗn tạp: những nguồn dữ liệu này có thể là các nguồn dữ liệu mở rộng và một số cơ sở dữ liệu tương tác. Các nguồn khác nhau có chất lượng dữ liệu khác nhau, hoặc sử dụng các đại diện, mã hoá và định dạng trái ngược với nhau. Ngoài ra, việc hỗ trợ các mô hình dữ liệu nhiều chiều và các thao tác cơ bản của OLAP (mở rộng mức độ tổ hợp, thu nhỏ mức độ tổ hợp hoặc mở rộng chi tiết) yêu cầu cách tổ chức dữ liệu, các phương pháp truy cập dữ liệu cũng Tạ Liên Dung - K10T3 11 Kho dữ liệu chuyển vốn Nội bộ tại BIDV như các phương pháp cài đặt cụ thể, đặc biệt khác với mục đích thương mại của OLTP. Đó là những lý do mà kho dữ liệu khác biệt hoàn toàn so với cơ sở dữ liệu quan hệ. 3. Chợ dữ liệu (Data Mart) Do việc xây dựng một kho dữ liệu doanh nghiệp chiếm nhiều thời gian và phức tạp, có thể kéo dài nhiều năm và khá tốn kém. Một số tổ chức đang sắp xếp sử dụng các chợ dữ liệu (data mart) thay cho kho dữ liệu. Chợ dữ liệu (data mart) là nơi chứa dữ liệu được tập hợp từ các dữ liệu thao tác và các nguồn dữ liệu khác được thiết kế để phục vụ cho một nhóm công nhân tri thức (knowledge workers). Dữ liệu có thể được lấy từ một cơ sở dữ liệu doanh nghiệp lớn hoặc một kho dữ liệu hoặc một nguồn cụ thể và nạp vào chợ dữ liệu. Chợ dữ liệu đặc biệt chú trọng tới các yêu cầu đặc thù của một nhóm người sử dụng tri thức cụ thể theo các lĩnh vực phân tích, nội dung, cách thể hiện và tính dễ sử dụng. Những người sử dụng chợ dữ liệu có thể muốn thể hiện dữ liệu một cách thân thiện hơn. Trên thực tế, chợ dữ liệu là một phiên bản đặc biệt của kho dữ liệu. Hầu hết các nhà khoa học nhất trí rằng thiết kế của chợ dữ liệu nghiên về hướng khởi động từ một phân tích nhu cầu của người sử dụng và thiết kế của kho dữ liệu thiên về phân tích những dữ liệu nào đã tồn tại và cách thức nó được tập hợp lại theo một thể thống nhất ra sao. Nhìn chung, một kho dữ liệu có tính chiến lược nhưng thỉnh thoảng vẫn có những khái niệm không kết thúc; một chợ dữ liệu có tính chiến lược và nhắm đến việc đáp ứng những nhu cầu trước mắt. Giống như DWH, chợ dữ liệu cũng chứa một ảnh chụp của dữ liệu thao tác nhằm giúp các nhà kinh doanh xây dựng các chiến lược dựa trên việc phân tích các xu hướng và kinh nghiệm trong quá khứ. Điểm khác biệt chủ yếu là chợ dữ liệu được tạo ra dựa trên các nhu cầu đặc thù được định nghĩa trước của một nhóm dữ liệu được lựa chọn. Một cấu hình chợ dữ liệu nhấn mạnh đến tính dễ truy cập thông tin có liên quan. Một tổ chức có thể có nhiều chợ dữ liệu, mỗi chợ dữ liệu có thể được thiết kế cho một hoặc nhiều đơn vị kinh doanh. Một chợ dữ liệu có thể độc lập hoặc phụ thuộc vào các chợ dữ liệu khác trong tổ chức. Tạ Liên Dung - K10T3 12 Kho dữ liệu chuyển vốn Nội bộ tại BIDV Các lý do mà chợ dữ liệu được sử dụng thay cho kho dữ liệu: - Dễ truy cập tới các dữ liệu cần thiết một cách thường xuyên - Một nhóm người sử dụng có thể tạo ra một khung nhìn chung - Cải tiến thời gian đáp lại người dùng cuối - Dễ cài đặt - Chi phí thấp hơn cài đặt một kho dữ liệu đầy đủ - Người dùng tiềm năng được định nghĩa rõ ràng hơn so với kho dữ liệu đầy đủ. 4. Kiến trúc của một Kho dữ liệu Kiến trúc tham chiếu của một kho dữ liệu cho phép người xây dựng và người khai thác có cái nhìn tổng quát về các bộ phận cấu thành nên kho dữ liệu. Hình 1 thể hiện kiến trúc cơ bản của một kho dữ liệu. Các nguồn khác Cơ sở dữ liệu thao tác Metadata Rút trích Chuyển đổi Nạp Làm mới Theo dõi và tích hợp OLAP Server Serve Kho dữ liệu Phân tích Truy vấn Báo cáo Khai thác dữ liệu Chợ dữ liệu Các nguồn dữ liệu Lƣu trữ dữ liệu OLAP Engine Các công cụ đầu cuối Hình 1. Kiến trúc cơ bản của kho dữ liệu Các thành phần của kho dữ liệu được thể hiện trên Hình 1 bao gồm: Tạ Liên Dung - K10T3 13 Kho dữ liệu chuyển vốn Nội bộ tại BIDV - Các nguồn dữ liệu: Các nguồn dữ liệu có thể là các cơ sở dữ liệu thao tác, hoặc các nguồn khác. - Thành phần lưu trữ dữ liệu: Sau khi dữ liệu được rút trích và nạp vào kho dữ liệu, nó sẽ được đặt ở thành phần lưu trữ dữ liệu. - OLAP Engine: Dữ liệu được tổng hợp và đưa vào các OLAP Engine dưới dạng bảng nhiều chiều để tiện cho người sử dụng khai thác. - Các công cụ đầu cuối: Người sử dụng có thể khai thác thông tin thông qua các công cụ đầu cuối Ngoài ra, ta thấy các thao tác cơ bản được thực hiện trong kho dữ liệu là: - Rút trích - Chuyển đổi - Nạp - Làm mới - Khai thác dữ liệu Việc nắm vững cấu trúc khối và lớp cho phép ta linh hoạt trong việc triển khai các hệ thống DWH trên thực tế. Tuỳ nhu cầu và khả năng tài chính, chúng ta có thể xuất phát từ việc xây dựng các kho dữ liệu cục bộ (các Datamart) trước để có thể khai thác ngay số liệu theo từng chủ đề. Một cách xây dựng khác là tổ chức kho dữ liệu tổng thể trước, sau đó sẽ tổ chức các Datamart. Mỗi phương án đều có những ưu điểm và nhược điểm riêng. Trên thực tế, tuỳ điều kiện cụ thể, chúng ta có thể chọn giải pháp triển khai thích hợp. Ngoài ra, các DWH trên từng lĩnh vực khác nhau cũng có nhiều đặc điểm riêng do mỗi lĩnh vực có đặc thù dữ liệu riêng. II. CÁC THÀNH PHẦN CỦA KHO DỮ LIỆU Hình 1 thể hiện cấu trúc cơ bản của kho dữ liệu, ở phần này, tôi xin trình bày cụ thể các thành phần, các tiến trình cơ bản của kho dữ liệu. Tạ Liên Dung - K10T3 14 Kho dữ liệu chuyển vốn Nội bộ tại BIDV 1. Rút trích dữ liệu (ETL – Extract Transformation Loading) Tiến trình ETL trong kho dữ liệu gồm có 3 bước chính: trích dữ liệu từ các nguồn dữ liệu bên ngoài (Extract), chuyển đổi nó cho phù hợp với yêu cầu của công việc (Transform), sự chuyển đổi này có nhiều mức độ khác nhau và không cố định (ultimately), và cuối cùng là nạp dữ liệu vào nơi chứa cuối cùng - chẳng hạn kho dữ liệu (Load). Cơ sở dữ liệu ORACLE Cơ sở dữ liệu DB2 MS SQLSERVER Tầng Rút trích dữ liệu (ETL) Kho dữ liệu Các loại CSDL khác Hình 2. Module rút trích dữ liệu ETL phần cốt lõi của kho dữ liệu, nó cho phép lấy dữ liệu từ các nguồn khác nhau như tệp excel, tệp *.dbf, tệp *.mdb… theo các tiêu chí cần thiết để đưa về một chuẩn chung. Module Rút trích dữ liệu được mô tả trong Hình 2. Mỗi kho dữ liệu của các hãng khác nhau có một công cụ ETL riêng, đặc thù của hãng đó, nhưng dù có đặc thù như thế nào đi chăng nữa thì ETL phải đáp ứng được các yêu cầu sau: - Lấy được dữ liệu từ mọi định dạng khác nhau. - Đưa dữ liệu về định dạng chung - Dễ dàng chỉnh sửa hoặc bổ sung các tiêu chí lấy dữ liệu Thực vậy, hai tiêu chí đầu là bắt buộc đối với tất cả các công cụ ETL, nếu không thoả mãn được hai tiêu chí này, dữ liệu trong kho sẽ không đầy đủ, không đáp ứng được các tiêu chí do người sử dụng đặt ra, do đó kho dữ liệu sẽ không thể tồn tại. Tiêu chí thứ ba có tính chất định tính, do đó, tùy theo nhà cung cấp, mỗi công cụ ETL cho phép mức độ chỉnh sửa hoặc bổ sung các tiêu chí lấy dữ Tạ Liên Dung - K10T3 15 Kho dữ liệu chuyển vốn Nội bộ tại BIDV liệu khác nhau đối với người sử dụng. Tuy nhiên, để có thể chỉnh sửa hoặc bổ sung các tiêu chí này, người sử dụng cũng phải nắm vững nghiệp vụ và phải được đào tạo kỹ về các cấu trúc logic của công cụ ETL. Module ETL là cấu phần quan trọng trong mô hình Kho dữ liệu, sự tối ưu hoá module này giúp cho các báo cáo của kho dữ liệu có thông tin đúng đắn, không bị dư thừa dữ liệu, tốc độ xử lý của kho ổn định, thời gian xử lý ngắn. Ta sẽ đi sâu phân tích các cấu phần của ETL. a. Trích dữ liệu - Extract Cấu phần đầu tiên của ETL là trích dữ liệu từ các nguồn dữ liệu khác nhau. Hầu hết các kho dữ liệu đều phải lấy dữ liệu từ nhiều nguồn dữ liệu có định dạng hoặc tổ chức khác nhau. Hầu hết các nguồn dữ liệu thông thường đều ở dạng cơ sở dữ liệu quan hệ hoặc các cơ sở dữ liệu "phẳng" (không có quan hệ giữa các bản ghi và các bảng) còn gọi là flat files database, nhưng cũng có thể chứa các cấu trúc cơ sở dữ liệu như IMS hoặc các cấu trúc dữ liệu khác chẳng hạn như VSAM hoặc ISAM. Quá trình trích dữ liệu sẽ chuyển đổi dữ liệu từ các nguồn trên thành một định dạng chung để sử dụng trong quá trình chuyển đổi dữ liệu (transformation). b. Chuyển đổi dữ liệu - Transform Quá trình chuyển đổi dữ liệu áp dụng một loạt các quy tắc hoặc các hàm cho các dữ liệu đã được trích ở bước trước, sau đó nó chuyển dữ liệu trên cho quá trình nạp dữ liệu tới đích định trước, trong thực tế, quá trình chuyển đổi chính là quá trình làm sạch dữ liệu. Một số nguồn dữ liệu không đòi hỏi hoặc đòi hỏi rất ít thao tác của dữ liệu. Trong các trường hợp khác, để đáp ứng các yêu cầu về mặt kỹ thuật hoặc nghiệp vụ thì quá trình chuyển đổi dữ liệu có thể thực hiện các tác vụ sau: - Chỉ chọn một số cột nhất định, hoặc không chọn các cột null cho quá trình nạp. - Chuyển đổi mã hoá các giá trị (ví dụ: trong dữ liệu nguồn, ở cột giới tính, người ta sử dụng 1 đại diện cho nam, 2 đại diện cho nữ, nhưng trong kho dữ liệu người tại lại sử dụng M cho giới tính nam, F cho giới tính nữ), quá trình này gọi Tạ Liên Dung - K10T3 16 Kho dữ liệu chuyển vốn Nội bộ tại BIDV là tự động làm sạch dữ liệu. Trong suốt quá trình ETL, không có sự can thiệp làm sạch dữ liệu thủ công. - Mã hoá các giá trị ở dạng "tự do" (nhập text). Chuyển các giá trị tự do này về các giá trị quy định. - Tạo ra các giá trị tính toán dựa trên các trường có sẵn, ví dụ thành tiền = đơn giá x số lượng. - Liên kết các dữ liệu với nhau từ các nguồn. VD: trong Excel có các trường giá trị được tính toán bằng các công thức lookup, merge... thì phải tính lại các giá trị thực của trường đó. - Tính tổng của các dòng dữ liệu. (vd: tính tổng doanh số của mỗi nhân viên bán hàng, ...) - Tạo ra các giá trị khoá surrogate - khoá này là giá trị định danh duy nhất của các thực thể mô hình hoặc các đối tượng trong CSDL. - Chuyển đổi dữ liệu theo chiều ngang hoặc dọc. - Tách dữ liệu từ một cột thành nhiều cột. (Vd: họ tên tách rời thành họ, họ đệm, tên...) - Ngoài ra, quá trình chuyển đổi dữ liệu có thể áp dụng một hoặc tổ hợp các quy tắc chuẩn hoá dữ liệu trên để chuyển đổi dữ liệu cho phù hợp. c. Nạp dữ liệu (Load) Sau khi rút trích, làm sạch và chuyển đổi, dữ liệu phải được nạp vào kho dữ liệu. Quá trình này có thể cần phải có một tiến trình tiền xử lý: kiểm tra tính ràng buộc toàn vẹn, sắp xếp, tính tổng và các tính toán khác để xây dựng các bảng kết quả tính toán được lưu trữ trong kho dữ liệu; xây dựng chỉ mục và các đường dẫn truy cập khác; và phân nhỏ thành nhiều vùng lưu trữ đích. Tiêu biểu là các ứng dụng nạp theo lô được sử dụng cho mục đích này. Ngoài ra, để đưa dữ liệu vào trong kho, một ứng dụng nạp phải cho phép quản trị hệ thống theo dõi trạng thái, hủy, treo và tiếp tục tiến trình nạp, đồng thời cho phép khởi động lại tiến trình nếu bị lỗi mà không mất toàn vẹn dữ liệu. Tạ Liên Dung - K10T3 17 Kho dữ liệu chuyển vốn Nội bộ tại BIDV Ứng dụng nạp của kho dữ liệu phải đối đầu với lượng dữ liệu rất lớn (lớn hơn nhiều so với dữ liệu của cơ sở dữ liệu thao tác). Chỉ có một khoảng thời gian nhỏ (thường là về đêm) để nạp dữ liệu, thường là vào ban đêm, khi kho dữ liệu offline để làm mới dữ liệu. Việc nạp dữ liệu liên tiếp có thể mất nhiều thời gian, ví dụ như nạp một terabyte dữ liệu có thể mất hàng tuần hoặc hàng tháng! Hơn nữa, Việc nạp có thể ứng dụng theo hình thức tuần tự hoặc song song. Việc nạp toàn bộ dữ liệu có một lợi ích là nó có thể được xử lý như một giao dịch lô lớn, nó sẽ xây dựng một cơ sở dữ liệu mới. Trong khi hệ thống đang thực hiện việc nạp dữ liệu trên cơ sở dữ liệu mới này, cơ sở dữ liệu hiện tại vẫn hỗ trợ các truy vấn; khi thao tác nạp thành công, cơ sở dữ liệu hiện tại được thay thế bởi cơ sở dữ liệu mới. Việc sử dụng các điểm kiểm tra định kỳ đảm bảo rằng nếu có lỗi xảy ra trong quá trình nạp, quá trình có thể được bắt đầu lại từ điểm kiểm tra cuối cùng. Tuy nhiên, thậm chí khi sử dụng phương pháp nạp song song, một quá trình nạp đầy đủ có thể vẫn mất rất nhiều thời gian. Hầu hết các ứng dụng thương mại sử dụng việc nạp bổ sung trong quá trình làm mới dữ liệu để giảm thiểu khối lượng dữ liệu phải đưa vào kho dữ liệu. Chỉ những dữ liệu cập nhật mới được bổ sung vào kho. Tuy nhiên, quá trình nạp hiện tại khá khó quản lý. Việc nạp bổ sung thường hay xung đột với các truy vấn đang được thực hiện, vì thế nó được xử lý như một chuỗi các giao dịch ngắn tuần tự (áp dụng xác nhận liên tục, ví dụ: sau mỗi 1000 bản ghi hoặc một ít bản ghi lại xác nhận một lần), nhưng hiện tại chuỗi giao dịch tuần tự này được sử dụng kết hợp để đảm bảo tính nhất quán của dữ liệu tính toán và chỉ mục với dữ liệu gốc. d. Làm mới dữ liệu Làm mới dữ liệu bao gồm việc cập nhật lan truyền trên dữ liệu nguồn, do đó cập nhật trên dữ liệu cơ bản và dữ liệu tính toán được lưu trữ trong kho. Có hai nhóm vấn đề cần phải quyết định: khi nào phải làm mới dữ liệu và làm mới dữ liệu như thế nào. Thông thường, kho dữ liệu được làm mới theo định kỳ (ví dụ: hàng ngày hoặc hàng tuần). Chỉ khi các truy vấn OLAP cần dữ liệu mới nhất (ví dụ: số lượng hàng hoá trong kho tính đến thời điểm truy vấn, chính xác đến từng phút), ta cần phải lan truyền mọi cập nhật. Chính sách làm mới dữ liệu được thiết lập bởi người quản trị kho dữ liệu, dựa trên các yêu cầu của người sử dụng và có thể khác nhau đối với các nguồn dữ liệu khác nhau. Tạ Liên Dung - K10T3 18 Kho dữ liệu chuyển vốn Nội bộ tại BIDV Các kỹ thuật làm mới dữ liệu cũng dựa trên đặc thù của dữ liệu nguồn và khả năng chứa của máy chủ cơ sở dữ liệu. Việc rút trích tệp hoặc cơ sở dữ liệu hiện tại thường có chi phí cao, nhưng có thể là chọn lựa duy nhất đối với các nguồn dữ liệu di sản. Hầu hết các hệ thống cơ sở dữ liệu đương thời đều cung cấp các máy chủ thứ bản (replication) để hỗ trợ các kỹ thuật bổ sung cho các cập nhật lan truyền từ một cơ sở dữ liệu chính tới một hoặc nhiều bản sao. Những máy chủ thứ bản như vậy có thể được sử dụng để làm mới bằng cách bổ sung dữ liệu cho kho khi dữ liệu nguồn thay đổi. Có hai kỹ thuật sao chép cơ bản: chuyển giao dữ liệu và chuyển giao giao dịch. Ở kỹ thuật chuyển giao dữ liệu (ví dụ, được sử dụng trong máy chủ thứ bản Oracle, Praxic OmniReplicator), một bảng trong kho dữ liệu được xử lý như một ảnh chụp từ xa của một bảng trong cơ sở dữ liệu nguồn. Các trigger after_row được sử dụng để cập nhật một bảng log ảnh khi bảng nguồn thay đổi; và một lịch tự động làm mới (hoặc một thủ tục làm mới) sẽ được thiết lập để lan truyền dữ liệu đã cập nhật tới ảnh ở xa. Ở kỹ thuật chuyển giao giao dịch, log giao dịch chính qui được sử dụng thay cho các trigger và một bảng log ảnh đặc biệt. Tại địa chỉ nguồn, log giao dịch được sử dụng để phát hiện các cập nhật trên các bảng được sao chép, và những bản ghi log này được chuyển cho một máy chủ thứ bản, tại đây các giao dịch tương ứng được đóng gói để cập nhật các bản sao. Chuyển giao giao dịch có lợi là nó không đòi hỏi sử dụng các trigger mà thường có thể làm tăng tải trên cơ sở dữ liệu thao tác nguồn. Tuy nhiên, ta không thể luôn sử dụng dễ dàng phương thức này trên các hệ quản trị cơ sở dữ liệu của các hãng khác nhau, vì không có API chuẩn nào để truy cập log giao dịch. Những máy chủ thứ bản như vậy được sử dụng để làm mới kho dữ liệu. Ngoài ra chu trình làm mới dữ liệu cũng thường được lựa chọn sao cho lượng dữ liệu không làm quá tải tiện ích nạp bổ sung. Ngoài các thay đổi lan truyền từ dữ liệu cơ bản trong kho, dữ liệu tính toán cũng được cập nhật tương ứng. Vấn đề xây dựng các cập nhật chuẩn logic để cập nhật bổ sung dữ liệu tính toán (các khung nhìn vật chất hoá) là chủ đề của nhiều nghiên cứu. Đối với kho dữ liệu, các lớp quan trọng nhất của dữ liệu tính toán là các bảng tổng cộng, các chỉ mục bảng đơn và chỉ mục kết nối. Tạ Liên Dung - K10T3 19 Kho dữ liệu chuyển vốn Nội bộ tại BIDV 2. Tổng hợp, phân tích dữ liệu và tạo Kho dữ liệu OLAP Từ dạng dữ liệu nguồn ban đầu, sau khi được rút trích, dữ liệu được lưu trữ dưới dạng dữ liệu thuần nhất và được phân tích, tổng hợp lại để tạo ra các báo cáo nhiều chiều (multi dimensions) - kho dữ liệu OLAP. Module tổng hợp phân tích dữ liệu được thể hiện như Hình 3. Kho dữ liệu Tầng phân tích, tổng hợp dữ liệu và tạo báo cáo nhiều chiều Kho dữ liệu OLAP Hình 3. Module tổng hợp, phân tích dữ liệu và tạo báo cáo nhiều chiều Một trong những ưu điểm nổi bật của kho dữ liệu là tạo được các báo cáo đa chiều. Công cụ để tạo được các báo cáo nhiều chiều này chính là OLAP (Online Analytical Processing). Hầu hết các hệ quản trị cơ sở dữ liệu lớn như DB2, MSSQL của Microsoft, Oracle của hãng Oracle... đều xây dựng công cụ cơ sở dữ liệu OLAP. Online Analytical Processing viết tắt là OLAP cho phép trả nhanh các truy vấn phân tích mà trên thực tế là phải dựa vào nhiều chiều dữ liệu mới trả lời được. OLAP được ứng dụng chủ yếu trong các lĩnh vực báo cáo bán hàng, marketing, báo cáo điều hành, báo cáo budgeting và dự đoán, báo cáo tài chính và các lĩnh vực tương tự. Cơ sở dữ liệu OLAP hơi có khác biệt so với cơ sở dữ liệu xử lý giao dịch trực tuyến thông thường (OLTP). Cơ sở dữ liệu OLAP có mô hình dữ liệu nhiều chiều cho phép xử lý các truy vấn ad-hoc và truy vấn phân tích phức tạp trong thời gian rất nhanh. Đầu ra của cơ sở dữ liệu OLAP thường được thể hiện ở dạng ma trận hoặc pivot. Các chiều của cơ sở dữ liệu OLAP được thể hiện ở dạng dòng và cột của ma trận, các đơn vị đo (measures), các giá trị. Tạ Liên Dung - K10T3 20 Kho dữ liệu chuyển vốn Nội bộ tại BIDV Bất kỳ hệ thống cơ sở dữ liệu OLAP nào cũng đều chứa một OLAP cube hay còn gọi là cube nhiều chiều (multidimensional cube) hay hypercube. Nó bao gồm một số yếu tố gọi là measures - được thể hiện thành dimension (chiều). Siêu dữ liệu cube thường được tạo thành từ các bảng trong một cơ sở dữ liệu quan hệ, các bảng này có dạng sơ đồ hình sao hoặc sơ đồ hình bông tuyết. Các measure được tạo thành từ các bản ghi trong fact table và các dimensions được tạo thành từ các bảng dimension. Nhiều khảo sát chỉ ra rằng đối với các câu lệnh truy vấn phức tạp, các OLAP cube có thể trả về câu trả lời trong một khoảng thời gian chỉ bằng 0.1% so với các cơ sở dữ liệu quan hệ OLTP. Cơ chế đơn độc quan trọng nhất trong OLAP cho phép nó đạt được hiệu quả như vậy là cách sử dụng các tập hợp (aggregations). Các tập hợp này được xây dựng từ các bảng nhân tố (fact table) bằng cách thay đổi các tính chất chủ chốt của các dimension đặc trưng và tập hợp dữ liệu theo những dimension này. Số lượng các tập hợp thích hợp được quyết định bởi từng tổ hợp thích hợp của các dimension. Cơ sở dữ liệu OLAP thông thường sẽ có các dạng sau: a. Dạng nhiều chiều (Multidimensional) - MOLAP MOLAP là dạng 'truyền thống' của OLAP và đôi khi người ta coi nó là OLAP. MOLAP thường sử dụng cấu trúc dữ liệu tối ưu đối với các thuộc tính như khoảng thời gian, địa điểm, sản phẩm hoặc mã tài khoản. Cách thức mà mỗi dimension sẽ được tập hợp sẽ được xác định trước theo một hoặc nhiều cấp bậc. b. Dạng quan hệ (relational) - ROLAP ROLAP làm việc trực tiếp với các cơ sở dữ liệu quan hệ. Các bảng dữ liệu cơ bản và các bảng dimension được lưu trữ như các bảng quan hệ. Các bảng mới được tạo ra để lưu trữ các thông tin tập hợp. ROLAP phụ thuộc vào thiết kế sơ đồ xác định. c. Dạng lai (Hybird) - HOLAP HOLAP là một dạng database sử dụng kết hợp cả hai cách lưu trữ dữ liệu quan hệ và lưu trữ dữ liệu đặc thù. Hiện tại các chuyên gia tin học trên thế giới vẫn không thống nhất về cách định nghĩa của HOLAP. Tạ Liên Dung - K10T3 21
- Xem thêm -