Xây dựng kho dữ liệu (Data warehousing)

  • Số trang: 94 |
  • Loại file: PDF |
  • Lượt xem: 20 |
  • Lượt tải: 0
nhattuvisu

Đã đăng 26946 tài liệu

Mô tả:

DAI HOC QUÔC GÎA HÀ NÔI K H O A C Ô N G N G H Ê DÂNG VÀN NINH XÂY DUNG • KHO DU*LIEU » (DATA WAREHOUSING) LUÂN V A N TH A C SI Hà N ôi-2004 M Ụ C L Ụ C DANH MỤC HÌNH VẼ, Đ ổ THỊ Hình số 1: tính chấc ít thay đổi của dữ Uậu trone kho dữ ỉiệu Hình sỏ' 2; nguyên ỉý cơ bản của kho dữ iiệu Hình số 3: Hệ hỗ trợ ra quyết định Hình số 4: Yêu cầu chức năng kho đữ liệu Hình số 5: Mõ hình kiến trúc dữ liệu ba tầng Hình số 6 : Kiến trúc dữ liệu cho siêu dữ liệu Hình số 7: Kiến trúc dữ iiệu ờ mức cao Hình số 8: Kiến trúc siêu dữ liệu Hình số 9: Quan niệm kho dữ liệu ờ mức doanh nghiệp Hình số 10: Luồng đữ liệu trong kho dữ liệu Hình số 11: Tiếp cận theo mô hình thác nước Hình sô' 12: Tiếp cận theo mô hình xoắn trôn ốc Hình sổ 13: Mổi trường vừa tập trung vừa phân tán Hình số 14: Mô hình đữ liệu nhập xuất tồn Hình số 15: Thuộc tính của bảng CUBNXT Hình số ỉ 6: Kết quả của tiến trình sinh mã-Generation Hình sổ 17: Kết quả của tiến trình thực hiện — Deploy Hình số 18: Trang nhập hàng hoá (Sheet Nhap) Hình số 19: Biểu đồ của trang nhập hàng hoá (Sheet Nhap) Hình số 20: Trang xuất hàng hoá (Sheet Xuat ) Hình số 21: Biểu đổ của trang xuất hàng hoá (Sheet Xuat) Hình số 22: Trang tồn hàng hoá (Sheet TON) Hình số 23: Biểu đồ của trang tồn hằng hoá (Sheet TON) MỞ ĐẨU 5 PHẦN 1. C ơ SỞ XÂY DỤNG KHO DỮ L IỆ U ......................................................... 6 CHƯƠNG 1. GIỚI TH IỆU CHUNG VỂ KHO DỮ LIỆU.....................................6 1. Định nghĩa Kho đữ liệu — Data W arehouse.....................................................6 2. Đặc điểm dữ liệu trong kho dữ liệu.....................................................................6 3. Nguvên lý cơ bẳn (Basic Elements).................................................................... 8 4. Kho dữ liệu cục bộ - Đatamart................................................................ ......... 9 5. Hệ hỗ trợ quyết định (Decisions Support Systems-DSS)................................10 6. Phân biệt Kho dữ liệu với những hệ cơ sờ dữ liệu tác nghiệp.........................11 7. Các yêu cầu chức năng kho đữ liệu (Desirable Warehouse Functionality). 12 Kết luận......................................................................................................................13 CHƯƠNG 2. KIẾN TRÚC KHO DỮ L IỆ U ................... ......... ............................. 15 I. M ỘT SỐ KHÁI NIỆM C ơ B Ả N .................................................................... 15 1. Dữ iiệu nghiệp vụ............................................................................................15 1.1. Dữ liệu thời gian thực (real-time đata).....................................................15 1.2. Dữ liệu dãn xuất (derived data)................................................................. 15 1.3. Dữ liệu tương thích (reconciled data)........................................................15 2. Siêu dữ liệu (Metadata).......................................................................................15 2.1. Siẻu dữ liệu trong giai đoạn xây đựng...................................................... 16 2.2. Sìôu dữ liệu kiểm soát.... ...............',..7........................................................16 2.3. Siêu dữ liệu vận dụng:................................................................................. 16 II. KIẾN TRỦC D ữ LIỆU MỨC KHÁI NIỆM ............................ .................. 17 1. Kiến trúc dữ liệu nghiệp vụ................................................................................ 17 2. Kiến trúc siêu đữ liệu..........................................................................................21 3. Quan hộ và nguén của siêu đữ liệ u ....................................................................22 3.1. Siêu dữ liệu trong giai đoạn xây dựng.................................................... 22 3.2. Siêu dữ ỉiệu kiểm soát.... .................. ..... ....................................................23 3.3. Siêu dữ liệu vận d ụ n g .................................................................................25 4. Kiến trức Logic Kho dữ liệ u .............................................................................. 25 4.1. Dữ liệu nghiệp vụ trong kho dữ ỉiệu..........................................................26 4,2- Kiến trúc Siêu dữ liệu trong kho đữ liệu....................................................31 4.3. Chỉ mục kho dữ liệu (catalog)....................................................................34 III. PHƯƠNG PHÁP XAY DỤNG KHO DỮ L IỆ U ..................................... 34 1. Kế hoạch cơ bản (The Basic pìan)..................................................................... 34 2. Quan niệm ờ mức doanh nghiệp (The Enterprise View)................................. 35 3. Luồng dữ liệu qua kho dữ liệu (Flow of Data Through the Warehouse).... 3Ố 4. So sánh mô hình phát triển (Development Models Compared)..................... 37 4 .1 Mô hình thác nước (Waterfall)....................................................................37 4.2. Mô hình xoắn trôn ốc (spiral).....................................................................38 4.3. Các pha trong phương pháp tiếp cận theo mô hình xoắn ốc................. 39 5. Các giai đoạn thiết kế kho dữ liệu (ĐW Database Design Phases)................40 5.1. Xác định mó hình nghiệp vụ (Defining the business model)................ 40 5.2. Xác định mò binh logic (Defininc the logical m odel)........................... 40 5.3. Xác định mỏ hình Dimensnional (Defining the dimensional model) ..40 5-4. Xác định mỏ hình vật lý (Defining the physical model)........................40 K Ế T L U Ậ N ........................ ................................ ......................... ......................... 41 CHƯƠNG 3. T H IẾ T K Ế KHO DỮ L IỆ U ...............................................................43 I. XÁC ĐỊNH MÒ HÌNH NGHIỆP v ụ VÀ MÔ HÌNH LOGIC (DEFINING TH E BUSINESS AND LOGICAL M O D ELS)......................43 1. Xác định mô hình nghiệp v ụ ............................................................................ 43 l.í. Phản tích chiến lược (Strategic Analysis).................................................44 1.2. Tạo mô hình nghiệp vụ (Business models creation)................................47 1.3. Tạo siêu dữ liệu........................................................................................... 52 2. Xác định mô hình logic (Defining the Logical Models)................................ 52 II. TẠO MÔ HÌNH DIMENSIONAL (CREATING THE DIM ENSIONAL M O D E L )...............................................................................53 1. Giản đồ hình s a o ............................................................................................... 53 2. Các thành phần của giản đổ hình sao................................................................ 53 3. Đặc điểm của giản đồ hình sao ........................................................................ 54 4. Vấn để đánh chỉ sỏ' (Index).............................................................................. 55 III. TẠO MÔ HÌNH VẬT LÝ (CREATING THE PHYSICAL MODEL) ...............’......................................................................................................................................................................... 5 6 1. Kế hoạch thực hiện..............................................................................................57 2. Mỏi trường thực hiện (vừa tập trung vừa phản tán).......................................57 3. Lựa chọn hạ tầng............................................................................................... 59 K ẾT LU Ậ N ........1 ................................................................................................ 60 PHẨN II: XÂY DỤNG KHO DỮ LIỆU THỬ N G H IỆ M .....................................62 CHƯƠNG 4. GIỚI THIỆU CÔNG c ụ XẢY DỤNG KHO D ữ LIỆU (ORACLE WAREHOUSE B U I L D E R ) ....................................................... 62 I. KIẾN TRÚC VÀ KHẢ NĂNG CỦA SẢN PHẨM (PRODUCT A RCH ITECTU RE AND CA PA BILITIES)....................................................62 1. Thành phần thiết kế (The Design Component)............................................. 62 2. Thành phđn thực thi (The Runtime Component)..........................................63 3. Các thành phần của Warehouse Builder......................................................... 64 3.1. ứng dụng máy khách (Warehouse Builder Client Application)........64 3.2. Dịch vụ nền thực hiện Warehouse Builder (Runtime Platform Service) .................. *..............1.......!...................................... ............................................65 3.3. Thành phần thiết kế Repository (WB Design Repository).....................65 3.4. Repository WB thực thi (Warehouse Builder Runtime Repository) ....65 3.5. Báo cáo kiểm toán (Audit Reporting Browser).......................................65 3.6. Báo cáo siêu dữ liệu (Metadata Reporting Browser).............................66 4. Đối urựng trong WB (Warehouse Builder Objects)......................................66 5. WB thực hiện hệ thống dích (Warehouse Builder Deployment Targets).... 66 4 II. SO L ư ợ c QUÁ TRĨNH TẠO HỆ THỐNG NGHIỆP v ụ THÔNG MINH (OVERVIEW O F CREATING A BUSINESS INTELLIGENCE SY STEM )............................. .................. ................................................ ........ .....66 1. Bước 1: Tạo Project {Creating a Project)......................................................... 67 2. Bước 2: Khai báo các module nguồn và đích (Defining Source and Target M odules)................................................................................................................ 67 Khai báo nguồn (Defining Sources)..,................. .............................................67 3. Bước 3: Khai báo quá trình chuyển đổi và vận chuyển dữ liệu..................... 68 4. Bước 4: Kiểm tra hợp lệ và sinh mã (Validating and Generating).................69 5. BướeS: Tạo và thực hiện (Deploying and Executing)....................................69 KẾT L U Ậ N .................... ...............I....................... Z .................................... 71 Kiến trúc và khả năng của sản phẩm....................................................................71 CHƯƠNG 5: XÂY DựSỈG KHO D ữ LIỆU TẠI PET R O L IM EX .............72 1. Bài toán xây dựng kho dữ liệu tại Petrolimex.................................................. 72 2. Lựa chọn phạm vi xây dựng kho dữ liệu thử nghiệm.......................................73 3. Thiết kế và thực hiện kho đữ liệu thử nghiệm kho dữ liệu............................. 75 4. Khai thác kho dữ liệu............... !........... ........................... ................................82 4.!. Trang nhập hàng hoá (Sheet-NHAP)......................................................83 4.2. Trang xuất hằng hoá (Sheet-XƯAT).......................................................85 4.3. Trang tổn hàng hoá (Sheet-TON)............................................................ 87 KẾT LU Ậ N ............. .1.................................................................................... ......89 TÀI LIỆU THAM K H Ả O .................................................................................. 92 M Ờ ĐẨU Trong những năm qua cùng với sự phát triển CNTT, các hệ thống thòng tin đă được phát triển mạnh cả vể số lượng, chất lương. Đặc biệt trong một doanh nghiệp cùng tổn tại nhiều hệ thống thôna tin đa dạng và phong phú. Các nhà lãnh đạo thì ỉuõn thiếu thông tin phục vụ điều hành, chưa kể đến có những thông tin sai lệch thậm chí mâu thuẫn về cùng một sự việc.... trong khi đang sờ hữu một khối lượng dữ liệu khổng lồ Đến thời điểm hiện nay, phương pháp xây dựng kho đữ liệu (Data Warehousing) đã phát triển cả về lý thuyết cũng như thực tế. Lý thuyết xây dựng kho dữ liệu đã được hình thành khá rõ nét, bên cạnh đó các nhà cung cấp phần mềm cũng đã đưa ra các công cụ để xây dựng, duy trì và phát triển kho dữ liệu, Một kho đữ liệu sẽ giúp doanh nghiệp có khả năng quản iý dữ liệu, khai thác thống tin phục vụ việc điều hành kính đoanh phù hợp hơn. Cũng như các doanh nghiệp khác, Petrolimex đang có một mạng lưới các ứng dụng nghiệp vụ cục bộ tại từng đơn vị thành viên. Việc tập hợp và quản trị đữ liệu trên phạm vi toàn ngành để cung cấp thỏng tin cho "quá trình phản tích, hoạch định chiến lược, hỗ trợ ra quyết định" Irong mòi trường cạnh tranh và hội nhập là một thách thức lớn mà Petrolimex đang tìm hướng giải quyết. Đề tài này nghiên cứu lý thuyết, nắm chắc phương pháp iuận và một còng cụ xây dựng kho dữ liệu cụ thể, tạo nền tảng triển khai xây đựng một kho dữ liệu thực tế-hướng giải quyết yêu cầu cùa bài toán nói trên, Luận vãn bao gồm hai phần. Phần í, trình bày cơ sở xây dựng kho dữ liệu, giới thiệu lý thuyết cơ bản về xây dựng Kho dữ liệu. Phần n, trình bày nội dung xây dựng kho dữ liệu thử nghiệm, giới thiệu cồng cụ xây dựng kho dữ liệu Oracle Warehouse Builder và bài toán kho dữ liệu của Petrolimex. Tôi xin trân trọng cảm ơn sự hướng dản của Tiến sĩ Nguyễn Tuệ. Cảm ơn các thầy cô giáo trong khoa Công nghệ, Viện CNTT, công ty Oracle Việt Nam và đồng nghiệp đă nhiệt tình giúp tôi thực hiện đề tài này. 6 PHẦN 1. C ơ SỞ XÂY DỤNG K H O D ữ L IỆ* U « CH Ư Ơ N G 1. G IỚ I T H IỆ U CH U N G V Ể K H O D Ữ LIỆ U 1. Địẳìh n g h ĩa K h o d ữ liệ u - D a ta W a re h o u s e Có nhiều định nghĩa kho dữ liệu, nhưng phổ biến nhất là định nghĩa kho dữ liệu của Bili Inmon: ”Kho đữ liệu là tập hợp dữ ỉiệu hướng chủ đề, mang tính tích hợp, ít thay đổi, và mỗi đơn vị dữ ỉiệu đều gắn với một khoảng thời gian cụ thể. Kho dữ liệu được thiết kế để hỗ trợ quản trị hê hỗ trợ quyết định". 2. Đ ặ c đ iể m d ữ liệ u tr o n g k h o d ữ liệ u Theo định nghĩa của Bill Inmon Kho dữ liệu có 4 đặc tính cơ bản gồm: Hướng chủ đề (Subject-oriented), Tích hợp (Integrated), ít thay đổi (nonvalatile), Tính thời gian cụ th ể (Time-variant). Một số định nghĩa khác về Kho dữ liệu có bổ sung thêm tính chất Kho dữ liệu bao gồm cả dữ liệu chi tiết và dữ liệu tổng hợp. 2.1. Hướng chủ dề (Subject-oriented) Dữ liệu được tập hợp, phân iớp, lưu trữ và xử lý theo từng chủ để. Các dữ liậu của mỗì chủ dề chính trong tổ chức được liên kết bởi các khoá đại diện và đưa vào cùng một vị trí, Ví dụ đữ liệu liên quan đến: khách hàng, sản phẩm, tài chính, bán hàng.... 2.2. Tích hợp (Integrated) Trong một tổ chức có rất nhiều dữ liệu từ nhiều hệ thống khác nhau. Việc hợp nhất các dữ liêu này trờ thành một tập hợp dữ liệu có nghĩa cho việc phân tích ỉà rất khó khăn. Một trong các tính chất chính của Kho dữ liệu là hoằn thành quá trình hợp nhất hay tích hợp này. Cấu trúc dữ liệu theo một cách thức chung được chấp nhận mặc đù xuất phát từ rất nhiều cấu trúc dữ liệu nguồn khác nhau. Dữ liệu tích hợp phải đảm bảo tính nhất quán, đôi khi chấp nhận tính dư thừa để tăng tính hiệu quả của các truy vấh. 7 2.3. it thay ddi (nonvaiatile) Dü ii6u trong Kho dir li6u la d& lieu chi doc. Warehouse Operational Load ■rfy Insert Read Update Delete Hmh s6 1: tinh chät it thay d6i cüa dü lieu trong kho dü lieu Dü lieu diroc tai (load) väo kho dir lieu o Idn däu ti£n dirdi dang ban sao tai möt thdi di^m (snapshot) vä sau do thuöng xuy6n duoc lam tuoi (Refresh). Chu ky läm tiroi duoc xäc dinh tuy theo y£u cäu nghiSp vu, cö nhung kho d£r liSu döi höi duoc läm tircri häng ngäy trong khi cö nhiing kho dü li6u chi cän duoc läm urcfi häng thäng. Thöng tin trong Kho dü lieu duoc täi väo sau khi dur lieu trong hS thöng di£u hänh täc nghiep duoc xäc dinh. Tinh it bi6n döi th6 hiön er chö: Du lieu duoc liru trü läu däi trong kho dir liöu, mac dü cö thäm dü li£u mcfi nhäp väo nhtmg dö li£u cö trong kho vän khöng bi xoä, dilu dö cho ph^p cung cäp thöng tin ve möt khoäng thöi gian däi, cung cäp dü so lieu cän thiö't cho cäc mö hinh nghiep vu phän tfch, dir bäo. 2.4. Tinh thoi gian cu th^ (Time-variant) Möt kho chüa dü lidu bao häm möt khö'i luong lön dir lieu lieh sir. Dü liSu duoc liru trü thänh möt Ioat cäc bän sao(snapshort), möi bän sao phän änh nhüng giä tri cüa dur li£u tai möt thöi di&n nhä't dinh, th£ hien möt khung nhin cüa möt vüng chü d l trong möt giai doan. Do väy cho phep khöi phuc lai dü lieu lieh sir vä so sänh 8 mộí cách chính xác các giai đoạn khác nhau. Yếu tố thời gian đóng vai trò như một phần cùa khoá để bảo đảm tính đơn nhất của mỗi hàng và cung cấp đặc trưng về thời gian cho dữ íiộu. 2.5. Dữ (iệu chi tiết và dữ ỉiệu tổng hợp Dữ liệu chi tiết là thòng tin mức thấp nhất được lưu trữ trong Kho dữ ỉiệu. Dữ liệu tác nghiệp là thông tin mức thấp nhất cho toàn xí nghiệp. Dữ liệu tác nghiệp thuần tuý không được lưu trữ trong Kho dữ liệu. Dữ liêu tổng hợp là dữ liệu được kết hợp từ dữ liệu chi tiết và lưu qua nhiều giai đoạn khác nhau. 3. Nguyên lỷ CƯ bản (Basic Eỉements) Cptỉotìcnaỉ QữV0 DcJOyrhqợta ỮJ50W 0ftfws* ____ u • Ẹaroa • Mk • Ticnitonn «toieorai« *Ckãtft «toitgtoM • ĩìm*-voítoni *Nonvùtohi« • SummóoỉÉ Hình số 2: nguyên lý cơ bản của kho dữ liêu Cơ sở d ữ liệu nguồn (Source Database): Một CSDL tác nghiệp, trung tâm đữ liệu, hệ thống sắn có, làm đầu vào cho vùng định cư dữ liệu. Vùng định cư đữ liệu (Data Staging Area): Vùng lưu trữ dữ liệu bình thường, đữ liệu có thể ở dạng thô hoặc dạng tổng hợp. Quá trình định cư sử đụng một số cổng cụ di trú (migration), công cụ làm sạch (clean), chuyển tải đữ liệu (transformation). Sau đó đữ liệu được sử dụng làm nguồn dữ liệu đẩu vào cho một hoặc nhiều kho dữ liệu. 9 Đích (target): Nơi phát hiện, lưu trữ dừ liệu cho các truy vấn trực tiếp của người sử dụng cuối, tạo báo cáo và các ứn2 dụng khác khai thác kho dữ liệu hoặc kho dữ liệu cục bộ. 4. Kho đữ liệu cục bộ - Data m art Kho dừ liệu cục bộ (Datamart) ià CSDL có những đậc điểm giống với Kho đữ liệu nhưng với quy mô nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực, một chuyên nsành. Các Datamart có thể được hình thành từ một tập con dữ liệu của kho dữ liệu hoăc cũng có thể được xây đựng độc lập và sau khi xây dựng xong, các Datamart có thể được kết nối tích hợp lại với nhau tạo thành kho dữ liệu. Vì vậy có thể xây đựng kho dữ liệu bắt đầu bằng việc xây dựng các Datamart hay ngược lại xày dựng kho dữ liệu trước sau đó tạo ra các Datamart. Datamarí là một kho dữ liệu thứ cấp các dữ liệu tích hợp của Kho dữ liệu. Đatamart được hướng tới một phần của dữ liệu thường được gọi là một vùng chủ đề, được tạo ra đành cho một nhóm người sử đụng. Dữ liệu trong Datamart cho thồng tin về một chủ đề xác định, không phải về toàn bộ các hoạt động nghiệp vụ đang diễn ra trong một tổ chức. Thể hiện thường xuyên nhất cùa Datamart là một kho dữ liệu riêng rẽ theo phương diện vật lí, thường được lưu trữ trên một máy chủ riêng, trong một mạng cục bộ phục vụ cho một nhóm người nhất định. Đôi khi Datamart kế? hợp một cách đơn giàn với công nghệ OLAP theo các quan hệ hình sao đặc biệt tạo ra những siêu khối (hypercube) đữ liệu cho việc phân tích của một nhóm người có cùng mối quan tâm trên một phạm vi dữ liệu. Có thể chia ra làm 2 loại: Datamart độc lập và Daíamart phụ thuộc Datamart phụ thuộc, chứa những dữ liệu được ỉấy từ Kho dữ liệu và những đữ liệu này sẽ được trích lọc và làm sạch, tích hợp ỉại ờ mức cao hơn để phục vụ một chủ đề nhất định của Datamart. Datamart độc lập: không giống như Datamart phụ thuộc, DM loại này được xây đựng trước DW và dữ liệu được trực tiếp lấy từ các nguồn. Phương pháp này đem giản hơn và chi phí thấp hơn nhưng đổi lại có những điểm yếu. Mỗi Kho dữ liệu độc 1 0 lập có cách tích hợp riêns, đo đó đữ liệu từ nhiều Datamart khó đồng nhất với nhau. Datamart thể hiện hai vấn đề: thứ nhấc là lính ổn định trong các tinh huống từ một Data mart nhó ban đầu lớn ỉèn nhanh chóne cheo nhiều chiều và thứ hai là sự lích hợp dữ liệu. Vì vậy khi thiết kế Datamart phải chú ý kĩ tớí tính ổn định của hệ thống, sự đồng nhất cua dữ liệu và vấn đề về khả năng quản lí. 5. Hệ hỗ trợ quyết định (Decisions Support Systems-DSS) Decision Support System (D SS) ( ODS V. DSS A DW OLAP V DM ) .. storage Analytic Profile o f DSS Q u eries Hình số 3: Hê hỗ trơ ra quyết đinh DSS cung cấp một hệ thống có khả nãng trợ giúp việc tạo ra các quyết định, mọi kho dữ liệu được thực hiện với các yêu cầu phương pháp lưu trữ, công cụ xừ lý để người dùng cuối đễ đàng truy cập tới dữ liệu đã được hợp nhất từ nhiều nguồn khác nhau. Tuỳ theo yêu cầu của nghiệp vụ, công cụ có thể đơn giản chỉ là công cụ lập báo cáo, cũng có thể phức tạp hơn. Sau đây là các thành phần mở rộng của DSS: Hệ tác nghiệp (ODS): là cư sờ dữ liệu cùa tlữ liệu diều hành, (iừ liệu có cấu trúc {định dạng-formatted) tĩnh. Hệ tác nshiệp không như kho dữ íiồu, không có tính chát "ít biến đổi", chúng được naười dùna thay đổi cập nhật thường xuyên. Kho dừ liệu (DW) tập hợp dữ liệu giúp quản lý quá trình ra quyết định. Hệ phân tích trực tuyến (Online analytical processing-OLAP) định nshĩa một cách lỏng ỉẻo (loosely) tập hợp các nguyên tố cơ bản (prineiples) nhằm cung cấp các khung nhìn cho việc hỗ trợ quyết định. OLAP phồn tích dữ liệu nhằm chỉ ra định hướng nghiệp vụ, có tính chất tĩnh khỏng đòi hòi tính hiện thời như đữ liệu tác nghiệp. Khai phá đữ liệu (Data mỉning - ĐM): là kỹ thuật khai phá ra các mẫu, tri thức mới chưa từng xuất hiện trước đó. Hình trẽn cho thấy mâu của một hệ hỗ trợ ra quyết định được phũn chia thành hai phần, phần ỉưu trữ (bao gồm ODS, DW) vằ phần phân tích (OLAP, DM). 6. Phàn biệt Kho dữ liệu với những hệ cư sở đữ liệu íác nghiệp Có một số điểm khác biệt chính khi thiết kế hê thống tác nghiệp và khi thiết kế Kho đữ liệu, chúng ta phải quan tủm cách tiếp cận và tiến trình thực hiện: Thiết kế Kho dữ liệu phải quan lâm tới vấn đề tối ưu hoá truy vấn dữ liệu, trong khi thiết kế hệ tác nghiệp quan tâm tới vấn đề tối ưu hoá thao tác dữ íiệu (insert, update, delete...). Tính phát triển của Kho đữ liệu, chúng ta không thể hoàn thành sự phát triển của Kho đữ liệu ngay khi thiết lập, mà quá trình phát triển của kho dữ liệu phải tính đến trong một thời gian dài. Thường dẫn tới kết quả sử dụng cấu trúc dữ liệu động hơn là sử dụng cấu trúc dữ liệu tĩnh như hệ tác nghiệp. Kho đữ liệu Uru trữ dữ liệu lịch sử, dữ liệu cho từng đcm vị thời gian trong khi hệ tác nghiệp xử lý các giao dịch hiện thời. 7. C ác Yẻu cẩu chức năng kho d ừ ỉỉệ u (Desirable Warehouse Functionality). Desirable W arehouse Functionality Ị Scalability Design ¡Manageability d ã Availability Load 11 Data ị A ccess Extensibility Architecture Motad ata Flexibility ] Tuning and optimization integrated Management and revision Accessibility Capacity planning and sizing Reliability .......... - J Hình Operation and management SỐ 4: Yêu cẩu chức nàng kho dữ lieu K hả năng càn bằng (Scalable): Kho dữ liệu có khả năng lưu trữ và quản lý một số lượng khổng lổ các giao dịch và dữ liệu tổns hợp. Kho dữ liệu có thể lớn lên theo thời gian, có thèm dữ liệu mới hoặc giữ lại dữ liệu lịch sử cho một thời gian đàì mà không bị quá tai, vẫn đảm bảo tính ổn định hoạt động. K h ả năng quản trị (M anageable): Kho dữ ỉiệu có khả nãng quản trị viêc tao quyết định. K h ả nâng sẵn sàng (Available): Kho dữ liệu luôn sẵn sàng bất kỳ khi nào cần. K h ả nâng mở rộng (Extensible): Thực hiện một cách dễ dàng khi thêm các loại đữ liệu mới, dữ liệu kết hợp và dữ liệu tổng hợp vào kho đữ liệu. 13 Khả nàng mém dẻo (Flexible): Hỗ trợ nhiều cách truy củp dữ liệu chi tiết, dữ liệu tone hợp theo phàn tích nhiểu chiều, khoan dữ liệu và truy vấn khôna xác định (analysis, drilldown, and true ad hoc querying). Khả năng tích hợp (Integrated): Kho đữ liệu phải có khả mìng tích hợp đẩy đủ với các hệ thốníĩ sẩn có, môi trường tác nghiệp. Do vậy, có thể tải (load) dữ liệu từ nhiều nguồn. Khả năng truy cập sử dạng được (Accessible): Kho dữ liệu phải cổ khả năng truy cập sử dụng được, từ các công cụ mềm dẻo tới phạm vi rộng dãi người sừ đụng. K hả nâng tin cậy (Reliable): Dữ liệu tải từ nhiểu nguồn khác nhau phải được họp nhất, chuẩn hóa bảo đảm tính toàn vẹn dữ liệu và hợp lệ tại một thòi điểm bất kỳ. Kết luận Chương I giới thiêu chung về kho dữ liệu, bao gồm các nội dung: Định nghĩa kho dữ liệu, giới thiệu một định nghĩa phổ biến về kho dữ liệu, định nghĩa của Bill Inmon: "Kho dữ liệu là tập hợp dữ liệu hướng chủ đề, mang tính tích hợp, ít thay đổi, và mổi đơn vị dữ liệu đểu gán với một khoảng thòi gian cụ thể. Kho dữ liệu được thiết kế để hỗ trợ quản trị hệ hỗ trợ quyết định". Bốn đặc tính cơ bản của kho dữ liệu. Theo định nghĩa của Bill Inmon Kho dữ liệu có 4 đặc tính cơ bản gốm: Hướng chủ đê' (Subject-oriented), Tích hợp (Integrated), ít thay đổi (nonvalatile), Tính thời gian cụ thể (Time-variant). Một số định nghĩa khác vể Kho dữ liệu có bổ sung thêm tính chất Kho dữ ỉiệu bao gổm cả dữ liệu chi tiết và dữ liệu tổng hợp. Nguyên lý cơ bản của Kho đữ liệu: Cơ sở dữ liệu nguổn (Source Database)-> Vùng định cư dữ liệu (Data Staging Area)-> Kho dữ liệu đích (target). Kho đữ liệu cục bộ, xét theo khía cạnh tập hợp thì kho đữ liệu cục bộ là tập con của kho dữ liệu, dùng trung một lĩnh vực cụ thể. Có thể xây đựng kho dữ liệu 1 4 cục bộ trước rồi hợp thành kho dư liệu chung hoặc ngược iại có thể xây dựng kho dữ liệu rrước rồi tổ chức khai thác sử dụng theo các kho dữ liệu cục bộ. Hệ hỗ trợ ra quvết định có hai thành phần: I. thành phán lưu trữ - storage: hệ tác nghiệp — ODS và kho dữ liệu-DW; 2. thành phán phàn tích — analytic: hệ phàn tích trực tuyến — OLAP, khai phá dữ liệu — DM. Phân biệt kho dữ liệu với hệ thống tác nghiệp: Thiết kế Kho dữ liệu phải quan tàm tới vấn đề tối ưu hoá truy vấn dữ liệu, trong khi thiết kế hệ tác nghiệp quan tâm tới vấn để tối ưu hoá thao tác dữ liệu (insert, update, delete...). Phân biệt vể tính chất dữ liệu lịch sử của kho dữ liệu và tính chất dữ liệu của hệ tác nghiệp. Các yêu cầu chức năng kho đữ liệu phải đảm nhận: khả nãng cần bằng, quán trị, sẵn sàng, mở rộng, mềm dẻo, tích hợp» truy cập sử dụng, và khả năng tin cậy. 15 CHƯ ƠN G 2. K IẾ N TR Ú C K H O DỮ LIỆU I. M ỘT SỐ KHÁI NIỆM C ơ BẢN 1. Dữ liệu nghiệp vụ Dữ liệu nghiệp vụ (Business data) là dữ liệu dùng để vận hành và quản lý của một doanh nghiệp hoặc một tổ chức. Nó phản ánh những hoạt động của doanh nghiệp và những đối tượng trong thế giói thực như ỉà khách hàng, địa điểm, sản phẩm V.V.. Nó được tạo ra và sử dụng bời các hệ thống xừ iý giao địch cũng như các hệ thống hỗ trợ quyết định. Dữ liệu nghiệp vụ bao gồm dữ liêu cấu trúc và dữ liệu phi cấu trúc. Dựa vào các tiêu chí sử dụng trong nghiệp vụ, phạm vi dữ liệu, tính chất đọc/ghi của dữ liệu, thời gian phát sinh dữ liệu người ta chia dữ liệu có cấu trúc ỉàm ba loại: 1.1. Dữ liệu thời gian thực (real-time data) Dữ liệu chi tiết mới nhất được dùng để vận hành cỏng việc và được truy xuất theo chế độ đọc/ghi thông qua các giao dịch đã được xác định trước. 1.2. Dữ liệu dần xuất (derived data) Dữ liệu tại một thời điểm hoặc dữ liệu định kỳ, ờ mức chi tiết hoặc tổng hợp, thuộc chế độ chỉ đọc, nhận được từ việc xử lỷ dữ liệu thòi gian thực và dùng để quản lý còng tác nghiệp vụ. 1.3. Dữ liệu tương thích (reconciled data) Được sinh ra trong quá trình xử lý tăng cường tính nhất quán bên trong của dữ liệu. Đây là quá trình thực hiện trên dữ liệu thời gian thực ờ mức chi tiết. Khía cạnh thứ hai của quá trình này là duy trì hoặc tạo ra một tập dữ liệu lịch sử. Do đó có thể coi dữ liệu tương thích là một ỉoạí đặc biệt của dữ liệu dẫn xuất. 2. Siêu dữ liệu (M etadata) Siêu đữ liệu (Metadata ) là dữ liệu về dữ liệu, được sử đụng trong DW để mô tả cũng như sử dụng đữ liệu đảm bảo sử dụng triệt để và nhất quán dữ liệu nghiệp vụ. 16 Nó dược tạo ra, duy trì và truy cập trong suốt quá trình xừ lý nghiệp vụ {được thực hiện thòng qua các ứng dụng). Dựa vào hai tịêu chuẩn cơ bản là: Vị trí của siêu dữ liệu trong ứng dụng và chúng được sừ đụng theo cách thức chủ động hay bị động. Người ta chia siêu dữ liệu ra thành ba loại: Siêu dữ liệu trong giai đoạn xây dựng, siêu dữ liệu kiểm soát và siêu dữ liệu vận dụng. 2 .Ỉ. Siêu dữ liệu trong giai đoạn xáy dựng Là siêu dữ liệu được tạo ra trong quá trình thiết kế, xây đựng ứng dụng và cơ sở dữ liệu. Thông thưcmg, chứng được tạo ra và lưu trữ trong các mố hình đữ liệu và công cụ thiết kế ứng dụng (bộ công cụ CASE). 2.2. Siêu dữ liệu kiểm soát Là siêu đữ liệu được sử dụng chủ động trong hoạt động của kho dữ liệu, trong đó siêu đữ liệu hiện hành và siêu dữ ỉiệu sử đụng đóng vai trò quan trọng trong việc quản lý và xây đựng kho dữ liệu. Siêu dữ liệu hiện hành: mô tả thông tin chính xác về tính hiện thời hay vị trí của dữ liệu nghiệp vụ theo thời gian. Sièu đữ liệu sử đụng: gắn chặt vói vấn đề an ninh và các chức năng xác định thẩm quyển, kiểm soát việc truy cập tới kho dữ liệu. Hơn nữa chúng cung cấp các phương tiện nhằm giám sát dữ liệu và các chức năng này được sử dụng trong kho dữ liệu như thế nào, và do đó xác định được giá trị của dữ liệu đối với người sò dụng cuối. 2.3. Siêu dữ liệu vận dụng: Là siêu dữ liệu quan trọng nhất đối với người sử đụng đữ liệu nghiệp vụ, đặc biệt trong môi trường thông tin. Với chúng người đùng có thể đạt được những lợi ích trong nghiệp vụ và nâng cao hiệu quả cỏng việc. 1 7 Siêu dữ liệu vận dụng có nguồn 200 vù nội dung tương tự siêu dữ liệu trong giai đoạn xảy dựng. Sự khác biệt ờ chỗ siêu dừ liệu này được cấu trúc nhằm dảm bảo hiệu quả khả nans tìm kiếm của ncười sử đụn«. II. KIẾN TRÚC D ữ LIỆU MỨC KHÁI NIỆM 1. Kiến trú c dữ liệu nghiệp vụ Một trong các bước đầu tiên khi thiết kế Kho dữ liệu là xây dựng kiến trúc tổng thể và làm kiến trúc đó được chấp nhận một cách rộng rãi. Thông thường, mục tiêu của hệ tác nghiệp là thực hiện các chức năng người sử đụng yêu cầu, và chúng có phạm vi dừ liệu khá hẹp, nên việc thiết kế các hệ thống tác nghiập thường bắt đầu với kiến trúc ứng dụng. Tuy nhiên, đối với kho dữ liệu tính hợp nhất dữ liệu quan trọng hơn, đo đó điểm khởi đầu trong kiến trúc kho dữ liệu phải là đữ ỉiệu tác nghiệp và siêu đữ liệu. Dựa vào thực tế xây đựng kho dữ liệu người ta đưa ra ba mô hình kiến trúc dữ liệu, các tầng dữ liệu được xem xét dưới mức độ khái niệm hơn là mức vật lý của nó. Mặc dù người ta có thể quyếí định trực tiếp vị trí dữ liệu bằng cách xem xét các dặc điểm kiểu dữ liệu, ba kiến trúc dữ liệu nầy đưa ra một nền tảng đễ hiểu hơn cho vị trí dữ liệu. Mô hình kiến trúc dữ iiệu ba tẩng đã bao hàm các thành phần của mô hình kiến trúc hai tầng và một tầng. Do vậy chúng ta sẽ xem xét mỏ hình kiến trúc dữ liệu ba tầng, sau đó chỉ ra nhũng thành phần khác biệt so với kiến trúc dữ ỉiệu hai tẩng và tương tự vói kiến ỉrúc một tầng. •18 Hệ thống thông tin A Dữ liệu dẫn xuất Dữ liệu tương thích Hình số 5: Mô hình kiến trúc dữ liêu ba táng Vổi md hình kiến trúc dữ liệu ba tầng: tiến trình từ dữ liệu thời gian thực tới dữ liệu dẫn xuất thông qua đữ liệu tương thích. Tương thích dữ liệu từ nhiều cơ sờ đữ liệu trong thời gian thực. Dẫn xuất dữ liệu do người sử đụng yêu cầu từ dữ liệu vừa được tương thích. Trong kiến trúc này tẩng dưới cùng là dữ liệu thời gian thực, tầng trên cùng là dữ liệu đẫn xuất và tầng giữa íà tầng dữ liệu tương thích. 19 Quá trình làm tương thích dữ liệu từ các tập đữ liệu khác nhau trong tầng thời gian thực đòi hỏi phải nắm bắt quan hệ giữa nhữna tập dữ liệu này và vai trò của chúng trong nghiệp vụ. Trèn thực tế quá trình nắm bất này dược xác định qua tiến trình lập mò hình dữ liệu, thường được thực hiện ở mức doanh nghiệp hcm là ở mức ứng dụng riêng lẻ. Mối quan hệ giữa tầng dữ liệu tương thích và mô hình đữ iiệu doanh nghiệp là yếu tô' quan trọng để hiểu được hoạt động của kiến trúc ba tầng. Mục đích của tầng dữ ỉiệu tương thích: Bước này ỉấy dữ liệu từ nhiều loại hê tác nghiệp khác nhau, hỗn tạp, phân tán về mặt địa ỉý, sau đó kết hợp và xử lý chúng để trờ thành hình ảnh mô hình dữ liệu doanh nghiệp duy nhất và logic. Chức năng của tầng này trờ thành nguồn duy nhất, chính xác cho mọi dữ liệu mà người dùng của hệ thống thông tin quản lý hay hệ hỗ trợ quyết định đòi hỏi. Từ tầng này có thể dẫn xuất ra bất kỳ tổ hợp dữ liệu nào mà người dùng có thể đòi hỏi trong hiện tại hay tương lai. Trong tiến trình sao chép tới tầng dữ iiệu tương thích, các tập hợp dữ liệu trong tầng thời gian thực phải được làm tương thích với nhau bời yêu cầu làm sạch dữ liệu thời gian thực để loại bò những điểm không nhất quán và bất qui tắc trong dữ liệu. Khống có đữ liệu mới được tạo ra trong bước này, giá trị được thêm vào tới từ chính tầng tương thích. Trong bước thứ hai, dữ liệu dẫn xuất mà người đùng đòi hòi để đáp ứng yêu ciỉu nghiệp vụ của mình có được bằng cách sử dụng nhiều tiến trình như kết hợp, biến đổi....trên đữ liệu tương thích. Bước này được định hướng bởi nhu cầu thông tin của ngưởì dùng đựa trên nguồn đữ liệu đuy nhất, đáng tin cậy. Thông tín mới có giá trị với nghiệp vụ chỉ được tạo ra trong bước này. Người dùng cuối hiếm khi truy nhập trực tiếp tới tầng dữ liệu tương thích vì cấu trúc đã được lập mô hình và chuẩn hoá của tầng này nói chung không phù hợp với người dùng cuối. Phần lớn các tiến trình hỗ trợ quyết định đòi hỏi dữ liệu được kết hợp từ nhiều thực thể khác nhau (hay các bảng đã chuẩn hoá). Tiến trình kết nối này là một trong những công việc không thuân ỉợi với người sử đụng, bời vì nó đòi hỏi một phương pháp hình thức để đảm bào tính hợp lệ. Hơn nữa dữ liệu trong tầng
- Xem thêm -