Data warehouse - lý thuyết và thực tiễn

  • Số trang: 126 |
  • Loại file: PDF |
  • Lượt xem: 102 |
  • Lượt tải: 0
nhattuvisu

Đã đăng 26946 tài liệu

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM MINH TUÂN DATA WAREHOUSE – LÝ THUYẾT VÀ THỰC TIỄN LUẬN VĂN THẠC SĨ Hà nội - 2008 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM MINH TUÂN DATA WAREHOUSE – LÝ THUYẾT VÀ THỰC TIỄN Ngành: Công nghệ thông tin Mã số: 1.01.10 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC TS. NGUYỄN VĂN HÙNG Hà nội 2008 -1– MỤC LỤC MỤC LỤC ................................................................................................................................. 1 CHƯƠNG I: TỔNG QUAN ................................................................................................... 5 1 Đặt vấn đề và việc lựa chọn đề tài ...................................................................................... 5 1.1 Đặt vấn đề .................................................................................................................... 5 1.2 Phạm vi của đề tài ........................................................................................................ 6 2 Định nghĩa lại vấn đề .......................................................................................................... 6 2.1 Các hệ thống thông tin tác nghiệp ............................................................................... 6 2.1.1 Các chức năng và thuộc tính cơ bản của OLTP ................................................... 7 2.2 Nhu cầu quản trị trên các hệ thống thông tin ............................................................ 10 2.2.1 Những nhu cầu thuộc về ban quản trị trong doanh nghiệp ................................ 10 2.2.2 Các hệ thống thông tin quản lý đang đáp ứng các yêu cầu trên ra sao .............. 11 3 Data warehouse (Nhà kho dữ liệu).................................................................................... 13 3.1 Nhà kho dữ liệu là gì.................................................................................................. 13 3.2 Mục tiêu của DWH .................................................................................................... 15 3.2.1 Ứng dụng công nghệ Data warehouse trong các ngành dịch vụ ........................ 16 3.3 Phân biệt DWH với các CSDL tác nghiệp ................................................................ 17 3.3.1 So sánh nhà kho dữ liệu với các CSDL tác nghiệp ............................................ 17 3.3.2 Mối quan hệ giữa các hệ thống thông tin tác nghiệp và Kho dữ liệu ................. 18 3.4 Trung tâm dữ liệu theo chủ đề (Data Mart) ............................................................... 19 3.5 Các bước để xây dựng Nhà kho dữ liệu .................................................................... 20 CHƯƠNG II: KIẾN TRÚC NHÀ KHO DỮ LIỆU ............................................................. 21 1 Kiến trúc tham chiếu ......................................................................................................... 21 2 Kiến trúc dòng dữ liệu ....................................................................................................... 23 2.1.1 ETL ..................................................................................................................... 24 3 Kiến trúc hệ thống ............................................................................................................. 27 3.1.1 Mô hình kiến trúc chung .................................................................................... 27 3.1.2 Các loại kiểu dáng kiến trúc hệ thống trên thực tế ............................................. 27 3.1.3 Những nhân tố dùng để lựa chọn kiến trúc ........................................................ 30 3.2 Một kiến trúc nhà kho dữ liệu cho tập đoàn Amadeus Entertainment [9]................ 30 CHƯƠNG III: MÔ HÌNH DỮ LIỆU THEO CHIỀU ......................................................... 32 1 Mở đầu .............................................................................................................................. 32 2 Các khái niệm .................................................................................................................... 33 2.1 Sự kiện và bảng sự kiện ................................................................................................ 33 2.2 Chiều và bảng chiều ..................................................................................................... 34 2.2.1 Chiều ................................................................................................................... 34 -2– 2.2.2 Bảng chiều .......................................................................................................... 34 2.2.3 Phân loại chiều ................................................................................................... 35 2.2.4 Thời gian và bảng chiều thời gian ...................................................................... 36 2.2.5 Khối dữ liệu (cube) ............................................................................................. 37 2.2.6 Đo lường trong các bảng sự kiện ....................................................................... 39 2.2.7 Mức độ đơn nguyên của phép đo ....................................................................... 39 3 LƯỢC ĐỒ DỮ LIỆU THEO CHIỀU ............................................................................... 39 3.1.1 Lược đồ dữ liệu hình sao (star schema) ............................................................. 39 3.1.2 Lược đồ dữ liệu hình bông tuyết (Snowflake schema) ...................................... 40 4 Quy trình mô hình hóa dữ liệu chiều ................................................................................ 41 4.1 Quy trình mô hình hóa theo chiều ............................................................................. 41 4.1.1 Bước 1: Khảo sát quy trình nghiệp vụ của tổ chức ............................................ 41 4.1.2 Bước 2: Xác định mức độ chi tiết hay các độ thô (grain) .................................. 41 4.1.3 Bước 3: Thiết kế các chiều ................................................................................. 42 4.1.4 Bước 4: Xác định các dữ kiện là số ................................................................... 42 4.2 Thực hiện thông qua ví dụ tiêu biểu về bài toán bán lẻ ............................................. 42 4.2.1 Khung cảnh thực tế ............................................................................................. 42 4.2.2 Cơ sở................................................................................................................... 42 4.2.3 Các bảng dữ liệu của hệ thống điều hành tác nghiệp ......................................... 42 4.2.4 Xác định độ thô của dữ liệu: .............................................................................. 42 4.2.5 Tóm lược ............................................................................................................ 43 4.2.6 Kết quả thiết kế mô hình chiều ........................................................................... 43 4.2.7 Ước lượng dung lượng lưu trữ ........................................................................... 44 CHƯƠNG IV: QUÁ TRÌNH TRÍCH TÁCH DỮ LIỆU TỪ CÁC HỆ THỐNG NGUỒN VÀO DWH .............................................................................................................................. 45 1 Tiến trình ETL (Extraction – Transformation – Loading) ................................................ 45 1.1 Nhiệm vụ của tiến trình ETL ..................................................................................... 45 1.2 Tính chất đầu vào và những thách thức cho ETL ...................................................... 45 2 Trích tách dữ liệu (Extraction) .......................................................................................... 46 3 Chuyển đổi dữ liệu (Transformation) ............................................................................... 48 4 Tải dữ liệu (Loading) ........................................................................................................ 49 5 Các phương hướng và kiến trúc thành phần ETL ............................................................. 49 5.1 Mô hình với trạm tạm ................................................................................................ 49 5.2 Mô hình theo cách thức lấy dữ liệu nguồn ................................................................ 49 5.3 Các cấu hình xét theo vị trí thành phần ETL ............................................................. 50 6 Hiệu năng tiến trình ETL .................................................................................................. 51 6.1 Hiệu năng ................................................................................................................... 51 -3– 6.2 Xử lý song song ......................................................................................................... 51 7 Một số công cụ ETL .......................................................................................................... 52 7.1 Các môi trường ETL mã nguồn mở ........................................................................... 52 CHƯƠNG V: XỬ LÝ PHÂN TÍCH TRỰC TUYẾN OLAP............................................. 53 1 Giới thiệu chung ................................................................................................................ 53 1.1 Các tính chất cần có của dịch vụ OLAP .................................................................... 54 1.1.1 So sánh OLAP với OLTP ................................................................................... 54 2 Kiến trúc khối của OLAP .................................................................................................. 55 2.1 Khối ........................................................................................................................... 55 2.1.1 Đại lượng đo lường thống kê ............................................................................. 55 2.1.2 Lưới các khối ...................................................................................................... 56 2.1.3 Các phân hoạch (partition) ................................................................................. 57 2.1.4 Các phép xử lý trên khối .................................................................................... 58 3 Các tiêu chuẩn đánh giá một công cụ OLAP .................................................................... 59 4 Các mô hình lưu trữ hỗ trợ OLAP .................................................................................... 60 4.1 Mô hình Multidimensional OLAP (MOLAP) ........................................................... 60 4.1.1 Mô hình Relational OLAP (ROLAP)................................................................. 62 4.1.2 Mô hình Hybird OLAP (HOLAP) ..................................................................... 63 4.1.3 So sách các mô hình ........................................................................................... 64 5 Mô hình kiến trúc dịch vụ OLAP ...................................................................................... 64 5.1.1 Kiến trúc thành phần Server: .............................................................................. 65 5.1.2 Kiến trúc thành phần Client ............................................................................... 66 6 Kỹ thuật để xử lý truy vấn hiệu quả trên OLAP ............................................................... 67 6.1 Bitmap Index.............................................................................................................. 67 6.2 Sử dụng kỹ thuật tính toán trước khối dữ liệu [4] ..................................................... 69 6.2.1 Điểm khởi đầu .................................................................................................... 69 6.2.2 Định nghĩa hình thức .......................................................................................... 71 6.2.3 Thuật toán ăn tham ............................................................................................. 73 7 Mối quan hệ giữa dữ liệu tại các hệ thống OLTP với dữ liệu trên OLAP ........................ 74 CHƯƠNG VI: DWH VỚI ỨNG DỤNG QUAN HỆ KHÁCH HÀNG .............................. 76 1 Hệ thống CRM .................................................................................................................. 76 1.1 Các chức năng của một hệ thống CRM ..................................................................... 77 1.2 Làm thế nào có chương trình CRM thực sự hiệu quả? .............................................. 78 1.2.1 Cải thiện các quy trình và cách thức kinh doanh ............................................... 78 1.2.2 Xây dựng một chu trình quản lý khách hàng ..................................................... 78 1.2.3 Tư vấn và triển khai CRM theo yêu cầu (on-demand CRM) ............................. 79 1.2.4 Quan hệ khách hàng và tiếp thị .......................................................................... 79 -4– DWH & QUAN HỆ KHÁCH HÀNG .............................................................................. 80 2.1 SCV – góc nhìn thống nhất về khách hàng................................................................ 80 2.1.1 Ý nghĩa của SCV ............................................................................................... 81 2.1.2 Một bài toán thực tế ............................................................................................ 81 2.1.3 Thực hiện chất lượng dữ liệu khách hàng .......................................................... 83 2.1.4 Bộ thuộc tính của khách hàng ............................................................................ 83 2.1.5 CSDL trung tâm về khách hàng ......................................................................... 83 2.2 Sự phù hợp của DWH đối với CRM trong vấn đề SCV ............................................ 84 2.3 Đợt chiến dịch quảng cáo, quảng bá (Campaign Segmentation)............................... 84 2.3.1 Quản trị sự chấp thuận........................................................................................ 85 2.3.2 Dữ liệu phát đi và phản hồi từ khách hàng......................................................... 86 2.4 Phân tích khách hàng ................................................................................................. 89 2.4.1 Những phân tích diễn giải trong một số ngành .................................................. 90 2.4.2 Những phân tích mang tính dự báo .................................................................... 90 CHƯƠNG VII: THỰC HIỆN DWH TRÊN MS SQL SERVER 2005 .............................. 91 1 Giới thiệu MS SQL Server 2005 [1] ................................................................................. 91 1.1 Các công nghệ Nghiệp vụ thông minh Business Intelligence của Microsoft ............ 92 1.1.1 Hợp nhất dữ liệu công ty cho việc phân tích và báo cáo.................................... 94 1.1.2 Thực thi kho dữ liệu ........................................................................................... 95 Xây dựng và quản lý các giải pháp BI phức tạp ............................................................... 96 2 Thực hiện DWH trên MS SQL Server 2005 ..................................................................... 96 2.1 Bài toán ví dụ AdventureWorks ................................................................................ 96 2.2 Thực hiện DWH cho AdventureWorks ..................................................................... 96 2.2.1 Chuyển tải dữ liệu tác nghiệp vào CSDL DWH ................................................ 96 2.2.2 Thực hiện dịch vụ phân tích trực tuyến trên CSDL DWH ............................... 103 CHƯƠNG VIII: KẾT LUẬN .............................................................................................. 121 1 Kết quả đạt được ............................................................................................................. 121 2 Hạn chế và hướng phát triển ........................................................................................... 121 3 Kết luận ........................................................................................................................... 122 Tài liệu tham khảo .................................................................................................................. 123 2 CÁC THUẬT NGỮ VIẾT TẮT Thuật ngữ CRM CSDL DQ DWH ETL HOLAP MOLAP NLLV OLTP OLAP ROLAP Đầy đủ Customer Relationship Management Cơ sở dữ liệu Data warehouse Extraction – Transformation Loading Hybric Online Analytical Processing Multi dimensional Online Analytical Processing Người làm luận văn OnLine Transaction Processing Online Analytical Processing Relational Online Analytical Processing Chú thích quản trị quan hệ khách hàng chất lượng dữ liệu Nhà kho dữ liệu Quá trình trích tách biến đổi và tải dữ liệu vào một CSDL Xử lý phân tích trực tuyến kết hợp Xử lý phân tích trực tuyến đa chiều Hệ thống xử lý giao tác trực tuyến Xử lý phân tích trực tuyến Xử lý phân tích trực tuyến quan hệ -5– CHƢƠNG I: TỔNG QUAN 1 Đặt vấn đề và việc lựa chọn đề tài 1.1 Đặt vấn đề Đến nay những hệ thống cơ sở dữ liệu đã có mặt tại hầu hết các hoạt động kinh tế xã hội. Cùng với sự phát triển của công nghệ phần cứng như vi xử lý tốc độ cao, ổ đĩa với dung lượng lưu trữ lớn, khả năng sao lưu thì dữ liệu của các tổ chức, doanh nghiệp trong quá trình hoạt động đã được cập nhật và lưu giữ một cách đầy đủ. Cùng với sự đa dạng hoạt động hàng ngày của phòng ban, nhân sự cũng như với các đối tác bên ngoài, dữ liệu nghiệp vụ của tổ chức ngày càng trở nên khổng lồ. Dữ liệu có thể là tệp phẳng (không có cấu trúc) như hình ảnh, văn bản đến dữ liệu có cấu trúc được lưu giữ tại các hệ quản trị CSDL. Một hãng bán lẻ nổi tiếng như WalMart xử lý hàng chục triệu giao dịch mỗi ngày, hay ở Việt Nam, một công ty bán lẻ thời trang cũng có hàng trăm đơn hàng. Dữ liệu ngày qua ngày được tích lũy thay thế dần các hoạt động giấy tờ. Người ta có thể truy cập dữ liệu mình cần một cách nhanh chóng bằng các phép tìm kiếm hay thông qua sơ đồ thư mục lưu trữ trên hệ điều hành. Như vậy với các công nghệ hiện tại đã và đang đáp ứng tốt một giai đoạn yêu cầu của người dùng. Đến một ngày, khi những thành viên trong ban quản trị nhìn xuống và sửng sốt với độ lớn dữ liệu của tổ chức, doanh nghiệp mình. Toàn bộ hoạt động, lịch sử được lưu dưới dạng số một cách đầy đủ. Dữ liệu ấy chính là tài sản của công ty. Và họ muốn rằng những khối dữ liệu khổng lồ ấy phải nói lên những điều thật ý nghĩa. Điều này khác với việc họ muốn tìm lại một đơn hàng, một thông tin mang tính cá nhân của một khách hàng. Ở đây họ muốn biết cái sơ đồ doanh thu theo chiều lên hay xuống, muốn tách ra quy luật của bán hàng, quy luật của năng suất hoạt động,... Quy luật ấy dựa trên các yếu tố thời gian, yếu tố con người, yếu tố địa lý,…. Có quy luật ấy không, nếu có thì quy luật ấy được phát biểu và thể hiện như thế nào. Nếu doanh nghiệp lấy ra được các thống kê, quy luật ấy họ sẽ có được những quyết sách trong tương lai một cách phù hợp hơn, dựa trên những yếu tố có cơ sở đúng đắn. Mùa nào, tháng nào trong năm, loại hàng hóa nào sẽ được đẩy mạnh ra thị trường. Vì thế có thể nói nếu dữ liệu tích luỹ được phân tích chính xác, nó có thể trở thành những phương tiện cạnh tranh hiệu quả. Hiện nay dữ liệu tràn ngập trên những phương tiện lưu trữ. Với việc không có được những công cụ khai thác thông tin hiệu quả , các tổ chức doanh nghiệp đang sống trong một môi trường “giàu dữ liệu nhưng nghèo thông tin”. Trong môi trường cạnh tranh ngày nay cùng với sự phát triển nhanh chóng của thế giới, những nhà ra quyết định xác định rõ cần phải có một thế hệ các kỹ thuật và công cụ tính toán -6– mới nhằm hỗ trợ họ trong việc trích xuất các thông tin hữu ích (tri thức) được nhúng bên trong các dữ liệu thu thập và tích luỹ. Họ mong muốn có những công cụ hỗ trợ quyết định trong một môi trường tích hợp để họ có thể tự tạo những tiêu chuẩn của riêng mình hoặc những báo biểu đặc biệt cho phân tích các dữ liệu phức tạp. Nắm được lợi ích của lượng dữ liệu lớn, họ có thể xác định được những thông tin tiềm ẩn, chẳng hạn nhờ đó có thể tiết kiệm chi phí, vươn tới những thị trường mới và theo vết tổng thu nhập một cách hiệu quả. Data warehouse, một công nghệ mới ra đời vào khoảng đầu những năm 90 đã được đón nhận và đưa vào thực tiễn. Tại Việt Nam, khái niệm và công nghệ này đã được làm quen cách đây cũng được khoảng 5 năm nhưng trên thực tế chúng hầu như chưa được quan tâm và ứng dụng một cách hiệu quả. Điều này cũng bắt nguồn từ nhu cầu quản lý trong một thế giới cạnh tranh chưa gay gắt, trình độ quản lý không cao. Với sự phát triển kinh tế xã hội, gia nhập WTO, môi trường ngày càng trở nên sôi động, mức độ cạnh tranh cao. Trong những đòi hỏi phát triển trình độ quản lý có yêu cầu nhanh chóng tổng hợp các khía cạnh trên dữ liệu hoạt động khổng lồ của doanh nghiệp mình, nhìn ra được những xu hướng đã và đang tồn tại ở các mặt hoạt động từ đó có những quyết định, xử lý đúng đắn. Chính vì điều này nên học viên chọn Data warehouse làm đề tài nghiên cứu. 1.2 Phạm vi của đề tài Đề tài trình bày các vấn đề chính trong lĩnh vực Data warehouse bao gồm cơ sở lý thuyết và một số khía cạnh thực tế của công nghệ này. Đề tài cũng trình bày hệ thống Microsoft SQL Server phiên bản 2005 và áp dụng hệ thống này để xây dựng một nhà kho dữ liệu. 2 Định nghĩa lại vấn đề 2.1 Các hệ thống thông tin tác nghiệp Công nghệ thông tin ngày càng đóng vai trò to lớn trong mọi hoạt động sản xuất quản lý của con người. Hầu hết việc thông tin tự động hóa đã được đưa vào các quy trình của doanh nghiệp tổ chức. Đó là tổ chức sản xuất, bán hàng, quản trị khách hàng, quản trị nguồn nhân lực… Trên thực tế các công ty muốn thành công trên thị trường, ngoài việc tổ chức bán hàng tốt (giao dịch đơn giản, thuận tiện cho người mua và người quản lý bán hàng...), người lãnh đạo công ty phải nắm được thực chất các quá trình diễn ra trong đơn vị mình và trong môi trường kinh doanh mà đơn vị đó hoạt động. Để thực hiện các công việc của một công ty, người ta có nhiều hệ chương trình tự động hoá các lĩnh vực quan trọng như kế toán, lập kế hoạch, giao dịch khách hàng, lập hoá đơn... Chính vì lý do đó những hệ thống này có một cái tên cổ điển -7– là hệ thống xử lý giao dịch (OLTP- online transaction processing). Thông thường OLTP bao gồm một dãy lệnh: thu nhận (gathering) dữ liệu đầu vào, xử lý (processing) dữ liệu, và cập nhật (updating) dữ liệu cũ với dữ liệu mới được nhập và xử lý. Mỗi giao dịch tương ứng với một phép xử lý nghiệp vụ : tạo lập đơn hàng với khách hàng, đăng ký khóa học, chuyển khoản,.. Các giao dịch này này trong quá trình thực hiện liên quan đến nhiều vai trò tạo ra một hay nhiều thực thể. Bằng việc sử dụng hệ thống OLTP thì các thông tin về thực thể, thông tin về quá trình thực hiện được lưu lại trên các hệ thống máy tính. Các tổ chức, doanh nghiệp chưa đưa CNTT vào áp dụng thì chúng được lưu dưới dạng sổ sách giấy tờ. Theo thời gian, mỗi doanh nghiệp sở hữu các kho dữ liệu. Thông tin trước hết là một phát biểu có nghĩa được trích rút từ kho dữ liệu. Giá trị của thông tin tỷ lệ thuận với “ độ không biết ” của con người. Thông tin có thể lấy từ bản thân một mảnh dữ liệu hoặc có thể xâu chuỗi từ nhiều mảnh dữ liệu với một mối quan hệ nào đó. Quá trình xác định mối quan hệ giữa các dữ liệu đòi hỏi các kiến thức cần thiết về khả năng nhận thức và nắm bắt chuỗi thông tin cũng như phương thức làm cho thông tin đó có khả năng đáp ứng một nhiệm vụ cụ thể. Trong quản lý, giá trị của thông tin có liên quan trực tiếp tới việc thông tin đó giúp đạt được các mục tiêu của tổ chức. Trong khi dữ liệu đang được một giao tác cập nhật, có thể có hoặc không một khoá ngăn không cho giao tác khác truy cập dữ liệu. OLTP là phương thức hiệu quả khi các người dùng muốn: Xử lý các dữ liệu đơn nói chung không giới hạn về mặt số lượng với tần suất không biết trước một cách chính xác. - Truy cập tức thì vào dữ liệu đã được cập nhật, phản ánh các giao tác trước đó Thay đổi dữ liệu tức thì để phản ánh giao tác vừa xử lý. 2.1.1 Các chức năng và thuộc tính cơ bản của OLTP Khả năng truy cập và cập nhật các dữ liệu chia sẻ trên các hệ thống OLTP có các đặc tính - Truy cập trực tuyến (online) - Truy cập tức thời (availability) - Phản hồi nhanh chóng (response) - Chi phí thấp (low cost). Truy cập trực tuyến: để truy cập, user cần một máy trạm (workstation) nối với hệ thống. Kết nối vật lý có thể thông qua mạng nội bộ LAN, mạng mở rộng WAN (bao gồm cả mạng nội thị MAN), hay internet (với mạng riêng ảo hay hệ thống web – based). Kết nối lô gíc -8– được cung cấp bởi hệ thống OLTP hoặc riêng lẻ, hoặc được liên kết với một phương thức truy cập truyền thông và trình điều khiển mạng. Truy cập tức thời: Đây là một yêu cầu rất quan trong đối với một hệ thống OLTP. Vì quy trình của công ty được xây dựng dựa trên 1 cấu thành là hệ thống thông tin nên nó phải luôn sẵn sàng cho bất cứ nhu cầu truy cập ở thời điểm nào. Một công ty dịch vụ với 24 giờ làm việc một ngày trong cả tuần, những nhu cầu truy cập dữ liệu không được định trước. Mặt khác nhiều công ty còn cho phép tương tác với khách hàng thông qua hệ thống. Vì thế để công ty hoạt động thông suốt thì hệ thống cần phải có khả năng truy cập tức thời. Để đảm bảo được khả năng này cần phải có chất lượng và công nghệ kết nối phần cứng, phần mềm, ứng dụng, và các thiết bị hay tiện ích tự động phục hồi (recover) từ bất cứ lỗi cấu tạo nào. Cùng với khả năng sửa lỗi hay vượt lỗi, hệ thống OLTP cũng cần giảm thiểu ảnh hưởng của các hoạt động bất thường như nâng cấp phần cứng, thay đổi phần mềm, chuyển đổi công việc, lưu trữ dữ liệu, và tái cơ cấu tổ chức. Phản hồi nhanh chóng: Như đã phân tích ở trên nhân viên hay thậm chí khách hàng đối tác của doanh nghiệp sử dụng hệ thống OLTP hầu như mọi lúc. Để duy trì và đáp ứng hiệu quả công việc thì thời gian phản hồi giao tác phải đủ nhanh chấp nhận được với người dùng. Thuật toán đáp ứng giao tác tốt, chế độ sắp xếp hàng đợi giao tác hợp lý là những nhân tố để đáp ứng yêu cầu này. Việc sắp xếp ưu tiên giao tác đòi hỏi có chính sách ngay từ đầu để phân hoạch tải trong những điều kiện ngặt nghèo khi đến giờ cao điểm truy cập Tiết kiệm chi phí: Các hệ thống OLTP hiện nay đã được xây dựng và sử dụng một cách rộng rãi nhưng ít ai để ý đến “chi phí xử lý mỗi giao tác” . Chi phí cho từng giao tác chiếm một tỷ lệ trong tổng chi phí cần thiết của hệ thống để thực hiện giao tác. Như vậy, mỗi giao tác phải được sắp xếp, xử lý, và kết thúc một cách có hiệu qủa. Ưu điểm tuyệt đối của các hệ thống OLTP là xử lý các giao dịch tương tác, dễ bảo trì và khống chế dữ liệu thừa, thiết lập dữ liệu quan hệ trọn vẹn. Dữ liệu có trong các Cơ sở dữ liệu của OLTP có một số đặc điểm đáng quan tâm là: - Dữ liệu dạng "thô", có nghĩa là mức độ tổng quát, trừu tượng của dữ liệu này rất thấp. Điều này cũng dễ hiểu vì ngay ban đầu CSDL đã được thiết kế nhằm lưu các mảnh dữ liệu ghi nhận giá trị thuộc tính của các thực thế nghiệp vụ. Chúng được tạo ra nhằm mục đích chính là cập nhật và truy xuất theo kiểu đơn lẻ. - Dữ liệu bao hàm hiện tai và lịch sử: Phần dữ liệu hiện tại là dữ liệu đang hoặc sẽ liên quan trực tiếp đến giao dịch, có thể ghi và đọc. Phần dữ liệu lịch sử không còn liên quan đến các giao dịch đang hoặc sẽ xẩy ra, chỉ để đọc. Trong quá trình hoạt động của OLTP, dữ liệu sống dần chuyển thành lịch sử, do vậy dung lượng dữ liệu lịch sử ngày -9– càng tăng, lấn át dữ liệu hiện tại. Ví dụ, trong thống kê sản xuất may mặc thì các đơn hàng đã hoàn tất đều là dữ liệu lịch sử. - Vấn đề độ lớn dữ liệu: Hiển nhiên với sự tăng trưởng của kho dữ liệu thì quá trình truy xuất đến dữ liệu thuờng cần đến nhiều tài nguyên máy tính (như tốc độ xử lý của CPU, dung lượng bộ nhớ RAM, ổ cứng…), đặc biệt đối với các kho dữ liệu lớn. Tốc độ giảm xuống nhiều khi không thể chấp nhận được. - Tính đa tạp của dữ liệu từ các hệ thống tác nghiệp: Tại một tổ chức có nhiều hệ thống thông tin được xây dựng. Các hệ thống này phục vụ cho các phòng ban đơn vị khác nhau trong tổ chức vì thế chúng: o Những giao diện khác nhau o Những dạng biểu dữ liệu khác nhau o Thông tin trùng lặp và không nhất quán CSDL Cá nhân CSDL Khoa học Web Thư viên Dữ liệu bị phân mảnh theo chiều dọc (theo chiều các bộ phận phòng ban tổ chức) trong các hệ thống thông tin: - 10 – Tại sao tổ chức hay doanh nghiệp không làm một hệ thống đồng bộ xuyên suốt cho các phòng ban của mình? Thực sự đây là một công việc khó khăn và đòi hỏi một thời gian xây dựng lâu dài. Tổ chức, doanh nghiệp có quá nhiều phòng ban, kiến trúc nhiều tầng hay thậm chí có những kế hoạch cơ cấu mới trong tương lai. Đơn vị có quy mô càng lớn thì việc xây dựng một hệ thống như thế càng dễ xẩy ra rủi ro vì sự lệch pha với yêu cầu nghiệp vụ phức tạp trải rộng. Phần lớn doanh nghiệp chấp nhận trả giá cho việc thiếu đồng bộ hệ thống CNTT cho thời gian có thể đưa chúng vào ứng dụng. 2.2 Nhu cầu quản trị trên các hệ thống thông tin 2.2.1 Những nhu cầu thuộc về ban quản trị trong doanh nghiệp Đối với đội ngũ thượng tầng của tổ chức, doanh nghiệp thì những yêu cầu thông tin xuất phát từ đó mang tính chất quản trị, khái quát và định hình tình hình hoạt động của đơn vị trong một quãng thời gian nhất định. Họ hiếm khi quan tâm đến từng đơn hàng hay từng cá thể đơn lẻ. Ví dụ như: - Tiêu thụ sản phẩm áo vest nữ cao cấp tại thị trường Hải Phòng đang giảm, phân tích lý do. Thay đổi yếu tố nào để có kết quả khả quan hơn về mặt số lượng bán ra - Xu hướng những độc giả mua sách về trinh thám và kèm theo sách tiểu sử là như thế nào - Hãng dịch vụ điện thoại di động sẽ tung ra một gói dịch vụ mới, thì doanh thu của gói này sẽ được dự đoán ra sao - … Sau khi các hệ thống thông tin tác nghiệp đã ổn định và đưa vào sử dụng trong một thời gian dài, dữ liệu tác nghiệp sẽ được lưu tại các hệ thống này. Mặc nhiên chúng sẽ là đầu vào cho - 11 – việc phân tích, dự báo,… Tuy nhiên có những tính chất căn bản của dữ liệu này gây khó khăn cho việc đáp ứng nhu cầu thông tin quản trị: - Các số liệu ở mức chi tiết (cho từng giao tác) - Các số liệu được phân bố ở những hệ thống khác nhau, có các thủ tục truy cập khác nhau và ở những CSDL hoàn toàn khác nhau. - Các số liệu không được cập nhập cùng một chu kỳ dẫn đến sự mất đồng bộ. - Việc tổ chức truy cập từ rất nhiều bảng dữ liệu khác nhau có ảnh hưởng rất xấu tới hiệu suất của các hệ thống vì mục đích của các hệ thống này là nhằm phục vụ các giao dịch trực tuyến. Trong môi trường thừa thãi số liệu, nhà phân tích không thể tìm ra cho mình thông tin cần thiết nhằm có được sự hiểu biết thấu đáo về những quá trình xảy ra xung quanh. Tình trạng số liệu quá chi tiết và không có được sự liên kết với nhau của các số liệu phản ánh các quá trình tương đối độc lập của một thực thể là lý do trực tiếp dẫn đến sự khủng hoảng này. Bên cạnh chức năng chủ yếu là phục vụ các giao dịch, RDBMS cần cung cấp cho các nhà quản lý báo cáo về các thông tin tổng quát có độ trừu tượng cao, được khai thác từ dữ liệu thô. Tóm lại sau giai đoạn triển khai những hệ thống quản lý tác nghiệp, thì nhà quản trị muốn có - Khung nhìn dữ liệu đa chiều - Hỗ trợ phân cấp dữ liệu, và khả năng đi sâu vào chi tiết - Trả lời nhanh các câu hỏi mang tính quản trị sâu sắc 2.2.2 Các hệ thống thông tin quản lý đang đáp ứng các yêu cầu trên ra sao Các kỹ sư phần mềm hiện nay chỗ này chỗ khác vẫn viết thêm và gắn vào các hệ thống tác nghiệp những báo cáo phục vụ yêu cầu quản trị. Những phần mềm viết theo đơn đặt hàng vẫn tiếp tục được bổ sung những báo cáo dạng này. Thực sự có những người tạo báo cáo rất giỏi. Nhưng điều đáng nói ở đây là việc tạo báo cáo phục vụ yêu cầu mức quản trị ngày càng trở nên „mang tính nghệ thuật‟ , tức là phụ thuộc rất lớn vào những lập trình xử lý tinh tế của người xây dụng hệ thống. Điều này cho thấy sự đáp ứng một cách yếu ớt, rời rạc, ko có nền tảng cho các nhu cầu phân tích dữ liệu mang tính lịch sử. Hơn nữa giới hạn của chúng là rõ ràng và không thể vượt qua. Chúng đáp ứng cho từng hệ thống đơn lẻ, thời gian thực hiện trở nên không thực tế trên kho dữ liệu lớn. Báo cáo truyền thống thường được thiết kế dưới dạng bảng 2 chiều để cung cấp dữ liệu tổng hợp và được thiết kế bằng các công cụ phần mềm tạo báo cáo kiểu tham số hóa, ví dụ như - 12 – Crystal Reports của công ty Bussiness Objects. Bên cạnh các ưu điểm như hình thức trình bày đẹp, chúng có một số nhược điểm đáng lưu ý sau: - Chi phí thiết kế lớn: Với mỗi một yêu cầu báo cáo, đội ngũ CNTT phải thiết kế cũng như lập trình từ đầu. Với mỗi loại báo cáo có nhận một tập các tham số đầu vào cố định trong khi bộ phận quản trị thường xuyên yêu cầu thay đổi loại tham số hay kết cấu báo cáo mới. - Không linh hoạt: Như đã phân tích ở trên mức độ linh hoạt của báo cáo là rất thấp. - Tương tác rất kém: Cũng cùng nguyên nhân với nhược điểm không linh hoạt, báo cáo kiểu chứng từ không cho phép người dùng tương tác với hệ thống (module báo cáo) để thay đổi đơn giản như trình bày, nhãn hay cao hơn là cấu trúc và điều kiện. - Tiêu tốn và lãng phí nhiều tài nguyên máy tính: Bất kể làm báo cáo về số liệu sống hay số liệu lịch sử trong RDBMS, công cụ tạo báo cáo phải khoá rất nhiều bảng, cản trở sự truy xuất của những người dùng khác, ảnh hưởng xấu đến hiệu suất của hệ thống. Số liệu tính gộp trung gian dùng tạo báo cáo không được lưu giữ lại, kể cả đối với các dữ liệu lịch sử, do vậy nếu cần tạo lại vẫn chính báo cáo đó, thì hệ thống lại tính toán lại từ đầu từ dữ liệu thô, gây lãng phí nghiêm trọng tài nguyên máy tính. - Không phù hợp với nhu cầu phân tích trực tuyến đa chiều: Để tìm ra quy luật kinh doanh, ta cần phân tích số liệu trực tuyến dưới nhiều góc nhìn và cách thể hiện khác nhau. Trực tuyến ở đây có nghĩa người tiến hành phân tích tương tác số liệu (thường là các chuyên viên, hoặc các nhà quản lý không chuyên ngành tin học) cần thao tác nhanh chóng và thuận tiện kho dữ liệu và tìm ra kết quả trong thời gian thực. Yêu cầu trực tuyến đạt được khi mỗi thay đổi cấu trúc dữ liệu tổng hợp trong báo cáo tiêu tốn không quá 20 giây. Với những hạn chế ấy, việc nghiên cứu triệt để để xây dựng một công nghệ nền hoàn chỉnh là cần thiết. Một cách tiếp cận được đề xướng bởi B.Inmon vào những năm 90 của thế kỷ trước là một sự kết hợp của một số giải pháp kỹ thuật và được đặt tên là Data Warehoushing - kỹ thuật xây dựng các kho dữ liệu. Data Warehouse hay DWH (kho dữ liệu) được định nghĩa như một tập hợp các phương tiện cho phép hình dung dữ liệu một cách tổng thể, hướng đối tượng để giúp cho việc phân tích và ra quyết định. - 13 – 3 Data warehouse (Nhà kho dữ liệu) 3.1 Nhà kho dữ liệu là gì Một nhà kho dữ liệu (data warehouse), gọi một cách chính xác hơn là kho thông tin (information warehouse), là một cơ sở dữ liệu hướng đối tượng được thiết kế với việc tiếp cận các ý kiến trong mọi lĩnh vực kinh doanh. Nó cung cấp các công cụ để đáp ứng thông tin cần thiết cho các nhà quản trị kinh doanh tại mọi cấp độ tổ chức - không những chỉ là những yêu cầu dữ liệu phức hợp, mà còn là điều kiện thuận tiện nhất để đạt được việc lấy thông tin nhanh, chính xác. Một kho dữ liệu được thiết kế để người sử dụng có thể nhận ra thông tin mà họ muốn có và truy cập đến bằng những công cụ đơn giản. Ở nhiều tài liệu tiếng Việt, „Data warehouse‟ được dịch là nhà kho dữ liệu. Thuật ngữ này cũng chính xác nhưng dễ gây nhầm lẫn với khái nhiệm kho dữ liệu nói chung mà chúng ta đã sử dụng từ trước nên trong một số trường hợp, NLLV sử dụng từ viết tắt là DWH. Công nghệ DWH là một sự pha trộn của nhiều công nghệ, bao gồm các cơ sở dữ liệu đa chiều và mối quan hệ giữa chúng, kiến trúc chủ khách, giao diện người dùng đồ họa,…. Dữ liệu trong DWH không giống dữ liệu của hệ tác nghiệp là loại chỉ có thể đọc nhưng không chỉnh sửa được. Hệ tác nghiệp tạo ra, chỉnh sửa và xóa những dữ liệu sản xuất mà những dữ liệu này cung cấp cho DWH. Nguyên nhân chính cho sự phát triển một DWH là hoạt động tích hợp dữ liệu từ nhiền nguồn khác nhau vào một kho dữ liệu đơn lẻ và dày đặc mà kho này cung cấp cho việc phân tích và ra quyết định trong công việc kinh doanh. DWH là sự tích hợp các dữ liệu từ các OLPT khác nhau nhằm tập hợp dữ liệu phục vụ quá trình phân tích hoạt động kinh doanh nên dữ liệu trong một hệ thống Xuất phát từ nhu cầu quản trị, DWH cần thoả mãn một số yêu cầu chính sau : - Hướng chủ đề: Các hệ thống OLTP có thể chứa hàng trăm Gbyte số liệu, tuy nhiên những số liệu này có thể hoàn toàn vô ích trong việc phân tích trực tuyến (VD: Địa chỉ, ID khách hàng...). Các dữ liệu kiểu này thường không được đưa vào DWH để hạn chế dữ liệu cần xem xét xuống mức tối thiểu nhưng cũng bảo đảm các thông tin theo từng SA (vùng chủ đề- Subject area). Một vùng chủ đề là một chủ đề được tách ra từ một tập hợp lớn các chủ đề mà người sử dụng quan tâm trong công việc kinh doanh, (Ví dụ khách hàng, thời gian hay sản phẩm). - Được tổ chức xung quanh các chủ thể : Nhu cầu thông tin quản trị không tập trung vào các mảnh dữ liệu đơn lẻ mà hướng tới các đối tượng, lớp đối tượng như khách hàng (customer), sản phẩm (product), bán hàng (sales). - Tập trung vào việc mô hình hóa và phân tích dữ liệu cho các nhà đưa ra quyết định, mà không tập trung vào các hoạt động hay các xử lý tác nghiệp hàng ngày. - 14 – - Cung cấp một khung nhìn đơn giản và súc tích xung quanh các sự kiện của các chủ thể - Số liệu có tính lịch sử: Các hệ OLTP thường bao quát một khoảng thời gian không lớn và chúng được lưu trữ theo chu kỳ. Ngược lại trong DWH, dữ liệu của hàng chục năm được lưu trữ nhằm phát hiện sự liên hệ của các yếu tố có thể ảnh hưởng đến những chỉ tiêu cần quan tâm trong một thời gian dài. Time Data 01/97 DỮ liệu tháng 1 02/97 Dữ liệu tháng 2 03/97 Dữ liệu tháng 3 DWH - Số liệu chỉ để đọc: Dữ liệu đưa vào DWH chỉ để đọc, việc sửa dữ liệu hầu như không được tiến hành vì điều này có thể dẫn đến phá vỡ sự toàn vẹn. Thông thường người ta không yêu cầu giảm thời gian đưa dữ liệu vào DWH xuống mức tối thiểu, nhưng cần tối ưu hoá DWH sao cho các truy vấn phục vụ cho việc phân tích đạt tốc độ tốt nhất. Các sơ đồ quan hệ sẽ tạo ra các Index hợp lý cũng như tạo ra sẵn các dữ liệu kết hợp. - 15 – Chuyển dữ liệu D WH Hệ tác nghiệp làm tƣơi Cập nhật Làm tƣơi làm tƣơi - Là một lưu trữ vật lý của dữ liệu được chuyển đổi từ môi trường tác nghiệp. - Cập nhật tác nghiệp của dữ liệu không xuất hiện trong môi trường kho dữ liệu.  Không yêu cầu các cơ chế xử lý toàn tác, phục hồi và điều khiển tương tranh.  - Chỉ yêu cầu hai thao tác trong truy cập dữ liệu: Nạp dữ liệu và truy cập dữ liệu. Số liệu không biến động: dữ liệu được lưu trữ lâu dài trong DWH. Không biến động ở đây được hiểu là thời gian tĩnh của DWH là lâu hơn nhiều so với các hệ OLTP. Mặc dù có thêm dữ liệu mới nhập vào nhưng dữ liệu cũ trong kho vẫn không bị xoá, điều đó cho phép cung cấp thông tin về một khoảng thời gian dài, cung cấp đủ số liệu cần thiết cho các mô hình nghiệp vụ phân tích, dự báo. 3.2 Mục tiêu của DWH - Đóng vai trò kho lưu trữ dữ liệu, thông tin, tri thức, và siêu dữ liệu  Tổng hợp toàn bộ thông tin phục vụ cho phân tích sâu ở mức quản trị  Tách việc phân tích ra khỏi xử lý tác nghiệp trực tuyến - Chuyển đổi dữ liệu thành thông tin  Thông tin mang tính khái quát hóa cao, liên kết từ nhiều chủ thể theo một quá trình thời gian nhất định - Thực hiện các phân tích dữ liệu phức tạp, trên kích thước dữ liệu lớn - 16 – - Các phân tích đặc trưng:  Phân tích định hướng  Phân tích chuỗi thời gian  Phân tích rủi ro - Đầu vào cho các hệ hỗ trợ quyết định - Khám phá và đưa ra các yếu tố ẩn thông qua các kĩ thuật khai phá dữ liệu. Yếu tố ẩn là yếu tố mà con người chưa biết tới hoặc chưa biết mức độ tác động của nó với các kết quả hoạt động Hƣớng chủ đề Tích hợp Nhà kho dữ liệu Không vi phạm Biến thời gian 3.2.1 Ứng dụng công nghệ Data warehouse trong các ngành dịch vụ khác Sản xuất Viễn thông Bán lẻ Tài chính 0 10 20 30 40 Sơ đồ tỷ lệ phân bố DWH trên các ngành Hiện nay trên thế giới, công nghệ Nhà kho dữ liệu đã được áp dụng cho các lĩnh vực dịch vụ có số lượng giao dịch lớn như : - Hàng không (Airline) - Tài chính(Banking) - 17 – - Chăm sóc sức khỏe (Health care) - Đầu tư (Investment) - Bảo hiểm (Insurance) o - Bán lẻ (Retail) o - Điểm đặc biệt ở lĩnh vực này nằm ở chỗ dữ liệuđược lưu trữ trong một thời gian rất dài (có thể từ 50 năm đến 100 năm). Điểm đặc trưng nữa là tính chất dữ liệu rất đa dạng do các sản phẩm của các công ty bảo hiểm trải rộng qua nhiều lĩnh vực trong đời sống. Tính đa dạng các yếu tố quyết định đến khả năng mua hàng của người tiêu dùng. Từ các tính chất nhân chủng học đến chiến lược giá , vị trí địa lý,… Viễn thông o Điều đặc biệt của các DWH trong lĩnh vực viễn thông so với các DWH khác là ở chỗ chúng được xác định phần lớn bởi các dữ liệu rất chi tiết, đa dạng, ví dụ chúng được xác định ở mức độ rất lớn bởi các chi tiết ở mức độ cuộc gọi. - Các ngành công nghiệp (Manufacturers) - ….. 3.3 Phân biệt DWH với các CSDL tác nghiệp 3.3.1 So sánh nhà kho dữ liệu với các CSDL tác nghiệp Sau khi chỉ ra nhu cầu phát sinh cũng như tính chất của DWH, có một số so sánh nhằm có sự phân biệt rõ ràng về các CSDL tác nghiệp thông thường với DWH Các hệ CSDL tác nghiệp Data Warehouse Chỉ lưu trữ những dữ liệu mang tính chuyên môn riêng của một ngành hay tổ chức. Có khả năng lưu trữ dữ liệu rất lớn. Là tập hợp từ nhiều nguồn dữ liệu khác nhau Phục vụ xử lý giao dịch, cập nhật hằng ngày. Thường chỉ đọc, phục vụ cho những nhu cầu báo cáo, phân tích hoạt động, ra quyết định. Được chuẩn hóa cao độ và thường dựa trên Dữ liệu dư thừa, bị trùng lặp giúp đơn giản
- Xem thêm -