Tài liệu Bài giảng kho dữ liệu - chương 1 tổng quan về kho dữ liệu và kinh doanh thông minh

  • Số trang: 22 |
  • Loại file: PDF |
  • Lượt xem: 176 |
  • Lượt tải: 0
bangnguyen-hoai

Đã đăng 3509 tài liệu

Mô tả:

2/11/2014 Chương 1: Tổng quan về kho dữ liệu và kinh doanh thông minh Data Warehouse and Business Intelligence 1 Nội dung 1. 2. 3. 4. 5. 6. 7. Giới thiệu về kho dữ liệu Các đặc tính của kho dữ liệu Các kiến trúc kho dữ liệu Các mô hình kho dữ liệu Giới thiệu về kinh doanh thông minh Kiến trúc của kinh doanh thông minh Vai trò của kinh doanh thông minh trong việc ra quyết định Data Warehouse and Business Intelligence 2 1. Giới thiệu về kho dữ liệu Có nhiều các định nghĩa khác nhau về KDL, nhưng không có cách nào là nghiêm ngặt:  Một cơ sở dữ liệu hỗ trợ quyết định được bảo trì tách biệt từ cơ sở dữ liệu hoạt động của tổ chức  Hỗ trợ xử lí thông tin bằng cách cung cấp một nền tảng vững chắc cho việc hợp nhất và dữ liệu lịch sử để phân tích Theo W. H. Inmon: “Kho dữ liệu là tập dữ liệu hướng chủ đề, tích hợp, gắn với thời gian và ít thay đổi để hỗ trợ quá trình ra quyết định của nhà quản lí” Data Warehouse and Business Intelligence 3 1 2/11/2014 Kiến trúc cơ bản của kho dữ liệu Oracle9 i. Data Warehousing Guide, Release 2 (9.2) Data Warehouse and Business Intelligence 4 2. Các đặc tính của KDL  Hướng chủ đề (Subject-Oriented)  Có tính tích hợp (Integrated)  Gắn với thời gian (Time Variant)  Ít thay đổi (Non-Volatile) Data Warehouse and Business Intelligence 5 2. Các đặc tính của KDL (tt)  Hướng chủ đề Data Warehouse and Business Intelligence 6 2 2/11/2014 2. Các đặc tính của kho dữ liệu  Tích hợp Data Warehouse and Business Intelligence 7 Tích hợp Data Warehouse and Business Intelligence 8 2. Các đặc tính của kho dữ liệu  Gắn với thời gian • Thời gian 60–90 ngày • Cập nhật bản ghi • Cấu trúc khóa có thể có hoặc không chứa khóa thời gian Data Warehouse and Business Intelligence • Thời gian 5-10 năm • Những hình ảnh phức tạp của dữ liệu • Cấu trúc khóa chứa phần tử thời gian 10 3 2/11/2014 2. Các đặc tính của kho dữ liệu (tt)  Ít thay đổi Data Warehouse and Business Intelligence 11 OLTP vs. OLAP  OLTP (on-line transaction processing): Xử lí giao dịch trực tuyến  Nhiệm vụ chính của Hệ quản lí cơ sở dữ liệu quan hệ (relational DBMS) truyền thống.  Dùng cho các tác nghiệp hằng ngày (Day-to-day operations): mua sắm, quản lí tồn kho, ngân hàng, quản lí lương, đăng ký, kế toán,…  OLAP (on-line analytical processing): Quá trình phân tích trực tuyến  Nhiệm vụ chính của hệ thống kho dữ liệu  Phân tích dữ liệu và làm quyết định (decision making) Data Warehouse and Business Intelligence 12 OLTP vs OLAP OLTP Thư lý, chuyên viên CNTT Tác nghiệp hàng ngày Chức năng Hướng ứng dụng Thiết kế CSDL Hiện thời, cập nhật Dữ liệu chi tiết, quan hệ phẳng biệt lập Lặp Sử dụng Đọc/ghi Truy cập Chỉ mục/băm theo khóa chính Giao dịch ngắn,đơn giản Đơn vị thao tác # bản ghi truy cập Chục Nghìn #người dùng Kích thước CSDL 100MB-GB Thông lượng giao dịch Đơn vị đo Người dùng OLAP Chuyên viên tri thức Hỗ trợ quyết định Hướng chủ đề Lịch sử, tóm tắt, tích hợp đa chiều, hợp nhất Dò tìm (ad-hoc) Nhiều duyệt Câu hỏi phức tạp Triệu Trăm 100GB-TB Thông lượng truy vấn, đáp ứng Data Warehouse and Business Intelligence 4 2/11/2014 Data mart  Hệ thống tập tất cả dữ liệu được yêu cầu bởi một phòng ban chuyên biệt trong công ty (như tiếp thị, hậu cần,…)  Được sử dụng để phân tích BI  Một kho dữ liệu mức phòng ban (departmental data warehouse)  Data warehouses và data marts có khung công nghệ giống nhau 14 Data Warehouse and Business Intelligence 14 Công cụ ETL  ETL: Rút trích (Extraction), Chuyển đổi (Transformation), tải (Loading)  Rút trích:  Rút trích từ những nguồn sẵn có bên trong hoặc ngoài  Những phiên bản phụ thuộc thời gian của dữ liệu  Chọn lựa dữ liệu: Dựa trên thiết kế DW  Chuyển đổi:  Chuyển đổi dữ liệu từ các hệ thống cũ, các định dạng khác thành định dạng của KDL  Tải:  Sắp xếp, tóm tắt, hợp nhất, tính toán, kiểm tra toàn vẹn, xây dựng chỉ mục và phân hoạch Data Warehouse and Business Intelligence 15 3. Các kiến trúc kho dữ liệu 3.1.Kiến trúc 2 lớp khái quát (Generic Two-Level Architecture) 3.2.Data Mart độc lập (Independent Data Mart) 3.3.Data Mart phụ thuộc và kho lưu trữ dữ liệu hoạt động (Dependent Data Mart and Operational Data Store) 3.4.Data Mart luận lý và KDL tích cực (Logical Data Mart and @ctive Warehouse) 3.5.Kiến trúc dữ liệu 3 lớp (Three-Layer data architecture) Data Warehouse and Business Intelligence 16 5 2/11/2014 3.1.Kiến trúc 2 lớp khái quát L One, companywide warehouse T E Periodic extraction  data is not completely current in warehouse Data Warehouse and Business Intelligence 17 3.2.Data Mart độc lập L T E Separate ETL for each independent data mart Data access complexity due to multiple data marts 18 Data Warehouse and Business Intelligence 18 3.2.Data Mart độc lập (tt) Data mart độc lập: data mart chứa dữ liệu được rút trích từ môi trường hoạt động mà không có ảnh hưởng của KDL Hạn chế của Data mart độc lập:      Mỗi data mart cần một ETL riêng Các data mart không tương thích nhau Không thể drill-down Tốn nhiều chi phí khi có ứng dụng mới Tốn chi phí để làm data mart tương thích nhau Data Warehouse and Business Intelligence 19 6 2/11/2014 3.3.Data Mart phụ thuộc và kho lưu trữ dữ liệu hoạt động corporate information factory (CIF) L T E Simpler data access Single ETL for enterprise data warehouse (EDW) Dependent data marts loaded from EDW Data Warehouse and Business Intelligence 20 3.3.Data Mart phụ thuộc và kho lưu trữ dữ liệu hoạt động (tt)  Data mart phụ thuộc: Data mart được nạp dữ liệu dành riêng từ KDL doanh nghiệp và điều hòa dữ liệu  Kho lưu trữ dữ liệu hoạt động (Operational data store - ODS): Một cơ sở dữ liệu có tính tích hợp, hướng chủ đề, có thể cập nhật, giá trị hiện tại, rộng khắp tổ chức, chi tiết được thiết kế để dành cho người dùng tác nghiệp như họ làm quá trình hỗ trợ quyết định  Kho dữ liệu doanh nghiệp (Enterprise data warehouse (EDW) Data Warehouse and Business Intelligence 21 3.4. Data Mart luận lý và KDL tích cực L T E Near real-time ETL for @active Data Warehouse Data Warehouse and Business Intelligence Data marts are NOT separate databases, but logical views of the data warehouse  Easier to create new data marts 22 7 2/11/2014 3.4. Data Mart luận lý và KDL tích cực (tt) Logical data mart = relational view Base tables: customer, product, order, orderline Create views: CREATE VIEW invoice AS SELECT customer.customer_ID, customer_addr, order.order_ID, product.product_ID, product.price, order.quantity, product.price*order.quantity FROM customer, order, orderline, product WHERE customer.customer_ID= order.customer_ID, AND order.order_ID= orderline.order_ID, product.product_ID = orderline.product_ID Data Warehouse and Business Intelligence 23 3.4. Data Mart luận lý và KDL tích cực (tt) KDL tích cực:  Một kho dữ liệu mức tổ chức chứa dữ liệu gần thời gian thực (near-real-time) của dữ liệu giao dịch từ những hệ thống bản ghi, phân tích KDL, tiếp nối gần thời gian thực từ qui trình nghiệp vụ đến KDL và những hệ thống bản ghi để có những hành động trung gian có thể hồi đáp lại các sự kiện kinh doanh  Ứng dụng: Dò tìm lỗi Data Warehouse and Business Intelligence 24 3.5 Kiến trúc dữ liệu 3 lớp 25 Data Warehouse and Business Intelligence 25 8 2/11/2014 3.5 Kiến trúc dữ liệu 3 lớp (tt)  Dữ liệu điều hòa (Reconciled data): dữ liệu có tính chi tiết, là dữ liệu hiện tại được dự định như nguồn đơn nhất, chính thức cho tất cả ứng dụng hỗ trợ quyết định  Dữ liệu chuyển giao (Derived data): Dữ liệu được chọn lựa, định dạng và tổng hợp cho ứng dụng hỗ trợ quyết định cho người dùng cuối  Siêu dữ liệu (Metadata): dữ liệu kỹ thuật và kinh doanh để mô tả thuộc tính hoặc tính chất của dữ liệu khác Data Warehouse and Business Intelligence 26 4. Mô hình kho dữ liệu 4.1 Từ bảng dữ liệu đến khối dữ liệu 4.2 Mô hình luận lý của KDL 4.3 Ngôn ngữ truy vấn khai phá dữ liệu (DMQL) Data Warehouse and Business Intelligence 27 4.1 Từ bảng dữ liệu đến khối dữ liệu  KDL dựa trên mô hình dữ liệu đa chiều nhìn dữ liệu dưới hình thức của một khối dữ liệu  Một khối dữ liệu như bán hàng, cho phép dữ liệu được mô hình và được nhìn trong nhiều chiều  Các bảng chiều (Dimension Tables) như item (item_name, brand, type), hoặc time(day, week, month, quarter, year)  Bảng sự kiện (Fact Table) chứa các độ đo (Measure) (như dollars_sold) và các khóa có liên kết đến mỗi bảng chiều  Một khối dữ liệu dựa trên n-D được gọi là một cuboid cơ sở. Data Warehouse and Business Intelligence 28 9 2/11/2014 Cube: Một lưới các Cuboids all time time,item item time,location 0-D(apex) cuboid location supplier item,location time,supplier 1-D cuboids location,supplier 2-D cuboids item,supplier time,location,supplier time,item,location 3-D cuboids item,location,supplier time,item,supplier 4-D(base) cuboid time, item, location, supplier Data Warehouse and Business Intelligence 29 4.2 Mô hình ý niệm của KDL  Mô hình kho dữ liệu:  Lược đồ hình sao (Star schema): Một bảng sự kiện ở giữa kết nối đến một tập bảng chiều  Lược đồ hình bông tuyết (Snowflake schema): Tinh chế của lược đồ hình sao, trong đó một vài chiều có sự phân cấp được chuẩn hóa thành một tập các bảng chiều nhỏ hơn, có hình ảnh giống như bông tuyết  Chòm sao sự kiện (Fact constellations): Nhiều bảng sự kiện chia sẻ các bảng chiều. Còn được gọi là lược đồ thiên hà (galaxy schema) Data Warehouse and Business Intelligence 30 Ví dụ của lược đồ hình sao time  time_key day day_of_the_week month quarter year item Sales Fact Table time_key item_key branch_key branch branch_key branch_name branch_type location_key units_sold dollars_sold avg_sales item_key item_name brand type supplier_type location location_key street city province_or_street country Measures Data Warehouse and Business Intelligence 31 10 2/11/2014 Ví dụ của lược đồ hình bông tuyết time time_key day day_of_the_week month quarter year item time_key item_key branch_key branch supplier_key supplier_type location location_key branch_key branch_name branch_type supplier item_key item_name brand type supplier_key Sales Fact Table location_key street city_key units_sold dollars_sold city avg_sales city_key city province_or_street country Measures Data Warehouse and Business Intelligence 32 Ví dụ của chòm sao sự kiện time time_key day day_of_the_week month quarter year item Sales Fact Table time_key Shipping Fact Table item_key item_name brand type supplier_type item_key location_key branch_key branch_name branch_type units_sold dollars_sold avg_sales item_key shipper_key from_location branch_key branch time_key location location_key street city province_or_street country Measures Data Warehouse and Business Intelligence to_location dollars_cost units_shipped shipper shipper_key shipper_name location_key shipper_type 33 4.3 Ngôn ngữ truy vấn khai phá dữ liệu: DMQL  Data Mining Query Language: DMQL  Định nghĩa khối (Bảng sự kiện)  define cube []:  Định nghĩa chiều (Bảng chiều)  define dimension as ()  Special Case (Bảng chiều chia sẻ)  First time as “cube definition”  define dimension as in cube Data Warehouse and Business Intelligence 34 11 2/11/2014 Định nghĩa lược đồ hình sao trong DMQL define cube sales_star [time, item, branch, location]: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*) define dimension time as (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier_type) define dimension branch as (branch_key, branch_name, branch_type) define dimension location as (location_key, street, city, province_or_state, country) Data Warehouse and Business Intelligence 35 Định nghĩa lược đồ bông tuyết trong DMQL define cube sales_snowflake [time, item, branch, location]: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*) define dimension time as (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier(supplier_key, supplier_type)) define dimension branch as (branch_key, branch_name, branch_type) define dimension location as (location_key, street, city(city_key, province_or_state, country)) Data Warehouse and Business Intelligence 36 Định nghĩa lược đồ chòm sao sự kiện trong DMQL define cube sales [time, item, branch, location]: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*) define dimension time as (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier_type) define dimension branch as (branch_key, branch_name, branch_type) define dimension location as (location_key, street, city, province_or_state, country) define cube shipping [time, item, shipper, from_location, to_location]: dollar_cost = sum(cost_in_dollars), unit_shipped = count(*) define dimension time as time in cube sales define dimension item as item in cube sales define dimension shipper as (shipper_key, shipper_name, location as location in cube sales, shipper_type) define dimension from_location as location in cube sales define dimension to_location as location in cube sales Data Warehouse and Business Intelligence 37 12 2/11/2014 Các loại giá trị đo  Phân phối (distributive):  Ví dụ: count(), sum(), min(), max().  Đại số (algebraic):  Ví dụ: avg(), min_N(), standard_deviation().  Tổng thể (holistic):  Ví dụ: median(), mode(), rank(). Data Warehouse and Business Intelligence 38 Sự phân cấp mức ý niệm: Chiều (location) all all Europe region country city Germany Frankfurt ... ... ... Spain Canada Vancouver L. Chan office North_America ... ... ... Mexico Toronto M. Wind Data Warehouse and Business Intelligence 39 Dữ liệu đa chiều  Sales volume as a function of product, month, and region Dimensions: Product, Location, Time Hierarchical summarization paths Defined by concept hierarchies Industry Region Year Product Category Country Quarter Product City Office Month Week Day Month Data Warehouse and Business Intelligence 40 13 2/11/2014 Một khối dữ liệu mẫu Date 2Qtr 3Qtr 4Qtr sum Total annual sales of TV in U.S.A. U.S.A Canada Mexico Country TV PC VCR sum 1Qtr sum Data Warehouse and Business Intelligence 41 Các Cuboids tương ứng đến Cube all 0-D(apex) cuboid product product,date date country product,country 1-D cuboids date, country 2-D cuboids 3-D(base) cuboid product, date, country Data Warehouse and Business Intelligence 42 Các tác vụ OLAP điển hình  Roll up (drill-up)  Drill down (roll down)  Slice và dice  Pivot (rotate)  Các tác vụ khác:  drill across  drill through Data Warehouse and Business Intelligence 43 14 2/11/2014 Slicing Data Warehouse and Business Intelligence 44 Drill-down Data Warehouse and Business Intelligence 45 visualization Data Warehouse and Business Intelligence 46 15 2/11/2014 Mô hình truy vấn mạng hình sao (Star-Net)  Customer Orders Shipping Method Customer CONTRACTS AIR-EXPRESS ORDER TRUCK Time ANNUALY QTRLY DAILY PRODUCT LINE Product PRODUCT ITEM PRODUCT GROUP CITY SALES PERSON COUNTRY DISTRICT REGION Location Each circle is called a footprint DIVISION Promotion Organization Data Warehouse and Business Intelligence 47 5. Giới thiệu về Kinh doanh thông minh 5.1 Kinh doanh thông minh (BI) là gì ? 5.2 Sự tiến hóa của các công nghệ BI 5.3 Việc ra quyết định 5.4 Hiệu quả của hệ thống BI Data Warehouse and Business Intelligence 48 5.1 Kinh doanh thông minh (BI) là gì ?  “Một tập mô hình toán và phương pháp luận phân tích để khai thác dữ liệu có sẵn nhằm tạo ra thông tin và tri thức có ích cho những quá trình ra quyết định phức tạp” Data Warehouse and Business Intelligence 49 16 2/11/2014 5.2 Sự tiến hóa của các công nghệ BI Data Warehouse and Business Intelligence 50 5.3 Việc ra quyết định  Yêu cầu:  Hiệu quả (Effective)  Thõa mãn về thời gian (Timely)  Quyết định dựa trên:  Miền tri thức  Kinh nghiệm  Thông tin sẵn có  Trong thời đại ngày nay:  Môi trường thay đổi nhanh và thường xuyên  Có tính động và phức tạp   Những quan điểm nghiêm ngặt hơn được dựa trên các phương pháp luận phân tích và mô hình toán học Data Warehouse and Business Intelligence 51 Một số ví dụ  Ví dụ 1.1 – Mức độ trung thành của khách hàng trong lĩnh vực di động  Mức độ trung thành thấp của khách hàng là do đâu ? • … • … • …  Mục đích của chiến dịch tiếp thị: Chọn đúng khách hàng để giảm ngân sách  Ví dụ 1.2: Hoạch định Logistic  Phát triển kế hoạch hậu cần trong trung hạn Data Warehouse and Business Intelligence 52 17 2/11/2014 5.3 Hiệu quả của hệ thống kinh doanh thông minh Data Warehouse and Business Intelligence 53 Dữ liệu, thông tin và tri thức  Dữ liệu  Thông tin  Tri thức Data Warehouse and Business Intelligence 54 Quản lí tri thức  Cơ cấu có tính hình thức và hệ thống để thu thập, lữu trữ và chia sẻ những hiểu biết của họ về tri thức  Tri thức là tài sản vô hình vô giá  Cung cấp sự hỗ trợ cho những công nhân tri thức (knowledge workers) thông qua việc tích hợp các quá trình ra quyết định và công nghệ thông tin Data Warehouse and Business Intelligence 55 18 2/11/2014 Quản lí tri thức vs BI  Quản lí tri thức: tập trung vào nghiên cứu thông tin thường không có cấu trúc, ẩn, được chứa đựng trong hầu hết các tài liệu, các đối thoại và kinh nghiệm quá khứ  BI: dựa trên thông tin có cấu trúc, thường có tính định lượng và được tổ chức trong cơ sở dữ liệu Data Warehouse and Business Intelligence 56 Vai trò của các mô hình toán  BI: cung cấp thông tin và tri thức thông qua việc ứng dụng các giải thuật và mô hình toán  BI: đẩy mạnh một cách tiếp cận mang tính khoa học và có lý trí đối với việc quản lí Data Warehouse and Business Intelligence 57 Phân tích BI điển hình  Xác định các mục tiêu và chỉ tiêu hiệu suất  Phát triển các mô hình toán để khai thác những quan hệ giữa các biến, tham số kiểm soát hệ thống và các tham số ước lượng  Đưa ra phân tích what-if để đánh giá hiệu quả thực thi Data Warehouse and Business Intelligence 58 19 2/11/2014 6. Kiến trúc của BI Kiến trúc BI điển hình Data Warehouse and Business Intelligence 59 6. Kiến trúc BI (tt) Data Warehouse and Business Intelligence 60 6. Kiến trúc BI (tt)  Các nguồn dữ liệu (Data sources)  Kho dữ liệu và data marts  Các phương pháp luận BI  Khám phá dữ liệu (Data exploration)  Khai phá dữ liệu Data mining  Tối ưu hóa  Các quyết định Data Warehouse and Business Intelligence 61 20
- Xem thêm -