Nghiên cứu giải pháp kho dữ liệu trong Oracle data warehouse 10g và áp dụng trong bài toán xây dựng kho dữ liệu khách hàng, ngân hàng TMCP Tiên Phong

  • Số trang: 81 |
  • Loại file: PDF |
  • Lượt xem: 68 |
  • Lượt tải: 0
tailieuonline

Đã đăng 27700 tài liệu

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRỊNH HỒNG NAM NGHIÊN CỨU GIẢI PHÁP KHO DỮ LIỆU TRONG ORACLE DATA WAREHOUSE 10g VÀ ÁP DỤNG TRONG BÀI TOÁN XÂY DỰNG KHO DỮ LIỆU KHÁCH HÀNG, NGÂN HÀNG TMCP TIÊN PHONG LUẬN VĂN THẠC SĨ Hà Nội – 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRỊNH HỒNG NAM NGHIÊN CỨU GIẢI PHÁP KHO DỮ LIỆU TRONG ORACLE DATA WAREHOUSE 10g VÀ ÁP DỤNG TRONG BÀI TOÁN XÂY DỰNG KHO DỮ LIỆU KHÁCH HÀNG, NGÂN HÀNG TMCP TIÊN PHONG Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống Thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. Đỗ Trung Tuấn Hà Nội – 2011 MỤC LỤC LỜI CÁM ƠN............................................................................................................................. 4 Danh mục các ký hiệu, chữ viết tắt ............................................................................................ 5 Danh mục các bảng, hình vẽ và đồ thị........................................................................................ 7 PHẦN MỞ ĐẦU ........................................................................................................................ 9 U 1. ĐẶT VẤN ĐỀ ................................................................................................................... 9 2. MỤC ĐÍCH NGHIÊN CỨU............................................................................................ 10 U 3. KẾT CẤU ĐỀ TÀI .......................................................................................................... 10 CHƯƠNG 1. HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU..................................................................... 11 U 1.1. Khái niệm...................................................................................................................... 11 1.2. Mục tiêu hệ quản trị cơ sở dữ liệu ................................................................................ 11 1.3. Quá trình phát triển ....................................................................................................... 11 1.4. Cấu trúc và thành phần của hệ quản trị cơ sở dữ liệu................................................... 13 1.5. Hệ quản trị cơ sở dữ liệu Oracle ................................................................................... 15 CHƯƠNG 2. LÝ THUYẾT VỀ KHO DỮ LIỆU .................................................................... 17 U 2.1. Định nghĩa..................................................................................................................... 17 2.2. Đặc trưng kho dữ liệu. .................................................................................................. 17 2.2.1. Hướng chủ thể. ................................................................................................... 17 2.2.2. Tích hợp.............................................................................................................. 18 2.2.3. Biến thời gian ..................................................................................................... 18 2.2.4. Tính bền vững..................................................................................................... 19 2.3. Đặc tính hệ quản trị cơ sở dữ liệu Oracle ..................................................................... 20 2.3.1. Sự khác nhau giữa kho dữ liệu và OLTP ........................................................... 20 2.3.2. Ưu, nhược điểm của hệ thống kho dữ liệu ......................................................... 20 2.4. Kiến trúc kho dữ liệu .................................................................................................... 21 2.4.1. Kiến trúc kho dữ liệu cơ sở ................................................................................ 21 2.4.2. Kiến trúc kho dữ liệu với vùng trung gian ......................................................... 21 2.4.3. Kiến trúc kho dữ liệu với vùng trung gian và kho dữ liệu cục bộ ...................... 22 2.5. Thiết kế logic ................................................................................................................ 22 2.5.1. Thiết kế logic mức vật lý.................................................................................... 22 2.5.2. Tạo một thiết kế logic......................................................................................... 23 2.5.3. Lược đồ kho dữ liệu ........................................................................................... 24 2.5.4. Các đối tượng kho dữ liệu .................................................................................. 25 2.5.5. Các bảng sự kiện................................................................................................. 25 2.5.6. Các bảng chiều ................................................................................................... 25 2.5.7. Định danh duy nhất ............................................................................................ 27 2 2.5.8. Mối quan hệ ........................................................................................................ 27 2.5.9. Minh họa đối tượng kho dữ liệu và mối quan hệ ............................................... 27 2.6. Thiết kế vật lý ............................................................................................................... 28 2.6.1. Chuyển thiết kế logic thành thiết kế vật lý ......................................................... 28 2.6.2. Thiết kế vật lý..................................................................................................... 28 2.6.3. Cấu trúc thiết kế vật lý........................................................................................ 29 2.6.4. Không gian lưu trữ dữ liệu ................................................................................. 29 2.6.5. Bảng và phân hoạch bảng................................................................................... 29 2.6.6. Nén bảng............................................................................................................. 30 2.6.7. Khung nhìn ......................................................................................................... 30 2.6.8. Ràng buộc toàn vẹn ............................................................................................ 30 2.6.9. Chỉ mục và chỉ mục phân cụm ........................................................................... 30 2.6.10. Khung nhìn vật lí .............................................................................................. 31 2.6.11. Chiều................................................................................................................. 31 2.7. Công cụ tích hợp dữ liệu, quản lý môi trường kho dữ liệu........................................... 31 2.7.1. Tổng quan về ETL.............................................................................................. 31 2.7.2. Trích xuất dữ liệu ............................................................................................... 33 2.7.3. Trao đổi dữ liệu .................................................................................................. 34 2.7.4. Tải dữ liệu........................................................................................................... 34 2.8. Bảo trì ........................................................................................................................... 35 2.9. Thực thi song song........................................................................................................ 35 CHƯƠNG 3. GIẢI PHÁP VÀ ĐỀ XUẤT XÂY DỰNG KHO DỮ LIỆU KHÁCH HÀNG .. 40 3.1. Giới thiệu về ngân hàng Tiên Phong ............................................................................ 40 3.2. Mục đích kho dữ liệu .................................................................................................... 45 3.2. Đặc tính của kho dữ liệu ............................................................................................... 45 3.3. Hỗ trợ tích hợp dữ liệu.................................................................................................. 46 3.4. Nội dung giải pháp kho dữ liệu, Ngân hàng Tiên Phong ............................................. 46 3.4.1. Hiện trạng hệ thống Core Banking ..................................................................... 48 3.4.2. Hệ thống tác nghiệp............................................................................................ 50 3.4.3. Nhu cầu cho hệ thống tác nghiệp đa chiều ......................................................... 51 3.4.4. Nguồn dữ liệu ..................................................................................................... 53 3.4.5. Vùng đệm dữ liệu ............................................................................................... 54 3.4.6. Kho dữ liệu tác nghiệp tổng hợp ........................................................................ 54 3.4.7. Kho dữ liệu tích hợp từ các CSDL chủ đề.......................................................... 54 3.4.8. Các ứng dụng và công cụ khai thác, phân tích dữ liệu phục vụ người sử dụng . 56 3.4.9. Kho dữ liệu từ điển ............................................................................................. 57 3.5. Phân tích, thiết kế xây dựng kho dữ liệu, kho dữ liệu chuyên đề ................................. 57 3 3.5.1. Mục đích và yêu cầu........................................................................................... 57 3.5.2. Mô hình dữ liệu và các lược đồ. ......................................................................... 58 CHƯƠNG4. CÀI ĐẶT, THỬ NGHIỆM, KẾT QUẢ.............................................................. 67 4.1. Môi trường cài đặt ........................................................................................................ 67 4.2. Dữ liệu thử nghiệm ....................................................................................................... 68 4.3. Kết quả.......................................................................................................................... 68 4.3.1. Công cụ xây dựng kho dữ liệu............................................................................ 68 4.3.2. Xây dựng các bảng chiều thông tin .................................................................... 69 4.3.3. Xây dựng một khối thông tin xoay theo các bảng chiều dữ liệu ........................ 69 4.3.4. Luồng các tiến trình thực thi............................................................................... 70 4.3.5. Hệ quản trị kinh doanh thông minh .................................................................... 70 KẾT LUẬN .............................................................................................................................. 76 TÀI LIỆU THAM KHẢO ........................................................................................................ 77 Tài liệu Tiếng Việt........................................................................................................ 77 Tài liệu Tiếng Anh........................................................................................................ 77 Thank you for evaluating AnyBizSoft PDF Splitter. A watermark is added at the end of each output PDF file. To remove the watermark, you need to purchase the software from http://www.anypdftools.com/buy/buy-pdf-splitter.html Danh mục các ký hiệu, chữ viết tắt Ký hiệu Chuỗi văn bản gốc Mô tả 3NF Third Normal Form Chuẩn hóa 3NF Client/Server OLAP Client/Server Online Analytical Processing Xử lý phân tích trực tuyến khách/chủ CDC Change Data Capture Sao/chụp thông tin dữ liệu thay đổi CNTT Information Technology Công nghệ thông tin CPU Central Processing Unit Đơn vị xử lý trung tâm CSDL Database Cơ sở dữ liệu DDL Data Define Language Ngôn ngữ định nghĩa dữ liệu DRM Database Resource Manager Quản lý nguồn tài nguyên dữ liệu DBMS Database Management System Hệ quản trị cơ sở dữ liệu DF Datafile Tệp dữ liệu DML Data Manipulation Language Ngôn ngữ thao tác dữ liệu DWH Data Warehouse Kho dữ liệu DSS Decision Support System Hỗ trợ quyết định DOLAP Database Online Analytical Processing Xử lý phân tích trực tuyến CSDL ETL Extraction, Transportation, Loading Trích suất, Trao đổi, Tải EIS Executive Information System Hệ thống thông tin điều hành GB Giga byte Đơn vị đo lưu trữ dữ liệu HOLAP Hybric Online Analytical Processing Xử lý phân tích trực tuyến kết hợp ID ID Định danh NN NOT NULL Khác rỗng MOLAP Multi dimensional Online Analytical Processing Xử lý phân tích trực tuyến đa chiều OD Oracle Designer Sản phẩm ODS Operational Data Store Kho dữ liệu tác nghiệp tổng hợp OLAP On Line Analytical Processing Xử lý phân tích trực tuyến OLTP On Line Transaction Processing Xử lý tác nghiệp trực tuyến 6 ORA ORACLE Tập đoàn công nghệ OWB Oracle Warehouse Builder Công cụ xây dựng kho dữ liệu Oracle RAC Real Application Cluster ROLAP Relational Online Analytical Processing Xử lý phân tích trực tuyến quan hệ SQL Structured Query Language Ngôn ngữ truy vấn cấu trúc TBS Tablespace Không gian bảng lưu trữ TMCP Thương mại cổ phần TB Terabyte (1TB=109 KB) Đơn vị đo lưu trữ dữ liệu PQ Parallel Query Truy vấn song song Danh mục các bảng, hình vẽ và đồ thị Trang Hình 1-1: Kiến trúc hệ quản trị cơ sở dữ liệu DBMS 13 Hình 2-1: Mô tả dữ liệu tổ chức theo hướng chủ thể 17 Hình 2-2: Mô tả dữ liệu được tích hợp từ nhiều nguồn 17 Hình 2-3: Mô tả dữ liệu theo thời gian 18 Hình 2-4: Mô tả thông tin dữ liệu luôn bền vững, an toàn 18 Hình 2-5: Sự tương phản giữa OLTP và môi trường kho dữ liệu 19 Hình 2-6: Kiến trúc của một kho dữ liệu 20 Hình 2-7: Kiến trúc của một kho dữ liệu với một vùng trung gian 21 Hình 2-8: Kiến trúc của kho dữ liệu với vùng lưu trữ và các kho dữ liệu cục bộ 21 Hình 2-9: Lược đồ hình sao 23 Hình 2-10: Các mức đặc trưng trong một hệ thống phân cấp chiều 26 Hình 2-11: Các đối tượng kho dữ liệu điển hình 27 Hình 2-12: Thiết kế logic so với thiết kế vật lý 28 Hình 2-13: Ví dụ về chiều 31 Hình 2-14: Công cụ Oracle Warehouse Builder 31 Hình 2-15: Công cụ Extract, Tranform, Loading của Oracle Warehouse Builder 32 Hình 2-16: Minh họa các buffer tin điện và kết nối giữa servers thực thi song song 38 Hình 3-1: Thông tin về ngân hàng thương mại cổ phần Tiên Phong 40 Hình 3-2: Phần mềm lõi, giải pháp iFlex 42 Hình 3-3: Dịch vụ thanh toán qua điện thoại 43 Hình 3-4: Dịch vụ thanh toán qua Internet 43 Hình 3-5: Dịnh vụ thanh toán qua thẻ ATM 43 Hình 3-6: Các dịch vụ thanh toán khác 44 Hình 3-7: Kiến trúc tổng thể kho dữ liệu 47 Hình 3-8: Mối quan hệ giữa CNTT và Nghiệp vụ 48 Hình 3-9: Mô hình hiện trạng hạ tầng Ngân hàng TMCP Tiên Phong 49 Hình 3-10: Các phân hệ - hệ thống Core Banking 50 Hình 3-11: Hệ thống tác nghiệp 51 Hình 3-12: Mô hình hệ thống chuyên đề, khai thác thông tin 53 Hình 3-13: Mô hình kiến trúc, giải pháp đề xuất kho dữ liệu 54 Hình 3-14: Mô hình kho dữ liệu khách hàng 59 Hình 4-1: Công cụ xây dựng kho dữ liệu 68 8 Hình 4-2: Chiều thông tin 69 Hình 4-3: Khối dữ liệu sẽ được xoay theo 2 chiều thông tin 69 Hình 4-4: Luồng các tiến trình thực thi 70 Hình 4-5: Quản trị doanh nghiệp 71 Hình 4-6: Kinh doanh thông minh qua trình duyệt Web 71 Hình 4-7: Báo cáo chi phí 10/2010 72 Hình 4-8: Báo cáo doanh thu 10/2010 73 Hình 4-9: Báo cáo sản phẩm vay 10/2010 74 Hình 4-10: Báo cáo tăng trưởng khách hàng 10/2010 75 PHẦN MỞ ĐẦU 1. ĐẶT VẤN ĐỀ Máy tính từ khi ra đời đã đóng vai trò vô cùng quan trọng trong lịch sử phát triển của nhân loại. Các máy tính là những công cụ tính toán mạnh, cho phép con người giải được các bài toán có số lượng tính toán khổng lồ mà trước đó không thể thực hiện được bằng tay như tính toán kết cấu công trình, tính toán xây dựng kế hoạch quốc gia, thống kê điều tra dân số, tuyển sinh..., là những bài toán lớn, có thuật toán xác định. Góp phần tích cực vào quá trình này là sự xuất hiện của những ngôn ngữ lập trình hướng cấu trúc, phần mềm được coi là một nghề và có quy trình phát triển tuân thủ các quy trình nghiêm ngặt. Hệ quản trị cơ sở dữ liệu (CSDL) quan hệ là hệ quản trị CSDL phổ biến nhất hiện nay và được hỗ trợ bởi nhiều nhà cung cấp phần mềm.. Tính hiệu quả của các ứng dụng phụ thuộc vào chất lượng của việc tổ chức dữ liệu. Những cải tiến trong kỹ thuật và xử lý CSDL đưa đến các cơ hội sử dụng thông tin một cách linh hoạt và hiệu quả khi dữ liệu được tổ chức và lưu trữ trong các cấu trúc quan hệ. Hệ quản trị CSDL là một thành công trong lĩnh vực thương mại Thông tin là nguồn tài nguyên quý giá của một tổ chức. Các phần mềm máy tính là những công cụ hiệu quả để xử lý thông tin và hệ quản trị CSDL là công cụ phổ biến cho phép lưu trữ và rút trích thông tin một cách hiệu quả. Với sự phát triển của mô hình kho dữ liệu, ngày nay ở Việt nam các tổ chức, doanh nghiệp luôn chú trọng khả năng lưu trữ, xử lý và khai thác thông tin giúp nhà quản trị, lãnh đạo phân tích trên các lớp dữ liệu dự báo được các khuynh hướng phát triển, đưa ra các quyết sách đúng đắn, kịp thời và hiệu quả cho cơ quản, tổ chức của mình. Nhằm đáp ứng đầy đủ các yêu cầu trên nhiều công cụ được xây dựng nhằm thỏa mãn các nhu cầu khai thác dữ liệu mức cao đã được các hãng nổi tiếng tập trung nghiên cứu. Một trong những công cụ đó là bộ sản phẩm Oracle Dataware House của hãng phần mềm nổi tiếng thế giới Tập đoàn Oracle. Nguồn dữ liệu đối với các tập đoàn công nghệ, tài chính, ngân hàng là vô cùng lớn. Xây dựng một kho dữ liệu cho phép rút trích tài nguyên, tính toán theo yêu cầu để cung cấp các báo cáo dựa vào cơ sở dữ liệu hoạt động phục vụ sản xuất, kinh doanh trở nên thông minh hơn, tăng thêm chất lượng và tính linh hoạt của việc phân tích kinh doanh có chất lượng cao và ổn định. 10 2. MỤC ĐÍCH NGHIÊN CỨU Luận văn này được thực hiện với mục đích nghiên cứu, xây dựng giải pháp và được đề xuất áp dụng thực tiễn cho bài toán “Xây dựng hệ thống kho dữ liệu khách hàng, Ngân hàng thương mại cổ phần Tiên Phong”. • Thi hành các phân tích dữ liệu phức tạp. • Thực hiện phân tích: o Phân tích định hướng. o Phân tích chuỗi thời gian. o Phân tích rủi ro. • Thăm dò các hệ hỗ trợ quyết định. • Khám phá và đưa ra các yếu tố ẩn thông qua các kỹ thuật khai phá dữ liệu. Đề tài được nghiên cứu nhằm giải quyết, khắc phục thực trạng, nhược điểm mà hệ thống báo cáo quản trị hiện nay đang vận hành còn thiếu hiệu quả, khả năng đáp ứng, tính sẵn sàng chưa cao. 3. KẾT CẤU ĐỀ TÀI Luận văn chia thành các chương : • Chương 1: Hệ quản trị cơ sở dữ liệu. • Chương 2: Lý thuyết Kho dữ liệu. • Chương 3: Giải pháp và đề xuất Kho dữ liệu. • Chương 4: Cài đặt, thử nghiệm, kết quả. Ngoài ra luận văn có phần mở đầu, cho biết mục đích nghiên cứu và phần kết luận, thể hiện kết quả chính của luận văn và một số khuyến nghị, đề xuất. CHƯƠNG 1. HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU 1.1. Khái niệm Hệ quản trị cơ sở dữ liệu là phần mềm hay hệ thống được thiết kế để quản trị một cơ sở dữ liệu, hỗ trợ khả năng lưu trữ, sửa chữa, xóa và tìm kiếm thông tin trong một cơ sở dữ liệu. Có rất nhiều loại hệ quản trị CSDL khác nhau: từ phần mềm nhỏ chạy trên máy tính cá nhân cho đến những hệ quản trị phức tạp chạy trên một hoặc nhiều siêu máy tính. Tuy nhiên, đa số hệ quản trị CSDL trên thị trường đều có một đặc điểm chung là sử dụng ngôn ngữ truy vấn theo cấu trúc mà tiếng Anh gọi là Structured Query Language (SQL). Các hệ quản trị CSDL phổ biến được nhiều người biết đến là MySQL, Oracle, PostgreSQL, SQL Server, DB2, Infomix, v.v. Phần lớn các hệ quản trị CSDL kể trên hoạt động tốt trên nhiều hệ điều hành khác nhau như Linux, Unix và MacOS ngoại trừ SQL Server của Microsoft chỉ chạy trên hệ điều hành Windows. 1.2. Mục tiêu hệ quản trị cơ sở dữ liệu Một hệ quản trị cơ sở dữ liệu luôn hướng đến các mục tiêu: • Dữ liệu sẵn dùng: Dữ liệu được tổ chức sao cho mọi người dùng có thể truy cập dễ dàng theo chức năng và nhiệm vụ của họ. • Tính toàn vẹn dữ liệu: Dữ liệu lưu trữ trong CSDL là đúng đắn, đáng tin cậy. • An toàn dữ liệu: Chỉ có người dùng được phép mới có thể truy cập dữ liệu. Nếu nhiều người dùng truy cập chung một mục dữ liệu cùng lúc thì hệ quản trị CSDL không cho phép họ thực hiện những thay đổi gây mâu thuẫn dữ liệu. • Độc lập dữ liệu: Hệ quản trị CSDL phải cho phép tất cả mọi người dùng được phép lưu trữ, cập nhật và rút trích dữ liệu hiệu quả mà không cần nắm chi tiết về cấu trúc của CSDL được biểu diễn và cài đặt. 1.3. Quá trình phát triển Người thấy rằng các mốc tiến hóa của các hệ thông cơ sở dữ liệu có vai trò quan trọng: • Các tệp tin dữ liệu: 1960s - 1980s. • Mô hình cấu trúc: 1970s - 1990s. • Mô hình mạng: 1970s - 1990s. • Mô hình quan hệ: 1980s - đến nay. • Mô hình hướng đối tượng: 1990s - đến nay. 12 Một số CSDL quan hệ được các hãng phát triển phần mềm nổi tiếng xây dựng tích hợp với các hãng phát triển phần cứng được các doanh nghiệp, tổ chức, người dùng đón nhận SYSBASE, ACCESS, FOXPRO, MY SQL, SQL Server..., tạo điều kiện vô cùng thuận lợi cho nguời phát triển. Dường như máy tính và những chương trình cũng đã giải quyết được hầu hết các vấn đề trong lĩnh vực quản lý. Tuy nhiên thực tế, các tổ chức, doanh nghiệp muốn thành công trên thị trường, ngoài việc tổ chức bán hàng tốt (giao dịch đơn giản, thuận tiện cho người mua và người quản lý bán hàng...), người lãnh đạo công ty phải nắm được thực chất các quá trình diễn ra trong đơn vị mình và trong môi trường nghiệp vụ mà đơn vị đó hoạt động. Để thực hiện các công việc của một công ty, người ta có nhiều hệ chương trình tự động hoá các lĩnh vực quan trọng như kế toán, lập kế hoạch, giao dịch khách hàng, lập hoá đơn... Chính vì lý do đó những hệ thống này có một cái tên cổ điển là hệ thống xử lý giao dịch (Online Transaction Process - OLTP). Hệ thống OLTP cho phép các giao dịch thay đổi dữ liệu trong bảng bằng ngôn ngữ các câu lệnh truy vấn SQL trong quá trình xử lý. Hệ thống cho phép nhiều ứng dụng truy cập dữ liệu cùng một thời điểm. Các ứng dụng được sử dụng trên máy trạm phục vụ cho các hoạt động giao dịch như ngân hàng, bán vé trực tuyến, bán vé hàng không, thanh toán cước phí... đều sử dụng hệ thống OLTP có các ưu điểm: • Xử lý các chuyển tác tương tác. • Dễ bảo trì và khống chế dữ liệu thừa. • Thiết lập dữ liệu quan hệ trọn vẹn. • Tính hiệu quả cao. • Giảm thời gian của khách hàng. Các CSDL được cấu hình trong các hệ OLTP thường được thiết kế thoả mãn chuẩn Third Normal Form (3NF) hoặc tốt hơn. Đặc điểm của hệ thống OLTP là lưu trữ các dữ liệu "thô", nhưng mức độ tổng quát, trừu tượng của dữ liệu không cao. Nói cách khác OLPT chỉ có ích để tìm trả lời những câu truy vấn dạng: Tổng doanh thu toàn hàng đạt được trong 6 tháng đầu năm, chứ chưa có báo cáo xoay theo nhiều chiều, khối thông tin sản phẩm nào đem lại nhiều doanh thu nhất tại chi nhánh, phòng giao dịch trong tháng vừa qua... Trong khi đó các nhà quản lý ở mức cao của công ty rất ít khi quan tâm đến những câu hỏi loại đó. Điều họ cần chú ý là những câu hỏi trừu tượng hơn như: Tiêu thụ sản phẩm X tại khu vực A đang giảm, nếu thay đổi 3%-5% giá của sản phẩm X tại khu vực A, tình trạng tiêu thụ sẽ thay đổi ra sao trong 6 tháng cuối năm và tại sao? 13 Các hệ thống OLTP hiện nay trả lời rất tốt câu hỏi 1 bằng các công cụ của hệ CSDL quan hệ nhưng để tìm đáp án cho những câu hỏi dạng 2 là không đơn giản. Những yếu tố căn bản cản trở việc sử dụng dữ liệu của các hệ thống OLTP trong việc phân tích dữ liệu là: • Các số liệu ở mức quá chi tiết. • Các số liệu được phân bố ở những hệ thống khác nhau, có các thủ tục truy cập khác nhau và ở những CSDL hoàn toàn khác nhau. • Các số liệu không được cập nhập cùng một chu kỳ dẫn đến sự mất đồng bộ. • Việc tổ chức truy cập từ rất nhiều bảng dữ liệu khác nhau có ảnh hưởng rất xấu tới hiệu suất của các hệ thống vì mục đích của các hệ thống này là nhằm phục vụ các giao dịch trực tuyến. Trong môi trường dư thừa số liệu, nhà phân tích, quản trị không thể tìm ra cho mình thông tin cần thiết nhằm có được sự hiểu biết thấu đáo về những quá trình xảy ra xung quanh. Tình trạng số liệu quá chi tiết và không có được sự liên kết với nhau của các số liệu phản ánh các quá trình tương đối độc lập của một thực thể là lý do trực tiếp dẫn đến sự dư thừa thông tin này. Vì vậy, người ta đã đưa ra giải pháp tích hợp các hệ thống OLTP để tạo ra một hệ thống chứa đầy đủ thông tin. Tuy nhiên giải pháp này có hai nhược điểm: 1. Phải liên kết các hệ thống có xuất xứ khác nhau về phần cứng và phần mềm hệ thống. Các chương trình cần có sự thống nhất về định nghĩa dữ liệu cũng như phương pháp biểu diễn dữ liệu. Vấn đề này rất phức tạp thậm chí đối với các hệ thống có thiết kế phân tích tốt và hoàn toàn không khả thi đối với những hệ thống được mô tả kém. 2. Việc truy vấn để tạo báo cáo thường xuyên liên quan tới rất nhiều bảng, hạn chế sự truy cập và khai thác trong quá trình làm việc hàng ngày, làm ảnh hưởng trực tiếp đến khách hàng. Một cách tiếp cận khác được đề xướng vào những năm 90 của thế kỷ trước là một sự kết hợp của một số giải pháp kỹ thuật và được đặt tên là Data Warehoushing kỹ thuật xây dựng các kho dữ liệu. 1.4. Cấu trúc và thành phần của hệ quản trị cơ sở dữ liệu 14 Hình 1-1: Kiến trúc của DBMS Kiến trúc của hệ quản trị cơ sở dữ liệu gồm 2 thành phần chức năng: • Bộ quản lý lưu trữ • Bộ xử lý truy vấn 1. Bộ quản lý lưu trữ Bộ quản lý lưu trữ có nhiệm vụ lưu trữ, trích xuất và cập nhật dữ liệu và cơ sở dữ liệu Bộ quản lý lưu trữ gồm có các đơn vị sau: - Kiểm tra chứng thực và toàn vẹn: Kiểm tra toàn vẹn và quyền truy cập dữ liệu của người dùng cơ sở dữ liệu - Quản lý giao dịch: Thành phần đảm bảo cơ sở dữ liệu luôn ở trạng thái nhất quán. Quản lý việc thực thi các yêu cầu thao tác dữ liệu và đảm bảo việc truy cập dữ liệu đồng thời không dẫn đến mâu thuẫn. - Quản lý tệp tin: Quản lý việc cấp phát không gian trên đĩa, các tệp tin được dùng để chứa các dữ liệu tương tự nhau. Hệ quản lý tập tin quản lý các tệp tin độc lập, giúp đỡ nhập và lấy các mẩu tin. Thành phần quản lý tệp tin thiết lập 15 và duy trì danh sách các cấu trúc và chỉ mục được định nghĩa trong lược đồ. Thành phần quản lý tệp tin có thể: o Tạo tệp tin o Xóa tệp tin o Cập nhật mẩu tin trong tệp tin o Lấy một mẩu tin từ một tệp tin - Quản lý vùng đệm: Có trách nhiệm chuyển dữ liệu từ đĩa lưu trữ vào bộ nhớ chính theo yêu cầu của chương trình. 2. Bộ quản lý truy vấn: Thực hiện câu truy vấn nhận được từ người dùng qua các giai đoạn phân tích, tối ưu hóa câu hỏi, lập kế hoạch thực hiện và thực hiện tính toán. 1.5. Hệ quản trị cơ sở dữ liệu Oracle Cơ sở dữ liệu oracle là một cơ sở dữ liệu mạnh mẽ nhất thế giới. Được thiết kế để triển khai cho mọi môi trường doanh nghiệp. Việc cài đặt, quản lý rất dễ dàng, các công cụ để phát triển các ứng dụng một cách hoàn thiện và nhanh chóng. Cơ sở dữ liệu Oracle phù hợp cho mọi loại dữ liệu, các ứng dụng và các môi trường khác nhau bao gồm cả windows và linux với chi phí tối thiểu. Hệ quản trị cơ sở dữ liệu oracle 9i/10g/11g. Đây có thể nói là một hệ quản trị CSDL hàng đầu trên thế giới. Hơn hai phần ba trong số 500 tập đoàn công ty lớn nhất thế giới sử dụng Oracle. Ở việt nam hầu hết các đơn vị lớn thuộc các ngành ngân hàng, kho bạc, thuế, bảo hiểm, bưu điện, hàng không, dầu khí,… đều sử dụng hệ quản trị csdl oracle. Có được như thế là vì oracle hiện đang dẫn đầu về các tính năng như: • Độ ổn định và tin cậy cao • Khả năng xử lý dữ liệu rất lớn, có thể lên đến hàng trăm Terabyte (TB) mà vẫn đảm bảo tốc độ xử lý dữ liệu rất cao. • Khả năng bảo mật rất cao, Oracle đạt độ bảo mật cấp c2 theo tiêu chuẩn bảo mật của bộ quốc phòng Mỹ và công nghệ CSDL Oracle vốn được hình thành từ yêu cầu đặt hàng của các cơ quan an ninh. Ngoài ra Oracle còn là một hệ CSDL độc lập với hệ điều hành. Nó cho phép không chỉ chạy trên các hệ điều hành thương mại Windows mà còn có thể chạy trên các hệ điều hành mã nguồn mở miễn phí như Linux rất mạnh và rất phổ biến hiện nay Oracle bao gồm một tập hợp hoàn thiện các sản phẩm xây dựng ứng dụng và người dùng cuối được trang bị các giải pháp kỹ thuật thông tin hoàn hảo. Các ứng 16 dụng Oracle tương thích với hầu hết các hệ điều hành từ các máy tính cá nhân đến các hệ thống xử lý song song lớn. Oracle cung cấp một hệ quản trị cơ sở dữ liệu uyển chuyển: Máy chủ dữ liệu Oracle lưu giữ và quản lý các thông tin dùng trong các ứng dụng. Phiên bản máy chủ dữ liệu Oracle quản lý CSDL với tất cả các ưu điểm của cấu trúc CSDL quan hệ cộng thêm khả năng lưu giữ, thực thi và tính bảo mật đối với các đối tượng CSDL như các Function, Procedure và Trigger … Oracle Database Server là một hệ quản trị CSDL điều khiển: • Lưu giữ dữ liệu trên các vùng dữ liệu đã thiết kế. • Truy cập dữ liệu cho các ứng dụng, dùng các kỹ thuật tương đối tối ưu. • Bảo mật dữ liệu, cấp quyền khác nhau cho các user. • Liên kết và toàn vẹn dữ liệu khi CSDL được phân bố trên mạng. Oracle giúp cho các doanh nghiệp sử dụng thông tin chất lượng cao để kết hợp, đo lường các kết quả và truyền một cách chính xác nhất đến tất cả các cổ đông. Công ty cũng cải tiến kĩ thuật trong nhiều năm bằng việc kết hợp tính sáng tạo của những kĩ sư phần mềm giỏi nhất trong nghành với những phản hồi từ 500 khách hàng của tạp chí fortune – kết quả là sự ra đời của những đổi mới hỗ trự trợ các ngành kinh doanh bị chi phối bởi thông tin trên khắp thế giới. 17 CHƯƠNG 2. LÝ THUYẾT VỀ KHO DỮ LIỆU 2.1. Định nghĩa. Kho dữ liệu là tập hợp các cơ sở dữ liệu tích hợp, hướng chủ đề, được thiết kế để hỗ trợ cho chức năng trợ giúp quyết định. Công nghệ kho dữ liệu là tập các phương pháp, kỹ thuật và các công cụ có thể kết hợp, hỗ trợ nhau để cung cấp thông tin cho người sử dụng trên cơ sở tích hợp từ nhiều nguồn dữ liệu, nhiều môi trường khác nhau thiết kế chủ yếu cho truy vấn và phân tích hơn là xử lý các giao tác. Kho dữ liệu thường rất lớn tới hàng trăm Gigabyte (GB) hay thậm chí hàng Terabyte (TB). Kho dữ liệu được xây dựng để tiện lợi cho việc truy cập theo nhiều nguồn, nhiều kiểu dữ liệu khác nhau sao cho có thể kết hợp được cả những ứng dụng của các công nghệ hiện đại và kế thừa được từ những hệ thống đã có sẵn từ trước. Ngoài việc chứa đựng một cơ sở dữ liệu quan hệ, kho dữ liệu còn bao gồm sử dụng các pha trong trích xuất, chuyển đổi, tải dữ liệu (Extract,Tranform, Loading ETL), công nghệ xử lý phân tích trực tuyến (OnLine Analytical Processing – OLAP), các công cụ phân tích, và các ứng dụng cho việc thu thập và cung cấp dữ liệu tới người sử dụng. 2.2. Đặc trưng kho dữ liệu. 2.2.1. Hướng chủ thể. Kho dữ liệu được tổ chức xung quanh các chủ đề chính như khách hàng, sản phẩm, bán hàng. Tập trung vào việc mô hình hóa và phân tích dữ liệu cho những người đưa ra quyết định, mà không tập trung vào các hoạt động hay các xử lý giao tác hàng ngày. Cung cấp một khung nhìn đơn giản và súc tích xung quanh các sự kiện của các chủ thể. Ví dụ, để tìm hiểu thêm về dữ liệu bán hàng của công ty, ta có thể xây dựng một kho dữ liệu tập trung trên doanh thu. Sử dụng kho dữ liệu có thể trả lời các câu hỏi như "Ai là khách hàng tốt nhất của chúng ta cho mặt hàng này năm ngoái?". Các chủ thể điển hình. • Các tài khoản khách hàng. • Việc bán hàng. • Tiền tiết kiệm của khách hàng. • Các yêu sách bảo hiểm. • Đặt chỗ hành khách. 18 Hình 2-1: Mô tả dữ liệu tổ chức theo hướng chủ thể Các hệ thống OLTP có thể chứa hàng trăm GB số liệu, tuy nhiên những số liệu này có thể hoàn toàn vô ích trong việc phân tích trực tuyến như: Địa chỉ, ID khách hàng... Các dữ liệu kiểu này thường không được đưa vào kho dữ liệu để hạn chế dữ liệu cần xem xét xuống mức tối thiểu nhưng cũng bảo đảm các thông tin theo từng chủ đề. Một chủ đề là một miền dữ liệu được tách ra từ một tập hợp lớn các chủ đề mà người sử dụng quan tâm trong công việc kinh doanh. 2.2.2. Tích hợp Được xây dựng bằng việc tích hợp dữ liệu từ các nguồn dữ liệu hỗn tạp. Các kỹ thuật làm sạch và tích hợp dữ liệu được áp dụng để đảm bảo sự đồng nhất trong các quy ước tên, cấu trúc mã hóa, các đơn vị đo thuộc tính... giữa các nguồn khác nhau. Hình 2-2: Mô tả dữ liệu được tích hợp từ nhiều nguồn Kho dữ liệu phải đưa các dữ liệu từ các nguồn khác nhau về định dạng phù hợp. Chúng ta phải giải quyết những vấn đề như xung đột tên và mâu thuẩn giữa các đơn vị đo. 2.2.3. Biến thời gian Yêu cầu quan trọng cho kho dữ liệu là phạm vi về thời gian dài hơn so với các hệ thống tác nghiệp.
- Xem thêm -