Đăng ký Đăng nhập
Trang chủ Xây dựng kho dữ liệu đảm bảo hiệu năng cho ngân hàng và hệ thống báo cáo phân tí...

Tài liệu Xây dựng kho dữ liệu đảm bảo hiệu năng cho ngân hàng và hệ thống báo cáo phân tích khách hàng

.PDF
85
1
92

Mô tả:

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI --------------------------------------- LÊ MINH CHÂU XÂY DỰNG KHO DỮ LIỆU ĐẢM BẢO HIỆU NĂNG CHO NGÂN HÀNG VÀ HỆ THỐNG BÁO CÁO PHÂN TÍCH KHÁCH HÀNG CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN LUẬN VĂN THẠC SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC TS. NGUYỄN THANH HÙNG Hà Nội – 2017 MỤC LỤC LỜI CAM ĐOAN .................................................................................................................... 5 LỜI CẢM ƠN .......................................................................................................................... 6 DANH MỤC CÁC TỪ NGỮ, KÝ HIỆU VIẾT TẮT ............................................................. 7 DANH MỤC CÁC BẢNG ...................................................................................................... 8 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ .................................................................................. 9 MỞ ĐẦU ............................................................................................................................... 10 CHƯƠNG 1. HỆ THỐNG KHO DỮ LIỆU .......................................................................... 13 1.1 Tổng quan kho dữ liệu................................................................................................ 13 1.2 Kiến trúc chung của kho dữ liệu ................................................................................ 13 1.3 Mô hình logic của kho dữ liệu.................................................................................... 14 1.4 Mô hình dữ liệu đa chiều ............................................................................................ 15 1.5 Hiện trạng hệ thống kho dữ liệu trong ngân hàng BIDV ........................................... 15 1.5.1 Tổng quan hệ thống báo cáo trong ngân hàng ................................................... 15 1.5.2 Kiến trúc của kho dữ liệu trong ngân hàng........................................................ 16 1.5.3 Đánh giá các mặt hạn chế của hệ thống kho dữ liệu hiện tại ............................ 17 1.5.3.1 CSDL dùng cho bài toán kho dữ liệu........................................................... 17 1.5.3.2 Công cụ trích lọc dữ liệu .............................................................................. 18 1.5.3.3 Công cụ phân phối báo cáo .......................................................................... 18 1.5.3.4 Mô hình thiết kế kho dữ liệu ........................................................................ 19 1.6 Một số giải pháp công nghệ mới về kho dữ liệu ........................................................ 19 1.7 Kết luận ...................................................................................................................... 20 1 CHƯƠNG 2. XÂY DỰNG HỆ THỐNG KHO DỮ LIỆU ĐÁP ỨNG HIỆU NĂNG XỬ LÝ CHO NGÂN HÀNG .............................................................................................................. 22 2.1 Mục tiêu ...................................................................................................................... 22 2.2 Phạm vi dữ liệu đầu vào ............................................................................................. 22 2.2.1 Core Banking ..................................................................................................... 22 2.2.2 Hệ thống thẻ Cadencie ....................................................................................... 23 2.2.3 Hệ thống ATM ................................................................................................... 23 2.2.4 Hệ thống Kondor ............................................................................................... 23 2.2.5 Dữ liệu từ các kênh giao dịch ............................................................................ 23 2.2.6 Hệ thống FTP ..................................................................................................... 23 2.2.7 Các hệ thống khác .............................................................................................. 23 2.3 Mô hình tổng thể kho dữ liệu mới .............................................................................. 23 2.4 Các thành phần của kho dữ liệu mới .......................................................................... 24 2.4.1 Cơ sở dữ liệu ...................................................................................................... 24 2.4.2 Công cụ trích lọc dữ liệu.................................................................................... 25 2.4.3 Hệ thống báo cáo tập trung ................................................................................ 27 2.4.3.1 Mô hình xử lý ............................................................................................... 28 2.4.3.2 Mô hình phân quyền .................................................................................... 29 2.4.4 Mô hình thiết kế ................................................................................................. 33 2.4.4.1 Mô hình kinh doanh tổng quát ..................................................................... 35 2.4.4.2 Phân tích yêu cầu nghiệp vụ ........................................................................ 37 2.4.4.3 Các bộ chỉ tiêu có sẵn .................................................................................. 38 2.4.4.4 Mô hình thực thể dữ liệu .............................................................................. 38 2.4.4.5 Những ưu điểm của mô hình thiết kế ........................................................... 42 2 2.5 Kết luận ...................................................................................................................... 43 CHƯƠNG 3. THIẾT KẾ CHI TIẾT KHO DỮ LIỆU VÀ ÁP DỤNG VỚI BÀI TOÁN PHÂN TÍCH KHÁCH HÀNG .......................................................................................................... 44 3.1 Mục tiêu ...................................................................................................................... 44 3.2 Thiết kế chi tiết kho dữ liệu mới ................................................................................ 44 3.2.1 Tầng Atomic ...................................................................................................... 44 3.2.1.1 Các vùng trong Atomic ................................................................................ 44 3.2.1.2 Sơ đồ tổng quát của Atomic ......................................................................... 45 3.2.1.3 Arrangement................................................................................................. 46 3.2.1.4 Associative ................................................................................................... 49 3.2.1.5 Involved Party .............................................................................................. 51 3.2.1.6 Accounting ................................................................................................... 53 3.2.1.7 Classification ................................................................................................ 55 3.2.1.8 Summary ...................................................................................................... 57 3.2.1.9 Event (Sự kiện) ............................................................................................ 58 3.2.2 Tầng Data Mart .................................................................................................. 60 3.2.2.1 Khái niệm Data Mart ................................................................................... 60 3.2.2.2 Định nghĩa Dimension ................................................................................. 60 3.2.2.3 Đặc trưng của Dimension ............................................................................ 61 3.2.2.4 Cấu trúc Dimension ..................................................................................... 61 3.2.2.5 Sơ đồ mô hình logic các Dimension chính .................................................. 61 3.2.2.6 Định nghĩa Fact ............................................................................................ 62 3.2.2.7 Đặc trưng của Fact ....................................................................................... 62 3.2.3 Luồng trích xuất xử lý dữ liệu ........................................................................... 63 3 3.2.3.1 Quy trình chạy ETL dữ liệu hàng ngày: ...................................................... 63 3.2.3.2 ETL vùng STAGING ................................................................................... 64 3.2.3.3 ETL vùng System Of Record ....................................................................... 66 3.2.3.4 ETL vùng Data Mart .................................................................................... 72 3.2.4 Bài toán phân tích khách hàng ........................................................................... 74 3.2.4.1 Phân tích yêu cầu ......................................................................................... 74 3.2.4.2 Dimension và Fact ....................................................................................... 75 3.2.4.3 Mô hình logic các thực thể ........................................................................... 77 3.3 Kết quả thử nghiệm .................................................................................................... 77 3.3.1 Kịch bản thử nghiệm.......................................................................................... 77 3.3.2 So sánh tốc độ truy vấn trên CSDL ................................................................... 77 3.3.2.1 Truy vấn và tính toán trên 1 bảng dữ liệu .................................................... 78 3.3.2.2 Truy vấn và tính toán trên 2 bảng dữ liệu .................................................... 78 3.3.2.3 Truy vấn và tìm kiếm theo tiêu chí phức tạp ............................................... 79 3.3.2.4 Kết quả tổng hợp .......................................................................................... 79 3.3.3 So sánh tốc độ xử lý của công cụ trích xuất dữ liệu .......................................... 80 3.3.4 Nhận xét thử nghiệm.......................................................................................... 81 KẾT LUẬN ............................................................................................................................ 82 Các kết quả đạt được ........................................................................................................ 82 Những điểm còn hạn chế .................................................................................................. 82 Hướng phát triển trong tương lai ...................................................................................... 82 TÀI LIỆU THAM KHẢO ..................................................................................................... 84 4 LỜI CAM ĐOAN Tôi xin cam đoan, luận văn tốt nghiệp Thạc sỹ này là công trình nghiên cứu của bản thân tôi dưới sự hướng dẫn của TS. Nguyễn Thanh Hùng. Các kết quả trong luận văn tốt nghiệp là trung thực, không phải sao chép toàn văn của bất kỳ công trình nào khác. Tôi xin chịu hoàn toàn trách nhiệm về nội dung quyển luận văn này. Tác giả Lê Minh Châu 5 LỜI CẢM ƠN Luận văn được hoàn thành tại trường Đại học Bách khoa Hà Nội. Để hoàn thành luận văn này, tác giả đã nhận được sự chỉ bảo tận tình của TS. Nguyễn Thanh Hùng, người đã truyền đạt rất nhiều kiến thức quí báu cũng như những kinh nghiệm nghiên cứu khoa học trong suốt thời gian tác giả theo học và nghiên cứu. Tác giả xin chân thành gửi lời biết ơn đến Ban lãnh đạo Viện Công nghệ thông tin và Truyền thông, Viện Đào tạo Sau đại học và Bộ môn Công nghệ phần mềm, thuộc trường Đại học Bách khoa Hà Nội đã tạo điều kiện thuận lợi trong quá trình học tập, nghiên cứu và hoàn thành luận văn. Với năng lực hạn chế của bản thân cũng như những nguyên nhân chủ quan, khách quan, luận văn không tránh khỏi những thiếu sót. Tác giả rất mong nhận được sự góp ý của quý thầy cô, các bạn bè và đồng nghiệp để luận văn được hoàn thiện hơn. Tác giả Lê Minh Châu 6 DANH MỤC CÁC TỪ NGỮ, KÝ HIỆU VIẾT TẮT Ký hiệu CSDL STG EDM OLAP DTS E-T-L Ý nghĩa Cơ sở dữ liệu Staging – Vùng đệm Enterprise Data Model – Mô hình dữ liệu Khối dữ liệu đa chiều Data Transformation Services – công cụ chuyển đổi dữ liệu Exact-Transform-Load – Trích xuất, chuyển đổi, Tải 7 DANH MỤC CÁC BẢNG Bảng 3.1 Định nghĩa thực thể Arragement ............................................................................ 49 Bảng 3.2 Định nghĩa thực thể Associative ............................................................................ 51 Bảng 3.3 Định nghĩa thực thể Involved Party ....................................................................... 52 Bảng 3.4 Định nghĩa thực thể Accounting ............................................................................ 54 Bảng 3.5 Định nghĩa thực thể Classification ......................................................................... 57 Bảng 3.6 Định nghĩa thực thể Summary................................................................................ 58 Bảng 3.7 Định nghĩa thực thể Event ...................................................................................... 60 Bảng 3.8 Bảng kết quả thử nghiệm 1 ..................................................................................... 78 Bảng 3.9 Bảng kết quả thử nghiệm 2 ..................................................................................... 79 Bảng 3.10 Bảng kết quả thử nghiệm 3 ................................................................................... 79 Bảng 3.11 Bảng kết quả thử nghiệm mô hình EL-T và E-L-T .............................................. 81 8 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1 Kiến trúc cơ bản của kho dữ liệu ............................................................................ 14 Hình 1.2 Mô hình dữ liệu đa chiều. ....................................................................................... 15 Hình 1.3 Kiến trúc kho dữ liệu trong ngân hàng ................................................................... 16 Hình 2.1 Mô hình tổng thể kho dữ liệu mới .......................................................................... 24 Hình 2.2 Hệ thống DataStage mở rộng cấu phần engine....................................................... 27 Hình 2.3 Mô hình xử lý của hệ thống IBM Cognos .............................................................. 28 Hình 2.4 Mô hình xử lý báo cáo tĩnh của IBM Cognos......................................................... 29 Hình 2.5 Mô hình phân quyền theo role của IBM Cognos .................................................... 30 Hình 2.6 Mô hình phân quyền theo báo cáo của IBM Cognos.............................................. 31 Hình 2.7 Mô hình phân quyền theo Phòng/Ban của IBM Cognos ........................................ 32 Hình 2.8 Mô hình mở rộng của hệ thống IBM Cognos ......................................................... 33 Hình 2.9 Kiến trúc tổng quát của IBM Banking Data Model ................................................ 34 Hình 2.10 Kiến trúc tổng quát của FSDM ............................................................................. 35 Hình 2.11 Khu vực mẫu theo các mảng nghiệp vụ trong ngân hàng..................................... 37 Hình 2.12 Khu vực mẫu theo các mảng báo cáo tuân thủ ..................................................... 38 Hình 3.1 Các thực thể chính và quan hệ ................................................................................ 45 Hình 3.2 Mô hình tổng quan Arrangement ............................................................................ 46 Hình 3.3 Mô hình tổng quan Associative .............................................................................. 49 Hình 3.4 Mô hình tổng quan Involved Party ......................................................................... 51 Hình 3.5 Mô hình tổng quan Accounting .............................................................................. 53 Hình 3.6 Mô hình tổng quan Classification ........................................................................... 55 Hình 3.7 Mô hình tổng quan Summary ................................................................................. 57 Hình 3.8 Mô hình tổng quan Event ........................................................................................ 59 9 Hình 3.9 Sơ đồ mô hình logic các Dimension chính ............................................................. 62 Hình 3.10 Quy trình chạy ETL dữ liệu hàng ngày ................................................................ 63 Hình 3.11 ETL các bảng hàng ngày ...................................................................................... 64 Hình 3.12 ETL các bảng thay đổi .......................................................................................... 65 Hình 3.13 ETL vùng System Of Record cho Classification .................................................. 66 Hình 3.14 ETL vùng System Of Record cho Involved Party ................................................ 67 Hình 3.15 Quy trình chạy ETL vùng System Of Record cho Involved Party ....................... 68 Hình 3.16 Quy trình chạy ETL vùng System Of Record cho Involved Party Associatives .. 69 Hình 3.17 Quy trình chạy ETL vùng System Of Record cho Arrangement ......................... 70 Hình 3.18 Quy trình chạy ETL vùng System Of Record cho Arrangement đối với Term Deposit ................................................................................................................................... 71 Hình 3.19 Sơ đồ Dimension cho ETL vùng Data Mart ......................................................... 73 Hình 3.20 Sơ đồ Fact cho ETL vùng Data Mart .................................................................... 74 Hình 3.21 Sơ đồ mô hình logic cho bài toán phân tích khách hàng ...................................... 77 Hình 3.22 Kết quả của 3 lần thực nghiệm về thời gian truy vấn dữ liệu ............................... 80 Hình 3.23 Kết quả thử nghiệm theo mô hình EL-T và E-T-L về thời gian ảnh hưởng tới máy chủ nguồn ............................................................................................................................... 81 MỞ ĐẦU Cùng với sự phát triển nhanh chóng và không ngừng mở rộng quy mô của các tổ chức tài chính ngân hàng, trong quá trình hoạt động khối lượng dữ liệu thông tin lưu trữ ngày càng gia tăng. Trong suốt quá trình phát triển đó việc thu thập và xử lý kho dữ liệu khổng lồ ngày 10 càng trở lên quan trọng hơn bao giờ hết. Việc tổ chức lưu trữ và khai thác kho dữ liệu một cách hiệu quả sẽ giúp cho các tổ chức tài chính ngân hàng thực hiện tốt công tác quản trị điều hành, quản trị rủi ro, hỗ trợ ra quyết định và hoạch định chiến lược kinh doanh. Hệ thống kho dữ liệu trong ngân hàng sẽ giúp xây dựng một nền tảng dữ liệu và công nghệ mạnh mẽ, tin cậy, giúp đáp ứng các yêu cầu hiện tại và nhu cầu phát triển và mở rộng trong tương lai. Là trung tâm của các hệ thống phân tích thông tin, dữ liệu toàn ngân hàng sẽ được hợp nhất tại kho dữ liệu. Nhằm đáp ứng và cung cấp thông tin một cách kịp thời, chính xác, đồng thời là nền tảng cho việc xây dựng các ứng dụng phân tích dữ liệu, hỗ trợ ra quyết định. Do đó hiệu năng xử lý dữ liệu của kho dữ liệu trong ngân hàng cần được nâng cao để đáp ứng được nhu cầu khai thác sử dụng của tổ chức tài chính ngân hàng. Hiệu năng của một hệ thống kho dữ liệu được thể hiện qua một số các phương diện chính như sau: Tốc độ xử lý dữ liệu trên tập dữ liệu lớn, khả năng mở rộng và phát triển kho dữ liệu bao gồm về việc phát triển mô hình dữ liệu và hạ tầng kho dữ liệu, tùy biến theo yêu cầu khai thác và phân tích dữ liệu của người dùng. Với thực trạng hiện nay của ngân hàng chưa có một hệ thống kho dữ liệu tổng thể, thống nhất toàn hàng, chưa đáp ứng tốt về hiệu năng và tồn tại khá nhiều hạn chế. Để hướng tới xây dựng một hệ thống kho dữ liệu có hiệu năng xử lý cao đề tài “Xây dựng kho dữ liệu cho ngân hàng và hệ thống báo cáo phân tích khách hàng” đã được chọn làm đề tài luận văn cao học của tôi. Trong luận văn đã tiến hành nghiên cứu đánh giá hiện trạng, các hạn chế của hệ thống kho dữ liệu hiện tại trong ngân hàng từ đó đưa ra những giải pháp cụ thể cho từng vấn đề hạn chế và xây dựng hệ thống kho dữ liệu mới đáp ứng hiệu năng xử lý khắc phục những hạn chế của hệ thống cũ. Một số kết quả chính của luận văn có thể tóm tắt như sau: 1. Nghiên cứu đánh giá hiện trạng, các hạn chế của hệ thống kho dữ liệu hiện tại trong ngân hàng. 2. Đề xuất mô hình kiến trúc hệ thống kho dữ liệu mới nhằm giải quyết các hạn chế của hệ thống kho dữ liệu cũ trong đó bao gồm các thành phần bổ sung chính như sau: a. Hạ tầng của kho dữ liệu bao gồm: Cơ sở dữ liệu chuyên dụng cho bài toán kho dữ liệu, kiến trúc cho phép mở rộng về mô hình các công cụ trích lọc dữ liệu, công cụ phân tích và khai thác báo cáo. b. Mô hình của kho dữ liệu: Nghiên cứu và áp dụng mô hình kho dữ liệu tiên tiến của IBM. 3. Thiết kế thử nghiệm với hệ thống báo cáo phân tích khách hàng nhằm đánh giá hiệu năng xử lý của kho dữ liệu mới. 11 Nội dung chính của luận văn gồm 3 chương: Chương 1: Hệ thống kho dữ liệu Chương 2: Xây dựng hệ thống kho dữ liệu đáp ứng hiệu năng xử lý cho ngân hàng Chương 3: Áp dụng với bài toán phân tích khách hàng Cuối cùng là kết luận và hướng phát triển tiếp theo của đề tài trong tương lai 12 CHƯƠNG 1. HỆ THỐNG KHO DỮ LIỆU 1.1 Tổng quan kho dữ liệu Kho dữ liệu (Data Warehouse): là tập hợp dữ liệu tương đối ổn định (ít có sự thay đổi), cập nhật theo thời gian, được tích hợp theo hướng chủ thể nhằm hỗ trợ quá trình quá trình tạo quyết định về mặt quản lý. Các đặc trưng của kho dữ liệu như sau [7]: Theo chủ đề (Consistency): không phải tất cả các dữ liệu đều được tập hợp, người ta chỉ lấy những dữ liệu có ích. Dữ liệu được tổ chức xung quanh các chủ đề chính như khách hàng, sản phẩm, dịch vụ, v.v... tập trung vào sự mô hình hóa và phân tích dữ liệu cho các nhà phân tích ra quyết định mà không tập trung vào xử lý dữ liệu thông thường. Cung cấp cho người dùng có một cách nhìn toàn diện, đầy đủ về các sự kiện quanh các chủ đề. Dữ liệu tích hợp (Atomicity): dữ liệu tập hợp từ nhiều nguồn khác nhau có các cơ chế lưu trữ khác nhau: CSDL, Excel file, Flat file, v.v… điều này sẽ dẫn đến việc quá trình tập hợp phải thực hiện việc làm sạch, sắp xếp, rút gọn dữ liệu nhằm đảm bảo tính nhất quán dữ liệu. Dữ liệu cố định (Durable): khi một Transaction hoàn chỉnh, dữ liệu không thể tạo thêm hay sửa. Dữ liệu được chuyển đổi từ môi trường tác nghiệp và được lưu trữ trong một thời gian dài, khi dữ liệu đã được chuyển đổi vào kho dữ liệu thì thao tác cập nhật và xóa dữ liệu thường không xảy ra. Dữ liệu của kho dữ liệu chỉ có hai thao tác là thêm mới và đọc dữ liệu. Tính riêng biệt (Isolation): các dữ liệu truy suất không bị ảnh hưởng bởi các dữ liệu khác hoặc tác động lên nhau. Phạm vi về thời gian trong kho dữ liệu được lưu dài hơn so với hệ thống tác nghiệp nếu như đối với hệ thống tác nghiệp dữ liệu thông thưởng chỉ lưu giá trị hiện tại nhưng với dữ liệu trong kho dữ liệu cung cấp thông tin lịch sử lâu dài hơn. Biến thời gian cũng là một khóa chính để đảm bảo tính duy nhất của dữ liệu. 1.2 Kiến trúc chung của kho dữ liệu Mô hình kiến trúc cơ bản [2] của kho dữ liệu cơ bản gồm bốn thành phần như sau: Dữ liệu nguồn: dữ liệu từ các hệ thống khác nhau (bao gồm dữ liệu có cấu trúc và phi cấu trúc) được tập kết lại vào một nơi duy nhất. 13 Khu xử lý dữ liệu: là nơi dữ liệu sẽ được làm sạch và chuyển đổi để đảm bảo tính nhất quán dữ liệu trước khi đưa vào kho đích. Thông thường người ta sử dụng các công cụ trích xuất, chuyển đổi và nạp dữ liệu (ETL). Kho lưu trữ dữ liệu: là nơi dữ liệu được xử lý và được tập kết, lưu trữ. Người dùng cuối: là người dùng khai thác thông tin từ kho dữ liệu. Dữ liệu nguồn Khu xử lý dữ liệu Kho lưu trữ dữ liệu Người dùng cuối Hệ thống nguồn Dữ liệu đa chiều Hệ thống nguồn Phân tích Xử lý dữ liệu Báo cáo Báo báo Dữ liệu phi cấu cấu Khai phá dữ liệu Kiến trúc cơ bản của kho dữ liệu Hình 1.1 Kiến trúc cơ bản của kho dữ liệu 1.3 Mô hình logic của kho dữ liệu Sơ đồ hình sao (Star schema): một bảng sự kiện ở trung tâm được kết nối với một tập các bảng chiều khác nhau [3]. Sơ đồ bông tuyết (Snowflake schema): Một mở rộng của sơ đồ hình sao trong đó một vài cấu trúc chiều được chuẩn hóa thành một tập các bảng chiều nhỏ hơn, hình thức tương tự như bông tuyết. Sơ đồ chòm sao sự kiện (Fact constellations schema): Bảng sự kiện phức chia sẻ các bảng chiều, tạo khung nhìn một tập các “ngôi sao”, nên còn được gọi sơ đồ ngân hà (galaxy schema) hoặc chòm sao sự kiện. 14 1.4 Mô hình dữ liệu đa chiều Đây là mô hình dữ liệu xoay quanh các chủ đề nhằm trả lời một cách nhanh nhất các câu hỏi trong nghiệp vụ phân tích [8]. Có thể nhìn dữ liệu như là một khối trong đó mỗi chiều là một khía cạnh của bài toán giúp cho các nhà phân tích có thể nhìn thấy, đánh giá số liệu theo nhiều chiều. Sản phẩm Khách hàng Dữ liệu đa chiều Hình 1.2 Mô hình dữ liệu đa chiều. Ở hình 1.2 khối dữ liệu gồm có 3 chiều: khách hàng, sản phẩm, thời gian. 1.5 Hiện trạng hệ thống kho dữ liệu trong ngân hàng BIDV 1.5.1 Tổng quan hệ thống báo cáo trong ngân hàng Từ năm 2004 đến nay ngân hàng đã trang bị hệ thống Core Banking mạnh phục vụ các mảng kinh doanh của mình. Song song với đó các hệ thống báo cáo phục vụ công tác thống kê, quản lý lần lượt đưa vào khai thác. Tuy nhiên, các hệ thống báo cáo này vẫn chưa đầy đủ và còn manh mún, nằm rời rạc ở các vị trí khác nhau. Hệ thống báo cáo rời rạc chia thành các nhóm cụ thể như sau: - Hệ thống báo cáo tại Core banking: nằm trên hệ thống Core banking phục vụ công tác hàng ngày của hoạt động tác nghiệp trong ngân hàng. Hệ thống báo cáo kho dữ liệu: là hệ thống báo cáo phân tích đa chiều lớn gồm hàng trăm báo cáo dựa trên công nghệ của Microsoft. - Hàng trăm hệ thống báo cáo đơn lẻ do ngân hàng tự xây dựng và phát triển. 15 1.5.2 Kiến trúc của kho dữ liệu trong ngân hàng Hệ thống kho dữ liệu trong ngân hàng được xây dựng và duy trì từ năm 2005 đến nay, được thiết kế bởi nhà thầu Silverlake. Hình 1.3 mô tả hệ thống kho dữ liệu hiện tại của ngân hàng. CoreBanking DTS ATM System STG (Staging Area) Loan DTS EDM (Enterprise data model) Deposit ...... http://www.google.com/ http://www.google.com/ imgres?imgurl=http:// imgres?imgurl=http:// tinhocvanphong.edu.vn/ tinhocvanphong.edu.vn/ wp-content/uploads/2013/ wp-content/uploads/2013/ 10/khoa-hoc-excel10/khoa-hoc-excel2010.jpg&imgrefurl=http:// 2010.jpg&imgrefurl=http:// tinhocvanphong.edu.vn/ tinhocvanphong.edu.vn/ hoc-tin-hoc/excel-2010/ hoc-tin-hoc/excel-2010/ khoa-hoc-excel-2010/ khoa-hoc-excel-2010/ &h=529&w=1024&tbnid=-&h=529&w=1024&tbnid=-J3eLOuaKdWkM:&docid=J3eLOuaKdWkM:&docid=qfVLXIiqWX1zM&ei=_5GuV qfVLXIiqWX1zM&ei=_5GuV cfaI8ermAWicfaI8ermAWi7H4Aw&tbm=isch&ved=0C 7H4Aw&tbm=isch&ved=0C EcQMygeMB5qFQoTCIfWi EcQMygeMB5qFQoTCIfWi Nrv7MYCFccVpgodon0MP Hình 1.3 Kiến trúc kho dữ liệu trong ngân hàng Nrv7MYCFccVpgodon0MP w w Hệ thống kho dữ liệu lưu trữ dữ liệu bao gồm khu vực dữ liệu nguồn (Source data) và khu vực kho dữ liệu nằm chính trên máy chủ triển khai hệ thống Core Banking (máy chủ AS400) có nghĩa là máy chủ triển khai hệ thống Core Banking cũng đồng thời là máy chủ xử lý chính của kho dữ liệu, hai hệ thống trên cùng một máy chủ hệ thống tác nghiệp và hệ thống báo cáo kho dữ liệu với cơ sở dữ liệu là DB2 được tích hợp luôn trên máy chủ. Dữ liệu nguồn hầu hết nằm chính tại máy chủ AS400 bao gồm toàn bộ dữ liệu tác nghiệp của Core Banking, dữ liệu từ các hệ thống khác hầu như không có. Dữ liệu nguồn sẽ được tập kết tại một chỗ gọi là khu vực STG từ khu vực này dữ liệu sẽ được làm giàu, làm sạch, tổng hợp, chuẩn hóa dữ liệu, chuẩn bị được đẩy vào khu vực EDM bằng cung cụ DTS, một sản phẩm trong bộ SQL Server của Microsoft. Dữ liệu sau khi đã được hợp nhất, tính toán, làm giàu, làm sạch từ khu 16 vực EDM dữ liệu sẽ được chuyển sang dạng dữ liệu đa chiều (OLAP) theo các bài toán chủ đề khác nhau để người dùng khai thác thông qua công cụ Excel. Dữ liệu đa chiều được thực hiện tổng hợp thông qua công cụ DTS và được lưu trữ trên cơ sở dữ liệu SQL Server 2000. Như vậy về tổng quan kho dữ liệu hiện tại của ngân hàng được nhìn dưới ba góc độ về hạ tầng như sau: - Cơ sở dữ liệu dùng cho bài toán kho dữ liệu: Cơ sở dữ liệu DB2 được tích hợp sẵn trên máy chủ AS400 (máy mainframe). Công cụ trích lọc dữ liệu: Sử dụng DTS một trong các công cụ của SQL Server về trích lọc dữ liệu. Công cụ khai thác, phân tích: Sử dụng Excel kết nối tới OLAP được lưu trữ trên SQL Server 2000. 1.5.3 Đánh giá các mặt hạn chế của hệ thống kho dữ liệu hiện tại Tác giả đã dựa vào những phương diện sau để phân tích đánh giá những mặt hạn chế của kho dữ liệu hiện tại trong ngân hàng bao gồm: - CSDL dùng cho bài toán kho dữ liệu. Công cụ trích lọc dữ liệu. Công cụ phân phối báo cáo. Mô hình thiết kế của kho dữ liệu. Từ đó đưa ra hướng giải pháp mới nhằm nâng cao hiệu quả về hiệu năng xử lý của kho dữ liệu. 1.5.3.1 CSDL dùng cho bài toán kho dữ liệu Cơ sở dữ liệu DB2 được tính hợp sẵn trên máy chủ AS400 được triển khai cùng với Core banking, hệ cơ sở dữ liệu này được triển khai nhằm mục đích chính cho bài toán tác nghiệp phù hợp với bài toán OLTP của ngân hàng và cấu phần kho dữ liệu được triển khai thêm sau đó. Do vậy tồn tại bài toán tác nghiệp và bài toán xử lý kho dữ liệu trên cùng một máy chủ Core banking điều này ít nhiều làm ảnh hưởng tới hiệu năng của hệ thống tác nghiệp do phải chia sẻ tài nguyên cho hệ thống kho dữ liệu. Thông thường hệ thống tác nghiệp sẽ bắt đầu ngày làm việc mới khoảng 8h mỗi sáng nhưng hệ thống kho dữ liệu thì kết thúc muộn hơn rất nhiều. Hệ thống kho dữ liệu thường bắt đầu từ 2h sáng và thường kết thúc vào 12h giờ hàng với tổng dương lượng dữ liệu xử lý vào khoảng 30GB điều này gây áp lực rất lớn lên hệ thống 17 giao dịch hàng ngày của ngân hàng và cũng gây khó khăn cho việc khai thác phân tích số liệu phục vụ công tác quản trị điều hành tại ngân hàng. 1.5.3.2 Công cụ trích lọc dữ liệu Hiện tại ngân hàng đang sử dụng công cụ DTS để thực hiện quá trình trích lọc dữ liệu, công cụ này hiện nay đang gặp phải một số hạn chế như sau: - - Không có khả năng mở rộng về hạ tầng và chạy trên nền tảng của Microsoft chỉ phù hợp đối với các bài toán nhỏ và vừa. Hiện nay với việc xử lý dữ liệu đầu ngày khoảng 300G đã gây ra áp lực rất lớn lên hệ thống ETL của ngân hàng. Chỉ hỗ trợ mô hình triển khai theo hướng ET-L hoặc E-TL có nghĩa là máy chủ cài đặt DTS chỉ làm nhiệm vụ trích xuất (Extract) hoặc truyền tải (Load) còn chuyển đổi (Transform) sẽ được thực hiện tại nguồn hoặc đích. Việc thiết kế này phụ thuộc hoàn toàn vào hiệu năng xử lý của máy của nguồn hoặc đích. Không có khả năng mở rộng về các cụm máy chủ chỉ để dùng cho việc chuyển đổi số liệu khi bài toán dữ liệu ngày càng tăng trưởng. Do đó mô hình này cũng đã một phần ngây tải cho hệ thống xử lý tác nghiệp hàng ngày trong ngân hàng. 1.5.3.3 Công cụ phân phối báo cáo Việc khai thác và phân phối báo cáo theo chủ đề hiện nay tại ngân hàng sử dụng qua công cụ Excel kết nối tới mô hình dữ liệu đa chiều (OLAP) qua phương thức kết nối ODBC mà chưa có một công cụ chuyên biệt để thực hiện việc phân phối báo cáo tới người dùng. Một số hạn chế khi sử dụng công cụ Excel cho bài toán phân tích hiện nay trong ngân hàng như sau: - - - Dữ liệu khai thác trên Excel chỉ khai thác được trên tập dữ liệu nhỏ và dữ liệu OLAP được lưu trên SQL server bị giới hạn dung lượng do đó bài toán này chỉ phù hợp với dữ liệu vừa và nhỏ không phù hợp với dữ liệu lớn. Việc khai thác trên các dữ liệu chuyên đề không linh hoạt gây khó khăn cho người dùng đối với các phân tích cần lọc dữ liệu thì Excel sẽ thực hiện việc load toàn bộ data lên Excel rồi mới thực hiện việc lọc điều này dẫn đến nhiều bài toán phân tích trên dữ liệu chuyên đề không thực hiện được do bị giới hạn về số lượng bản ghi hiển trị trên Excel tùy thuộc từng phiên bản của Excel. Dữ liệu trong kho dữ liệu mới chỉ được cung cấp tại Hộ sở chính mà chưa được phân phối trên toàn ngân hàng. Cơ chế phân quyền bảo mật đối với việc khai thác báo cáo qua Excel chưa đảm bảo. 18 1.5.3.4 Mô hình thiết kế kho dữ liệu Việc triển khai kho dữ liệu trong ngân hàng chưa có một mô hình thiết kế tổng thể để từ đó có thể dễ dàng mở rộng và phát triển các bài toán phân tích khác nhau phục vụ nhu cầu quản trị điều hành trong môi trường cạnh tranh ngày càng mãnh liệt. Chưa có một mô hình tổng thể bao trùm các mảng phân tích trong ngân hàng như: quản lý rủi ro, phân tích khác hàng, quản lý tài sản nợ có, phân tích khách hàng trung thành dời đi, phân tích bán chéo sản phẩm, các bài toán về báo cáo tuân thủ, v.v… hiện tại kho dữ liệu mới chỉ dừng lại ở các bài toán phục vụ tác nghiệp là chính chưa có những mô hình chuyên sâu, chuyên biệt để thực hiện phát triển, kiểm soát các hoạt động của ngân hàng trong xu hướng phát triển mới. 1.6 Một số giải pháp công nghệ mới về kho dữ liệu Có nhiều phương thức để đánh giá các giải pháp kho dữ liệu hiện tại trên thế giới. Các hãng phân tích lớn và uy tín trên thế giới sử dụng các phân tích đa chiều, đồng thời theo xu hướng phát triển của Công nghệ thông tin như Gartners. Tuy nhiên, theo nhận định chung thì có bốn yếu tố chính ảnh hưởng đến việc lựa chọn một nền tảng công nghệ kho dữ liệu thích hợp đó là: giao diện, tính năng, hỗ trợ và nền tảng hệ thống. Các yếu tố này ảnh hưởng trực tiếp đến thành công của một dự án triển khai và áp dụng kho dữ liệu vào trong tổ chức/doanh nghiệp. Các giải pháp kho dữ liệu lớn trên thế giới [5] đang theo xu hướng thay đổi để thích hợp với xu hướng phát triển của BI cũng yêu cầu càng ngày càng phức tạp hơn trong việc phân tích dữ liệu. Một số giải pháp hiện nay có trên thị trường bao gồm: Microsoft, Oracle, IBM. Giải pháp của Microsoft: Microsoft cung cấp giải pháp kho dữ liệu khá toàn diện và đẩy đủ với cơ sở dữ liệu SQL Server 2008, hệ thống Analyze Services, là giải pháp tương đối phổ biến. Ưu điểm: thân thiện, dễ dùng, dễ phát triển, dễ bảo trì. Nhược điểm: - Hạn chế khi xử lý lượng dữ liệu lớn Phù hợp với các bài toán vừa và nhỏ Hệ thống bảo mật kém do sử dụng nền tảng windows 19
- Xem thêm -

Tài liệu liên quan