BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------------------
LÊ MINH CHÂU
XÂY DỰNG KHO DỮ LIỆU ĐẢM BẢO HIỆU NĂNG CHO NGÂN HÀNG
VÀ HỆ THỐNG BÁO CÁO PHÂN TÍCH KHÁCH HÀNG
CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN
LUẬN VĂN THẠC SĨ KỸ THUẬT
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS. NGUYỄN THANH HÙNG
Hà Nội – 2017
MỤC LỤC
LỜI CAM ĐOAN .................................................................................................................... 5
LỜI CẢM ƠN .......................................................................................................................... 6
DANH MỤC CÁC TỪ NGỮ, KÝ HIỆU VIẾT TẮT ............................................................. 7
DANH MỤC CÁC BẢNG ...................................................................................................... 8
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ .................................................................................. 9
MỞ ĐẦU ............................................................................................................................... 10
CHƯƠNG 1. HỆ THỐNG KHO DỮ LIỆU .......................................................................... 13
1.1 Tổng quan kho dữ liệu................................................................................................ 13
1.2 Kiến trúc chung của kho dữ liệu ................................................................................ 13
1.3 Mô hình logic của kho dữ liệu.................................................................................... 14
1.4 Mô hình dữ liệu đa chiều ............................................................................................ 15
1.5 Hiện trạng hệ thống kho dữ liệu trong ngân hàng BIDV ........................................... 15
1.5.1 Tổng quan hệ thống báo cáo trong ngân hàng ................................................... 15
1.5.2 Kiến trúc của kho dữ liệu trong ngân hàng........................................................ 16
1.5.3 Đánh giá các mặt hạn chế của hệ thống kho dữ liệu hiện tại ............................ 17
1.5.3.1 CSDL dùng cho bài toán kho dữ liệu........................................................... 17
1.5.3.2 Công cụ trích lọc dữ liệu .............................................................................. 18
1.5.3.3 Công cụ phân phối báo cáo .......................................................................... 18
1.5.3.4 Mô hình thiết kế kho dữ liệu ........................................................................ 19
1.6 Một số giải pháp công nghệ mới về kho dữ liệu ........................................................ 19
1.7 Kết luận ...................................................................................................................... 20
1
CHƯƠNG 2. XÂY DỰNG HỆ THỐNG KHO DỮ LIỆU ĐÁP ỨNG HIỆU NĂNG XỬ LÝ
CHO NGÂN HÀNG .............................................................................................................. 22
2.1 Mục tiêu ...................................................................................................................... 22
2.2 Phạm vi dữ liệu đầu vào ............................................................................................. 22
2.2.1 Core Banking ..................................................................................................... 22
2.2.2 Hệ thống thẻ Cadencie ....................................................................................... 23
2.2.3 Hệ thống ATM ................................................................................................... 23
2.2.4 Hệ thống Kondor ............................................................................................... 23
2.2.5 Dữ liệu từ các kênh giao dịch ............................................................................ 23
2.2.6 Hệ thống FTP ..................................................................................................... 23
2.2.7 Các hệ thống khác .............................................................................................. 23
2.3 Mô hình tổng thể kho dữ liệu mới .............................................................................. 23
2.4 Các thành phần của kho dữ liệu mới .......................................................................... 24
2.4.1 Cơ sở dữ liệu ...................................................................................................... 24
2.4.2 Công cụ trích lọc dữ liệu.................................................................................... 25
2.4.3 Hệ thống báo cáo tập trung ................................................................................ 27
2.4.3.1 Mô hình xử lý ............................................................................................... 28
2.4.3.2 Mô hình phân quyền .................................................................................... 29
2.4.4 Mô hình thiết kế ................................................................................................. 33
2.4.4.1 Mô hình kinh doanh tổng quát ..................................................................... 35
2.4.4.2 Phân tích yêu cầu nghiệp vụ ........................................................................ 37
2.4.4.3 Các bộ chỉ tiêu có sẵn .................................................................................. 38
2.4.4.4 Mô hình thực thể dữ liệu .............................................................................. 38
2.4.4.5 Những ưu điểm của mô hình thiết kế ........................................................... 42
2
2.5 Kết luận ...................................................................................................................... 43
CHƯƠNG 3. THIẾT KẾ CHI TIẾT KHO DỮ LIỆU VÀ ÁP DỤNG VỚI BÀI TOÁN PHÂN
TÍCH KHÁCH HÀNG .......................................................................................................... 44
3.1 Mục tiêu ...................................................................................................................... 44
3.2 Thiết kế chi tiết kho dữ liệu mới ................................................................................ 44
3.2.1 Tầng Atomic ...................................................................................................... 44
3.2.1.1 Các vùng trong Atomic ................................................................................ 44
3.2.1.2 Sơ đồ tổng quát của Atomic ......................................................................... 45
3.2.1.3 Arrangement................................................................................................. 46
3.2.1.4 Associative ................................................................................................... 49
3.2.1.5 Involved Party .............................................................................................. 51
3.2.1.6 Accounting ................................................................................................... 53
3.2.1.7 Classification ................................................................................................ 55
3.2.1.8 Summary ...................................................................................................... 57
3.2.1.9 Event (Sự kiện) ............................................................................................ 58
3.2.2 Tầng Data Mart .................................................................................................. 60
3.2.2.1 Khái niệm Data Mart ................................................................................... 60
3.2.2.2 Định nghĩa Dimension ................................................................................. 60
3.2.2.3 Đặc trưng của Dimension ............................................................................ 61
3.2.2.4 Cấu trúc Dimension ..................................................................................... 61
3.2.2.5 Sơ đồ mô hình logic các Dimension chính .................................................. 61
3.2.2.6 Định nghĩa Fact ............................................................................................ 62
3.2.2.7 Đặc trưng của Fact ....................................................................................... 62
3.2.3 Luồng trích xuất xử lý dữ liệu ........................................................................... 63
3
3.2.3.1 Quy trình chạy ETL dữ liệu hàng ngày: ...................................................... 63
3.2.3.2 ETL vùng STAGING ................................................................................... 64
3.2.3.3 ETL vùng System Of Record ....................................................................... 66
3.2.3.4 ETL vùng Data Mart .................................................................................... 72
3.2.4 Bài toán phân tích khách hàng ........................................................................... 74
3.2.4.1 Phân tích yêu cầu ......................................................................................... 74
3.2.4.2 Dimension và Fact ....................................................................................... 75
3.2.4.3 Mô hình logic các thực thể ........................................................................... 77
3.3 Kết quả thử nghiệm .................................................................................................... 77
3.3.1 Kịch bản thử nghiệm.......................................................................................... 77
3.3.2 So sánh tốc độ truy vấn trên CSDL ................................................................... 77
3.3.2.1 Truy vấn và tính toán trên 1 bảng dữ liệu .................................................... 78
3.3.2.2 Truy vấn và tính toán trên 2 bảng dữ liệu .................................................... 78
3.3.2.3 Truy vấn và tìm kiếm theo tiêu chí phức tạp ............................................... 79
3.3.2.4 Kết quả tổng hợp .......................................................................................... 79
3.3.3 So sánh tốc độ xử lý của công cụ trích xuất dữ liệu .......................................... 80
3.3.4 Nhận xét thử nghiệm.......................................................................................... 81
KẾT LUẬN ............................................................................................................................ 82
Các kết quả đạt được ........................................................................................................ 82
Những điểm còn hạn chế .................................................................................................. 82
Hướng phát triển trong tương lai ...................................................................................... 82
TÀI LIỆU THAM KHẢO ..................................................................................................... 84
4
LỜI CAM ĐOAN
Tôi xin cam đoan, luận văn tốt nghiệp Thạc sỹ này là công trình nghiên cứu của bản
thân tôi dưới sự hướng dẫn của TS. Nguyễn Thanh Hùng. Các kết quả trong luận văn tốt
nghiệp là trung thực, không phải sao chép toàn văn của bất kỳ công trình nào khác. Tôi xin
chịu hoàn toàn trách nhiệm về nội dung quyển luận văn này.
Tác giả
Lê Minh Châu
5
LỜI CẢM ƠN
Luận văn được hoàn thành tại trường Đại học Bách khoa Hà Nội. Để hoàn thành luận
văn này, tác giả đã nhận được sự chỉ bảo tận tình của TS. Nguyễn Thanh Hùng, người đã
truyền đạt rất nhiều kiến thức quí báu cũng như những kinh nghiệm nghiên cứu khoa học
trong suốt thời gian tác giả theo học và nghiên cứu.
Tác giả xin chân thành gửi lời biết ơn đến Ban lãnh đạo Viện Công nghệ thông tin và
Truyền thông, Viện Đào tạo Sau đại học và Bộ môn Công nghệ phần mềm, thuộc trường Đại
học Bách khoa Hà Nội đã tạo điều kiện thuận lợi trong quá trình học tập, nghiên cứu và hoàn
thành luận văn.
Với năng lực hạn chế của bản thân cũng như những nguyên nhân chủ quan, khách
quan, luận văn không tránh khỏi những thiếu sót. Tác giả rất mong nhận được sự góp ý của
quý thầy cô, các bạn bè và đồng nghiệp để luận văn được hoàn thiện hơn.
Tác giả
Lê Minh Châu
6
DANH MỤC CÁC TỪ NGỮ, KÝ HIỆU VIẾT TẮT
Ký hiệu
CSDL
STG
EDM
OLAP
DTS
E-T-L
Ý nghĩa
Cơ sở dữ liệu
Staging – Vùng đệm
Enterprise Data Model – Mô hình dữ liệu
Khối dữ liệu đa chiều
Data Transformation Services – công cụ chuyển đổi dữ liệu
Exact-Transform-Load – Trích xuất, chuyển đổi, Tải
7
DANH MỤC CÁC BẢNG
Bảng 3.1 Định nghĩa thực thể Arragement ............................................................................ 49
Bảng 3.2 Định nghĩa thực thể Associative ............................................................................ 51
Bảng 3.3 Định nghĩa thực thể Involved Party ....................................................................... 52
Bảng 3.4 Định nghĩa thực thể Accounting ............................................................................ 54
Bảng 3.5 Định nghĩa thực thể Classification ......................................................................... 57
Bảng 3.6 Định nghĩa thực thể Summary................................................................................ 58
Bảng 3.7 Định nghĩa thực thể Event ...................................................................................... 60
Bảng 3.8 Bảng kết quả thử nghiệm 1 ..................................................................................... 78
Bảng 3.9 Bảng kết quả thử nghiệm 2 ..................................................................................... 79
Bảng 3.10 Bảng kết quả thử nghiệm 3 ................................................................................... 79
Bảng 3.11 Bảng kết quả thử nghiệm mô hình EL-T và E-L-T .............................................. 81
8
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1 Kiến trúc cơ bản của kho dữ liệu ............................................................................ 14
Hình 1.2 Mô hình dữ liệu đa chiều. ....................................................................................... 15
Hình 1.3 Kiến trúc kho dữ liệu trong ngân hàng ................................................................... 16
Hình 2.1 Mô hình tổng thể kho dữ liệu mới .......................................................................... 24
Hình 2.2 Hệ thống DataStage mở rộng cấu phần engine....................................................... 27
Hình 2.3 Mô hình xử lý của hệ thống IBM Cognos .............................................................. 28
Hình 2.4 Mô hình xử lý báo cáo tĩnh của IBM Cognos......................................................... 29
Hình 2.5 Mô hình phân quyền theo role của IBM Cognos .................................................... 30
Hình 2.6 Mô hình phân quyền theo báo cáo của IBM Cognos.............................................. 31
Hình 2.7 Mô hình phân quyền theo Phòng/Ban của IBM Cognos ........................................ 32
Hình 2.8 Mô hình mở rộng của hệ thống IBM Cognos ......................................................... 33
Hình 2.9 Kiến trúc tổng quát của IBM Banking Data Model ................................................ 34
Hình 2.10 Kiến trúc tổng quát của FSDM ............................................................................. 35
Hình 2.11 Khu vực mẫu theo các mảng nghiệp vụ trong ngân hàng..................................... 37
Hình 2.12 Khu vực mẫu theo các mảng báo cáo tuân thủ ..................................................... 38
Hình 3.1 Các thực thể chính và quan hệ ................................................................................ 45
Hình 3.2 Mô hình tổng quan Arrangement ............................................................................ 46
Hình 3.3 Mô hình tổng quan Associative .............................................................................. 49
Hình 3.4 Mô hình tổng quan Involved Party ......................................................................... 51
Hình 3.5 Mô hình tổng quan Accounting .............................................................................. 53
Hình 3.6 Mô hình tổng quan Classification ........................................................................... 55
Hình 3.7 Mô hình tổng quan Summary ................................................................................. 57
Hình 3.8 Mô hình tổng quan Event ........................................................................................ 59
9
Hình 3.9 Sơ đồ mô hình logic các Dimension chính ............................................................. 62
Hình 3.10 Quy trình chạy ETL dữ liệu hàng ngày ................................................................ 63
Hình 3.11 ETL các bảng hàng ngày ...................................................................................... 64
Hình 3.12 ETL các bảng thay đổi .......................................................................................... 65
Hình 3.13 ETL vùng System Of Record cho Classification .................................................. 66
Hình 3.14 ETL vùng System Of Record cho Involved Party ................................................ 67
Hình 3.15 Quy trình chạy ETL vùng System Of Record cho Involved Party ....................... 68
Hình 3.16 Quy trình chạy ETL vùng System Of Record cho Involved Party Associatives .. 69
Hình 3.17 Quy trình chạy ETL vùng System Of Record cho Arrangement ......................... 70
Hình 3.18 Quy trình chạy ETL vùng System Of Record cho Arrangement đối với Term
Deposit ................................................................................................................................... 71
Hình 3.19 Sơ đồ Dimension cho ETL vùng Data Mart ......................................................... 73
Hình 3.20 Sơ đồ Fact cho ETL vùng Data Mart .................................................................... 74
Hình 3.21 Sơ đồ mô hình logic cho bài toán phân tích khách hàng ...................................... 77
Hình 3.22 Kết quả của 3 lần thực nghiệm về thời gian truy vấn dữ liệu ............................... 80
Hình 3.23 Kết quả thử nghiệm theo mô hình EL-T và E-T-L về thời gian ảnh hưởng tới máy
chủ nguồn ............................................................................................................................... 81
MỞ ĐẦU
Cùng với sự phát triển nhanh chóng và không ngừng mở rộng quy mô của các tổ chức
tài chính ngân hàng, trong quá trình hoạt động khối lượng dữ liệu thông tin lưu trữ ngày càng
gia tăng. Trong suốt quá trình phát triển đó việc thu thập và xử lý kho dữ liệu khổng lồ ngày
10
càng trở lên quan trọng hơn bao giờ hết. Việc tổ chức lưu trữ và khai thác kho dữ liệu một
cách hiệu quả sẽ giúp cho các tổ chức tài chính ngân hàng thực hiện tốt công tác quản trị điều
hành, quản trị rủi ro, hỗ trợ ra quyết định và hoạch định chiến lược kinh doanh.
Hệ thống kho dữ liệu trong ngân hàng sẽ giúp xây dựng một nền tảng dữ liệu và công
nghệ mạnh mẽ, tin cậy, giúp đáp ứng các yêu cầu hiện tại và nhu cầu phát triển và mở rộng
trong tương lai. Là trung tâm của các hệ thống phân tích thông tin, dữ liệu toàn ngân hàng sẽ
được hợp nhất tại kho dữ liệu. Nhằm đáp ứng và cung cấp thông tin một cách kịp thời, chính
xác, đồng thời là nền tảng cho việc xây dựng các ứng dụng phân tích dữ liệu, hỗ trợ ra quyết
định. Do đó hiệu năng xử lý dữ liệu của kho dữ liệu trong ngân hàng cần được nâng cao để
đáp ứng được nhu cầu khai thác sử dụng của tổ chức tài chính ngân hàng. Hiệu năng của một
hệ thống kho dữ liệu được thể hiện qua một số các phương diện chính như sau: Tốc độ xử lý
dữ liệu trên tập dữ liệu lớn, khả năng mở rộng và phát triển kho dữ liệu bao gồm về việc phát
triển mô hình dữ liệu và hạ tầng kho dữ liệu, tùy biến theo yêu cầu khai thác và phân tích dữ
liệu của người dùng.
Với thực trạng hiện nay của ngân hàng chưa có một hệ thống kho dữ liệu tổng thể,
thống nhất toàn hàng, chưa đáp ứng tốt về hiệu năng và tồn tại khá nhiều hạn chế. Để hướng
tới xây dựng một hệ thống kho dữ liệu có hiệu năng xử lý cao đề tài “Xây dựng kho dữ liệu
cho ngân hàng và hệ thống báo cáo phân tích khách hàng” đã được chọn làm đề tài luận văn
cao học của tôi.
Trong luận văn đã tiến hành nghiên cứu đánh giá hiện trạng, các hạn chế của hệ thống
kho dữ liệu hiện tại trong ngân hàng từ đó đưa ra những giải pháp cụ thể cho từng vấn đề hạn
chế và xây dựng hệ thống kho dữ liệu mới đáp ứng hiệu năng xử lý khắc phục những hạn chế
của hệ thống cũ. Một số kết quả chính của luận văn có thể tóm tắt như sau:
1. Nghiên cứu đánh giá hiện trạng, các hạn chế của hệ thống kho dữ liệu hiện tại trong
ngân hàng.
2. Đề xuất mô hình kiến trúc hệ thống kho dữ liệu mới nhằm giải quyết các hạn chế
của hệ thống kho dữ liệu cũ trong đó bao gồm các thành phần bổ sung chính như
sau:
a. Hạ tầng của kho dữ liệu bao gồm: Cơ sở dữ liệu chuyên dụng cho bài toán
kho dữ liệu, kiến trúc cho phép mở rộng về mô hình các công cụ trích lọc
dữ liệu, công cụ phân tích và khai thác báo cáo.
b. Mô hình của kho dữ liệu: Nghiên cứu và áp dụng mô hình kho dữ liệu tiên
tiến của IBM.
3. Thiết kế thử nghiệm với hệ thống báo cáo phân tích khách hàng nhằm đánh giá
hiệu năng xử lý của kho dữ liệu mới.
11
Nội dung chính của luận văn gồm 3 chương:
Chương 1: Hệ thống kho dữ liệu
Chương 2: Xây dựng hệ thống kho dữ liệu đáp ứng hiệu năng xử lý cho ngân hàng
Chương 3: Áp dụng với bài toán phân tích khách hàng
Cuối cùng là kết luận và hướng phát triển tiếp theo của đề tài trong tương lai
12
CHƯƠNG 1. HỆ THỐNG KHO DỮ LIỆU
1.1 Tổng quan kho dữ liệu
Kho dữ liệu (Data Warehouse): là tập hợp dữ liệu tương đối ổn định (ít có sự thay đổi),
cập nhật theo thời gian, được tích hợp theo hướng chủ thể nhằm hỗ trợ quá trình quá trình tạo
quyết định về mặt quản lý.
Các đặc trưng của kho dữ liệu như sau [7]:
Theo chủ đề (Consistency): không phải tất cả các dữ liệu đều được tập hợp, người ta
chỉ lấy những dữ liệu có ích. Dữ liệu được tổ chức xung quanh các chủ đề chính như khách
hàng, sản phẩm, dịch vụ, v.v... tập trung vào sự mô hình hóa và phân tích dữ liệu cho các nhà
phân tích ra quyết định mà không tập trung vào xử lý dữ liệu thông thường. Cung cấp cho
người dùng có một cách nhìn toàn diện, đầy đủ về các sự kiện quanh các chủ đề.
Dữ liệu tích hợp (Atomicity): dữ liệu tập hợp từ nhiều nguồn khác nhau có các cơ
chế lưu trữ khác nhau: CSDL, Excel file, Flat file, v.v… điều này sẽ dẫn đến việc quá trình
tập hợp phải thực hiện việc làm sạch, sắp xếp, rút gọn dữ liệu nhằm đảm bảo tính nhất quán
dữ liệu.
Dữ liệu cố định (Durable): khi một Transaction hoàn chỉnh, dữ liệu không thể tạo
thêm hay sửa. Dữ liệu được chuyển đổi từ môi trường tác nghiệp và được lưu trữ trong một
thời gian dài, khi dữ liệu đã được chuyển đổi vào kho dữ liệu thì thao tác cập nhật và xóa dữ
liệu thường không xảy ra. Dữ liệu của kho dữ liệu chỉ có hai thao tác là thêm mới và đọc dữ
liệu.
Tính riêng biệt (Isolation): các dữ liệu truy suất không bị ảnh hưởng bởi các dữ liệu
khác hoặc tác động lên nhau. Phạm vi về thời gian trong kho dữ liệu được lưu dài hơn so với
hệ thống tác nghiệp nếu như đối với hệ thống tác nghiệp dữ liệu thông thưởng chỉ lưu giá trị
hiện tại nhưng với dữ liệu trong kho dữ liệu cung cấp thông tin lịch sử lâu dài hơn. Biến thời
gian cũng là một khóa chính để đảm bảo tính duy nhất của dữ liệu.
1.2 Kiến trúc chung của kho dữ liệu
Mô hình kiến trúc cơ bản [2] của kho dữ liệu cơ bản gồm bốn thành phần như sau:
Dữ liệu nguồn: dữ liệu từ các hệ thống khác nhau (bao gồm dữ liệu có cấu trúc và phi
cấu trúc) được tập kết lại vào một nơi duy nhất.
13
Khu xử lý dữ liệu: là nơi dữ liệu sẽ được làm sạch và chuyển đổi để đảm bảo tính nhất
quán dữ liệu trước khi đưa vào kho đích. Thông thường người ta sử dụng các công cụ trích
xuất, chuyển đổi và nạp dữ liệu (ETL).
Kho lưu trữ dữ liệu: là nơi dữ liệu được xử lý và được tập kết, lưu trữ.
Người dùng cuối: là người dùng khai thác thông tin từ kho dữ liệu.
Dữ liệu nguồn
Khu xử lý dữ liệu
Kho lưu trữ dữ liệu
Người dùng cuối
Hệ thống
nguồn
Dữ liệu đa
chiều
Hệ thống
nguồn
Phân tích
Xử lý dữ liệu
Báo cáo
Báo báo
Dữ liệu phi
cấu cấu
Khai phá dữ liệu
Kiến trúc cơ bản của kho dữ liệu
Hình 1.1 Kiến trúc cơ bản của kho dữ liệu
1.3 Mô hình logic của kho dữ liệu
Sơ đồ hình sao (Star schema): một bảng sự kiện ở trung tâm được kết nối với một
tập các bảng chiều khác nhau [3].
Sơ đồ bông tuyết (Snowflake schema): Một mở rộng của sơ đồ hình sao trong đó
một vài cấu trúc chiều được chuẩn hóa thành một tập các bảng chiều nhỏ hơn, hình thức tương
tự như bông tuyết.
Sơ đồ chòm sao sự kiện (Fact constellations schema): Bảng sự kiện phức chia sẻ
các bảng chiều, tạo khung nhìn một tập các “ngôi sao”, nên còn được gọi sơ đồ ngân hà
(galaxy schema) hoặc chòm sao sự kiện.
14
1.4 Mô hình dữ liệu đa chiều
Đây là mô hình dữ liệu xoay quanh các chủ đề nhằm trả lời một cách nhanh nhất các
câu hỏi trong nghiệp vụ phân tích [8]. Có thể nhìn dữ liệu như là một khối trong đó mỗi chiều
là một khía cạnh của bài toán giúp cho các nhà phân tích có thể nhìn thấy, đánh giá số liệu
theo nhiều chiều.
Sản phẩm
Khách hàng
Dữ liệu đa chiều
Hình 1.2 Mô hình dữ liệu đa chiều.
Ở hình 1.2 khối dữ liệu gồm có 3 chiều: khách hàng, sản phẩm, thời gian.
1.5 Hiện trạng hệ thống kho dữ liệu trong ngân hàng BIDV
1.5.1 Tổng quan hệ thống báo cáo trong ngân hàng
Từ năm 2004 đến nay ngân hàng đã trang bị hệ thống Core Banking mạnh phục vụ các
mảng kinh doanh của mình. Song song với đó các hệ thống báo cáo phục vụ công tác thống
kê, quản lý lần lượt đưa vào khai thác. Tuy nhiên, các hệ thống báo cáo này vẫn chưa đầy đủ
và còn manh mún, nằm rời rạc ở các vị trí khác nhau. Hệ thống báo cáo rời rạc chia thành các
nhóm cụ thể như sau:
-
Hệ thống báo cáo tại Core banking: nằm trên hệ thống Core banking phục vụ công tác
hàng ngày của hoạt động tác nghiệp trong ngân hàng.
Hệ thống báo cáo kho dữ liệu: là hệ thống báo cáo phân tích đa chiều lớn gồm hàng trăm
báo cáo dựa trên công nghệ của Microsoft.
- Hàng trăm hệ thống báo cáo đơn lẻ do ngân hàng tự xây dựng và phát triển.
15
1.5.2 Kiến trúc của kho dữ liệu trong ngân hàng
Hệ thống kho dữ liệu trong ngân hàng được xây dựng và duy trì từ năm 2005 đến nay,
được thiết kế bởi nhà thầu Silverlake. Hình 1.3 mô tả hệ thống kho dữ liệu hiện tại của ngân
hàng.
CoreBanking
DTS
ATM System
STG
(Staging Area)
Loan
DTS
EDM
(Enterprise data
model)
Deposit
......
http://www.google.com/
http://www.google.com/
imgres?imgurl=http://
imgres?imgurl=http://
tinhocvanphong.edu.vn/
tinhocvanphong.edu.vn/
wp-content/uploads/2013/
wp-content/uploads/2013/
10/khoa-hoc-excel10/khoa-hoc-excel2010.jpg&imgrefurl=http://
2010.jpg&imgrefurl=http://
tinhocvanphong.edu.vn/
tinhocvanphong.edu.vn/
hoc-tin-hoc/excel-2010/
hoc-tin-hoc/excel-2010/
khoa-hoc-excel-2010/
khoa-hoc-excel-2010/
&h=529&w=1024&tbnid=-&h=529&w=1024&tbnid=-J3eLOuaKdWkM:&docid=J3eLOuaKdWkM:&docid=qfVLXIiqWX1zM&ei=_5GuV
qfVLXIiqWX1zM&ei=_5GuV
cfaI8ermAWicfaI8ermAWi7H4Aw&tbm=isch&ved=0C
7H4Aw&tbm=isch&ved=0C
EcQMygeMB5qFQoTCIfWi
EcQMygeMB5qFQoTCIfWi
Nrv7MYCFccVpgodon0MP
Hình 1.3
Kiến
trúc
kho
dữ
liệu
trong
ngân
hàng
Nrv7MYCFccVpgodon0MP
w
w
Hệ thống kho dữ liệu lưu trữ dữ liệu bao gồm khu vực dữ liệu nguồn (Source data) và
khu vực kho dữ liệu nằm chính trên máy chủ triển khai hệ thống Core Banking (máy chủ
AS400) có nghĩa là máy chủ triển khai hệ thống Core Banking cũng đồng thời là máy chủ xử
lý chính của kho dữ liệu, hai hệ thống trên cùng một máy chủ hệ thống tác nghiệp và hệ thống
báo cáo kho dữ liệu với cơ sở dữ liệu là DB2 được tích hợp luôn trên máy chủ. Dữ liệu nguồn
hầu hết nằm chính tại máy chủ AS400 bao gồm toàn bộ dữ liệu tác nghiệp của Core Banking,
dữ liệu từ các hệ thống khác hầu như không có. Dữ liệu nguồn sẽ được tập kết tại một chỗ gọi
là khu vực STG từ khu vực này dữ liệu sẽ được làm giàu, làm sạch, tổng hợp, chuẩn hóa dữ
liệu, chuẩn bị được đẩy vào khu vực EDM bằng cung cụ DTS, một sản phẩm trong bộ SQL
Server của Microsoft. Dữ liệu sau khi đã được hợp nhất, tính toán, làm giàu, làm sạch từ khu
16
vực EDM dữ liệu sẽ được chuyển sang dạng dữ liệu đa chiều (OLAP) theo các bài toán chủ
đề khác nhau để người dùng khai thác thông qua công cụ Excel. Dữ liệu đa chiều được thực
hiện tổng hợp thông qua công cụ DTS và được lưu trữ trên cơ sở dữ liệu SQL Server 2000.
Như vậy về tổng quan kho dữ liệu hiện tại của ngân hàng được nhìn dưới ba góc độ về
hạ tầng như sau:
-
Cơ sở dữ liệu dùng cho bài toán kho dữ liệu: Cơ sở dữ liệu DB2 được tích hợp sẵn trên
máy chủ AS400 (máy mainframe).
Công cụ trích lọc dữ liệu: Sử dụng DTS một trong các công cụ của SQL Server về trích
lọc dữ liệu.
Công cụ khai thác, phân tích: Sử dụng Excel kết nối tới OLAP được lưu trữ trên SQL
Server 2000.
1.5.3 Đánh giá các mặt hạn chế của hệ thống kho dữ liệu hiện tại
Tác giả đã dựa vào những phương diện sau để phân tích đánh giá những mặt hạn chế
của kho dữ liệu hiện tại trong ngân hàng bao gồm:
-
CSDL dùng cho bài toán kho dữ liệu.
Công cụ trích lọc dữ liệu.
Công cụ phân phối báo cáo.
Mô hình thiết kế của kho dữ liệu.
Từ đó đưa ra hướng giải pháp mới nhằm nâng cao hiệu quả về hiệu năng xử lý của kho
dữ liệu.
1.5.3.1 CSDL dùng cho bài toán kho dữ liệu
Cơ sở dữ liệu DB2 được tính hợp sẵn trên máy chủ AS400 được triển khai cùng với
Core banking, hệ cơ sở dữ liệu này được triển khai nhằm mục đích chính cho bài toán tác
nghiệp phù hợp với bài toán OLTP của ngân hàng và cấu phần kho dữ liệu được triển khai
thêm sau đó.
Do vậy tồn tại bài toán tác nghiệp và bài toán xử lý kho dữ liệu trên cùng một máy chủ
Core banking điều này ít nhiều làm ảnh hưởng tới hiệu năng của hệ thống tác nghiệp do phải
chia sẻ tài nguyên cho hệ thống kho dữ liệu. Thông thường hệ thống tác nghiệp sẽ bắt đầu
ngày làm việc mới khoảng 8h mỗi sáng nhưng hệ thống kho dữ liệu thì kết thúc muộn hơn rất
nhiều. Hệ thống kho dữ liệu thường bắt đầu từ 2h sáng và thường kết thúc vào 12h giờ hàng
với tổng dương lượng dữ liệu xử lý vào khoảng 30GB điều này gây áp lực rất lớn lên hệ thống
17
giao dịch hàng ngày của ngân hàng và cũng gây khó khăn cho việc khai thác phân tích số liệu
phục vụ công tác quản trị điều hành tại ngân hàng.
1.5.3.2 Công cụ trích lọc dữ liệu
Hiện tại ngân hàng đang sử dụng công cụ DTS để thực hiện quá trình trích lọc dữ liệu,
công cụ này hiện nay đang gặp phải một số hạn chế như sau:
-
-
Không có khả năng mở rộng về hạ tầng và chạy trên nền tảng của Microsoft chỉ phù hợp
đối với các bài toán nhỏ và vừa. Hiện nay với việc xử lý dữ liệu đầu ngày khoảng 300G
đã gây ra áp lực rất lớn lên hệ thống ETL của ngân hàng.
Chỉ hỗ trợ mô hình triển khai theo hướng ET-L hoặc E-TL có nghĩa là máy chủ cài đặt
DTS chỉ làm nhiệm vụ trích xuất (Extract) hoặc truyền tải (Load) còn chuyển đổi
(Transform) sẽ được thực hiện tại nguồn hoặc đích. Việc thiết kế này phụ thuộc hoàn toàn
vào hiệu năng xử lý của máy của nguồn hoặc đích. Không có khả năng mở rộng về các
cụm máy chủ chỉ để dùng cho việc chuyển đổi số liệu khi bài toán dữ liệu ngày càng tăng
trưởng. Do đó mô hình này cũng đã một phần ngây tải cho hệ thống xử lý tác nghiệp hàng
ngày trong ngân hàng.
1.5.3.3 Công cụ phân phối báo cáo
Việc khai thác và phân phối báo cáo theo chủ đề hiện nay tại ngân hàng sử dụng qua
công cụ Excel kết nối tới mô hình dữ liệu đa chiều (OLAP) qua phương thức kết nối ODBC
mà chưa có một công cụ chuyên biệt để thực hiện việc phân phối báo cáo tới người dùng. Một
số hạn chế khi sử dụng công cụ Excel cho bài toán phân tích hiện nay trong ngân hàng như
sau:
-
-
-
Dữ liệu khai thác trên Excel chỉ khai thác được trên tập dữ liệu nhỏ và dữ liệu OLAP
được lưu trên SQL server bị giới hạn dung lượng do đó bài toán này chỉ phù hợp với dữ
liệu vừa và nhỏ không phù hợp với dữ liệu lớn.
Việc khai thác trên các dữ liệu chuyên đề không linh hoạt gây khó khăn cho người dùng
đối với các phân tích cần lọc dữ liệu thì Excel sẽ thực hiện việc load toàn bộ data lên Excel
rồi mới thực hiện việc lọc điều này dẫn đến nhiều bài toán phân tích trên dữ liệu chuyên
đề không thực hiện được do bị giới hạn về số lượng bản ghi hiển trị trên Excel tùy thuộc
từng phiên bản của Excel.
Dữ liệu trong kho dữ liệu mới chỉ được cung cấp tại Hộ sở chính mà chưa được phân phối
trên toàn ngân hàng.
Cơ chế phân quyền bảo mật đối với việc khai thác báo cáo qua Excel chưa đảm bảo.
18
1.5.3.4 Mô hình thiết kế kho dữ liệu
Việc triển khai kho dữ liệu trong ngân hàng chưa có một mô hình thiết kế tổng thể để
từ đó có thể dễ dàng mở rộng và phát triển các bài toán phân tích khác nhau phục vụ nhu cầu
quản trị điều hành trong môi trường cạnh tranh ngày càng mãnh liệt.
Chưa có một mô hình tổng thể bao trùm các mảng phân tích trong ngân hàng như: quản
lý rủi ro, phân tích khác hàng, quản lý tài sản nợ có, phân tích khách hàng trung thành dời đi,
phân tích bán chéo sản phẩm, các bài toán về báo cáo tuân thủ, v.v… hiện tại kho dữ liệu
mới chỉ dừng lại ở các bài toán phục vụ tác nghiệp là chính chưa có những mô hình chuyên
sâu, chuyên biệt để thực hiện phát triển, kiểm soát các hoạt động của ngân hàng trong xu
hướng phát triển mới.
1.6 Một số giải pháp công nghệ mới về kho dữ liệu
Có nhiều phương thức để đánh giá các giải pháp kho dữ liệu hiện tại trên thế giới. Các
hãng phân tích lớn và uy tín trên thế giới sử dụng các phân tích đa chiều, đồng thời theo xu
hướng phát triển của Công nghệ thông tin như Gartners.
Tuy nhiên, theo nhận định chung thì có bốn yếu tố chính ảnh hưởng đến việc lựa chọn
một nền tảng công nghệ kho dữ liệu thích hợp đó là: giao diện, tính năng, hỗ trợ và nền tảng
hệ thống. Các yếu tố này ảnh hưởng trực tiếp đến thành công của một dự án triển khai và áp
dụng kho dữ liệu vào trong tổ chức/doanh nghiệp.
Các giải pháp kho dữ liệu lớn trên thế giới [5] đang theo xu hướng thay đổi để thích
hợp với xu hướng phát triển của BI cũng yêu cầu càng ngày càng phức tạp hơn trong việc
phân tích dữ liệu. Một số giải pháp hiện nay có trên thị trường bao gồm: Microsoft, Oracle,
IBM.
Giải pháp của Microsoft: Microsoft cung cấp giải pháp kho dữ liệu khá toàn diện và
đẩy đủ với cơ sở dữ liệu SQL Server 2008, hệ thống Analyze Services, là giải pháp tương đối
phổ biến.
Ưu điểm: thân thiện, dễ dùng, dễ phát triển, dễ bảo trì.
Nhược điểm:
-
Hạn chế khi xử lý lượng dữ liệu lớn
Phù hợp với các bài toán vừa và nhỏ
Hệ thống bảo mật kém do sử dụng nền tảng windows
19
- Xem thêm -