Đăng ký Đăng nhập
Trang chủ ứng dụng bi (business intelligence) trong bài toán thẩm định tài sản bảo đảm của...

Tài liệu ứng dụng bi (business intelligence) trong bài toán thẩm định tài sản bảo đảm của ngân hàng

.PDF
90
50
121

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ CAO THỊ VÂN ANH ỨNG DỤNG BI (BUSINESS INTELLIGENCE) TRONG BÀI TOÁN THẨM ĐỊNH TÀI SẢN BẢO ĐẢM CỦA NGÂN HÀNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2017 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ CAO THỊ VÂN ANH ỨNG DỤNG BI (BUSINESS INTELLIGENCE) TRONG BÀI TOÁN THẨM ĐỊNH TÀI SẢN BẢO ĐẢM CỦA NGÂN HÀNG Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS. TS. TRƢƠNG NINH THUẬN Hà Nội – 2017 LỜI CAM ĐOAN Tôi xin cam đoan nội dung của luận văn “Ứng dụng BI (Business Intelligence) trong bài toán thẩm định tài sản bảo đảm của ngân hàng” là sản phẩm do tôi thực hiện dƣới sự hƣớng dẫn của PGS.TS.Trƣơng Ninh Thuận. Toàn bộ những điều đƣợc trình bày trong khóa luận hoặc là của cá nhân, hoặc đƣợc tham khảo và tổng hợp từ các nguồn tài liệu khác nhau. Tất cả tài liệu tham khảo, tổng hợp đều đƣợc trích dẫn với nguồn gốc rõ ràng. Toàn bộ chƣơng trình, mã nguồn là do tôi thiết kế và xây dựng, không sao chép của bất kỳ ai và chƣa đƣợc công bố trên bất kỳ phƣơng tiện nào. Tôi xin chịu hoàn toàn trách nhiệm về lời cam đoan của mình. Nếu có điều gì sai trái, tôi xin chịu mọi hình thức kỷ luật theo qui định. . Hà Nội, Ngày tháng năm 2017 Ngƣời cam đoan Cao Thị Vân Anh LỜI CẢM ƠN Tôi xin bày tỏ lòng biết ơn sâu sắc đến thầy hƣớng dẫn của tôi, PGS.TS. Trƣơng Ninh Thuận. Thầy đã giúp tôi có những cơ hội để có thể theo đuổi nghiên cứu lĩnh vực mình yêu thích. Trong suốt quá trình thực hiện luận văn, thầy đã tận tình hƣớng dẫn cho tôi, góp ý cho tôi về định hƣớng, đồng thời đƣa ra những lời khuyên bổ ích để tôi có thể hoàn thành luận văn của mình. Tiếp đến, xin đƣợc cảm ơn các thầy cô giáo đã giảng dạy trong quá trình học tập, thực hành, làm bài tập, đọc và nhận xét luận văn của em, giúp em hiểu thấu đáo hơn lĩnh vực mà em nghiên cứu và những hạn chế cần khắc phục trong việc học tập, nghiên cứu và thực hiện bản luận văn này. Xin cảm ơn các bạn bè, đồng nghiệp và nhất là các thành viên trong gia đình đã tạo mọi điều kiện tốt nhất, động viên, cổ vũ trong suốt quá trình học tập và làm luận văn tốt nghiệp. Hà Nội, Ngày tháng năm 2017 Cao Thị Vân Anh MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN DANH MỤC KÍ HIỆU VÀ CHỮ VIẾT TẮT ..................................................................... i DANH MỤC HÌNH VẼ ..................................................................................................... iii DANH MỤC BẢNG .......................................................................................................... iii MỞ ĐẦU ............................................................................................................................. 1 Lý do chọn đề tài .............................................................................................................. 1 Mục tiêu của đề tài ........................................................................................................... 1 Đóng góp của luận văn ..................................................................................................... 2 Cấu trúc của luận văn ....................................................................................................... 3 CHƢƠNG 1: CƠ SỞ LÝ THUYẾT .................................................................................... 4 1.1. Giới thiệu về Trí tuệ nghiệp vụ (Business Intelligence) ........................................... 4 1.1.1. Khái niệm ............................................................................................................ 4 1.1.2. Kiến trúc và thành phần của BI .......................................................................... 4 1.2.Giới thiệu về Data Warehouse ................................................................................... 9 1.2.1. Khái niệm ............................................................................................................ 9 1.2.2.Kiến trúc của Data Warehouse .......................................................................... 10 1.2.3.Xây dựng Data warehouse ................................................................................. 11 1.3. Giới thiệu về Khai phá dữ liệu (Data mining) ........................................................ 13 1.3.1. Khái niệm .......................................................................................................... 13 1.3.2.Quy trình khai phá dữ liệu ................................................................................. 13 1.3.3. Các phƣơng pháp khai phá dữ liệu ................................................................... 15 CHƢƠNG 2: BÀI TOÁN ỨNG DỤNG BI TRONG HỖ TRỢ THẨM ĐỊNH TÀI SẢN BẢO ĐẢM CỦA NGÂN HÀNG ...................................................................................... 20 2.1. Ứng dụng của BI trong lĩnh vực ngân hàng ........................................................ 20 2.1.1. Công nghệ BI trong các hoạt động ngân hàng .................................................. 20 2.1.2. Một số ứng dụng BI trong lĩnh vực ngân hàng ................................................ 21 2.2. Bài toán thẩm định tài sản bảo đảm trong hệ thống ngân hàng .............................. 22 2.2.1. Giới thiệu về thẩm định tài sản bảo đảm .......................................................... 22 2.2.2. Quy trình thẩm định giá tài sản bảo đảm .......................................................... 23 2.2.3. Phƣơng pháp so sánh trực tiếp trong bƣớc định giá giá trị của tài sản ............. 25 CHƢƠNG 3: PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG BI HỖ TRỢ THẨM ĐỊNH TÀI SẢN BẢO ĐẢM TRONG NGÂN HÀNG ....................................................................... 27 3.1.Phát biểu bài toán ..................................................................................................... 27 3.2. Áp dụng thuật toán K-Nearest Neighbors (KNN) và thuật toán hồi quy tuyến tính đa biến trong quyết định giá ........................................................................................... 31 3.2.1. Sử dụng thuật toán K-Nearest Neighbors (KNN) để dự đoán giá trị tài sản thẩm định 33 3.2.2. Dự đoán giá trị tài sản qua phƣơng pháp hồi quy tuyến tính đa biến ............... 35 3.2.3. Kết hợp thuật toán KNN và hồi quy tuyến tính đa biến ................................... 37 3.3. Thiết kế ứng dụng ................................................................................................... 39 3.3.1. Module ETL ...................................................................................................... 39 3.3.2. Module Thẩm định tài sản ................................................................................ 40 3.4. Xây dựng và triển khai ............................................................................................ 56 3.4.1. Xây dựng Database ........................................................................................... 56 3.4.2. Xây dựng mô hình ứng dụng ............................................................................ 60 CHƢƠNG 4: CÀI ĐẶT VÀ KẾT QUẢ ........................................................................... 62 4.1.Cài đặt ...................................................................................................................... 62 4.2. Kết quả .................................................................................................................... 63 4.2.1. Chức năng quản lý thông tin hồ sơ thẩm định .................................................. 63 4.2.2. Chức năng Cập nhật thông tin chung của hồ sơ ............................................... 64 4.2.3. Cập nhật thông tin pháp lý của hồ sơ................................................................ 65 4.2.4. Cập nhật thông tin tài sản bảo đảm ................................................................... 66 4.2.5. Cập nhật thông tin kết luận của báo cáo thẩm định .......................................... 67 4.2.6. Thuyết minh giá ................................................................................................ 68 4.2.7. So sánh kết quả thực nghiệm trên Web thẩm định và phần mềm Weka ......... 70 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN......................................................................... 72 Kết luận .......................................................................................................................... 72 Hƣớng phát triển ............................................................................................................ 73 TÀI LIỆU THAM KHẢO ................................................................................................. 74 PHỤ LỤC 1 ....................................................................................................................... 75 i DANH MỤC KÍ HIỆU VÀ CHỮ VIẾT TẮT BI Business Intelligence BĐS Bất động sản CHCC Căn hộ chung cƣ CSDL Cơ sở dữ liệu CVQHKH Chuyên viên quan hệ khách hàng CVTĐ Chuyên viên thẩm định DW Data Warehouse ĐS Động sản ĐVKD Đơn vị kinh doanh ETL Extract - Transform - Load ESS Explained sum of squares OLAP Online Analytical Processing OLTP Online Transaction Processing HS Hồ sơ RSS Residual sum of squares SĐT Số điện thoại SQL Structured Query Language KD Kinh doanh KS Khảo sát KNN KNearest Neighbor TĐ Thẩm định ii TS Tài sản TSBĐ Tài sản bảo đảm TSS Total Sum of Squares TSSS Tài sản so sánh TSTĐ Tài sản thẩm định TGĐ Tổng giám đốc UBND Ủy ban nhân dân iii DANH MỤC HÌNH VẼ Hình 1- 1: Các thành phần chính trong một hệ thống BI [13]............................................. 5 Hình 1- 2: Chu kỳ của phân tích BI [13] ............................................................................. 6 Hình 1- 3: Các pha phát triển một hệ thống BI [13]............................................................ 8 Hình 1- 4: Kiến trúc và các tính năng của một kho dữ liệu [13] ....................................... 10 Hình 1- 5: Quy trình khai phá dữ liệu[13] ......................................................................... 14 Hình 2- 1: Quy trình thẩm định tài sản bào đảm trong ngân hàng [6] .............................. 23 Hình 3- 1: Dữ liệu thẩm định thông tin BĐS .................................................................... 29 Hình 3- 2: Dữ liệu thẩm định BĐS qua tiền xử lý............................................................. 30 Hình 3- 3: Kết quả trích chọn thuộc tính sử dụng weka .................................................... 31 Hình 3- 4:Kết quả phân tích hồi quy tuyến tính ví dụ thẩm định đất ................................ 36 Hình 3- 5: Mô hình thiết kế ứng dụng thẩm định tài sản bảo đảm .................................... 39 Hình 3- 6: Biểu đồ Use Case module Thẩm định tài sản .................................................. 41 Hình 3- 7:Lƣợc đồ dữ liệu thông tin hồ sơ thẩm định ....................................................... 56 Hình 3- 8: Lƣợc đồ dữ liệu thông tin tài sản BĐS- Đất .................................................... 58 Hình 3- 9: Lƣợc đồ dữ liệu thông tin báo cáo thẩm định tài sản bảo đảm ........................ 59 Hình 3- 10:Mô hình ứng dụng ........................................................................................... 60 Hình 4- 1: Chức năng Quản lý hồ sơ ................................................................................. 64 Hình 4- 2: Cập nhật thông tin chung của hồ sơ. ................................................................ 64 Hình 4- 3: Cập nhật thông tin pháp lý của tài sản trong hồ sơ thẩm định ......................... 65 Hình 4- 4: Cập nhật thông tin tài sản bảo đảm - Bất động sản .......................................... 66 Hình 4- 5: Kết luận của báo cáo thẩm định tài sản............................................................ 67 Hình 4- 6: Thuyết minh giá ............................................................................................... 69 DANH MỤC BẢNG Bảng 3- 1: Ví dụ số liệu mua bán tài sản đất ..................................................................... 32 Bảng 3- 2: Tính toán và sắp xếp giá trị của tài sản theo khoảng cách tăng dần ................ 34 Bảng 3- 3: Giá trị các tài sản so sánh. ............................................................................... 37 Bảng 3- 4: So sánh hai phƣơng pháp KNN và hồi quy tuyến tính đa biến ....................... 37 Bảng 4- 1: Kết quả thử nghiệm hai phƣơng pháp ............................................................. 70 1 MỞ ĐẦU Lý do chọn đề tài Ngân hàng là tổ chức hoạt động mang tính chất lợi nhuận. Mọi hoạt động của ngân hàng đều hƣớng tới hiệu quả kinh tế, tìm cách phân tán và giảm thiểu rủi ro. Trong hoạt động cho vay hoặc cấp tín dụng ngân hàng đã có những biện pháp nhằm đảm bảo cho nguồn vốn của ngân hàng sinh lợi nhuận và an toàn. Tài sản đảm bảo là một trong những biện pháp đó. Tài sản bảo đảm của khách hàng có thể là: nhà đất, sạp chợ, phƣơng tiện, công cụ, hàng hóa... Mức tiền khách hàng mong muốn vay hoặc quyết định cấp tín dụng có đƣợc chấp nhận hay không thông qua khâu định giá tài sản bảo đảm mà khách hàng đang có và muốn thếchấp. Quá trình thẩm định giá phải trải qua rất nhiều bƣớc và hồ sơ thẩm định sẽ đƣợc luân chuyển qua nhiều phòng ban, vị trí. Trong các bƣớc thẩm định, việc báo cáo thẩm định giá là một khâu phức tạp và cần phải đƣợc tính toán cẩn thận. Cán bộ thẩm định phải nêu đƣợc giá trị thị trƣờng hay phi thị trƣờng của tài sản thẩm định. Sau đó tại phần lập luận để ra mức giá cuối cùng, cán bộ thẩm định phải tính toán tỷ lệ điều chỉnh phù hợp với mục đích thẩm định. Sẽ đơn giản hơn nếu có một công cụ hỗ trợ cán bộ đƣa ra đƣợc mức giá có thể cho vay dựa trên các hồ sơ thẩm định trong lịch sử hay từ các nguồn dữ liệu đƣợc cập nhật thƣờng xuyên trên thị trƣờng. Xuất phát từ tình hình thực tế đó, luận văn nghiên cứu giải pháp công nghệ Trí tuệ nghiệp vụ (Business Intelligence - BI) để giải quyết bài toán hỗ trợ ra quyết định giá tài sản bảo đảm của ngân hàng. Mục tiêu của đề tài Trong khuôn khổ luận văn này, tôi nghiên cứu kiến thức về Data Warehouse, Data Mining, Trí tuệ nghiệp vụ để thiết kế và xây dựng một hệ thống thẩm định giá tài sản bảo đảm (TSBĐ). Trong đó luận văn sẽ tập trung vào các phƣơng pháp hồi quy trong BI để giải quyết bài toán thuyết minh giá cho TSBĐ. Hỗ trợ nhân viên thẩm định khai thác dữ liệu lịch sử về thẩm định đã thành công đƣợc lƣu trữ trong hệ thống ngân hàng trƣớc đó, để tìm ra đƣợc các tài sản so sánh (TSSS) có các yếu tố tƣơng đồng nhất với TSTĐ bằng phƣơng pháp K láng giềng gần nhất. Và hỗ trợ đƣa ra quyết định về mức giá thẩm định TSBĐ trong quá trình ƣớc lƣợng giá trị tài sản từ tập các TSSS có các yếu tố tƣơng đồng với TSTĐ đã đƣợc thẩm định trƣớc đó bằng phƣơng pháp hồi quy tuyến tính đa biến. Phần mềm thẩm định tài sản bảo đảm sẽ hỗ trợ ngƣời dùng quản lý các hồ sơ thẩm định có liên quan đến mình. Xử lý và luân chuyển hồ sơ nhanh chóng, chính xác thông 2 tin giữa các bộ phận trong hệ thống thẩm định. Đặc biệt nó sẽ có ý nghĩa đối với các chuyên viên thẩm định chƣa có nhiều kinh nghiệm. Họ sẽ có thể đƣa ra tỷ lệ điều chỉnh giá và mức ƣớc lƣợng giá chính xác hơn,dựa trên các thông tin phân tích từ nguồn dữ liệu đầy đủ trong hệ thống phần mềm… Đóng góp của luận văn Luận văn đã trình bày về quy trình thẩm định tài sản bảo đảm, các phƣơng pháp định giá đối với từng loại tài sản và đƣa ra một số các khó khăn của các chuyên viên thẩm định trong quá trình thu thập thông tin tài sản dùng để so sánh và ƣớc lƣợng giá trị của tài sản thẩm định. Luận văn đã thiết kế một kho dữ liệu dùng để lƣu trữ các thông tin của hồ sơ thẩm định. Dùng làm nguồn tài nguyên cho việc phân tích, định giá tài sản, tạo các báo cáo theo từng yêu cầu nghiệp vụ. Đồng thời đƣa ra giải phápkết hợp các phƣơng pháp hồi quy: K láng giềng gần nhất và hồi quy tuyến tính đa biến vào khâu định giá tài sản thẩm định bằng phƣơng pháp so sánh. Để đƣa ra đƣợc một kết quả định giá chính xác và dễ dàng hơn đối với chuyên viên thẩm định. Hệ thống thẩm định tài sản sẽ giúp ngƣời dùng giảm thiều thời gian tìm kiếm, thu thập và nâng cao kết quả phân tích, định giá tài sản. Đồng thời giúp công việc quản lý thông tin hồ sơ thẩm định, tài liệu liên quan đến hồ sơ một cách hiệu quả, dễ dàng. Xử lý hồ sơ một cách linh hoạt và thuận tiện hơn. Các tính năng và lợi ích của hệ thống thẩm định tài sản bảo đảm: - - - - Chức năng ETL: Chức năng thu thập, xử lý dữ liệu và lƣu trữ các thông tin liên quan đến hồ sơ thẩm định vào trong kho dữ liệu. Làm nguồn tài nguyên hữu ích cho thuyết minh giá, tạo báo cáo. Thông qua: Import trực tiếp file hồ sơ thẩm định trên trang web. Hoặc service tự động download-select-convert-import file từ một thƣ mục lƣu trữ file hồ sơ đƣợc thu thập về từ các hệ thống thẩm định giá của liên ngân hàng gửi về. Quản lý hồ sơ: Quản lý danh sách hồ sơ có liên quan đến ngƣời dùng, thuộc quyền quản lý của ngƣời dùng. Nhằm hỗ trợ ngƣời dùng theo dõi tiến trình xử lý của hồ sơ và lựa chọn các tính năng xử lý hồ sơ thuộc trách nhiệm và quyền của mình. Cập nhật thông tin hồ sơ:Khai báo các thông tin cơ bản của hồ sơ thẩm định. Bao gồm: Thông tin chung về tài sản bảo đảm, thông tin khách hàng, thông tin liên quan đến hồ sơ thẩm định, thông tin về thành phần thẩm định. Cập nhật danh sách tài sản thẩm định:Cập nhật các thông tin liên quan đến tài sản dùng để định giá và theo dõi danh sách tài sản đƣợc thẩm định để đƣa vào làm tài sản bảo đảm trong mỗi hồ sơ thẩm định. 3 - Lập báo cáo thẩm định: Tạo báo cáo thẩm định cho tài sản.Lựa chọn phƣơng pháp định giá phù hợp với tài sản để đƣa ra đƣợc chi phí dự kiến cho tài sản. Thuyết minh giá: Cho ngƣời dùng tìm kiếm các tài sản so sánh có các yếu tố tƣơng đồng nhất với các thông tin tài sản ngƣời dùng nhập. Khai thác dữ liệu thẩm định lịch sử để đƣa ra đƣợc mô hình tuyến tính đa biến và giá gợi ý cho tài sản. Cấu trúc của luận văn Luận văn này sẽ đƣợc trình bày theo bố cục nhƣ sau: - - - - - Mở đầu: Giới thiệu về đề tài, mục tiêu và tổ chức của luận văn. Chƣơng 1:Cơ sở lý thuyết. Chƣơng này sẽ giới thiệu tổng quan về Business Intelligence, Data Warehouse, Data Mining. Chƣơng 2:Bài toán ứng dụng BI trong hỗ trợ thẩm định tài sản bảo đảmcủa ngân hàng. Chƣơng này trình bày tổng quan về bài toán thẩm định tài sản bảođảm trong ngân hàng. Giới thiệu giải pháp trí tuệ nghiệp vụ và ứng dụng trong lĩnh vực ngân hàng. Chƣơng 3:Phân tích và thiết kế hệ thống BI hỗ trợ thẩm định tài sản bảo đảm trong ngân hàng. Chƣơng này phát biểu yêu cầu của bài toán trong phạm vị thực hiện của luận văn.Mô tả việc áp dụng các phƣơng pháp hồi quy trong ƣớc lƣợng giá trị tài sản. Thiết kế kho dữ liệu hồ sơ thẩm định. Chƣơng 4:Cài đặt và kết quả. Chƣơng này sẽ trình bày cách cấu hình, cài đặt và kết quả xây dựng webthẩm định tài sản bảo đảm. Kết luận và hƣớng phát triển. 4 CHƢƠNG 1: CƠ SỞ LÝ THUYẾT 1.1. Giới thiệu về Trí tuệ nghiệp vụ (Business Intelligence) 1.1.1. Khái niệm Trí tuệ nghiệp vụ (BI) là một giải pháp công nghệ khai thác dữ liệu từ các nguồn dữ liệu khác nhau, từ các hệ thống tác nghiệp khác nhau, thông qua các mô hình toán học, các kỹ thuật khai phá dữ liệu để xử lý thành các thông tin hữu ích nhằm hỗ trợ ra quyết định kinh doanh hiệu quả.[13] Mục đích của hệ thống BI là biến đổi dữ liệu từ kho dữ liệu hoặc khối dữ liệu chủ đề thành các thông tin và tri thức hữu ích, thông qua các ứng dụng mô hình toán học và các thuật toán. Từ việc tổng hợp và phân tích thông tin tri thức, doanh nghiệp có thể đƣa ra đƣợc các chiến lƣợc, hành động hiệu quả. Việc áp dụng các hệ thống BI là một cách tiếp cận hợp lý và khoa học của các doanh nghiệp và các tổ chức phức tạp trong vấn đề quản lý. Ví dụ: Doanh nghiệp có thể dựa trên một bảng tính để dự đoán sự biến động của lãi suất ảnh hƣởng đến ngân sách nhƣ thế nào. Điều này sẽ thúc đẩy họ tạo ra một thể hiện mới về các dòng phát triển của tài chính. Cách tiếp cận điển hình của các nhà phân tích BI có thể đƣợc tóm tắt nhƣ sau: - Bƣớc 1: Cần xác định các mục tiêu của phân tích và các chỉ số sẽ đƣợc sử dụng để đánh giá các lựa chọn thay thế đã đƣợc xác định. - Bƣớc 2: Phát triển các mô tình toán học bằng cách khai thác các mối quan hệ giữa các biến điều khiển hệ thống, các tham số và các chỉ số đánh giá. - Cuối cùng: Phân tích, đánh giá tính hiệu quả của hiệu suất đƣợc xác định bởi các biến điều khiển và các tham số thay đổi. 1.1.2. Kiến trúc và thành phần của BI Kiến trúc của BI gồm 3 thành phần chính [13]: - Nguồn dữ liệu (Data sources): Nguồn dữ liệu đƣợc thu thập,chuẩn hóa và tích hợp từnhiều nguồnkhác nhau, không đồng nhất về cách tổ chức và loại dữ liệu. Phần lớn dữ liệu đƣợc lấy từ các hệ thống hoạt động của doanh nghiệp, cũng có thể lấy từ tài liệu phi cấu trúc nhƣ thƣ điện tử và các dữ liệu từ các nhà cung cấp bên ngoài. - Kho dữ liệu và khối dữ liệu chủ đề(Data warehouse/Data mart): Sử dụng các công cụ chiết xuất và chuyển đổi dữ liệu đƣợc biết đến nhƣ công cụ ETL, dữ liệu đƣợc tổ chức từ các nguồn khác nhau sẽ đƣợc lƣu trữ trong các cơ sơ dữ liệu để cung cấp cho việc phân tích trong hệ thống trí tuệ nghiệp vụ. - Các phƣơng pháp luận của BI: Dữ liệu đƣợc trích xuất và sử dụng cho các mô hình toán học, các phƣơng pháp phân tích. Nhằm hỗ trợ ra quyết định của doanh 5 nghiệp. Trong một hệ thống BI, một vài ứng dụng hỗ trợ ra quyết định sẽ đƣợc cài đặt nhƣ: o Phân tích cube nhiều chiều. o Phân tích dữ liệu thăm dò. o Phân tích theo chuỗi thời gian. o Các mô hình học máy quy nạp trong khai phá dữ liệu. o Các mô hình tối ƣu hóa. Các thành phần chính trong một hệ thống BI đƣợc thể hiện nhƣ sau: Quyết định Tối ưu hóa Khai phá dữ liệu Thăm dò dữ liệu Kho dữ liệu/khối dữ liệu Nguồn dữ liệu Dữ liệu từ các hệ thống, tài liệu và dữ liệu mở rộng Hình 1- 1: Các thành phần chính trong một hệ thống BI[13] - Các nguồn dữ liệu và kho dữ liệu/ khối dữ liệu: Là các thành phần chính trong hệ thống BI. Lƣu trữ các thông tin hữu ích cho việc khai phá tri thức. - Thăm dò dữ liệu (Data exploration): Bao gồm các công cụ thực hiện việc phân tích một cách bị động nhƣ: các hệ thống báo cáo, thống kê. Ngƣời ra quyết định đặt ra các giả thuyết hoặc các tiêu chí trích xuất dữ liệu, sau đó sử dụng công cụ để tìm ra câu trả lời. - Khai phá dữ liệu (Data minning):Bao gồm các phƣơng pháp luận trọng các hoạt động của BI, với mục đích là khai thác thông tin và tri thức từ dữ liệu: Các mô hình toán học để nhận dạng máy, học máy và các công cụ khai phá dữ liệu. Không giống nhƣ các công cụ đƣợc mô tả ở các tầng trƣớc của kim tự tháp, các mô hình này thuộc loại chủ động hơn, không yêu cầu ngƣời ra quyết định xây dựng các giả thuyết và tiêu chí trƣớc. Mục đích là mở rộng tri thức cho các chuyên gia ra quyết định. Các kỹ thuật có thể đƣợc dùng nhƣ: phân loại (classification), phân cụm (clustering), phát hiện luật kết hợp (association rule), dự đoán (prediction)… 6 - Tối ƣu hóa (Optimization): Cho phép xác định giải pháp tốt nhất trong một tập các giải pháp đƣa ra. - Quyết định (Decisions): Sau khi đã lựa chọn phƣơng án tốt nhất, ngƣời sử dụng sẽ đƣa ra quyết định cuối cùng. Khi đi từ dƣới lên trên kim tự tháp, các hệ thống BI sẽ cần đƣợc cung cấc các công cụ hỗ trợ nâng cao hơn theo từng hoạt động. Thậm chí là thay đổi luật và quyền. 1.1.2.1 Chu kỳ của một phân tích BI Mỗi phân tích BI sẽ theo một lĩnh vực ứng dụng riêng, phụ thuộc vào mục tiêu của ngƣời ra quyết định và các phƣơng pháp phân tích có sẵn. Tuy nhiên, có thể đƣa ra đƣợc một chu kỳ lý tƣởng đặc trƣng cho sự tiến hóa của một phân tích BI điển hình nhƣ hình 1-2, mặc dù vẫn tồn tại sự khác biệt dựa trên đặc thù của từng ngữ cảnh cụ thể. Phân tích Nhận thức Đánh giá Quyết định Hình 1- 2: Chu kỳ của phân tích BI[13] Phân tích (Analysis): Trong giai đoạn phân tích, cần phải nhận biết chính xác các vấn đề đang xảy ra. Ngƣời quyết định phải tạo một thể hiện ý tƣởng của hiện tƣợng đang đƣợc phân tích, bằng cách xác định các nhân tố liên quan nhất.Trong giai đoạn này các phƣơng pháp luận BI sẽ đƣợc sử dụng, cho phép các nhà quyết định thực hiện nhanh chóng các dò xét khác nhau, bằng việc đặt ra một số câu hỏi để thu đƣợc các phản hồi nhanh chóng thông qua các phƣơng pháp tƣơng tác. Nhận thức (Insight): Trong giai đoạn thứ hai này cho phép các nhà ra quyết định hiểu một cách sâu và rõ ràng hơn các vấn đề hiện tại, thƣờng ở mức độ nhân quả. Một mặt, việc khai thác tri thức có thể xảy ra theo trực giác của ngƣời ra quyết định, dựa trên kinh nghiệm của họ và có thể là trên các thông tin phi cấu trúc có sẵn. Mặt khác, các mô hình học máy quy nạp cũng có thể chứng minh là rất hữu ích trong giai đoạn phân tích này, đặc biệt áp dụng cho dữ liệu có cấu trúc. 7 Quyết định (Decision): Trong pha thứ ba, tri thức thu đƣợc là kết quả của pha nhận thức đƣợc chuyển thành các quyết định và thứ tự hành động. Các phƣơng pháp luận BI cho phép pha phân tích và nhận thức thực hiện nhanh chóng để đƣa ra đƣợc quyết định hiệu quả hơn và kịp thời phù hợp với các chiến lƣợc ƣu tiên của một tổ chức. Vì vậytổng thời gian thực hiện của chu trình phân tích- quyết định- hành động- sửa đổi sẽ giảmvà quá trình ra quyết định sẽ đạt chất lƣợng tốt hơn. Đánh giá (Evaluation): Cuối cùng là pha thứ tƣ của chu trình BI liên quan đến phép đo hiệu suất và đánh giá.Các số liệu mở rộng không chỉ giới hạn trong các khía cạnh tài chính mà còn tính đến chỉ số hiệu suất đƣợc xác định theo phòng ban khác nhau của công ty. 1.1.2.2 Phát triển một hệ thống BI Việc phát triển một hệ thống BI giống nhƣ là phát triển một dự án, với một mục tiêu cụ thể, thời gian phát triển và chi phí dự kiến, sử dụng và điều phối nguồn lực cần thiết để thực hiện kế hoạch. Hình 1-3 thể hiện một loại chu kỳ phát triển một hệ thống BI. 8 Phân tích Xác định các yêu cầu nghiệp vụ Kiến trúc tổng thể Thiết kế Lập kế hoạch vĩ mô cho dự án Lập kế hoạch Đặc tả chi tiết dự án Xác định các mô hình toán học Xác định nguồn dữ liệu định nghĩa kho dữ liệu, khối dữ liệu Xây dựng nguyên mẫu Cài đặt và kiểm tra Xây dựng kho dữ liệu, khối dữ liệu chủ đề Xây dựng metadata Xây dựng ứng dụng Phát hành và kiểm thử Xây dựng module ETL Hình 1- 3: Các pha phát triển một hệ thống BI[13] Phân tích (Analysis): Xác định các nhu cầu liên quan đến việc phát triển một hệ thống BI của tổ chức. Thông qua một loạt các buổi phỏng vấn các nhân viên có các vai trò và hoạt động khác nhau trong tổ chức. Mô tả rõ ràng các mục tiêu chung và các ƣu tiên của dự án, đƣa ra các chi phí và trợ cấp phát sinh từ việc phát triển hệ thống BI. Thiết kế (Design): Nhằm mục đích đƣa ra một kế hoạch tạm thời về kiến trúc tổng thể, có tính đến bất kỳ sự phát triển nào trong tƣơng lai gần và sự phát triển của hệ thống trong giai đoạn giữa. Bao gồm hai giai đoạn:  Đầu tiên là đánh giá các cơ sở hạ tầng thông tin đã có và phải kiểm tra các quy trình ra quyết định chính cần đƣợc hệ thống BI hỗ trợ để xác định đầy đủ các thông tin yêu cầu. 9  Sau đó, sử dụng các phƣơng pháp quản lý dự án để đƣa ra kế hoạch của dự án, xác định các giai đoạn phát triển, các ƣu tiên, thời gian và chi phí dự kiến, các vai trò và nguồn lực cần thiết. Lập kế hoạch (Planning):Xác định và mô tả chi tiết hơn các tính năng của hệ thống BI.  Đánh giá nguồn dữ liệu hiện có, dữ liệu đƣợc truy xuất từ bên ngoài.Điều này cho phép xây dựng cấu trúc thông tin của hệ thống BI, bao gồm một kho dữ liệu trung tâm và có thể có nhiều khối dữ liệu đi kèm.  Cần xác định các mô hình toán học đƣợc áp dụng, đảm bảo tính sẵn có của các dữ liệu cần thiết cho mỗi mô hình và xác định hiệu quả của các thuật toán có phù hợp với mức độ kết quả các vấn đề.  Cuối cùng, tạo một hệ thống với chi phí thấp và khả năng giới hạn, để phát hiện ra bất kỳ sự khác biệt giữa nhu cầu thực tế và các dự án cụ thể. Cài đặt và kiểm tra(Implementation and control):Gồm có 5 giai đoạn chính:  Đầu tiên là phát triển kho dữ liệu và khối dữ liệu cụ thể. Đây là những cơ sở hạ tầng thông tin sẽ cung cấp cho hệ thống BI.  Thứ hai là tạo ra một metadata để giải thích ý nghĩa của dữ liệu lƣu trữ trong kho dữ liệu và áp dụng các phép biến đổi dữ liệu chính.  Thứ ba là thiết lập các thủ tục ETL để thu thập và chuẩn hóa dữ liệu đã tồn tại trong các nguồn tài nguyên chính, nạp chúng vào trong kho dữ liệu và các khối dữ liệu.  Bƣớc tiếp theo là phát triển các ứng dụng core của BI để thực hiện các phân tích kế hoạch.  Cuối cùng, hệ thống đƣợc phát hành để thử nghiệm và sử dụng. 1.2.Giới thiệu về Data Warehouse 1.2.1. Khái niệm Data Warehouse (DW) là nơi lƣu trữ dữ liệu có giá trị cho việc xây dựng các kiến trúc BI và các hệ thống hỗ trợ quyết định. Mộtđịnh nghĩa DW thể hiện toàn bộ các hoạt động liên quan đến nhau, tham gia vào việc thiết kế, phát triển và sử dụng một DW.[13] Kho dữ liệu đƣợc xây dựng để tiện lợi cho việc truy cập theo nhiều nguồn, nhiều kiểu dữ liệu khác nhau sao cho có thể kết hợp đƣợc cả những ứng dụng của các công nghệ hiện đại và kế thừa đƣợc từ những hệ thống đã có sẵn từ trƣớc. Các đặc tính của kho dữ liệu: 10 - - Hƣớng chủ đề: Kho dữ liệu đƣợc thiết kế để phục vụ cho một mục đích phân tích dữ liệu hƣớng tới một chủ đề nào đó. Có thể là: Khách hàng, sản phẩm, bán hàng…Giúp ngƣời dùng xác định đƣợc các thông tin cần thiết trong hoạt động của mình và loại bỏ những thông tin không cần thiết. Tích hợp: Dữ liệu đƣợc tập hợp từ nhiều nguồn khác nhau: cơ sở dữ liệu Oracle, SQLserver, files… cần phải thực hiện việc làm sạch, sắp xếp, rút gọn dữ liệu. Biến đổi theo thời gian: Mỗi dƣ̃ liê ̣u trong kho dƣ̃ liê ̣u đề u đƣơ ̣c gắ n với thời gian và có tính lịch sử. Ổn định:Đƣợc lấy từ nhiều nguồn dữ liệu của hệ thống tác nghiệp có sẵn . Nó tách rời vâ ̣t lý với m ôi trƣờng tác nghiê ̣p ,nên dƣ̃ liê ̣u trong kho dƣ̃ liê ̣u là dƣ̃ liê ̣u chỉ đo ̣c, không đƣợc sửa bởi ngƣời dùng cuối. 1.2.2.Kiến trúc của Data Warehouse Các kiến trúc tham chiếu của một kho dữ liệu đƣợc thể hiện nhƣ sau[13]: Metadata Xuất nhập khẩu Dữ liệu các hệ thống Kinh doanh Kho dữ liệu Đánh giá hiệu suất Dữ liệu ngoài Công cụ ETL Cube đa chiều Phân tích thăm dò dữ liệu Phân tích chuỗi thời gian Khai giá dữ liệu Tối ƣu hóa OLAP Hình 1- 4: Kiến trúc và các tính năng của một kho dữ liệu [13] - Kho dữ liệu kết hợp với các metadata chứa dữ liệu và các chức năng cho phép dữ liệu đƣợc truy cập, hình tƣợng hóa và cập nhật. - Các ứng dụng thu thập dữ liệu từ hệ thống nghiệp vụ, chuẩn hóa dữ liệu về dạng dữ liệu đa chiều, nạp vào kho dữ liệu (ETL) hoặc các công cụ back-end cho phép dữ liệu đƣợc chiết xuất, chuyển đổi và tải vào kho dữ liệu. - Các ứng dụng BI và hệ thống ra quyết định nhƣ là các front-end, cho phép các nhà tri thức thực hiện các phân tích và trực quan hóa các kết quả. Một kho dữ liệu có thể đƣợc phát triển theo các kiểu thiết kế: top-down (từ trên xuống), bottom-up (từ dƣới lên) và mixed (hỗn hợp hai phƣơng pháp) 11 - Top - down:Phƣơng pháp top-down dựa trên thiết kế tổng thể của kho dữ liệu.Thời gian phát triển dài hơn và rủi ro không hoàn thành theo lập lịch cao hơn, khi toàn bộ kho dữ liệu đƣợc phát triển trên thực tế. - Bottom-up: Phƣơng pháp này dựa trên việc sử dụng các nguyên mẫu và do đó phần mở rộng hệ thống đƣợc thực hiện theo từng bƣớc của kế hoạch. Cách tiếp cận này thƣờng nhanh hơn, cung cấp nhiều kết quả hữu hình hơn, nhƣng lại thiếu một tầm nhìn tổng thể của toàn bộ hệ thống đang đƣợc phát triển. - Mixed: Phƣơng pháp này dựa trên thiết kế tổng thể của kho dữ liệu, nhƣng sau đó tiến hành theo cách tiếp cận các nguyên mẫu, bằng cách thực hiện tuần tự các phần khác nhau của toàn bộ hệ thống. Cách tiếp cận này thực tiễn hơn và thích hợp hơn, vì nó cho phép các bƣớc nhỏ đã đƣợc kiểm soát để đƣợc thực hiện trong khi luôn ghi nhớ tới toàn bộ hình ảnh. Hai thành phần quan trọng tạo nên kho dữ liệu là: - Các công cụ ETL:Là các công cụ phần mềm sử dụng để thực hiện tự động hóa ba tính năng chính sau: Khai thác, chuyển đổi và nạp dữ liệu vào trong kho dữ liệu. o Khai thác: Dữ liệu đƣợc trích xuất từ các nguồn dữ liệu bên trong và mở rộng có sẵn. Việc lựa chọn dữ liệu để cập nhật vào dựa trên thiết kế kho dữ liệu, phụ thuộc vào thông tin đƣợc đƣa ra bởi các hệ thống phân tích nghiệp vụ kinh doanh và hỗ trợ ra quyết định hoạt động trong một miền ứng dụng cụ thể. o Chuyển đổi: Cải tiến chất lƣợng dữ liệu đƣợc chiết xuất từ các nguồn dữ liệu khác nhau, thông qua việc hiệu chỉnh tính không nhất quán, không chính xác và thiếu giá trị. o Nạp dữ liệu: Dữ liệu đƣợc nạp vào trong các bảng của kho dữ liệu, tạo ra các dữ liệu có giá trị cho các ứng dụng phân tích và hỗ trợ quyết định. - Metadata (Siêu dữ liệu): Ghi lại ý nghĩa của dữ liệu trong kho dữ liệu. Đƣợc chia làm hai nhóm là siêu dữ liệu nghiệp vụ và siêu dữ liệu kỹ thuật. o Siêu dữ liệu nghiệp vụ mô tả ý nghĩa dữ liệu, các luật và ràng buộc tác động. o Siêu dữ liệu kỹ thuật mô tả cách thức tổ chức, lƣu trữ và điều khiển dữ liệu trong hệ thống máy tính. 1.2.3.Xây dựng Data warehouse Việc thiết kế kho dữ liệu và dữ liệu mô tả dựa trên mô hình dữ liệu đa chiều. Về mặt chức năng mô hình có thể đảm bảo thời gian phản hồi nhanh, thậm chí đối với câu lệnh truy vấn phức tạp. Về mặt logic ngƣời dùng có thể nhìn dữ liệu theo nhiều khía cạnh khác nhau.
- Xem thêm -

Tài liệu liên quan