Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Công nghệ thông tin ỨNG DỤNG BI (BUSINESS INTELLIGENCE) TRONG BÀI TOÁN THẨM ĐỊNH TÀI SẢN BẢO ĐẢM CỦA...

Tài liệu ỨNG DỤNG BI (BUSINESS INTELLIGENCE) TRONG BÀI TOÁN THẨM ĐỊNH TÀI SẢN BẢO ĐẢM CỦA NGÂN HÀNG

.DOCX
92
165
144

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ CAO THỊ VÂN ANH ỨNG DỤNG BI (BUSINESS INTELLIGENCE) TRONG BÀI TOÁN THẨM ĐỊNH TÀI SẢN BẢO ĐẢM CỦA NGÂN HÀNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2017 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ CAO THỊ VÂN ANH ỨNG DỤNG BI (BUSINESS INTELLIGENCE) TRONG BÀI TOÁN THẨM ĐỊNH TÀI SẢN BẢO ĐẢM CỦA NGÂN HÀNG Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS. TRƯƠNG NINH THUẬN Hà Nội – 2017 LỜI CAM ĐOAN Tôi xin cam đoan nội dung của luận văn “Ứng dụng BI (Business Intelligence) trong bài toán thẩm định tài sản bảo đảm của ngân hàng” là sản phẩm do tôi thực hiện dưới sự hướng dẫn của PGS.TS.Trương Ninh Thuận. Toàn bộ những điều được trình bày trong khóa luận hoặc là của cá nhân, hoặc được tham khảo và tổng hợp từ các nguồn tài liệu khác nhau. Tất cả tài liệu tham khảo, tổng hợp đều được trích dẫn với nguồn gốc rõ ràng. Toàn bộ chương trình, mã nguồn là do tôi thiết kế và xây dựng, không sao chép của bất kỳ ai và chưa được công bố trên bất kỳ phương tiện nào. Tôi xin chịu hoàn toàn trách nhiệm về lời cam đoan của mình. Nếu có điều gì sai trái, tôi xin chịu mọi hình thức kỷ luật theo qui định. . Hà Nội, Ngày tháng năm 2017 Người cam đoan Cao Thị Vân Anh LỜI CẢM ƠN Tôi xin bày tỏ lòng biết ơn sâu sắc đến thầy hướng dẫn của tôi, PGS.TS. Trương Ninh Thuận. Thầy đã giúp tôi có những cơ hội để có thể theo đuổi nghiên cứu lĩnh vực mình yêu thích. Trong suốt quá trình thực hiện luận văn, thầy đã tận tình hướng dẫn cho tôi, góp ý cho tôi về định hướng, đồng thời đưa ra những lời khuyên bổ ích để tôi có thể hoàn thành luận văn của mình. Tiếp đến, xin được cảm ơn các thầy cô giáo đã giảng dạy trong quá trình học tập, thực hành, làm bài tập, đọc và nhận xét luận văn của em, giúp em hiểu thấu đáo hơn lĩnh vực mà em nghiên cứu và những hạn chế cần khắc phục trong việc học tập, nghiên cứu và thực hiện bản luận văn này. Xin cảm ơn các bạn bè, đồng nghiệp và nhất là các thành viên trong gia đình đã tạo mọi điều kiện tốt nhất, động viên, cổ vũ trong suốt quá trình học tập và làm luận văn tốt nghiệp. Hà Nội, Ngày tháng năm 2017 Cao Thị Vân Anh MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN DANH MỤC KÍ HIỆU VÀ CHỮ VIẾT TẮT....................................................................i DANH MỤC HÌNH VẼ...................................................................................................iii DANH MỤC BẢNG........................................................................................................iii MỞ ĐẦU........................................................................................................................... 1 Lý do chọn đề tài............................................................................................................1 Mục tiêu của đề tài..........................................................................................................1 Đóng góp của luận văn...................................................................................................2 Cấu trúc của luận văn......................................................................................................3 CHƯƠNG 1: CƠ SỞ LÝ THUYẾT...................................................................................4 1.1. Giới thiệu về Trí tuệ nghiệp vụ (Business Intelligence)...........................................4 1.1.1. Khái niệm..........................................................................................................4 1.1.2. Kiến trúc và thành phần của BI.........................................................................4 1.2.Giới thiệu về Data Warehouse..................................................................................9 1.2.1. Khái niệm..........................................................................................................9 1.2.2.Kiến trúc của Data Warehouse.........................................................................10 1.2.3.Xây dựng Data warehouse................................................................................11 1.3. Giới thiệu về Khai phá dữ liệu (Data mining)........................................................13 1.3.1. Khái niệm........................................................................................................13 1.3.2.Quy trình khai phá dữ liệu................................................................................13 1.3.3. Các phương pháp khai phá dữ liệu..................................................................15 CHƯƠNG 2: BÀI TOÁN ỨNG DỤNG BI TRONG HỖ TRỢ THẨM ĐỊNH TÀI SẢN BẢO ĐẢM CỦA NGÂN HÀNG.....................................................................................20 2.1. Ứng dụng của BI trong lĩnh vực ngân hàng........................................................20 2.1.1. Công nghệ BI trong các hoạt động ngân hàng.................................................20 2.1.2. Một số ứng dụng BI trong lĩnh vực ngân hàng...............................................21 2.2. Bài toán thẩm định tài sản bảo đảm trong hệ thống ngân hàng..............................22 2.2.1. Giới thiệu về thẩm định tài sản bảo đảm..........................................................22 2.2.2. Quy trình thẩm định giá tài sản bảo đảm.........................................................23 2.2.3. Phương pháp so sánh trực tiếp trong bước định giá giá trị của tài sản.............25 CHƯƠNG 3: PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG BI HỖ TRỢ THẨM ĐỊNH TÀI SẢN BẢO ĐẢM TRONG NGÂN HÀNG.......................................................................27 3.1.Phát biểu bài toán....................................................................................................27 3.2. Áp dụng thuật toán K-Nearest Neighbors (KNN) và thuật toán hồi quy tuyến tính đa biến trong quyết định giá..........................................................................................31 3.2.1. Sử dụng thuật toán K-Nearest Neighbors (KNN) để dự đoán giá trị tài sản thẩm định.33 3.2.2. Dự đoán giá trị tài sản qua phương pháp hồi quy tuyến tính đa biến...............35 3.2.3. Kết hợp thuật toán KNN và hồi quy tuyến tính đa biến...................................37 3.3. Thiết kế ứng dụng..................................................................................................39 3.3.1. Module ETL....................................................................................................39 3.3.2. Module Thẩm định tài sản...............................................................................40 3.4. Xây dựng và triển khai...........................................................................................56 3.4.1. Xây dựng Database..........................................................................................56 3.4.2. Xây dựng mô hình ứng dụng...........................................................................60 CHƯƠNG 4: CÀI ĐẶT VÀ KẾT QUẢ..........................................................................62 4.1.Cài đặt..................................................................................................................... 62 4.2. Kết quả...................................................................................................................63 4.2.1. Chức năng quản lý thông tin hồ sơ thẩm định.................................................63 4.2.2. Chức năng Cập nhật thông tin chung của hồ sơ...............................................64 4.2.3. Cập nhật thông tin pháp lý của hồ sơ...............................................................65 4.2.4. Cập nhật thông tin tài sản bảo đảm..................................................................66 4.2.5. Cập nhật thông tin kết luận của báo cáo thẩm định..........................................67 4.2.6. Thuyết minh giá...............................................................................................68 4.2.7. So sánh kết quả thực nghiệm trên Web thẩm định và phần mềm Weka.........70 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN........................................................................72 Kết luận........................................................................................................................ 72 Hướng phát triển...........................................................................................................73 TÀI LIỆU THAM KHẢO................................................................................................74 PHỤ LỤC 1...................................................................................................................... 75 DANH MỤC KÍ HIỆU VÀ CHỮ VIẾT TẮT BI Business Intelligence BĐS Bất động sản CHCC Căn hộ chung cư CSDL Cơ sở dữ liệu CVQHKH Chuyên viên quan hệ khách hàng CVTĐ Chuyên viên thẩm định DW Data Warehouse ĐS Động sản ĐVKD Đơn vị kinh doanh ETL Extract - Transform - Load ESS Explained sum of squares OLAP Online Analytical Processing OLTP Online Transaction Processing HS Hồ sơ RSS Residual sum of squares SĐT Số điện thoại SQL Structured Query Language KD Kinh doanh KS Khảo sát KNN K Nearest Neighbor TĐ Thẩm định TS Tài sản TSBĐ Tài sản bảo đảm TSS Total Sum of Squares TSSS Tài sản so sánh TSTĐ Tài sản thẩm định TGĐ Tổng giám đốc UBND Ủy ban nhân dân DANH MỤC HÌNH VẼ Hình 1- 1: Các thành phần chính trong một hệ thống BI [13]............................................5 Hình 1- 2: Chu kỳ của phân tích BI [13]............................................................................6 Hình 1- 3: Các pha phát triển một hệ thống BI [13]...........................................................8 Hình 1- 4: Kiến trúc và các tính năng của một kho dữ liệu [13].......................................10 Hình 1- 5: Quy trình khai phá dữ liệu[13]..........................................................................1 Hình 2- 1: Quy trình thẩm định tài sản bào đảm trong ngân hàng [6]..............................23 Y Hình 3- 1: Dữ liệu thẩm định thông tin BĐS....................................................................29 Hình 3- 2: Dữ liệu thẩm định BĐS qua tiền xử lý............................................................30 Hình 3- 3: Kết quả trích chọn thuộc tính sử dụng weka...................................................31 Hình 3- 4:Kết quả phân tích hồi quy tuyến tính ví dụ thẩm định đất................................36 Hình 3- 5: Mô hình thiết kế ứng dụng thẩm định tài sản bảo đảm....................................39 Hình 3- 6: Biểu đồ Use Case module Thẩm định tài sản..................................................41 Hình 3- 7:Lược đồ dữ liệu thông tin hồ sơ thẩm định......................................................56 Hình 3- 8: Lược đồ dữ liệu thông tin tài sản BĐS- Đất....................................................58 Hình 3- 9: Lược đồ dữ liệu thông tin báo cáo thẩm định tài sản bảo đảm........................59 Hình 3- 10:Mô hình ứng dụng..........................................................................................60 Hình 4- 1: Chức năng Quản lý hồ sơ................................................................................64 Hình 4- 2: Cập nhật thông tin chung của hồ sơ................................................................64 Hình 4- 3: Cập nhật thông tin pháp lý của tài sản trong hồ sơ thẩm định.........................65 Hình 4- 4: Cập nhật thông tin tài sản bảo đảm - Bất động sản.........................................66 Hình 4- 5: Kết luận của báo cáo thẩm định tài sản...........................................................67 Hình 4- 6: Thuyết minh giá..............................................................................................69 DANH MỤC BẢ Bảng 3- 1: Ví dụ số liệu mua bán tài sản đất....................................................................32 Bảng 3- 2: Tính toán và sắp xếp giá trị của tài sản theo khoảng cách tăng dần................34 Bảng 3- 3: Giá trị các tài sản so sánh...............................................................................37 Bảng 3- 4: So sánh hai phương pháp KNN và hồi quy tuyến tính đa biến.......................37 Y Bảng 4- 1: Kết quả thử nghiệm hai phương pháp.............................................................70 1 MỞ ĐẦU Lý do chọn đề tài Ngân hàng là tổ chức hoạt động mang tính chất lợi nhuận. Mọi hoạt động của ngân hàng đều hướng tới hiệu quả kinh tế, tìm cách phân tán và giảm thiểu rủi ro. Trong hoạt động cho vay hoặc cấp tín dụng ngân hàng đã có những biện pháp nhằm đảm bảo cho nguồn vốn của ngân hàng sinh lợi nhuận và an toàn. Tài sản đảm bảo là một trong những biện pháp đó. Tài sản bảo đảm của khách hàng có thể là: nhà đất, sạp chợ, phương tiện, công cụ, hàng hóa... Mức tiền khách hàng mong muốn vay hoặc quyết định cấp tín dụng có được chấp nhận hay không thông qua khâu định giá tài sản bảo đảm mà khách hàng đang có và muốn thế chấp. Quá trình thẩm định giá phải trải qua rất nhiều bước và hồ sơ thẩm định sẽ được luân chuyển qua nhiều phòng ban, vị trí. Trong các bước thẩm định, việc báo cáo thẩm định giá là một khâu phức tạp và cần phải được tính toán cẩn thận. Cán bộ thẩm định phải nêu được giá trị thị trường hay phi thị trường của tài sản thẩm định. Sau đó tại phần lập luận để ra mức giá cuối cùng, cán bộ thẩm định phải tính toán tỷ lệ điều chỉnh phù hợp với mục đích thẩm định. Sẽ đơn giản hơn nếu có một công cụ hỗ trợ cán bộ đưa ra được mức giá có thể cho vay dựa trên các hồ sơ thẩm định trong lịch sử hay từ các nguồn dữ liệu được cập nhật thường xuyên trên thị trường. Xuất phát từ tình hình thực tế đó, luận văn nghiên cứu giải pháp công nghệ Trí tuệ nghiệp vụ (Business Intelligence - BI) để giải quyết bài toán hỗ trợ ra quyết định giá tài sản bảo đảm của ngân hàng. Mục tiêu của đề tài Trong khuôn khổ luận văn này, tôi nghiên cứu kiến thức về Data Warehouse, Data Mining, Trí tuệ nghiệp vụ để thiết kế và xây dựng một hệ thống thẩm định giá tài sản bảo đảm (TSBĐ). Trong đó luận văn sẽ tập trung vào các phương pháp hồi quy trong BI để giải quyết bài toán thuyết minh giá cho TSBĐ. Hỗ trợ nhân viên thẩm định khai thác dữ liệu lịch sử về thẩm định đã thành công được lưu trữ trong hệ thống ngân hàng trước đó, để tìm ra được các tài sản so sánh (TSSS) có các yếu tố tương đồng nhất với TSTĐ bằng phương pháp K láng giềng gần nhất. Và hỗ trợ đưa ra quyết định về mức giá thẩm định TSBĐ trong quá trình ước lượng giá trị tài sản từ tập các TSSS có các yếu tố tương đồng với TSTĐ đã được thẩm định trước đó bằng phương pháp hồi quy tuyến tính đa biến. Phần mềm thẩm định tài sản bảo đảm sẽ hỗ trợ người dùng quản lý các hồ sơ thẩm định có liên quan đến mình. Xử lý và luân chuyển hồ sơ nhanh chóng, chính xác thông 2 tin giữa các bộ phận trong hệ thống thẩm định. Đặc biệt nó sẽ có ý nghĩa đối với các chuyên viên thẩm định chưa có nhiều kinh nghiệm. Họ sẽ có thể đưa ra tỷ lệ điều chỉnh giá và mức ước lượng giá chính xác hơn, dựa trên các thông tin phân tích từ nguồn dữ liệu đầy đủ trong hệ thống phần mềm… Đóng góp của luận văn Luận văn đã trình bày về quy trình thẩm định tài sản bảo đảm, các phương pháp định giá đối với từng loại tài sản và đưa ra một số các khó khăn của các chuyên viên thẩm định trong quá trình thu thập thông tin tài sản dùng để so sánh và ước lượng giá trị của tài sản thẩm định. Luận văn đã thiết kế một kho dữ liệu dùng để lưu trữ các thông tin của hồ sơ thẩm định. Dùng làm nguồn tài nguyên cho việc phân tích, định giá tài sản, tạo các báo cáo theo từng yêu cầu nghiệp vụ. Đồng thời đưa ra giải pháp kết hợp các phương pháp hồi quy: K láng giềng gần nhất và hồi quy tuyến tính đa biến vào khâu định giá tài sản thẩm định bằng phương pháp so sánh. Để đưa ra được một kết quả định giá chính xác và dễ dàng hơn đối với chuyên viên thẩm định. Hệ thống thẩm định tài sản sẽ giúp người dùng giảm thiều thời gian tìm kiếm, thu thập và nâng cao kết quả phân tích, định giá tài sản. Đồng thời giúp công việc quản lý thông tin hồ sơ thẩm định, tài liệu liên quan đến hồ sơ một cách hiệu quả, dễ dàng. Xử lý hồ sơ một cách linh hoạt và thuận tiện hơn. Các tính năng và lợi ích của hệ thống thẩm định tài sản bảo đảm: - - - - Chức năng ETL: Chức năng thu thập, xử lý dữ liệu và lưu trữ các thông tin liên quan đến hồ sơ thẩm định vào trong kho dữ liệu. Làm nguồn tài nguyên hữu ích cho thuyết minh giá, tạo báo cáo. Thông qua: Import trực tiếp file hồ sơ thẩm định trên trang web. Hoặc service tự động download-select-convert-import file từ một thư mục lưu trữ file hồ sơ được thu thập về từ các hệ thống thẩm định giá của liên ngân hàng gửi về. Quản lý hồ sơ: Quản lý danh sách hồ sơ có liên quan đến người dùng, thuộc quyền quản lý của người dùng. Nhằm hỗ trợ người dùng theo dõi tiến trình xử lý của hồ sơ và lựa chọn các tính năng xử lý hồ sơ thuộc trách nhiệm và quyền của mình. Cập nhật thông tin hồ sơ: Khai báo các thông tin cơ bản của hồ sơ thẩm định. Bao gồm: Thông tin chung về tài sản bảo đảm, thông tin khách hàng, thông tin liên quan đến hồ sơ thẩm định, thông tin về thành phần thẩm định. Cập nhật danh sách tài sản thẩm định: Cập nhật các thông tin liên quan đến tài sản dùng để định giá và theo dõi danh sách tài sản được thẩm định để đưa vào làm tài sản bảo đảm trong mỗi hồ sơ thẩm định. 3 - Lập báo cáo thẩm định: Tạo báo cáo thẩm định cho tài sản. Lựa chọn phương pháp định giá phù hợp với tài sản để đưa ra được chi phí dự kiến cho tài sản. Thuyết minh giá: Cho người dùng tìm kiếm các tài sản so sánh có các yếu tố tương đồng nhất với các thông tin tài sản người dùng nhập. Khai thác dữ liệu thẩm định lịch sử để đưa ra được mô hình tuyến tính đa biến và giá gợi ý cho tài sản. Cấu trúc của luận văn Luận văn này sẽ được trình bày theo bố cục như sau: - - - - - Mở đầu: Giới thiệu về đề tài, mục tiêu và tổ chức của luận văn. Chương 1: Cơ sở lý thuyết. Chương này sẽ giới thiệu tổng quan về Business Intelligence, Data Warehouse, Data Mining. Chương 2: Bài toán ứng dụng BI trong hỗ trợ thẩm định tài sản bảo đảm của ngân hàng. Chương này trình bày tổng quan về bài toán thẩm định tài sản bảo đảm trong ngân hàng. Giới thiệu giải pháp trí tuệ nghiệp vụ và ứng dụng trong lĩnh vực ngân hàng. Chương 3: Phân tích và thiết kế hệ thống BI hỗ trợ thẩm định tài sản bảo đảm trong ngân hàng. Chương này phát biểu yêu cầu của bài toán trong phạm vị thực hiện của luận văn. Mô tả việc áp dụng các phương pháp hồi quy trong ước lượng giá trị tài sản. Thiết kế kho dữ liệu hồ sơ thẩm định. Chương 4: Cài đặt và kết quả. Chương này sẽ trình bày cách cấu hình, cài đặt và kết quả xây dựng web thẩm định tài sản bảo đảm. Kết luận và hướng phát triển. 4 CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 1.1. Giới thiệu về Trí tuệ nghiệp vụ (Business Intelligence) 1.1.1. Khái niệm Trí tuệ nghiệp vụ (BI) là một giải pháp công nghệ khai thác dữ liệu từ các nguồn dữ liệu khác nhau, từ các hệ thống tác nghiệp khác nhau, thông qua các mô hình toán học, các kỹ thuật khai phá dữ liệu để xử lý thành các thông tin hữu ích nhằm hỗ trợ ra quyết định kinh doanh hiệu quả. [13] Mục đích của hệ thống BI là biến đổi dữ liệu từ kho dữ liệu hoặc khối dữ liệu chủ đề thành các thông tin và tri thức hữu ích, thông qua các ứng dụng mô hình toán học và các thuật toán. Từ việc tổng hợp và phân tích thông tin tri thức, doanh nghiệp có thể đưa ra được các chiến lược, hành động hiệu quả. Việc áp dụng các hệ thống BI là một cách tiếp cận hợp lý và khoa học của các doanh nghiệp và các tổ chức phức tạp trong vấn đề quản lý. Ví dụ: Doanh nghiệp có thể dựa trên một bảng tính để dự đoán sự biến động của lãi suất ảnh hưởng đến ngân sách như thế nào. Điều này sẽ thúc đẩy họ tạo ra một thể hiện mới về các dòng phát triển của tài chính. Cách tiếp cận điển hình của các nhà phân tích BI có thể được tóm tắt như sau: - Bước 1: Cần xác định các mục tiêu của phân tích và các chỉ số sẽ được sử dụng để đánh giá các lựa chọn thay thế đã được xác định. - Bước 2: Phát triển các mô tình toán học bằng cách khai thác các mối quan hệ giữa các biến điều khiển hệ thống, các tham số và các chỉ số đánh giá. - Cuối cùng: Phân tích, đánh giá tính hiệu quả của hiệu suất được xác định bởi các biến điều khiển và các tham số thay đổi. 1.1.2. Kiến trúc và thành phần của BI Kiến trúc của BI gồm 3 thành phần chính [13]: - Nguồn dữ liệu (Data sources): Nguồn dữ liệu được thu thập, chuẩn hóa và tích hợp từ nhiều nguồn khác nhau, không đồng nhất về cách tổ chức và loại dữ liệu. Phần lớn dữ liệu được lấy từ các hệ thống hoạt động của doanh nghiệp, cũng có thể lấy từ tài liệu phi cấu trúc như thư điện tử và các dữ liệu từ các nhà cung cấp bên ngoài. - Kho dữ liệu và khối dữ liệu chủ đề (Data warehouse/Data mart): Sử dụng các công cụ chiết xuất và chuyển đổi dữ liệu được biết đến như công cụ ETL, dữ liệu được tổ chức từ các nguồn khác nhau sẽ được lưu trữ trong các cơ sơ dữ liệu để cung cấp cho việc phân tích trong hệ thống trí tuệ nghiệp vụ. - Các phương pháp luận của BI: Dữ liệu được trích xuất và sử dụng cho các mô hình toán học, các phương pháp phân tích. Nhằm hỗ trợ ra quyết định của doanh 5 nghiệp. Trong một hệ thống BI, một vài ứng dụng hỗ trợ ra quyết định sẽ được cài đặt như: o Phân tích cube nhiều chiều. o Phân tích dữ liệu thăm dò. o Phân tích theo chuỗi thời gian. o Các mô hình học máy quy nạp trong khai phá dữ liệu. o Các mô hình tối ưu hóa. Các thành phần chính trong một hệ thống BI được thể hiện như sau: Qu yếết địn h Tốếi ưu hóa Khai phá dữ liệu Thăm dò dữ liệu Kho dữ liệu/khốếi dữ liệu Nguốồn dữ liệu Dữ liệu từ các hệ thốếng, tài liệu và dữ liệu m ở r ộng Hình 1- 1: Các thành phần chính trong một hệ thống BI [13] - Các nguồn dữ liệu và kho dữ liệu/ khối dữ liệu: Là các thành phần chính trong hệ thống BI. Lưu trữ các thông tin hữu ích cho việc khai phá tri thức. - Thăm dò dữ liệu (Data exploration): Bao gồm các công cụ thực hiện việc phân tích một cách bị động như: các hệ thống báo cáo, thống kê. Người ra quyết định đặt ra các giả thuyết hoặc các tiêu chí trích xuất dữ liệu, sau đó sử dụng công cụ để tìm ra câu trả lời. - Khai phá dữ liệu (Data minning): Bao gồm các phương pháp luận trọng các hoạt động của BI, với mục đích là khai thác thông tin và tri thức từ dữ liệu: Các mô hình toán học để nhận dạng máy, học máy và các công cụ khai phá dữ liệu. Không giống như các công cụ được mô tả ở các tầng trước của kim tự tháp, các mô hình này thuộc loại chủ động hơn, không yêu cầu người ra quyết định xây dựng các giả thuyết và tiêu chí trước. Mục đích là mở rộng tri thức cho các chuyên gia ra quyết định. Các kỹ thuật có thể được dùng như: phân loại (classification), phân cụm (clustering), phát hiện luật kết hợp (association rule), dự đoán (prediction)… 6 - Tối ưu hóa (Optimization): Cho phép xác định giải pháp tốt nhất trong một tập các giải pháp đưa ra. - Quyết định (Decisions): Sau khi đã lựa chọn phương án tốt nhất, người sử dụng sẽ đưa ra quyết định cuối cùng. Khi đi từ dưới lên trên kim tự tháp, các hệ thống BI sẽ cần được cung cấc các công cụ hỗ trợ nâng cao hơn theo từng hoạt động. Thậm chí là thay đổi luật và quyền. 1.1.2.1 Chu kỳ của một phân tích BI Mỗi phân tích BI sẽ theo một lĩnh vực ứng dụng riêng, phụ thuộc vào mục tiêu của người ra quyết định và các phương pháp phân tích có sẵn. Tuy nhiên, có thể đưa ra được một chu kỳ lý tưởng đặc trưng cho sự tiến hóa của một phân tích BI điển hình như hình 1-2, mặc dù vẫn tồn tại sự khác biệt dựa trên đặc thù của từng ngữ cảnh cụ thể. Phân tch Nhận thức Đánh giá Quyếết định Hình 1- 2: Chu kỳ của phân tích BI [13] Phân tích (Analysis): Trong giai đoạn phân tích, cần phải nhận biết chính xác các vấn đề đang xảy ra. Người quyết định phải tạo một thể hiện ý tưởng của hiện tượng đang được phân tích, bằng cách xác định các nhân tố liên quan nhất. Trong giai đoạn này các phương pháp luận BI sẽ được sử dụng, cho phép các nhà quyết định thực hiện nhanh chóng các dò xét khác nhau, bằng việc đặt ra một số câu hỏi để thu được các phản hồi nhanh chóng thông qua các phương pháp tương tác. Nhận thức (Insight): Trong giai đoạn thứ hai này cho phép các nhà ra quyết định hiểu một cách sâu và rõ ràng hơn các vấn đề hiện tại, thường ở mức độ nhân quả. Một mặt, việc khai thác tri thức có thể xảy ra theo trực giác của người ra quyết định, dựa trên kinh nghiệm của họ và có thể là trên các thông tin phi cấu trúc có sẵn. Mặt khác, các mô hình học máy quy nạp cũng có thể chứng minh là rất hữu ích trong giai đoạn phân tích này, đặc biệt áp dụng cho dữ liệu có cấu trúc. 7 Quyết định (Decision): Trong pha thứ ba, tri thức thu được là kết quả của pha nhận thức được chuyển thành các quyết định và thứ tự hành động. Các phương pháp luận BI cho phép pha phân tích và nhận thức thực hiện nhanh chóng để đưa ra được quyết định hiệu quả hơn và kịp thời phù hợp với các chiến lược ưu tiên của một tổ chức. Vì vậy tổng thời gian thực hiện của chu trình phân tích- quyết định- hành động- sửa đổi sẽ giảm và quá trình ra quyết định sẽ đạt chất lượng tốt hơn. Đánh giá (Evaluation): Cuối cùng là pha thứ tư của chu trình BI liên quan đến phép đo hiệu suất và đánh giá. Các số liệu mở rộng không chỉ giới hạn trong các khía cạnh tài chính mà còn tính đến chỉ số hiệu suất được xác định theo phòng ban khác nhau của công ty. 1.1.2.2 Phát triển một hệ thống BI Việc phát triển một hệ thống BI giống như là phát triển một dự án, với một mục tiêu cụ thể, thời gian phát triển và chi phí dự kiến, sử dụng và điều phối nguồn lực cần thiết để thực hiện kế hoạch. Hình 1-3 thể hiện một loại chu kỳ phát triển một hệ thống BI. 8 Phân tch Xác định các yếu câồu nghiệp vụ Kiếến trúc tổng thể Thiếết kếế Lập kếế hoạch vĩ mố cho dự án Lập kếế hoạch Đặc tả chi tếết dự án Xác định các mố hình toán học Xác định nguốồn dữ liệu định nghĩa kho dữ liệu, khốếi d ữ li ệu Xây dựng nguyến mâẫu Cài đặt và kiểm tra Xây dựng kho dữ liệu, khốếi dữ liệu chủ đếồ Xây dựng metadata Xây dựng ứng dụng Phát hành và kiểm thử Xây dựng module ETL Hình 1- 3: Các pha phát triển một hệ thống BI [13] Phân tích (Analysis): Xác định các nhu cầu liên quan đến việc phát triển một hệ thống BI của tổ chức. Thông qua một loạt các buổi phỏng vấn các nhân viên có các vai trò và hoạt động khác nhau trong tổ chức. Mô tả rõ ràng các mục tiêu chung và các ưu tiên của dự án, đưa ra các chi phí và trợ cấp phát sinh từ việc phát triển hệ thống BI. Thiết kế (Design): Nhằm mục đích đưa ra một kế hoạch tạm thời về kiến trúc tổng thể, có tính đến bất kỳ sự phát triển nào trong tương lai gần và sự phát triển của hệ thống trong giai đoạn giữa. Bao gồm hai giai đoạn:  Đầu tiên là đánh giá các cơ sở hạ tầng thông tin đã có và phải kiểm tra các quy trình ra quyết định chính cần được hệ thống BI hỗ trợ để xác định đầy đủ các thông tin yêu cầu. 9  Sau đó, sử dụng các phương pháp quản lý dự án để đưa ra kế hoạch của dự án, xác định các giai đoạn phát triển, các ưu tiên, thời gian và chi phí dự kiến, các vai trò và nguồn lực cần thiết. Lập kế hoạch (Planning): Xác định và mô tả chi tiết hơn các tính năng của hệ thống BI.  Đánh giá nguồn dữ liệu hiện có, dữ liệu được truy xuất từ bên ngoài. Điều này cho phép xây dựng cấu trúc thông tin của hệ thống BI, bao gồm một kho dữ liệu trung tâm và có thể có nhiều khối dữ liệu đi kèm.  Cần xác định các mô hình toán học được áp dụng, đảm bảo tính sẵn có của các dữ liệu cần thiết cho mỗi mô hình và xác định hiệu quả của các thuật toán có phù hợp với mức độ kết quả các vấn đề.  Cuối cùng, tạo một hệ thống với chi phí thấp và khả năng giới hạn, để phát hiện ra bất kỳ sự khác biệt giữa nhu cầu thực tế và các dự án cụ thể. Cài đặt và kiểm tra (Implementation and control): Gồm có 5 giai đoạn chính:  Đầu tiên là phát triển kho dữ liệu và khối dữ liệu cụ thể. Đây là những cơ sở hạ tầng thông tin sẽ cung cấp cho hệ thống BI.  Thứ hai là tạo ra một metadata để giải thích ý nghĩa của dữ liệu lưu trữ trong kho dữ liệu và áp dụng các phép biến đổi dữ liệu chính.  Thứ ba là thiết lập các thủ tục ETL để thu thập và chuẩn hóa dữ liệu đã tồn tại trong các nguồn tài nguyên chính, nạp chúng vào trong kho dữ liệu và các khối dữ liệu.  Bước tiếp theo là phát triển các ứng dụng core của BI để thực hiện các phân tích kế hoạch.  Cuối cùng, hệ thống được phát hành để thử nghiệm và sử dụng. 1.2.Giới thiệu về Data Warehouse 1.2.1. Khái niệm Data Warehouse (DW) là nơi lưu trữ dữ liệu có giá trị cho việc xây dựng các kiến trúc BI và các hệ thống hỗ trợ quyết định. Một định nghĩa DW thể hiện toàn bộ các hoạt động liên quan đến nhau, tham gia vào việc thiết kế, phát triển và sử dụng một DW. [13] Kho dữ liệu được xây dựng để tiện lợi cho việc truy cập theo nhiều nguồn, nhiều kiểu dữ liệu khác nhau sao cho có thể kết hợp được cả những ứng dụng của các công nghệ hiện đại và kế thừa được từ những hệ thống đã có sẵn từ trước. Các đặc tính của kho dữ liệu: 10 - - Hướng chủ đề: Kho dữ liệu được thiết kế để phục vụ cho một mục đích phân tích dữ liệu hướng tới một chủ đề nào đó. Có thể là: Khách hàng, sản phẩm, bán hàng… Giúp người dùng xác định được các thông tin cần thiết trong hoạt động của mình và loại bỏ những thông tin không cần thiết. Tích hợp: Dữ liệu được tập hợp từ nhiều nguồn khác nhau: cơ sở dữ liệu Oracle, SQLserver, files… cần phải thực hiện việc làm sạch, sắp xếp, rút gọn dữ liệu. Biến đổi theo thời gian: Mỗi dữ liê ̣u trong kho dữ liê ̣u đều được gắn với thời gian và có tính lịch sử. Ổn định: Được lấy từ nhiều nguồn dữ liê ̣u của hê ̣ thống tác nghiê ̣p có sẵn. Nó tách rời vâ ̣t lý với môi trường tác nghiê ̣p,nên dữ liê ̣u trong kho dữ liê ̣u là dữ liê ̣u chỉ đọc, không được sửa bởi người dùng cuối. 1.2.2.Kiến trúc của Data Warehouse Các kiến trúc tham chiếu của một kho dữ liệu được thể hiện như sau [13]: Metadata Xuâết nhập khẩu Dữ liệu các hệ thốếng Kinh doanh Kho dữ liệu Cube đa chiếồu Phân tch thăm dò dữ liệu Phân tch chuốẫi thời gian Khai giá dữ liệu Tốếi ưu hóa Đánh giá hiệu suâết Dữ liệu ngoài Cống cụ ETL OLAP Hình 1- 4: Kiến trúc và các tính năng của một kho dữ liệu [13] - Kho dữ liệu kết hợp với các metadata chứa dữ liệu và các chức năng cho phép dữ liệu được truy cập, hình tượng hóa và cập nhật. - Các ứng dụng thu thập dữ liệu từ hệ thống nghiệp vụ, chuẩn hóa dữ liệu về dạng dữ liệu đa chiều, nạp vào kho dữ liệu (ETL) hoặc các công cụ back-end cho phép dữ liệu được chiết xuất, chuyển đổi và tải vào kho dữ liệu. - Các ứng dụng BI và hệ thống ra quyết định như là các front-end, cho phép các nhà tri thức thực hiện các phân tích và trực quan hóa các kết quả. Một kho dữ liệu có thể được phát triển theo các kiểu thiết kế: top-down (từ trên xuống), bottom-up (từ dưới lên) và mixed (hỗn hợp hai phương pháp) 11 - Top - down: Phương pháp top-down dựa trên thiết kế tổng thể của kho dữ liệu. Thời gian phát triển dài hơn và rủi ro không hoàn thành theo lập lịch cao hơn, khi toàn bộ kho dữ liệu được phát triển trên thực tế. - Bottom-up: Phương pháp này dựa trên việc sử dụng các nguyên mẫu và do đó phần mở rộng hệ thống được thực hiện theo từng bước của kế hoạch. Cách tiếp cận này thường nhanh hơn, cung cấp nhiều kết quả hữu hình hơn, nhưng lại thiếu một tầm nhìn tổng thể của toàn bộ hệ thống đang được phát triển. - Mixed: Phương pháp này dựa trên thiết kế tổng thể của kho dữ liệu, nhưng sau đó tiến hành theo cách tiếp cận các nguyên mẫu, bằng cách thực hiện tuần tự các phần khác nhau của toàn bộ hệ thống. Cách tiếp cận này thực tiễn hơn và thích hợp hơn, vì nó cho phép các bước nhỏ đã được kiểm soát để được thực hiện trong khi luôn ghi nhớ tới toàn bộ hình ảnh. Hai thành phần quan trọng tạo nên kho dữ liệu là: - Các công cụ ETL: Là các công cụ phần mềm sử dụng để thực hiện tự động hóa ba tính năng chính sau: Khai thác, chuyển đổi và nạp dữ liệu vào trong kho dữ liệu. o Khai thác: Dữ liệu được trích xuất từ các nguồn dữ liệu bên trong và mở rộng có sẵn. Việc lựa chọn dữ liệu để cập nhật vào dựa trên thiết kế kho dữ liệu, phụ thuộc vào thông tin được đưa ra bởi các hệ thống phân tích nghiệp vụ kinh doanh và hỗ trợ ra quyết định hoạt động trong một miền ứng dụng cụ thể. o Chuyển đổi: Cải tiến chất lượng dữ liệu được chiết xuất từ các nguồn dữ liệu khác nhau, thông qua việc hiệu chỉnh tính không nhất quán, không chính xác và thiếu giá trị. o Nạp dữ liệu: Dữ liệu được nạp vào trong các bảng của kho dữ liệu, tạo ra các dữ liệu có giá trị cho các ứng dụng phân tích và hỗ trợ quyết định. - Metadata (Siêu dữ liệu): Ghi lại ý nghĩa của dữ liệu trong kho dữ liệu. Được chia làm hai nhóm là siêu dữ liệu nghiệp vụ và siêu dữ liệu kỹ thuật. o Siêu dữ liệu nghiệp vụ mô tả ý nghĩa dữ liệu, các luật và ràng buộc tác động. o Siêu dữ liệu kỹ thuật mô tả cách thức tổ chức, lưu trữ và điều khiển dữ liệu trong hệ thống máy tính. 1.2.3.Xây dựng Data warehouse Việc thiết kế kho dữ liệu và dữ liệu mô tả dựa trên mô hình dữ liệu đa chiều. Về mặt chức năng mô hình có thể đảm bảo thời gian phản hồi nhanh, thậm chí đối với câu lệnh truy vấn phức tạp. Về mặt logic người dùng có thể nhìn dữ liệu theo nhiều khía cạnh khác nhau.
- Xem thêm -

Tài liệu liên quan