Tài liệu Phát triển một số phương pháp nhận diện và phân tích rủi ro theo hướng tiếp cận gom cụm mờ

.PDF

135

thanhphoquetoi Báo vi phạm

Tải xuống 91

Mô tả:

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN ĐOÀN HUẤN PHÁT TRIỂN MỘT SỐ PHƯƠNG PHÁP NHẬN DIỆN VÀ PHÂN TÍCH RỦI RO THEO HƯỚNG TIẾP CẬN GOM CỤM MỜ CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 62 48 01 01 LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS NGUYỄN ĐÌNH THUÂN PGS. TS HỒ BẢO QUỐC PHẢN BIỆN ĐỘC LẬP: 1. PGS. TS NGUYỄN ĐỨC DŨNG 2. PGS. TS LÊ HOÀNG THÁI TP HỒ CHÍ MINH NĂM 2019 LỜI CAM ĐOAN Tôi cam đoan rằng đây là công trình nghiên cứu của bản thân tôi. Các kết quả nghiên cứu, các dữ liệu và kết luận trong luận án là trung thực và không sao chép từ bất kỳ một nguồn nào khác và dưới bất kỳ hình thức nào. Việc tham khảo các nguồn tài liệu đã được thực hiện trích dẫn theo đúng qui định. Tp. HCM, Ngày 02 tháng 10 năm 2019 Tác giả luận án Đoàn Huấn LỜI CẢM ƠN Tôi xin bày tỏ lòng biết ơn sâu sắc đến PGS. TS Nguyễn Đình Thuân, PGS. TS Hồ Bảo Quốc, Hai thầy đã tận tình hướng dẫn, định hướng và động viên tôi vượt qua các khó khăn trong học thuật để hoàn thành luận án này. Tôi xin chân thành cảm ơn Ban giám hiệu, các thầy cô của trường Đại học Công nghệ Thông tin - Đại học Quốc gia Tp Hồ Chí Minh, Khoa Khoa học máy tính, Khoa Hệ thống Thông tin, Phòng Đào tạo Sau Đại học và Khoa học Công nghệ đã giúp đỡ, hỗ trợ tôi trong quá trình nghiên cứu, học tập tại Trường. Tôi gửi lời cảm ơn đến các chuyên gia Công ty Chứng khoán Bản Việt (VietCapital) đã tư vấn về lĩnh vực quản lý rủi ro làm cơ sở cho việc nghiên cứu. Tôi cũng gửi lời cảm ơn đến Ban Tổng Giám đốc Công ty Hồng Ký đã cho phép tôi sử dụng tài liệu, dữ liệu từ cơ sở dữ liệu của hệ thống phần mềm EnterERP để tiến hành các thực nghiệm trong luận án. Kính dâng luận án lên Người cha quá cố và Người mẹ đã sinh thành và dưỡng dục tôi. Thân tặng luận án này cho vợ, các con cùng các em trong gia đình và chú tôi thay cho lời cảm ơn vì đã động viên, giúp đỡ tôi rất nhiều trong thời gian dài nghiên cứu thực hiện luận án. Sài gòn, Đầu mùa hè năm 2018 Tác giả luận án Đoàn Huấn MỤC LỤC DANH MỤC HÌNH ..................................................................................................iv DANH MỤC BẢNG .................................................................................................vi DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT...................................... viii CHƯƠNG 1 TỔNG QUAN ..................................................................................1 1.1 Dẫn nhập.......................................................................................................1 1.2 Động cơ nghiên cứu .....................................................................................2 1.3 Mục tiêu nghiên cứu .....................................................................................4 1.4 Phạm vi nghiên cứu và qui ước ....................................................................5 1.5 Đóng góp chính của luận án .........................................................................6 1.6 Tầm quan trọng của nghiên cứu ...................................................................8 1.7 Bố cục của luận án........................................................................................8 CHƯƠNG 2 2.1 RỦI RO VÀ BÀI TOÁN QUẢN LÝ RỦI RO ............................10 Rủi ro ..........................................................................................................10 2.1.1 Sơ lược về lịch sử của quản lý rủi ro ..................................................10 2.1.2 Định nghĩa rủi ro ................................................................................10 2.2 Bài toán quản lý rủi ro trong tổ chức, doanh nghiệp ..................................11 2.2.1 Định nghĩa về quản lý rủi ro ...............................................................11 2.2.2 Phân loại rủi ro trong tổ chức, doanh nghiệp ....................................11 2.2.3 Các tiêu chuẩn quản lý rủi ro .............................................................13 2.2.4 Các giai đoạn của quá trình quản lý rủi ro ........................................14 2.2.5 Các kỹ thuật nhận diện rủi ro và phân tích rủi ro truyền thống .........15 2.3 Bài toán quản lý rủi ro bằng các kỹ thuật của ngành Khoa học máy tính ..17 2.3.1 Phân loại rủi ro trong nghiên cứu quản lý rủi ro bằng các kỹ thuật của ngành Khoa học máy tính ...........................................................................17 2.3.2 Tình hình nghiên cứu bài toán quản lý rủi ro bằng các kỹ thuật của ngành Khoa học máy tính ..................................................................................18 2.3.3 Tóm tắt và một số phân tích đánh giá .................................................23 2.4 Tóm lược và tổng hợp các phương pháp nhận diện và phân tích rủi ro .....25 2.5 Một số lựa chọn làm cơ sở nghiên cứu của luận án ...................................26 2.5.1 Chọn loại rủi ro phù hợp để tiến hành nghiên cứu.............................26 2.5.2 Chọn giai đoạn phù hợp của quá trình quản lý rủi ro để tiến hành nghiên cứu..........................................................................................................27 2.5.3 Chọn kỹ thuật của ngành Khoa học máy tính phù hợp cho bài toán quản lý rủi ro .....................................................................................................28 2.6 Kết luận chương .........................................................................................30 CHƯƠNG 3 ĐỀ XUẤT MỘT FRAMEWORK VÀ XÂY DỰNG MỘT SỐ PHƯƠNG PHÁP NHẬN DIỆN VÀ PHÂN TÍCH RỦI RO TIỀM ẨN TRONG DỮ LIỆU 31 3.1 Giới thiệu ....................................................................................................31 3.2 Đề xuất lưu đồ nhận diện và phân tích rủi ro dựa trên các kỹ thuật khám phá tri thức .............................................................................................................32 3.3 Đề xuất framework nhận diện và phân tích rủi ro tiềm ẩn trong dữ liệu ...34 3.4 Xây dựng phương pháp nhận diện và phân tích rủi ro rõ ...........................35 3.4.1 Xây dựng định nghĩa rủi ro rõ ............................................................35 3.4.2 Một ví dụ minh họa của hàm xác định rủi ro rõ f(oi) .........................36 3.4.3 Xây dựng phương pháp nhận diện và phân tích rủi ro rõ ..................37 3.5 Xây dựng phương pháp nhận diện và phân tích rủi ro mờ .........................42 3.5.1 Xây dựng định nghĩa rủi ro mờ ...........................................................42 3.5.2 Hàm thành viên cho tập rủi ro mờ H ..................................................43 3.5.3 Xây dựng phương pháp nhận diện và phân tích rủi ro mờ .................44 3.6 Kết luận chương .........................................................................................49 CHƯƠNG 4 PHÁT TRIỂN MỘT SỐ THUẬT TOÁN GOM CỤM MỜ HỖ TRỢ CHO VIỆC PHÂN TÍCH RỦI RO ..............................................................50 4.1 Phát triển thuật toán gom cụm mờ FCM-E ................................................50 4.1.1 Giới thiệu ............................................................................................50 4.1.2 Khảo sát một số phương pháp xác định số lượng cụm .......................51 4.1.3 Một số khái niệm .................................................................................53 4.1.4 Xây dựng các hệ số và phân tích ........................................................54 4.1.5 Xây dựng thuật toán mới FCM-E .......................................................57 4.1.6 Đánh giá độ phức tạp tính toán của thuật toán FCM-E .....................59 4.1.7 Thực nghiệm thuật toán FCM-E .........................................................60 4.1.8 So sánh đánh giá chỉ số 𝜸 của thuật toán FCM-E..............................64 ii 4.2 Xây dựng độ đo mức độ rủi ro để xếp hạng các cụm và Phát triển thuật toán gom cụm mờ FCM-R.....................................................................................67 4.2.1 Giới thiệu ............................................................................................67 4.2.2 Xây dựng một độ đo xếp hạng rủi ro của các cụm và tích hợp vào thuật toán gom cụm ...........................................................................................69 4.2.3 Tích hợp độ đo mức độ rủi ro để xây dựng thuật toán gom cụm mờ...... FCM-R hỗ trợ phân tích rủi ro ..........................................................................70 4.2.4 Đánh giá độ phức tạp tính toán của thuật toán FCM-R .....................72 4.2.5 Thực nghiệm thuật toán cải tiến FCM-R ............................................73 4.3 Kết luận chương .........................................................................................73 CHƯƠNG 5 THỰC NGHIỆM CÁC PHƯƠNG PHÁP NHẬN DIỆN VÀ PHÂN TÍCH RỦI RO TIỀM ẨN TRONG DỮ LIỆU .........................................75 5.1 Giới thiệu ....................................................................................................75 5.2 Thực nghiệm trên tập dữ liệu thực của doanh nghiệp ................................75 5.2.1 Thực nghiệm phương pháp nhận diện và phân tích rủi ro rõ .............75 5.2.2 Thực nghiệm phương pháp nhận diện và phân tích rủi ro mờ ...........85 5.3 Thực nghiệm trên tập dữ liệu UCI Machine Learning Repository ............96 5.4 Kết luận chương .......................................................................................106 CHƯƠNG 6 KẾT LUẬN ..................................................................................107 6.1 Kết luận ....................................................................................................107 6.2 Hướng phát triển .......................................................................................110 DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ ...........................................112 TÀI LIỆU THAM KHẢO ....................................................................................114 PHỤ LỤC 1: THƯ XÁC NHẬN CUNG CẤP Ý KIẾN VỀ QUẢN LÝ RỦI RO .................................................................................................................................121 PHỤ LỤC 2: GIẤY PHÉP SỬ DỤNG DỮ LIỆU ..............................................123 iii DANH MỤC HÌNH Hình 2.1. Mô tả quá trình quản lý rủi ro theo ISO 31000 [1] ...................................... 13 Hình 2.2. Mô tả quá trình quản lý rủi ro theo COSO 2004 [2] .................................... 14 Hình 2.3. Phân loại rủi ro theo các tác giả Tsumoto và Hong [11] .............................. 18 Hình 2.4. Sơ đồ tóm lược và tổng hợp các phương pháp nhận diện và phân tích rủi ro truyền thống và bằng các kỹ thuật của ngành Khoa học máy tính ........................... 26 Hình 2.5. Hai mô hình chính của khai phá dữ liệu [38] ............................................... 29 Hình 3.1. Lưu đồ nhận diện và phân tích rủi ro bằng các kỹ thuật khám phá tri thức . 33 Hình 3.2. Framework nhận diện và phân tích rủi ro tiềm ẩn trong dữ liệu .................. 34 Hình 3.3. Lưu đồ mô tả việc xây dựng phương pháp nhận diện và phân tích rủi ro rõ.................................................................................................................................... 40 Hình 3.4. Sơ đồ mô tả các bước thực hiện của phương pháp nhận diện và phân tích rủi ro rõ .......................................................................................................................... 41 Hình 3.5. Lưu đồ mô tả việc xây dựng phương pháp nhận diện và phân tích rủi ro mờ dựa trên framework đề xuất .................................................................................... 47 Hình 3.6. Sơ đồ mô tả các bước thực hiện của phương pháp nhận diện và phân tích rủi ro mờ ........................................................................................................................ 48 Hình 4.1. Hình dáng của cụm trong không gian hai chiều ........................................... 54 Hình 4.2. Thuật toán FCM-E ........................................................................................ 58 Hình 4.3. Đồ thị 𝛾(c) của tập dữ liệu Iris ..................................................................... 61 Hình 4.4. Đồ thị 𝛾(c) của tập dữ liệu Wine .................................................................. 62 Hình 4.5. Đồ thị 𝛾(c) của tập dữ liệu Breast Cancer Wisconsin .................................. 63 Hình 4.6. Đồ thị 𝛾(c) của tập dữ liệu normalized Glass ............................................... 64 Hình 4.7. So sánh kết quả chỉ số 𝛾 của phương pháp đề xuất trong luận án với các chỉ số đánh giá việc gom cụm của Zalik trên Iris ......................................................... 66 Hình 4.8. So sánh kết quả chỉ số 𝛾 của phương pháp đề xuất trong luận án với các chỉ số đánh giá việc gom cụm của Zalik trên normalized Glass ................................... 67 Hình 4.9. Thuật toán FCM-R ....................................................................................... 71 Hình 5.1. Cây quyết định với rủi ro thanh toán công nợ phải thu của khách hàng ...... 80 iv Hình 5.2. Sơ đồ chỉ số  chỉ ra số cụm thích hợp là 4 ................................................. 81 Hình 5.3. Sơ đồ chỉ vị trí số cụm thích hợp của chỉ số VPBMF...................................... 85 Hình 5.4. Hàm thành viên dạng hình thang trái ........................................................... 87 Hình 5.5. Sơ đồ chỉ vị trí số cụm thích hợp của FCM-R.............................................. 92 Hình 5.6. Sơ đồ chỉ vị trí số cụm thích hợp của chỉ số VPBMF...................................... 96 Hình 5.7. Cây quyết định từ tập dữ liệu huấn luyện..................................................... 99 Hình 5.8. Sơ đồ chỉ số  chỉ ra số cụm thích hợp là 8 ............................................... 101 v DANH MỤC BẢNG Bảng 2.1. Bảng phân loại rủi ro theo Jasmin Harvey và cộng sự [24] ......................... 12 Bảng 2.2. Các kỹ thuật nhận diện, phân tích và đánh giá rủi ro [27] [28] [29] [30]. ... 15 Bảng 2.3. Tóm tắt các công trình nhận diện hoặc phân tích rủi ro bằng các kỹ thuật của ngành Khoa học máy tính ....................................................................................... 24 Bảng 3.1. Bảng dữ liệu các đối tượng khách hàng với các thuộc tính liên quan rủi ro thanh toán công nợ phải thu đã gán nhãn rủi ro ............................................................ 37 Bảng 3.2. Biến ngôn ngữ, các giá trị và miền giá trị của nó ........................................ 44 Bảng 4.1. Bảng thống kê giá trị 𝛾 với tập dữ liệu Iris .................................................. 60 Bảng 4.2. Trọng số của các thuộc tính của tập dữ liệu Wine ....................................... 61 Bảng 4.3. Bảng thống kê giá trị 𝛾 với tập dữ liệu Wine ............................................... 61 Bảng 4.4. Trọng số của các thuộc tính của tập dữ liệu Breast Cancer Wisconsin ....... 62 Bảng 4.5. Bảng thống kê giá trị 𝛾 với tập dữ liệu Breast Cancer Wisconsin ............... 62 Bảng 4.6. Trọng số của các thuộc tính của tập dữ liệu normalized Glass .................... 63 Bảng 4.7. Bảng thống kê giá trị 𝛾 với tập dữ liệu normalized Glass............................ 64 Bảng 4.8. So sánh kết quả của phương pháp đề xuất và của H. Capitaine và C. Frélicot .......................................................................................................................... 65 Bảng 4.9. So sánh kết quả của phương pháp đề xuất 𝛾 và của Yan M. và Ye K. ........ 66 Bảng 5.1. Tỷ lệ phân lớp đúng của các kỹ thuật........................................................... 78 Bảng 5.2. Các cụm khách hàng được xếp hạng theo độ đo mức độ rủi ro từ cao đến thấp ................................................................................................................................ 83 Bảng 5.3. Kết quả tính toán chỉ số VPBMF ..................................................................... 84 Bảng 5.4. Bảng dữ liệu các đối tượng khách hàng với các thuộc tính liên quan rủi ro thanh toán công nợ phải thu chưa gán nhãn rủi ro ........................................................ 86 Bảng 5.5. Bảng mô tả các biến ngôn ngữ, các tập mờ, miền giá trị và khoảng cận biên ................................................................................................................................ 87 Bảng 5.6. Các đối tượng khách hàng sau khi đã xác định mức độ rủi ro và lưu vào thuộc tính Risk .............................................................................................................. 91 Bảng 5.7. Các cụm được xếp hạng theo độ đo mức độ rủi ro từ cao đến thấp ............. 94 vi Bảng 5.8. Kết quả tính toán chỉ số VPBMF ..................................................................... 95 Bảng 5.9. Mô tả các thuộc tính của tập dữ liệu: default of credit card clients ............. 97 Bảng 5.10. Mô tả độ chính xác của thuật toán cây quyết định ................................... 100 Bảng 5.11. Các cụm khách hàng được xếp hạng theo độ đo mức độ rủi ro từ cao đến thấp ....................................................................................................................... 101 Bảng 5.12. Bảng tổng hợp việc phân tích và đánh giá rủi ro của các cụm khách hàng theo độ đo mức độ rủi ro từ cao đến thấp ........................................................... 105 vii DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT Từ viết tắt Thay cho cụm từ Ý nghĩa AI Artificial Intelligence Trí tuệ nhân tạo BIC Bayesian Information Criteria Tiêu chuẩn thông tin Bayes CIMA The Chartered Institute of Hiệp hội Kế toán quản trị Management Accountants công chứng Anh Quốc The Committee of Sponsoring Ủy ban Kiểm soát nội bộ về Organizations of the Treadway báo cáo tài chính COSO Commission CRM Customer Relationship Management Quản lý quan hệ khách hàng CSDL Database Cơ sở dữ liệu EM Expectation Maximization ERP Enterprise Resource Planning Hoạch định nguồn lực doanh nghiệp FCM Thuật toán gom cụm mờ Fuzzy C-Means C-Means FCM-E Fuzzy C-Means Extended Thuật toán gom cụm mờ C-Means mở rộng FCM-R Thuật toán gom cụm mờ Fuzzy C-Means Rank C-Means mở rộng có xếp hạng FMEA Failure Modes Effects Analysis GMDH Group Method of Data Handling Phương pháp nhóm về xử lý dữ liệu GMM Gaussian Mixture Model GP Genetic Programming HAZOP Hazard and Operability studies IRM The Institute of Risk Management Giải thuật di truyền viii Viện quản lý rủi ro International Organization Tổ chức tiêu chuẩn hóa for Standardization quốc tế LR Logistic Regression Hồi qui logicstic MDL Minimum Description Length ML Machine Learning Học máy MLFF Multilayer Feed Forward Neural Mạng nơ ron chuyển tiếp đa Network lớp ISO NCS PESTLE Nghiên cứu sinh Political Economic Social Technological Legal Environmental Mạng nơ ron xác suất PNN Probabilistic Neural Network RFM Recency, Frequency and Monetary SVM Support Vector Machines Máy véc tơ hỗ trợ SWOT Strengths Weaknesses Phân tích điểm mạnh điểm Opportunities Threats yếu cơ hội và thách thức World Trade Organization Tổ chức thương mại thế giới WTO ix CHƯƠNG 1 TỔNG QUAN 1.1 Dẫn nhập Quản lý rủi ro là một trong những nhiệm vụ quan trọng hàng đầu của các tổ chức, doanh nghiệp. Mục đích của việc quản lý rủi ro là để ngăn ngừa, kiểm soát, giảm tối thiểu các thiệt hại do các sự kiện tiêu cực gây ra và tận dụng tối đa các cơ hội do các sự kiện tích cực mang lại. Tuy nhiên, rất khó để việc quản lý rủi ro đạt được mục đích đề ra, nếu không có phương pháp đúng đắn. Chính vì vậy, các nhà khoa học và một số tổ chức quốc tế đã nghiên cứu, xây dựng các bộ tiêu chuẩn để hỗ trợ, hướng dẫn các tổ chức, doanh nghiệp trong việc quản lý rủi ro. Tiêu biểu là hai bộ tiêu chuẩn ISO 31000 [1] và COSO 2004 [2], trong đó đưa ra những nguyên tắc và các bước nhằm định hướng, chỉ đạo cho quá trình quản lý rủi ro. Bộ tiêu chuẩn ISO 31000 thiết lập năm giai đoạn chính cho quá trình quản lý rủi ro, trong đó có hai giai đoạn quan trọng là: 1) Nhận diện rủi ro, 2) Phân tích rủi ro [1]. Tại mỗi giai đoạn, trong quá trình quản lý rủi ro của các bộ tiêu chuẩn trên, các doanh nghiệp tùy theo hoàn cảnh cụ thể mà có thể có những cách thức thực hiện khác nhau, sao cho phù hợp với điều kiện hiện có của mình. Ví dụ, Bharathy và McShane [3] đề xuất một giải pháp ứng dụng bộ tiêu chuẩn của ISO 31000 trong việc quản lý rủi ro doanh nghiệp, trong đó ở giai đoạn "nhận diện rủi ro", họ sử dụng kết hợp các kỹ thuật xác định rủi ro như điều tra, phỏng vấn, hội thảo, HAZOP,... còn trong giai đoạn "phân tích rủi ro", các rủi ro quan trọng được sàn lọc để xử lý dựa trên một phân tích chủ quan ban đầu về tác động và khả năng ảnh hưởng của chúng. Đây là một ví dụ điển hình của phương pháp quản lý rủi ro truyền thống trong doanh nghiệp. Các bước tiến hành theo phương pháp truyền thống như ở ví dụ vừa nêu trên thường làm mất nhiều thời gian, công sức và phụ thuộc rất nhiều vào các quyết định có thể mang tính chủ quan của con người. Trong bối cảnh các ngành khoa học, nhất là ngành Khoa học máy tính phát triển vượt bậc như hiện nay, một câu hỏi nghiên cứu đặt ra là: liệu có thể phát triển và ứng dụng các kỹ thuật hiện đại của ngành này như Trí tuệ nhân tạo hay Máy học để 1 xây dựng các phương pháp mới nhằm hỗ trợ các tổ chức, doanh nghiệp trong việc quản lý rủi ro tốt hơn hay không ? Kết quả nghiên cứu về vấn đề đặt ra ở câu hỏi trên nếu thực hiện được sẽ giúp ích rất nhiều cho các tổ chức, doanh nghiệp trong việc quản lý rủi ro. 1.2 Động cơ nghiên cứu Quản lý rủi ro có vai trò quyết định đến sự tồn tại và phát triển của các tổ chức, doanh nghiệp nên nhận được nhiều sự quan tâm nghiên cứu của các nhà khoa học, nhà quản lý. Hiện nay, với xu hướng toàn cầu hóa và hội nhập quốc tế ngày càng sâu rộng, nhiều cơ hội sẽ được tạo ra, đi cùng với nó cũng sẽ có nhiều thách thức và rủi ro. Thực tế đó, làm cho việc tìm kiếm các phương pháp mới và hiệu quả để hỗ trợ cho việc quản lý rủi ro trong các doanh nghiệp càng thu hút được nhiều sự chú ý. Mặc dù vậy, theo đánh giá của Bromiley và các cộng sự [4], có thể nói những thành tựu đạt được của các phương pháp quản lý rủi ro trong doanh nghiệp nói chung vẫn còn ở mức sơ khởi và điều đó cho thấy đây thực sự là một lĩnh vực mới, một bài toán nghiên cứu mới đầy hấp dẫn. Do đó, việc tìm lời giải cho bài toán này vẫn là mảnh đất màu mỡ cho các nhà khoa học, các nhà nghiên cứu khai thác. Ngày nay, do sự tích hợp, tương tác lẫn nhau mà nhiều lĩnh vực không còn bó hẹp nghiên cứu chỉ trong chuyên ngành của mình mà cần có sự phối hợp nghiên cứu đa ngành. Sự phát triển và thâm nhập ngày càng sâu rộng của công nghệ thông tin vào rất nhiều ngành khác nhau đã tạo ra những lĩnh vực nghiên cứu đa ngành như tin học quản lý, tin sinh học, ... Trong xu hướng chung đó, đã có những nghiên cứu của ngành Khoa học máy tính tìm cách ứng dụng các công cụ của ngành này để hỗ trợ cho việc quản lý rủi ro trong các doanh nghiệp, từ lĩnh vực bán lẻ [5], điện năng [6], hoặc tài chính [7] [8] [9] [10], cho đến việc đề xuất những ý tưởng lớn như xây dựng một ngành khoa học mới về rủi ro. Trong [11] đặt vấn đề: “Có chăng có một hướng tiếp cận thông tin tổng quát hóa đối với rủi ro bằng cách sử dụng các kỹ thuật dựa vào dữ liệu, điều mà dẫn đến một lĩnh vực mới ‘khoa học rủi ro’ như được đề xuất bởi Tsumoto và các cộng sự trong [12]”. Tuy nhiên, việc đề xuất ngành “khoa học rủi ro” này, cho đến nay cũng mới chỉ là một ý tưởng mà để hiện thực được nó 2 đòi hỏi phải mất rất nhiều thời gian cũng như sự nỗ lực nghiên cứu và đóng góp công sức của nhiều nhà khoa học trên thế giới. Như vậy, đã có sự thâm nhập của ngành Khoa học máy tính vào bài toán quản lý rủi ro, tuy nhiên, đó cũng chỉ là ở những bước khởi đầu nên cần phải có sự quan tâm nghiên cứu nhiều hơn nữa. Để giải quyết hai giai đoạn quan trọng của bài toán quản lý rủi ro là nhận diện rủi ro và phân tích rủi ro, các tổ chức, doanh nghiệp thường sử dụng các phương pháp như điều tra, phỏng vấn, hội thảo, HAZOP, SWOT, … [3] [13] [14]. Đây là cách làm truyền thống dựa chủ yếu vào việc con người tự thu thập thông tin và tự đưa ra quyết định. Ví dụ, phương pháp SWOT được nhóm tác giả Team FME [15] cho là phổ biến và uyên bác nhưng họ cũng đánh giá là nó bao gồm nhiều quyết định chủ quan tại mỗi giai đoạn. Trong thực tế hiện nay thường sẵn có một nguồn dữ liệu lớn, phong phú, ghi nhận các hoạt động của doanh nghiệp trong CSDL của các hệ thống phần mềm quản lý như ERP, CRM1, ... có thể khai thác thành thông tin, tri thức nhất là thông tin về rủi ro nằm tiềm ẩn trong đó. Tuy nhiên, nếu áp dụng cách làm truyền thống để nhận diện và phân tích rủi ro của các đối tượng được lưu trữ trong các CSDL có lượng dữ liệu lớn này sẽ rất khó khăn. Khoa học máy tính, đặc biệt là các kỹ thuật trí tuệ nhân tạo ở nhánh máy học như kỹ thuật khai phá dữ liệu và khám phá tri thức từ dữ liệu có khả năng rất mạnh trong việc tìm kiếm thông tin, tri thức nói chung, thông tin về rủi ro nói riêng nằm tiềm ẩn trong dữ liệu lớn. Nên có thể nói đây là khoảng trống dành cho việc phát triển, cải tiến và ứng dụng các kỹ thuật này để xây dựng các công cụ, các phương pháp mới hỗ trợ cho việc nhận diện và phân tích rủi ro trong doanh nghiệp. Ngoài ra, trong một báo cáo điều tra thực hiện vào tháng 8 năm 2013, The Economist Intelligence Unit [16] cho rằng các phân tích cao cấp và dựa vào dữ liệu lớn đóng vai trò rất quan trọng trong quản lý rủi ro; các kỹ thuật hướng dữ liệu ngày càng mạnh mẽ sẽ làm quản lý rủi ro hiệu quả hơn, hỗ trợ tốt hơn cho các nhà quản lý và giám đốc điều hành. Như vậy, việc phát triển, cải tiến các kỹ thuật hướng dữ liệu và ứng dụng chúng vào bài toán quản lý rủi ro mà cụ thể hơn là nhận diện và phân tích rủi ro là một thách thức được đặt 1 ERP: Enterprise Resource Planning, CRM: Customs Relationship Management 3 ra và là một yêu cầu cần thiết của thực tiễn nhằm mục đích trả lời câu hỏi: “Trong cơ sở dữ liệu sẵn có của doanh nghiệp lưu trữ một số lượng lớn dữ liệu về các đối tượng, vậy những đối tượng này tiềm ẩn loại rủi ro gì và có thể nhận diện và phân tích nó không?” Quản lý rủi ro là một bài toán có nhiều thách thức vì nó phụ thuộc vào rất nhiều yếu tố, bởi vậy tùy theo lĩnh vực mà tổ chức, doanh nghiệp hoạt động, tùy theo qui mô, qui trình quản lý mà độ phức tạp cũng có thể khác nhau. Wu và Olson [17] nhận định rằng sự phức tạp và không chắc chắn trong nhiều vấn đề thực tế của bài toán này đòi hỏi phải có những phương pháp mới và công cụ mới. Rõ ràng những yêu cầu, đòi hỏi của thực tế làm cho bài toán quản lý rủi ro trở thành mảnh đất màu mỡ, trong khi đó các nhà nghiên cứu cũng chỉ mới đặt những bước chân khám phá khởi đầu lên đó, nên mảnh đất này vẫn còn nhiều tiềm năng to lớn cho việc nghiên cứu phát triển, cải tiến và ứng dụng các kỹ thuật hiện đại của ngành Khoa học máy tính như khai phá dữ liệu, khám phá tri thức từ dữ liệu, … để xây dựng các phương pháp mới hỗ trợ cho các tổ chức, doanh nghiệp trong việc quản lý rủi ro đặc biệt là nhận diện và phân tích rủi ro. 1.3 Mục tiêu nghiên cứu Mục tiêu chung của luận án là nghiên cứu, phát triển và ứng dụng các kỹ thuật của ngành Khoa học máy tính vào bài toán nhận diện và phân tích rủi ro. Từ mục tiêu chung đó, luận án đưa ra các mục tiêu nghiên cứu cụ thể sau: 1) Đề xuất framework dựa trên các kỹ thuật của ngành Khoa học máy tính như khai phá dữ liệu và khám phá tri thức từ dữ liệu để làm cơ sở định hướng chung cho việc xây dựng các phương pháp nhận diện và phân tích các đối tượng rủi ro nằm tiềm ẩn trong dữ liệu. 2) Xây dựng một số phương pháp nhận diện và phân tích các đối tượng rủi ro nằm tiềm ẩn trong dữ liệu dựa trên framework đã đề xuất. Cụ thể đó là phương pháp 4 nhận diện và phân tích các đối tượng rủi ro rõ và phương pháp nhận diện và phân tích các đối tượng rủi ro mờ. 3) Phát triển một số thuật toán trong lĩnh vực khai phá dữ liệu và khám phá tri thức như thuật toán gom cụm mờ nhằm hỗ trợ cho việc xây dựng các phương pháp nhận diện và phân tích các đối tượng rủi ro nằm tiềm ẩn trong dữ liệu. Việc hiện thực cụ thể của các mục tiêu trên được trình bày trong các chương sau của luận án. 1.4 Phạm vi nghiên cứu và qui ước Vì độ phủ quá rộng của bài toán quản lý rủi ro và các vấn đề liên quan nên trong phần này sẽ xác định rõ các phạm vi nghiên cứu và một số qui ước của luận án: - Trong luận án khi đề cập đến các phương pháp, các kỹ thuật truyền thống để quản lý rủi ro hay nhận diện và phân tích rủi ro là nói đến các phương pháp, các kỹ thuật không sử dụng các công cụ của ngành Khoa học máy tính. Ở chiều ngược lại là các phương pháp có sử dụng các kỹ thuật của ngành này. - Khái niệm phân tích có thể được hiểu theo nhiều ý nghĩa và mức độ khác nhau, trong luận án này việc phân tích rủi ro sử dụng các kỹ thuật của ngành Khoa học máy tính được hiểu như sau: với một tập dữ liệu các đối tượng rủi ro, việc phân tích rủi ro trước hết là tự động xác định số lượng cụm thích hợp với tập dữ liệu, tiếp theo là gom cụm các đối tượng theo số lượng cụm đã xác định và cuối cùng là xếp hạng các cụm thu được theo một độ đo mức độ rủi ro từ cao đến thấp. - Framework nhận diện và phân tích các đối tượng rủi ro được xây dựng trong luận án được hiểu như là cấu trúc của một hệ thống2 nhằm định hướng cho việc xây dựng các phương pháp nhận diện và phân tích các đối tượng rủi ro tiềm ẩn trong dữ liệu bằng các kỹ thuật của ngành Khoa học máy tính. Cấu trúc của hệ Oxford Learner’s Dictionaries: Framework is the structure of a particular system (truy xuất: 30/07/2018) https://www.oxfordlearnersdictionaries.com/definition/english/framework?q=framework 2 5 thống này gồm có hai mô hình: dự báo và mô tả, trong đó mô hình dự báo để nhận diện; còn mô hình mô tả để phân tích. Trong mô hình dự báo có thể lắp vào các kỹ thuật dự báo như các thuật toán phân lớp, logic mờ,… còn trong mô hình mô tả có thể lắp vào các kỹ thuật phân tích dữ liệu như thuật toán gom cụm. - Luận án chỉ nghiên cứu phát triển và ứng dụng các kỹ thuật của ngành Khoa học máy tính, chủ yếu là các kỹ thuật khai phá dữ liệu và khám phá tri thức từ CSDL (từ đây gọi tắt là khám phá tri thức từ dữ liệu) để xây dựng các phương pháp nhận diện và phân tích các đối tượng rủi ro nằm tiềm ẩn trong dữ liệu. Do khai phá dữ liệu là giai đoạn chính và không thể thiếu của quá trình khám phá tri thức nên trong luận án này khi dùng thuật ngữ kỹ thuật khám phá tri thức có thể đã bao hàm kỹ thuật khai phá dữ liệu. - Do hạn chế về nguồn dữ liệu và thời gian, trong luận án mới chỉ tìm hiểu việc nhận diện và phân tích rủi ro tiềm ẩn trong dữ liệu của các doanh nghiệp và tổ chức tài chính với các loại rủi ro sau: rủi ro công nợ phải thu của khách hàng, rủi ro thẻ tín dụng. Đây là các dạng của rủi ro tài chính, tuy nhiên, có thể nghiên cứu triển khai, áp dụng các phương pháp đề xuất trong luận án một cách tương tự cho các loại rủi ro khác. 1.5 Đóng góp chính của luận án Dựa trên các kết quả nghiên cứu đã đạt được, các đóng góp chính của luận án được tóm tắt như sau: 1) Đề xuất một framework nhận diện và phân tích rủi ro tiềm ẩn trong dữ liệu dựa trên các kỹ thuật của ngành Khoa học máy tính. Framework này là một cấu trúc chung định hướng cho việc xây dựng các phương pháp nhận diện và phân tích rủi ro và bao gồm hai giai đoạn: nhận diện rủi ro và phân tích rủi ro. Kết quả đạt được của việc đề xuất framework này đáp ứng cho mục tiêu 1) của luận án và được công bố trong [CT2]. 6 2) Dựa trên framework đề xuất, xây dựng phương pháp nhận diện và phân tích rủi ro rõ bằng cách phát triển và ứng dụng các kỹ thuật khai phá dữ liệu và khám phá tri thức từ dữ liệu đặc biệt là thuật toán gom cụm mờ. Phương pháp này sử dụng thích hợp cho trường hợp các đối tượng được phân vào lớp rủi ro rõ. Kết quả thu được từ phương pháp sẽ giúp nhận diện và phân tích các đối tượng rủi ro nằm tiềm ẩn trong dữ liệu nhằm hỗ trợ cho các tổ chức, doanh nghiệp trong quản lý rủi ro. Việc xây dựng phương pháp này đáp ứng một phần cho mục tiêu 2) của luận án và được công bố trong [CT2], [CT4]. 3) Xây dựng phương pháp nhận diện và phân tích rủi ro mờ bằng cách tích hợp logic mờ cùng với việc phát triển và ứng dụng thuật toán gom cụm mờ. Phương pháp này sử dụng thích hợp cho trường hợp các đối tượng được phân vào lớp rủi ro mờ. Kết quả thu được từ phương pháp sẽ giúp nhận diện và phân tích các đối tượng rủi ro mờ nằm tiềm ẩn trong dữ liệu nhằm hỗ trợ cho các tổ chức, doanh nghiệp trong quản lý rủi ro. Việc xây dựng phương pháp này đáp ứng phần còn lại cho mục tiêu 2) của luận án và được công bố trong [CT3], [CT5]. 4) Phát triển thuật toán gom cụm mờ cải tiến FCM-E bằng cách nghiên cứu, xây dựng chỉ số tự động xác định số lượng cụm thích hợp của tập dữ liệu và tích hợp vào thuật toán FCM. Chỉ số tự động xác định số lượng cụm thích hợp được thiết lập từ các hệ số bên trong cụm, phản ánh hình dáng cụm và các hệ số bên ngoài cụm, phản ánh khoảng cách giữa các cụm. Thuật toán này là cơ sở quan trọng để xây dựng FCM-R, là thuật toán được sử dụng để phân tích rủi ro. Việc phát triển thuật toán cải tiến FCM-E đáp ứng một phần cho mục tiêu 3) của luận án và được công bố trong [CT1],[CT6]. 5) Phát triển thuật toán gom cụm mờ cải tiến FCM-R bằng cách nghiên cứu, xây dựng một độ đo xếp hạng mức độ rủi ro của các cụm thu được sau quá trình gom cụm và tích hợp vào thuật toán FCM-E. Thuật toán mới FCM-R, nhờ việc bổ sung thêm độ đo xếp hạng mức độ rủi ro sẽ vừa có khả năng tự động xác định số lượng cụm thích hợp, vừa có khả năng xếp hạng các cụm thu được theo 7 độ đo mức độ rủi ro trong quá trình gom cụm, là nền tảng quan trọng trong việc xây dựng các phương pháp nhận diện và phân tích rủi ro trong luận án. Việc phát triển thuật toán cải tiến FCM-R đáp ứng phần còn lại cho mục tiêu 3) của luận án và được công bố trong [CT2], [CT4]. 1.6 Tầm quan trọng của nghiên cứu Trong môi trường hoạt động càng có tính cạnh tranh và rủi ro cao, thì vai trò của quản lý rủi ro càng được các tổ chức, doanh nghiệp coi trọng. Kenett và Raanan [18] cho rằng quản lý rủi ro đang trở thành chìa khóa cạnh tranh chính đối với các tổ chức trong tất cả các ngành công nghiệp. Trong quá trình quản lý rủi ro có hai giai đoạn quan trọng là nhận diện rủi ro và phân tích rủi ro. Do đó, để nâng cao tính cạnh tranh, các tổ chức, doanh nghiệp ngoài việc áp dụng các phương pháp truyền thống, cũng cần phải nghiên cứu ứng dụng các kỹ thuật hiện đại để xây dựng các phương pháp nhận diện rủi ro và phân tích rủi ro mới nhằm hỗ trợ tốt cho việc quản lý rủi ro. Các kỹ thuật thông minh như khai phá dữ liệu và khám phá tri thức từ dữ liệu ở nhánh máy học của trí tuệ nhân tạo là một gợi ý tốt cho trường hợp này. Hiện nay, với xu thế số hóa ngày càng phát triển mạnh mẽ, hầu hết các hoạt động của doanh nghiệp nhất là các hoạt động tài chính đều được ghi nhận vào CSDL nên việc quản lý rủi ro, trong đó có rủi ro tài chính tiềm ẩn trong CSDL ngày càng nhận được nhiều sự quan tâm. Chính vì vậy, việc đề xuất một framework làm cơ sở để từ đó xây dựng các phương pháp nhận diện và phân tích rủi ro, đặc biệt là rủi ro tài chính tiềm ẩn trong dữ liệu, dựa trên việc phát triển và ứng dụng các kỹ thuật như khai phá dữ liệu và khám phá tri thức trong đó có thuật toán gom cụm mờ có ý nghĩa quan trọng trong ứng dụng thực tiễn. 1.7 Bố cục của luận án Luận án được tổ chức thành 6 chương như sau: Chương 1. Giới thiệu tổng quan về luận án bao gồm việc trình bày dẫn nhập, động cơ nghiên cứu, mục tiêu nghiên cứu, phạm vi nghiên cứu, các đóng góp chính của luận án, tầm quan trọng của nghiên cứu và bố cục của luận án. 8

- Xem thêm -

Tài liệu Phát triển một số phương pháp nhận diện và phân tích rủi ro theo hướng tiếp cận gom cụm mờ

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất