ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
ĐOÀN HUẤN
PHÁT TRIỂN MỘT SỐ PHƯƠNG PHÁP NHẬN DIỆN
VÀ PHÂN TÍCH RỦI RO THEO HƯỚNG TIẾP CẬN
GOM CỤM MỜ
CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
MÃ SỐ: 62 48 01 01
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS NGUYỄN ĐÌNH THUÂN
PGS. TS HỒ BẢO QUỐC
PHẢN BIỆN ĐỘC LẬP: 1. PGS. TS NGUYỄN ĐỨC DŨNG
2. PGS. TS LÊ HOÀNG THÁI
TP HỒ CHÍ MINH NĂM 2019
LỜI CAM ĐOAN
Tôi cam đoan rằng đây là công trình
nghiên cứu của bản thân tôi. Các kết quả
nghiên cứu, các dữ liệu và kết luận trong luận án
là trung thực và không sao chép từ bất kỳ một nguồn
nào khác và dưới bất kỳ hình thức nào. Việc tham khảo các
nguồn tài liệu đã được thực hiện trích dẫn theo đúng qui định.
Tp. HCM, Ngày 02 tháng 10 năm 2019
Tác giả luận án
Đoàn Huấn
LỜI CẢM ƠN
Tôi xin bày tỏ lòng biết ơn sâu sắc đến
PGS. TS Nguyễn Đình Thuân, PGS. TS Hồ Bảo Quốc,
Hai thầy đã tận tình hướng dẫn, định hướng và động viên tôi
vượt qua các khó khăn trong học thuật để hoàn thành luận án này.
Tôi xin chân thành cảm ơn Ban giám hiệu, các thầy cô của trường Đại học Công
nghệ Thông tin - Đại học Quốc gia Tp Hồ Chí Minh, Khoa Khoa học máy tính, Khoa
Hệ thống Thông tin, Phòng Đào tạo Sau Đại học và Khoa học Công nghệ đã giúp đỡ,
hỗ trợ tôi trong quá trình nghiên cứu, học tập tại Trường.
Tôi gửi lời cảm ơn đến các chuyên gia Công ty Chứng khoán Bản Việt (VietCapital)
đã tư vấn về lĩnh vực quản lý rủi ro làm cơ sở cho việc nghiên cứu. Tôi cũng gửi lời
cảm ơn đến Ban Tổng Giám đốc Công ty Hồng Ký đã cho phép tôi sử dụng tài liệu,
dữ liệu từ cơ sở dữ liệu của hệ thống phần mềm EnterERP để tiến hành các thực
nghiệm trong luận án.
Kính dâng luận án lên Người cha quá cố và Người mẹ đã sinh thành và dưỡng dục
tôi. Thân tặng luận án này cho vợ, các con cùng các em trong gia đình và chú tôi
thay cho lời cảm ơn vì đã động viên, giúp đỡ tôi rất nhiều trong thời gian dài nghiên
cứu thực hiện luận án.
Sài gòn, Đầu mùa hè năm 2018
Tác giả luận án
Đoàn Huấn
MỤC LỤC
DANH MỤC HÌNH ..................................................................................................iv
DANH MỤC BẢNG .................................................................................................vi
DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT...................................... viii
CHƯƠNG 1
TỔNG QUAN ..................................................................................1
1.1
Dẫn nhập.......................................................................................................1
1.2
Động cơ nghiên cứu .....................................................................................2
1.3
Mục tiêu nghiên cứu .....................................................................................4
1.4
Phạm vi nghiên cứu và qui ước ....................................................................5
1.5
Đóng góp chính của luận án .........................................................................6
1.6
Tầm quan trọng của nghiên cứu ...................................................................8
1.7
Bố cục của luận án........................................................................................8
CHƯƠNG 2
2.1
RỦI RO VÀ BÀI TOÁN QUẢN LÝ RỦI RO ............................10
Rủi ro ..........................................................................................................10
2.1.1
Sơ lược về lịch sử của quản lý rủi ro ..................................................10
2.1.2
Định nghĩa rủi ro ................................................................................10
2.2
Bài toán quản lý rủi ro trong tổ chức, doanh nghiệp ..................................11
2.2.1
Định nghĩa về quản lý rủi ro ...............................................................11
2.2.2
Phân loại rủi ro trong tổ chức, doanh nghiệp ....................................11
2.2.3
Các tiêu chuẩn quản lý rủi ro .............................................................13
2.2.4
Các giai đoạn của quá trình quản lý rủi ro ........................................14
2.2.5
Các kỹ thuật nhận diện rủi ro và phân tích rủi ro truyền thống .........15
2.3
Bài toán quản lý rủi ro bằng các kỹ thuật của ngành Khoa học máy tính ..17
2.3.1
Phân loại rủi ro trong nghiên cứu quản lý rủi ro bằng các kỹ thuật
của ngành Khoa học máy tính ...........................................................................17
2.3.2
Tình hình nghiên cứu bài toán quản lý rủi ro bằng các kỹ thuật của
ngành Khoa học máy tính ..................................................................................18
2.3.3
Tóm tắt và một số phân tích đánh giá .................................................23
2.4
Tóm lược và tổng hợp các phương pháp nhận diện và phân tích rủi ro .....25
2.5
Một số lựa chọn làm cơ sở nghiên cứu của luận án ...................................26
2.5.1
Chọn loại rủi ro phù hợp để tiến hành nghiên cứu.............................26
2.5.2
Chọn giai đoạn phù hợp của quá trình quản lý rủi ro để tiến hành
nghiên cứu..........................................................................................................27
2.5.3
Chọn kỹ thuật của ngành Khoa học máy tính phù hợp cho bài toán
quản lý rủi ro .....................................................................................................28
2.6
Kết luận chương .........................................................................................30
CHƯƠNG 3 ĐỀ XUẤT MỘT FRAMEWORK VÀ XÂY DỰNG MỘT SỐ
PHƯƠNG PHÁP NHẬN DIỆN VÀ PHÂN TÍCH RỦI RO TIỀM ẨN TRONG
DỮ LIỆU
31
3.1
Giới thiệu ....................................................................................................31
3.2
Đề xuất lưu đồ nhận diện và phân tích rủi ro dựa trên các kỹ thuật khám
phá tri thức .............................................................................................................32
3.3
Đề xuất framework nhận diện và phân tích rủi ro tiềm ẩn trong dữ liệu ...34
3.4
Xây dựng phương pháp nhận diện và phân tích rủi ro rõ ...........................35
3.4.1
Xây dựng định nghĩa rủi ro rõ ............................................................35
3.4.2
Một ví dụ minh họa của hàm xác định rủi ro rõ f(oi) .........................36
3.4.3
Xây dựng phương pháp nhận diện và phân tích rủi ro rõ ..................37
3.5
Xây dựng phương pháp nhận diện và phân tích rủi ro mờ .........................42
3.5.1
Xây dựng định nghĩa rủi ro mờ ...........................................................42
3.5.2
Hàm thành viên cho tập rủi ro mờ H ..................................................43
3.5.3
Xây dựng phương pháp nhận diện và phân tích rủi ro mờ .................44
3.6
Kết luận chương .........................................................................................49
CHƯƠNG 4 PHÁT TRIỂN MỘT SỐ THUẬT TOÁN GOM CỤM MỜ HỖ
TRỢ CHO VIỆC PHÂN TÍCH RỦI RO ..............................................................50
4.1
Phát triển thuật toán gom cụm mờ FCM-E ................................................50
4.1.1
Giới thiệu ............................................................................................50
4.1.2
Khảo sát một số phương pháp xác định số lượng cụm .......................51
4.1.3
Một số khái niệm .................................................................................53
4.1.4
Xây dựng các hệ số và phân tích ........................................................54
4.1.5
Xây dựng thuật toán mới FCM-E .......................................................57
4.1.6
Đánh giá độ phức tạp tính toán của thuật toán FCM-E .....................59
4.1.7
Thực nghiệm thuật toán FCM-E .........................................................60
4.1.8
So sánh đánh giá chỉ số 𝜸 của thuật toán FCM-E..............................64
ii
4.2
Xây dựng độ đo mức độ rủi ro để xếp hạng các cụm và Phát triển thuật
toán gom cụm mờ FCM-R.....................................................................................67
4.2.1
Giới thiệu ............................................................................................67
4.2.2
Xây dựng một độ đo xếp hạng rủi ro của các cụm và tích hợp vào
thuật toán gom cụm ...........................................................................................69
4.2.3
Tích hợp độ đo mức độ rủi ro để xây dựng thuật toán gom cụm mờ......
FCM-R hỗ trợ phân tích rủi ro ..........................................................................70
4.2.4
Đánh giá độ phức tạp tính toán của thuật toán FCM-R .....................72
4.2.5
Thực nghiệm thuật toán cải tiến FCM-R ............................................73
4.3
Kết luận chương .........................................................................................73
CHƯƠNG 5 THỰC NGHIỆM CÁC PHƯƠNG PHÁP NHẬN DIỆN VÀ
PHÂN TÍCH RỦI RO TIỀM ẨN TRONG DỮ LIỆU .........................................75
5.1
Giới thiệu ....................................................................................................75
5.2
Thực nghiệm trên tập dữ liệu thực của doanh nghiệp ................................75
5.2.1
Thực nghiệm phương pháp nhận diện và phân tích rủi ro rõ .............75
5.2.2
Thực nghiệm phương pháp nhận diện và phân tích rủi ro mờ ...........85
5.3
Thực nghiệm trên tập dữ liệu UCI Machine Learning Repository ............96
5.4
Kết luận chương .......................................................................................106
CHƯƠNG 6
KẾT LUẬN ..................................................................................107
6.1
Kết luận ....................................................................................................107
6.2
Hướng phát triển .......................................................................................110
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ ...........................................112
TÀI LIỆU THAM KHẢO ....................................................................................114
PHỤ LỤC 1: THƯ XÁC NHẬN CUNG CẤP Ý KIẾN VỀ QUẢN LÝ RỦI RO
.................................................................................................................................121
PHỤ LỤC 2: GIẤY PHÉP SỬ DỤNG DỮ LIỆU ..............................................123
iii
DANH MỤC HÌNH
Hình 2.1. Mô tả quá trình quản lý rủi ro theo ISO 31000 [1] ...................................... 13
Hình 2.2. Mô tả quá trình quản lý rủi ro theo COSO 2004 [2] .................................... 14
Hình 2.3. Phân loại rủi ro theo các tác giả Tsumoto và Hong [11] .............................. 18
Hình 2.4. Sơ đồ tóm lược và tổng hợp các phương pháp nhận diện và phân tích rủi
ro truyền thống và bằng các kỹ thuật của ngành Khoa học máy tính ........................... 26
Hình 2.5. Hai mô hình chính của khai phá dữ liệu [38] ............................................... 29
Hình 3.1. Lưu đồ nhận diện và phân tích rủi ro bằng các kỹ thuật khám phá tri thức . 33
Hình 3.2. Framework nhận diện và phân tích rủi ro tiềm ẩn trong dữ liệu .................. 34
Hình 3.3. Lưu đồ mô tả việc xây dựng phương pháp nhận diện và phân tích rủi ro
rõ.................................................................................................................................... 40
Hình 3.4. Sơ đồ mô tả các bước thực hiện của phương pháp nhận diện và phân tích
rủi ro rõ .......................................................................................................................... 41
Hình 3.5. Lưu đồ mô tả việc xây dựng phương pháp nhận diện và phân tích rủi ro
mờ dựa trên framework đề xuất .................................................................................... 47
Hình 3.6. Sơ đồ mô tả các bước thực hiện của phương pháp nhận diện và phân tích
rủi ro mờ ........................................................................................................................ 48
Hình 4.1. Hình dáng của cụm trong không gian hai chiều ........................................... 54
Hình 4.2. Thuật toán FCM-E ........................................................................................ 58
Hình 4.3. Đồ thị 𝛾(c) của tập dữ liệu Iris ..................................................................... 61
Hình 4.4. Đồ thị 𝛾(c) của tập dữ liệu Wine .................................................................. 62
Hình 4.5. Đồ thị 𝛾(c) của tập dữ liệu Breast Cancer Wisconsin .................................. 63
Hình 4.6. Đồ thị 𝛾(c) của tập dữ liệu normalized Glass ............................................... 64
Hình 4.7. So sánh kết quả chỉ số 𝛾 của phương pháp đề xuất trong luận án với các
chỉ số đánh giá việc gom cụm của Zalik trên Iris ......................................................... 66
Hình 4.8. So sánh kết quả chỉ số 𝛾 của phương pháp đề xuất trong luận án với các
chỉ số đánh giá việc gom cụm của Zalik trên normalized Glass ................................... 67
Hình 4.9. Thuật toán FCM-R ....................................................................................... 71
Hình 5.1. Cây quyết định với rủi ro thanh toán công nợ phải thu của khách hàng ...... 80
iv
Hình 5.2. Sơ đồ chỉ số chỉ ra số cụm thích hợp là 4 ................................................. 81
Hình 5.3. Sơ đồ chỉ vị trí số cụm thích hợp của chỉ số VPBMF...................................... 85
Hình 5.4. Hàm thành viên dạng hình thang trái ........................................................... 87
Hình 5.5. Sơ đồ chỉ vị trí số cụm thích hợp của FCM-R.............................................. 92
Hình 5.6. Sơ đồ chỉ vị trí số cụm thích hợp của chỉ số VPBMF...................................... 96
Hình 5.7. Cây quyết định từ tập dữ liệu huấn luyện..................................................... 99
Hình 5.8. Sơ đồ chỉ số chỉ ra số cụm thích hợp là 8 ............................................... 101
v
DANH MỤC BẢNG
Bảng 2.1. Bảng phân loại rủi ro theo Jasmin Harvey và cộng sự [24] ......................... 12
Bảng 2.2. Các kỹ thuật nhận diện, phân tích và đánh giá rủi ro [27] [28] [29] [30]. ... 15
Bảng 2.3. Tóm tắt các công trình nhận diện hoặc phân tích rủi ro bằng các kỹ thuật
của ngành Khoa học máy tính ....................................................................................... 24
Bảng 3.1. Bảng dữ liệu các đối tượng khách hàng với các thuộc tính liên quan rủi ro
thanh toán công nợ phải thu đã gán nhãn rủi ro ............................................................ 37
Bảng 3.2. Biến ngôn ngữ, các giá trị và miền giá trị của nó ........................................ 44
Bảng 4.1. Bảng thống kê giá trị 𝛾 với tập dữ liệu Iris .................................................. 60
Bảng 4.2. Trọng số của các thuộc tính của tập dữ liệu Wine ....................................... 61
Bảng 4.3. Bảng thống kê giá trị 𝛾 với tập dữ liệu Wine ............................................... 61
Bảng 4.4. Trọng số của các thuộc tính của tập dữ liệu Breast Cancer Wisconsin ....... 62
Bảng 4.5. Bảng thống kê giá trị 𝛾 với tập dữ liệu Breast Cancer Wisconsin ............... 62
Bảng 4.6. Trọng số của các thuộc tính của tập dữ liệu normalized Glass .................... 63
Bảng 4.7. Bảng thống kê giá trị 𝛾 với tập dữ liệu normalized Glass............................ 64
Bảng 4.8. So sánh kết quả của phương pháp đề xuất và của H. Capitaine và C.
Frélicot .......................................................................................................................... 65
Bảng 4.9. So sánh kết quả của phương pháp đề xuất 𝛾 và của Yan M. và Ye K. ........ 66
Bảng 5.1. Tỷ lệ phân lớp đúng của các kỹ thuật........................................................... 78
Bảng 5.2. Các cụm khách hàng được xếp hạng theo độ đo mức độ rủi ro từ cao đến
thấp ................................................................................................................................ 83
Bảng 5.3. Kết quả tính toán chỉ số VPBMF ..................................................................... 84
Bảng 5.4. Bảng dữ liệu các đối tượng khách hàng với các thuộc tính liên quan rủi ro
thanh toán công nợ phải thu chưa gán nhãn rủi ro ........................................................ 86
Bảng 5.5. Bảng mô tả các biến ngôn ngữ, các tập mờ, miền giá trị và khoảng cận
biên ................................................................................................................................ 87
Bảng 5.6. Các đối tượng khách hàng sau khi đã xác định mức độ rủi ro và lưu vào
thuộc tính Risk .............................................................................................................. 91
Bảng 5.7. Các cụm được xếp hạng theo độ đo mức độ rủi ro từ cao đến thấp ............. 94
vi
Bảng 5.8. Kết quả tính toán chỉ số VPBMF ..................................................................... 95
Bảng 5.9. Mô tả các thuộc tính của tập dữ liệu: default of credit card clients ............. 97
Bảng 5.10. Mô tả độ chính xác của thuật toán cây quyết định ................................... 100
Bảng 5.11. Các cụm khách hàng được xếp hạng theo độ đo mức độ rủi ro từ cao
đến thấp ....................................................................................................................... 101
Bảng 5.12. Bảng tổng hợp việc phân tích và đánh giá rủi ro của các cụm khách
hàng theo độ đo mức độ rủi ro từ cao đến thấp ........................................................... 105
vii
DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT
Từ viết tắt
Thay cho cụm từ
Ý nghĩa
AI
Artificial Intelligence
Trí tuệ nhân tạo
BIC
Bayesian Information Criteria
Tiêu chuẩn thông tin Bayes
CIMA
The Chartered Institute of
Hiệp hội Kế toán quản trị
Management Accountants
công chứng Anh Quốc
The Committee of Sponsoring
Ủy ban Kiểm soát nội bộ về
Organizations of the Treadway
báo cáo tài chính
COSO
Commission
CRM
Customer Relationship Management
Quản lý quan hệ khách hàng
CSDL
Database
Cơ sở dữ liệu
EM
Expectation Maximization
ERP
Enterprise Resource Planning
Hoạch định nguồn lực
doanh nghiệp
FCM
Thuật toán gom cụm mờ
Fuzzy C-Means
C-Means
FCM-E
Fuzzy C-Means Extended
Thuật toán gom cụm mờ
C-Means mở rộng
FCM-R
Thuật toán gom cụm mờ
Fuzzy C-Means Rank
C-Means mở rộng có xếp
hạng
FMEA
Failure Modes Effects Analysis
GMDH
Group Method of Data Handling
Phương pháp nhóm về xử lý
dữ liệu
GMM
Gaussian Mixture Model
GP
Genetic Programming
HAZOP
Hazard and Operability studies
IRM
The Institute of Risk Management
Giải thuật di truyền
viii
Viện quản lý rủi ro
International Organization
Tổ chức tiêu chuẩn hóa
for Standardization
quốc tế
LR
Logistic Regression
Hồi qui logicstic
MDL
Minimum Description Length
ML
Machine Learning
Học máy
MLFF
Multilayer Feed Forward Neural
Mạng nơ ron chuyển tiếp đa
Network
lớp
ISO
NCS
PESTLE
Nghiên cứu sinh
Political Economic Social
Technological Legal Environmental
Mạng nơ ron xác suất
PNN
Probabilistic Neural Network
RFM
Recency, Frequency and Monetary
SVM
Support Vector Machines
Máy véc tơ hỗ trợ
SWOT
Strengths Weaknesses
Phân tích điểm mạnh điểm
Opportunities Threats
yếu cơ hội và thách thức
World Trade Organization
Tổ chức thương mại thế giới
WTO
ix
CHƯƠNG 1
TỔNG QUAN
1.1 Dẫn nhập
Quản lý rủi ro là một trong những nhiệm vụ quan trọng hàng đầu của các tổ chức,
doanh nghiệp. Mục đích của việc quản lý rủi ro là để ngăn ngừa, kiểm soát, giảm tối
thiểu các thiệt hại do các sự kiện tiêu cực gây ra và tận dụng tối đa các cơ hội do các
sự kiện tích cực mang lại. Tuy nhiên, rất khó để việc quản lý rủi ro đạt được mục
đích đề ra, nếu không có phương pháp đúng đắn. Chính vì vậy, các nhà khoa học và
một số tổ chức quốc tế đã nghiên cứu, xây dựng các bộ tiêu chuẩn để hỗ trợ, hướng
dẫn các tổ chức, doanh nghiệp trong việc quản lý rủi ro. Tiêu biểu là hai bộ tiêu
chuẩn ISO 31000 [1] và COSO 2004 [2], trong đó đưa ra những nguyên tắc và các
bước nhằm định hướng, chỉ đạo cho quá trình quản lý rủi ro. Bộ tiêu chuẩn ISO
31000 thiết lập năm giai đoạn chính cho quá trình quản lý rủi ro, trong đó có hai
giai đoạn quan trọng là: 1) Nhận diện rủi ro, 2) Phân tích rủi ro [1]. Tại mỗi giai
đoạn, trong quá trình quản lý rủi ro của các bộ tiêu chuẩn trên, các doanh nghiệp tùy
theo hoàn cảnh cụ thể mà có thể có những cách thức thực hiện khác nhau, sao cho
phù hợp với điều kiện hiện có của mình. Ví dụ, Bharathy và McShane [3] đề xuất
một giải pháp ứng dụng bộ tiêu chuẩn của ISO 31000 trong việc quản lý rủi ro
doanh nghiệp, trong đó ở giai đoạn "nhận diện rủi ro", họ sử dụng kết hợp các kỹ
thuật xác định rủi ro như điều tra, phỏng vấn, hội thảo, HAZOP,... còn trong giai
đoạn "phân tích rủi ro", các rủi ro quan trọng được sàn lọc để xử lý dựa trên một
phân tích chủ quan ban đầu về tác động và khả năng ảnh hưởng của chúng. Đây là
một ví dụ điển hình của phương pháp quản lý rủi ro truyền thống trong doanh
nghiệp. Các bước tiến hành theo phương pháp truyền thống như ở ví dụ vừa nêu
trên thường làm mất nhiều thời gian, công sức và phụ thuộc rất nhiều vào các quyết
định có thể mang tính chủ quan của con người.
Trong bối cảnh các ngành khoa học, nhất là ngành Khoa học máy tính phát triển
vượt bậc như hiện nay, một câu hỏi nghiên cứu đặt ra là: liệu có thể phát triển và
ứng dụng các kỹ thuật hiện đại của ngành này như Trí tuệ nhân tạo hay Máy học để
1
xây dựng các phương pháp mới nhằm hỗ trợ các tổ chức, doanh nghiệp trong việc
quản lý rủi ro tốt hơn hay không ? Kết quả nghiên cứu về vấn đề đặt ra ở câu hỏi
trên nếu thực hiện được sẽ giúp ích rất nhiều cho các tổ chức, doanh nghiệp trong
việc quản lý rủi ro.
1.2 Động cơ nghiên cứu
Quản lý rủi ro có vai trò quyết định đến sự tồn tại và phát triển của các tổ chức,
doanh nghiệp nên nhận được nhiều sự quan tâm nghiên cứu của các nhà khoa học,
nhà quản lý. Hiện nay, với xu hướng toàn cầu hóa và hội nhập quốc tế ngày càng
sâu rộng, nhiều cơ hội sẽ được tạo ra, đi cùng với nó cũng sẽ có nhiều thách thức và
rủi ro. Thực tế đó, làm cho việc tìm kiếm các phương pháp mới và hiệu quả để hỗ
trợ cho việc quản lý rủi ro trong các doanh nghiệp càng thu hút được nhiều sự chú
ý. Mặc dù vậy, theo đánh giá của Bromiley và các cộng sự [4], có thể nói những
thành tựu đạt được của các phương pháp quản lý rủi ro trong doanh nghiệp nói
chung vẫn còn ở mức sơ khởi và điều đó cho thấy đây thực sự là một lĩnh vực mới,
một bài toán nghiên cứu mới đầy hấp dẫn. Do đó, việc tìm lời giải cho bài toán này
vẫn là mảnh đất màu mỡ cho các nhà khoa học, các nhà nghiên cứu khai thác.
Ngày nay, do sự tích hợp, tương tác lẫn nhau mà nhiều lĩnh vực không còn bó hẹp
nghiên cứu chỉ trong chuyên ngành của mình mà cần có sự phối hợp nghiên cứu đa
ngành. Sự phát triển và thâm nhập ngày càng sâu rộng của công nghệ thông tin vào
rất nhiều ngành khác nhau đã tạo ra những lĩnh vực nghiên cứu đa ngành như tin
học quản lý, tin sinh học, ... Trong xu hướng chung đó, đã có những nghiên cứu của
ngành Khoa học máy tính tìm cách ứng dụng các công cụ của ngành này để hỗ trợ
cho việc quản lý rủi ro trong các doanh nghiệp, từ lĩnh vực bán lẻ [5], điện năng [6],
hoặc tài chính [7] [8] [9] [10], cho đến việc đề xuất những ý tưởng lớn như xây
dựng một ngành khoa học mới về rủi ro. Trong [11] đặt vấn đề: “Có chăng có một
hướng tiếp cận thông tin tổng quát hóa đối với rủi ro bằng cách sử dụng các kỹ thuật
dựa vào dữ liệu, điều mà dẫn đến một lĩnh vực mới ‘khoa học rủi ro’ như được đề
xuất bởi Tsumoto và các cộng sự trong [12]”. Tuy nhiên, việc đề xuất ngành “khoa
học rủi ro” này, cho đến nay cũng mới chỉ là một ý tưởng mà để hiện thực được nó
2
đòi hỏi phải mất rất nhiều thời gian cũng như sự nỗ lực nghiên cứu và đóng góp
công sức của nhiều nhà khoa học trên thế giới. Như vậy, đã có sự thâm nhập của
ngành Khoa học máy tính vào bài toán quản lý rủi ro, tuy nhiên, đó cũng chỉ là ở
những bước khởi đầu nên cần phải có sự quan tâm nghiên cứu nhiều hơn nữa.
Để giải quyết hai giai đoạn quan trọng của bài toán quản lý rủi ro là nhận diện rủi ro
và phân tích rủi ro, các tổ chức, doanh nghiệp thường sử dụng các phương pháp như
điều tra, phỏng vấn, hội thảo, HAZOP, SWOT, … [3] [13] [14]. Đây là cách làm
truyền thống dựa chủ yếu vào việc con người tự thu thập thông tin và tự đưa ra
quyết định. Ví dụ, phương pháp SWOT được nhóm tác giả Team FME [15] cho là
phổ biến và uyên bác nhưng họ cũng đánh giá là nó bao gồm nhiều quyết định chủ
quan tại mỗi giai đoạn. Trong thực tế hiện nay thường sẵn có một nguồn dữ liệu
lớn, phong phú, ghi nhận các hoạt động của doanh nghiệp trong CSDL của các hệ
thống phần mềm quản lý như ERP, CRM1, ... có thể khai thác thành thông tin, tri
thức nhất là thông tin về rủi ro nằm tiềm ẩn trong đó. Tuy nhiên, nếu áp dụng cách
làm truyền thống để nhận diện và phân tích rủi ro của các đối tượng được lưu trữ
trong các CSDL có lượng dữ liệu lớn này sẽ rất khó khăn. Khoa học máy tính, đặc
biệt là các kỹ thuật trí tuệ nhân tạo ở nhánh máy học như kỹ thuật khai phá dữ liệu
và khám phá tri thức từ dữ liệu có khả năng rất mạnh trong việc tìm kiếm thông tin,
tri thức nói chung, thông tin về rủi ro nói riêng nằm tiềm ẩn trong dữ liệu lớn. Nên
có thể nói đây là khoảng trống dành cho việc phát triển, cải tiến và ứng dụng các kỹ
thuật này để xây dựng các công cụ, các phương pháp mới hỗ trợ cho việc nhận diện
và phân tích rủi ro trong doanh nghiệp. Ngoài ra, trong một báo cáo điều tra thực
hiện vào tháng 8 năm 2013, The Economist Intelligence Unit [16] cho rằng các
phân tích cao cấp và dựa vào dữ liệu lớn đóng vai trò rất quan trọng trong quản lý
rủi ro; các kỹ thuật hướng dữ liệu ngày càng mạnh mẽ sẽ làm quản lý rủi ro hiệu
quả hơn, hỗ trợ tốt hơn cho các nhà quản lý và giám đốc điều hành. Như vậy, việc
phát triển, cải tiến các kỹ thuật hướng dữ liệu và ứng dụng chúng vào bài toán quản
lý rủi ro mà cụ thể hơn là nhận diện và phân tích rủi ro là một thách thức được đặt
1
ERP: Enterprise Resource Planning, CRM: Customs Relationship Management
3
ra và là một yêu cầu cần thiết của thực tiễn nhằm mục đích trả lời câu hỏi: “Trong
cơ sở dữ liệu sẵn có của doanh nghiệp lưu trữ một số lượng lớn dữ liệu về các đối
tượng, vậy những đối tượng này tiềm ẩn loại rủi ro gì và có thể nhận diện và phân
tích nó không?”
Quản lý rủi ro là một bài toán có nhiều thách thức vì nó phụ thuộc vào rất nhiều yếu
tố, bởi vậy tùy theo lĩnh vực mà tổ chức, doanh nghiệp hoạt động, tùy theo qui mô,
qui trình quản lý mà độ phức tạp cũng có thể khác nhau. Wu và Olson [17] nhận
định rằng sự phức tạp và không chắc chắn trong nhiều vấn đề thực tế của bài toán
này đòi hỏi phải có những phương pháp mới và công cụ mới.
Rõ ràng những yêu cầu, đòi hỏi của thực tế làm cho bài toán quản lý rủi ro trở thành
mảnh đất màu mỡ, trong khi đó các nhà nghiên cứu cũng chỉ mới đặt những bước
chân khám phá khởi đầu lên đó, nên mảnh đất này vẫn còn nhiều tiềm năng to lớn
cho việc nghiên cứu phát triển, cải tiến và ứng dụng các kỹ thuật hiện đại của ngành
Khoa học máy tính như khai phá dữ liệu, khám phá tri thức từ dữ liệu, … để xây
dựng các phương pháp mới hỗ trợ cho các tổ chức, doanh nghiệp trong việc quản lý
rủi ro đặc biệt là nhận diện và phân tích rủi ro.
1.3 Mục tiêu nghiên cứu
Mục tiêu chung của luận án là nghiên cứu, phát triển và ứng dụng các kỹ thuật của
ngành Khoa học máy tính vào bài toán nhận diện và phân tích rủi ro. Từ mục tiêu
chung đó, luận án đưa ra các mục tiêu nghiên cứu cụ thể sau:
1) Đề xuất framework dựa trên các kỹ thuật của ngành Khoa học máy tính như khai
phá dữ liệu và khám phá tri thức từ dữ liệu để làm cơ sở định hướng chung cho
việc xây dựng các phương pháp nhận diện và phân tích các đối tượng rủi ro nằm
tiềm ẩn trong dữ liệu.
2) Xây dựng một số phương pháp nhận diện và phân tích các đối tượng rủi ro nằm
tiềm ẩn trong dữ liệu dựa trên framework đã đề xuất. Cụ thể đó là phương pháp
4
nhận diện và phân tích các đối tượng rủi ro rõ và phương pháp nhận diện và
phân tích các đối tượng rủi ro mờ.
3) Phát triển một số thuật toán trong lĩnh vực khai phá dữ liệu và khám phá tri thức
như thuật toán gom cụm mờ nhằm hỗ trợ cho việc xây dựng các phương pháp
nhận diện và phân tích các đối tượng rủi ro nằm tiềm ẩn trong dữ liệu.
Việc hiện thực cụ thể của các mục tiêu trên được trình bày trong các chương sau
của luận án.
1.4 Phạm vi nghiên cứu và qui ước
Vì độ phủ quá rộng của bài toán quản lý rủi ro và các vấn đề liên quan nên trong
phần này sẽ xác định rõ các phạm vi nghiên cứu và một số qui ước của luận án:
-
Trong luận án khi đề cập đến các phương pháp, các kỹ thuật truyền thống để
quản lý rủi ro hay nhận diện và phân tích rủi ro là nói đến các phương pháp, các
kỹ thuật không sử dụng các công cụ của ngành Khoa học máy tính. Ở chiều
ngược lại là các phương pháp có sử dụng các kỹ thuật của ngành này.
-
Khái niệm phân tích có thể được hiểu theo nhiều ý nghĩa và mức độ khác nhau,
trong luận án này việc phân tích rủi ro sử dụng các kỹ thuật của ngành Khoa
học máy tính được hiểu như sau: với một tập dữ liệu các đối tượng rủi ro, việc
phân tích rủi ro trước hết là tự động xác định số lượng cụm thích hợp với tập dữ
liệu, tiếp theo là gom cụm các đối tượng theo số lượng cụm đã xác định và cuối
cùng là xếp hạng các cụm thu được theo một độ đo mức độ rủi ro từ cao đến
thấp.
-
Framework nhận diện và phân tích các đối tượng rủi ro được xây dựng trong
luận án được hiểu như là cấu trúc của một hệ thống2 nhằm định hướng cho việc
xây dựng các phương pháp nhận diện và phân tích các đối tượng rủi ro tiềm ẩn
trong dữ liệu bằng các kỹ thuật của ngành Khoa học máy tính. Cấu trúc của hệ
Oxford Learner’s Dictionaries: Framework is the structure of a particular system (truy xuất: 30/07/2018)
https://www.oxfordlearnersdictionaries.com/definition/english/framework?q=framework
2
5
thống này gồm có hai mô hình: dự báo và mô tả, trong đó mô hình dự báo để
nhận diện; còn mô hình mô tả để phân tích. Trong mô hình dự báo có thể lắp
vào các kỹ thuật dự báo như các thuật toán phân lớp, logic mờ,… còn trong mô
hình mô tả có thể lắp vào các kỹ thuật phân tích dữ liệu như thuật toán gom
cụm.
-
Luận án chỉ nghiên cứu phát triển và ứng dụng các kỹ thuật của ngành Khoa
học máy tính, chủ yếu là các kỹ thuật khai phá dữ liệu và khám phá tri thức từ
CSDL (từ đây gọi tắt là khám phá tri thức từ dữ liệu) để xây dựng các phương
pháp nhận diện và phân tích các đối tượng rủi ro nằm tiềm ẩn trong dữ liệu. Do
khai phá dữ liệu là giai đoạn chính và không thể thiếu của quá trình khám phá
tri thức nên trong luận án này khi dùng thuật ngữ kỹ thuật khám phá tri thức có
thể đã bao hàm kỹ thuật khai phá dữ liệu.
-
Do hạn chế về nguồn dữ liệu và thời gian, trong luận án mới chỉ tìm hiểu việc
nhận diện và phân tích rủi ro tiềm ẩn trong dữ liệu của các doanh nghiệp và tổ
chức tài chính với các loại rủi ro sau: rủi ro công nợ phải thu của khách hàng,
rủi ro thẻ tín dụng. Đây là các dạng của rủi ro tài chính, tuy nhiên, có thể nghiên
cứu triển khai, áp dụng các phương pháp đề xuất trong luận án một cách tương
tự cho các loại rủi ro khác.
1.5 Đóng góp chính của luận án
Dựa trên các kết quả nghiên cứu đã đạt được, các đóng góp chính của luận án được
tóm tắt như sau:
1) Đề xuất một framework nhận diện và phân tích rủi ro tiềm ẩn trong dữ liệu dựa
trên các kỹ thuật của ngành Khoa học máy tính. Framework này là một cấu trúc
chung định hướng cho việc xây dựng các phương pháp nhận diện và phân tích
rủi ro và bao gồm hai giai đoạn: nhận diện rủi ro và phân tích rủi ro. Kết quả đạt
được của việc đề xuất framework này đáp ứng cho mục tiêu 1) của luận án và
được công bố trong [CT2].
6
2) Dựa trên framework đề xuất, xây dựng phương pháp nhận diện và phân tích rủi
ro rõ bằng cách phát triển và ứng dụng các kỹ thuật khai phá dữ liệu và khám
phá tri thức từ dữ liệu đặc biệt là thuật toán gom cụm mờ. Phương pháp này sử
dụng thích hợp cho trường hợp các đối tượng được phân vào lớp rủi ro rõ. Kết
quả thu được từ phương pháp sẽ giúp nhận diện và phân tích các đối tượng rủi
ro nằm tiềm ẩn trong dữ liệu nhằm hỗ trợ cho các tổ chức, doanh nghiệp trong
quản lý rủi ro. Việc xây dựng phương pháp này đáp ứng một phần cho mục tiêu
2) của luận án và được công bố trong [CT2], [CT4].
3) Xây dựng phương pháp nhận diện và phân tích rủi ro mờ bằng cách tích hợp
logic mờ cùng với việc phát triển và ứng dụng thuật toán gom cụm mờ. Phương
pháp này sử dụng thích hợp cho trường hợp các đối tượng được phân vào lớp
rủi ro mờ. Kết quả thu được từ phương pháp sẽ giúp nhận diện và phân tích các
đối tượng rủi ro mờ nằm tiềm ẩn trong dữ liệu nhằm hỗ trợ cho các tổ chức,
doanh nghiệp trong quản lý rủi ro. Việc xây dựng phương pháp này đáp ứng
phần còn lại cho mục tiêu 2) của luận án và được công bố trong [CT3], [CT5].
4) Phát triển thuật toán gom cụm mờ cải tiến FCM-E bằng cách nghiên cứu, xây
dựng chỉ số tự động xác định số lượng cụm thích hợp của tập dữ liệu và tích
hợp vào thuật toán FCM. Chỉ số tự động xác định số lượng cụm thích hợp được
thiết lập từ các hệ số bên trong cụm, phản ánh hình dáng cụm và các hệ số bên
ngoài cụm, phản ánh khoảng cách giữa các cụm. Thuật toán này là cơ sở quan
trọng để xây dựng FCM-R, là thuật toán được sử dụng để phân tích rủi ro. Việc
phát triển thuật toán cải tiến FCM-E đáp ứng một phần cho mục tiêu 3) của luận
án và được công bố trong [CT1],[CT6].
5) Phát triển thuật toán gom cụm mờ cải tiến FCM-R bằng cách nghiên cứu, xây
dựng một độ đo xếp hạng mức độ rủi ro của các cụm thu được sau quá trình
gom cụm và tích hợp vào thuật toán FCM-E. Thuật toán mới FCM-R, nhờ việc
bổ sung thêm độ đo xếp hạng mức độ rủi ro sẽ vừa có khả năng tự động xác
định số lượng cụm thích hợp, vừa có khả năng xếp hạng các cụm thu được theo
7
độ đo mức độ rủi ro trong quá trình gom cụm, là nền tảng quan trọng trong việc
xây dựng các phương pháp nhận diện và phân tích rủi ro trong luận án. Việc
phát triển thuật toán cải tiến FCM-R đáp ứng phần còn lại cho mục tiêu 3) của
luận án và được công bố trong [CT2], [CT4].
1.6 Tầm quan trọng của nghiên cứu
Trong môi trường hoạt động càng có tính cạnh tranh và rủi ro cao, thì vai trò của
quản lý rủi ro càng được các tổ chức, doanh nghiệp coi trọng. Kenett và Raanan
[18] cho rằng quản lý rủi ro đang trở thành chìa khóa cạnh tranh chính đối với các
tổ chức trong tất cả các ngành công nghiệp. Trong quá trình quản lý rủi ro có hai
giai đoạn quan trọng là nhận diện rủi ro và phân tích rủi ro. Do đó, để nâng cao tính
cạnh tranh, các tổ chức, doanh nghiệp ngoài việc áp dụng các phương pháp truyền
thống, cũng cần phải nghiên cứu ứng dụng các kỹ thuật hiện đại để xây dựng các
phương pháp nhận diện rủi ro và phân tích rủi ro mới nhằm hỗ trợ tốt cho việc quản
lý rủi ro. Các kỹ thuật thông minh như khai phá dữ liệu và khám phá tri thức từ dữ
liệu ở nhánh máy học của trí tuệ nhân tạo là một gợi ý tốt cho trường hợp này. Hiện
nay, với xu thế số hóa ngày càng phát triển mạnh mẽ, hầu hết các hoạt động của
doanh nghiệp nhất là các hoạt động tài chính đều được ghi nhận vào CSDL nên việc
quản lý rủi ro, trong đó có rủi ro tài chính tiềm ẩn trong CSDL ngày càng nhận
được nhiều sự quan tâm. Chính vì vậy, việc đề xuất một framework làm cơ sở để từ
đó xây dựng các phương pháp nhận diện và phân tích rủi ro, đặc biệt là rủi ro tài
chính tiềm ẩn trong dữ liệu, dựa trên việc phát triển và ứng dụng các kỹ thuật như
khai phá dữ liệu và khám phá tri thức trong đó có thuật toán gom cụm mờ có ý
nghĩa quan trọng trong ứng dụng thực tiễn.
1.7 Bố cục của luận án
Luận án được tổ chức thành 6 chương như sau:
Chương 1. Giới thiệu tổng quan về luận án bao gồm việc trình bày dẫn nhập, động
cơ nghiên cứu, mục tiêu nghiên cứu, phạm vi nghiên cứu, các đóng góp
chính của luận án, tầm quan trọng của nghiên cứu và bố cục của luận án.
8
- Xem thêm -