Đăng ký Đăng nhập
Trang chủ Ứng dụng máy học để nâng cao hiệu năng của các hệ thống phát hiện xâm nhập mạng ...

Tài liệu Ứng dụng máy học để nâng cao hiệu năng của các hệ thống phát hiện xâm nhập mạng

.PDF
136
1
63

Mô tả:

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÀ RỊA - VŨNG TÀU VÕ ĐÌNH VŨ ỨNG DỤNG MÁY HỌC ĐỂ NÂNG CAO HIỆU NĂNG CỦA CÁC HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG LUẬN VĂN THẠC SĨ Bà Rịa - Vũng Tàu, năm 2021 i BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÀ RỊA - VŨNG TÀU VÕ ĐÌNH VŨ ỨNG DỤNG MÁY HỌC ĐỂ NÂNG CAO HIỆU NĂNG CỦA CÁC HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG Chuyên ngành: Công nghệ thông tin Mã số ngành: 8480201 LUẬN VĂN THẠC SĨ Giảng viên hướng dẫn: TS. Văn Thế Thành Bà Rịa - Vũng Tàu, năm 2021 ii LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu luận văn này do tôi thực hiện dưới sự hướng dẫn của TS. Văn Thế Thành. Luận văn này không sao chép toàn bộ các tài liệu, công trình nghiên cứu của người khác. Các số liệu và kết quả trình bày trong luận văn là trung thực và chưa được công bố trong các công trình khác. Tất cả các đoạn trích dẫn nằm trong tài liệu, công trình nghiên cứu của người khác đều được ghi rõ nguồn và chỉ rõ trong tài liệu tham khảo. Tôi xin cam đoan những điều trên là đúng sự thật, tôi xin chịu hoàn toàn trách nhiệm. Tác giả Võ Đình Vũ iii LỜI CẢM ƠN Trong thời gian thực hiện luận văn tốt nghiệp, dưới sự hướng dẫn tận tình của giáo viên hướng dẫn và được phía nhà trường tạo điều kiện thuận lợi, tôi đã có một quá trình nghiên cứu, tìm hiểu và học tập nghiêm túc để hoàn thành đề tài. Kết quả thu được không chỉ do nỗ lực của cá nhân tôi mà còn có sự giúp đỡ của quý thầy cô, gia đình và các bạn. Trong quá trình thực hiện và trình bày không thể tránh khỏi những sai sót và hạn chế, do vậy tôi rất mong nhận được sự góp ý, nhận xét phê bình của quý thầy cô và các bạn để hoàn thiện hơn. Tôi xin chân thành cám ơn. - Ban giám hiệu nhà trường, Viện Đào tạo Quốc tế và Sau đại học - Trường Đại học Bà Rịa Vũng Tàu và Tập thể quý Thầy, Cô giáo đã quan tâm, tạo điều kiện giúp tôi hoàn thành luận văn tốt nghiệp. - TS Văn Thế Thành và Ths, NCS Hoàng Ngọc Thanh: đã hướng dẫn, hỗ trợ tôi hoàn thành tốt luận văn về phương pháp, lý luận và nội dung luận văn. Cuối cùng, tôi vô cùng biết ơn gia đình, bố mẹ, anh chị em, đặc biệt là vợ con của tôi, những người đã động viên, giành những điều kiện tốt nhất để tôi có thể hoàn thành chương trình nghiên cứu của mình. Võ Đình Vũ Bà Rịa - Vũng Tàu, 2021 iv MỤC LỤC CHƯƠNG 1. GIỚI THIỆU ĐỀ TÀI ..................................................... 1 1.1. Tính cấp thiết của đề tài nghiên cứu ................................................................1 1.2. Đối tượng và phạm vi nghiên cứu ...................................................................3 1.2.1. Đối tượng nghiên cứu .................................................................................3 1.2.2. Phạm vi nghiên cứu ....................................................................................3 1.3. Mục đích của đề tài..........................................................................................4 1.4. Nhiệm vụ của luận văn ....................................................................................4 1.5. Phương pháp nghiên cứu .................................................................................4 1.6. Ý nghĩa khoa học và thực tiễn của luận văn ....................................................5 1.6.1. Ý nghĩa khoa học ........................................................................................5 1.6.2. Ý nghĩa thực tiễn ........................................................................................5 1.7. Cấu trúc của luận văn ......................................................................................5 CHƯƠNG 2. CƠ SỞ LÝ THUYẾT ...................................................... 6 2.1. Các kỹ thuật máy học ......................................................................................6 2.1.1. Các kỹ thuật máy học đơn ..........................................................................9 2.1.1.1. Máy véc-tơ hỗ trợ ................................................................................9 2.1.1.2. Mạng nơ-ron nhân tạo .........................................................................9 2.1.1.3. Cây quyết định...................................................................................11 2.1.1.4. Naïve Bayes .......................................................................................12 2.1.1.5. K láng giềng gần nhất ........................................................................13 2.1.1.6. Hồi quy logistic .................................................................................13 2.1.2. Các kỹ thuật máy học kết hợp ..................................................................14 2.1.2.1. Bagging .............................................................................................14 2.1.2.2. Boosting.............................................................................................14 v 2.1.2.3. Stacking .............................................................................................15 2.1.3. Các kỹ thuật học sâu (deep learning) .......................................................16 2.1.3.1. Bộ mã tự động - Autoencoder. ..........................................................17 2.1.3.2. Mạng nơ-ron tích chập (Convolutional Neural Network - CNN) .....17 2.1.3.3. Mạng nơ-ron hội quy (Recurrent Neural Network - RNN). .............18 2.2. Tập dữ liệu sử dụng cho các IDS ..................................................................19 2.3. Chỉ số đánh giá hiệu năng các IDS ................................................................21 2.4. Các nghiên cứu hiện nay về máy học cho IDS ..............................................23 2.4.1. Các nghiên cứu trong nước ......................................................................23 2.4.2. Một số nghiên cứu ngoài nước .................................................................23 2.4.3. Một số nhận xét và các tồn tại cần nghiên cứu ........................................24 CHƯƠNG 3. CÁC GIẢI PHÁP ĐỀ XUẤT ....................................... 27 3.1. Sử dụng các kỹ thuật học truyền thống .........................................................28 3.2. Sử dụng các kỹ thuật học sâu ........................................................................28 3.3. Sử dụng các kỹ thuật kết hợp ........................................................................29 3.3.1. Kỹ thuật kết hợp đồng nhất ......................................................................30 3.3.2. Kỹ thuật kết hợp không đồng nhất ...........................................................30 CHƯƠNG 4. KẾT QUẢ THỬ NGHIỆM........................................... 33 4.1. Môi trường thực nghiệm ................................................................................33 4.2. Tập dữ liệu .....................................................................................................33 4.3. Tiền xử lý dữ liệu ..........................................................................................36 4.4. Sử dụng các kỹ thuật học truyền thống .........................................................37 4.4.1. Thuật toán Cây quyết định .......................................................................37 4.4.2. Thuật toán Naïve Bayes ...........................................................................38 4.4.3. Thuật toán k láng giềng gần nhất..............................................................40 vi 4.4.4. Thuật toán Hồi quy logistic ......................................................................41 4.4.5. Thuật toán Máy véc-tơ hỗ trợ ...................................................................43 4.4.6. Thuật toán Mạng nơ-ron ...........................................................................44 4.4.7. Kết luận ....................................................................................................45 4.5. Sử dụng kỹ thuật học sâu...............................................................................47 4.5.1. Kiến trúc lớp ẩn dùng BatchNormalization .............................................47 4.5.2. Kiến trúc lớp ẩn dùng DenseLayer ...........................................................49 4.5.3. Kiến trúc lớp ẩn dùng LSTM ...................................................................50 4.5.4. Kết luận ....................................................................................................51 4.6. Sử dụng kỹ thuật kết hợp ...............................................................................53 4.6.1. Kỹ thuật kết hợp đồng nhất ......................................................................53 4.6.1.1. Kỹ thuật kết hợp Boosting.................................................................53 4.6.1.2. Kỹ thuật kết hợp Bagging .................................................................59 4.6.1.3. Kỹ thuật kết hợp Stacking .................................................................64 4.6.1.4. Kỹ thuật kết hợp Voting ....................................................................70 4.6.1.5. Kỹ thuật kết hợp Random Forest ......................................................75 4.6.2. Kỹ thuật kết hợp không đồng nhất ...........................................................77 4.6.2.1. Kỹ thuật kết hợp Voting ....................................................................77 4.6.2.2. Kỹ thuật kết hợp Stacking .................................................................79 4.7. Tổng hợp kết quả ...........................................................................................80 4.7.1. Đánh giá các thuật toán sử dụng đánh giá chéo 10-fold ..........................80 4.7.1.1. Kiểu tấn công Normal (phát hiện tấn công) ......................................80 4.7.1.2. Kiểu tấn công Backdoor ....................................................................81 4.7.1.3. Kiểu tấn công Analysis .....................................................................82 4.7.1.4. Kiểu tấn công Fuzzers .......................................................................82 vii 4.7.1.5. Kiểu tấn công Shellcode ....................................................................83 4.7.1.6. Kiểu tấn công Reconnaissance ..........................................................84 4.7.1.7. Kiểu tấn công Exploits ......................................................................84 4.7.1.8. Kiểu tấn công Worms ........................................................................85 4.7.1.9. Kiểu tấn công Generic .......................................................................86 4.7.1.10. Kiểu tấn công DoS ..........................................................................87 4.7.2. Đánh giá các thuật toán sử dụng Tập kiểm tra .........................................87 4.7.2.1. Kiểu tấn công Normal .......................................................................87 4.7.2.2. Kiểu tấn công Backdoor ....................................................................88 4.7.2.3 Kiểu tấn công Analysis ......................................................................89 4.7.2.4. Kiểu tấn công Fuzzers .......................................................................90 4.7.2.5. Kiểu tấn công Shellcode ....................................................................90 4.7.2.6. Kiểu tấn công Reconnaissance ..........................................................91 4.7.2.7. Kiểu tấn công Exploits ......................................................................92 4.7.2.8. Kiểu tấn công Worms ........................................................................93 4.7.2.9. Kiểu tấn công Generic .......................................................................93 4.7.2.10. Kiểu tấn công DoS ..........................................................................94 4.7.3. Kết quả tổng hợp ......................................................................................95 CHƯƠNG 5. KẾT LUẬN .................................................................... 97 TÀI LIỆU THAM KHẢO .................................................................... 98 PHỤ LỤC ............................................................................................. 100 viii DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT ANN: Artificial Neural Network AUC: Area Under the Curve Bagging: Bootstrap Aggregation BN: Bayesian Network CART: Classification and Regression Trees CNN: Convolutional Neural Network CV: Cross - Validation DBN: Deep Brief Network DNN: Deep Neural Network DoS: Denial of Service DT: Decision Tree ELM: Extreme Learning Machines FN: False Negative FNR: False Negative Rate FP: False Positive FPR: False Positive Rate GAN: Generative Adversarial Network IDS: Intrusion Detection System KNN: K Nearest Neighbours LOO: Leave One Out LR: Logistic Regression LSTM: Long short-term memory ML: Machine Learning MLP: Multi - Layer Perceptron MV: Majority Voting NB: Naïve Bayes OAR: One - Against - Rest PART: Partial Decision Tree ix R2L: Remote to Local RF: Random Forest RBM: Restricted Boltzmann Machine ROC: Receiver Operating Characteristics RNN: Recurrent Neural Network RT: Random Tree SOM: Self - Organizing Maps SPAN: Switched Port Analyzer SVM: Support Vector Machine TN: True Negative TNR: True Negative Rate TP: True Positive TPR: True Positive Rate U2R: User to Root UNSW: University of New South Wales WEKA: Waikato Environment for Knowledge Analysis x DANH MỤC CÁC BẢNG, BIỂU Bảng 4.1. Bảng mô tả thông tin tập dữ liệu UNSW-NB15 [15] ................................35 Bảng 4.2. Thông tin của Tập dữ liệu huấn luyện và Tập kiểm tra ............................36 Bảng 4.3. Kết quả các kiểu tấn công sử dụng Cây quyết định với 10-fold................37 Bảng 4.4. Kết quả kiểu tấn công thuật toán cây quyết định trên Tập kiểm tra .........38 Bảng 4.5. Kết quả kiểu tấn công sử dụng Naïve Bayes với 10-fold .........................39 Bảng 4.6. Kết quả kiểu tấn công sử dụng Naïve Bayes với Tập kiểm tra ................39 Bảng 4.7. Kết quả kiểu tấn công sử dụng KNN với 10-fold .....................................40 Bảng 4.8. Kết quả kiểu tấn công sử dụng KNN với Tập kiểm tra ............................41 Bảng 4.9. Kết quả kiểu tấn công sử dụng Hồi quy Logistic với 10-fold ..................42 Bảng 4.10. Kết quả kiểu tấn công sử dụng Hồi quy Logistic với Tập kiểm tra .......42 Bảng 4.11. Kết quả kiểu tấn công sử dụng Máy véc-tơ hỗ trợ với 10-fold ..............43 Bảng 4.12. Kết quả kiểu tấn công sử dụng Máy véc-tơ hỗ trợ với Tập kiểm tra......44 Bảng 4.13. Kết quả kiểu tấn công sử dụng Mạng nơ-ron với 10-fold ......................44 Bảng 4.14. Kết quả kiểu tấn công sử dụng Mạng nơ-ron với Tập kiểm tra .............45 Bảng 4.15. Chỉ số F-Measure của kỹ thuật máy học đơn với 10-fold ......................45 Bảng 4.16. Chỉ số F-Measure của kỹ thuật máy học đơn với Tập kiểm tra .............46 Bảng 4.17. Kết quả kiểu tấn công kiến trúc BatchNormalization với 10-fold .........48 Bảng4.18. Kết quả kiểu tấn công với BatchNormalization với Tập kiểm tra ...........48 Bảng 4.19. Kết quả kiểu tấn công DenseLayer với 10-fold ......................................49 Bảng 4.20. Kết quả kiểu tấn công DenseLayer với Tập kiểm tra ............................50 Bảng 4.21. Kết quả kiểu tấn công LSTM với 10-fold .............................................50 Bảng 4.22. Kết quả kiểu tấn công kiến trúc LSTM với Tập kiểm tra......................51 Bảng 4.23. Đánh giá F-Measure các kỹ thuật máy học sâu với 10-fold. ..................52 Bảng 4.24. Đánh giá F-Measure các kỹ thuật máy học sâu với Tập kiểm tra. .........52 Bảng 4.25. Các bộ phân loại cơ sở sử dụng với kết hợp đồng nhất Boosting ..........53 Bảng 4.26. Bảng thời gian của kỹ thuật kết hợp đồng nhất Boosting.......................54 Bảng 4.27. Chỉ số Precision khi sử dụng kết hợp đồng nhất Boosting với 10-fold ..54 Bảng 4.28. Chỉ số Recall kết hợp đồng nhất Boosting với 10-fold ..........................54 Bảng 4.29. Chỉ số F-Measure kết hợp đồng nhất Boosting với 10-fold ...................55 Bảng 4.30. Chỉ số AUC kết hợp đồng nhất Boosting với 10-fold ............................55 Bảng 4.31. Chỉ số Precision kết hợp đồng nhất Boosting với Tập kiểm tra .............56 Bảng 4.32. Chỉ số Recall kết hợp đồng nhất Boosting với Tập kiểm tra..................56 Bảng 4.33. Chỉ số F-Measure kết hợp đồng nhất Boosting với Tập kiểm tra ..........57 Bảng 4.34. Chỉ số AUC kết hợp đồng nhất Boosting với Tập kiểm tra ...................57 Bảng 4.35. Kết quả kiểu tấn công kết hợp đồng nhất Boosting với 10-fold .............58 Bảng 4.36. Kết quả kiểu tấn công kết hợp đồng nhất Boosting với Tập kiểm tra ....58 Bảng 4.37. Các bộ phân loại cơ sở sử dụng kết hợp không đồng nhất Bagging ......59 Bảng 4.38. Bảng thời gian và kết quả kỹ thuật kết hợp đồng nhất Bagging.............59 xi Bảng 4.39. Chỉ số Precision kết hợp đồng nhất Bagging với 10-fold ......................60 Bảng 4.40. Chỉ số Recall kết hợp đồng nhất Bagging với 10-fold ...........................60 Bảng 4.41. Chỉ số F-Measure kết hợp đồng nhất Bagging với 10-fold ....................60 Bảng 4.42. Chỉ số AUC kết hợp đồng nhất Bagging với 10-fold .............................61 Bảng 4.43. Chỉ số Precision kết hợp đồng nhất Bagging với Tập kiểm tra ..............61 Bảng 4.44. Chỉ số Recall kết hợp đồng nhất Bagging với Tập kiểm tra ..................62 Bảng 4.45. Chỉ số F-Measure kết hợp đồng nhất Bagging với Tập kiểm tra ...........62 Bảng 4.46. Chỉ số AUC kết hợp đồng nhất Bagging với Tập kiểm tra ....................63 Bảng 4.47. Kết quả kiểu tấn công kết hợp đồng nhất Bagging với 10-fold..............63 Bảng 4.48. Kết quả kiểu tấn công kết hợp đồng nhất Bagging với Tập kiểm tra .....64 Bảng 4.49. Các bộ phân loại cơ sở sử dụng kết hợp đồng nhất Stacking .................64 Bảng 4.50. Bảng thời gian và kết quả kỹ thuật kết hợp đồng nhất Stacking ............65 Bảng 4.51. Chỉ số Precision kết hợp đồng nhất Stacking với 10-fold ......................65 Bảng 4.52. Chỉ số Recall kết hợp đồng nhất Stacking với 10-fold ...........................65 Bảng 4.53. Chỉ số F-Measure kết hợp đồng nhất Stacking với 10-fold....................66 Bảng 4.54. Chỉ số AUC kết hợp đồng nhất Stacking với 10-fold ............................66 Bảng 4.55. Chỉ số Precision kết hợp đồng nhất Stacking với Tập kiểm tra .............67 Bảng 4.56. Chỉ số Recall kết hợp đồng nhất Stacking với Tập kiểm tra ..................67 Bảng 4.57. Chỉ số F-Measure kết hợp đồng nhất Stacking với tập kiểm tra ............68 Bảng 4.58. Chỉ số AUC kết hợp đồng nhất Stacking với Tập kiểm tra ....................68 Bảng 4.59. Kết quả kiểu tấn công kết hợp đồng nhất Stacking với 10-fold .............69 Bảng 4.60. Kết quả kiểu tấn công kết hợp đồng nhất Stacking với Tập kiểm tra ....69 Bảng 4.61. Các bộ phân loại cơ sở với kỹ thuật kết hợp đồng nhất Voting .............70 Bảng 4.62. Bảng thời gian và kết quả kỹ thuật kết hợp đồng nhất Voting ...............70 Bảng 4.63. Chỉ số Precision kết hợp đồng nhất Voting với 10-fold .........................71 Bảng 4.64. Chỉ số Recall kết hợp đồng nhất Voting với 10-fold..............................71 Bảng 4.65. Chỉ số F-Measure kết hợp đồng nhất Voting với 10-fold ......................71 Bảng 4.66. Chỉ số AUC kết hợp đồng nhất Voting với 10-fold ...............................72 Bảng 4.67. Chỉ số Precision kết hợp đồng nhất Voting với Tập kiểm tra ................72 Bảng 4.68. Chỉ số Recall kết hợp đồng nhất Voting với Tập kiểm tra .....................73 Bảng 4.69. Chỉ số F-Measure kết hợp đồng nhất Voting với Tập kiểm tra ..............73 Bảng 4.70. Chỉ số AUC kết hợp đồng nhất Voting với Tập kiểm tra .......................74 Bảng 4.71. Kết quả kiểu tấn công kết hợp đồng nhất Voting với 10-fold ................74 Bảng 4.72. Kết quả kiểu tấn công kết hợp đồng nhất Voting với Tập kiểm tra .......75 Bảng 4.73. Kết quả kiểu tấn công sử dụng Random Forest với 10-fold ...................76 Bảng 4.74. Kết quả kiểu tấn công sử dụng Random Forest với Tập kiểm tra ..........76 Bảng 4.75. Kết quả kiểu tấn công không đồng nhất Voting với 10-fold ..................78 Bảng 4.76. Kết quả kiểu tấn công không đồng nhất Voting với Tập kiểm tra .........78 Bảng 4.77. Kết quả kiểu tấn công không đồng nhất Stacking với 10-fold ...............79 xii Bảng 4.78. Kết quả kiểu tấn công không đồng nhất Stacking với Tập kiểm tra .............80 Bảng 4.79. Chất lượng kiểu tấn công Normal với 10-fold .......................................80 Bảng 4.80. Chất lượng kiểu tấn công Backdoor với 10-fold ....................................81 Bảng 4.81. Chất lượng kiểu tấn công Analysis với 10-fold ......................................82 Bảng 4.82. Chất lượng kiểu tấn công Fuzzers với 10-fold .......................................82 Bảng 4.83. Chất lượng kiểu tấn công Shellcode với 10-fold ....................................83 Bảng 4.84. Chất lượng kiểu tấn công Reconnaissance với 10-fold .................................84 Bảng 4.85. Chất lượng kiểu tấn công Exploits với 10-fold ......................................85 Bảng 4.86. Chất lượng kiểu tấn công Worms với 10-fold ........................................85 Bảng 4.87. Chất lượng kiểu tấn công Generic với 10-fold .......................................86 Bảng 4.88. Chất lượng kiểu tấn công DoS với 10-fold.............................................87 Bảng 4.89. Chất lượng kiểu tấn công Normal trên Tập kiểm tra ..............................88 Bảng 4.90. Chất lượng kiểu tấn công Backdoor trên Tập kiểm tra ..........................88 Bảng 4.91. Chất lượng kiểu tấn công Analysis trên Tập kiểm tra ............................89 Bảng 4.92. Chất lượng kiểu tấn công Fuzzers trên Tập kiểm tra ..............................90 Bảng 4.93. Chất lượng kiểu tấn công Shellcode trên Tập kiểm tra ..........................91 Bảng 4.94. Chất lượng tấn công Reconnaissance trên Tập kiểm tra.........................91 Bảng 4.95. Chất lượng kiểu tấn công Exploits trên Tập kiểm tra .............................92 Bảng 4.96. Chất lượng kiểu tấn công Worms trên Tập kiểm tra ..............................93 Bảng 4.97. Chất lượng kiểu tấn công Generic trên Tập kiểm tra .............................94 Bảng 4.98. Chất lượng kiểu tấn công DoS trên Tập kiểm tra ...................................94 Bảng 4.99. Các kỹ thuật đề xuất với mỗi kiểu tấn công ...........................................95 xiii DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1. Hệ thống phân loại IDS ...............................................................................2 Hình 2.1. Mô hình học có giám sát .............................................................................6 Hình 2.2. Phân loại các thuật toán học máy ................................................................8 Hình 2.3. Quá trình học có giám sát của ANN. ........................................................10 Hình 2.4. Giảm thiểu tham số delta bằng cách điều chỉnh trọng số. ........................11 Hình 2.5. Cây quyết định. .........................................................................................11 Hình 2.6. Kỹ thuật Bagging. ....................................................................................14 Hình 2.7. Kỹ thuật Boosting. ....................................................................................15 Hình 2.8. Kỹ thuật Stacking với bộ kiểu tấn công meta. ..........................................16 Hình 2.9. Cấu trúc của một mã tự động. ...................................................................17 Hình 2.10. Cấu trúc của CNN ...................................................................................18 Hình 2.11. Cấu trúc của RNN. ..................................................................................19 Hình 2.12. Tập dữ liệu đang được sử dụng trong nghiên cứu IDS từ 2015 - 2018 ..20 Hình 3.1. Mô hình IDS sử dụng kỹ thuật học truyền thống trong thử nghiệm .........28 Hình 3. 2. Mô hình IDS sử dụng kỹ thuật học sâu dùng trong thử nghiệm ..............29 Hình 3.3. Mô hình IDS sử dụng kỹ thuật kết hợp đồng nhất trong thử nghiệm .......30 Hình 3.4. Mô hình IDS sử dụng kỹ thuật Voting dùng trong thử nghiệm. ...............31 Hình 3.5. Mô hình IDS sử dụng kỹ thuật Stacking dùng trong thử nghiệm. ............32 xiv TÓM TẮT Đối với hệ thống phát hiện xâm nhập mạng (Intrusion Detection System IDS), xâm nhập có nghĩa là cố gắng truy cập thông tin về hệ thống máy tính hoặc làm hỏng hoạt động của hệ thống theo cách bất hợp pháp hoặc trái phép. IDS là một ứng dụng bảo mật máy tính nhằm phát hiện một loạt các vi phạm bảo mật, từ các vụ đột nhập do người ngoài cố gắng xâm nhập và lạm dụng hệ thống bởi người trong cuộc. Các chức năng chính của IDS là giám sát máy chủ và mạng, phân tích hành vi của hệ thống máy tính, tạo cảnh báo và phản hồi các hành vi đáng ngờ. IDS có thể được chia thành các phương thức dựa trên máy chủ và dựa trên mạng. Chức năng chính của hệ thống phát hiện xâm nhập mạng là để bảo vệ hệ thống, phân tích và dự báo hành vi truy cập mạng của người sử dụng. Những hành vi này được xem xét là bình thường hoặc một cuộc tấn công. Nghiên cứu này nhằm phân tích các nghiên cứu gần đây về IDS bằng cách sử dụng phương pháp học máy (Machine Learning - ML). Phương pháp nghiên cứu sử dụng các phương pháp như khảo sát, tổng hợp, phân tích thông tin cần thiết; tham khảo, đánh giá các nghiên cứu liên quan để từ đó tìm ra hướng giải quyết vấn đề. Xác định rõ đối tượng và phạm vi nghiên cứu để từ đó để xây dựng các mô hình kiểu tấn công trong việc phát hiện các dấu hiệu tấn công mạng. Phương pháp nghiên cứu phải dựa trên các tiêu chí sau đây: Xuất phát từ các nghiên cứu trong nước và quốc tế về việc sử dụng các kỹ thuật máy học cho các hệ thống phát hiện xâm nhập mạng trong thòi gian gần đây. Điều này là để đảm bảo các nghiên cứu của chúng tôi có liên quan và không bị lỗi thời. Mặc khác, để có một cái nhìn đa dạng và toàn diện vấn đề, đặc biệt là những kết quả, thành tựu đã đạt được trong quá khứ về máy học cho phát hiện xâm nhập, chúng tôi có tham khảo một số bài báo xuất bản trước năm 2015, tuy cũ nhưng có nhiều điểm thu hút về khía cạnh học thuật. Về kỹ thuật máy học, luận văn đề cập đến các kỹ thuật học máy truyền thống xv là các kỹ thuật máy học đơn, kỹ thuật máy học kết hợp và kỹ thuật máy học sâu. Kỹ thuật máy học đơn sử dụng gồm: Cây quyết định (Decision Tree - DT), k láng giềng (k Nearest Neighbors - kNN), máy véc-tơ hỗ trợ (Support Vector Machines - SVM), Naïve Bayes (NB) và Hồi quy logistic (Logistic Regression); Kỹ thuật máy học kết hợp sử dụng gồm: Boosting, Bagging, Stacking, Random Forest và Voting; Kỹ thuật máy học sâu gồm các lớp mạng nơ-ron được sử dụng để xây dựng các kiến trúc , kiến trúc sử dụng DenseLayer: tất cả các đơn vị được kết nối với tất cả các đơn vị của lớp cha của nó , kiến trúc sử dụng BatchNormalization: áp dụng chiến lược chuẩn hóa hàng loạt phổ biến trên các kích hoạt của lớp cha và kiến trúc sử dụng LSTM: sử dụng phương pháp tiếp cận trí nhớ ngắn hạn - dài hạn. Dựa trên các kỹ thuật học máy cho các hệ thống phát hiện xâm nhập mạng. Tập trung nghiên cứu một số kỹ thuật máy học đơn, học sâu và kỹ thuật kết hợp. Từ các kết quả thực nghiệm của các kỹ thuật học máy. Sau đó đánh giá, lựa chọn các kỹ thuật học máy nào có kết quả tốt nhất để chọn lựa nhằm nâng cao hiệu năng hệ thống phát hiện xâm nhập mạng. Để đánh giá hiệu năng của các mô hình, chúng tôi đề xuất sử dụng chỉ số đánh giá F-Measure. Theo định nghĩa F-Measure là trung bình hài hòa giữa độ chính xác Precision và thu hồi Recall. F-Measurei = 2×𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛𝑖 ×𝑅𝑒𝑐𝑎𝑙𝑙𝑖 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛𝑖 +𝑅𝑒𝑐𝑎𝑙𝑙𝑖 Kết quả thử nghiệm thực hiện trên tập dữ liệu UNSW-NB, tập dữ liệu hiện đại do Trung tâm An ninh mạng của Úc tạo ra năm 2015. Qua thực nghiệm cho thấy: Các kỹ thuật kết hợp cho kết quả tốt nhất trong đa số các trường hợp khi phát hiện các mẫu tấn công. 1 CHƯƠNG 1. GIỚI THIỆU ĐỀ TÀI 1.1. Tính cấp thiết của đề tài nghiên cứu Ngày nay, mạng có ảnh hưởng ngày càng tăng đối với cuộc sống hiện đại, làm cho an ninh mạng trở thành một lĩnh vực nghiên cứu quan trọng. Các kỹ thuật bảo mật mạng chủ yếu bao gồm phần mềm chống vi-rút, hệ thống tường lửa (Firewall) và hệ thống phát hiện xâm nhập (Intrusion Detection System - IDS). Những kỹ thuật này bảo vệ các hệ thống mạng khỏi các cuộc tấn công bên trong và bên ngoài. Trong số đó, IDS là một loại hệ thống phát hiện đóng vai trò chính trong việc bảo vệ an ninh mạng bằng cách giám sát trạng thái của phần mềm và phần cứng đang hoạt động trên mạng. Hệ thống phát hiện xâm nhập đầu tiên được đề xuất vào năm 1980 [1]. Kể từ đó, nhiều sản phẩm IDS được ra đời và ngày càng phát triển và hoàn thiện hơn. Tuy nhiên, nhiều IDS vẫn phải chịu tỷ lệ báo động sai cao, tạo ra nhiều cảnh báo cho các tình huống đe dọa hàng tháng thấp, làm tăng gánh nặng cho các nhà phân tích bảo mật và có thể gây ra cuộc tấn công có hại nghiêm trọng. Do đó, nhiều nhà nghiên cứu đã tập trung vào phát triển IDS với tỷ lệ phát hiện cao hơn và giảm tỷ lệ báo động sai. Một vấn đề khác với IDS hiện tại là chúng thiếu khả năng phát hiện các cuộc tấn công chưa biết. Bởi vì môi trường mạng thay đổi nhanh chóng, các biến thể tấn công và các cuộc tấn công mới xuất hiện liên tục. Vì vậy, cần phải phát triển IDS có thể phát hiện các cuộc tấn công chưa biết. Có hai loại phương pháp phân loại IDS: phương pháp dựa trên phát hiện và phương pháp dựa trên nguồn dữ liệu. Trong số các phương pháp dựa trên phát hiện, IDS có thể được chia thành phát hiện sử dụng sai và phát hiện bất thường. Trong số các phương thức dựa trên nguồn dữ liệu, IDS có thể được chia thành các phương thức dựa trên máy chủ và dựa trên mạng được mô tả như Hình 1.1. 2 Hình 1.1. Hệ thống phân loại IDS IDS là hệ thống giám sát lưu thông mạng có thể là thiết bị phần cứng hoặc phần mềm, có khả năng nhận biết những hoạt động khả nghi hay những hành động xâm nhập trái phép trên hệ thống mạng trong tiến trình tấn công (FootPrinting, Scanning, Sniffer…), cung cấp thông tin nhận biết và đưa ra cảnh báo cho hệ thống, nhà quản trị. Để giải quyết các vấn đề trên, các nhà nghiên cứu đã bắt đầu tập trung vào việc xây dựng IDS bằng phương pháp học máy. Học máy là một loại kỹ thuật trí tuệ nhân tạo có thể tự động khám phá thông tin hữu ích từ các bộ dữ liệu lớn [2]. IDS dựa trên máy học có thể đạt được mức phát hiện thỏa đáng khi có đủ dữ liệu đào tạo và học máy 3 các mô hình có đủ khả năng khái quát để phát hiện các biến thể tấn công và các cuộc tấn công mới. Với mong muốn xây dựng một hệ thống phát hiện xâm nhập đủ khả năng phát hiện các cuộc tấn công mới và tổng hợp đương đại trong điều kiện nguồn lực tính toán hạn chế, chúng tôi chọn đề tài “ỨNG DỤNG MÁY HỌC ĐỂ NĂNG CAO HIỆU NĂNG CỦA CÁC HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG” để nghiên cứu luận văn thạc sĩ chuyên ngành công nghệ thông tin. 1.2. Đối tượng và phạm vi nghiên cứu 1.2.1. Đối tượng nghiên cứu Đối tượng nghiên cứu của luận văn gồm: các kỹ thuật máy học, các tập dữ liệu sử dụng trong kiểm tra đánh giá và các chỉ số đánh giá hiệu năng của các IDS. Về kỹ thuật máy học, luận văn đề cập đến các kỹ thuật máy học đơn, kỹ thuật máy học kết hợp và kỹ thuật máy học sâu. Kỹ thuật máy học đơn sử dụng gồm: Cây quyết định (Decision Tree - DT), k láng giềng (k Nearest Neighbors - kNN), máy véctơ hỗ trợ (Support Vector Machines - SVM), Naïve Bayes (NB) và Hồi quy logistic (Logistic Regression); Kỹ thuật máy học kết hợp sử dụng gồm: Boosting, Bagging, Stacking, Random Forest và Voting; Kỹ thuật máy học sâu gồm các lớp mạng nơ-ron được sử dụng để xây dựng các kiến trúc, kiến trúc sử dụng DenseLayer: tất cả các đơn vị được kết nối với tất cả các đơn vị của lớp cha của nó, kiến trúc sử dụng BatchNormalization: áp dụng chiến lược chuẩn hóa hàng loạt phổ biến trên các kích hoạt của lớp cha và kiến trúc sử dụng LSTM: sử dụng phương pháp tiếp cận trí nhớ ngắn hạn - dài hạn. Các bộ kiểu tấn công sử dụng các kỹ thuật máy học nêu trên được huấn luyện, kiểm tra và đánh giá chất lượng kiểu tấn công dựa trên các bộ dữ liệu huấn luyện và kiểm tra của tập dữ liệu UNSW-NB15, tập dữ liệu hiện đại do Trung tâm An ninh mạng của Úc tạo ra năm 2015. 1.2.2. Phạm vi nghiên cứu Dựa trên các kỹ thuật học máy bao gồm kỹ thuật học máy đơn như Cây quyết định (Decision Tree - DT), k láng giềng (k Nearest Neighbors - kNN), máy học véc-tơ 4 hỗ trợ (Support Vector Machines - SVM), Naïve Bayes - NB, kỹ thuật máy học sâu gồm các lớp mạng nơ-ron được sử dụng để xây dựng các kiến trúc, kiến trúc sử dụng DenseLayer: tất cả các đơn vị được kết nối với tất cả các đơn vị của lớp cha của nó, kiến trúc sử dụng BatchNormalization: áp dụng chiến lược chuẩn hóa hàng loạt phổ biến trên các kích hoạt của lớp cha và kiến trúc sử dụng LSTM: sử dụng phương pháp tiếp cận trí nhớ ngắn hạn - dài hạn, kỹ thuật kết hợp Boosting, Bagging, Stacking và Voting. Nghiên cứu tập trung vào tập dữ liệu UNSW-NB15, một tập dữ liệu tương đối mới với nhiều mẫu phức tạp và sử dụng công cụ WEKA (viết tắt của Waikato Environment for Knowledge Analysis) là một bộ phần mềm học máy được Đại học Waikato, New Zealand phát triển bằng ngôn ngữ lập trình Java để kiểm chứng kết quả thực nghiệm. 1.3. Mục đích của đề tài Dựa trên các kỹ thuật học máy cho các hệ thống phát hiện xâm nhập mạng. Tập trung nghiên cứu một số kỹ thuật máy học đơn, học sâu và kỹ thuật kết hợp. Dựa trên những kết quả thực nghiệm của các kỹ thuật học máy. Sau đó đánh giá, lựa chọn các kỹ thuật học máy nào cho kết quả tốt nhất để chọn lựa nhằm nâng cao hiệu năng hệ thống phát hiện xâm nhập mạng. 1.4. Nhiệm vụ của luận văn Giới thiệu được cơ sở lý thuyết về các kỹ thuật học máy trong phạm vi nghiên cứu của luận văn này, tìm hiểu các nghiên cứu hiện nay về hệ thống phát hiện xâm nhập. Đề xuất các mô hình triển khai các kỹ thuật học máy. Từ kết quả thực nghiệm để đánh giá các kỹ thuật máy học đã được đề xuất nghiên cứu trong luận văn này 1.5. Phương pháp nghiên cứu Phương pháp nghiên cứu sử dụng các phương pháp như khảo sát, tổng hợp, phân tích thông tin cần thiết; tham khảo, đánh giá các nghiên cứu liên quan để từ đó tìm ra hướng giải quyết vấn đề. Xác định rõ đối tượng và phạm vi nghiên cứu để từ đó để xây dựng các mô kiểu tấn công trong việc phát hiện các dấu hiệu tấn công mạng. Phương pháp nghiên cứu phải dựa trên các tiêu chí sau đây:
- Xem thêm -

Tài liệu liên quan

Tài liệu xem nhiều nhất