Tài liệu Xây dựng công cụ phát hiện xâm nhập mạng

.PDF

696

109

minhtuan Báo vi phạm

Tải xuống 109

Mô tả:

TRƢỜNG ĐẠI HỌC CẦN THƠ KHOA CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG  LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC XÂY DỰNG CÔNG CỤ PHÁT HIỆN XÂM NHẬP MẠNG Sinh viên thực hiện Cán bộ hƣớng dẫn Phan Thế Chinh Mssv: 1081636 Ths. Phạm Hữu Tài Cần Thơ, 5/2012 Luận văn tốt nghiệp – Đề tài: Xây dựng công cụ phát hiện xâm nhập mạng. LỜI CẢM ƠN Em xin gởi lời cảm ơn chân thành nhất đến Ths. Phạm Hữu Tài, ngƣời đã tận tình hƣớng dẫn, giúp đỡ em trong suốt quá trình thực hiện luận văn và tạo điều kiện để em có thể hoàn thành tốt luận văn này. Xin trân trọng cám ơn các quý Thầy – Cô trƣờng Đại học Cần Thơ, đặc biệt là các Thầy Cô khoa Công nghệ thông tin và Truyền thông đã cung cấp và truyền đạt kiến thức cho em trong suốt thời gian học tập tại trƣờng. Xin gởi lời cảm ơn đến các bạn ngành Tin học – khóa 34 và đặc biệt là các bạn học cùng lớp đã chia sẽ và dành cho tôi những hỗ trợ tốt nhất trong quá trình học tập và hoàn thành tốt luận văn này. Xin cảm ơn gia đình tôi – nguồn động viên lớn lao và là nguồn động lực cho tôi vƣợt qua những giai đoạn khó khăn nhất. Một lần nữa em xin gởi lời cảm ơn, chúc sức khỏe và thành đạt đến tất cả mọi ngƣời Xin chân thành cảm ơn !. Học kỳ II, Năm học 2011 – 2012 Sinh viên thực hiện Phan Thế Chinh SVTH: Phan Thế Chinh ii CBHD: Ths.Phạm Hữu Tài Luận văn tốt nghiệp – Đề tài: Xây dựng công cụ phát hiện xâm nhập mạng. MỤC LỤC LỜI CẢM ƠN ...............................................................................................................ii DANH MỤC HÌNH ...................................................................................................... v DANH MỤC BẢNG .................................................................................................... vi DANH MỤC TỪ VIẾT TẮT ......................................................................................vii TÓM TẮT LUẬN VĂN .............................................................................................viii ABSTRACT................................................................................................................. ix CHƢƠNG 1 : TỔNG QUAN ........................................................................................ 1 1.1 GIỚI THIỆU TÓM TẮT ..................................................................................... 1 1.2 LỊCH SỬ NGHIÊN CỨU ĐỀ TÀI ...................................................................... 1 1.3 MỤC TIÊU PHẠM VI ĐỀ TÀI .......................................................................... 4 1.4 PHƢƠNG PHÁP NGHIÊN CỨU ....................................................................... 4 1.5 CÁC MỤC TRONG ĐỀ TÀI .............................................................................. 5 CHƢƠNG 2 : CƠ SỞ LÝ THUYẾT ............................................................................. 6 2.1 GIỚI THIỆU HỆ THỐNG PHÁT HIỆN XÂM NHẬP ........................................ 6 2.1.1 Khái niệm về phát hiện xâm nhập: ................................................................ 6 2.1.2 Hệ thống phát hiện xâm nhập - IDS. ............................................................ 6 2.1.3 Hệ thống ngăn chặn xâm nhập - IPS: ............................................................ 7 2.1.4 Các dạng của IDS.......................................................................................... 8 2.1.4.1 Network Based IDS hoặc NIDS: ............................................................. 8 2.1.4.2 Host Based IDS hoặc HIDS: ................................................................... 9 2.1.4.3 Application Based IDS hoặc AIDS: ...................................................... 10 2.2 CÁC HÌNH THỨC TẤN CÔNG XÂM NHẬP MẠNG PHỔ BIẾN. ................. 10 2.2.1 Tấn công do thám (Reconnaissance): .......................................................... 11 2.2.2 Tấn công truy cập (Access acttack): ............................................................ 11 2.2.3 Tấn công từ chối dịch vụ (DoS – Denial of Service): .................................. 13 2.3 CÁC GIẢI THUẬT HỌC DÙNG TRONG PHÂN LOẠI PHÁT HIỆN XÂM NHẬP MẠNG. ........................................................................................................ 15 2.3.1 Giải thuật C4.5 ........................................................................................... 15 2.3.2 Giải thuật Naïve Bayes................................................................................ 16 SVTH: Phan Thế Chinh iii CBHD: Ths.Phạm Hữu Tài Luận văn tốt nghiệp – Đề tài: Xây dựng công cụ phát hiện xâm nhập mạng. 2.3.3 Giải thuật Random Forest: .......................................................................... 16 CHƢƠNG 3 : NỘI DUNG VÀ KẾT QUẢ THỰC HIỆN .......................................... 18 3.1 GIỚI THIỆU TẬP TIN DỮ LIỆU THỬ NGHIỆM KDDCUP‟99. .................... 18 3.2 TIÊU CHÍ ĐÁNH GIÁ ..................................................................................... 25 3.3 MÔ TẢ NỘI DUNG THỰC HIỆN. .................................................................. 26 3.3.1 Giới thiệu dữ liệu và các giải thuật xây dựng. ............................................. 26 3.3.1.1 Giới thiệu dữ liệu: .................................................................................. 26 3.3.1.2 Các giải thuật xây dựng: ........................................................................ 33 3.3.2 Giới thiệu chƣơng trình. .............................................................................. 39 3.4 KẾT QUẢ ĐẠT ĐƢỢC. ................................................................................... 44 CHƢƠNG 4 : KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN ........................................... 47 4.1 KẾT LUẬN. ..................................................................................................... 47 4.2 HƢỚNG PHÁT TRIỂN. ................................................................................... 48 TÀI LIỆU THAM KHẢO ........................................................................................... 49 PHỤ LỤC ................................................................................................................... 51 SVTH: Phan Thế Chinh iv CBHD: Ths.Phạm Hữu Tài Luận văn tốt nghiệp – Đề tài: Xây dựng công cụ phát hiện xâm nhập mạng. DANH MỤC HÌNH Hình 1.1 - Sơ đồ mô tả yêu cầu hoạt động của hệ thống. Hình 2.1 – Mô hình hệ thống ngăn ngừa xâm nhập mạng. Hình 2.2 – Mô tả hệ thống phát hiện xâm nhập mạng dạng NIDS. Hình 2.3 – Mô tả hệ thống phát hiện xâm nhập dạng HIDS đƣợc cài đặt trên các máy chủ, PC. Hình 2.4 – Các hình thức tấn công trên mạng. Hình 2.5 – Quá trình bắt tay 3 chiều của TCP. Hình 2.6 – Quá trình thực hiện tấn công của hacker. Hình 2.7 – Mô hình kiểu tấn công từ chối dịch vụ phân tán DDoS. Hình 3.1 – So sánh phân phối xác suất giữa tập huấn luyện đầy đủ và tập huấn luyện 10%. Hình 3.2 – Số lƣợng các mẫu phân loại trong tập huấn luyện 10%. Hình 3.3 – Số lƣợng các mẫu phân loại trong tập kiểm tra 10 %. Hình 3.4 – Sơ đồ mô tả các bƣớc xây dựng cây từ tập tin kết quả cây quyết định. Hình 3.5 – Sơ đồ mô tả quá trình kiểm tra mẫu tin trên cây phân loại. Hình 3.6 – Sơ đồ mô tả quá trình so sánh giá trị của nút con với giá trị tƣơng ứng thuộc tính của nút con trên mẫu tin. Hình 3.7 – Sơ đồ Use Case mô tả chức năng chính của hệ thống. Hình 3.8 - Lƣợc đồ mô tả chức năng chính của chƣơng trình. Hình 3.9 – Module xây dựng cây phân loại và tích hợp cây vào các module kế. Hình 3.10 – Module phân loại dữ liệu kiểm tra thành hai nhóm good – bad trên tập huấn luyện 10%. Hình 3.11 – Module phân loại dữ liệu kiểm tra thành hai nhóm good – bad trên tập kiểm tra 10%. Hình 3.12 – Module phân loại dữ liệu kiểm tra thành năm nhóm trên tập huấn luyện 10%. Hình 3.13 – Module phân loại dữ liệu kiểm tra thành năm nhóm trên tập kiểm tra 10%. Hình 3.14 – Module phân loại chi tiết kiểu tấn công. Hình 3.15 – Mô tả kiểu tấn công do thám. Hình 3.16 – Kết quả kiểm tra phân loại trên tập huấn luyện 10%. Hình 3.17 – Kết quả kiểm tra phân loại trên tập kiểm tra 10%. SVTH: Phan Thế Chinh v CBHD: Ths.Phạm Hữu Tài Luận văn tốt nghiệp – Đề tài: Xây dựng công cụ phát hiện xâm nhập mạng. DANH MỤC BẢNG Bảng 1.1 – Kết quả thực nghiệm của Ben-Amor et al. Bảng 1.2 – Kết quả thực nghiệm giải thuật C4.5 cải tiến của Bouzida & Cuppens. Bảng 3.1 - Mô tả tên và kiểu các thuộc tính trong tập dữ liệu thử nghiệm kddcup‟99. Bảng 3.2 – Nhóm các loại tấn công trong tập dữ liệu kddcup‟99. Bảng 3.3 – Nhóm các đặc điểm cơ bản của các mẫu kết nối TCP riêng biệt. Bảng 3.4 – Nhóm các đặc điểm lƣu thông. Bảng 3.5 – Nhóm các đặc điểm nội dung bên trong một kết nối. Bảng 3.6 – Ma trận chi phí dùng để đánh giá kết quả trong cuộc thi kddcup‟99. SVTH: Phan Thế Chinh vi CBHD: Ths.Phạm Hữu Tài Luận văn tốt nghiệp – Đề tài: Xây dựng công cụ phát hiện xâm nhập mạng. DANH MỤC TỪ VIẾT TẮT AIDS : Application- based IDS CART : Classification and Regression Trees. DDoS : Distributed Denial of Service. DoS : Denial of Service HIDS : Host-based Intrusion Detection System IDS : Intrusion Detection System. IPS : Intrusion Prevention System. IPSec : Internet Protocol Security NIDS : Network-based Intrusion Detection System. OS : Operating System. OSI : Open Systems Interconnection Reference Model. R2L : Remote to Local SSH : Secure Shell. SSL : Secure Socket Layer. TCP : Transmission Control Protocol. U2R : User to Root. SVTH: Phan Thế Chinh vii CBHD: Ths.Phạm Hữu Tài Luận văn tốt nghiệp – Đề tài: Xây dựng công cụ phát hiện xâm nhập mạng. TÓM TẮT LUẬN VĂN Ngày nay, với sự phát triển mạnh mẽ của công nghệ thông tin và truyền thông đã đem lại những lợi ích và ứng dụng vô cùng to lớn cho con ngƣời. Internet dần dần đã trở thành một phần không thể thiếu trong cuộc sống của con ngƣời, việc trao đổi thông tin qua mạng hiện tại không còn xa lạ với con ngƣời. Tuy nhiên, bên cạnh những thuận lợi của việc sử dụng Internet đi kèm với nó là những bâng khuân lo lắng của ngƣời dùng về việc một số cá nhân, tổ chức lợi dụng mạng Internet làm công cụ để sử dụng cho mục đích xấu nhƣ thâm nhập đánh cấp thông tin bất hợp pháp. Mà thiệt hại do xâm nhập, tấn công trên mạng gây ra là vô cùng to lớn. Hiện nay, phát hiện xâm nhập, an ninh mạng là vấn đề đã và đang đƣợc nhiều chuyên gia cũng nhƣ công ty trong lĩnh vực công nghệ thông tin trên thế giới nghiên cứu. Với những giải thuật học nhƣ: các giải thuật di truyền, cây quyết định…. Và gần đây, kĩ thuật khai phá dữ liệu cũng đƣợc ứng dụng vào xây dựng hệ thống phát hiện xâm nhập dựa trên các giải thuật cụ thể nhƣ C4.5, Naïve Bayes, Random Forest,… An ninh mạng luôn là vấn đề cần quan tâm của các nhà quản trị. Bằng cách vận dụng các giải thuật trên ngƣời dùng có thể tạo cho mình một công cụ hữu ích hỗ trợ trong việc phát hiện xâm nhập tấn công mà không cần chi trả cho khoản phí nào. Các từ khóa: C4.5, Naïve Bayes, Random Forest. SVTH: Phan Thế Chinh viii CBHD: Ths.Phạm Hữu Tài Luận văn tốt nghiệp – Đề tài: Xây dựng công cụ phát hiện xâm nhập mạng. ABSTRACT Today, with the strong development of information technology and communication has brought the benefits and tremendous application to humans. Internet has gradually become an indispensable part of human life, the exchange of information through the existing network is not new to humans. However, besides the advantages of Internet use is associated with signs of the user porter worry about a number of individuals and organizations taking advantage of the Internet as a tool to use for bad purposes penetrating type of illegal information. That damage caused by intrusion, cyber attacks caused is enormous. Currently, intrusion detection, network security issue has been many experts as well as companies in the field of information technology research in the world. With the learning algorithm such as genetic algorithms, decision trees .... Recently, datamining techniques are also applied to build intrusion detection system based on specific algorithms such as C4.5, Naive Bayes, Random Forest, ... Network security is always a problem to the attention of administrators. By applying the algorithm on the user can create a useful tool to support intrusion detection attack without pay for any charges. Keywords: C4.5, Naive Bayes, Random Forest. SVTH: Phan Thế Chinh ix CBHD: Ths.Phạm Hữu Tài Chương 1: Tổng quan CHƢƠNG 1 : TỔNG QUAN 1.1 GIỚI THIỆU TÓM TẮT Ngày nay, với sự phát triển mạnh mẽ của công nghệ thông tin và truyền thông đã đem lại những lợi ích và ứng dụng vô cùng to lớn cho con ngƣời, thay đổi nhiều mô hình kinh doanh và quản lý trong các tổ chức, công ty trên toàn thế giới. Do nhu cầu trao đổi thông tin qua lại ngày càng trở nên phổ biến từ đó mạng máy tính ra đời, mở rộng không ngừng tạo nên hệ thống mạng Internet toàn cầu. Internet dần dần đã trở thành một phần không thể thiếu trong cuộc sống của con ngƣời, việc trao đổi thông tin qua mạng hiện tại không còn xa lạ với con ngƣời. Tuy nhiên, bên cạnh những thuận lợi của việc sử dụng Internet đi kèm với nó là những bâng khuân lo lắng của ngƣời dùng về việc một số cá nhân, tổ chức lợi dụng mạng Internet làm công cụ để sử dụng cho mục đích xấu nhƣ thâm nhập đánh cấp thông tin bất hợp pháp. Mà thiệt hại do xâm nhập, tấn công trên mạng gây ra là vô cùng to lớn. Để hạn chế các thiệt hại do việc thâm nhập bất hợp pháp và tấn công hệ thống, các mạng máy tính cần có các chính sách hợp lý cho các ngƣời dùng thâm nhập mạng. Tuy nhiên, việc thâm nhập mạng với mục đích không tốt thƣờng rất đa dạng và luôn cải tiến nên các biện pháp phòng chống thƣờng không hiệu quả sau một thời gian đƣợc cài đặt. Thêm vào đó, tám mƣơi phần trăm việc tấn công mạng xảy ra từ những ngƣời dùng bên trong hệ thống – những ngƣời biết rõ các hệ thống mạng của công ty hơn, thâm nhập dễ dàng hơn cuộc tấn công hệ thống mạng từ bên ngoài. Mặc dù các công ty, đơn vị có cài đặt hệ thống mạng phục vụ cho các tác nghiệp của đơn vị đã ý thức thiết lập các chính sách ngƣời dùng trong hệ thống cũng nhƣ xác lập các biện pháp phòng chống tấn công; tuy nhiên, không có hệ thống nào đảm bảo đƣợc an toàn tuyệt đối . Có nhiều cách, nhiều kỷ thuật để phát hiện xâm nhập tấn công mạng bằng cách vận dụng những giải thuật học nhƣ: các giải thuật cây quyết định, giải thuật di truyền hoặc phƣơng pháp kiểm soát lối vào, ngăn cản sự xâm nhập trái phép vào hệ thống ….Trong lần thực hiện luận văn tốt nghiệp lần này em chọn thực hiện lại đề tài “ Xây dựng công cụ phát hiện xâm nhập mạng” dựa vào kết quả của giải thuật học cây quyết định C4.5, dƣới sự hƣớng dẫn của Thạc sĩ Phạm Hữu Tài – giảng viên khoa Công nghệ thông tin và truyền thông, trƣờng Đại học Cần Thơ. 1.2 LỊCH SỬ NGHIÊN CỨU ĐỀ TÀI Sau đây em sẽ trình bày các nghiên cứu liên quan đến phát hiện xâm nhập tấn công mạng đã đƣợc nghiên cứu thực hiện trƣớc đó: - Ben-Amor et al. đã nghiên cứu so sánh kết quả giữa hai giải thuật đƣợc sử dụng trong hệ thống phát hiện xâm nhập là Naïve Bayes và cây quyết định.Trong nghiên cứu này, cách thức thực nghiệm của nhóm là tập trung vào ba trƣờng hợp liên SVTH: Phan Thế Chinh 1 CBHD: Ths.Phạm Hữu Tài Chương 1: Tổng quan quan đến các xâm nhập tấn công để xử lý: toàn bộ các loại tấn công(whole-attacks), nhóm các loại tấn công đã nhận dạng thành 5 nhóm (5-classes: Normal, DoS, Probe, U2R, R2L) và nhóm các loại xâm nhập tấn công đã nhận dạng thành 2 nhóm (2-classes: normal, abnormal). Các thực nghiệm đƣợc thực hiện trên các nhóm bằng cách so sánh kết quả của trên cùng tập kiểm tra nhƣng có sự khác biệt từ tập huấn luyện trƣớc khi đƣợc tiền xử lý vào các nhóm nhƣ nêu trên: tập huấn luyện trƣớc phân loại (24 kiểu tấn công) và tập huấn luyện sau khi đã phân loại (38 kiểu tấn công). Kết quả thực nghiệm chỉ ra rằng kết quả thực nghiệm trên Naïve Bayes không tốt bằng khi thực nghiệm trên cây quyết định nhƣng sự khác biệt này là không đáng kể, nhƣng bù lại, thời gian học và phân loại trên Naïve Bayes nhanh hơn gấp 7 lần so với cùng thực nghiệm với giải thuật dùng cây quyết định trên cùng cấu hình máy. [4] Normal DoS R2L U2R Probing Winning Strategy Decision Trees Naïve Bayes 99.50% 99.50% 97.68% 97.10% 97.24% 96.65% 8.40% 0.52% 8.66% 13.20% 13.60% 11.84% 83.30% 77.92% 88.33% Bảng 1.1 – Kết quả thực nghiệm của Ben-Amor et al. - Stein et al. đã dùng giải thuật di truyền, qua đó chọn một tập con các thuộc tính đầu vào cho bộ phân loại dùng cây quyết định với mục đích làm tăng tốc độ phát hiện và giảm tỉ lệ cảnh báo lỗi trong phát hiện xâm nhập mạng. Họ đã thực nghiệm trên tập kddcup‟99, và các loại xâm nhập tấn công trong tập huấn luyện cũng đƣợc xử lý thành 5 loại: Normal, DoS, Probe, U2R, R2L. Tuy nhiên, nhóm nghiên cứu đã thực hiện theo cách thức khác so với các thực nghiệm trƣớc đó: Họ chia tập huấn luyện và tập kiểm tra vào 4 tập huấn luyện nhỏ hơn cho từng loại xâm nhập tấn công đề huấn luyện cho từng loại xâm nhập tấn công riêng biệt (ví dụ: tập huấn luyện và tập kiểm tra cho DoS bao gồm các mẫu tấn công DoS và các mẫu kết nối bình thƣờng) và mỗi loại tấn công, họ chia tập huấn huấn luyện của nó thành 10 tập tin có kích thƣớc bằng nhau. Một trong số đó đƣợc chọn làm tập huấn luyện, các tập tin còn lại đƣợc xem nhƣ là các tập phê chuẩn (validation). Sau đó, thực nghiệm trên 4 loại và xây dựng cây quyết định cho mỗi loại. Các thí nghiệm chỉ ra rằng kết quả đƣợc thực hiện nhƣ trên có thể tốt hơn so với thí nghiệm dùng toàn bộ các thuộc tính trong tập dữ liệu. [1][5] - Zhang & Zulkernine áp dụng giải thuật Random Forests của L. Breiman [8] cho chƣơng trình phát hiện xâm nhập mạng. Họ đã cố gắng tạo cân bằng cho tập dữ liệu huấn luyện bằng cách làm giảm số mẫu của lớp đa số (majority class) và tăng số mẫu của lớp thiểu số (minority class). Thêm vào đó, nhóm đã giảm bớt 3 thuộc tính đƣợc đánh giá là ít quan trọng trong phân loại qua đó, việc phân loại chỉ thực hiện trên 38 SVTH: Phan Thế Chinh 2 CBHD: Ths.Phạm Hữu Tài Chương 1: Tổng quan thuộc tính còn lại. Cách thực nghiệm này cho kết quả tốt hơn kết quả của ngƣời thắng giải trong cuộc thi kddcup‟99. [1] [6] - Bouzida & Cuppens đã đề nghị sửa đổi giải thuật C4.5 (Quinlan, 1993) để khai phá các xâm nhập tấn công đã biết và chƣa biết. Trong tập dữ liệu kddcup‟99, có một số kiểu xâm nhập tấn công mới có trong tập kiểm tra (test set) nhƣng không có trong tập huấn luyện (training set); điều này sẽ làm cho việc phân loại không dễ dàng phân loại đúng cho các kiểu xâm nhập tấn công mới đó và nhƣ vậy, bộ phân loại sẽ phân loại các mẫu vào trong các nhóm có „dạng‟ gần với chúng, thông thƣờng là dạng kết nối bình thƣờng (normal). Vì vấn đề này, họ đã giới thiệu một nguyên tắc: một lớp mặc định (default class) đƣợc ký hiệu là lớp mới để gán cho bất kỳ một lớp mới mà nó không tƣơng ứng với một lớp nào trong tập huấn luyện. Vì vậy, nếu bất kỳ một trƣờng hợp mới nào không phù hợp với các luật đƣợc phát ra bởi cây quyết định thì trƣờng hợp đó đƣợc phân loại là lớp mới thay thì gán nó vào một lớp mặc định. Tuy nhiên, việc cài đặt thí nghiệm của nhóm có khác lạ là họ đã dùng tập kiểm tra để huấn luyện và thông báo kết quả trên tập con (10%) của tập huấn luyện. [1][7] Dự đoán Normal Probing DoS U2R R2L New Loại thật sự Normal 99.43% 0.40% 0.12% 0.01% 0.00% 0.04% Probing 8.19% 72.73% 2.45% 0.00% 6.58% 10.06% DoS 2.26% 0.06% 97.14% 0.00% 0.18% 0.36% U2R 21.93% 4.39% 0.44% 7.02% 5.26% 60.96% R2L 79.41% 14.85% 0.00% 0.70% 2.85% 2.20% Bảng 1.2 – Kết quả thực nghiệm giải thuật C4.5 cải tiến của Bouzida & Cuppens. Mặc dù có nhiều nghiên cứu cho vấn đề này trong những năm qua, hầu hết các cách tiếp cận không thể đạt đƣợc kết quả tốt toàn diện so với kết quả của ngƣời chiến thắng trong cuộc thi kddcup‟99. Hơn nữa, tiêu chí đánh giá hiệu quả của các phƣơng pháp rất khác nhau, trƣớc hết là nói đến tập dữ liệu đánh giá, nghi thức kiểm tra, độ chính xác, chi phí. Một điều quan trọng mà hầu hết các ứng dụng trong thực tế của bài toán phát hiện xâm nhập tấn công phải quan tâm đến là việc tạo ra các luật dễ dàng dạng « nếu (điều kiện) thì (dự đoán tƣơng ứng) ». Nếu chúng ta sử dụng những phƣơng pháp phức tạp, khó diễn dịch kết quả, thì việc tạo ra các luật dự báo sẽ rất khó khăn, không có tính ứng dụng cao trong thực tiễn. Gần đây nhất với nghiên cứu của Hồ Nam Nhi, xây dựng ứng dụng phát hiện xâm nhập mạng cũng dựa trên kết quả giải thuật học cây quyết định C4.5 sinh ra các luật dạng “nếu (điều kiện) thì (dự đoán tƣơng ứng) “, cho kết quả với độ chính xác cũng khá cao tuy nhiên thời gian thực hiện đi kèm cũng tƣơng đối cao. Bởi vì với mỗi mẫu SVTH: Phan Thế Chinh 3 CBHD: Ths.Phạm Hữu Tài Chương 1: Tổng quan tin trong tập dữ liệu tƣơng ứng có thể phải đƣợc kiểm tra trên nhiều dòng luật gần giống nhau mới có thể đƣa ra kết quả. [3] 1.3 MỤC TIÊU PHẠM VI ĐỀ TÀI Tìm hiểu sơ lƣợt các hệ thống phát hiện xâm nhập, các loại tấn công xâm nhập mạng phổ biến hiện nay. Tìm hiểu sơ lƣợt các giải thuật thƣờng dùng trong xây dựng hệ thống phân loại tấn công nhƣ: giải thuật C4.5, Ramdom Forest, Naïve Bayes, giải thuật di truyền…. Từ kết quả của giải thuật học cây quyết định C4.5, nghiên cứu xây dựng nên cây phân loại sử dụng cho việc phân loại phát hiện xâm nhập mạng với đầu vào là tập tin nhật ký đã đƣợc ghi nhận và đầu ra là kết quả phân loại xem hệ thống có bị tấn công không và bị những loại tấn công nào. Dữ liệu thô Tập huấn luyện Giải thuật: C4.5, Random Forest, Naïve Bayes…. Tiền xử lý Dữ liệu Cây phân loại hai nhóm Kết quả phân loại 2 nhóm Cây phân loại năm nhóm Kết quả phân loại 5 nhóm Cây phân loại chi tiết Kết quả phân loại chi tiết Tập dữ liệu cần kiểm tra Hình 1.1 Sơ đồ mô tả yêu cầu hoạt động của hệ thống. 1.4 PHƢƠNG PHÁP NGHIÊN CỨU Phƣơng pháp nghiên cứu trong đề tài là phƣơng pháp nghiên cứu ứng dụng. Từ các lý thuyết về các giải thuật học, các thực nghiệm của các nhóm (nhà) nghiên cứu, lựa chọn một giải thuật phù hợp với tiêu chí đề ra ban đầu, xây dựng một công cụ phát hiện xâm nhập bất thƣờng trên hệ thống. Trong đề tài này dựa trên kết quả giải thuật học cây quyết định đƣợc thực thi trên chƣơng trình weka [1] trên tập dữ liệu kddcup‟99 SVTH: Phan Thế Chinh 4 CBHD: Ths.Phạm Hữu Tài Chương 1: Tổng quan (http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html), là một cây phân loại với các nút lá là các phân loại tấn công, để xây dựng một công cụ phát hiện xâm nhập tấn công mạng có thể ứng dụng vào thực tế. Tuần tự các bƣớc thực hiện trong đề tài: • Nghiên cứu lý thuyết liên quan đến đề tài. • Tìm hiểu, nghiên cứu vận dụng các kiến thức có liên quan để thực hiện đề tài. • Xây dựng công cụ, so sánh và ghi nhận kết quả. • Kết luận, đề xuất hƣớng phát triển cho tƣơng lai. 1.5 CÁC MỤC TRONG ĐỀ TÀI Chƣơng 2 định nghĩa giới thiệu hệ thống phát hiện xâm nhập, một số loại hình tấn công trên mạng và các giải thuật thƣờng dùng trong phân loại phát hiện xâm nhập mạng. Chƣơng 3 trình bày cách thức xây dựng nên ứng dụng và kết quả thu đƣợc. Chƣơng 4 đƣa ra kết luận nhận xét dựa trên kết quả thực hiện, đề xuất hƣớng phát triển trong tƣơng lai. SVTH: Phan Thế Chinh 5 CBHD: Ths.Phạm Hữu Tài Chương 2: Cơ sở lý thuyết CHƢƠNG 2 : CƠ SỞ LÝ THUYẾT 2.1 GIỚI THIỆU HỆ THỐNG PHÁT HIỆN XÂM NHẬP 2.1.1 Khái niệm về phát hiện xâm nhập: Phát hiện xâm nhập là tiến trình theo dõi các sự kiện xảy ra trên một hệ thống máy tính hay hệ thống mạng, phân tích chúng để tìm ra các dấu hiệu “xâm nhập bất hợp pháp”. Xâm nhập bất hợp pháp đƣợc định nghĩa là sự cố gắng tìm mọi cách để xâm hại đến tính toàn vẹn, tính sẵn sàng, tính có thể tin cậy hay là sự cố gắng vƣợt qua các cơ chế bảo mật của hệ thống máy tính hay mạng đó. Việc xâm nhập có thể là xuất phát từ một kẻ tấn công nào đó trên mạng Internet nhằm giành quyền truy cập hệ thống hoặc của tổ chức nhằm đánh cấp thông tin bảo mật hay cũng có thể là một ngƣời dùng đƣợc phép trong hệ thống đó muốn chiếm đoạt các quyền khác mà họ chƣa đƣợc cấp phát, phần lớn các cuộc tấn công xâm nhập từ bên trong tổ chức là rất nguy hiểm có thể dẫn đến thiệt hại không thể lƣờng trƣớc đƣợc bởi vì họ là ngƣời nắm rõ hệ thống nhất và dễ dàng truy cập vào hệ thống.[9] 2.1.2 Hệ thống phát hiện xâm nhập - IDS. Hệ thống phát hiện xâm nhập (Intrusion Detection System – IDS) là hệ thống phần cứng hoặc phần mềm có chức năng tự động theo dõi các sự kiện xảy ra trên hệ thống máy tính, phân tích để phát hiện ra các vấn đề liên quan đến an ninh, bảo mật. Khi mà số vụ tấn công, đột nhập vào các hệ thống máy tính, mạng ngày càng tăng, hệ thống phát hiện xâm nhập càng có ý nghĩa quan trọng và cần thiết hơn trong nền tảng bảo mật của các tổ chức. Thực tế thì IDS nhƣ chỉ nói cho chúng ta biết rằng mạng đang bị nguy hiểm. Giá trị chính của một hệ thống phát hiện xâm nhập đó là nó biết đƣợc chuyện gì sẽ và đang xảy ra cho nên chức năng chính của hệ thống phát hiện xâm nhập là nó thông báo cho ngƣời dùng biết về các sự kiện có liên quan đến an ninh hệ thống đang sắp sửa xảy ra bên trong mạng về hệ thống mà ngƣời dùng đang kiểm soát. Các dạng chính của IDS là: Network Based IDS, Host Based IDS và Application Based IDS.  Chức năng của IDS: + Chức năng quan trọng nhất là: - Giám sát lƣu lƣợng mạng và các hoạt động khả nghi. - Cảnh báo, báo cáo về tình trạng mạng cho hệ thống và nhà quản trị. - Dùng những thiết lập mặt định và sự cấu hình từ nhà quản trị mà có những hành động thiết thực bảo vệ chống lại kẻ xâm nhập tấn công. + Chức năng mở rộng: - Phân biệt tấn công bên trong và tấn công bên ngoài. SVTH: Phan Thế Chinh 6 CBHD: Ths.Phạm Hữu Tài Chương 2: Cơ sở lý thuyết Phát hiện những dấu hiệu bất thƣờng dựa trên những gì đã biết hoặc nhờ vào sự so sánh thông lƣợng mạng hiện tại với baseline. + Ngoài ra IDS còn có những chức năng sau: - Ngăn chặn sự gia tăng của những tấn công. - Bổ sung những điểm yếu mà các hệ thống khác chƣa làm đƣợc. - Đánh giá chất lƣợng của việc thiết kế hệ thống. - 2.1.3 Hệ thống ngăn chặn xâm nhập - IPS: Hệ thống IPS (intrusion prevention system) là một kỹ thuật an ninh mới, kết hợp các ƣu điểm của kỹ thuật firewall với hệ thống phát hiện xâm nhập IDS (intrusion detection system), có khả năng phát hiện sự xâm nhập, các cuộc tấn công và tự động ngăn chặn các cuộc tấn công đó. IPS không đơn giản chỉ dò các cuộc tấn công, chúng có khả năng ngăn chặn các cuộc hoặc cản trở các cuộc tấn công đó. Chúng cho phép tổ chức ƣu tiên, thực hiện các bƣớc để ngăn chặn lại sự xâm nhập. Phần lớn hệ thống IPS đƣợc đặt ở vành đai mạng, đủ khả năng bảo vệ tất cả các thiết bị trong mạng. Hình 2.1 – Mô hình hệ thống ngăn ngừa xâm nhập mạng.  Chức năng của IPS: Chức năng IPS mô tả nhƣ là kiểm tra gói tin, phân tích có trạng thái, ráp lại các đoạn, ráp lại các TCP-segment, kiểm tra gói tin sâu, xác nhận tính hợp lệ giao thức và thích ứng chữ ký. Một IPS hoạt động giống nhƣ một ngƣời bảo vệ gác cổng cho một khu dân cƣ, cho phép và từ chối truy nhập dựa trên cơ sở các uỷ nhiệm và tập quy tắc nội quy nào đó. SVTH: Phan Thế Chinh 7 CBHD: Ths.Phạm Hữu Tài Chương 2: Cơ sở lý thuyết Các giải pháp IPS “Ngăn ngừa Xâm nhập” nhằm mục đích bảo vệ tài nguyên, dữ liệu và mạng. Chúng sẽ làm giảm bớt những mối đe doạ tấn công bằng việc loại bỏ những lƣu lƣợng mạng có hại hay có ác ý trong khi vẫn cho phép các hoạt động hợp pháp tiếp tục. 2.1.4 Các dạng của IDS. 2.1.4.1 Network Based IDS hoặc NIDS: Là các hệ thống phát hiện tấn công, nó có thể bắt giữ các gói tin đƣợc truyền trên các thiết bị mạng (cả hữu tuyến và vô tuyến) và so sánh chúng với cơ sở dữ liệu các tín hiệu. Một Network-Based IDS sẽ kiểm tra các giao tiếp trên mạng với thời gian thực (real-time). Nó kiểm tra các giao tiếp, quét header của các gói tin, và có thể kiểm tra nội dung của các gói đó để phát hiện ra các đoạn mã nguy hiểm hay các dạng tấn công khác nhau. Một Network-Based IDS hoạt động tin cậy trong việc kiểm tra, phát hiện các dạng tấn công trên mạng, ví dụ nhƣ dựa vào băng thông (bandwidth-based) của tấn công Denied of Service (DoS). Hình 2.2 – Mô tả hệ thống phát hiện xâm nhập mạng dạng NIDS. [9]  Lợi thế của Network-Based IDS: - Quản lý đƣợc cả một network segment (gồm nhiều host). - "Trong suốt" với ngƣời sử dụng lẫn kẻ tấn công. - Cài đặt và bảo trì đơn giản, không ảnh hƣởng tới mạng. - Tránh DOS ảnh hƣởng tới một host nào đó. SVTH: Phan Thế Chinh 8 CBHD: Ths.Phạm Hữu Tài Chương 2: Cơ sở lý thuyết - Có khả năng xác định lỗi ở tầng Network (trong mô hình OSI). - Độc lập với OS.  Hạn chế của Network-Based IDS: - Có thể xảy ra trƣờng hợp báo động giả (false positive), tức không có xâm nhập mà NIDS báo là có. - Không thể phân tích các lƣu thông đã đƣợc mã hóa (vd: SSL, SSH, IPSec…) - NIDS đòi hỏi phải đƣợc cập nhật các signature mới nhất để thực sự an toàn - Có độ trễ giữa thời điểm bị tấn công với thời điểm phát báo động. Khi báo động đƣợc phát ra, hệ thống có thể đã bị tổn hại. - Không cho biết việc tấn công có thành công hay không. 2.1.4.2 Host Based IDS hoặc HIDS: HIDS đƣợc cài đặt cục bộ trên một máy tính làm cho nó trở nên linh hoạt hơn nhiều so với NIDS. HIDS có thể đƣợc cài đặt trên nhiều dạng máy tính khác nhau cụ thể nhƣ các máy chủ, máy trạm, máy tính notebook. HIDS cho phép bạn thực hiện một cách linh hoạt trong các đoạn mạng mà NIDS không thể thực hiện đƣợc. Lƣu lƣợng đã gửi tới host đƣợc phân tích và chuyển qua host nếu chúng không tiềm ẩn mã nguy hiểm. HIDS ƣu việt hơn NIDS ở việc thay đổi các máy tính cục bộ. Trong khi đó NIDS tập trung vào cả mạng lớn có các host đó. HIDS cụ thể hơn đối với các nền ứng dụng và phục vụ mạnh mẽ cho thị trƣờng Windows trong thế giới máy tính, mặc dù vậy vẫn có các sản phẩm hoạt động trong nền ứng dụng UNIX và nhiều hệ điều hành khác. Những hệ thống phát hiện xâm nhập này có thể xem những tệp tin log của các trình ứng dụng hoặc của hệ thống để phát hiện những hành động xâm nhập. Hình 2.3 – Mô tả hệ thống phát hiện xâm nhập dạng HIDS đƣợc cài đặt trên các máy chủ, PC SVTH: Phan Thế Chinh 9 CBHD: Ths.Phạm Hữu Tài Chương 2: Cơ sở lý thuyết  Lợi thế của HIDS: - Có khả năng xác định ngƣời dùng liên quan tới một sự kiện (event). - HIDS có khả năng phát hiện các cuộc tấn công diễn ra trên một máy, NIDS không có khả năng này. - Có thể phân tích các dữ liệu mã hoá. - Cung cấp các thông tin về host trong lúc cuộc tấn công diễn ra trên host này.  Hạn chế của HIDS: - Thông tin từ HIDS là không đáng tin cậy ngay khi sự tấn công vào host này thành công. - Khi OS bị "hạ" do tấn công, đồng thời HIDS cũng bị "hạ". - HIDS phải đƣợc thiết lập trên từng host cần giám sát . - HIDS không có khả năng phát hiện các cuộc dò quét mạng (Nmap, Netcat…). - HIDS cần tài nguyên trên host để hoạt động. - HIDS có thể không hiệu quả khi bị DOS. - Đa số chạy trên hệ điều hành Window. Tuy nhiên cũng đã có 1 số chạy đƣợc trên UNIX và những hệ điều hành khác. 2.1.4.3 Application Based IDS hoặc AIDS: Một Application- based IDS (AIDS) cũng giống nhƣa một HIDS đƣợc thiết kế để giám sát một ứng dụng cụ thể (tƣơng tự nhƣ một phần mềm chống virus đƣợc thiết kế đặc biệt để giám sát một server mail). AIDS cực kỳ chính xác trong việc phát hiện các phần mềm độc hại tấn công các ứng dụng cái mà cần đƣợc bảo vệ. AIDS giám sát sự tƣơng tác giữa ngƣời dùng và ứng dụng, với dấu vết hoạt động của từng ngƣời dùng cá nhân. AIDS làm việc với các ứng dụng truy cập dữ liệu đã đƣợc mã hóa vì nó giao dịch với các ứng dụng tại thiết bị đầu cuối nơi mà thông tin đƣợc trình bày cho ngƣời dùng không đƣợc mã hóa. Tuy nhiên, loại IDS đặc biệt này có thể không phát hiện đƣợc các cuộc tấn công không nhằm vào các ứng dụng đó. Các hacker cũng biết đến và tìm cách tắt đi các hệ thống AIDS. 2.2 CÁC HÌNH THỨC TẤN CÔNG XÂM NHẬP MẠNG PHỔ BIẾN. Tấn công, xâm nhập mạng chúng ta có thể gọi chung là dạng có hại cho máy tính, các tấn công có thể xuất phát từ các công cụ đƣợc thiết kế sẵn, hoặc khai thác các điểm yếu của hệ thống. Thiệt hại do tấn công gây ra có thể làm hƣ hỏng dữ liệu hoặc ngƣng trệ hoạt động, không làm hƣ hại dữ liệu và hệ thống (chẳng hạn ăn trộm thông tin) nhƣng tác hại có thể lớn hơn. Hiện nay có nhiều hình thức tấn công trên mạng điển hình nhƣ hình bên dƣới: SVTH: Phan Thế Chinh 10 CBHD: Ths.Phạm Hữu Tài Chương 2: Cơ sở lý thuyết Hình 2.4 – Các hình thức tấn công trên mạng.[10] Có thể phân chia tấn công ra làm một số loại chính sau: Tấn công do thám, tấn công truy cập, tấn công từ chối dịch vụ,….. 2.2.1 Tấn công do thám (Reconnaissance): Tấn công do thám là loại hình tấn công không phải với mục đích chiếm đoạt hệ thống mà chỉ tìm kiếm thông tin để có thể khai thác sau này. Các thông tin cần ghi nhận của kiểu tấn công do thám: địa chỉ IP, các dịch vụ đang sử dụng, cổng của các ứng dụng nào đang mở, hệ điều hành đang sử dụng, phiên bản Web Server nào đang sử dụng… Hacker gửi gói ICMP request đến địa chỉ đích hoặc gửi cho cả nhánh mạng đích. Host nào phản hồi lại chứng tỏ host đó tồn tại và đang hoạt động các công cụ thƣờng sử dụng để quét địa chỉ thông dụng nhƣ: fping, network Sonar, ping sweep….Sau khi xác định đƣợc đỉa chỉ IP hacker sử dụng các công cụ hổ trợ để quét ra cổng dịch vụ đang sử dụng trên các địa chỉ IP, xác định loại ứng dụng và phiên bản đang sử dụng cũng nhƣ phiên bản của hệ điều hành chạy trên máy chủ mục tiêu. Dựa trên các thông tin này hacker có thể xác định đƣợc các lỗ hổng tồn tại trong hệ thống giúp cho việc xâm nhập lần sau đƣợc dễ dàng và nhanh hơn. Kẻ tấn công từ bên trong thì có thể nghe trộm vào các luồng dữ liệu đang lƣu thông trên mạng. Các công cụ thƣờng dùng nghe lén nhƣ: Wireshark, Packet Inspector, Dsniff…Các thông tin thu thập đƣợc bằng cách nghe lén có thể sử dụng để gây ra các cuộc tấn công khác vào mạng 2.2.2 Tấn công truy cập (Access acttack): Sau khi đã tấn công thăm dò để nắm các thông tin cơ bản về hệ thống đích, hacker tấn công trực tiếp vào hệ thống gọi là tấn công truy cập. Tấn công truy cập là loại tấn công chiếm lấy tài nguyên hệ thống nhƣ file, mật khẩu, quyền điều khiển,…. SVTH: Phan Thế Chinh 11 CBHD: Ths.Phạm Hữu Tài

- Xem thêm -

Tài liệu Xây dựng công cụ phát hiện xâm nhập mạng

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất