TRƢỜNG ĐẠI HỌC CẦN THƠ
KHOA CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC
XÂY DỰNG CÔNG CỤ
PHÁT HIỆN XÂM NHẬP MẠNG
Sinh viên thực hiện
Cán bộ hƣớng dẫn
Phan Thế Chinh
Mssv: 1081636
Ths. Phạm Hữu Tài
Cần Thơ, 5/2012
Luận văn tốt nghiệp – Đề tài: Xây dựng công cụ phát hiện xâm nhập mạng.
LỜI CẢM ƠN
Em xin gởi lời cảm ơn chân thành nhất đến Ths. Phạm Hữu Tài, ngƣời đã tận
tình hƣớng dẫn, giúp đỡ em trong suốt quá trình thực hiện luận văn và tạo điều kiện để
em có thể hoàn thành tốt luận văn này.
Xin trân trọng cám ơn các quý Thầy – Cô trƣờng Đại học Cần Thơ, đặc biệt là
các Thầy Cô khoa Công nghệ thông tin và Truyền thông đã cung cấp và truyền đạt kiến
thức cho em trong suốt thời gian học tập tại trƣờng.
Xin gởi lời cảm ơn đến các bạn ngành Tin học – khóa 34 và đặc biệt là các bạn
học cùng lớp đã chia sẽ và dành cho tôi những hỗ trợ tốt nhất trong quá trình học tập và
hoàn thành tốt luận văn này.
Xin cảm ơn gia đình tôi – nguồn động viên lớn lao và là nguồn động lực cho tôi
vƣợt qua những giai đoạn khó khăn nhất.
Một lần nữa em xin gởi lời cảm ơn, chúc sức khỏe và thành đạt đến tất cả mọi
ngƣời
Xin chân thành cảm ơn !.
Học kỳ II, Năm học 2011 – 2012
Sinh viên thực hiện
Phan Thế Chinh
SVTH: Phan Thế Chinh
ii
CBHD: Ths.Phạm Hữu Tài
Luận văn tốt nghiệp – Đề tài: Xây dựng công cụ phát hiện xâm nhập mạng.
MỤC LỤC
LỜI CẢM ƠN ...............................................................................................................ii
DANH MỤC HÌNH ...................................................................................................... v
DANH MỤC BẢNG .................................................................................................... vi
DANH MỤC TỪ VIẾT TẮT ......................................................................................vii
TÓM TẮT LUẬN VĂN .............................................................................................viii
ABSTRACT................................................................................................................. ix
CHƢƠNG 1 : TỔNG QUAN ........................................................................................ 1
1.1 GIỚI THIỆU TÓM TẮT ..................................................................................... 1
1.2 LỊCH SỬ NGHIÊN CỨU ĐỀ TÀI ...................................................................... 1
1.3 MỤC TIÊU PHẠM VI ĐỀ TÀI .......................................................................... 4
1.4 PHƢƠNG PHÁP NGHIÊN CỨU ....................................................................... 4
1.5 CÁC MỤC TRONG ĐỀ TÀI .............................................................................. 5
CHƢƠNG 2 : CƠ SỞ LÝ THUYẾT ............................................................................. 6
2.1 GIỚI THIỆU HỆ THỐNG PHÁT HIỆN XÂM NHẬP ........................................ 6
2.1.1 Khái niệm về phát hiện xâm nhập: ................................................................ 6
2.1.2 Hệ thống phát hiện xâm nhập - IDS. ............................................................ 6
2.1.3 Hệ thống ngăn chặn xâm nhập - IPS: ............................................................ 7
2.1.4 Các dạng của IDS.......................................................................................... 8
2.1.4.1 Network Based IDS hoặc NIDS: ............................................................. 8
2.1.4.2 Host Based IDS hoặc HIDS: ................................................................... 9
2.1.4.3 Application Based IDS hoặc AIDS: ...................................................... 10
2.2 CÁC HÌNH THỨC TẤN CÔNG XÂM NHẬP MẠNG PHỔ BIẾN. ................. 10
2.2.1 Tấn công do thám (Reconnaissance): .......................................................... 11
2.2.2 Tấn công truy cập (Access acttack): ............................................................ 11
2.2.3 Tấn công từ chối dịch vụ (DoS – Denial of Service): .................................. 13
2.3 CÁC GIẢI THUẬT HỌC DÙNG TRONG PHÂN LOẠI PHÁT HIỆN XÂM
NHẬP MẠNG. ........................................................................................................ 15
2.3.1 Giải thuật C4.5 ........................................................................................... 15
2.3.2 Giải thuật Naïve Bayes................................................................................ 16
SVTH: Phan Thế Chinh
iii
CBHD: Ths.Phạm Hữu Tài
Luận văn tốt nghiệp – Đề tài: Xây dựng công cụ phát hiện xâm nhập mạng.
2.3.3 Giải thuật Random Forest: .......................................................................... 16
CHƢƠNG 3 : NỘI DUNG VÀ KẾT QUẢ THỰC HIỆN .......................................... 18
3.1 GIỚI THIỆU TẬP TIN DỮ LIỆU THỬ NGHIỆM KDDCUP‟99. .................... 18
3.2 TIÊU CHÍ ĐÁNH GIÁ ..................................................................................... 25
3.3 MÔ TẢ NỘI DUNG THỰC HIỆN. .................................................................. 26
3.3.1 Giới thiệu dữ liệu và các giải thuật xây dựng. ............................................. 26
3.3.1.1 Giới thiệu dữ liệu: .................................................................................. 26
3.3.1.2 Các giải thuật xây dựng: ........................................................................ 33
3.3.2 Giới thiệu chƣơng trình. .............................................................................. 39
3.4 KẾT QUẢ ĐẠT ĐƢỢC. ................................................................................... 44
CHƢƠNG 4 : KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN ........................................... 47
4.1 KẾT LUẬN. ..................................................................................................... 47
4.2 HƢỚNG PHÁT TRIỂN. ................................................................................... 48
TÀI LIỆU THAM KHẢO ........................................................................................... 49
PHỤ LỤC ................................................................................................................... 51
SVTH: Phan Thế Chinh
iv
CBHD: Ths.Phạm Hữu Tài
Luận văn tốt nghiệp – Đề tài: Xây dựng công cụ phát hiện xâm nhập mạng.
DANH MỤC HÌNH
Hình 1.1 - Sơ đồ mô tả yêu cầu hoạt động của hệ thống.
Hình 2.1 – Mô hình hệ thống ngăn ngừa xâm nhập mạng.
Hình 2.2 – Mô tả hệ thống phát hiện xâm nhập mạng dạng NIDS.
Hình 2.3 – Mô tả hệ thống phát hiện xâm nhập dạng HIDS đƣợc cài đặt trên các máy
chủ, PC.
Hình 2.4 – Các hình thức tấn công trên mạng.
Hình 2.5 – Quá trình bắt tay 3 chiều của TCP.
Hình 2.6 – Quá trình thực hiện tấn công của hacker.
Hình 2.7 – Mô hình kiểu tấn công từ chối dịch vụ phân tán DDoS.
Hình 3.1 – So sánh phân phối xác suất giữa tập huấn luyện đầy đủ và tập huấn luyện
10%.
Hình 3.2 – Số lƣợng các mẫu phân loại trong tập huấn luyện 10%.
Hình 3.3 – Số lƣợng các mẫu phân loại trong tập kiểm tra 10 %.
Hình 3.4 – Sơ đồ mô tả các bƣớc xây dựng cây từ tập tin kết quả cây quyết định.
Hình 3.5 – Sơ đồ mô tả quá trình kiểm tra mẫu tin trên cây phân loại.
Hình 3.6 – Sơ đồ mô tả quá trình so sánh giá trị của nút con với giá trị tƣơng ứng thuộc
tính của nút con trên mẫu tin.
Hình 3.7 – Sơ đồ Use Case mô tả chức năng chính của hệ thống.
Hình 3.8 - Lƣợc đồ mô tả chức năng chính của chƣơng trình.
Hình 3.9 – Module xây dựng cây phân loại và tích hợp cây vào các module kế.
Hình 3.10 – Module phân loại dữ liệu kiểm tra thành hai nhóm good – bad trên tập
huấn luyện 10%.
Hình 3.11 – Module phân loại dữ liệu kiểm tra thành hai nhóm good – bad trên tập
kiểm tra 10%.
Hình 3.12 – Module phân loại dữ liệu kiểm tra thành năm nhóm trên tập huấn luyện
10%.
Hình 3.13 – Module phân loại dữ liệu kiểm tra thành năm nhóm trên tập kiểm tra 10%.
Hình 3.14 – Module phân loại chi tiết kiểu tấn công.
Hình 3.15 – Mô tả kiểu tấn công do thám.
Hình 3.16 – Kết quả kiểm tra phân loại trên tập huấn luyện 10%.
Hình 3.17 – Kết quả kiểm tra phân loại trên tập kiểm tra 10%.
SVTH: Phan Thế Chinh
v
CBHD: Ths.Phạm Hữu Tài
Luận văn tốt nghiệp – Đề tài: Xây dựng công cụ phát hiện xâm nhập mạng.
DANH MỤC BẢNG
Bảng 1.1 – Kết quả thực nghiệm của Ben-Amor et al.
Bảng 1.2 – Kết quả thực nghiệm giải thuật C4.5 cải tiến của Bouzida & Cuppens.
Bảng 3.1 - Mô tả tên và kiểu các thuộc tính trong tập dữ liệu thử nghiệm kddcup‟99.
Bảng 3.2 – Nhóm các loại tấn công trong tập dữ liệu kddcup‟99.
Bảng 3.3 – Nhóm các đặc điểm cơ bản của các mẫu kết nối TCP riêng biệt.
Bảng 3.4 – Nhóm các đặc điểm lƣu thông.
Bảng 3.5 – Nhóm các đặc điểm nội dung bên trong một kết nối.
Bảng 3.6 – Ma trận chi phí dùng để đánh giá kết quả trong cuộc thi kddcup‟99.
SVTH: Phan Thế Chinh
vi
CBHD: Ths.Phạm Hữu Tài
Luận văn tốt nghiệp – Đề tài: Xây dựng công cụ phát hiện xâm nhập mạng.
DANH MỤC TỪ VIẾT TẮT
AIDS : Application- based IDS
CART : Classification and Regression Trees.
DDoS : Distributed Denial of Service.
DoS : Denial of Service
HIDS : Host-based Intrusion Detection System
IDS : Intrusion Detection System.
IPS : Intrusion Prevention System.
IPSec : Internet Protocol Security
NIDS : Network-based Intrusion Detection System.
OS : Operating System.
OSI : Open Systems Interconnection Reference Model.
R2L : Remote to Local
SSH : Secure Shell.
SSL : Secure Socket Layer.
TCP : Transmission Control Protocol.
U2R : User to Root.
SVTH: Phan Thế Chinh
vii
CBHD: Ths.Phạm Hữu Tài
Luận văn tốt nghiệp – Đề tài: Xây dựng công cụ phát hiện xâm nhập mạng.
TÓM TẮT LUẬN VĂN
Ngày nay, với sự phát triển mạnh mẽ của công nghệ thông tin và truyền thông đã
đem lại những lợi ích và ứng dụng vô cùng to lớn cho con ngƣời. Internet dần dần đã
trở thành một phần không thể thiếu trong cuộc sống của con ngƣời, việc trao đổi thông
tin qua mạng hiện tại không còn xa lạ với con ngƣời. Tuy nhiên, bên cạnh những thuận
lợi của việc sử dụng Internet đi kèm với nó là những bâng khuân lo lắng của ngƣời
dùng về việc một số cá nhân, tổ chức lợi dụng mạng Internet làm công cụ để sử dụng
cho mục đích xấu nhƣ thâm nhập đánh cấp thông tin bất hợp pháp. Mà thiệt hại do xâm
nhập, tấn công trên mạng gây ra là vô cùng to lớn.
Hiện nay, phát hiện xâm nhập, an ninh mạng là vấn đề đã và đang đƣợc nhiều
chuyên gia cũng nhƣ công ty trong lĩnh vực công nghệ thông tin trên thế giới nghiên
cứu. Với những giải thuật học nhƣ: các giải thuật di truyền, cây quyết định…. Và gần
đây, kĩ thuật khai phá dữ liệu cũng đƣợc ứng dụng vào xây dựng hệ thống phát hiện
xâm nhập dựa trên các giải thuật cụ thể nhƣ C4.5, Naïve Bayes, Random Forest,…
An ninh mạng luôn là vấn đề cần quan tâm của các nhà quản trị. Bằng cách vận
dụng các giải thuật trên ngƣời dùng có thể tạo cho mình một công cụ hữu ích hỗ trợ
trong việc phát hiện xâm nhập tấn công mà không cần chi trả cho khoản phí nào.
Các từ khóa:
C4.5, Naïve Bayes, Random Forest.
SVTH: Phan Thế Chinh
viii
CBHD: Ths.Phạm Hữu Tài
Luận văn tốt nghiệp – Đề tài: Xây dựng công cụ phát hiện xâm nhập mạng.
ABSTRACT
Today, with the strong development of information technology and
communication has brought the benefits and tremendous application to humans.
Internet has gradually become an indispensable part of human life, the exchange of
information through the existing network is not new to humans. However, besides the
advantages of Internet use is associated with signs of the user porter worry about a
number of individuals and organizations taking advantage of the Internet as a tool to
use for bad purposes penetrating type of illegal information. That damage caused by
intrusion, cyber attacks caused is enormous.
Currently, intrusion detection, network security issue has been many experts as
well as companies in the field of information technology research in the world. With
the learning algorithm such as genetic algorithms, decision trees .... Recently, datamining techniques are also applied to build intrusion detection system based on specific
algorithms such as C4.5, Naive Bayes, Random Forest, ...
Network security is always a problem to the attention of administrators. By
applying the algorithm on the user can create a useful tool to support intrusion detection
attack without pay for any charges.
Keywords:
C4.5, Naive Bayes, Random Forest.
SVTH: Phan Thế Chinh
ix
CBHD: Ths.Phạm Hữu Tài
Chương 1: Tổng quan
CHƢƠNG 1 : TỔNG QUAN
1.1 GIỚI THIỆU TÓM TẮT
Ngày nay, với sự phát triển mạnh mẽ của công nghệ thông tin và truyền thông đã
đem lại những lợi ích và ứng dụng vô cùng to lớn cho con ngƣời, thay đổi nhiều mô
hình kinh doanh và quản lý trong các tổ chức, công ty trên toàn thế giới. Do nhu cầu
trao đổi thông tin qua lại ngày càng trở nên phổ biến từ đó mạng máy tính ra đời, mở
rộng không ngừng tạo nên hệ thống mạng Internet toàn cầu. Internet dần dần đã trở
thành một phần không thể thiếu trong cuộc sống của con ngƣời, việc trao đổi thông tin
qua mạng hiện tại không còn xa lạ với con ngƣời.
Tuy nhiên, bên cạnh những thuận lợi của việc sử dụng Internet đi kèm với nó là
những bâng khuân lo lắng của ngƣời dùng về việc một số cá nhân, tổ chức lợi dụng
mạng Internet làm công cụ để sử dụng cho mục đích xấu nhƣ thâm nhập đánh cấp thông
tin bất hợp pháp. Mà thiệt hại do xâm nhập, tấn công trên mạng gây ra là vô cùng to
lớn.
Để hạn chế các thiệt hại do việc thâm nhập bất hợp pháp và tấn công hệ thống,
các mạng máy tính cần có các chính sách hợp lý cho các ngƣời dùng thâm nhập mạng.
Tuy nhiên, việc thâm nhập mạng với mục đích không tốt thƣờng rất đa dạng và luôn cải
tiến nên các biện pháp phòng chống thƣờng không hiệu quả sau một thời gian đƣợc cài
đặt. Thêm vào đó, tám mƣơi phần trăm việc tấn công mạng xảy ra từ những ngƣời dùng
bên trong hệ thống – những ngƣời biết rõ các hệ thống mạng của công ty hơn, thâm
nhập dễ dàng hơn cuộc tấn công hệ thống mạng từ bên ngoài. Mặc dù các công ty, đơn
vị có cài đặt hệ thống mạng phục vụ cho các tác nghiệp của đơn vị đã ý thức thiết lập
các chính sách ngƣời dùng trong hệ thống cũng nhƣ xác lập các biện pháp phòng chống
tấn công; tuy nhiên, không có hệ thống nào đảm bảo đƣợc an toàn tuyệt đối .
Có nhiều cách, nhiều kỷ thuật để phát hiện xâm nhập tấn công mạng bằng cách
vận dụng những giải thuật học nhƣ: các giải thuật cây quyết định, giải thuật di truyền
hoặc phƣơng pháp kiểm soát lối vào, ngăn cản sự xâm nhập trái phép vào hệ thống
….Trong lần thực hiện luận văn tốt nghiệp lần này em chọn thực hiện lại đề tài “ Xây
dựng công cụ phát hiện xâm nhập mạng” dựa vào kết quả của giải thuật học cây
quyết định C4.5, dƣới sự hƣớng dẫn của Thạc sĩ Phạm Hữu Tài – giảng viên khoa Công
nghệ thông tin và truyền thông, trƣờng Đại học Cần Thơ.
1.2 LỊCH SỬ NGHIÊN CỨU ĐỀ TÀI
Sau đây em sẽ trình bày các nghiên cứu liên quan đến phát hiện xâm nhập tấn
công mạng đã đƣợc nghiên cứu thực hiện trƣớc đó:
- Ben-Amor et al. đã nghiên cứu so sánh kết quả giữa hai giải thuật đƣợc sử
dụng trong hệ thống phát hiện xâm nhập là Naïve Bayes và cây quyết định.Trong
nghiên cứu này, cách thức thực nghiệm của nhóm là tập trung vào ba trƣờng hợp liên
SVTH: Phan Thế Chinh
1
CBHD: Ths.Phạm Hữu Tài
Chương 1: Tổng quan
quan đến các xâm nhập tấn công để xử lý: toàn bộ các loại tấn công(whole-attacks),
nhóm các loại tấn công đã nhận dạng thành 5 nhóm (5-classes: Normal, DoS, Probe,
U2R, R2L) và nhóm các loại xâm nhập tấn công đã nhận dạng thành 2 nhóm (2-classes:
normal, abnormal). Các thực nghiệm đƣợc thực hiện trên các nhóm bằng cách so sánh
kết quả của trên cùng tập kiểm tra nhƣng có sự khác biệt từ tập huấn luyện trƣớc khi
đƣợc tiền xử lý vào các nhóm nhƣ nêu trên: tập huấn luyện trƣớc phân loại (24 kiểu tấn
công) và tập huấn luyện sau khi đã phân loại (38 kiểu tấn công). Kết quả thực nghiệm
chỉ ra rằng kết quả thực nghiệm trên Naïve Bayes không tốt bằng khi thực nghiệm trên
cây quyết định nhƣng sự khác biệt này là không đáng kể, nhƣng bù lại, thời gian học và
phân loại trên Naïve Bayes nhanh hơn gấp 7 lần so với cùng thực nghiệm với giải thuật
dùng cây quyết định trên cùng cấu hình máy. [4]
Normal
DoS
R2L
U2R
Probing
Winning Strategy
Decision Trees
Naïve Bayes
99.50%
99.50%
97.68%
97.10%
97.24%
96.65%
8.40%
0.52%
8.66%
13.20%
13.60%
11.84%
83.30%
77.92%
88.33%
Bảng 1.1 – Kết quả thực nghiệm của Ben-Amor et al.
- Stein et al. đã dùng giải thuật di truyền, qua đó chọn một tập con các thuộc tính
đầu vào cho bộ phân loại dùng cây quyết định với mục đích làm tăng tốc độ phát hiện
và giảm tỉ lệ cảnh báo lỗi trong phát hiện xâm nhập mạng. Họ đã thực nghiệm trên tập
kddcup‟99, và các loại xâm nhập tấn công trong tập huấn luyện cũng đƣợc xử lý thành
5 loại: Normal, DoS, Probe, U2R, R2L. Tuy nhiên, nhóm nghiên cứu đã thực hiện theo
cách thức khác so với các thực nghiệm trƣớc đó: Họ chia tập huấn luyện và tập kiểm tra
vào 4 tập huấn luyện nhỏ hơn cho từng loại xâm nhập tấn công đề huấn luyện cho từng
loại xâm nhập tấn công riêng biệt (ví dụ: tập huấn luyện và tập kiểm tra cho DoS bao
gồm các mẫu tấn công DoS và các mẫu kết nối bình thƣờng) và mỗi loại tấn công, họ
chia tập huấn huấn luyện của nó thành 10 tập tin có kích thƣớc bằng nhau. Một trong số
đó đƣợc chọn làm tập huấn luyện, các tập tin còn lại đƣợc xem nhƣ là các tập phê
chuẩn (validation). Sau đó, thực nghiệm trên 4 loại và xây dựng cây quyết định cho mỗi
loại. Các thí nghiệm chỉ ra rằng kết quả đƣợc thực hiện nhƣ trên có thể tốt hơn so với
thí nghiệm dùng toàn bộ các thuộc tính trong tập dữ liệu. [1][5]
- Zhang & Zulkernine áp dụng giải thuật Random Forests của L. Breiman [8]
cho chƣơng trình phát hiện xâm nhập mạng. Họ đã cố gắng tạo cân bằng cho tập dữ liệu
huấn luyện bằng cách làm giảm số mẫu của lớp đa số (majority class) và tăng số mẫu
của lớp thiểu số (minority class). Thêm vào đó, nhóm đã giảm bớt 3 thuộc tính đƣợc
đánh giá là ít quan trọng trong phân loại qua đó, việc phân loại chỉ thực hiện trên 38
SVTH: Phan Thế Chinh
2
CBHD: Ths.Phạm Hữu Tài
Chương 1: Tổng quan
thuộc tính còn lại. Cách thực nghiệm này cho kết quả tốt hơn kết quả của ngƣời thắng
giải trong cuộc thi kddcup‟99. [1] [6]
- Bouzida & Cuppens đã đề nghị sửa đổi giải thuật C4.5 (Quinlan, 1993) để
khai phá các xâm nhập tấn công đã biết và chƣa biết. Trong tập dữ liệu kddcup‟99, có
một số kiểu xâm nhập tấn công mới có trong tập kiểm tra (test set) nhƣng không có
trong tập huấn luyện (training set); điều này sẽ làm cho việc phân loại không dễ dàng
phân loại đúng cho các kiểu xâm nhập tấn công mới đó và nhƣ vậy, bộ phân loại sẽ
phân loại các mẫu vào trong các nhóm có „dạng‟ gần với chúng, thông thƣờng là dạng
kết nối bình thƣờng (normal). Vì vấn đề này, họ đã giới thiệu một nguyên tắc: một lớp
mặc định (default class) đƣợc ký hiệu là lớp mới để gán cho bất kỳ một lớp mới mà nó
không tƣơng ứng với một lớp nào trong tập huấn luyện. Vì vậy, nếu bất kỳ một trƣờng
hợp mới nào không phù hợp với các luật đƣợc phát ra bởi cây quyết định thì trƣờng hợp
đó đƣợc phân loại là lớp mới thay thì gán nó vào một lớp mặc định. Tuy nhiên, việc cài
đặt thí nghiệm của nhóm có khác lạ là họ đã dùng tập kiểm tra để huấn luyện và thông
báo kết quả trên tập con (10%) của tập huấn luyện. [1][7]
Dự đoán
Normal
Probing
DoS
U2R
R2L
New
Loại thật
sự
Normal
99.43% 0.40%
0.12%
0.01%
0.00%
0.04%
Probing
8.19%
72.73%
2.45%
0.00%
6.58%
10.06%
DoS
2.26%
0.06%
97.14%
0.00%
0.18%
0.36%
U2R
21.93% 4.39%
0.44%
7.02%
5.26%
60.96%
R2L
79.41% 14.85%
0.00%
0.70%
2.85%
2.20%
Bảng 1.2 – Kết quả thực nghiệm giải thuật C4.5 cải tiến của Bouzida & Cuppens.
Mặc dù có nhiều nghiên cứu cho vấn đề này trong những năm qua, hầu hết các
cách tiếp cận không thể đạt đƣợc kết quả tốt toàn diện so với kết quả của ngƣời chiến
thắng trong cuộc thi kddcup‟99. Hơn nữa, tiêu chí đánh giá hiệu quả của các phƣơng
pháp rất khác nhau, trƣớc hết là nói đến tập dữ liệu đánh giá, nghi thức kiểm tra, độ
chính xác, chi phí. Một điều quan trọng mà hầu hết các ứng dụng trong thực tế của bài
toán phát hiện xâm nhập tấn công phải quan tâm đến là việc tạo ra các luật dễ dàng
dạng « nếu (điều kiện) thì (dự đoán tƣơng ứng) ». Nếu chúng ta sử dụng những phƣơng
pháp phức tạp, khó diễn dịch kết quả, thì việc tạo ra các luật dự báo sẽ rất khó khăn,
không có tính ứng dụng cao trong thực tiễn.
Gần đây nhất với nghiên cứu của Hồ Nam Nhi, xây dựng ứng dụng phát hiện
xâm nhập mạng cũng dựa trên kết quả giải thuật học cây quyết định C4.5 sinh ra các
luật dạng “nếu (điều kiện) thì (dự đoán tƣơng ứng) “, cho kết quả với độ chính xác cũng
khá cao tuy nhiên thời gian thực hiện đi kèm cũng tƣơng đối cao. Bởi vì với mỗi mẫu
SVTH: Phan Thế Chinh
3
CBHD: Ths.Phạm Hữu Tài
Chương 1: Tổng quan
tin trong tập dữ liệu tƣơng ứng có thể phải đƣợc kiểm tra trên nhiều dòng luật gần giống
nhau mới có thể đƣa ra kết quả. [3]
1.3 MỤC TIÊU PHẠM VI ĐỀ TÀI
Tìm hiểu sơ lƣợt các hệ thống phát hiện xâm nhập, các loại tấn công xâm nhập
mạng phổ biến hiện nay.
Tìm hiểu sơ lƣợt các giải thuật thƣờng dùng trong xây dựng hệ thống phân loại
tấn công nhƣ: giải thuật C4.5, Ramdom Forest, Naïve Bayes, giải thuật di truyền….
Từ kết quả của giải thuật học cây quyết định C4.5, nghiên cứu xây dựng nên cây
phân loại sử dụng cho việc phân loại phát hiện xâm nhập mạng với đầu vào là tập tin
nhật ký đã đƣợc ghi nhận và đầu ra là kết quả phân loại xem hệ thống có bị tấn công
không và bị những loại tấn công nào.
Dữ liệu
thô
Tập huấn
luyện
Giải thuật:
C4.5,
Random
Forest,
Naïve
Bayes….
Tiền xử lý
Dữ liệu
Cây phân loại
hai nhóm
Kết quả phân
loại 2 nhóm
Cây phân loại
năm nhóm
Kết quả phân
loại 5 nhóm
Cây phân loại
chi tiết
Kết quả phân
loại chi tiết
Tập dữ liệu
cần kiểm tra
Hình 1.1 Sơ đồ mô tả yêu cầu hoạt động của hệ thống.
1.4 PHƢƠNG PHÁP NGHIÊN CỨU
Phƣơng pháp nghiên cứu trong đề tài là phƣơng pháp nghiên cứu ứng dụng. Từ
các lý thuyết về các giải thuật học, các thực nghiệm của các nhóm (nhà) nghiên cứu, lựa
chọn một giải thuật phù hợp với tiêu chí đề ra ban đầu, xây dựng một công cụ phát hiện
xâm nhập bất thƣờng trên hệ thống.
Trong đề tài này dựa trên kết quả giải thuật học cây quyết định đƣợc thực thi trên
chƣơng trình weka [1] trên tập dữ liệu kddcup‟99
SVTH: Phan Thế Chinh
4
CBHD: Ths.Phạm Hữu Tài
Chương 1: Tổng quan
(http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html), là một cây phân loại với
các nút lá là các phân loại tấn công, để xây dựng một công cụ phát hiện xâm nhập tấn
công mạng có thể ứng dụng vào thực tế.
Tuần tự các bƣớc thực hiện trong đề tài:
• Nghiên cứu lý thuyết liên quan đến đề tài.
• Tìm hiểu, nghiên cứu vận dụng các kiến thức có liên quan để thực
hiện đề tài.
• Xây dựng công cụ, so sánh và ghi nhận kết quả.
• Kết luận, đề xuất hƣớng phát triển cho tƣơng lai.
1.5 CÁC MỤC TRONG ĐỀ TÀI
Chƣơng 2 định nghĩa giới thiệu hệ thống phát hiện xâm nhập, một số loại hình
tấn công trên mạng và các giải thuật thƣờng dùng trong phân loại phát hiện xâm nhập
mạng.
Chƣơng 3 trình bày cách thức xây dựng nên ứng dụng và kết quả thu đƣợc.
Chƣơng 4 đƣa ra kết luận nhận xét dựa trên kết quả thực hiện, đề xuất hƣớng
phát triển trong tƣơng lai.
SVTH: Phan Thế Chinh
5
CBHD: Ths.Phạm Hữu Tài
Chương 2: Cơ sở lý thuyết
CHƢƠNG 2 : CƠ SỞ LÝ THUYẾT
2.1 GIỚI THIỆU HỆ THỐNG PHÁT HIỆN XÂM NHẬP
2.1.1 Khái niệm về phát hiện xâm nhập:
Phát hiện xâm nhập là tiến trình theo dõi các sự kiện xảy ra trên một hệ thống
máy tính hay hệ thống mạng, phân tích chúng để tìm ra các dấu hiệu “xâm nhập bất hợp
pháp”. Xâm nhập bất hợp pháp đƣợc định nghĩa là sự cố gắng tìm mọi cách để xâm hại
đến tính toàn vẹn, tính sẵn sàng, tính có thể tin cậy hay là sự cố gắng vƣợt qua các cơ
chế bảo mật của hệ thống máy tính hay mạng đó. Việc xâm nhập có thể là xuất phát từ
một kẻ tấn công nào đó trên mạng Internet nhằm giành quyền truy cập hệ thống hoặc
của tổ chức nhằm đánh cấp thông tin bảo mật hay cũng có thể là một ngƣời dùng đƣợc
phép trong hệ thống đó muốn chiếm đoạt các quyền khác mà họ chƣa đƣợc cấp phát,
phần lớn các cuộc tấn công xâm nhập từ bên trong tổ chức là rất nguy hiểm có thể dẫn
đến thiệt hại không thể lƣờng trƣớc đƣợc bởi vì họ là ngƣời nắm rõ hệ thống nhất và dễ
dàng truy cập vào hệ thống.[9]
2.1.2 Hệ thống phát hiện xâm nhập - IDS.
Hệ thống phát hiện xâm nhập (Intrusion Detection System – IDS) là hệ thống
phần cứng hoặc phần mềm có chức năng tự động theo dõi các sự kiện xảy ra trên hệ
thống máy tính, phân tích để phát hiện ra các vấn đề liên quan đến an ninh, bảo mật.
Khi mà số vụ tấn công, đột nhập vào các hệ thống máy tính, mạng ngày càng tăng, hệ
thống phát hiện xâm nhập càng có ý nghĩa quan trọng và cần thiết hơn trong nền tảng
bảo mật của các tổ chức. Thực tế thì IDS nhƣ chỉ nói cho chúng ta biết rằng mạng đang
bị nguy hiểm. Giá trị chính của một hệ thống phát hiện xâm nhập đó là nó biết đƣợc
chuyện gì sẽ và đang xảy ra cho nên chức năng chính của hệ thống phát hiện xâm nhập
là nó thông báo cho ngƣời dùng biết về các sự kiện có liên quan đến an ninh hệ thống
đang sắp sửa xảy ra bên trong mạng về hệ thống mà ngƣời dùng đang kiểm soát. Các
dạng chính của IDS là: Network Based IDS, Host Based IDS và Application Based
IDS.
Chức năng của IDS:
+ Chức năng quan trọng nhất là:
- Giám sát lƣu lƣợng mạng và các hoạt động khả nghi.
- Cảnh báo, báo cáo về tình trạng mạng cho hệ thống và nhà quản trị.
- Dùng những thiết lập mặt định và sự cấu hình từ nhà quản trị mà có
những hành động thiết thực bảo vệ chống lại kẻ xâm nhập tấn công.
+ Chức năng mở rộng:
- Phân biệt tấn công bên trong và tấn công bên ngoài.
SVTH: Phan Thế Chinh
6
CBHD: Ths.Phạm Hữu Tài
Chương 2: Cơ sở lý thuyết
Phát hiện những dấu hiệu bất thƣờng dựa trên những gì đã biết hoặc
nhờ vào sự so sánh thông lƣợng mạng hiện tại với baseline.
+ Ngoài ra IDS còn có những chức năng sau:
- Ngăn chặn sự gia tăng của những tấn công.
- Bổ sung những điểm yếu mà các hệ thống khác chƣa làm đƣợc.
- Đánh giá chất lƣợng của việc thiết kế hệ thống.
-
2.1.3 Hệ thống ngăn chặn xâm nhập - IPS:
Hệ thống IPS (intrusion prevention system) là một kỹ thuật an ninh mới, kết hợp
các ƣu điểm của kỹ thuật firewall với hệ thống phát hiện xâm nhập IDS (intrusion
detection system), có khả năng phát hiện sự xâm nhập, các cuộc tấn công và tự động
ngăn chặn các cuộc tấn công đó. IPS không đơn giản chỉ dò các cuộc tấn công, chúng
có khả năng ngăn chặn các cuộc hoặc cản trở các cuộc tấn công đó. Chúng cho phép tổ
chức ƣu tiên, thực hiện các bƣớc để ngăn chặn lại sự xâm nhập. Phần lớn hệ thống IPS
đƣợc đặt ở vành đai mạng, đủ khả năng bảo vệ tất cả các thiết bị trong mạng.
Hình 2.1 – Mô hình hệ thống ngăn ngừa xâm nhập mạng.
Chức năng của IPS:
Chức năng IPS mô tả nhƣ là kiểm tra gói tin, phân tích có trạng thái, ráp lại các
đoạn, ráp lại các TCP-segment, kiểm tra gói tin sâu, xác nhận tính hợp lệ giao thức và
thích ứng chữ ký. Một IPS hoạt động giống nhƣ một ngƣời bảo vệ gác cổng cho một
khu dân cƣ, cho phép và từ chối truy nhập dựa trên cơ sở các uỷ nhiệm và tập quy tắc
nội quy nào đó.
SVTH: Phan Thế Chinh
7
CBHD: Ths.Phạm Hữu Tài
Chương 2: Cơ sở lý thuyết
Các giải pháp IPS “Ngăn ngừa Xâm nhập” nhằm mục đích bảo vệ tài nguyên, dữ
liệu và mạng. Chúng sẽ làm giảm bớt những mối đe doạ tấn công bằng việc loại bỏ
những lƣu lƣợng mạng có hại hay có ác ý trong khi vẫn cho phép các hoạt động hợp
pháp tiếp tục.
2.1.4
Các dạng của IDS.
2.1.4.1 Network Based IDS hoặc NIDS:
Là các hệ thống phát hiện tấn công, nó có thể bắt giữ các gói tin đƣợc truyền trên
các thiết bị mạng (cả hữu tuyến và vô tuyến) và so sánh chúng với cơ sở dữ liệu các tín
hiệu. Một Network-Based IDS sẽ kiểm tra các giao tiếp trên mạng với thời gian thực
(real-time). Nó kiểm tra các giao tiếp, quét header của các gói tin, và có thể kiểm tra nội
dung của các gói đó để phát hiện ra các đoạn mã nguy hiểm hay các dạng tấn công khác
nhau. Một Network-Based IDS hoạt động tin cậy trong việc kiểm tra, phát hiện các
dạng tấn công trên mạng, ví dụ nhƣ dựa vào băng thông (bandwidth-based) của tấn
công Denied of Service (DoS).
Hình 2.2 – Mô tả hệ thống phát hiện xâm nhập mạng dạng NIDS. [9]
Lợi thế của Network-Based IDS:
- Quản lý đƣợc cả một network segment (gồm nhiều host).
- "Trong suốt" với ngƣời sử dụng lẫn kẻ tấn công.
- Cài đặt và bảo trì đơn giản, không ảnh hƣởng tới mạng.
- Tránh DOS ảnh hƣởng tới một host nào đó.
SVTH: Phan Thế Chinh
8
CBHD: Ths.Phạm Hữu Tài
Chương 2: Cơ sở lý thuyết
- Có khả năng xác định lỗi ở tầng Network (trong mô hình OSI).
- Độc lập với OS.
Hạn chế của Network-Based IDS:
- Có thể xảy ra trƣờng hợp báo động giả (false positive), tức không có xâm
nhập mà NIDS báo là có.
- Không thể phân tích các lƣu thông đã đƣợc mã hóa (vd: SSL, SSH, IPSec…)
- NIDS đòi hỏi phải đƣợc cập nhật các signature mới nhất để thực sự an toàn
- Có độ trễ giữa thời điểm bị tấn công với thời điểm phát báo động. Khi báo
động đƣợc phát ra, hệ thống có thể đã bị tổn hại.
- Không cho biết việc tấn công có thành công hay không.
2.1.4.2 Host Based IDS hoặc HIDS:
HIDS đƣợc cài đặt cục bộ trên một máy tính làm cho nó trở nên linh hoạt hơn
nhiều so với NIDS. HIDS có thể đƣợc cài đặt trên nhiều dạng máy tính khác nhau cụ
thể nhƣ các máy chủ, máy trạm, máy tính notebook. HIDS cho phép bạn thực hiện một
cách linh hoạt trong các đoạn mạng mà NIDS không thể thực hiện đƣợc. Lƣu lƣợng đã
gửi tới host đƣợc phân tích và chuyển qua host nếu chúng không tiềm ẩn mã nguy
hiểm. HIDS ƣu việt hơn NIDS ở việc thay đổi các máy tính cục bộ. Trong khi đó NIDS
tập trung vào cả mạng lớn có các host đó. HIDS cụ thể hơn đối với các nền ứng dụng và
phục vụ mạnh mẽ cho thị trƣờng Windows trong thế giới máy tính, mặc dù vậy vẫn có
các sản phẩm hoạt động trong nền ứng dụng UNIX và nhiều hệ điều hành khác. Những
hệ thống phát hiện xâm nhập này có thể xem những tệp tin log của các trình ứng dụng
hoặc của hệ thống để phát hiện những hành động xâm nhập.
Hình 2.3 – Mô tả hệ thống phát hiện xâm nhập dạng HIDS đƣợc cài đặt trên các máy
chủ, PC
SVTH: Phan Thế Chinh
9
CBHD: Ths.Phạm Hữu Tài
Chương 2: Cơ sở lý thuyết
Lợi thế của HIDS:
- Có khả năng xác định ngƣời dùng liên quan tới một sự kiện (event).
- HIDS có khả năng phát hiện các cuộc tấn công diễn ra trên một máy, NIDS
không có khả năng này.
- Có thể phân tích các dữ liệu mã hoá.
- Cung cấp các thông tin về host trong lúc cuộc tấn công diễn ra trên host này.
Hạn chế của HIDS:
- Thông tin từ HIDS là không đáng tin cậy ngay khi sự tấn công vào host này
thành công.
- Khi OS bị "hạ" do tấn công, đồng thời HIDS cũng bị "hạ".
- HIDS phải đƣợc thiết lập trên từng host cần giám sát .
- HIDS không có khả năng phát hiện các cuộc dò quét mạng (Nmap, Netcat…).
- HIDS cần tài nguyên trên host để hoạt động.
- HIDS có thể không hiệu quả khi bị DOS.
- Đa số chạy trên hệ điều hành Window. Tuy nhiên cũng đã có 1 số chạy đƣợc
trên UNIX và những hệ điều hành khác.
2.1.4.3 Application Based IDS hoặc AIDS:
Một Application- based IDS (AIDS) cũng giống nhƣa một HIDS đƣợc thiết kế
để giám sát một ứng dụng cụ thể (tƣơng tự nhƣ một phần mềm chống virus đƣợc thiết
kế đặc biệt để giám sát một server mail).
AIDS cực kỳ chính xác trong việc phát hiện các phần mềm độc hại tấn công các
ứng dụng cái mà cần đƣợc bảo vệ. AIDS giám sát sự tƣơng tác giữa ngƣời dùng và ứng
dụng, với dấu vết hoạt động của từng ngƣời dùng cá nhân. AIDS làm việc với các ứng
dụng truy cập dữ liệu đã đƣợc mã hóa vì nó giao dịch với các ứng dụng tại thiết bị đầu
cuối nơi mà thông tin đƣợc trình bày cho ngƣời dùng không đƣợc mã hóa.
Tuy nhiên, loại IDS đặc biệt này có thể không phát hiện đƣợc các cuộc tấn công
không nhằm vào các ứng dụng đó. Các hacker cũng biết đến và tìm cách tắt đi các hệ
thống AIDS.
2.2 CÁC HÌNH THỨC TẤN CÔNG XÂM NHẬP MẠNG PHỔ BIẾN.
Tấn công, xâm nhập mạng chúng ta có thể gọi chung là dạng có hại cho máy
tính, các tấn công có thể xuất phát từ các công cụ đƣợc thiết kế sẵn, hoặc khai thác các
điểm yếu của hệ thống. Thiệt hại do tấn công gây ra có thể làm hƣ hỏng dữ liệu hoặc
ngƣng trệ hoạt động, không làm hƣ hại dữ liệu và hệ thống (chẳng hạn ăn trộm thông
tin) nhƣng tác hại có thể lớn hơn. Hiện nay có nhiều hình thức tấn công trên mạng điển
hình nhƣ hình bên dƣới:
SVTH: Phan Thế Chinh
10
CBHD: Ths.Phạm Hữu Tài
Chương 2: Cơ sở lý thuyết
Hình 2.4 – Các hình thức tấn công trên mạng.[10]
Có thể phân chia tấn công ra làm một số loại chính sau: Tấn công do thám, tấn
công truy cập, tấn công từ chối dịch vụ,…..
2.2.1 Tấn công do thám (Reconnaissance):
Tấn công do thám là loại hình tấn công không phải với mục đích chiếm đoạt hệ
thống mà chỉ tìm kiếm thông tin để có thể khai thác sau này. Các thông tin cần ghi nhận
của kiểu tấn công do thám: địa chỉ IP, các dịch vụ đang sử dụng, cổng của các ứng dụng
nào đang mở, hệ điều hành đang sử dụng, phiên bản Web Server nào đang sử dụng…
Hacker gửi gói ICMP request đến địa chỉ đích hoặc gửi cho cả nhánh mạng đích.
Host nào phản hồi lại chứng tỏ host đó tồn tại và đang hoạt động các công cụ thƣờng sử
dụng để quét địa chỉ thông dụng nhƣ: fping, network Sonar, ping sweep….Sau khi xác
định đƣợc đỉa chỉ IP hacker sử dụng các công cụ hổ trợ để quét ra cổng dịch vụ đang sử
dụng trên các địa chỉ IP, xác định loại ứng dụng và phiên bản đang sử dụng cũng nhƣ
phiên bản của hệ điều hành chạy trên máy chủ mục tiêu. Dựa trên các thông tin này
hacker có thể xác định đƣợc các lỗ hổng tồn tại trong hệ thống giúp cho việc xâm nhập
lần sau đƣợc dễ dàng và nhanh hơn.
Kẻ tấn công từ bên trong thì có thể nghe trộm vào các luồng dữ liệu đang lƣu
thông trên mạng. Các công cụ thƣờng dùng nghe lén nhƣ: Wireshark, Packet Inspector,
Dsniff…Các thông tin thu thập đƣợc bằng cách nghe lén có thể sử dụng để gây ra các
cuộc tấn công khác vào mạng
2.2.2 Tấn công truy cập (Access acttack):
Sau khi đã tấn công thăm dò để nắm các thông tin cơ bản về hệ thống đích,
hacker tấn công trực tiếp vào hệ thống gọi là tấn công truy cập. Tấn công truy cập là
loại tấn công chiếm lấy tài nguyên hệ thống nhƣ file, mật khẩu, quyền điều khiển,….
SVTH: Phan Thế Chinh
11
CBHD: Ths.Phạm Hữu Tài
- Xem thêm -