ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN CHÍ THANH
KHAI PHÁ DỮ LIỆU LOGFILE CỦA
FIREWALL TRONG HỆ THỐNG MẠNG
IPTV NHẰM PHÁT HIỆN TẤN CÔNG
TỪ CHỐI DỊCH VỤ
Ngành: CNTT
Chuyên ngành: Hệ thống thông tin
Mã số: 60 48 05
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Hà Quang Thụy
Hà Nội – 2013
1
LỜI CẢM ƠN
Trước tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc tới thầy giáo,
PGS-TS Hà Quang Thụy đã tận tình chỉ bảo, hướng dẫn em trong suốt quá trình
thực hiện đề tài.
Em xin gửi lời cảm ơn sâu sắc tới quý Thầy Cô trong Khoa CNTT, trường
Đại học Công nghệ, Đại học Quốc gia Hà Nội đã truyền đạt kiến thức quý báu
cho em trong những năm học vừa qua.
Cuối cùng, xin gửi lời cảm ơn chân thành đến những tác giả của các tài
liệu mà tôi đã sử dụng để tham khảo trong quá trình thực hiện đề tài.
Xin chân thành cảm ơn!
2
LỜI CAM ĐOAN
Tôi xin cam đoan mô hình giải pháp “Khai phá dữ liệu logfile của
Firewall trong hệ thống mạng IPTV nhằm phát hiện tấn công từ chối dịch vụ”
được trình bày trong luận văn này do tôi thực hiện dưới sự hướng dẫn của PGS.
TS. Hà Quang Thụy.
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn
gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong luận văn. Trong luận
văn, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà
không chỉ rõ về tài liệu tham khảo.
Học viên thực hiện
Nguyễn Chí Thanh
3
MỤC LỤC
LỜI CẢM ƠN ..........................................................................................................................................1
LỜI CAM ĐOAN ....................................................................................................................................2
MỤC LỤC................................................................................................................................................3
DANH MỤC CÁC CHỮ VIẾT TẮT ......................................................................................................5
DANH MỤC BẢNG BIỂU......................................................................................................................6
DANH MỤC HÌNH VẼ ...........................................................................................................................7
MỞ ĐẦU..................................................................................................................................................8
CHƯƠNG 1: SƠ BỘ VỀ LOGFILE MẠNG IPTV ...............................................................................11
1.1. GIỚI THIỆU VỀ MẠNG IPTV ..................................................................................................11
1.1.1. IPTV là gì .............................................................................................................................11
1.1.2. Kiến trúc tổng quan mạng IPTV ..........................................................................................11
1.1.3. Các dịch vụ của mạng IPTV.................................................................................................13
1.2. DỮ LIỆU LOGFILE MẠNG IPTV ............................................................................................13
1.2.1. Logfile Firewall ....................................................................................................................14
1.2.2. Router syslog ........................................................................................................................15
1.2.3. STB logs ...............................................................................................................................16
1.2.4. Log ứng dụng .......................................................................................................................17
1.3. TẤN CÔNG TỪ CHỐI DỊCH VỤ .............................................................................................19
1.3.1. Giới thiệu về tấn công từ chối dịch vụ .................................................................................19
1.3.2. Các loại tấn công từ chối dịch vụ .........................................................................................19
CHƯƠNG 2: PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU LOGFILE .......................................................21
2.1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ..................................................................................21
2.1.1. Phát hiện tri thức ..................................................................................................................21
2.1.2. Khai phá dữ liệu ...................................................................................................................22
2.1.3. Ứng dụng của khai phá dữ liệu ............................................................................................23
2.2. SƠ BỘ VỀ KHAI PHÁ DỮ LIỆU LOGFILE IPTV ..................................................................24
2.3. MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU LOGFILE ĐIỂN HÌNH .............................25
2.3.1. Sơ bộ về phân lớp dữ liệu.....................................................................................................25
II.3.1.1. Khái niệm phân lớp dữ liệu ..........................................................................................25
II.3.1.2. Ứng dụng của phân lớp dữ liệu ....................................................................................28
II.3.1.3. Các kỹ thuật phân lớp dữ liệu .......................................................................................29
2.3.2. Sơ bộ về phân cụm dữ liệu ...................................................................................................29
II.3.2.1. Khái niệm phân cụm dữ liệu .........................................................................................29
II.3.2.2. Ứng dụng của phân cụm dữ liệu ...................................................................................30
4
II.3.2.3. Các kỹ thuật phân cụm dữ liệu .....................................................................................31
CHƯƠNG 3: MÔ HÌNH KHAI PHÁ DỮ LIỆU LOGFILE CỦA FIREWALL TRONG HỆ THỐNG
MẠNG IPTV NHẰM PHÁT HIỆN TẤN CÔNG TỪ CHỐI DỊCH VỤ ..............................................32
3.1. MÔ TẢ BÀI TOÁN ....................................................................................................................33
3.1.1. Tên gọi bài toán ....................................................................................................................33
3.1.2. Phân tích bài toán .................................................................................................................33
3.1.3. Xác định dữ liệu cần thiết.....................................................................................................33
3.2. MÔ HÌNH GIẢI PHÁP ...............................................................................................................34
3.2.1. Xây dựng mô hình ................................................................................................................34
3.2.2. Phân lớp bản ghi logfile theo địa chỉ và cổng dịch vụ máy đích ..........................................37
3.2.3. Phân cụm bản ghi logfile theo địa chỉ máy trạm ..................................................................40
CHƯƠNG 4: THỰC NGHIỆM .............................................................................................................45
4.1. QUY TRÌNH THỰC NGHIỆM ..................................................................................................45
4.1.1. Môi trường thực nghiệm ......................................................................................................45
4.1.2. Mô tả quy trình thực nghiệm ................................................................................................46
4.2. PHÂN TÍCH DỮ LIỆU LOGFILE FIREWALL ISA ................................................................46
4.3. PHẦN MỀM DoSAlert ...............................................................................................................48
4.3.1. Chức năng chính của phần mềm ..........................................................................................48
4.3.2. Mô tả cơ sở dữ liệu ...............................................................................................................49
4.3.3. Giao diện phần mềm ............................................................................................................50
4.4. KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ ...........................................................................52
4.4.1. Kết quả thực nghiệm ............................................................................................................52
4.4.2. Đánh giá kết quả thực nghiệm..............................................................................................56
KẾT LUẬN ............................................................................................................................................57
TÀI LIỆU THAM KHẢO ......................................................................................................................58
5
DANH MỤC CÁC CHỮ VIẾT TẮT
API
Application Programming Interface
CSDL
Cơ sở dữ liệ
DoS
Denial of Service
CNTT
Công nghệ thông tin
DDoS
Distributed Denial of Service
DRM
Digital Rights Management
DSLAM
Digital Subscriber Line Access Multiplexer
EPG
Electronic Program Guide
HDTV
High Definition Television
IP
Internet Protocol
IPTV
Internet Protocol Television
ISP
Internet Service Provider
ITU
International Telecommunication Union
KDD
Knowledge Discovery in Database
KPDL
Khai pha dữ liệu
MoD
Music on Demand
PKI
Public Key Infrastructure
QoS
Quality of Service
SIEM
Security Information and Event Management
STB
Set Top Box
VoD
Video on Demand
VoIP
Voice over Internet Protocol
DSL
Digital Subscriber Line
6
DANH MỤC BẢNG BIỂU
Bảng 1.1: Cấu trúc STB log. ..................................................................................................................17
Bảng 1.2: Cấu trúc logfile của IIS ..........................................................................................................18
Bảng 3.1: Dữ liệu kiểm thử sau khi trích chọn và khử nhiễu .................................................................39
Bảng 3.2 (a): Dữ liệu kiểm thử sau khi phân lớp ...................................................................................39
Bảng 3.2 (b): Dữ liệu kiểm thử sau khi phân lớp ...................................................................................39
Bảng 3.2 (c): Dữ liệu kiểm thử sau khi phân lớp ...................................................................................40
Bảng 4.1: Cấu trúc logfile Firewall ISA 2006........................................................................................48
Bảng 4.2: Cấu trúc bảng cơ sở dữ liệu tbl_setting .................................................................................49
Bảng 4.3: Cấu trúc bảng cơ sở dữ liệu tbl_destinationip .......................................................................49
Bảng 4.4: Cấu trúc bảng phụ trong cơ sở dữ liệu ...................................................................................50
7
DANH MỤC HÌNH VẼ
Hình 1.1: Mô hình tổng quan hệ thống IPTV.........................................................................................12
Hình 1.2: Dữ liệu logfile của Firewall ISA Server 2006........................................................................15
Hình 1.3: Syslog .....................................................................................................................................16
Hình 2.1: Quá trình phát hiện tri thức ....................................................................................................21
Hình 2.2: Quá trình khai phá dữ liệu ......................................................................................................23
Hình 2.3: Quá trình phân lớp dữ liệu [1] ................................................................................................26
Hình 2.4: Bước học trong phân lớp dữ liệu [1] ......................................................................................27
Hình 2.5 (a): Bước phân lớp dữ liệu [1] .................................................................................................28
Hình 2.5 (b): Bước phân lớp dữ liệu [1].................................................................................................28
Hình 2.6: Ví dụ về phân cụm dữ liệu .....................................................................................................30
Hình 3.1: Mô hình giải quyết bài toán ...................................................................................................35
Hình 3.2: Tập dữ liệu kiểm thử ..............................................................................................................38
Hình 3.3(a): Kết quả phân cụm trên tập dữ liệu kiểm thử ......................................................................43
Hình 3.3(b): Kết quả phân cụm trên tập dữ liệu kiểm thử .....................................................................43
Hình 4.1: Mô hình hệ thống thực nghiệm ..............................................................................................46
Hình 4.2: Giao diện chính của phần mềm DoSAlert ..............................................................................50
Hình 4.3: Menu chính của phần mềm DoSAlert ....................................................................................51
Hình 4.4: Giao diện thiết lập danh sách IP cần giám sát ........................................................................51
Hình 4.5: Giao diện thiết lập đường dẫn thư mục ..................................................................................52
Hình 4.6: Giao diện thiết lập tham số cảnh báo tấn công từ chối dịch vụ ..............................................52
Hình 4.7: Giao diện quản trị phần mềm XAMPP ..................................................................................53
Hình 4.8: Giao diện quản trị ISA Server 2006 .......................................................................................53
Hình 4.9: Giao diện website demo .........................................................................................................54
Hình 4.10: Cấu hình ghi log trên Firewall ISA ......................................................................................54
Hình 4.11:Dữ liệu trên logfile của Firewall ISA ....................................................................................55
Hình 4.12:Thông tin cảnh báo trên phần mềm DoSAlert.......................................................................56
8
MỞ ĐẦU
Ngày nay, việc quản lý và vận hành các hệ thống mạng viễn thông đều
dựa trên việc phân tích dữ liệu do các thiết bị và ứng dụng trong hệ thống cung
cấp. Những dữ liệu này được gọi là dữ liệu log hệ thống và dữ liệu log ứng
dụng. Dữ liệu log hệ thống là những dữ liệu được tạo ra bởi các thiết bị hệ thống
và hệ điều hành. Dữ liệu log ứng dụng là những dữ liệu được tạo ra bởi các ứng
dụng chuyên trách phục vụ một hoặc một số nhiệm vụ trong hệ thống. Những dữ
liệu này thường rất phức tạp do được cung cấp bởi những hệ thống có sự tham
gia của nhiều hãng trong cùng một mạng lưới rộng lớn. Nguyên nhân của sự
phức tạp này chủ yếu là do các dữ liệu có định dạng khác nhau, ý nghĩa các
thành phần khác nhau, dẫn đến khó khăn trong quá trình đọc và phân tích, gây
phức tạp trong việc tìm mối tương quan giữa các dữ liệu, gây phức tạp trong
việc thu thập và lưu trữ, v.v… Một phần nhỏ của dữ liệu này được thể hiện
thông qua các hệ thống giám sát vận hành trực tuyến, cho phép cung cấp một
bức tranh toàn cảnh về quá trình vận hành và chất lượng dịch vụ theo từng thành
phần mạng khác nhau, tuy nhiên phần lớn dữ liệu được nén và lưu trữ cục bộ.
Khi có một sự kiện bất thường xảy ra cần được phân tích chi tiết tức thời, các dữ
liệu gần đây sẽ được lấy ra, giải nén rồi đưa vào phân tích. Đây là một loại phân
tích ra quyết định trực tuyến và nó tạo ra những thách thức lớn đối với các
phương thức khai phá dữ liệu và các quá trình phát hiện tri thức [8, 9, 10, 11].
Ngoài ra, sự phát triển nhanh chóng của công nghệ viễn thông như nâng
cao tốc độ Internet, các công nghệ di động mới, sự phát triển của kết nối không
dây, sự kết hợp các công nghệ cũ và mới, cùng với sự gia tăng không ngừng
khách hàng sử dụng cũng làm cho số lượng dữ liệu log tạo ra lớn hơn, dữ liệu
log ngày càng phức tạp hơn. Việc trích xuất các phần dữ liệu phù hợp, có giá trị
trong một khối lượng lớn các dữ liệu hệ thống là thách thức đối với các phương
thức và công cụ phân tích hiện nay. Điều này đỏi hỏi sự cải tiến không ngừng
các phương pháp tiếp cận và kỹ thuật khai phá dữ liệu, đồng thời nâng cao khả
năng xử lý và lưu trữ của các thiết bị hệ thống nhằm cho phép truy xuất và phân
tích dữ liệu nhanh chóng.
Các hệ thống mạng viễn thông lớn được thiết kế để tạo ra những tập dữ
liệu log đặc thù nhằm hỗ trợ cho việc phân tích. IPTV (Internet Protocol
TeleVision) là một ví dụ về những hệ thống mạng như vậy [13, 14]. Thông qua
dữ liệu log, những quản trị viên có thể nắm được quá trình vận hành của hệ
thống, biết được những gì đang diễn ra trong mạng. Tuy nhiên không phải toàn
bộ các dữ liệu log là có giá trị, chỉ một phần nhỏ trong đó cần giám sát trực
tuyến, một phần cần được lưu trữ để sử dụng khi cần thiết, thậm chí, có những
dữ liệu hoàn toàn vô giá trị. Để lấy ra và sử dụng những dữ liệu có ích đòi hỏi
phải có phương pháp khai phá dữ liệu thích hợp. Điều này sẽ hỗ trợ các quản trị
viên trong việc phân tích và ra quyết định nhanh khi cần thiết.
9
Việc khai phá dữ liệu logfile trong hệ thống đang ngày càng được quan
tâm và chú trọng nhiều hơn. Phạm vi ứng dụng của nó cũng được mở rộng ra
các lĩnh vực khác, đặc biệt là lĩnh vực đảm bảo an toàn thông tin. Chỉ thị 897/CT
của Thủ tướng Chính phủ về việc tăng cường triển khai các hoạt động đảm bảo
an toàn thông tin số nêu rõ: các Bộ, cơ quan ngang Bộ, cơ quan thuộc Chính
phủ, Ủy ban nhân dân các tỉnh, thành phố trực thuộc Trung ương nhất thiết phải
“áp dụng chính sách ghi lưu tập trung biên bản hoạt động (logfile) cần thiết để
phục vụ công tác điều tra và khắc phục sự cố mạng” đối với các hệ thống thông
tin quan trọng, các cổng, trang thông tin điện tử quan trọng [4]. Điều này cho
thấy tầm quan trọng của việc sử dụng dữ liệu logfile trong việc đảm bảo an toàn
vận hành cho các hệ thống công nghệ thông tin (CNTT) là không nhỏ.
Trên thị trường hiện nay có một loại giải pháp bảo mật đang bắt đầu được
sử dụng phổ biến trong các hệ thống CNTT lớn nói chung và hệ thống IPTV nói
riêng, đó là giải pháp “Quản lý và phân tích các sự kiện an toàn thông tin”
(Security Information and Event Management - SIEM) [10]. Giải pháp này dựa
trên việc thu thập và phân tích dữ liệu log của tất cả các thiết bị và ứng dụng
trong hệ thống. Những kỹ thuật chính được áp dụng trong giải pháp SIEM chính
là các kỹ thuật khai phá dữ liệu. Mục tiêu của các giải pháp này mới chỉ ở mức
độ hỗ trợ điều tra, xử lý các sự cố vận hành hệ thống, đánh giá hiệu suất hoạt
động, và chưa tập trung nhiều vào việc phát hiện, cảnh báo các sự cố bảo mật.
Mặt khác, các giải pháp này chỉ phù hợp để triển khai trong những hệ thống có
quy mô lớn, được đầu tư nhiều giải pháp bảo mật khác để bảo vệ tổng thể, theo
đó, giải pháp SIEM sẽ đưa ra cảnh báo dựa trên log của chính những thiết bị bảo
mật đó. Có thể thấy các giải pháp này chưa thực sự phù hợp với môi trường
CNTT ở Việt Nam bởi vì các doanh nghiệp ở Việt Nam chưa dành sự quan tâm
đúng mức về việc đảm bảo an toàn thông tin, mặt khác chi phí đầu tư cũng là
một vấn đề lớn khiến cho các hệ thống CNTT ở Việt Nam không được trang bị
đầy đủ các giải pháp bảo mật, dẫn đến việc triển khai các sản phẩm SIEM không
hiệu quả.
Dựa trên việc tham khảo nghiên cứu của Kimmo Hätönen, 2009 [10] về
phân tích logfile hệ thống mạng IPTV nhằm hỗ trợ ra quyết định trong việc xử
lý các sự cố vận hành, đánh giá hiệu năng hệ thống, đánh giá chất lượng dịch vụ,
tác giả nhận thấy có thể áp dụng một cách hiệu quả các kỹ thuật khai phá dữ liệu
vào việc đảm bảo an toàn, bảo mật cho hệ thống mạng IPTV nói riêng và các hệ
thống CNTT nói chung. Hướng tiếp cận này sẽ hữu ích trong việc phát triển
những giải pháp cảnh báo tấn công, có đặc tính phù hợp với môi trường CNTT
tại Việt Nam, đó là: hiệu quả, chi phí thấp, dễ triển khai và áp dụng cho nhiều hệ
thống với quy mô khác nhau.
Cụ thể trong luận văn này, tác giả đề xuất xây dựng mô hình giải pháp
khai phá dữ liệu logfile của Firewall trong mạng IPTV nhằm phát hiện tấn công
từ chối dịch vụ (DoS).
Nội dung của luận văn chia thành các chương như sau:
10
Chương 1: Luận văn giới thiệu sơ bộ về hệ thống mạng IPTV và một số
loại logfile thường gặp trong mạng IPTV. Kiến trúc tổng quan và các dịch vụ
điển hình hệ thống mạng IPTV được trình bày. Cấu trúc dữ liệu của các logfile
hệ thống (Logfile Firewall, Router Syslog, STB log) cũng như logfile ứng dụng
đã được mô tả. Một số nội dung sơ bộ về tấn công từ chối dịch vụ cũng được
giới thiệu.
Chương 2: Luận văn giới thiệu tổng quan về khai phá dữ liệu và các
phương pháp khai phá dữ liệu logfile điển hình. Nội dung chính của chương này
là giới thiệu về một số bài toán khai phá dữ liệu logfile.
Chương 3: Dựa trên hướng tiếp cận của Kimmo Hätönen [10], luận văn
đề xuất một mô hình giải pháp khai phá dữ liệu logfile của Firewall trong hệ
thống mạng IPTV nhằm phát hiện tấn công từ chối dịch vụ. Các bước thực hiện
quá trình mô hình (Xác định dữ liệu liên quan, Thu thập và tiền xử lý dữ liệu,
Thi hành khai phá dữ liệu, Xác định mẫu thu thập được, Đánh giá mẫu kết quả)
được trình bày.
Chương 4: Luận văn trình bầy thực nghiệm thực tế dựa trên mô hình đề
xuất. Luận văn đề nghị một tiêu chí kết luận đang diễn ra một cuộc tấn công từ
chỗi dịch vụ và thực nghiệm phát hiện phát hiện sự xuất hiện của tấn công theo
tiêu chí được đề xuất. Phần mềm thực nghiệm dựa trên DoSAlert đã hoạt động
cho kết quả phù hợp.
Phần kết luận: Tóm lược kết quả đạt được của luận văn và định hướng
phát triển trong tương lai.
11
CHƯƠNG 1: SƠ BỘ VỀ LOGFILE MẠNG IPTV
1.1. GIỚI THIỆU VỀ MẠNG IPTV
1.1.1. IPTV là gì
Cuối thập kỷ trước, cùng sự phát triển của các dịch vụ truyền hình vệ tinh,
sự tăng trưởng của dịch vụ truyền hình cáp số, và đặc biệt là sự ra đời của
HDTV (High Definition Television) đã để lại dấu ấn đối với lĩnh vực truyền
hình. Tuy nhiên, hiện nay trên thế giới đã xuất hiện một phương thức cung cấp
dịch vụ mới mạnh hơn, đó là IPTV (Internet Protocol Television). IPTV ra đời
dựa trên sự hậu thuẫn của ngành viễn thông, đặc biệt là mạng băng rộng; IPTV
dễ dàng cung cấp nhiều hoạt động tương tác hơn, tạo nên sự cạnh tranh mạnh
mẽ hơn cho các doanh nghiệp kinh doanh dịch vụ truyền hình.
Sự phát triển nhanh chóng của mạng Internet băng rộng làm thay đổi cả
về nội dung và kĩ thuật truyền hình. IPTV là một hệ thống cung cấp các dịch vụ
truyền hình số tới các thuê bao sử dụng giao thức IP trên kết nối băng rộng.
IPTV thường được cung cấp cùng với dịch vụ VoD và cũng có thể cung cấp
cùng với các dịch vụ Internet khác như truy cập Web và VoIP, do đó còn được
gọi là “Triple Play” và được cung cấp bởi nhà khai thác dịch vụ băng rộng sử
dụng chung một hạ tầng mạng. Hiện nay IPTV đang là cấp độ cao nhất và là
công nghệ truyền hình của tương lai. Sự vượt trội trong kĩ thuật truyền hình của
IPTV là tính năng tương tác giữa hệ thống với người xem, cho phép người xem
chủ động về thời gian và khả năng triển khai nhiều dịch vụ giá trị gia tăng tiện
ích khác trên hệ thống nhằm đáp ứng nhu cầu của người sử dụng. Đây cũng là
xu hướng hội tụ của mạng viễn thông thế giới.
Trên thế giới đã có một số quốc gia triển khai thành công IPTV. Tại Việt
Nam một số nhà cung cấp IPTV như VNPT, FPT, VTC,…
Hệ thống IPTV truyền tải các kênh truyền hình quảng bá và nội dung
video, audio theo yêu cầu chất lượng cao qua một mạng băng thông rộng. Theo
tổ chức Liên Hiệp Viễn Thông Quốc Tế ITU thì: IPTV là dịch vụ đa phương tiện
bao gồm truyền hình, video, audio, văn bản, đồ họa và dữ liệu truyền trên một
mạng IP và được quản lý để đáp ứng yêu cầu về chất lượng dịch vụ (Quality of
Serice – QoS), sự trải nghiệm (Quality of Experience – QoE), tính bảo mật, tính
tương tác và độ tin cậy [13].
1.1.2. Kiến trúc tổng quan mạng IPTV
Hệ thống IPTV bao gồm 04 thành phần quan trọng, đó là: nội dung
(Content), nền tảng (Platform), hệ thống mạng (Network), và thiết bị đầu cuối
(Terminal). Trong mô hình kinh doanh, 04 thành phần trên tương ứng với 04 vai
trò sau: nhà cung cấp nội dung (Content Provider), nhà cung cấp dịch vụ
12
(Service Provider), nhà cung cấp hệ thống mạng (Network Provider), khách
hàng (Customer) [14].
Kiến trúc tổng quan mạng IPTV như sau [14]:
Hình 1.1: Mô hình tổng quan hệ thống IPTV
Thành phần nội dung (Content) [14]: bao gồm âm thanh, hình ảnh, dữ
liệu, dữ liệu văn bản, và các ứng dụng. Những nội dung này được phân phối
thông qua các kênh khác nhau như vệ tinh, truyền hình mặt đất, cơ sở dữ liệu
của nhà cung cấp nội dung, v.v…
Thành phần nền tảng (Platform) [14]: bao gồm việc nhận dữ liệu nội
dung, xử lý, truyền tải, bảo mật và quản lý tùy theo quy định của nhà cung cấp
dịch vụ. Thành phần này bao gồm các hệ thống chính sau:
- Hệ thống nhận nội dung: nhận các tín hiệu nguồn từ nhà cung cấp
nội dung, nhà cung cấp chương trình, thông qua truyền hình mặt
đất, vệ tinh, cáp, mạng IP, v.v… Đồng thời, hệ thống này kiểm soát
việc phân phối tín hiệu thông qua các bộ chuyển mạch và giám sát
việc phát nội dung thông qua phòng điểu khiển chính.
- Hệ thống xử lý và truyền tải: hệ thống này thực hiện việc nén các
tín hiệu nhận được theo một định dạng nhất định (ví dụ: H.264,
MPEG2, VC1), sau đó đóng gói thành theo định dạng IP và chuyển
sang hệ thống mạng.
- Hệ thống xử lý giá trị gia tăng: sử dụng các middleware và các nền
tảng ứng dụng để cung cấp các dịch vụ dữ liệu bổ sung như thông
tin, thương mại, truyền thông, giải trí, giáo dục.
- Hệ thống bảo mật: bao gồm các hệ thống quản lý bản quyền số, các
hệ thống mã hóa và giải mã nội dung, hệ thống kiểm soát truy nhập
nhằm ngăn chặn việc khai thác nội dung bất hợp pháp. Trong đó, hệ
thống quản lý bản quyền số (DRM) giúp nhà khai thác bảo vệ nội
13
dung của mình, như trộn các tín hiệu truyền hình hay mã hóa nội
dung VoD, khi truyền đi trên mạng Internet và tích hợp với tính
năng an ninh tại STB ở phía thuê bao. Hệ thống DRM dựa trên các
khái niệm của hệ thống cơ sở hạ tầng khoá công khai (Public Key
Infrastructure – PKI. Ngoài ra, hệ thống bảo mật cũng bao gồm các
thiết bị chuyên dụng khác như: tường lửa (firewall), thiết bị phát
hiện và ngăn chặn xâm nhập (ips), thiết bị quản lý log tập trung,
v.v…
- Hệ thống quản lý: thực hiện phối hợp và kiểm soát các hoạt động
nội bộ giữa các hệ thống phụ và trong toàn bộ hệ thống. Ngoài ra,
hệ thống này còn quản lý và lên lịch cho cách chương trình, nội
dung và các thiết bị, đồng thời quản lý các thông tin về trạng thái
thuê bao và tính cước.
Thành phần hệ thống mạng (Network) [14]: thành phần này bao gồm hạ
tầng mạng IP băng rộng để truyền dịch vụ từ nhà cung cấp dịch vụ IPTV đến
khách hàng. Mạng truy nhập sẽ tận dụng phần hạ tầng mạng xDSL có sẵn. Để
cung cấp dịch vụ với chất lượng tốt và tiêu thụ ít băng thông khi có đồng thời
nhiều truy nhập đến hệ thống, mạng truy nhập băng rộng cần phải được hỗ trợ
multicast.
Thành phần đầu cuối (Terminal) [14]: thành phần này nằm ở phía khách
hàng, bao gồm các thiết bị cho phép thu nhận, giải mã và hiển thị nội dung trên
tivi như Set-Top-Box (STB). STB cần hỗ trợ các chuẩn MPEG-4/H.264. Ngoài
ra, STB cũng có thể hỗ trợ HDTV, có khả năng kết nối với các thiết bị lưu trữ
bên ngoài, video phone, truy nhập web, v.v...
1.1.3. Các dịch vụ của mạng IPTV
Cung cấp các dịch vụ quảng bá: Quảng bá ti vi (Broadcast TV); kênh âm
thanh (Audio Channel); truyền hình trực tuyến (Time-Shift TV); VOD băng hẹp
[8].
Cung cấp các dịch vụ theo yêu cầu: Video theo yêu cầu (Video on
Demand - VoD); âm nhạc theo yêu cầu (Music on Demand - MoD); TV theo
yêu cầu (TV on Demand - TVoD) [8].
Cung cấp các dịch vụ tương tác: thông tin tương tác (Interactive
Information); truyền hình tương tác (Interactive TV); công ích, từ thiện, ... trực
tuyến (Online Subscription); đánh bạc trực tuyến (Online Gambling); phỏng vấn
trực tuyến (Online Bill Enquiry); trò chơi (Game); Web; Email; TV thương mại
(TV-Commerce) [8].
1.2. DỮ LIỆU LOGFILE MẠNG IPTV
Trong một hệ thống mạng lớn như IPTV, các nhà cung cấp dịch vụ
thường thu thập một lượng lớn dữ liệu như log thiết bị, log hệ thống, các thông
14
tin cảnh báo, thông điệp điều khiển được tạo ra trên mạng lưới bởi các ứng dụng
hoặc thiết bị. Những dữ liệu này thường đa dạng và phức tạp bởi có rất nhiều
thiết bị khác nhau tham gia vào hệ thống. Các máy chủ với các hệ điều hành
khác nhau cũng tạo ra một lượng lớn dữ liệu log. Ngoài ra còn có log của những
ứng dụng hoạt động trên hệ thống.
Trong mạng IPTV, thường gặp một số loại logfile hệ thống sau:
- Firewall logs: là các bản ghi log ghi lại trạng thái hoạt động của
Firewall, các kết nối vào ra hệ thống, các hành động mà Firewall đã
thực thi đối với từng kết nối (cho phép hoặc chặn), thông tin về
nguồn kết nối, đích kết nối, v.v…
- Router syslogs [11]: đó là các log được tạo ra bởi các router trong
đó mô tả một loạt các sự kiện được router ghi lại.
- STB logs [11]: là các bản ghi mô tả lại những hoạt động của người
dùng cuối, chẳng hạn tắt, bật STB, yêu cầu nội dung, v.v...
- Các log ứng dụng, đặc biệt là log ứng dụng web, cho phép khai thác
các dữ liệu được thu thập khi người dùng truy cập máy chủ web
nhằm thực hiện một số tác vụ như xem và yêu cầu dịch vụ truyền
hình, đăng ký và sử dụng các dịch vụ giá trị gia tăng,v.v… Các log
ứng dụng khác có thể được sử dụng cho những yêu cầu phân tích cụ
thể.
1.2.1. Logfile Firewall
Trong hệ thống IPTV, vấn đề đảm bảo an toàn an ninh trong quá trình
cung cấp dịch vụ luôn được quan tâm. Đây cũng là một trong những yêu cầu
hàng đầu trong quá trình thiết kế, xây dựng của hệ thống IPTV nói riêng và các
hệ thống CNTT nói chung.
Hiện nay có rất nhiều giải pháp an toàn thông tin được áp dụng trong các
hệ thống CNTT. Trong đó, Firewall là giải pháp bảo mật phổ biến nhất, và là
một trong những trang bị tiêu chuẩn cần có đối với một hệ thống IPTV.
Firewall cho phép người quản trị kiểm soát các truy nhập ra vào hệ thống,
ngăn chặn những truy nhập bất hợp pháp. Các Firewall thế hệ mới ngoài chức
năng kiểm soát kết nối cơ bản còn được tích hợp thêm các module bảo mật khác
như: module phát hiện và ngăn chặn xâm nhập, module thiết lập kết nối mạng
riêng ảo, module dò quét virus,…
Trong quá trình vận hành, việc phân tích dữ liệu log của Firewall đóng vai
trò quan trọng trong việc đánh giá hiệu quả hoạt động, điều tra truy vết khi xảy
ra sự cố trên hệ thống, thống kê đánh giá lưu lượng kết nối và hiệu năng của hệ
thống, v.v... Đặc biệt, do lưu lại những thông tin liên quan đến các kết nối từ bên
ngoài vào hệ thống nên dữ liệu log của Firewall rất hữu ích trong việc phát hiện
và cảnh báo các cuộc tấn công từ chối dịch vụ.
15
Log của các loại Firewall khác nhau sẽ có cấu trúc khác nhau, được lưu
dưới những định dạng khác nhau. Hai định dạng phổ biến của log Firewall là cơ
sở dữ liệu và logfile. Luận văn này sẽ tập trung vào việc phân tích dữ liệu log
được lưu trữ dưới dạng file nhằm mục đích phát hiện ra các cuộc tấn công Từ
chối dịch vụ.
Ví dụ về cấu trúc logfile của Firewall ISA Server 2006:
Hình 1.2: Dữ liệu logfile của Firewall ISA Server 2006
1.2.2. Router syslog
Router syslog ghi lại những thông tin được quan sát bởi router, chẳng hạn
các liên kết (link), thay đổi trạng thái giao thức liên quan, đưa ra cảnh báo về
môi trường (ví dụ điện áp, nhiệt độ), các cảnh báo khác như vi phạm về quy tắc
định tuyến,v.v…
Mặc dù các thông điệp syslog chủ yếu để giám sát và gỡ các lỗi phần
cứng và phần mềm router, nhưng chúng có thể rất có giá trị để những người vận
hành mạng quản lý các dịch vụ và xử lý các sự cố mạng. Chính vì vậy mà syslog
thường được thu thập trên tất cả các router trong mạng, đặc biệt là mạng ISP.
Một giao thức syslog (syslog protocol) được chuẩn hóa và hỗ trợ rộng rãi bởi
các nhà cung cấp router nhằm chuyển các thông điệp syslog từ router tới các bộ
thu thập syslog.
Dưới đây là ví dụ về syslog [11]:
16
Hình 1.3: Syslog
Có thể nhận thấy một cấu trúc tối thiểu trong các thông điệp syslog:
1. Nhãn thời gian cho biết thời điểm thông điệp được tạo ra.
2. Tham số xác định router tạo ra thông điệp (gọi là router nguồn).
3. Loại thông điệp, còn được gọi là mã lỗi (error code), chỉ ra bản chất
của vấn đề.
4. Thông tin chi tiết được tạo ra bởi hệ điều hành của router.
Thông tin chi tiết thường khá đặc biệt. Chúng là các đoạn văn bản được
tạo ra bởi hệ điều hành router bao gồm các thông tin như vị trí, tình trạng, hoặc
các thông điệp cảnh báo đã được thiết lập sẵn. Trong thông điệp syslog có thể
định nghĩa nhiều kiểu phụ. Kiểu phụ là một đoạn thông điệp được sử dụng lặp
lại nhiều lần với một số thay đổi về giá trị các chuỗi con trong đoạn thông điệp
đó. Chẳng hạn, “Line protocol on Interface ..., changed state to ...” có thể được
xem là một kiểu phụ. Việc kết hợp giữa syslog và các kiểu phụ có thể được dùng
để tạo ra các mẫu xác định các lớp điều kiện mạng mà thông điệp syslog mô tả.
Ta gọi đây là phân lớp log.
1.2.3. STB logs
Trong mạng IPTV, set-top-box (STB) là một máy tính nhỏ cung cấp liên
lạc hai chiều trên nền IP và chịu trách nhiệm giải mã các tín hiệu video. STB
được tích hợp các giao tiếp mạng để tạo ra các kết nối tốc độ cao. Phần mềm
chạy trên STB ghi lại các sự kiện như là tắt/bật STB, chuyển kênh, ngắt hệ
thống,v.v…
Các hãng cung cấp STB có định dạng log khác nhau. Dưới đây là một ví
dụ về định dạng STB log [6]:
Vender:XX;stbmodel:STB1;STBID:1233;IP:202.18.0.1;Username:
[email protected];hardw
areversion:001.001.001;softwareversion:001.001.001;Firmw
are::001.001.001;Version:001.001.001 (new line)
YYYYMMDDHHMMSS: event description (new line)
YYYYMMDDHHMMSS: event description (new line)
Bảng dưới mô tả cấu trúc sự kiện (event) trong STB [6]:
Field name Field data type
Field data sub type
Event type
Startup
State change
Shutdown
17
Peripheral change
Enter standby state
Exit standby state
Fault
Software error
Hardware error
Network error
Service
observation
Refer to 4.4
Configuration
change
Local configuration
change
Remote configuration
change
Other
Fault level
Enumeration: DEBUG; INFO; WARN;
ERROR; FATAL
Error
Refer to Appendix B
Bảng 1.1: Cấu trúc STB log.
1.2.4. Log ứng dụng
Các ứng dụng khác nhau có thể đưa ra những log có định dạng khác nhau.
Một số ứng dụng có thể sử dụng các định dạng chuẩn như syslog, tuy nhiên một
số ứng dụng khác lại sử dụng các định dạng riêng biệt. Các định dạng log ứng
dụng có thể khác nhau về kiểu lưu trữ (ví dụ: mã hóa hoặc không), số trường và
ý nghĩa các trường, mỗi bản ghi là một dòng hoặc gồm nhiều dòng,v.v…
Dưới đây là các trường dữ liệu có trong log được tạo ra bởi web server IIS
(internet information server) [8]:
Field Name
Field Description
date
Date of the conclusion of the WS request (UTC
time)
time
Time of the conclusion of the WS request
(UTC time)
18
s-sitename
Name of the website (usually W3SVC1,
meaning “website 1”)
s-computername
Name of the server that answered to the request
s-ip
IP of the server(s) to which the request was
sent (usually the Service Group IP)
cs-method
Operation requested (usually “POST” or
“GET”)
cs-uri-stem
URI stem (usually the filename on the server)
cs-uri-query
URI query (the query requested)
s-port
Port of the server (usually “80”)
cs-username
Name of the client (usually “‐“)
c-ip
IP of the client
cs-version
Client’s web service version (usually
“HTTP/1.1”)
cs(User-Agent)
Client’s software version and globally unique
identifier (GUID)
cs(Cookie)
Cookie used (usually “‐“)
cs(Referer)
Client’s web service referrer (usually “‐“)
cs-host
Address of the server that hosted the requested
web service (usually the Service Group
address)
sc-status
HTTP Status Code
sc-substatus
Associated Sub Status Code
sc-win32-status
Associated Win32 Status Code
sc-bytes
Bytes sent from the server to the client
cs-bytes
Bytes sent from the client to the server
tim-taken
Time taken to service the request
Bảng 1.2: Cấu trúc logfile của IIS
19
1.3. TẤN CÔNG TỪ CHỐI DỊCH VỤ
1.3.1. Giới thiệu về tấn công từ chối dịch vụ
Tấn công từ chối dịch vụ (Denial of Service – DoS) là một hình thức phá
hoại dựa trên những hành động ngăn chặn người dùng tiếp cận một tài nguyên
nào đó trên mạng [9]. Theo đó, tin tặc sẽ lợi dụng điểm yếu hoặc lỗi an toàn
thông tin của một hệ thống mạng cung cấp dịch vụ để làm ngưng trệ hoặc ngăn
cản người dùng truy nhập dịch vụ đó, buộc nhà cung cấp phải tạm ngừng dịch
vụ và tìm cách khôi phục hệ thống.
Những cuộc tấn công từ chối dịch vụ đã được biết đến từ đầu những năm
1980 [9]. Ngày nay, các cuộc tấn công từ chối dịch vụ thường được thực hiện
phân tán (Distributed DoS – DDoS): có nghĩa là tin tặc chiếm quyền kiểm soát
một lượng lớn máy tính và ra lệnh cho chúng liên tục tạo các yêu cầu kết nối tới
hệ thống là đích tấn công. Kết quả là hệ thống này bị quá tải và khiến cho những
người dùng hợp lệ không thể truy cập được. Nạn nhân điển hình của tấn công từ
chối dịch vụ là các hệ thống máy chủ website thương mại điện tử, website tin
tức, mạng doanh nghiệp, ngân hàng và các website chính phủ [9].
Việc ngừng hoạt động của hệ thống dịch vụ thường gây thiệt hại khó có
thể tính chính xác: đó là tổng của thiệt hại trực tiếp về tiền bạc, uy tín cho nhà
cung cấp dịch vụ, và thiệt hại gián tiếp của khách hàng sử dụng dịch vụ. Đôi khi,
dù chỉ làm chậm và giảm khả năng phục vụ của hệ thống, thì loại tấn công này
cũng dẫn tới những thiệt hại đáng kể.
1.3.2. Các loại tấn công từ chối dịch vụ
Tấn công từ chối dịch vụ có ba loại cơ bản sau đây [5]:
1. Tiêu hao tài nguyên:
Máy tính và hệ thống mạng cần được đảm bảo một số yếu tố nhất định
để có thể vận hành, chẳng hạn: băng thông mạng, bộ nhớ và không
gian ổ đĩa, chip xử lý, cấu trúc dữ liệu, khả năng truy cập tới các máy
tính và hệ thống mạng khác, và một số tài nguyên môi trường như
nguồn điện, điều hòa nhiệt độ… Trong đó, những loại tài nguyên sau
thường bị khai thác trong các cuộc tấn công từ chối dịch vụ [5]:
- Kết nối mạng.
- Sử dụng chính tài nguyên
- Tiêu hao băng thông.
- Tiêu hao tài nguyên hệ thống như bộ nhớ, vi xử lý, không
gian ổ đĩa,…
2. Phá hủy hoặc thay đổi thông tin cấu hình: một tin tặc có thể lợi
dụng lỗ hổng trên hệ thống để thay đổi hoặc phá hủy các thông tin
cấu hình (chẳng hạn: thay đổi bảng định tuyến trên router, chỉnh
sửa registry trên hệ điều hành), điều này có thể khiến cho hệ thống
vận hành không đúng chức năng hoặc không thể vận hành được.