Đăng ký Đăng nhập
Trang chủ Nghiên cứu xây dựng bộ lọc spam thông minh tự động...

Tài liệu Nghiên cứu xây dựng bộ lọc spam thông minh tự động

.PDF
88
43
131

Mô tả:

TRƯỜNG ĐẠI HỌC LẠC HỒNG TRUNG TÂM THÔNG TIN TƯ LIỆU ----- ----- BÁO CÁO NGHIÊN CỨU KHOA HỌC ĐỀ TÀI: NGHIÊN CỨU XÂY DỰNG BỘ LỌC SPAM THÔNG MINH, TỰ ĐỘNG PHAN HỮU TIẾP BIÊN HÒA, THÁNG 6/2011 TRƯỜNG ĐẠI HỌC LẠC HỒNG TRUNG TÂM THÔNG TIN TƯ LIỆU ----- ----- BÁO CÁO NGHIÊN CỨU KHOA HỌC ĐỀ TÀI: NGHIÊN CỨU XÂY DỰNG BỘ LỌC SPAM THÔNG MINH, TỰ ĐỘNG Người thực hiện: PHAN HỮU TIẾP CAO NGUYỄN THỦY TIÊN Chủ nhiệm đề tài: Ths. Lâm Thành Hiển BIÊN HÒA, THÁNG 6/2011 LỜI CẢM ƠN Lời đầu tiên chúng tôi xin chân thành gửi lời cám ơn sâu sắc đến các thầy cô Trung Tâm Thông Tin Tư Liệu, trường Đại Học Lạc Hồng, nơi chúng tôi công tác và nghiên cứu đã tạo điều kiện và hỗ trợ chúng tôi trong suốt thời gian qua. Chúng tôi cũng xin chân thành cám ơn đến những người thân, bạn bè và đồng nghiệp đã giúp đỡ và động viên chúng tôi trong suốt thời gian học tập cũng như trong thời gian thực nghiên cứu này Chân thành cám ơn ! Biên Hòa, ngày 15 tháng 06 năm 2011 Phan Hữu Tiếp, Cao Nguyễn Thủy Tiên MỤC LỤC Trang Lời cám ơn .......................................................................................................... i Mục lục .............................................................................................................. ii Danh mục các bảng biểu, hình vẽ ..................................................................... iii Mở đầu ............................................................................................................... 1 1. Tóm lược đề tài .............................................................................................. 1 2. Mục tiêu đề tài ................................................................................................ 1 3. Nội dung thực hiện đề tài ................................................................................ 1 4. Phạm vi ứng dụng ........................................................................................... 2 Chương 1- Tổng quan thư spam ....................................................................... 3 1.1. Khảo sát thư spam ........................................................................................ 3 1.1.1. Định nghĩa thư spam.............................................................................. 3 1.1.2. Phân loại thư spam ................................................................................ 3 1.1.2.1. Thư spam tiếng Anh ....................................................................... 3 1.1.2.2. Thư spam tiếng Việt ....................................................................... 4 1.1.3. Đặc điểm thư spam ................................................................................ 4 1.1.4. Tác hại của thư spam ............................................................................. 5 1.1.5. Phương thức hoạt động của thư spam .................................................... 7 1.1.5.1. Quy trình chung phát tán thư spam ................................................. 7 1.1.5.2. Thu thập địa chỉ email .................................................................... 7 1.1.5.3. Tìm kiếm máy tính trên Internet cho phép gửi thư .......................... 9 1.1.6. Tình hình thư spam tại Việt Nam ......................................................... 10 1.2. Phương pháp chống thư spam ..................................................................... 11 1.2.1. Lọc thư qua địa chỉ IP .......................................................................... 11 1.2.1.1. Sử dụng danh sách đen (Black List) và danh sách địa chỉ tin cậy (White List)............................................................................................... 11 1.2.1.2. Sử dụng danh sách xám (Grey List) .............................................. 12 1.2.1.3. Chặn IP ........................................................................................ 13 1.2.1.4. Kiểm tra địa chỉ IP........................................................................ 12 1.2.2. Lọc thư dựa vào đặc tính của thư spam ................................................ 13 1.2.2.1. Kỹ thuật giấu địa chỉ email ........................................................... 13 1.2.2.2. Kỹ thuật nhân viên giả mạo (Fake worker) ................................... 14 1.2.2.3. Kiểm tra Header ........................................................................... 14 1.2.3. Lọc thư spam dựa vào nội dung ........................................................... 14 1.2.3.1. Sử dụng các từ khóa chuẩn ........................................................... 14 1.2.3.2. Xác thực tự động .......................................................................... 15 1.2.3.3. Yêu cầu xác thực thư .................................................................... 15 1.2.3.4. Lọc thư theo nội dung................................................................... 16 1.2.4. Lọc thư spam dựa vào các thuật toán ................................................... 16 1.2.4.1. Lọc thư sử dụng phương pháp heuristic ........................................ 16 1.2.4.2. Lọc thư theo nội dung sử dụng phương pháp xác suất thống kê và học máy. .............................................................................................. 17 Chương 2- Phân tích bộ lọc thống kê.............................................................. 19 2.1. Giới thiệu................................................................................................... 19 2.2. Bài toán phân loại văn bản ......................................................................... 19 2.2.1. Định nghĩa .......................................................................................... 19 2.2.2. Tiến trình phân loại văn bản ............................................................... 20 2.3. Những nguyên tắc bộ lọc thống kê............................................................. 22 2.3.1. Xây dựng tập huấn luyện .................................................................... 22 2.3.2. Sửa lỗi, huấn luyện lại ........................................................................ 23 2.4. Các bộ lọc thống kê ................................................................................... 23 2.4.1. Bộ phân tích các token và tính giá trị .................................................. 23 2.4.2. Phân lớp k Nearest Neighbors (k-NN) ................................................ 25 2.4.3. Phân lớp theo kỹ thuật Support Vector Machine (SVM) ..................... 26 2.5. Các thuật giải áp dụng cho quá trình lọc thư spam ..................................... 27 2.5.1. Giải thuật xác định kích thước ............................................................ 27 2.5.2. Giải thuật giảm nhiễu Bayesian (Bayesian Noise Reduction) ............... 29 2.5.3. Thuật toán dựa trên luật RIPPER ........................................................ 29 Chương 3- Xây dựng bộ lọc spma dựa trên phương pháp thống kê và kỹ thuật Naïve Bayes ..................................................................................................... 31 3.1. Tổng quan mạng Bayes.............................................................................. 31 3.1.1. Giới thiệu mạng Bayes ....................................................................... 31 3.1.2. Mô hình chi tiết Naive Bayes.............................................................. 31 3.1.3. Ưu điểm của bộ lọc thư rác Bayes ...................................................... 32 3.2. Quy trình phân tích tổng quát..................................................................... 33 3.2.1. Phân tích đặc điểm chung của thư spam .............................................. 33 3.2.1.1. Phần Header của thư spam.......................................................... 33 3.2.1.2. Phần thân của thư spam ............................................................... 33 3.2.2. Phân loại thư rác tiếng Việt và thư rác tiếng Anh ................................ 34 3.2.3. Phân tích từ vựng và câu.................................................................... 35 3.2.3.1. Phân tích từ vựng ........................................................................ 35 3.2.3.2. Phân tích câu ............................................................................... 36 3.2.4. Biểu diễn nội dung thư ....................................................................... 37 3.2.4.1. Biểu diễn nội dung thư dưới dạng tập hợp từ (“túi từ”) ................ 37 3.2.4.2. Sử dụng cụm từ có ngữ nghĩa để biểu diễn văn bản ..................... 38 3.2.4.3. Sử dụng phân cụm từ để biểu diễn văn bản .................................. 39 3.2.5. Các bước tiến hành lọc trên mạng Bayes ............................................ 40 3.3. Tổng quan lọc thư rác tiếng Việt ................................................................ 42 3.3.1. Khó khăn trong quá trình lọc thư spam tiếng Việt ............................... 42 3.3.2. Tình hình nghiên cứu .......................................................................... 42 3.3.3. Phương pháp tiếp cận ......................................................................... 43 3.3.3.1. Mục tiêu chính............................................................................. 44 3.3.3.2. Tiền xử lý và tách câu tiếng Việt ................................................. 45 3.3.3.3. Phân tích từ đơn ......................................................................... 46 3.3.3.4. Phân tích từ ghép ........................................................................ 48 3.3.3.5. Xây dựng bộ từ điển tiếng Việt .................................................... 51 3.3.3.6. Quy trình cập nhật từ vựng tiếng Việt .......................................... 52 3.4. Quy trình lọc thư rác tiếng Việt ................................................................. 52 3.4.1. Áp dụng thuật toán Naïve Bayes trong quá trình lọc thư ..................... 52 3.4.2. Quy trình lọc thư rác tiếng Việt .......................................................... 53 Chương 4- Xây dựng chương trình lọc thư spam ......................................... 55 4.1. Kiến trúc hệ thống chương trình ................................................................ 55 4.1.1. Chương trình 1 ................................................................................... 55 4.1.2. Chương trình 2 ................................................................................... 56 4.2. Các bước cơ bản xây dựng hệ thống .......................................................... 56 4.2.1. Xây dựng một số chức năng cơ bản .................................................... 56 4.2.1.1. Chức năng chuẩn hóa dữ liệu....................................................... 56 4.2.1.2. Chức năng tách câu ..................................................................... 56 4.2.1.3 Chức năng tạo thư ........................................................................ 57 4.2.2. Đối với thư tiếng Anh ......................................................................... 57 4.2.2.1. Các bước thực hiện quá trình lọc ................................................. 57 4.2.2.2. Xây dựng tập hợp các token cho thư spam và thư ham ................ 57 4.2.2.3. Tính xác suất của các token và phân loại thư ............................... 58 4.2.2.4. Cập nhật lại tri thức cho bộ lọc .................................................... 58 4.2.3. Đối với thư tiếng Việt ......................................................................... 58 4.2.3.1. Xây dựng bộ từ điển tiếng Việt .................................................... 58 4.2.3.2. Phân tích văn bản tiếng Việt ........................................................ 59 4.2.3.3. Các bước thực hiện quá trình lọc thư tiếng Việt ........................... 59 4.2.3.4. Xây dựng tập hợp token cho thư spam và thư ham tiếng Việt ...... 59 4.2.3.5. Tính xác suất của các token và phân loại thư tiếng Việt ............... 59 4.2.3.6. Cập nhật lại tri thức cho bộ lọc tiếng Việt ..................................... 59 4.3. Chức năng chương trình ............................................................................ 61 4.3.1. Các chức năng chính của chương trình ............................................... 61 4.3.2. Quá trình lọc thư spam tiếng Anh ....................................................... 62 4.3.2.1. Xây dựng tập huấn luyện token cho quá trình lọc thư .................. 62 4.3.2.2. Chuẩn hóa tập token đã huấn luyện ............................................. 63 4.3.2.3. Phân tích thư tiếng Anh ............................................................... 64 4.3.2.4. Phân lớp hàng loạt thư tiếng Anh................................................. 65 4.3.3. Quy trình lọc thư spam tiếng Việt ....................................................... 66 4.3.3.1. Xây dựng bộ từ điển từ đơn và từ ghép ........................................ 66 4.3.3.2. Chuẩn hóa bộ từ điển tiếng Việt .................................................. 66 4.3.3.3. Thể hiện nội dung thư tiếng Việt ................................................. 67 4.3.3.4. Xây dựng tập huấn luyện cho quá trình lọc thư ............................ 68 4.3.3.5. Phân tích thư tiếng Việt ............................................................... 69 4.3.4. Các hàm cơ bản phục vụ chương trình ................................................ 70 4.3.4.1. Chức năng tách câu đơn cho nội dung thư tiếng Việt ................... 70 4.3.4.2. Chức năng tạo thư chứa nội dung ................................................ 71 4.3.5. Các chức năng tổng quát liên quan đến hệ thống ................................ 72 4.3.5.1. Quản lý các thông số chung của hệ thống .................................... 72 4.3.5.2. Mô hình hóa các chức năng của chương trình .............................. 71 4.3.6. Bộ lọc spam trên môi trường Internet ................................................. 73 4.3.6.1. Chức năng gửi email.................................................................... 73 4.3.6.2. Bộ lọc spam trên chương trình ..................................................... 73 4.4. Kết quả thực nghiệm và đánh giá kết quả đạt được .................................... 74 4.4.1. Đối với thư spam tiếng Anh ................................................................ 74 4.4.2. Đối với thư spam tiếng Việt ................................................................ 75 4.4.2.1.Xây dựng bộ từ điển tiếng Việt .................................................... 75 4.4.2.2. Kết quả phân lớp thư tiếng Việt ................................................... 75 Kết luận và hướng phát triển ............................................................................. 77 Phụ lục Tài liệu tham khảo DANH MỤC HÌNH VẼ Hình 1.1 - Nội dung thư spam theo báo cáo tháng 12-2010................................. 5 Hình 1.2 - Lưu lượng spam theo báo cáo tháng 12-2010 ..................................... 6 Hình 1.3 - Virus trong email theo báo cáo tháng 12-2010 ................................... 7 Hình 1.4 - Ví dụ về trang web lấy cắp địa chỉ email của người dùng .................. 8 Hình 1.5 - Một số website của các công ty gửi thư rác ....................................... 9 Hình 1.6 - Minh họa cách gửi thư rác qua mail server (open relay) ..................... 9 Hình 1.7 - Tình hình thư rác tại một số nước .................................................... 10 Hình 1.8 - Nguyên lý phương pháp xác thực thư .............................................. 15 Hình 1.9 - Ví dụ về Capcha .............................................................................. 16 Hình 2.1 - Tiến trình phân loại văn bản ............................................................ 20 Hình 2.2 - Tiến trình phân loại văn bản nâng cao .............................................. 22 Hình 2.3 - Phân loại văn bản theo kỹ thuật Vector Machine (SVM).................. 26 Hình 3.1 - Mô hình tổng quát lọc thư spam tiếng Việt ...................................... 45 Hình 3.2 - Mô hình tách câu tiếng Việt ............................................................. 46 Hình 3.3 - Mô hình tách từ đơn tiếng Việt ........................................................ 48 Hình 3.4 - Mô hình tách từ ghép tiếng Việt....................................................... 51 Hình 4.1 - Sơ đồ khối chương trình ................................................................. 55 Hình 4.2 - Giao diện chính của chương trình ................................................... 61 Hình 4.3 - Quy trình huấn luyện các token tiếng Anh ....................................... 62 Hình 4.4 - Quy trình chuẩn hóa tập token tiếng Anh ......................................... 63 Hình 4.5 - Quy trình phân tích một bức thư tiếng Anh ...................................... 64 Hình 4.6 - Quy trình phân lớp hàng loạt thư tiếng Anh ..................................... 65 Hình 4.7 - Xây dựng bộ từ điển từ tiếng Việt .................................................... 66 Hình 4.8 - Chuẩn hóa từ điển tiếng Việt ........................................................... 67 Hình 4.9 - Quy trình phân tích một bức thư tiếng Việt ...................................... 68 Hình 4.10 - Quy trình huấn luyện các token tiếng Việt ..................................... 68 Hình 4.11 -Phân tích thư tiếng Việt .................................................................. 69 Hình 4.12 -Kết quả phân tích thư tiếng Việt ..................................................... 70 Hình 4.13 -Tách câu đơn cho nội dung thư tiếng Việt ....................................... 70 Hình 4.14 -Tạo thư chứa nội dung từ Internet ................................................... 71 Hình 4.15 -Quản lý thông số chung của hệ thống.............................................. 72 Hình 4.16- Chức năng gửi mail......................................................................... 73 Hình 4.17. Bộ lọc spam của hệ thống ............................................................... 73 DANH MỤC BẢNG BIỂU Bảng 3.1. Ví dụ nội dung của 4 thư. ................................................................. 38 Bảng 3.2. Biểu diễn véctơ cho dữ liệu trong bảng 3.1 ....................................... 38 Bảng 3.3. Thống kê độ dài của từ trong từ điển ............................................... 48 Bảng 3.4. Ví dụ minh họa phân tích từ đơn....................................................... 54 Bảng 4.1. Kết quả phân loại thư tiếng Anh ....................................................... 74 Bảng 4.2. Thống kê bộ từ điển từ tiếng Việt ..................................................... 75 Bảng 4.3. Kết quả phân loại thư tiếng Việt ....................................................... 76 1 MỞ ĐẦU 1. Tóm lược đề tài Trong đời sống công nghệ hiện nay, thư điện tử (email) là một trong những ứng dụng phổ biến và nổi bật nhất mà nhiều người sử dụng. Ứng dụng email đã mang đến lợi ích cho người sử dụng : đơn giản, hiệu quả và dễ sử dụng. Tuy nhiên, spam hay các email không mong muốn hiện nay đã trở thành vấn đề nghiêm trọng đối với các công ty và những người sử dụng cá nhân và chính nó là nguyên nhân chính làm lãng phí tài nguyên mạng và thời gian của người dùng. Đặc biệt tại Việt Nam, bên cạnh những email spam thông thường bằng tiếng Anh, còn có những spam tiếng Việt, mang tính chất riêng khác với các loại mail spam khác. Bài toán giải quyết lọc thư spam là một bài toán lớn và đã có nhiều phương pháp giải quyết được hiệu quả. Tuy nhiên các phương pháp này đều tập trung vào thư tiếng Anh, trong khi thư spam tiếng Việt có những đặc điểm riêng nhưng chưa có một nghiên cứu cụ thể nào về vấn đề này. Đề tài tập trung nghiên cứu các bộ lọc thống kê hiện tại được sử dụng rộng rãi, từ đó đưa ra giải pháp ngăn chặn các loại thư rác đặc biệt phát tán tại Việt Nam. 2. Mục tiêu đề tài Nghiên cứu tổng quan các hệ thống lọc thư rác thông dụng hiện nay, từ đó đề xuất mô hình lọc thư rác có thể tự động phát hiện không những các thư rác quen thuộc được các hệ thống cảnh báo trên thế giới cung cấp mà còn có thể phát hiện các thể loại thư rác mới được phát tán ở Việt Nam. Bên cạnh đó, cũng nghiên cứu kỹ thuật tách câu, tách từ đơn, từ ghép trong tiếng Việt mà chỉ xét về mặt tồn tại của từ, không xét về mặt ý nghĩa của từ. 3. Nội dung thực hiện đề tài Tìm hiểu về thư spam: các loại thư spam, đặc điểm thư spam…Đặc biệt, tìm hiểu về thư spam đang phát triển và đặc trưng của thư spam tại Việt Nam Nghiên cứu các kỹ thuật đang sử dụng hiện nay để lọc thư spam (spam tiếng Anh và tiếng Việt). 2 Nghiên cứu các thuật toán, đặc biệt là thuật toán Naïve Bayes để lọc thư spam . Nghiên cứu các bộ lọc spam truyền thống hiện được sử dụng. Áp dụng thuật toán cho việc lọc thư spam Việt Nam. Nghiên cứu xây dựng các phương pháp tách câu, tách từ đơn, từ ghép trong tiếng Việt mà không xét về mặt ý nghĩa của từ. Xây dựng chương trình huấn luyện thư spam tiếng Anh và tiếng Việt, tách câu, tách từ đơn, từ ghép trong tiếng Việt. Nghiên cứu xây dựng bộ lọc spam cải tiến từ các bộ lọc đã có hoặc bộ lọc spam mới phù hợp với các thư spam tại Việt Nam. Triển khai bộ lọc spam vào web mail thử nghiệm. 4. Phạm vi ứng dụng Đề tài “ NGHIÊN CỨU XÂY DỰNG BỘ LỌC SPAM THÔNG MINH, TỰ ĐỘNG” có thể được ứng dụng trong các trình duyệt mail, và giúp cho người sử dụng loại bỏ được thư có nội dung spam, đặc biệt là spam tiếng Việt giảm thiểu thời gian lãng phí của người sử dụng khi phải “vất vả” kiểm tra “bằng tay” nội dung từng bức thư. 3 CHƯƠNG 1: TỔNG QUAN THƯ SPAM 1.1. Khảo sát thư spam 1.1.1. Định nghĩa thư spam Hiện nay, chưa có bất cứ một định nghĩa chính thức nào về thư spam. Một định nghĩa thông dụng nhất về spam có thể hiểu thư spam như sau ([15]) : “Thư rác (spam) là những bức thư điện tử không yêu cầu, không mong muốn và được gửi hàng loạt tới nhiều người nhận khác nhau”. “Thư không yêu cầu” là người nhận thư không yêu cầu người gửi gửi bức thư đó. “Thư được gửi hàng loạt” là bức thư có nội dung gửi giống nhau, người nhận đã nhận được nằm trong một loạt các thư được gửi đi cho nhiều người khác. Tuy nhiên, không phải tất cả các thư không mong muốn đều là thư spam và ngược lại không phải tất cả các thư spam đều là thư quảng cáo. Theo một số quan điểm hiểu theo nghĩa hẹp, thư spam là những thư quảng cáo không được yêu cầu (Unsolicited Commercial Email – UCE). Một số quan điểm hiểu theo nghĩa rộng thư spam là bao gồm tất cả thư quảng cáo, quấy rối, những thư có nội dung không lành mạnh (Unsolicited Bulk Email – UBE). Tóm lại, thư spam có thể xem là thư không được yêu cầu và được gửi đi hàng loạt. Nội dung bức thư là yếu tố quyết định dùng để phân biệt thư spam và thư thông thường, và đó cũng chính là cơ sở chính cho giải pháp phân loại thư spam bằng cách phân tích nội dung thư. 1.1.2. Phân loại thư spam 1.1.2.1. Thư spam tiếng Anh + Thư spam quảng cáo thuốc: thư spam quảng cáo bán thuốc Viagra, Cialis, thuốc giảm đau trực tuyến... + Thư spam Penny Stock: Thư spam khuyến khích mua chứng khoán, thư loại này khuyến khích nhà đầu tư mua chứng khoán giá rẻ... + Thư spam tài chính: Trong khi spam quảng cáo có xác suất nhỏ để người nhận đáp ứng như mua hàng, gửi tiền .v.v, thì spam tài chính chỉ thực hiện với những người khờ dại và nhận được tiền của họ vì một lý do nào đó. 4 + Thư spam hẹn sex hay khiêu dâm: Các site khiêu dâm và các site hẹn sex thường được mua bán thông qua sex (hiện nay tỷ lệ này so với các loại spam khác ngày càng ít đi). 1.1.2.2. Thư spam tiếng Việt Hiện tại, chưa có một thống kê chính xác nào, xác định những đặc điểm chung của thư rác tiếng Việt. Theo khảo sát, đa phần thư rác tiếng Việt tập trung vào + Thư spam mời tham gia các diễn đàn trực tuyến: hoclamgiau.vn, hi5.com, diễn đàn học tiếng Anh miễn phí. + Thư spam quảng cáo, rao vặt: mua bán bất động sản, sim số đẹp, ... + Thư spam giới thiệu các chương trình khuyến mãi mua sắm: mời mua hàng trên các website giảm giá, tạo tài khoản mua hàng,… + Mời tham gia các mạng xã hội. 1.1.3. Đặc điểm thư spam Đặc tính chung của thư spam là không ràng buộc về mặt nội dung. Phần lớn các spam tuân theo các mẫu chung và có thể được nhận diện một cách rõ ràng. Ngoài ra, các thư spam có các đặc điểm về ngôn ngữ, thời gian.... Hầu hết các thư spam này đều được viết bằng tiếng Anh với tỉ lệ rất cao hơn 80%. Đặc điểm chính của thư spam khác biệt với thư thông thường đó là + Không được yêu cầu. + Người nhận không quan tâm đến thông tin trong thư mình nhận được. + Không rõ người gửi. Người nhận không biết, không có bất cứ liên hệ nào với người gửi. + Email này được gửi đến một số lượng lớn các địa chỉ. Thể loại thư rác rất đa dạng phần lớn tập trung vào quảng cáo, lừa đảo, phần mềm giá rẻ, nội dung không lành mạnh.... 5 Hình 1.1- Nội dung thư spam theo báo cáo tháng 12-2010 [12] 1.1.4. Tác hại của thư spam Thư spam hiện tại chiếm một tỷ lệ vô cùng lớn trong tổng số thư điện tử được gửi qua Internet. Lượng thư spam quá lớn này gây ra nhiều tác hại đối với sự phát triển Internet nói chung và người sử dụng thư điện tử nói riêng. Theo nhiều thống kê từ nhiều nguồn khác nhau, thư rác chiếm khoảng 71% đến hơn 85% lượng thư gửi qua các máy chủ thư điện tử. 6 Hình 1.2- Lưu lượng spam theo báo cáo tháng 12-2010 [12] Dưới đây, mô tả một số tác hại cụ thể rõ ràng nhất của thư rác. + Gây thiệt hại về kinh tế tài chính cho người nhận thư trong trường hợp người nhận thư phải trả tiền cho lượng thông tin truyền qua mạng. + Lãng phí thời gian cực lớn cho việc mở thư và xóa thư khỏi hộp thư và có thể làm đầy hộp thư của người nhận, dẫn đến việc thất lạc những thư đến sau, gây cản trở diễn tiến công việc của những người sử dụng thư điện tử. + Thư rác gây tâm lý xấu đối với người sử dụng thư điện tử. Theo số liệu thống kê từ [13] , 25% người sử dụng thư điện tử xem thư rác là một trở ngại lớn khi sử dụng dịch vụ thư điện tử trên Internet. + Thư rác chiếm một phần lớn đường truyền Internet và làm tiêu tốn thời gian xử lý của máy chủ. + Thư rác còn gây ra các vấn đề kỹ thuật, phần lớn các thư rác có thể rất nguy hiểm, chứa virus, trojan hay các loại phần mềm gây hại khác, tạo ra các lỗ hổng bảo mật trong máy tính và mạng. Ngoài ra, thư rác còn được xem là phương tiện chính để thực hiện tấn công ”phishing” người dùng. 7 Hình 1.3- Virus trong email theo báo cáo tháng 12-2010 [12] 1.1.5. Phương thức hoạt động của thư spam 1.1.5.1. Quy trình chung phát tán thư spam Để phát tán thư rác, những người gửi thư rác phải có những điều kiện + Có danh sách địa chỉ email nhận thư. + Có các server cho phép gửi thư. + Soạn được nội dung thư theo yêu cầu quảng cáo qua mặt bộ lọc + Có những chương trình để gửi thư đi. 1.1.5.2. Thu thập địa chỉ email Để gửi thư rác, spammer cần phải có một danh sách địa chỉ email cần gửi. Danh sách này được thu thập được từ nhiều nguồn khác nhau như mua từ website thương mại có nhiều thành viên đăng ký hoặc sử dụng các kỹ thuật khác như + Phishing email: Spammer thường tung ra các website giả để bẫy người dùng gửi địa chỉ email cho họ. 8 Hình 1.4- Ví dụ về trang web lấy cắp địa chỉ email của người dùng [6] + Spambots: dùng các máy tìm kiếm chỉ để tìm kiếm địa chỉ email trên các website. Các máy này sẽ tìm kiếm những trang có kí hiệu “@” và sẽ tách địa chỉ email từ đó ra. + Sinh địa chỉ email theo kiểu từ điển: Danh sách các địa chỉ cũng có thể được sinh tự động để xác suất tồn tại của địa chỉ mới sinh đó có thể chấp nhận được. Địa chỉ email thường được tạo ra nhờ kết hợp giữa các họ tên phổ biến với các domain nhiều người dùng và các con số có nghĩa. Ví dụ như địa chỉ email được sinh như sau: Từ địa chỉ gốc là: phanhuutiep + @ + yahoo.com Có thể sinh ra các địa chỉ sau: [email protected] phanhuutiep [email protected] phanhuutiep [email protected] + Để xác định một địa chỉ email có tồn tại hay không, spammer sẽ gửi một bức thư tới tất cả các hộp thư trong danh sách sinh tự động. Nếu hộp thư đó tồn tại và người dùng của nó mở bức thư đó ra thì sẽ có một chương trình được kích hoạt thông báo về sự tồn tại của địa chỉ cho người gửi thư rác. 9 1.1.5.3. Tìm kiếm máy tính trên Internet cho phép gửi thư Muốn gửi được thư rác, spammer cần một danh sách các server để gửi thư đi. Các server này có thể là những server chuyên để gửi thư rác do người gửi thư rác sở hữu hoặc thuê, hoặc là những server bị người gửi thư rác lợi dụng. Dưới đây là hình ảnh quảng cáo của một số công ty chuyên tung thư rác được Google liệt kê khi tìm kiếm hai từ “bulk mail”. Hình 1.5 -Một số website của các công ty gửi thư rác [12] Người gửi thư rác thường khai thác lỗ hổng của những server cho phép chuyển tiếp thư (open relay) hoặc những proxy mở cho phép gửi thư (open proxy). Hình 1.6 - Minh họa cách gửi thư rác qua mail server (open relay) Trên mạng Internet, có rất nhiều mail server cho phép chuyển tiếp thư. Spammer sử dụng các server này để chuyển tiếp thư rác vì khi đó họ sẽ khó bị phát hiện hơn và chuyển được các gánh nặng về đường truyền sang cho các server đó. Tuy nhiên, server dạng này thường sớm bị đưa vào danh sách đen của các bộ lọc thư rác. Một loại server khác là các proxy cho phép gửi thư mà các spammer thường sử dụng. Mục đích chính của proxy là giúp các trang web vượt qua được tường lửa (firewall). Một số proxy cho phép gửi thư và bất cứ ai cũng có thể truy cập được. Spmmer lợi dụng điểm này để phát tán thư rác. 10 Ngoài ra, spammer còn thuê các máy tính “ma” để gửi thư rác. Đây là các máy tính không được quản lý nên khó có thể pháp hiện ra tác giả của các bức thư rác và giá thuê lại rẻ, nên có tới 40%-60% spammer bắt đầu từ cách này. Nghiêm trọng hơn, các spammer (và cũng là những hacker) còn chiếm quyền kiểm soát các máy tính hợp pháp để gửi thư rác. 1.1.6. Tình hình thư spam tại Việt Nam Hãng bảo mật Sophos (Anh) vừa chính thức công bố báo cáo về tình trạng thư spam toàn cầu trong đó có danh sách 12 quốc gia là nguồn xuất phát lớn nhất của thư spam tính đến hết tháng 12 – 2010, Việt Nam đứng thứ 10 trong danh sách kể trên. Hơn 56% tổng số thư rác toàn cầu xuất phát từ chính 12 quốc gia này. Hình 1.7 – Tình hình thư rác tại một số nước [12] Theo kết quả điều tra ban đầu của VNCERT - Bộ Bưu chính viễn thông hơn 1/3 Số người được hỏi khẳng định mỗi ngày nhận được từ 20 - 50% số thư rác mang nội dung tiếng Việt trên tổng số thư rác phải nhận mỗi ngày, khoảng 40 % khẳng định trong số thư rác từng nhận có chứa các nội dung xuyên tạc , vi phạm thuần phong mỹ tục, gây hại, lừa đảo, 48,36 % người dùng không có ấn tượng gì đặc biệt và 33,45 % cho rằng các công ty được quảng cáo thông qua thư rác là không có uy tín thương hiệu và tiềm lực hạn chế.
- Xem thêm -

Tài liệu liên quan