Đăng ký Đăng nhập
Trang chủ Nghiên cứu phương pháp lọc spam và ứng dụng trong bảo mật hệ thống thư điện tử t...

Tài liệu Nghiên cứu phương pháp lọc spam và ứng dụng trong bảo mật hệ thống thư điện tử tại sở thông tin và truyền thông tỉnh nam định

.PDF
81
40
141

Mô tả:

Nghiên cứu phương pháp lọc spam và ứng dụng trong bảo mật hệ thống thư điện tử tại sở thông tin và truyền thông tỉnh nam định
ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐINH QUANG THÁI NGHIÊN CỨU PHƢƠNG PHÁP LỌC SPAM ----VÀ ỨNG DỤNG TRONG BẢO MẬT HỆ THỐNG THƢ ĐIỆN TỬ TẠI SỞ THÔNG TIN VÀ TRUYỀN THÔNG TỈNH NAM ĐỊNH nh Mã số: 60 48 01 TS. Nguyễn Ngọc Cƣơng Thái Nguyên - 2013 Soá hoùa bôûi Trung taâm Hoïc lieäu http://lrc.tnu.edu.vn/ i LỜI CAM ĐOAN Tôi xin cam đoan rằng, đây là công trình nghiên cứu của tôi trong đó có sự giúp đỡ tận tình của thầy hƣớng dẫn và các thầy cô tại Học viện An ninh nhân dân, sự hỗ trợ của các đồng nghiệp tại Sở Thông tin và Truyền thông Nam Định. Các nội dung nghiên cứu và kết quả trong đề tài này là hoàn toàn trung thực. Trong luận văn, tôi có tham khảo đến một số tài liệu của một số tác giả đã đƣợc liệt kê tại phần Tài liệu tham khảo ở cuối luận văn. Thái Nguyên, ngày 15 tháng 7 năm 2013 Tác giả ĐINH QUANG THÁI Soá hoùa bôûi Trung taâm Hoïc lieäu http://lrc.tnu.edu.vn/ ii LỜI CẢM ƠN Để hoàn thành chƣơng trình Cao học và viết luận văn này, tôi đã nhận đƣợc sự hƣớng dẫn, giúp đỡ và góp ý nhiệt tình của quý thầy cô trƣờng Đại học Công nghệ Thông tin và Truyền thông Thái Nguyên. Trƣớc hết, tôi xin chân thành cảm ơn đến quý thầy cô trƣờng Đại học Công nghệ Thông tin và Truyền thông - Đại học Thái Nguyên, các thầy cô Học viện An ninh nhân dân, đặc biệt là những thầy đã tận tình dạy bảo cho tôi trong suốt thời gian học tập tại trƣờng. Tôi xin gửi lời biết ơn sâu sắc đến Tiến sĩ Nguyễn Ngọc Cƣơng - Học viện An ninh nhân dân đã dành rất nhiều thời gian và tâm huyết hƣớng dẫn nghiên cứu và giúp tôi hoàn thành luận văn tốt nghiệp. Nhân đây, tôi xin chân thành cảm ơn Ban giám hiệu trƣờng Đại học Công nghệ Thông tin và Truyền thông đã tạo rất nhiều điều kiện để tôi học tập và hoàn thành tốt khóa học. Mặc dù tôi đã có nhiều cố gắng hoàn thiện luận văn bằng tất cả sự nhiệt tình và năng lực của mình, tuy nhiên không thể tránh khỏi những thiếu sót, tôi rất mong nhận đƣợc những đóng góp quí báu của quý thầy cô và các bạn. Lời cảm ơn sau cùng tôi xin dành cho gia đình và những ngƣời bạn đã hết lòng quan tâm và tạo điều kiện tốt nhất để tôi hoàn thành luận văn tốt nghiệp này! Tôi xin chân thành cảm ơn! Thái Nguyên, ngày 15 tháng 7 năm 2013 Học viên thực hiện Đinh Quang Thái - Lớp CK10A Trƣờng Đại học CNTT&TT – Đại học Thái Nguyên. Soá hoùa bôûi Trung taâm Hoïc lieäu http://lrc.tnu.edu.vn/ iii MỤC LỤC LỜI CAM ĐOAN ....................................................................................................... i LỜI CẢM ƠN ............................................................................................................ ii DANH MỤC CÁC HÌNH ...........................................................................................v DANH MỤC CÁC BẢNG....................................................................................... vii DANH MỤC TỪ VIẾT TẮT .................................................................................. viii MỞ ĐẦU .....................................................................................................................1 Chƣơng 1: TỔNG QUAN VỀ THƢ ĐIỆN TỬ VÀ SPAM .......................................3 1.1 Các khái niệm cơ bản ................................................................................... 3 1.1.1. Thƣ điện tử là gì? .......................................................................................3 1.1.2. Cấu trúc chung của một địa chỉ thƣ điện tử ...............................................3 1.1.3. Sự khác biệt giữa thƣ điện tử với thƣ bƣu chính .......................................3 1.1.4. Thƣ rác là gì? .............................................................................................4 1.1.5. Các loại thƣ rác ..........................................................................................5 1.1.6. Tác hại của thƣ rác .....................................................................................6 1.2. Phƣơng thức trao đổi thông tin qua dịch vụ Email ..................................... 7 1.2.1. Mô hình trao đổi thông tin dựa trên email .................................................7 1.2.2. Giao thức và ngôn ngữ sử dụng .................................................................9 1.3. Các phần mềm lọc nội dung mail ở trong và ngoài nƣớc. ........................ 11 Chƣơng 2: CÁC PHƢƠNG PHÁP GỬI VÀ KỸ THUẬT LỌC EMAIL - SPAM ..15 2.1. Các kỹ thuật gửi mail nặc danh và Bomb Mail ......................................... 15 2.1.1. Thu thập địa chỉ email .............................................................................15 2.1.2. Tìm kiếm các máy tính trên Internet cho phép gửi thƣ ...........................18 2.1.3. Boml Mail ................................................................................................20 2.2. Mô hình và nguyên lý hoạt động của hệ thống lọc nội dung Mail............ 22 2.2.1. Mô hình hệ thống lọc mail .......................................................................22 2.2.2. Kiến trúc tổng quan của hệ thống lọc mail ..............................................24 2.2.3. Các kỹ thuật lọc nội dung thông tin qua mail ..........................................26 2.2.4. Kỹ thuật lọc Spam ...................................................................................30 Chƣơng 3: XÂY DỰNG CHƢƠNG TRÌNH THỬ NGHIỆM VÀ ĐỀ XUẤT CÁC GIẢI PHÁP PHÒNG CHỐNG SPAM .....................................................................44 3.1. Xây dựng chƣơng trình lọc spam cho các ứng dụng thƣ điện tử .............. 44 3.1.1. Nhiệm vụ của chƣơng trình .....................................................................44 3.1.2. Các công nghệ sử dụng ............................................................................44 Soá hoùa bôûi Trung taâm Hoïc lieäu http://lrc.tnu.edu.vn/ iv 3.1.3. Các chức năng chính của chƣơng trình ...................................................45 3.2. Thử nghiệm hệ thống thƣ điện tử tại Sở Thông tin và Truyền thông tỉnh Nam Định .................................................................................................................. 46 3.2.1. Khảo sát việc sử dụng mail tại Sở Thông tin và Truyền thông tỉnh Nam Định ...................................................................................................................46 3.2.2. Dữ liệu thử nghiệm ..................................................................................47 3.2.3. Phƣơng pháp thử nghiệm .........................................................................48 3.2.4. Thử nghiệm chƣơng trình ........................................................................49 3.2.4. So sánh phƣơng pháp phân loại ...............................................................55 3.2.5. Lựa chọn độ dài và số lƣợng đặc trƣng ...................................................56 3.2.6. Phân biệt theo ngôn ngữ trƣớc khi lọc .....................................................58 3.2.7. Nhận xét kết quả thử nghiệm ...................................................................58 3.3. Đề xuất các giải pháp phòng chống spam ................................................. 59 3.3.1. Giải pháp phòng chống tại mail server ....................................................59 3.3.2. Giải pháp phòng chống tại mail client .....................................................65 3.3.3. Giải pháp phía ngƣời sử dụng mail .........................................................67 KẾT LUẬN CHUNG ................................................................................................70 TÀI LIỆU THAM KHẢO .........................................................................................71 Soá hoùa bôûi Trung taâm Hoïc lieäu http://lrc.tnu.edu.vn/ v DANH MỤC CÁC HÌNH Hình 1.1: Mô hình lưu chuyển thư điện tử qua Internet .............................................7 Hình 1.2: Mô hình gửi và nhận thư điện tử sử dụng giao thử SMTP .......................10 Hình 1.3: Mô hình gửi và nhận thư điện tử dùng giao thức IMAP và POP .............11 Hình 1.4: Phần mềm lọc nội dung mail ....................................................................12 Hình 2.1: Ví dụ về trang web lấy cắp địa chỉ email của người dùng .......................16 Hình 2.2: Một số website của các công ty gửi thư rác ............................................18 Hình 2.3: Minh họa cách gửi thư rác qua mail server (open relay).........................19 Hình 2.4: Các phương án bộ trí hệ thống lọc thư .....................................................23 Hình 2.5: Kiến trúc chung của hệ thống lọc thư .......................................................25 Hình 2.6: Mô hình tổng quát lọc thư rác Tiếng Việt.................................................29 Hình 2.7: Lưu lượng thư trong một môi trường SPF ................................................34 Hình 2.8: Cách thức làm việc của SPF .....................................................................34 Hình 2.9: Lọc thư rác bằng phương pháp chặn IP ...................................................35 Hình 2.10: Thông tin header của email ....................................................................42 Hình 3.1: Nhiệm vụ của chương trình lọc thư rác ....................................................44 Hình 3.2: Chức năng của phần mềm lọc thư rác ......................................................46 Hình 3.3: Giao diện form thiết lập thông số huấn luyện hệ thống ...........................49 Hình 3.4: Lựa chọn thư mục chứa các thư mẫu cho việc huấn luyện.......................50 Hình 3.5: Giao diện form đã tiến hành huấn luyện tập mẫu thư thường .................51 Hình 3.6: Giao diện thiết lập danh sách hòm thư cần chặn lọc ...............................51 Hình 3.7: Cửa sổ xác nhận việc cập nhật danh sách hòm thư cần chặn lọc ............52 Hình 3.8: Giao diện thiết lập từ khóa cần chặn lọc ..................................................52 Hình 3.9: Cửa sổ xác nhận việc cập nhật danh sách từ khóa cần chặn lọc .............52 Hình 3.10: Xác nhận sử dụng tính năng lọc thư rác của chương trình ....................53 Hình 3.11: Hòm thư khi chưa chạy chương trình lọc thư rác ..................................53 Hình 3.12: Thống kê kết quả lọc thư rác của chương trình ......................................54 Hình 3.13: Thư rác đã được đánh dấu trong trình xem thư Outlook .......................54 Soá hoùa bôûi Trung taâm Hoïc lieäu http://lrc.tnu.edu.vn/ vi Hình 3.14: Giao diện tab giới thiệu chương trình ....................................................55 Hình 3.15: Xác nhận việc thoát khỏi chương trình ...................................................55 Hình 3.16: Độ chính xác phân loại chung với số lượng đặc trưng khác nhau .........57 Hình 3.17: Độ chính xác phân loại với các quy trình lọc khác nhau .......................59 Hình 3.18: Phương thức hoạt động của SPF ............................................................60 Hình 3.19: Phương thức hoạt động của SPF động ...................................................62 Hình 3.20: Phân bố số lượng cặp (tên miền, IP) theo thơi gian...............................64 Hình 3.21: Hiệu quả phương pháp SPF động ..........................................................64 Soá hoùa bôûi Trung taâm Hoïc lieäu http://lrc.tnu.edu.vn/ vii DANH MỤC CÁC BẢNG Bảng 1.1: So sánh giữa thư điện tử và thư truyền thống ............................................4 Bảng 1.2: Thống kê các dạng thư rác tại máy chủ .....................................................6 Bảng 3.1. Bộ dữ liệu thử nghiệm...............................................................................48 Bảng 3.2. Độ chính xác phân loại với các phương pháp phân loại khác nhau ........56 Bảng 3.3. Kết quả phân loại với độ dài đặc trưng - từ khác nhau ...........................57 Bảng 3.4 : Bảng dữ liệu mẫu sử dụng phương pháp SPF động ...............................63 Soá hoùa bôûi Trung taâm Hoïc lieäu http://lrc.tnu.edu.vn/ viii DANH MỤC TỪ VIẾT TẮT SPAM: Thư rác EMAIL: Thư điện tử SMTP: Simple Mail Transfer Protocol IMAP: Internet Message Access Protocol POP: Post Office Protocol Soá hoùa bôûi Trung taâm Hoïc lieäu http://lrc.tnu.edu.vn/ 1 MỞ ĐẦU Thư rác (spam) là thƣ điện tử đƣợc gửi hàng loạt với nội dung mà ngƣời nhận không mong đợi, không muốn xem, hay chứa những nội dung không liên quan đến ngƣời nhận và thƣờng đƣợc sử dụng để gửi thông tin quảng cáo. Do có giá thành tƣơng đối thấp so với các phƣơng pháp quảng cáo khác, thƣ rác hiện chiếm một tỷ lệ lớn và ngày càng tăng trong tổng số thƣ điện tử đƣợc gửi qua Internet. Sự xuất hiện và gia tăng thƣ rác không những gây khó chịu và làm mất thời gian của ngƣời nhận mà còn ảnh hƣởng tới đƣờng truyền Internet và làm chậm tốc độ xử lý của máy chủ thƣ điện tử, gây thiệt hại lớn về kinh tế. Để loại bỏ hoặc giảm thiểu ảnh hƣởng của thƣ rác, nhiều cách tiếp cận khác nhau đã đƣợc nghiên cứu và sử dụng. Giải pháp đấu tranh với thƣ rác rất đa dạng, bao gồm từ các cố gắng về pháp lý trong việc xây dựng luật ngăn chặn phát tán thƣ rác cho tới những giải pháp kỹ thuật nhằm phát hiện và ngăn chặn thƣ rác trong những giai đoạn khác nhau của quá trình tạo và phát tán thƣ. Trong số giải pháp đƣợc sử dụng, lọc thư theo nội dung đang là một trong những giải pháp đƣợc sử dụng rộng rãi và có triển vọng nhất. Lọc thƣ theo nội dung là phƣơng pháp phân tích nội dung thƣ để phân biệt thƣ rác với thƣ bình thƣờng, kết quả phân tích sau đó đƣợc sử dụng để quyết định chuyển tiếp thƣ đến ngƣời nhận hay không (trong phạm vi nghiên cứu này, nội dung thƣ đƣợc giới hạn là những nội dung trình bày dƣới dạng văn bản). Do việc lọc theo nội dung đòi hỏi phân tích phần văn bản chứa trong tiêu đề hay nội dung thƣ, thuật toán lọc nội dung cần đƣợc xây dựng phù hợp với ngôn ngữ mà thƣ sử dụng. Hiện nay, nhiều thuật toán lọc nội dung hiệu quả đã đƣợc nghiên cứu và sử dụng cho thƣ viết bằng tiếng Anh. Trong vòng vài năm gần đây, việc sử dụng Internet nói chung và thƣ điện tử nói riêng ngày càng phổ biến tại Việt nam. Một trong những hệ quả của sự phát triển này là ngày càng có nhiều thƣ rác gửi tới các tài khoản thƣ điện tử tại Việt nam (tài khoản có đuôi .vn). Những thƣ rác này bao gồm cả thƣ viết bằng tiếng Anh và thƣ viết bằng tiếng Việt. Việc xuất hiện ngày càng nhiều thƣ rác tiếng Việt đặt ra yêu cầu cấp thiết phải có những phƣơng pháp lọc thƣ có thể xử lý đƣợc thƣ rác loại này. Soá hoùa bôûi Trung taâm Hoïc lieäu http://lrc.tnu.edu.vn/ 2 Do các thuật toán lọc thƣ thông dụng mới chỉ đƣợc nghiên cứu và thử nghiệm cho tiếng Anh, để có thể sử dụng giải pháp lọc nội dung cho thƣ tiếng Việt cần nghiên cứu làm rõ hiệu quả của thuật toán khi phân tích nội dung thƣ viết bằng tiếng Việt. Bên cạnh đó cần thực hiện những cải tiến cho phù hợp khi chuyển từ phân loại nội dung tiếng Anh sang phân loại nội dung tiếng Việt. Để giải quyết những vấn đề vừa nêu, trong phạm vi đề tài này, tôi tiến hành nghiên cứu một số giải pháp lọc nội dung cho thƣ rác tiếng Việt và tiếng Anh. Nội dung nghiên cứu bao gồm thử nghiệm làm rõ khả năng lọc thƣ tiếng Việt, đề xuất và phân tích so sánh các cải tiến với thuật toán, thử nghiệm trên dữ liệu thực. Sau khi thử nghiệm so sánh, giải pháp lọc thƣ có hiệu quả cao sẽ đƣợc cài đặt trong một bộ lọc thƣ có khả năng tích hợp vào máy chủ thƣ điện tử Luận văn hoàn thành gồm 68 trang và đƣợc bố cục thành 3 chƣơng với lời mở đầu và phần kết luận chung: Phần mở đầu trình bày vắn tắt ý nghĩa, tính cấp thiết của đề tài, nêu nên mục tiêu đề tài, xác định các bài toán nghiên cứu và giới thiệu tóm tắt các chƣơng trong luận văn. Chƣơng 1. Tổng quan về thƣ điện tử và spam. Trong chƣơng này trình bày các khái niệm về thƣ tín truyền thống, thƣ điện tử, spam và mô hình, ngôn ngữ và giao thức sử dụng của thƣ điện tử, các phần mềm lọc nội dung thƣ hiện nay. Chƣơng 2. Các phƣơng pháp gửi và kỹ thuật lọc Email – Spam. Trình bày kỹ thuật gửi mail nặc danh, mô hình và nguyên lý hoạt động của hệ thống lọc nội dung mail, Các kỹ thuật lọc nội dung thông tin qua mail. Chƣơng 3. Xây dựng chƣơng trình thử nghiệm và đề xuất các giải pháp phòng chống spam. Trình bày các nội dung cài đặt thử nghiệm, công nghệ áp dụng và kết quả chƣơng trình lọc spam cho các ứng dụng thƣ điện tử tại Sở Thông tin và Truyền thông tỉnh Nam Định. Đề xuất các giải pháp phòng chống spam. Phần kết luận chung nêu tóm tắt các kết quả đạt đƣợc của luận văn. Soá hoùa bôûi Trung taâm Hoïc lieäu http://lrc.tnu.edu.vn/ 3 Chƣơng 1: TỔNG QUAN VỀ THƢ ĐIỆN TỬ VÀ SPAM Trong chương này trình bày các khái niệm về thư tín truyền thống, thư điện tử, spam và mô hình, ngôn ngữ và giao thức sử dụng của thư điện tử, các phần mềm lọc nội dung thư hiện nay. 1.1 Các khái niệm cơ bản 1.1.1. Thƣ điện tử là gì? Thƣ điện tử (Email – Electronic Mail) là một hệ thống chuyển nhận thƣ qua các mạng máy tính. Thƣ điện tử (Email) là một trong những phƣơng thức trao đổi thông tin phổ biến trong suốt quá trình phát triển Internet. Ban đầu email chỉ là những văn bản text đơn giản, mức độ bảo mật cũng đƣợc nâng cao dần lên, khi đó email đƣợc mã hóa dƣới nhiều dạng. Email là phƣơng tiện thông tin tốc độ cao. Mẫu thƣ có thể đƣợc gửi đi dƣới nhiều dạng, có thể ở dạng văn bản text thông thƣờng, hoặc có thể ở dạng mã hóa, và nó đƣợc chuyển qua các mạng máy tính, đặc biệt là mạng Internet 1.1.2. Cấu trúc chung của một địa chỉ thƣ điện tử Một địa chỉ thƣ điện tử bao gồm : tên[email]@tên_miền. Trong đó: - Tên_email : là định danh của hòm thƣ điện tử, thành phần này do ngƣời sử dụng tự đặt ra khi khởi tạo hòm thƣ cho mình. - Tên_miền : là tên miền cung cấp dịch vụ thƣ điện tử, ví dụ nhƣ yahoo.com, gmail.com,… 1.1.3. Sự khác biệt giữa thƣ điện tử với thƣ bƣu chính Giữa thƣ điện tử và thƣ bƣu chính (thƣ tín truyền thống) có những điểm tƣơng đồng, song có những điểm khác biệt đƣợc thể hiện qua bảng so sánh: Đặc điểm Khoảng cách vật lý Thƣ bƣu chính Có Soá hoùa bôûi Trung taâm Hoïc lieäu Thƣ điện tử Không http://lrc.tnu.edu.vn/ 4 Thời gian vận chuyển Lâu Nhanh Mức độ bảo mật Thấp Cao Chi phí Cao Thấp Khả năng soạn thảo Chậm (viết giấy) Nhanh (viết bằng trình soạn thảo đƣợc hỗ trợ) Mức độ thất lạc thƣ Cao Thấp (do đƣờng truyền lỗi) Thƣ tấn công Gửi kèm vũ khí sinh Gửi kèm mã độc : Worm, học. (Ít xảy ra) Virus, … (Thƣờng xuyên) Thiệt hại do bị tấn công Nặng Tùy vào mức độ tấn công Khả năng chuyển tiếp thƣ Có Có Kết nối Internet Không Có Bảng 1.1: So sánh giữa thư điện tử và thư truyền thống 1.1.4. Thƣ rác là gì? Hiện nay chƣa có một định nghĩa hoàn chỉnh và chặt chẽ về thƣ rác. Có quan điểm chỉ coi thƣ rác là những thƣ quảng cáo không đƣợc yêu cầu (Unsolicited Commercial Email - UCE), có quan điểm có thƣ rác với nghĩa rộng hơn, bao gồm cả thƣ quảng cáo, thƣ nhũng lạm (quấy rối), và những thƣ có nội dung không lành mạnh (Unsolicited Bulk Email – UBE). Dƣới đây sẽ đƣa ra một định nghĩa thông dụng nhất về thƣ rác và giải thích các đặc điểm của nó để phân biệt thƣ rác với thƣ thông thƣờng. Thư rác (spam) là những bức thư điện tử không yêu cầu, không mong muốn và được gửi hàng loạt tới nhiều người nhận. “Thư không yêu cầu” ở đây nghĩa là người nhận thư không yêu cầu người gửi gửi bức thư đó. “Thư được gửi hàng loạt” nghĩa là bức thư mà người nhận nhận được nằm trong một loạt các thư được gửi đi cho nhiều người khác và các bức thư này có nội dung tương tự nhau. Soá hoùa bôûi Trung taâm Hoïc lieäu http://lrc.tnu.edu.vn/ 5 Một bức thƣ đƣợc gọi là thƣ rác chỉ khi nó là thƣ không yêu cầu và đƣợc gửi hàng loạt. Nếu thƣ rác chỉ là thƣ không mong muốn thì nó có thể là những bức thƣ làm quen, đƣợc gửi lần đầu tiên, còn nến thƣ rác chỉ là thƣ đƣợc gửi hàng loạt thì nó có thể là những bức thƣ gửi cho khách hành của các công ty, các nhà cung cấp dịch vụ. Nhƣ định nghĩa ở trên, thƣ rác là thƣ không yêu cầu và đƣợc gửi hàng loạt. Nhƣng yếu tố quan trọng nhất để phân biệt thƣ rác với thƣ thông thƣờng phải là ở nội dung bức thƣ. Khi một ngƣời nhận đƣợc thƣ rác, ngƣời đó không thể xác định đƣợc thƣ có đƣợc gửi hàng loạt hay không nhƣng có thể nói chính xác đó là thƣ rác sau khi xem nội dung thƣ. Đặc điểm này chính là cơ sở cho giải pháp phân loại thƣ rác bằng cách phân tích nội dung thƣ 1.1.5. Các loại thƣ rác Đa số thƣ rác là thư quảng cáo cho hàng hoá hoặc dịch vụ. Tuy nhiên cũng tồn tại một lƣợng lớn thƣ rác mang những nội dung khác. Các thƣ rác không mang nội dung quảng cáo hàng hoá hay dịch vụ có thể phân chia thành: Thư có nội dung chính trị: do các tổ chức hay cá nhân hoạt động chính trị gửi trực tiếp tới ngƣời dùng thƣ điện tử để phục vụ mục đích quảng bá, tuyên truyền hay tạo quan hệ trực tiếp. Hiện nay tại Việt nam, thƣ rác có nội dung chính trị hầu hết là của các tổ chức phản động ngoài nƣớc gửi về và cần đặc biệt ngăn chặn. Thư từ thiện: do các tổ chức hay cá nhân hoạt động từ thiện gửi với nội dung yêu cầu quyên góp hay trợ giúp. Ngƣời gửi thƣ dạng này có thể không nhận thức đƣợc họ đang gửi thƣ rác do có sự biện hộ từ mục đích gửi thƣ. Thư có nội dung tôn giáo: dùng để tuyên truyền quảng bá cho các tổ chức hoặc hoạt động tôn giáo. Trong số thƣ những thƣ quảng cáo, một số dạng hàng hoá và dịch vụ chiếm tỷ trọng đặc biệt lớn. Dƣới đây là kết quả phân tích thống kê các thƣ rác gửi qua máy chủ hotmail.com trong năm 2003 và 2004 do Microsoft thực hiện [Hulten trends]. Soá hoùa bôûi Trung taâm Hoïc lieäu http://lrc.tnu.edu.vn/ 6 Bảng 1.2: Thống kê các dạng thư rác tại máy chủ Sản phẩm quảng cáo Năm 2003 Năm 2004 Quảng cáo liên quan đến tình dục (không đồ hoạ) 17% 34% Tranh ảnh khiêu dâm 13% 7% Bảo hiểm 1% 4% Quảng cáo thuốc 8% 10% Tài chính 12% 13% Du lịch, sòng bạc 2% 3% Bản tin 9% 6% Các sản phẩm có xuất sứ đáng ngờ (văn bằng giả.v.v.) 20% 10% Scam 8% 6% Các dạng quảng cáo khác 13% 8% 1.1.6. Tác hại của thƣ rác Thƣ rác hiện chiếm một tỷ lệ rất lớn trong tổng số thƣ điện tử đƣợc gửi qua Internet. Theo các thống kê khác nhau, thƣ rác chiếm từ 71% đến 87% lƣợng thƣ gửi qua các máy chủ thƣ điện tử. Lƣợng thƣ rác quá lớn gây ra nhiều tác hại đối với sự phát triển Internet nói chung và ngƣời sử dụng thƣ điện tử nói riêng. Có thể kể ra một số tác hại của thƣ rác: - Thƣ rác gây thiệt hại về kinh tế cho ngƣời nhận thƣ trong trƣờng hợp ngƣời nhận thƣ phải trả tiền cho lƣợng thông tin truyền qua mạng. - Thƣ rác có thể làm đầy hộp thƣ ngƣời nhận và do vậy làm thất lạc những thƣ bình thƣờng đến sau. Soá hoùa bôûi Trung taâm Hoïc lieäu http://lrc.tnu.edu.vn/ 7 - Thƣ rác làm tốn thời gian do ngƣời nhận phải mở thƣ và xoá thƣ khỏi hộp thƣ của mình. - Thƣ rác gây tâm lý xấu đối với ngƣời sử dụng thƣ điện tử. Theo thống kê tại http://www.pewinternet.org, 25% ngƣời sử dụng thƣ điện tử coi thƣ rác là trở ngại lớn khi sử dụng dịch vụ Internet này. - Thƣ rác chiếm một phần đƣờng truyền Internet và làm tốn thời gian xử lý của máy chủ. 1.2. Phƣơng thức trao đổi thông tin qua dịch vụ Email 1.2.1. Mô hình trao đổi thông tin dựa trên email Dịch vụ thƣ điện tử sử dụng giao thức SMTP (Simple Mail Transfer Protocol) trong họ giao thức TCP/IP. Hình 1.1: Mô hình lưu chuyển thư điện tử qua Internet Soá hoùa bôûi Trung taâm Hoïc lieäu http://lrc.tnu.edu.vn/ 8 Hoạt động của hệ thống email hiện nay có thể dƣợc minh họa qua phân tích một thí dụ nhƣ sau: 1. Nguyễn dùng MUA của mình để soạn một lá thƣ có địa chỉ ngƣời nhận là Trần với địa chỉ là [email protected]. Nguyễn nhấn nút Send và phần mềm thƣ điện tử của Nguyễn áp dụng SMTP để gửi mẫu thông tin (lá thƣ) đến MTA, hay máy chủ thƣ điện tử, của Nguyễn. Trong thí dụ thì máy chủ này là smtp.a.org đƣợc cung cấp từ dịch vụ Internet của Nguyễn. 2. MTA này sẽ đọc địa chỉ chỗ nhận ([email protected]) và dựa vào phần tên miền nó sẽ tìm hỏi địa chỉ của tên miền này, nơi có máy chủ sẽ nhận email gửi đến, qua Hệ thống Tên miền. 3. Máy chủ DNS của b.org là ns.b.org sẽ trả lời về một bản ghi trao đổi thƣ từ, đây là bảng ghi chỉ ra cách thức làm thế nào định tuyến cho email này. Trong thí dụ thì mx.b.org là máy chủ từ dịch vụ cung ứng Internet của Trần. 4. smtp.a.org gửi mẫu thông tin tới mx.b.org dùng giao thức SMTP, điều này sẽ phân phối lá thƣ đến hộp thƣ của Trần. 5. Khi đọc Trần ra lệnh nhận thƣ trên máy (MUA) của Trần, điều này tạo ra việc lấy về mẫu thông tin bằng cách áp dụng giao thức POP3. Trong trƣờng hợp Nguyễn không có MUA mà chỉ dùng Webmail chẳng hạn thì bƣớc 1 sẽ không xảy ra tức là MTA của Nguyễn sẽ làm việc trực tiếp. Tƣong tự cho trƣờng hợp Trần không có MUA riêng. Trƣớc đây, nếu một MTA không thể gửi tới đích thì nó có thể ít nhất ngừng lại ở chỗ gần với chỗ nhận. Sự ngừng này sẽ tạo cơ hội để máy đích có thể nhận về các mẫu thông tin trong thời gian trễ hơn. Nhiều MTA sẽ chấp nhận tất cả mẫu thông tin từ ngƣời gửi bất kì và tìm mọi cách để phân nó về đến máy đích. Những MTA nhƣ vậy gọi là những ngƣng đọng thƣ mở (open mail relays). Điều này khá cần thiết vì sự chất lƣợng liên lạc của hệ thống Internet lúc đó còn yếu. Ngày nay, do việc lợi dụng trên cơ chế hoạt động của hệ thống thƣ điện tử nhiều ngƣời đã gửi ra các loại thƣ vô bổ. Nhƣ là hậu quả, rất ít MTA ngày nay còn chấp nhận các Soá hoùa bôûi Trung taâm Hoïc lieäu http://lrc.tnu.edu.vn/ 9 ngƣng đọng thƣ mở. Bởi vì các thƣ nhƣ vậy rất có thể là các loại thƣ nhũng lạm(thƣ rác). Dịch vụ thƣ điện tử hoạt động offline. Các yêu cầu gửi thƣ đi không đòi hỏi phải xử lý ngay lập tức. Khi ngƣời A muốn chuyển một bức thƣ tới cho ngƣời B, hệ thống sẽ chuyển thƣ vào vùng Spool, cùng với các thông tin về ngƣời gửi, ngƣời nhận (đƣợc đính vào phần Header của thƣ) sẽ đƣợc chứa trong vùng này. Hệ thống gửi thƣ tự động bằng một chƣơng trình phần mềm thƣ điện tử nhƣ Outlook Express, Mozila Thunderbird, hay các chƣơng trình Webmail nhƣ Yahoo!, Gmail,… Đây là những chƣơng trình gửi thƣ không đồng bộ. Chƣơng trình này sẽ xác định đƣợc địa chỉ IP của máy cần gửi qua việc phân tích Header của thƣ, và tạo lập một kết nối tới máy đó. Nếu nhƣ tạo kết nối thành công, chƣơng trình sẽ chuyển thƣ tới vùng Spool của máy nhận. Nếu kết nối tới máy nhận không thành công, chƣơng trình sẽ lƣu trữ lại những thƣ chƣa đƣợc chuyển đi đó và sẽ gửi lại đến khi tạo dựng đƣợc kết nối. Nếu bức thƣ tồn tại quá lâu (khoảng 2-3 ngày), chƣơng trình sẽ gửi trả bức thƣ này cho ngƣời gửi. Thƣ điện tử ban đầu chỉ nhằm mục đích trao đổi thông tin giữa những ngƣời sử dụng với nhau. Thƣ điện tử hiện đại đƣợc phát triển các dịch vụ kèm theo, đó là các dịch vụ thƣ điện tử nhƣ NameServer (tra cứu các địa chỉ trên mạng), ArchiveServer (cho phép ngƣời dùng tìm kiếm và tải về những tập tin dùng chung). Các thƣ này đƣợc gửi tới các Server, Server phân tích nội dung thƣ, thực hiện các yêu cầu rồi gửi trả lại kết quả cho ngƣời gửi yêu cầu cũng bằng hình thức gửi thƣ điện tử. 1.2.2. Giao thức và ngôn ngữ sử dụng - SMTP (Simple Mail Transfer Protocol): giao thức chuyển thƣ đơn giản. SMTP là phƣơng thức vận chuyển các thƣ điện tử từ máy chủ này sang máy chủ khác cho đến địa chỉ ngƣời nhận. Các máy chủ sử dụng giao thức này để chuyển tiếp thƣ tới máy khách, và máy khách cũng sử dụng giao thức này gửi thƣ trung Soá hoùa bôûi Trung taâm Hoïc lieäu http://lrc.tnu.edu.vn/ 10 chuyển qua các máy chủ. Các thƣ điện tử đƣợc gửi đến các máy khách qua SMTP, và các máy này sử dụng giao thức POP, IMAP để nhận thông điệp này. Hình 1.2: Mô hình gửi và nhận thư điện tử sử dụng giao thử SMTP - IMAP (Internet Message Access Protocol) : giao thức nhận thông điệp từ Internet của các máy khách. Ngƣời dùng có thể truy xuất và quản lý thƣ từ máy chủ. Giao thức cho phép ngƣời sử dụng đọc, xóa, sửa, tìm kiếm thƣ trong hòm thƣ mà không cần phải tải thƣ về. Phiên bản mới nhất là IMAP4. Soá hoùa bôûi Trung taâm Hoïc lieäu http://lrc.tnu.edu.vn/ 11 Hình 1.3: Mô hình gửi và nhận thư điện tử dùng giao thức IMAP và POP - POP (Post Office Protocol) : giao thức đƣợc dùng trên các máy trạm (MUA) tìm kiếm các thƣ điện tử từ một máy MTA (máy chủ mail). Giao thức này cho phép ngƣời dùng đăng nhập vào máy chủ mail với tài khoản đã đăng kí để tải thƣ từ máy chủ về máy cục bộ. Phiên bản mới nhất là POP3. - Giao thức HTTP không phải là một giao thức dành cho thông tin liên lạc email, nhƣng nó có thể đƣợc sử dụng để truy cập hộp thƣ của bạn. Nó cũng còn đƣợc gọi là thƣ điện tử dựa trên web, giao thức này có thể đƣợc sử dụng để soạn hoặc truy lục email từ một tài khoản của bạn. Hotmail là một ví dụ của việc sử dụng HTTP nhƣ là một giao thức thƣ điện tử. 1.3. Các phần mềm lọc nội dung mail ở trong và ngoài nƣớc. Hiện nay, một trong những khó khăn của ngƣời sử dụng thƣ điện tử là không thể mở email của họ vì vô số các thƣ rác chất đầy trong hộp thƣ đến của họ. Ngƣời sử dụng có thể dễ dàng nhận ra và phân biệt các thƣ rác,tuy nhiên để loại bỏ hết các thƣ rác bằng cách xóa thủ công họ sẽ rất mất thời gian và công sức. Hệ thống lọc thƣ rác ra đời giúp làm giảm tối thiểu công việc này đối với ngƣời sử dụng. Phần mềm, tiện ích lọc thƣ rác có thể làm giảm đáng kể số lƣợng thƣ rác gửi đến hộp thƣ của ngƣời dùng. Soá hoùa bôûi Trung taâm Hoïc lieäu http://lrc.tnu.edu.vn/
- Xem thêm -

Tài liệu liên quan