ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG
ĐINH QUANG THÁI
NGHIÊN CỨU PHƢƠNG PHÁP LỌC SPAM ----VÀ ỨNG
DỤNG TRONG BẢO MẬT HỆ THỐNG THƢ ĐIỆN TỬ TẠI
SỞ THÔNG TIN VÀ TRUYỀN THÔNG TỈNH NAM ĐỊNH
nh
Mã số: 60 48 01
TS. Nguyễn Ngọc Cƣơng
Thái Nguyên - 2013
Soá hoùa bôûi Trung taâm Hoïc lieäu
http://lrc.tnu.edu.vn/
i
LỜI CAM ĐOAN
Tôi xin cam đoan rằng, đây là công trình nghiên cứu của tôi trong đó có sự
giúp đỡ tận tình của thầy hƣớng dẫn và các thầy cô tại Học viện An ninh nhân dân,
sự hỗ trợ của các đồng nghiệp tại Sở Thông tin và Truyền thông Nam Định. Các nội
dung nghiên cứu và kết quả trong đề tài này là hoàn toàn trung thực.
Trong luận văn, tôi có tham khảo đến một số tài liệu của một số tác giả đã
đƣợc liệt kê tại phần Tài liệu tham khảo ở cuối luận văn.
Thái Nguyên, ngày 15 tháng 7 năm 2013
Tác giả
ĐINH QUANG THÁI
Soá hoùa bôûi Trung taâm Hoïc lieäu
http://lrc.tnu.edu.vn/
ii
LỜI CẢM ƠN
Để hoàn thành chƣơng trình Cao học và viết luận văn này, tôi đã nhận đƣợc
sự hƣớng dẫn, giúp đỡ và góp ý nhiệt tình của quý thầy cô trƣờng Đại học Công
nghệ Thông tin và Truyền thông Thái Nguyên.
Trƣớc hết, tôi xin chân thành cảm ơn đến quý thầy cô trƣờng Đại học Công
nghệ Thông tin và Truyền thông - Đại học Thái Nguyên, các thầy cô Học viện An
ninh nhân dân, đặc biệt là những thầy đã tận tình dạy bảo cho tôi trong suốt thời
gian học tập tại trƣờng.
Tôi xin gửi lời biết ơn sâu sắc đến Tiến sĩ Nguyễn Ngọc Cƣơng - Học viện
An ninh nhân dân đã dành rất nhiều thời gian và tâm huyết hƣớng dẫn nghiên cứu
và giúp tôi hoàn thành luận văn tốt nghiệp.
Nhân đây, tôi xin chân thành cảm ơn Ban giám hiệu trƣờng Đại học Công
nghệ Thông tin và Truyền thông đã tạo rất nhiều điều kiện để tôi học tập và hoàn
thành tốt khóa học.
Mặc dù tôi đã có nhiều cố gắng hoàn thiện luận văn bằng tất cả sự nhiệt tình
và năng lực của mình, tuy nhiên không thể tránh khỏi những thiếu sót, tôi rất mong
nhận đƣợc những đóng góp quí báu của quý thầy cô và các bạn.
Lời cảm ơn sau cùng tôi xin dành cho gia đình và những ngƣời bạn đã hết
lòng quan tâm và tạo điều kiện tốt nhất để tôi hoàn thành luận văn tốt nghiệp này!
Tôi xin chân thành cảm ơn!
Thái Nguyên, ngày 15 tháng 7 năm 2013
Học viên thực hiện
Đinh Quang Thái - Lớp CK10A
Trƣờng Đại học CNTT&TT – Đại học Thái Nguyên.
Soá hoùa bôûi Trung taâm Hoïc lieäu
http://lrc.tnu.edu.vn/
iii
MỤC LỤC
LỜI CAM ĐOAN ....................................................................................................... i
LỜI CẢM ƠN ............................................................................................................ ii
DANH MỤC CÁC HÌNH ...........................................................................................v
DANH MỤC CÁC BẢNG....................................................................................... vii
DANH MỤC TỪ VIẾT TẮT .................................................................................. viii
MỞ ĐẦU .....................................................................................................................1
Chƣơng 1: TỔNG QUAN VỀ THƢ ĐIỆN TỬ VÀ SPAM .......................................3
1.1 Các khái niệm cơ bản ................................................................................... 3
1.1.1. Thƣ điện tử là gì? .......................................................................................3
1.1.2. Cấu trúc chung của một địa chỉ thƣ điện tử ...............................................3
1.1.3. Sự khác biệt giữa thƣ điện tử với thƣ bƣu chính .......................................3
1.1.4. Thƣ rác là gì? .............................................................................................4
1.1.5. Các loại thƣ rác ..........................................................................................5
1.1.6. Tác hại của thƣ rác .....................................................................................6
1.2. Phƣơng thức trao đổi thông tin qua dịch vụ Email ..................................... 7
1.2.1. Mô hình trao đổi thông tin dựa trên email .................................................7
1.2.2. Giao thức và ngôn ngữ sử dụng .................................................................9
1.3. Các phần mềm lọc nội dung mail ở trong và ngoài nƣớc. ........................ 11
Chƣơng 2: CÁC PHƢƠNG PHÁP GỬI VÀ KỸ THUẬT LỌC EMAIL - SPAM ..15
2.1. Các kỹ thuật gửi mail nặc danh và Bomb Mail ......................................... 15
2.1.1. Thu thập địa chỉ email .............................................................................15
2.1.2. Tìm kiếm các máy tính trên Internet cho phép gửi thƣ ...........................18
2.1.3. Boml Mail ................................................................................................20
2.2. Mô hình và nguyên lý hoạt động của hệ thống lọc nội dung Mail............ 22
2.2.1. Mô hình hệ thống lọc mail .......................................................................22
2.2.2. Kiến trúc tổng quan của hệ thống lọc mail ..............................................24
2.2.3. Các kỹ thuật lọc nội dung thông tin qua mail ..........................................26
2.2.4. Kỹ thuật lọc Spam ...................................................................................30
Chƣơng 3: XÂY DỰNG CHƢƠNG TRÌNH THỬ NGHIỆM VÀ ĐỀ XUẤT CÁC
GIẢI PHÁP PHÒNG CHỐNG SPAM .....................................................................44
3.1. Xây dựng chƣơng trình lọc spam cho các ứng dụng thƣ điện tử .............. 44
3.1.1. Nhiệm vụ của chƣơng trình .....................................................................44
3.1.2. Các công nghệ sử dụng ............................................................................44
Soá hoùa bôûi Trung taâm Hoïc lieäu
http://lrc.tnu.edu.vn/
iv
3.1.3. Các chức năng chính của chƣơng trình ...................................................45
3.2. Thử nghiệm hệ thống thƣ điện tử tại Sở Thông tin và Truyền thông tỉnh Nam
Định .................................................................................................................. 46
3.2.1. Khảo sát việc sử dụng mail tại Sở Thông tin và Truyền thông tỉnh Nam
Định ...................................................................................................................46
3.2.2. Dữ liệu thử nghiệm ..................................................................................47
3.2.3. Phƣơng pháp thử nghiệm .........................................................................48
3.2.4. Thử nghiệm chƣơng trình ........................................................................49
3.2.4. So sánh phƣơng pháp phân loại ...............................................................55
3.2.5. Lựa chọn độ dài và số lƣợng đặc trƣng ...................................................56
3.2.6. Phân biệt theo ngôn ngữ trƣớc khi lọc .....................................................58
3.2.7. Nhận xét kết quả thử nghiệm ...................................................................58
3.3. Đề xuất các giải pháp phòng chống spam ................................................. 59
3.3.1. Giải pháp phòng chống tại mail server ....................................................59
3.3.2. Giải pháp phòng chống tại mail client .....................................................65
3.3.3. Giải pháp phía ngƣời sử dụng mail .........................................................67
KẾT LUẬN CHUNG ................................................................................................70
TÀI LIỆU THAM KHẢO .........................................................................................71
Soá hoùa bôûi Trung taâm Hoïc lieäu
http://lrc.tnu.edu.vn/
v
DANH MỤC CÁC HÌNH
Hình 1.1: Mô hình lưu chuyển thư điện tử qua Internet .............................................7
Hình 1.2: Mô hình gửi và nhận thư điện tử sử dụng giao thử SMTP .......................10
Hình 1.3: Mô hình gửi và nhận thư điện tử dùng giao thức IMAP và POP .............11
Hình 1.4: Phần mềm lọc nội dung mail ....................................................................12
Hình 2.1: Ví dụ về trang web lấy cắp địa chỉ email của người dùng .......................16
Hình 2.2: Một số website của các công ty gửi thư rác ............................................18
Hình 2.3: Minh họa cách gửi thư rác qua mail server (open relay).........................19
Hình 2.4: Các phương án bộ trí hệ thống lọc thư .....................................................23
Hình 2.5: Kiến trúc chung của hệ thống lọc thư .......................................................25
Hình 2.6: Mô hình tổng quát lọc thư rác Tiếng Việt.................................................29
Hình 2.7: Lưu lượng thư trong một môi trường SPF ................................................34
Hình 2.8: Cách thức làm việc của SPF .....................................................................34
Hình 2.9: Lọc thư rác bằng phương pháp chặn IP ...................................................35
Hình 2.10: Thông tin header của email ....................................................................42
Hình 3.1: Nhiệm vụ của chương trình lọc thư rác ....................................................44
Hình 3.2: Chức năng của phần mềm lọc thư rác ......................................................46
Hình 3.3: Giao diện form thiết lập thông số huấn luyện hệ thống ...........................49
Hình 3.4: Lựa chọn thư mục chứa các thư mẫu cho việc huấn luyện.......................50
Hình 3.5: Giao diện form đã tiến hành huấn luyện tập mẫu thư thường .................51
Hình 3.6: Giao diện thiết lập danh sách hòm thư cần chặn lọc ...............................51
Hình 3.7: Cửa sổ xác nhận việc cập nhật danh sách hòm thư cần chặn lọc ............52
Hình 3.8: Giao diện thiết lập từ khóa cần chặn lọc ..................................................52
Hình 3.9: Cửa sổ xác nhận việc cập nhật danh sách từ khóa cần chặn lọc .............52
Hình 3.10: Xác nhận sử dụng tính năng lọc thư rác của chương trình ....................53
Hình 3.11: Hòm thư khi chưa chạy chương trình lọc thư rác ..................................53
Hình 3.12: Thống kê kết quả lọc thư rác của chương trình ......................................54
Hình 3.13: Thư rác đã được đánh dấu trong trình xem thư Outlook .......................54
Soá hoùa bôûi Trung taâm Hoïc lieäu
http://lrc.tnu.edu.vn/
vi
Hình 3.14: Giao diện tab giới thiệu chương trình ....................................................55
Hình 3.15: Xác nhận việc thoát khỏi chương trình ...................................................55
Hình 3.16: Độ chính xác phân loại chung với số lượng đặc trưng khác nhau .........57
Hình 3.17: Độ chính xác phân loại với các quy trình lọc khác nhau .......................59
Hình 3.18: Phương thức hoạt động của SPF ............................................................60
Hình 3.19: Phương thức hoạt động của SPF động ...................................................62
Hình 3.20: Phân bố số lượng cặp (tên miền, IP) theo thơi gian...............................64
Hình 3.21: Hiệu quả phương pháp SPF động ..........................................................64
Soá hoùa bôûi Trung taâm Hoïc lieäu
http://lrc.tnu.edu.vn/
vii
DANH MỤC CÁC BẢNG
Bảng 1.1: So sánh giữa thư điện tử và thư truyền thống ............................................4
Bảng 1.2: Thống kê các dạng thư rác tại máy chủ .....................................................6
Bảng 3.1. Bộ dữ liệu thử nghiệm...............................................................................48
Bảng 3.2. Độ chính xác phân loại với các phương pháp phân loại khác nhau ........56
Bảng 3.3. Kết quả phân loại với độ dài đặc trưng - từ khác nhau ...........................57
Bảng 3.4 : Bảng dữ liệu mẫu sử dụng phương pháp SPF động ...............................63
Soá hoùa bôûi Trung taâm Hoïc lieäu
http://lrc.tnu.edu.vn/
viii
DANH MỤC TỪ VIẾT TẮT
SPAM: Thư rác
EMAIL: Thư điện tử
SMTP: Simple Mail Transfer Protocol
IMAP: Internet Message Access Protocol
POP: Post Office Protocol
Soá hoùa bôûi Trung taâm Hoïc lieäu
http://lrc.tnu.edu.vn/
1
MỞ ĐẦU
Thư rác (spam) là thƣ điện tử đƣợc gửi hàng loạt với nội dung mà ngƣời nhận
không mong đợi, không muốn xem, hay chứa những nội dung không liên quan đến
ngƣời nhận và thƣờng đƣợc sử dụng để gửi thông tin quảng cáo. Do có giá thành
tƣơng đối thấp so với các phƣơng pháp quảng cáo khác, thƣ rác hiện chiếm một tỷ
lệ lớn và ngày càng tăng trong tổng số thƣ điện tử đƣợc gửi qua Internet. Sự xuất
hiện và gia tăng thƣ rác không những gây khó chịu và làm mất thời gian của ngƣời
nhận mà còn ảnh hƣởng tới đƣờng truyền Internet và làm chậm tốc độ xử lý của
máy chủ thƣ điện tử, gây thiệt hại lớn về kinh tế.
Để loại bỏ hoặc giảm thiểu ảnh hƣởng của thƣ rác, nhiều cách tiếp cận khác
nhau đã đƣợc nghiên cứu và sử dụng. Giải pháp đấu tranh với thƣ rác rất đa dạng,
bao gồm từ các cố gắng về pháp lý trong việc xây dựng luật ngăn chặn phát tán thƣ
rác cho tới những giải pháp kỹ thuật nhằm phát hiện và ngăn chặn thƣ rác trong
những giai đoạn khác nhau của quá trình tạo và phát tán thƣ. Trong số giải pháp
đƣợc sử dụng, lọc thư theo nội dung đang là một trong những giải pháp đƣợc sử
dụng rộng rãi và có triển vọng nhất. Lọc thƣ theo nội dung là phƣơng pháp phân
tích nội dung thƣ để phân biệt thƣ rác với thƣ bình thƣờng, kết quả phân tích sau đó
đƣợc sử dụng để quyết định chuyển tiếp thƣ đến ngƣời nhận hay không (trong phạm
vi nghiên cứu này, nội dung thƣ đƣợc giới hạn là những nội dung trình bày dƣới
dạng văn bản).
Do việc lọc theo nội dung đòi hỏi phân tích phần văn bản chứa trong tiêu đề
hay nội dung thƣ, thuật toán lọc nội dung cần đƣợc xây dựng phù hợp với ngôn ngữ
mà thƣ sử dụng. Hiện nay, nhiều thuật toán lọc nội dung hiệu quả đã đƣợc nghiên
cứu và sử dụng cho thƣ viết bằng tiếng Anh.
Trong vòng vài năm gần đây, việc sử dụng Internet nói chung và thƣ điện tử
nói riêng ngày càng phổ biến tại Việt nam. Một trong những hệ quả của sự phát
triển này là ngày càng có nhiều thƣ rác gửi tới các tài khoản thƣ điện tử tại Việt nam
(tài khoản có đuôi .vn). Những thƣ rác này bao gồm cả thƣ viết bằng tiếng Anh và
thƣ viết bằng tiếng Việt. Việc xuất hiện ngày càng nhiều thƣ rác tiếng Việt đặt ra
yêu cầu cấp thiết phải có những phƣơng pháp lọc thƣ có thể xử lý đƣợc thƣ rác loại
này.
Soá hoùa bôûi Trung taâm Hoïc lieäu
http://lrc.tnu.edu.vn/
2
Do các thuật toán lọc thƣ thông dụng mới chỉ đƣợc nghiên cứu và thử
nghiệm cho tiếng Anh, để có thể sử dụng giải pháp lọc nội dung cho thƣ tiếng Việt
cần nghiên cứu làm rõ hiệu quả của thuật toán khi phân tích nội dung thƣ viết bằng
tiếng Việt. Bên cạnh đó cần thực hiện những cải tiến cho phù hợp khi chuyển từ
phân loại nội dung tiếng Anh sang phân loại nội dung tiếng Việt. Để giải quyết
những vấn đề vừa nêu, trong phạm vi đề tài này, tôi tiến hành nghiên cứu một số
giải pháp lọc nội dung cho thƣ rác tiếng Việt và tiếng Anh. Nội dung nghiên cứu
bao gồm thử nghiệm làm rõ khả năng lọc thƣ tiếng Việt, đề xuất và phân tích so
sánh các cải tiến với thuật toán, thử nghiệm trên dữ liệu thực. Sau khi thử nghiệm so
sánh, giải pháp lọc thƣ có hiệu quả cao sẽ đƣợc cài đặt trong một bộ lọc thƣ có khả
năng tích hợp vào máy chủ thƣ điện tử
Luận văn hoàn thành gồm 68 trang và đƣợc bố cục thành 3 chƣơng với lời
mở đầu và phần kết luận chung:
Phần mở đầu trình bày vắn tắt ý nghĩa, tính cấp thiết của đề tài, nêu nên
mục tiêu đề tài, xác định các bài toán nghiên cứu và giới thiệu tóm tắt các chƣơng
trong luận văn.
Chƣơng 1. Tổng quan về thƣ điện tử và spam. Trong chƣơng này trình
bày các khái niệm về thƣ tín truyền thống, thƣ điện tử, spam và mô hình, ngôn ngữ
và giao thức sử dụng của thƣ điện tử, các phần mềm lọc nội dung thƣ hiện nay.
Chƣơng 2. Các phƣơng pháp gửi và kỹ thuật lọc Email – Spam. Trình
bày kỹ thuật gửi mail nặc danh, mô hình và nguyên lý hoạt động của hệ thống lọc
nội dung mail, Các kỹ thuật lọc nội dung thông tin qua mail.
Chƣơng 3. Xây dựng chƣơng trình thử nghiệm và đề xuất các giải pháp
phòng chống spam. Trình bày các nội dung cài đặt thử nghiệm, công nghệ áp dụng
và kết quả chƣơng trình lọc spam cho các ứng dụng thƣ điện tử tại Sở Thông tin và
Truyền thông tỉnh Nam Định. Đề xuất các giải pháp phòng chống spam.
Phần kết luận chung nêu tóm tắt các kết quả đạt đƣợc của luận văn.
Soá hoùa bôûi Trung taâm Hoïc lieäu
http://lrc.tnu.edu.vn/
3
Chƣơng 1: TỔNG QUAN VỀ THƢ ĐIỆN TỬ VÀ SPAM
Trong chương này trình bày các khái niệm về thư tín truyền thống, thư điện
tử, spam và mô hình, ngôn ngữ và giao thức sử dụng của thư điện tử, các phần mềm
lọc nội dung thư hiện nay.
1.1 Các khái niệm cơ bản
1.1.1. Thƣ điện tử là gì?
Thƣ điện tử (Email – Electronic Mail) là một hệ thống chuyển nhận thƣ qua
các mạng máy tính. Thƣ điện tử (Email) là một trong những phƣơng thức trao đổi
thông tin phổ biến trong suốt quá trình phát triển Internet. Ban đầu email chỉ là
những văn bản text đơn giản, mức độ bảo mật cũng đƣợc nâng cao dần lên, khi đó
email đƣợc mã hóa dƣới nhiều dạng. Email là phƣơng tiện thông tin tốc độ cao.
Mẫu thƣ có thể đƣợc gửi đi dƣới nhiều dạng, có thể ở dạng văn bản text thông
thƣờng, hoặc có thể ở dạng mã hóa, và nó đƣợc chuyển qua các mạng máy tính, đặc
biệt là mạng Internet
1.1.2. Cấu trúc chung của một địa chỉ thƣ điện tử
Một địa chỉ thƣ điện tử bao gồm : tên[email]@tên_miền. Trong đó:
- Tên_email : là định danh của hòm thƣ điện tử, thành phần này do ngƣời sử
dụng tự đặt ra khi khởi tạo hòm thƣ cho mình.
- Tên_miền : là tên miền cung cấp dịch vụ thƣ điện tử, ví dụ nhƣ yahoo.com,
gmail.com,…
1.1.3. Sự khác biệt giữa thƣ điện tử với thƣ bƣu chính
Giữa thƣ điện tử và thƣ bƣu chính (thƣ tín truyền thống) có những điểm
tƣơng đồng, song có những điểm khác biệt đƣợc thể hiện qua bảng so sánh:
Đặc điểm
Khoảng cách vật lý
Thƣ bƣu chính
Có
Soá hoùa bôûi Trung taâm Hoïc lieäu
Thƣ điện tử
Không
http://lrc.tnu.edu.vn/
4
Thời gian vận chuyển
Lâu
Nhanh
Mức độ bảo mật
Thấp
Cao
Chi phí
Cao
Thấp
Khả năng soạn thảo
Chậm (viết giấy)
Nhanh (viết bằng trình
soạn thảo đƣợc hỗ trợ)
Mức độ thất lạc thƣ
Cao
Thấp (do đƣờng truyền
lỗi)
Thƣ tấn công
Gửi kèm vũ khí sinh Gửi kèm mã độc : Worm,
học. (Ít xảy ra)
Virus,
…
(Thƣờng
xuyên)
Thiệt hại do bị tấn công
Nặng
Tùy vào mức độ tấn công
Khả năng chuyển tiếp thƣ
Có
Có
Kết nối Internet
Không
Có
Bảng 1.1: So sánh giữa thư điện tử và thư truyền thống
1.1.4. Thƣ rác là gì?
Hiện nay chƣa có một định nghĩa hoàn chỉnh và chặt chẽ về thƣ rác. Có quan
điểm chỉ coi thƣ rác là những thƣ quảng cáo không đƣợc yêu cầu (Unsolicited
Commercial Email - UCE), có quan điểm có thƣ rác với nghĩa rộng hơn, bao gồm
cả thƣ quảng cáo, thƣ nhũng lạm (quấy rối), và những thƣ có nội dung không lành
mạnh (Unsolicited Bulk Email – UBE). Dƣới đây sẽ đƣa ra một định nghĩa thông
dụng nhất về thƣ rác và giải thích các đặc điểm của nó để phân biệt thƣ rác với thƣ
thông thƣờng.
Thư rác (spam) là những bức thư điện tử không yêu cầu, không mong muốn
và được gửi hàng loạt tới nhiều người nhận. “Thư không yêu cầu” ở đây nghĩa là
người nhận thư không yêu cầu người gửi gửi bức thư đó. “Thư được gửi hàng loạt”
nghĩa là bức thư mà người nhận nhận được nằm trong một loạt các thư được gửi đi
cho nhiều người khác và các bức thư này có nội dung tương tự nhau.
Soá hoùa bôûi Trung taâm Hoïc lieäu
http://lrc.tnu.edu.vn/
5
Một bức thƣ đƣợc gọi là thƣ rác chỉ khi nó là thƣ không yêu cầu và đƣợc gửi
hàng loạt. Nếu thƣ rác chỉ là thƣ không mong muốn thì nó có thể là những bức thƣ
làm quen, đƣợc gửi lần đầu tiên, còn nến thƣ rác chỉ là thƣ đƣợc gửi hàng loạt thì nó
có thể là những bức thƣ gửi cho khách hành của các công ty, các nhà cung cấp dịch
vụ.
Nhƣ định nghĩa ở trên, thƣ rác là thƣ không yêu cầu và đƣợc gửi hàng loạt.
Nhƣng yếu tố quan trọng nhất để phân biệt thƣ rác với thƣ thông thƣờng phải là ở
nội dung bức thƣ. Khi một ngƣời nhận đƣợc thƣ rác, ngƣời đó không thể xác định
đƣợc thƣ có đƣợc gửi hàng loạt hay không nhƣng có thể nói chính xác đó là thƣ rác
sau khi xem nội dung thƣ. Đặc điểm này chính là cơ sở cho giải pháp phân loại thƣ
rác bằng cách phân tích nội dung thƣ
1.1.5. Các loại thƣ rác
Đa số thƣ rác là thư quảng cáo cho hàng hoá hoặc dịch vụ. Tuy nhiên cũng
tồn tại một lƣợng lớn thƣ rác mang những nội dung khác. Các thƣ rác không mang
nội dung quảng cáo hàng hoá hay dịch vụ có thể phân chia thành:
Thư có nội dung chính trị: do các tổ chức hay cá nhân hoạt động chính trị
gửi trực tiếp tới ngƣời dùng thƣ điện tử để phục vụ mục đích quảng bá, tuyên truyền
hay tạo quan hệ trực tiếp. Hiện nay tại Việt nam, thƣ rác có nội dung chính trị hầu
hết là của các tổ chức phản động ngoài nƣớc gửi về và cần đặc biệt ngăn chặn.
Thư từ thiện: do các tổ chức hay cá nhân hoạt động từ thiện gửi với nội dung
yêu cầu quyên góp hay trợ giúp. Ngƣời gửi thƣ dạng này có thể không nhận thức
đƣợc họ đang gửi thƣ rác do có sự biện hộ từ mục đích gửi thƣ.
Thư có nội dung tôn giáo: dùng để tuyên truyền quảng bá cho các tổ chức
hoặc hoạt động tôn giáo.
Trong số thƣ những thƣ quảng cáo, một số dạng hàng hoá và dịch vụ chiếm
tỷ trọng đặc biệt lớn. Dƣới đây là kết quả phân tích thống kê các thƣ rác gửi qua
máy chủ hotmail.com trong năm 2003 và 2004 do Microsoft thực hiện [Hulten trends].
Soá hoùa bôûi Trung taâm Hoïc lieäu
http://lrc.tnu.edu.vn/
6
Bảng 1.2: Thống kê các dạng thư rác tại máy chủ
Sản phẩm quảng cáo
Năm 2003
Năm 2004
Quảng cáo liên quan đến tình dục (không đồ hoạ)
17%
34%
Tranh ảnh khiêu dâm
13%
7%
Bảo hiểm
1%
4%
Quảng cáo thuốc
8%
10%
Tài chính
12%
13%
Du lịch, sòng bạc
2%
3%
Bản tin
9%
6%
Các sản phẩm có xuất sứ đáng ngờ (văn bằng giả.v.v.)
20%
10%
Scam
8%
6%
Các dạng quảng cáo khác
13%
8%
1.1.6. Tác hại của thƣ rác
Thƣ rác hiện chiếm một tỷ lệ rất lớn trong tổng số thƣ điện tử đƣợc gửi qua
Internet. Theo các thống kê khác nhau, thƣ rác chiếm từ 71% đến 87% lƣợng thƣ
gửi qua các máy chủ thƣ điện tử. Lƣợng thƣ rác quá lớn gây ra nhiều tác hại đối với
sự phát triển Internet nói chung và ngƣời sử dụng thƣ điện tử nói riêng. Có thể kể ra
một số tác hại của thƣ rác:
-
Thƣ rác gây thiệt hại về kinh tế cho ngƣời nhận thƣ trong trƣờng hợp
ngƣời nhận thƣ phải trả tiền cho lƣợng thông tin truyền qua mạng.
-
Thƣ rác có thể làm đầy hộp thƣ ngƣời nhận và do vậy làm thất lạc
những thƣ bình thƣờng đến sau.
Soá hoùa bôûi Trung taâm Hoïc lieäu
http://lrc.tnu.edu.vn/
7
-
Thƣ rác làm tốn thời gian do ngƣời nhận phải mở thƣ và xoá thƣ khỏi
hộp thƣ của mình.
-
Thƣ rác gây tâm lý xấu đối với ngƣời sử dụng thƣ điện tử. Theo thống
kê tại http://www.pewinternet.org, 25% ngƣời sử dụng thƣ điện tử coi
thƣ rác là trở ngại lớn khi sử dụng dịch vụ Internet này.
-
Thƣ rác chiếm một phần đƣờng truyền Internet và làm tốn thời gian
xử lý của máy chủ.
1.2. Phƣơng thức trao đổi thông tin qua dịch vụ Email
1.2.1. Mô hình trao đổi thông tin dựa trên email
Dịch vụ thƣ điện tử sử dụng giao thức SMTP (Simple Mail Transfer
Protocol) trong họ giao thức TCP/IP.
Hình 1.1: Mô hình lưu chuyển thư điện tử qua Internet
Soá hoùa bôûi Trung taâm Hoïc lieäu
http://lrc.tnu.edu.vn/
8
Hoạt động của hệ thống email hiện nay có thể dƣợc minh họa qua phân tích
một thí dụ nhƣ sau:
1. Nguyễn dùng MUA của mình để soạn một lá thƣ có địa chỉ ngƣời nhận là
Trần với địa chỉ là
[email protected]. Nguyễn nhấn nút Send và phần mềm thƣ điện tử
của Nguyễn áp dụng SMTP để gửi mẫu thông tin (lá thƣ) đến MTA, hay máy chủ
thƣ điện tử, của Nguyễn. Trong thí dụ thì máy chủ này là smtp.a.org đƣợc cung cấp
từ dịch vụ Internet của Nguyễn.
2. MTA này sẽ đọc địa chỉ chỗ nhận (
[email protected]) và dựa vào phần tên miền
nó sẽ tìm hỏi địa chỉ của tên miền này, nơi có máy chủ sẽ nhận email gửi đến, qua
Hệ thống Tên miền.
3. Máy chủ DNS của b.org là ns.b.org sẽ trả lời về một bản ghi trao đổi thƣ
từ, đây là bảng ghi chỉ ra cách thức làm thế nào định tuyến cho email này. Trong thí
dụ thì mx.b.org là máy chủ từ dịch vụ cung ứng Internet của Trần.
4. smtp.a.org gửi mẫu thông tin tới mx.b.org dùng giao thức SMTP, điều này
sẽ phân phối lá thƣ đến hộp thƣ của Trần.
5. Khi đọc Trần ra lệnh nhận thƣ trên máy (MUA) của Trần, điều này tạo ra
việc lấy về mẫu thông tin bằng cách áp dụng giao thức POP3.
Trong trƣờng hợp Nguyễn không có MUA mà chỉ dùng Webmail chẳng hạn
thì bƣớc 1 sẽ không xảy ra tức là MTA của Nguyễn sẽ làm việc trực tiếp. Tƣong tự
cho trƣờng hợp Trần không có MUA riêng.
Trƣớc đây, nếu một MTA không thể gửi tới đích thì nó có thể ít nhất ngừng
lại ở chỗ gần với chỗ nhận. Sự ngừng này sẽ tạo cơ hội để máy đích có thể nhận về
các mẫu thông tin trong thời gian trễ hơn. Nhiều MTA sẽ chấp nhận tất cả mẫu
thông tin từ ngƣời gửi bất kì và tìm mọi cách để phân nó về đến máy đích. Những
MTA nhƣ vậy gọi là những ngƣng đọng thƣ mở (open mail relays). Điều này khá
cần thiết vì sự chất lƣợng liên lạc của hệ thống Internet lúc đó còn yếu. Ngày nay,
do việc lợi dụng trên cơ chế hoạt động của hệ thống thƣ điện tử nhiều ngƣời đã gửi
ra các loại thƣ vô bổ. Nhƣ là hậu quả, rất ít MTA ngày nay còn chấp nhận các
Soá hoùa bôûi Trung taâm Hoïc lieäu
http://lrc.tnu.edu.vn/
9
ngƣng đọng thƣ mở. Bởi vì các thƣ nhƣ vậy rất có thể là các loại thƣ nhũng lạm(thƣ
rác).
Dịch vụ thƣ điện tử hoạt động offline. Các yêu cầu gửi thƣ đi không đòi hỏi
phải xử lý ngay lập tức. Khi ngƣời A muốn chuyển một bức thƣ tới cho ngƣời B, hệ
thống sẽ chuyển thƣ vào vùng Spool, cùng với các thông tin về ngƣời gửi, ngƣời
nhận (đƣợc đính vào phần Header của thƣ) sẽ đƣợc chứa trong vùng này. Hệ thống
gửi thƣ tự động bằng một chƣơng trình phần mềm thƣ điện tử nhƣ Outlook Express,
Mozila Thunderbird, hay các chƣơng trình Webmail nhƣ Yahoo!, Gmail,… Đây là
những chƣơng trình gửi thƣ không đồng bộ. Chƣơng trình này sẽ xác định đƣợc địa
chỉ IP của máy cần gửi qua việc phân tích Header của thƣ, và tạo lập một kết nối tới
máy đó. Nếu nhƣ tạo kết nối thành công, chƣơng trình sẽ chuyển thƣ tới vùng Spool
của máy nhận. Nếu kết nối tới máy nhận không thành công, chƣơng trình sẽ lƣu trữ
lại những thƣ chƣa đƣợc chuyển đi đó và sẽ gửi lại đến khi tạo dựng đƣợc kết nối.
Nếu bức thƣ tồn tại quá lâu (khoảng 2-3 ngày), chƣơng trình sẽ gửi trả bức thƣ này
cho ngƣời gửi.
Thƣ điện tử ban đầu chỉ nhằm mục đích trao đổi thông tin giữa những ngƣời
sử dụng với nhau. Thƣ điện tử hiện đại đƣợc phát triển các dịch vụ kèm theo, đó là
các dịch vụ thƣ điện tử nhƣ NameServer (tra cứu các địa chỉ trên mạng),
ArchiveServer (cho phép ngƣời dùng tìm kiếm và tải về những tập tin dùng chung).
Các thƣ này đƣợc gửi tới các Server, Server phân tích nội dung thƣ, thực hiện các
yêu cầu rồi gửi trả lại kết quả cho ngƣời gửi yêu cầu cũng bằng hình thức gửi thƣ
điện tử.
1.2.2. Giao thức và ngôn ngữ sử dụng
- SMTP (Simple Mail Transfer Protocol): giao thức chuyển thƣ đơn giản.
SMTP là phƣơng thức vận chuyển các thƣ điện tử từ máy chủ này sang máy chủ
khác cho đến địa chỉ ngƣời nhận. Các máy chủ sử dụng giao thức này để chuyển
tiếp thƣ tới máy khách, và máy khách cũng sử dụng giao thức này gửi thƣ trung
Soá hoùa bôûi Trung taâm Hoïc lieäu
http://lrc.tnu.edu.vn/
10
chuyển qua các máy chủ. Các thƣ điện tử đƣợc gửi đến các máy khách qua SMTP,
và các máy này sử dụng giao thức POP, IMAP để nhận thông điệp này.
Hình 1.2: Mô hình gửi và nhận thư điện tử sử dụng giao thử SMTP
- IMAP (Internet Message Access Protocol) : giao thức nhận thông điệp từ
Internet của các máy khách. Ngƣời dùng có thể truy xuất và quản lý thƣ từ máy chủ.
Giao thức cho phép ngƣời sử dụng đọc, xóa, sửa, tìm kiếm thƣ trong hòm thƣ mà
không cần phải tải thƣ về. Phiên bản mới nhất là IMAP4.
Soá hoùa bôûi Trung taâm Hoïc lieäu
http://lrc.tnu.edu.vn/
11
Hình 1.3: Mô hình gửi và nhận thư điện tử dùng giao thức IMAP và POP
- POP (Post Office Protocol) : giao thức đƣợc dùng trên các máy trạm
(MUA) tìm kiếm các thƣ điện tử từ một máy MTA (máy chủ mail). Giao thức này
cho phép ngƣời dùng đăng nhập vào máy chủ mail với tài khoản đã đăng kí để tải
thƣ từ máy chủ về máy cục bộ. Phiên bản mới nhất là POP3.
- Giao thức HTTP không phải là một giao thức dành cho thông tin liên lạc
email, nhƣng nó có thể đƣợc sử dụng để truy cập hộp thƣ của bạn. Nó cũng còn
đƣợc gọi là thƣ điện tử dựa trên web, giao thức này có thể đƣợc sử dụng để soạn
hoặc truy lục email từ một tài khoản của bạn. Hotmail là một ví dụ của việc sử dụng
HTTP nhƣ là một giao thức thƣ điện tử.
1.3. Các phần mềm lọc nội dung mail ở trong và ngoài nƣớc.
Hiện nay, một trong những khó khăn của ngƣời sử dụng thƣ điện tử là không
thể mở email của họ vì vô số các thƣ rác chất đầy trong hộp thƣ đến của họ. Ngƣời
sử dụng có thể dễ dàng nhận ra và phân biệt các thƣ rác,tuy nhiên để loại bỏ hết các
thƣ rác bằng cách xóa thủ công họ sẽ rất mất thời gian và công sức. Hệ thống lọc
thƣ rác ra đời giúp làm giảm tối thiểu công việc này đối với ngƣời sử dụng. Phần
mềm, tiện ích lọc thƣ rác có thể làm giảm đáng kể số lƣợng thƣ rác gửi đến hộp thƣ
của ngƣời dùng.
Soá hoùa bôûi Trung taâm Hoïc lieäu
http://lrc.tnu.edu.vn/