ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHÊÊ THÔNG TIN VÀ TRUYỀN THÔNG
ĐINH QUANG THÁI
NGHIÊN CỨU PHƯƠNG PHÁP LỌC SPAM ----VÀ ỨNG
DỤNG TRONG BẢO MẬT HỆ THỐNG THƯ ĐIỆN TỬ TẠI SỞ
THÔNG TIN VÀ TRUYỀN THÔNG TỈNH NAM ĐỊNH
Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS. Nguyễn Ngọc Cương
Thái Nguyên - 2013
i
LỜI CAM ĐOAN
Tôi xin cam đoan rằng, đây là công trình nghiên cứu của tôi trong đó có sự
giúp đỡ tận tình của thầy hướng dẫn và các thầy cô tại Học viện An ninh nhân dân,
sự hỗ trợ của các đồng nghiệp tại Sở Thông tin và Truyền thông Nam Định. Các nội
dung nghiên cứu và kết quả trong đề tài này là hoàn toàn trung thực.
Trong luận văn, tôi có tham khảo đến một số tài liệu của một số tác giả đã
được liệt kê tại phần Tài liệu tham khảo ở cuối luận văn.
Thái Nguyên, ngày 15 tháng 7 năm 2013
Tác giả
ĐINH QUANG THÁI
ii
LỜI CẢM ƠN
Để hoàn thành chương trình Cao học và viết luận văn này, tôi đã nhận được
sự hướng dẫn, giúp đỡ và góp ý nhiệt tình của quý thầy cô trường Đại học Công
nghệ Thông tin và Truyền thông Thái Nguyên.
Trước hết, tôi xin chân thành cảm ơn đến quý thầy cô trường Đại học Công
nghệ Thông tin và Truyền thông - Đại học Thái Nguyên, các thầy cô Học viện An
ninh nhân dân, đặc biệt là những thầy đã tận tình dạy bảo cho tôi trong suốt thời
gian học tập tại trường.
Tôi xin gửi lời biết ơn sâu sắc đến Tiến sĩ Nguyễn Ngọc Cương - Học viện
An ninh nhân dân đã dành rất nhiều thời gian và tâm huyết hướng dẫn nghiên cứu
và giúp tôi hoàn thành luận văn tốt nghiệp.
Nhân đây, tôi xin chân thành cảm ơn Ban giám hiệu trường Đại học Công
nghệ Thông tin và Truyền thông đã tạo rất nhiều điều kiện để tôi học tập và hoàn
thành tốt khóa học.
Mặc dù tôi đã có nhiều cố gắng hoàn thiện luận văn bằng tất cả sự nhiệt tình
và năng lực của mình, tuy nhiên không thể tránh khỏi những thiếu sót, tôi rất mong
nhận được những đóng góp quí báu của quý thầy cô và các bạn.
Lời cảm ơn sau cùng tôi xin dành cho gia đình và những người bạn đã hết
lòng quan tâm và tạo điều kiện tốt nhất để tôi hoàn thành luận văn tốt nghiệp này!
Tôi xin chân thành cảm ơn!
Thái Nguyên, ngày 15 tháng 7 năm 2013
Học viên thực hiện
Đinh Quang Thái - Lớp CK10A
Trường Đại học CNTT&TT – Đại học Thái Nguyên.
iii
MỤC LỤC
LỜI CAM ĐOAN..........................................................................................................i
LỜI CẢM ƠN..............................................................................................................ii
DANH MỤC CÁC HÌNH............................................................................................v
DANH MỤC CÁC BẢNG........................................................................................vii
DANH MỤC TỪ VIẾT TẮT....................................................................................viii
MỞ ĐẦU......................................................................................................................1
Chương 1: TỔNG QUAN VỀ THƯ ĐIỆN TỬ VÀ SPAM.........................................3
1.1 Các khái niệm cơ bản
3
1.1.1. Thư điện tử là gì?........................................................................................3
1.1.2. Cấu trúc chung của một địa chỉ thư điện tử...............................................3
1.1.3. Sự khác biệt giữa thư điện tử với thư bưu chính........................................3
1.1.4. Thư rác là gì?..............................................................................................4
1.1.5. Các loại thư rác...........................................................................................5
1.1.6. Tác hại của thư rác......................................................................................6
1.2. Phương thức trao đổi thông tin qua dịch vụ Email
7
1.2.1. Mô hình trao đổi thông tin dựa trên email..................................................7
1.2.2. Giao thức và ngôn ngữ sử dụng..................................................................9
1.3. Các phần mềm lọc nội dung mail ở trong và ngoài nước.
11
Chương 2: CÁC PHƯƠNG PHÁP GỬI VÀ KỸ THUẬT LỌC EMAIL - SPAM...14
2.1. Các kỹ thuật gửi mail nặc danh và Bomb Mail 14
2.1.1. Thu thập địa chỉ email..............................................................................14
2.1.2. Tìm kiếm các máy tính trên Internet cho phép gửi thư............................17
2.1.3. Boml Mail.................................................................................................19
2.2. Mô hình và nguyên lý hoạt động của hệ thống lọc nội dung Mail
21
2.2.1. Mô hình hệ thống lọc mail........................................................................21
2.2.2. Kiến trúc tổng quan của hệ thống lọc mail...............................................23
2.2.3. Các kỹ thuật lọc nội dung thông tin qua mail..........................................25
2.2.4. Kỹ thuật lọc Spam.....................................................................................28
Chương 3: XÂY DỰNG CHƯƠNG TRÌNH THỬ NGHIỆM VÀ ĐỀ XUẤT CÁC
GIẢI PHÁP PHÒNG CHỐNG SPAM.......................................................................42
3.1. Xây dựng chương trình lọc spam cho các ứng dụng thư điện tử
42
3.1.1. Nhiệm vụ của chương trình......................................................................42
3.1.2. Các công nghệ sử dụng.............................................................................42
3.1.3. Các chức năng chính của chương trình....................................................43
iv
3.2. Thử nghiệm hệ thống thư điện tử tại Sở Thông tin và Truyền thông tỉnh Nam
Định
44
3.2.1. Khảo sát việc sử dụng mail tại Sở Thông tin và Truyền thông tỉnh Nam
Định.....................................................................................................................44
3.2.2. Dữ liệu thử nghiệm...................................................................................45
3.2.3. Phương pháp thử nghiệm..........................................................................46
3.2.4. Thử nghiệm chương trình.........................................................................47
3.2.4. So sánh phương pháp phân loại................................................................53
3.2.5. Lựa chọn độ dài và số lượng đặc trưng....................................................54
3.2.6. Phân biệt theo ngôn ngữ trước khi lọc.....................................................56
3.2.7. Nhận xét kết quả thử nghiệm....................................................................56
3.3. Đề xuất các giải pháp phòng chống spam 57
3.3.1. Giải pháp phòng chống tại mail server.....................................................57
3.3.2. Giải pháp phòng chống tại mail client......................................................62
3.3.3. Giải pháp phía người sử dụng mail..........................................................65
KẾT LUẬN CHUNG.................................................................................................67
TÀI LIỆU THAM KHẢO..........................................................................................68
v
DANH MỤC CÁC HÌNH
Hình 1.1: Mô hình lưu chuyển thư điện tử qua Internet............................................7
Hình 1.2: Mô hình gửi và nhận thư điện tử sử dụng giao thử SMTP......................10
Hình 1.3: Mô hình gửi và nhận thư điện tử dùng giao thức IMAP và POP............10
Hình 1.4: Phần mềm lọc nội dung mail...................................................................11
Hình 2.1: Ví dụ về trang web lấy cắp địa chỉ email của người dùng.......................15
Hình 2.2: Một số website của các công ty gửi thư rác...........................................17
Hình 2.3: Minh họa cách gửi thư rác qua mail server (open relay)........................18
Hình 2.4: Các phương án bộ trí hệ thống lọc thư...................................................22
Hình 2.5: Kiến trúc chung của hệ thống lọc thư.....................................................24
Hình 2.6: Mô hình tổng quát lọc thư rác Tiếng Việt................................................28
Hình 2.7: Lưu lượng thư trong một môi trường SPF...............................................32
Hình 2.8: Cách thức làm việc của SPF...................................................................33
Hình 2.9: Lọc thư rác bằng phương pháp chặn IP..................................................34
Hình 2.10: Thông tin header của email...................................................................40
Hình 3.1: Nhiệm vụ của chương trình lọc thư rác...................................................42
Hình 3.2: Chức năng của phần mềm lọc thư rác.....................................................44
Hình 3.3: Giao diện form thiết lập thông số huấn luyện hệ thống...........................47
Hình 3.4: Lựa chọn thư mục chứa các thư mẫu cho việc huấn luyện......................48
Hình 3.5: Giao diện form đã tiến hành huấn luyện tập mẫu thư thường.................49
Hình 3.6: Giao diện thiết lập danh sách hòm thư cần chặn lọc..............................49
Hình 3.7: Cửa sổ xác nhận việc cập nhật danh sách hòm thư cần chặn lọc...........50
Hình 3.8: Giao diện thiết lập từ khóa cần chặn lọc................................................50
Hình 3.9: Cửa sổ xác nhận việc cập nhật danh sách từ khóa cần chặn lọc.............50
Hình 3.10: Xác nhận sử dụng tính năng lọc thư rác của chương trình...................51
Hình 3.11: Hòm thư khi chưa chạy chương trình lọc thư rác..................................51
Hình 3.12: Thống kê kết quả lọc thư rác của chương trình.....................................52
Hình 3.13: Thư rác đã được đánh dấu trong trình xem thư Outlook.......................52
vi
Hình 3.14: Giao diện tab giới thiệu chương trình...................................................53
Hình 3.15: Xác nhận việc thoát khỏi chương trình.................................................53
Hình 3.16: Độ chính xác phân loại chung với số lượng đặc trưng khác nhau........55
Hình 3.17: Độ chính xác phân loại với các quy trình lọc khác nhau......................57
Hình 3.18: Phương thức hoạt động của SPF..........................................................58
Hình 3.19: Phương thức hoạt động của SPF động.................................................60
Hình 3.20: Phân bố số lượng cặp (tên miền, IP) theo thơi gian..............................61
Hình 3.21: Hiệu quả phương pháp SPF động.........................................................62
vii
DANH MỤC CÁC BẢNG
Bảng 1.1: So sánh giữa thư điện tử và thư truyền thống...........................................4
Bảng 1.2: Thống kê các dạng thư rác tại máy chủ....................................................6
Bảng 3.1. Bộ dữ liệu thử nghiệm.............................................................................46
Bảng 3.2. Độ chính xác phân loại với các phương pháp phân loại khác nhau.......54
Bảng 3.3. Kết quả phân loại với độ dài đặc trưng - từ khác nhau...........................55
Bảng 3.4 : Bảng dữ liệu mẫu sử dụng phương pháp SPF động..............................61
viii
DANH MỤC TỪ VIẾT TẮT
SPAM: Thư rác
EMAIL: Thư điện tử
SMTP: Simple Mail Transfer Protocol
IMAP: Internet Message Access Protocol
POP: Post Office Protocol
1
MỞ ĐẦU
Thư rác (spam) là thư điện tử được gửi hàng loạt với nội dung mà người nhận
không mong đợi, không muốn xem, hay chứa những nội dung không liên quan đến
người nhận và thường được sử dụng để gửi thông tin quảng cáo. Do có giá thành
tương đối thấp so với các phương pháp quảng cáo khác, thư rác hiện chiếm một tỷ
lệ lớn và ngày càng tăng trong tổng số thư điện tử được gửi qua Internet. Sự xuất
hiện và gia tăng thư rác không những gây khó chịu và làm mất thời gian của người
nhận mà còn ảnh hưởng tới đường truyền Internet và làm chậm tốc độ xử lý của
máy chủ thư điện tử, gây thiệt hại lớn về kinh tế.
Để loại bỏ hoặc giảm thiểu ảnh hưởng của thư rác, nhiều cách tiếp cận khác
nhau đã được nghiên cứu và sử dụng. Giải pháp đấu tranh với thư rác rất đa dạng,
bao gồm từ các cố gắng về pháp lý trong việc xây dựng luật ngăn chặn phát tán thư
rác cho tới những giải pháp kỹ thuật nhằm phát hiện và ngăn chặn thư rác trong
những giai đoạn khác nhau của quá trình tạo và phát tán thư. Trong số giải pháp
được sử dụng, lọc thư theo nội dung đang là một trong những giải pháp được sử
dụng rộng rãi và có triển vọng nhất. Lọc thư theo nội dung là phương pháp phân
tích nội dung thư để phân biệt thư rác với thư bình thường, kết quả phân tích sau đó
được sử dụng để quyết định chuyển tiếp thư đến người nhận hay không (trong phạm
vi nghiên cứu này, nội dung thư được giới hạn là những nội dung trình bày dưới
dạng văn bản).
Do việc lọc theo nội dung đòi hỏi phân tích phần văn bản chứa trong tiêu đề
hay nội dung thư, thuật toán lọc nội dung cần được xây dựng phù hợp với ngôn ngữ
mà thư sử dụng. Hiện nay, nhiều thuật toán lọc nội dung hiệu quả đã được nghiên
cứu và sử dụng cho thư viết bằng tiếng Anh.
Trong vòng vài năm gần đây, việc sử dụng Internet nói chung và thư điện tử
nói riêng ngày càng phổ biến tại Việt nam. Một trong những hệ quả của sự phát
triển này là ngày càng có nhiều thư rác gửi tới các tài khoản thư điện tử tại Việt nam
(tài khoản có đuôi .vn). Những thư rác này bao gồm cả thư viết bằng tiếng Anh và
thư viết bằng tiếng Việt. Việc xuất hiện ngày càng nhiều thư rác tiếng Việt đặt ra
yêu cầu cấp thiết phải có những phương pháp lọc thư có thể xử lý được thư rác loại
này.
2
Do các thuật toán lọc thư thông dụng mới chỉ được nghiên cứu và thử
nghiệm cho tiếng Anh, để có thể sử dụng giải pháp lọc nội dung cho thư tiếng Việt
cần nghiên cứu làm rõ hiệu quả của thuật toán khi phân tích nội dung thư viết bằng
tiếng Việt. Bên cạnh đó cần thực hiện những cải tiến cho phù hợp khi chuyển từ
phân loại nội dung tiếng Anh sang phân loại nội dung tiếng Việt. Để giải quyết
những vấn đề vừa nêu, trong phạm vi đề tài này, tôi tiến hành nghiên cứu một số
giải pháp lọc nội dung cho thư rác tiếng Việt và tiếng Anh. Nội dung nghiên cứu
bao gồm thử nghiệm làm rõ khả năng lọc thư tiếng Việt, đề xuất và phân tích so
sánh các cải tiến với thuật toán, thử nghiệm trên dữ liệu thực. Sau khi thử nghiệm so
sánh, giải pháp lọc thư có hiệu quả cao sẽ được cài đặt trong một bộ lọc thư có khả
năng tích hợp vào máy chủ thư điện tử
Luận văn hoàn thành gồm 68 trang và được bố cục thành 3 chương với lời
mở đầu và phần kết luận chung:
Phần mở đầu trình bày vắn tắt ý nghĩa, tính cấp thiết của đề tài, nêu nên
mục tiêu đề tài, xác định các bài toán nghiên cứu và giới thiệu tóm tắt các chương
trong luận văn.
Chương 1. Tổng quan về thư điện tử và spam. Trong chương này trình bày
các khái niệm về thư tín truyền thống, thư điện tử, spam và mô hình, ngôn ngữ và
giao thức sử dụng của thư điện tử, các phần mềm lọc nội dung thư hiện nay.
Chương 2. Các phương pháp gửi và kỹ thuật lọc Email – Spam. Trình
bày kỹ thuật gửi mail nặc danh, mô hình và nguyên lý hoạt động của hệ thống lọc
nội dung mail, Các kỹ thuật lọc nội dung thông tin qua mail.
Chương 3. Xây dựng chương trình thử nghiệm và đề xuất các giải pháp
phòng chống spam. Trình bày các nội dung cài đặt thử nghiệm, công nghệ áp dụng
và kết quả chương trình lọc spam cho các ứng dụng thư điện tử tại Sở Thông tin và
Truyền thông tỉnh Nam Định. Đề xuất các giải pháp phòng chống spam.
Phần kết luận chung nêu tóm tắt các kết quả đạt được của luận văn.
3
Chương 1: TỔNG QUAN VỀ THƯ ĐIỆN TỬ VÀ SPAM
Trong chương này trình bày các khái niệm về thư tín truyền thống, thư điện
tử, spam và mô hình, ngôn ngữ và giao thức sử dụng của thư điện tử, các phần mềm
lọc nội dung thư hiện nay.
1.1 Các khái niệm cơ bản
1.1.1. Thư điện tử là gì?
Thư điện tử (Email – Electronic Mail) là một hệ thống chuyển nhận thư qua
các mạng máy tính. Thư điện tử (Email) là một trong những phương thức trao đổi
thông tin phổ biến trong suốt quá trình phát triển Internet. Ban đầu email chỉ là
những văn bản text đơn giản, mức độ bảo mật cũng được nâng cao dần lên, khi đó
email được mã hóa dưới nhiều dạng. Email là phương tiện thông tin tốc độ cao.
Mẫu thư có thể được gửi đi dưới nhiều dạng, có thể ở dạng văn bản text thông
thường, hoặc có thể ở dạng mã hóa, và nó được chuyển qua các mạng máy tính, đặc
biệt là mạng Internet
1.1.2. Cấu trúc chung của một địa chỉ thư điện tử
Một địa chỉ thư điện tử bao gồm : tên[email]@tên_miền. Trong đó:
- Tên_email : là định danh của hòm thư điện tử, thành phần này do người sử
dụng tự đặt ra khi khởi tạo hòm thư cho mình.
- Tên_miền : là tên miền cung cấp dịch vụ thư điện tử, ví dụ như yahoo.com,
gmail.com,…
1.1.3. Sự khác biệt giữa thư điện tử với thư bưu chính
Giữa thư điện tử và thư bưu chính (thư tín truyền thống) có những điểm
tương đồng, song có những điểm khác biệt được thể hiện qua bảng so sánh:
Đặc điểm
Khoảng cách vật lý
Thời gian vận chuyển
Mức độ bảo mật
Thư bưu chính
Có
Lâu
Thấp
Thư điện tử
Không
Nhanh
Cao
4
Chi phí
Khả năng soạn thảo
Cao
Chậm (viết giấy)
Thấp
Nhanh (viết bằng trình
Mức độ thất lạc thư
Cao
soạn thảo được hỗ trợ)
Thấp (do đường truyền
Thư tấn công
lỗi)
Gửi kèm vũ khí sinh Gửi kèm mã độc : Worm,
Thiệt hại do bị tấn công
Khả năng chuyển tiếp thư
Kết nối Internet
học. (Ít xảy ra)
Virus,
…
(Thường
Nặng
Có
Không
xuyên)
Tùy vào mức độ tấn công
Có
Có
Bảng 1.1: So sánh giữa thư điện tử và thư truyền thống
1.1.4. Thư rác là gì?
Hiện nay chưa có một định nghĩa hoàn chỉnh và chặt chẽ về thư rác. Có quan
điểm chỉ coi thư rác là những thư quảng cáo không được yêu cầu (Unsolicited
Commercial Email - UCE), có quan điểm có thư rác với nghĩa rộng hơn, bao gồm
cả thư quảng cáo, thư nhũng lạm (quấy rối), và những thư có nội dung không lành
mạnh (Unsolicited Bulk Email – UBE). Dưới đây sẽ đưa ra một định nghĩa thông
dụng nhất về thư rác và giải thích các đặc điểm của nó để phân biệt thư rác với thư
thông thường.
Thư rác (spam) là những bức thư điện tử không yêu cầu, không mong muốn
và được gửi hàng loạt tới nhiều người nhận. “Thư không yêu cầu” ở đây nghĩa là
người nhận thư không yêu cầu người gửi gửi bức thư đó. “Thư được gửi hàng loạt”
nghĩa là bức thư mà người nhận nhận được nằm trong một loạt các thư được gửi đi
cho nhiều người khác và các bức thư này có nội dung tương tự nhau.
Một bức thư được gọi là thư rác chỉ khi nó là thư không yêu cầu và được gửi
hàng loạt. Nếu thư rác chỉ là thư không mong muốn thì nó có thể là những bức thư
làm quen, được gửi lần đầu tiên, còn nến thư rác chỉ là thư được gửi hàng loạt thì nó
có thể là những bức thư gửi cho khách hành của các công ty, các nhà cung cấp dịch
vụ.
5
Như định nghĩa ở trên, thư rác là thư không yêu cầu và được gửi hàng loạt.
Nhưng yếu tố quan trọng nhất để phân biệt thư rác với thư thông thường phải là ở
nội dung bức thư. Khi một người nhận được thư rác, người đó không thể xác định
được thư có được gửi hàng loạt hay không nhưng có thể nói chính xác đó là thư rác
sau khi xem nội dung thư. Đặc điểm này chính là cơ sở cho giải pháp phân loại thư
rác bằng cách phân tích nội dung thư
1.1.5. Các loại thư rác
Đa số thư rác là thư quảng cáo cho hàng hoá hoặc dịch vụ. Tuy nhiên cũng
tồn tại một lượng lớn thư rác mang những nội dung khác. Các thư rác không mang
nội dung quảng cáo hàng hoá hay dịch vụ có thể phân chia thành:
Thư có nội dung chính trị: do các tổ chức hay cá nhân hoạt động chính trị
gửi trực tiếp tới người dùng thư điện tử để phục vụ mục đích quảng bá, tuyên truyền
hay tạo quan hệ trực tiếp. Hiện nay tại Việt nam, thư rác có nội dung chính trị hầu
hết là của các tổ chức phản động ngoài nước gửi về và cần đặc biệt ngăn chặn.
Thư từ thiện: do các tổ chức hay cá nhân hoạt động từ thiện gửi với nội dung
yêu cầu quyên góp hay trợ giúp. Người gửi thư dạng này có thể không nhận thức
được họ đang gửi thư rác do có sự biện hộ từ mục đích gửi thư.
Thư có nội dung tôn giáo: dùng để tuyên truyền quảng bá cho các tổ chức
hoặc hoạt động tôn giáo.
Trong số thư những thư quảng cáo, một số dạng hàng hoá và dịch vụ chiếm
tỷ trọng đặc biệt lớn. Dưới đây là kết quả phân tích thống kê các thư rác gửi qua
máy chủ hotmail.com trong năm 2003 và 2004 do Microsoft thực hiện [Hulten trends].
6
Bảng 1.2: Thống kê các dạng thư rác tại máy chủ
Sản phẩm quảng cáo
Năm 2003
Năm 2004
Quảng cáo liên quan đến tình dục (không đồ hoạ)
17%
34%
Tranh ảnh khiêu dâm
13%
7%
Bảo hiểm
1%
4%
Quảng cáo thuốc
8%
10%
Tài chính
12%
13%
Du lịch, sòng bạc
2%
3%
Bản tin
9%
6%
Các sản phẩm có xuất sứ đáng ngờ (văn bằng giả.v.v.)
20%
10%
Scam
8%
6%
Các dạng quảng cáo khác
13%
8%
1.1.6. Tác hại của thư rác
Thư rác hiện chiếm một tỷ lệ rất lớn trong tổng số thư điện tử được gửi qua
Internet. Theo các thống kê khác nhau, thư rác chiếm từ 71% đến 87% lượng thư
gửi qua các máy chủ thư điện tử. Lượng thư rác quá lớn gây ra nhiều tác hại đối với
sự phát triển Internet nói chung và người sử dụng thư điện tử nói riêng. Có thể kể ra
một số tác hại của thư rác:
-
Thư rác gây thiệt hại về kinh tế cho người nhận thư trong trường hợp
người nhận thư phải trả tiền cho lượng thông tin truyền qua mạng.
-
Thư rác có thể làm đầy hộp thư người nhận và do vậy làm thất lạc
những thư bình thường đến sau.
-
Thư rác làm tốn thời gian do người nhận phải mở thư và xoá thư khỏi
hộp thư của mình.
7
-
Thư rác gây tâm lý xấu đối với người sử dụng thư điện tử. Theo thống
kê tại http://www.pewinternet.org, 25% người sử dụng thư điện tử coi
thư rác là trở ngại lớn khi sử dụng dịch vụ Internet này.
-
Thư rác chiếm một phần đường truyền Internet và làm tốn thời gian
xử lý của máy chủ.
1.2. Phương thức trao đổi thông tin qua dịch vụ Email
1.2.1. Mô hình trao đổi thông tin dựa trên email
Dịch vụ thư điện tử sử dụng giao thức SMTP (Simple Mail Transfer
Protocol) trong họ giao thức TCP/IP.
Hình 1.1: Mô hình lưu chuyển thư điện tử qua Internet
Hoạt động của hệ thống email hiện nay có thể dược minh họa qua phân tích
một thí dụ như sau:
1. Nguyễn dùng MUA của mình để soạn một lá thư có địa chỉ người nhận là
Trần với địa chỉ là
[email protected]. Nguyễn nhấn nút Send và phần mềm thư điện tử
8
của Nguyễn áp dụng SMTP để gửi mẫu thông tin (lá thư) đến MTA, hay máy chủ
thư điện tử, của Nguyễn. Trong thí dụ thì máy chủ này là smtp.a.org được cung cấp
từ dịch vụ Internet của Nguyễn.
2. MTA này sẽ đọc địa chỉ chỗ nhận (
[email protected]) và dựa vào phần tên miền
nó sẽ tìm hỏi địa chỉ của tên miền này, nơi có máy chủ sẽ nhận email gửi đến, qua
Hệ thống Tên miền.
3. Máy chủ DNS của b.org là ns.b.org sẽ trả lời về một bản ghi trao đổi thư
từ, đây là bảng ghi chỉ ra cách thức làm thế nào định tuyến cho email này. Trong thí
dụ thì mx.b.org là máy chủ từ dịch vụ cung ứng Internet của Trần.
4. smtp.a.org gửi mẫu thông tin tới mx.b.org dùng giao thức SMTP, điều này
sẽ phân phối lá thư đến hộp thư của Trần.
5. Khi đọc Trần ra lệnh nhận thư trên máy (MUA) của Trần, điều này tạo ra
việc lấy về mẫu thông tin bằng cách áp dụng giao thức POP3.
Trong trường hợp Nguyễn không có MUA mà chỉ dùng Webmail chẳng hạn
thì bước 1 sẽ không xảy ra tức là MTA của Nguyễn sẽ làm việc trực tiếp. Tưong tự
cho trường hợp Trần không có MUA riêng.
Trước đây, nếu một MTA không thể gửi tới đích thì nó có thể ít nhất ngừng
lại ở chỗ gần với chỗ nhận. Sự ngừng này sẽ tạo cơ hội để máy đích có thể nhận về
các mẫu thông tin trong thời gian trễ hơn. Nhiều MTA sẽ chấp nhận tất cả mẫu
thông tin từ người gửi bất kì và tìm mọi cách để phân nó về đến máy đích. Những
MTA như vậy gọi là những ngưng đọng thư mở (open mail relays). Điều này khá
cần thiết vì sự chất lượng liên lạc của hệ thống Internet lúc đó còn yếu. Ngày nay,
do việc lợi dụng trên cơ chế hoạt động của hệ thống thư điện tử nhiều người đã gửi
ra các loại thư vô bổ. Như là hậu quả, rất ít MTA ngày nay còn chấp nhận các
ngưng đọng thư mở. Bởi vì các thư như vậy rất có thể là các loại thư nhũng lạm(thư
rác).
Dịch vụ thư điện tử hoạt động offline. Các yêu cầu gửi thư đi không đòi hỏi
phải xử lý ngay lập tức. Khi người A muốn chuyển một bức thư tới cho người B, hệ
thống sẽ chuyển thư vào vùng Spool, cùng với các thông tin về người gửi, người
9
nhận (được đính vào phần Header của thư) sẽ được chứa trong vùng này. Hệ thống
gửi thư tự động bằng một chương trình phần mềm thư điện tử như Outlook Express,
Mozila Thunderbird, hay các chương trình Webmail như Yahoo!, Gmail,… Đây là
những chương trình gửi thư không đồng bộ. Chương trình này sẽ xác định được địa
chỉ IP của máy cần gửi qua việc phân tích Header của thư, và tạo lập một kết nối tới
máy đó. Nếu như tạo kết nối thành công, chương trình sẽ chuyển thư tới vùng Spool
của máy nhận. Nếu kết nối tới máy nhận không thành công, chương trình sẽ lưu trữ
lại những thư chưa được chuyển đi đó và sẽ gửi lại đến khi tạo dựng được kết nối.
Nếu bức thư tồn tại quá lâu (khoảng 2-3 ngày), chương trình sẽ gửi trả bức thư này
cho người gửi.
Thư điện tử ban đầu chỉ nhằm mục đích trao đổi thông tin giữa những người
sử dụng với nhau. Thư điện tử hiện đại được phát triển các dịch vụ kèm theo, đó là
các dịch vụ thư điện tử như NameServer (tra cứu các địa chỉ trên mạng),
ArchiveServer (cho phép người dùng tìm kiếm và tải về những tập tin dùng chung).
Các thư này được gửi tới các Server, Server phân tích nội dung thư, thực hiện các
yêu cầu rồi gửi trả lại kết quả cho người gửi yêu cầu cũng bằng hình thức gửi thư
điện tử.
1.2.2. Giao thức và ngôn ngữ sử dụng
- SMTP (Simple Mail Transfer Protocol): giao thức chuyển thư đơn giản.
SMTP là phương thức vận chuyển các thư điện tử từ máy chủ này sang máy chủ
khác cho đến địa chỉ người nhận. Các máy chủ sử dụng giao thức này để chuyển
tiếp thư tới máy khách, và máy khách cũng sử dụng giao thức này gửi thư trung
chuyển qua các máy chủ. Các thư điện tử được gửi đến các máy khách qua SMTP,
và các máy này sử dụng giao thức POP, IMAP để nhận thông điệp này.
10
Hình 1.2: Mô hình gửi và nhận thư điện tử sử dụng giao thử SMTP
- IMAP (Internet Message Access Protocol) : giao thức nhận thông điệp từ
Internet của các máy khách. Người dùng có thể truy xuất và quản lý thư từ máy chủ.
Giao thức cho phép người sử dụng đọc, xóa, sửa, tìm kiếm thư trong hòm thư mà
không cần phải tải thư về. Phiên bản mới nhất là IMAP4.
Hình 1.3: Mô hình gửi và nhận thư điện tử dùng giao thức IMAP và POP
11
- POP (Post Office Protocol) : giao thức được dùng trên các máy trạm
(MUA) tìm kiếm các thư điện tử từ một máy MTA (máy chủ mail). Giao thức này
cho phép người dùng đăng nhập vào máy chủ mail với tài khoản đã đăng kí để tải
thư từ máy chủ về máy cục bộ. Phiên bản mới nhất là POP3.
- Giao thức HTTP không phải là một giao thức dành cho thông tin liên lạc
email, nhưng nó có thể được sử dụng để truy cập hộp thư của bạn. Nó cũng còn
được gọi là thư điện tử dựa trên web, giao thức này có thể được sử dụng để soạn
hoặc truy lục email từ một tài khoản của bạn. Hotmail là một ví dụ của việc sử dụng
HTTP như là một giao thức thư điện tử.
1.3. Các phần mềm lọc nội dung mail ở trong và ngoài nước.
Hiện nay, một trong những khó khăn của người sử dụng thư điện tử là không
thể mở email của họ vì vô số các thư rác chất đầy trong hộp thư đến của họ. Người
sử dụng có thể dễ dàng nhận ra và phân biệt các thư rác,tuy nhiên để loại bỏ hết các
thư rác bằng cách xóa thủ công họ sẽ rất mất thời gian và công sức. Hệ thống lọc
thư rác ra đời giúp làm giảm tối thiểu công việc này đối với người sử dụng. Phần
mềm, tiện ích lọc thư rác có thể làm giảm đáng kể số lượng thư rác gửi đến hộp thư
của người dùng.
Hình 1.4: Phần mềm lọc nội dung mail