Tài liệu Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh

  • Số trang: 83 |
  • Loại file: PDF |
  • Lượt xem: 41 |
  • Lượt tải: 0
nhattuvisu

Đã đăng 27125 tài liệu

Mô tả:

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** CAO NGUYỄN THỦY TIÊN XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE CÓ NỘI DUNG KHÔNG LÀNH MẠNH LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Đồng Nai, Năm 2011 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** CAO NGUYỄN THỦY TIÊN XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE CÓ NỘI DUNG KHÔNG LÀNH MẠNH Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã số: 60 48 05 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC TS. VŨ ĐỨC LUNG Đồng Nai, 2011 LỜI CAM ĐOAN Tôi xin cam đoan luận văn thạc sỹ công nghệ thông tin “Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh” là kết quả của quá trình học tập, nghiên cứu khoa học độc lập, nghiêm túc. Các số liệu trong luận văn là trung thực, có nguồn gốc rõ ràng, được trích dẫn và có tính kế thừa, phát triển từ các số liệu, tạp chí, các công trình nghiên cứu đã được công bố, trên các website. Các phương pháp nêu trong luận văn được rút từ những cơ sở lý luận và quá trình nghiên cứu tìm hiểu. Đồng Nai, ngày 15 tháng 10 năm 2011 Tác giả Cao Nguyễn Thủy Tiên LỜI CẢM ƠN Trước hết tôi xin gởi lời cảm ơn chân thành đến ban giám hiệu và tập thể thầy cô trường Đại học Lạc Hồng đã quan tâm tổ chức và giảng dạy khóa cao học công nghệ thông tin và tạo môi trường thuận lợi cho chúng tôi được học tập và nghiên cứu chuyên sâu về CNTT. Xin cảm ơn bạn bè và đồng nghiệp đã động viên, giúp đỡ cũng như tạo điều kiện thuận lợi cho tôi trong quá trình thực hiện luận văn. Đặc biệt tôi xin gởi lời cảm ơn sâu sắc đến thầy giáo hướng dẫn khoa học – TS Vũ Đức Lung - đã tận tình chỉ bảo, hướng dẫn cho tôi trong quá trình nghiên cứu và thực hiện luận văn. Cuối cùng, tôi biết ơn gia đình đã tạo mọi điều kiện thuận lợi cho tôi yên tâm trong suốt thời gian nghiên cứu và hoàn thành luận văn cao học này. Biên Hòa, ngày 15 tháng 10 năm 2011 Cao Nguyễn Thủy Tiên MỤC LỤC Trang LỜI CAM ĐOAN ...................................................................................................... i LỜI CẢM ƠN ........................................................................................................... ii MỤC LỤC................................................................................................................ iii DANH MỤC HÌNH VẼ........................................................................................... iv DANH MỤC BẢNG BIỂU .......................................................................................v MỞ ĐẦU....................................................................................................................1 1. Tóm lược đề tài................................................................................................1 2. Mục tiêu đề tài .................................................................................................1 3. Nội dung thực hiện ..........................................................................................1 4. Phạm vi ứng dụng............................................................................................2 CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN ...............................................................3 1.1. Bộ lọc web ....................................................................................................3 1.1.1. Khái niệm ............................................................................................3 1.1.2. Đặc điểm web có nội dung không lành mạnh .....................................4 1.1.3. Nguyên nhân cần xây dựng bộ lọc web ..............................................7 1.2. Các phương pháp lọc web có nội dung không lành mạnh ...........................7 1.2.1. Bộ lọc web dựa vào địa chỉ mạng .......................................................7 1.2.2. Bộ lọc web dựa vào URL (Universal Resource Locator) ...................9 1.2.3. Bộ lọc web dựa vào DNS ..................................................................12 1.2.4. Bộ lọc web dựa vào từ khóa (key word) ...........................................13 1.3. Những phần mềm lọc web hiện nay ...........................................................14 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT ........................................................................16 2.1. Tổng quan khai phá dữ liệu ........................................................................16 2.1.1. Khai phá Text ....................................................................................16 2.1.1.1. Khái niệm.................................................................................16 2.1.1.2 Một số loại khai phá Text .........................................................16 2.1.1.3. Quy trình khai phá Text ...........................................................17 2.1.2. Khai phá web.....................................................................................18 2.1.2.1. Khái niệm.................................................................................18 2.1.2.2. Phân loại khai phá web ............................................................18 2.1.2.3. Phương pháp biểu diễn trang web............................................19 2.1.3 Xử lý văn bản tự động........................................................................21 2.1.3.1. Rút trích đặc trưng văn bản......................................................21 2.1.3.2. Biểu diễn văn bản bằng vector đặc trưng ................................22 2.2. Lọc nội dung trang web bằng thuật toán Naïve Bayes...............................25 2.2.1. Giới thiệu...........................................................................................25 2.2.2. Học Bayes (Bayes Learning).............................................................25 2.2.3. Công thức Bayes ...............................................................................28 2.2.4. Các bước tiến hành lọc nội dung bằng mạng Bayes .........................30 2.3. Phương pháp tách từ trong tiếng Việt.........................................................31 2.3.1. Tình hình nghiên cứu ........................................................................31 2.3.2. Một số phương pháp tách từ..............................................................32 2.3.2.1. Tách câu dựa trên Maximum Entropy .....................................32 2.3.2.2. Phương pháp khớp tối đa (Maximum Matching) ....................34 2.3.2.3. Phương pháp WFST (Weighted Finite – State Transducer)....35 2.3.2.4. Bài toán tách từ và công cụ vnTokenizer ................................37 2.3.2.5. Phương pháp tách từ dựa trên sự xác suất tồn tại của từ không phụ thuộc vào ngữ nghĩa.......................................................................38 2.3.3. So sánh các phương pháp tách từ tiếng Việt.....................................40 2.4. Phân tích nội dung website.........................................................................42 2.4.1. Phân loại nội dung website................................................................42 2.4.2. Đặc trưng của ngôn ngữ tiếng Việt ...................................................43 2.4.3. Phương pháp xử lý nội dung website................................................44 2.4.4. Phân tích câu .....................................................................................45 CHƯƠNG 3: ỨNG DỤNG......................................................................................47 3.1. Xây dựng bộ lọc nội dung web tiếng Việt không lành mạnh.....................47 3.1.1. Ý tưởng đề xuất .................................................................................47 3.1.2. Hướng tiếp cận ..................................................................................47 3.1.3. Tiến trình thu thập nội dung..............................................................48 3.1.4. Quy trình thực hiện............................................................................49 3.1.4.1. Tiến trình 1...............................................................................50 3.1.4.2. Tiến trình 2...............................................................................53 3.1.4.3. Tiến trình 3...............................................................................55 3.2. Kiến trúc hệ thống chương trình.................................................................56 3.2.1 Trình duyệt web với các chức năng cơ bản thông thường .................56 3.2.2. Các chức năng cơ bản của hệ thống ..................................................56 3.3. Chức năng của chương trình.......................................................................57 3.3.1.Giao diện chính của chương trình ......................................................57 3.3.2. Sơ đồ chức năng của chương trình....................................................58 3.3.2.1. Chức năng đăng nhập hệ thống................................................58 3.3.2.2. Chức năng chương trình...........................................................59 3.4. Chức năng học từ tiếng Việt.......................................................................60 3.5. Chức năng xử lý..........................................................................................61 3.5.1. Lấy nội dung website cần phân tích..................................................61 3.5.2. Quản lý bộ từ điển tiếng Việt ............................................................61 3.5.3. Phân tích câu đối với nội dung website tiếng Việt............................62 3.5.4. Phân tích nội dung website tiếng Việt...............................................63 3.6. Chức năng huấn luyện từ cho việc lọc nội dung ........................................63 3.6.1. Huấn luyện từ tiếng Anh ...................................................................64 3.6.2. Huấn luyện từ tiếng Việt ...................................................................64 3.7. Phân loại nội dung website.........................................................................65 3.7.1. Nội dung tiếng Anh ...........................................................................65 3.7.2. Nội dung tiếng Việt ...........................................................................65 3.8. Quản lý các thông số hệ thống....................................................................66 3.9. Quản lý các danh sách ................................................................................67 3.9.1. Black List ..........................................................................................67 3.9.2. White List ..........................................................................................68 3.10. Kết quả thực nghiệm và đánh giá kết quả đạt được .................................68 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ...............................................................70 TÀI LIỆU THAM KHẢO DANH MỤC HÌNH VẼ Hình 1.1 – Màn hình trình duyệt cấm truy cập ...................................................3 Hình 1.2 – Báo cáo tìm kiếm từ khóa “sex” tại Việt Nam ..................................6 Hình 1.3 – Báo cáo tìm kiếm từ khóa “sex” trên thế giới ...................................6 Hình 2.1 – Sơ đồ lĩnh vực khai phá web ..........................................................18 Hình 2.2 – Quy trình tách từ..............................................................................37 Hình 3.1 – Tiến trình thu thập nội dung ............................................................49 Hình 3.2 – Mô hình tổng quát lọc nội dung không lành mạnh .........................50 Hình 3.3 – Mô hình tách câu trong tiếng Việt...................................................51 Hình 3.4 – Mô hình tách từ đơn tiếng Việt .......................................................52 Hình 3.5 – Mô hình tách từ ghép tiếng Việt......................................................53 Hình 3.6 – Mô hình tính xác suất cho từ ghép ..................................................54 Hình 3.7 – Mô hình cập nhật bộ từ điển............................................................55 Hình 3.8 – Giao diện chính của chương trình ...................................................57 Hình 3.9 – Giao diện thông báo không cho truy cập nội dung website ............58 Hình 3.10 – Chức năng đăng nhập hệ thống chương trình quản lý ..................58 Hình 3.11 – Chức năng học từ đơn và từ ghép tiếng Việt.................................61 Hình 3.12 – Lấy nội dung website cần phân tích ..............................................61 Hình 3.13 – Bộ từ điển tiếng Việt .....................................................................62 Hình 3.14 – Phân tích câu trong tiếng Việt .......................................................62 Hình 3.15 – Phân tích nội dung website tiếng Việt...........................................63 Hình 3.16 – Huấn luyện từ tiếng Anh ...............................................................64 Hình 3.17 – Huấn luyện từ tiếng Việt ...............................................................64 Hình 3.18 – Phân lớp nội dung website tiếng Anh............................................65 Hình 3.19 – Phân lớp nội dung website tiếng Việt............................................66 Hình 3.20 – Quản lý thông số hệ thống.............................................................67 Hình 3.21 – Danh sách Black List.....................................................................67 Hình 3.22 – Danh sách White List ....................................................................68 DANH MỤC BẢNG BIỂU Bảng 1.1 – Kết quả đánh giá của NetProject.......................................................9 Bảng 1.2 – Một số sản phẩm lọc web theo phương thức URL .........................11 Bảng 2.1 – Sự khác biệt cơ bản giữa tiếng Anh và tiếng Việt ..........................42 Bảng 3.1 – Bảng mô tả chức năng của chương trình ........................................59 Bảng 3.2 – Kết quả xây dựng bộ từ điển tiếng Việt ..........................................68 Bảng 3.3 – Kết quả phân loại web.....................................................................69 1 MỞ ĐẦU 1. Tóm lược đề tài Trong thời kỳ hiện nay, Internet ngày càng phát triển mạnh mẽ và trở nên thông dụng đối với mọi lứa tuổi đặc biệt là thanh thiếu niên, học sinh, sinh viên. Lợi ích thiết thực nhất mà Internet mang lại đó là cung cấp nguồn tài nguyên thông tin vô tận cho người sử dụng, nó góp phần không nhỏ vào việc nâng cao kiến thức cho lứa tuổi thanh thiếu niên. Tuy nhiên, mặt mạnh của Internet cũng chính là yếu điểm của nó, ngoài những kiến thức hữu ích thì người dùng cũng dễ dàng tìm thấy những nội dung không lành mạnh trên Internet. Chính vì vậy, mục đích chính của đề tài là nghiên cứu các phương pháp và đề xuất kỹ thuật ngăn chặn tự động các trang web có nội dung bằng tiếng Việt không lành mạnh 2. Mục tiêu đề tài Tìm hiểu đặc trưng cũng như sự phát triển của website có nội dung không lành mạnh, kết hợp phân tích các hệ thống lọc web hiện có. Từ đó đề xuất mô hình có thể tự động phát hiện những trang web có nội dung không lành mạnh sử dụng ngôn ngữ tiếng Việt bằng các kỹ thuật rút trích thông tin từ website cũng như ứng dụng khai phá dữ liệu văn bản, đặc biệt sử dụng thuật toán Naive Bayes nhằm xác định ngưỡng xác suất website không lành mạnh để có hướng xử lý phù hợp. Bênh cạnh đó, hiện thực hóa mô hình thành một trình duyệt web có khả năng tự động ngăn chặn những website tiếng Việt có nội dung không lành mạnh. 3. Nội dung thực hiện Nội dung chính cần thực hiện trong đề tài gồm các phần sau: − Nghiên cứu tổng quan các hệ thống lọc web “đen” thông dụng hiện nay, xác định những điểm bất cập từ những chương trình ứng dụng lọc web hiện có, những điểm mạnh, điểm yếu của những phương pháp xây dựng bộ lọc web. 2 − Nghiên cứu những điểm mạnh của các kỹ thuật phân loại văn bản nhằm áp dụng nó tốt nhất vào đề tài nghiên cứu. − Tìm hiểu các phương pháp tách từ trong tiếng Việt, từ đó lựa chọn phương pháp tối ưu nhất để giải quyết bài toán lọc nội dung − Nghiên cứu các thuận toán, đặc biệt là thuật toán Naïve Bayes. − Đề xuất phương pháp lọc web phù hợp và xây dựng mô hình. − Cài đặt bộ lọc web hiện thực hóa vấn đề nghiên cứu. 4. Phạm vi ứng dụng Đề tài “Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh” được ứng dụng bằng một trình duyệt giúp phụ huynh kiểm soát được quá trình truy cập vào các website của con em mình, hạn chế truy cập vào các website có nội dung không lành mạnh. 3 CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN 1.1. Bộ lọc web 1.1.1. Khái niệm Bộ lọc web là phần mềm có chức năng lọc nội dung hiển thị trên một trình duyệt hay khóa một vài vị trí của website mà người dùng cố gắng truy cập vào. Bộ lọc kiểm tra nội dung hay địa chỉ của trang web dựa vào tập luật và được thay thế nội dung không mong muốn bằng một trang web thay thế, thường trang này có nội dung có dòng “Access Dinied”. Quản trị hệ thống nắm quyền kiểm soát và loại nội dung đi qua bộ lọc. Các bộ lọc web thường được sử dụng trong các trường học, thư viện, các dịch vụ Internet công cộng và tại gia đình nhằm giữ an toàn cho đối tượng thanh thiếu niên tránh được những nội dung không lành mạnh vì lứa tuổi này chưa có ý thức việc mình làm. Hình 1.1 – Màn hình trình duyệt cấm truy cập 4 1.1.2. Đặc điểm web có nội dung không lành mạnh Hiện nay, nhiều người quan tâm nhiều đến vấn đề web “đen” hay web “xấu”. Mọi người tùy theo nhận thức và quan điểm của mình có thể có các đánh giá khác nhau. Tuy nhiên, thông thường một trang web được coi là xấu khi có một trong hai điều kiện sau: + Nội dung khiêu dâm, đồi trụy. + Nội dung phản động chính trị. Nội dung khiêu dâm, đồi trụy Các trang web này đã đang và sẽ luôn là đề tài nóng bỏng được mọi người quan tâm. Các trang web này sử dụng công cụ khiêu dâm, gợi dục như hình ảnh sex, truyện sex, … để thu hút người dùng Internet truy cập vào. Ở Châu Á nói chung và tại Việt Nam nói riêng, các website này làm băng hoại xã hội, khiến cho các thành phần thanh thiếu niên và một số người trưởng thành sao lãng học tập, làm việc, nảy sinh tư tưởng bệnh hoạn, gia tăng các tệ nạn đi ngược lại với truyền thống văn hóa tốt đẹp của người Việt Nam. Tuy nhiên ta cũng phải nhìn nhận rằng ở một số quốc gia có nền văn hóa thoáng như ở Mỹ hay Châu Âu, vẫn cho phép một số website khiêu dâm được cấp phép hoạt động và chỉ cho phép người trưởng thành truy cập vào. Các trang web này hoạt động có tổ chức rõ ràng và dưới sự kiểm soát của chính quyền nước sở tại. Như vậy, các trang web này chưa hẳn đã “xấu” nếu xét theo khía cạnh pháp lý. Vậy căn cứ vào đâu để chúng ta phân biệt đâu là một trang web “xấu”, đâu là một trang web “không xấu” ? Điều đó phụ thuộc vào truyền thống văn hóa của người Việt Nam, căn cứ vào luật pháp hiện tại của nước Việt Nam chưa có thừa nhận ngành công nghiệp sex, tất cả các trang web sử dụng công cụ khiêu dâm đều bị xem là trang web “xấu”. 5 Nội dung phản động chính trị Do cá nhân hoặc tổ chức phản động với mục đích tuyên truyền tư tưởng phản động, chống phá nhà nước Việt Nam, kêu gọi mọi người “tự do chính trị”, “đa nguyên đa đảng”, … Các trang web này có rất nhiều, chủ yếu đặt tại nước ngoài, sử dụng tiếng Việt là ngôn ngữ chính để tuyên truyền. Hệ quả sự tồn tại của các trang web này là sự chia rẽ nội bộ, kích động các phần tử vốn đã có tư tưởng phản động. Cần có cái nhìn nghiêm túc đối với những trang web này, không thể vì lý do “tự do ngôn luận” mà có thể lợi dụng điều này để thực hiện ý đồ phá hoại. Tính đến năm 2010, Việt Nam hiện đứng thứ 3 ở khu vực Đông Nam Á với 24.269.083 người sử dụng Internet chiếm 2.9% người dùng Internet châu Á, với tốc độ tăng trưởng trung bình 12.034,5% trong 10 năm qua Việt Nam vẫn đang là một trong những thị trường công nghệ viễn thông đầy triển vọng ở châu Á cũng như khu vực, thu hút sự quan tâm của các nhà đầu tư nước ngoài. (internetworldstats.com) Theo Google Trends (Hot Trends) là công cụ theo dõi xu hướng tìm kiếm của từ khóa theo vùng miền, thành phố, ngôn ngữ thì Việt Nam nằm trong top 3 những nước thích tìm hiểu về sex trực tuyến nhất toàn cầu trong năm 2011. Xét về vùng miền ở Việt Nam, theo thống kê “Hà Nội” là nơi có tìm kiếm từ khóa “sex” nhiều nhất, tiếp theo là Vũng Tàu và Quãng Ngãi. Theo bảng thống kê phần lớn những nơi có mật độ tìm kiếm từ khóa sex cao thường tập trung ở các thành phố du lịch. 6 Hình 1.2 – Báo cáo tìm kiếm từ khóa “sex” tại Việt Nam [12] Hình 1.3 – Báo cáo tìm kiếm từ khóa “sex” trên thế giới [12] 7 1.1.3. Nguyên nhân cần xây dựng bộ lọc web Từ những nguyên nhân nêu trên, tại Việt Nam việc xây dựng bộ lọc web “đen” nhằm phục vụ cho vấn đề an toàn trong việc truy cập mạng Internet là một yêu cầu cấp thiết và luôn làm đau đầu các nhà quản lý. Hiện nay trên thị trường có rất nhiều phần mềm lọc web “đen” nhưng hầu hết những phần mềm này đều có chung một nhược điểm là làm chậm đường truyền do sử dụng các phép kiểm tra và so sánh liên tục, một nhược điểm khác là không có cơ chế tự động cập nhật hành vi sử dụng web của người dùng. Phần dưới sẽ trình bày một số phương pháp lọc website có nội dung không lành mạnh. 1.2. Các phương pháp lọc web có nội dung không lành mạnh 1.2.1. Bộ lọc web dựa vào địa chỉ mạng  Bức tường lửa (Firewall) Firewall là một kỹ thuật được tích hợp vào hệ thống mạng để chống sự truy cập trái phép, nhằm bảo vệ các nguồn thông tin nội bộ và hạn chế sự xâm nhập không mong muốn vào hệ thống. Thông thường Firewall được đặt giữa mạng bên trong (Intranet) của một công ty, tổ chức, … vai trò chính là bảo mật thông tin, ngăn chặn sự truy cập không mong muốn từ bên ngoài và cấm truy cập từ bên trong (Intranet) tới một số địa chỉ nhất định trên Internet. Ưu điểm: Đa số các các hệ thống firewall đều sử dụng bộ lọc packet. Một trong những ưu điểm của phương pháp này là chi phí thấp vì cơ chế lọc packet đã được bao gồm trong mỗi phần mềm router. Hạn chế: việc định nghĩa các chế độ lọc packet là một việc phức tạp, đòi hỏi người quản trị mạng cần có hiểu biết chi tiết về các dịch vụ Internet, các dạng packet header, … 8  Danh sách đen (Back List) và danh sách trắng (White List) Danh sách trắng và danh sách đen là 2 phương pháp phổ biến được nhiều nhà cung cấp phần mềm sử dụng, vì nó đơn giản, dễ quản lý và cho một kết quả có thể chấp nhận. Danh sách trắng là danh sách các website được phép truy cập, danh sách đen là danh sách những trang cấm, các danh sách này thường được tạo bằng cách thủ công bằng cách khảo sát trang web để đưa ra quyết định trang web này là cấm hay được phép truy cập. Hàng này, số lượng các website mới xuất hiện rất nhiều gây khó khăn cho việc cập nhật danh sách Backlist, Whitelist và được do làm thủ công nên mất nhiều thời gian cho việc bổ sung các danh sách này.  Lọc web qua địa chỉ IP Đây là kỹ thuật ngăn chặn trực tiếp trên đường mạng bằng các địa chỉ IP của một website. Kỹ thuật này có thể là thiết thực trong bối cảnh các website thường bị truy cập thông qua địa chỉ IP hay nó có thể truy cập thông qua IP thay cho tên DSN. Đa số trường hợp, không được khuyến dùng do 3 sự kém cỏi sau: − Ngăn chặn truy cập đến một IP cũng sẽ ngăn chặn lưu thông mạng đến những site có host ảo trên cùng IP ngay cả khi nó có nội dung liên quan đến vấn đề cấm hay không. − Ngăn chặn truy cập đến một IP cũng sẽ ngăn chặn lưu thông mạng đến mỗi thành viên của cổng thông tin nằm trên IP đó. Nó sẽ ngăn chặn một thành phần của website không phải là một phần hay một tập các trang con. − Đó là sự thay đổi thường xuyên của các website bị lọc ngay khi chủ nhân website phát hiện ra bị lọc. Hành động này dựa trên DNS để cho phép người dùng vẫn còn truy cập đến trang web. Bảng thống kê phía dưới sẽ so sánh kết quả lọc của một số phần mềm theo dự án khảo sát website của dự án NetProject. 9 Bảng 1.1 – Kết quả đánh giá của NetProject. Phần mềm lọc Tỉ lệ khóa đúng Efectiveness Rate BizGuard 55 % 10 % Cyber Patrol 52 % 2% CYBER sitter 46 % 3% Cyber Snoop 65 % 23 % Norton InternetSecurity 45 % 6% SurfMonkey 65 % 11 % X-Stop 65 % 4% 1.2.2. Bộ lọc web dựa vào URL (Universal Resource Locator)  Dựa vào từ khóa (keyword) của URL Với cách tiếp cận này có một danh sách chứa các từ khóa (keyword) được hình thành để nhận ra những địa chị web bị chặn. URL keyword là chuỗi con nằm trong một địa chỉ web, những địa chỉ web có chứa chuỗi này thường là những trang web xấu. Theo khảo sát [5] [8], đa phần những trang web xấu dùng từ ngữ khiêu dâm, gợi dục làm tên miền cho website của mình với mục đích thu hút sự chú ý của người dùng Internet. Với những trang web như vậy, việc chặn trực tiếp ngay từ địa chỉ URL mà không cần quan tâm đến nội dung trang web là một điều đúng vì không có một trang web nào có nội dung là tốt nếu địa chỉ là xấu. Ví dụ Các trang web này đều là web sex: www.sexviet.com www.sex700.com www.sexygirls.com
- Xem thêm -