Tài liệu XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE CÓ NỘI DUNG KHIÊU DÂM DỰA TRÊN URL VÀ TEXT CONTENT

.PDF

344

nguyenthanhdoan10058 Báo vi phạm

Tải xuống 64

Mô tả:

XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE CÓ NỘI DUNG KHIÊU DÂM DỰA TRÊN URL VÀ TEXT CONTENT

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC LẠC HỒNG -------- NGUYỄN THANH PHONG XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE CÓ NỘI DUNG KHIÊU DÂM DỰA TRÊN URL VÀ TEXT CONTENT Luận văn Thạc sĩ Công nghệ Thông tin ĐỒNG NAI, 2014 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC LẠC HỒNG -------- NGUYỄN THANH PHONG XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE CÓ NỘI DUNG KHIÊU DÂM DỰA TRÊN URL VÀ TEXT CONTENT Chuyên ngành: Công nghệ Thông tin Mã số: 60480201 Luận văn Thạc sĩ Công nghệ Thông tin NGƢỜI HƢỚNG DẪN KHOA HỌC TS. VŨ ĐỨC LUNG ĐỒNG NAI, 2014 LỜI CẢM ƠN Với những lời đầu tiên, em xin dành sự cảm ơn chân thành và sâu sắc tới thầy tiến sỹ Vũ Đức Lung đã hƣớng dẫn và giúp đỡ em tận tình trong quá trình hoàn thành luận văn. Em cũng xin cảm ơn quý Thầy Cô Trƣờng Đại học Lạc Hồng đã tận tình truyền dạy kiến thức trong quá trình em học tập tại trƣờng, những kiến thức đó đã giúp em rất nhiều trong việc học tập và nghiên cứu sau này. Cuối cùng, xin gửi lời cảm ơn tới những ngƣời thân trong gia đình và bạn bè, đồng nghiệp đã giúp đỡ và tạo điều kiện tốt trong quá trình làm luận văn. Đồng Nai, tháng 08 năm 2014 Trân trọng Nguyễn Thanh Phong LỜI CAM ĐOAN Tôi xin cam đoan kết quả đạt đƣợc trong luận văn là sản phẩm của riêng cá nhân, là kết quả của quá trình học tập và nghiên cứu khoa học độc lập. Trong toàn bộ nội dung của luận văn, những điều đƣợc trình bày hoặc là của cá nhân hoặc là đƣợc tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có xuất xứ rõ ràng và đƣợc trích dẫn hợp pháp. Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan của mình. Đồng Nai, tháng 08 năm 2014 Tác giả Nguyễn Thanh Phong MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC KÝ HIỆU CÁC CỤM TỪ VIẾT TẮT DANH SÁCH CÁC BẢNG BIỂU, HÌNH VẼ MỞ ĐẦU ..................................................................................................................... 1 Lý do chọn đề tài ......................................................................................................... 1 Mục tiêu đề tài ............................................................................................................. 2 Nội dung thực hiện ...................................................................................................... 2 Phƣơng pháp thực hiện................................................................................................ 3 CHƢƠNG 1. TỔNG QUAN VỀ TRÍCH LỌC DỮ LIỆU TRÊN WEBSITE ..... 4 1.1 Giới thiệu ............................................................................................................. 4 1.2 Các loại bộ lọc WEB có nội dung khiêu dâm ..................................................... 4 1.2.1 Bộ lọc WEB dựa vào địa chị mạng .................................................................. 4 1.2.2 Bộ lọc WEB dựa vào URL .............................................................................. 6 1.2.3 Bộ lọc WEB dựa vào DNS .............................................................................. 9 1.2.4 Bộ lọc WEB dựa vào từ khóa ........................................................................ 10 1.2.5 Bộ lọc WEB dựa vào nội dung text và hình ảnh............................................ 10 1.3 Các công trình liên quan .................................................................................. 11 CHƢƠNG 2. CÁC LÝ THUYẾT ỨNG DỤNG TRONG LUẬN VĂN ............. 15 2.1 Rút trích nội dung của website .......................................................................... 15 2.1.1 Phân tích mã HTML ...................................................................................... 15 2.1.2 So sánh khung mẫu ........................................................................................ 16 2.1.3 Xử lý ngôn ngữ tự nhiên ................................................................................ 17 2.2 Phân tích nội dung thành các token .................................................................. 18 2.2.1 Tiền xử lý dữ liệu ........................................................................................... 19 2.2.2 Tách câu dựa trên Maximum Entropy ........................................................... 19 2.2.3 Tách từ ........................................................................................................... 21 2.2.3.1 Phƣơng pháp Maximum Matching .............................................................. 25 2.2.3.2 Phƣơng pháp Transformation – based learning – TBL................................ 25 2.2.3.3 Mô hình tách từ bằng WFST và mạng Neural ............................................. 26 2.2.3.4 Phƣơng pháp tách từ tiếng việt dựa trên thống kê từ Internet và thuật giải di truyền ........................................................................................................... 28 2.2.4 Thuật toán KEA ............................................................................................. 29 2.2.4.1 Chọn cụm ứng viên ...................................................................................... 31 2.2.4.2 Tính toán đặc trƣng ...................................................................................... 33 2.2.4.3 Huấn luyện ................................................................................................... 33 2.2.4.4 Rút trích những cụm từ khóa ....................................................................... 34 2.2.5 Thuật toán KIP ............................................................................................... 34 2.2.6 Nhận diện thực thể có tên............................................................................... 36 2.3 Phân tích URL .................................................................................................. 37 CHƢƠNG 3. GIẢI PHÁP LỌC WEBSITE KHIÊU DÂM DỰA TRÊN URL VÀ TEXT CONTENT ............................................................................................ 38 3.1 Phân tích mô hình hệ thống .............................................................................. 38 3.2 Module xử lý dựa vào URL .............................................................................. 40 3.3 Module lọc theo nội dung ................................................................................. 40 3.3.1 Giai đoạn huấn luyện ..................................................................................... 41 3.3.1.1 Tiền xử lý văn bản ....................................................................................... 41 3.3.1.2 Trích lọc đặc trƣng ....................................................................................... 42 3.3.1.3 Thuật toán Naïve Bayes ............................................................................... 44 3.3.2 Giai đoạn phân lớp, nhận dạng ...................................................................... 47 CHƢƠNG 4. THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ ................................. 50 4.1 Môi trƣờng thử nghiệm...................................................................................... 50 4.2 Giao diện chƣơng trình ...................................................................................... 50 4.2.1 Giao diện chính .............................................................................................. 50 4.2.2 Giao diện học từ lấy TOKEN phân lớp nội dung Website ............................ 53 4.2.3 Giao diện duyệt các TOKEN từ đơn đƣa vào danh sách TOKEN ................ 54 4.2.4 Giao diện duyệt các TOKEN từ ghép đƣa vào danh sách TOKEN ............... 54 4.2.5 Giao diện danh sách các TOKEN từ phân lớp nội dung Website................. 55 4.2.6 Giao diện lấy TOKEN URL........................................................................... 55 4.2.7 Giao diện danh sách các TOKEN URL để phân lớp URL của Website........ 56 4.3 Thu thập dữ liệu................................................................................................ 56 4.3.1 Thu thập dữ liệu để làm cơ sở dữ liệu TOKEN URL ................................... 56 4.3.2 Thu thập dữ liệu để làm cơ sở dữ liệu TOKEN nội dung .............................. 57 4.4 Đánh giá kết quả thực nghiệm .......................................................................... 58 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN ............................................................. 60 TÀI LIỆU THAM KHẢO KÝ HIỆU CÁC CỤM TỪ VIẾT TẮT Từ viết tắt Ý nghĩa KNN K-Nearest Neighbor LDA Latent Drichlet Allocation LLSF Linear Least Square Fit LRMM Left Right Maximum Matching MM Maximum Matching NB Naïve Bayes pLSA Probabilistic Latent Semantic Analysis SVM Support Vector Machine TBL Transformation -based Learning TF WFST Term Frequency Weighted Finit State Transducer DANH SÁCH CÁC HÌNH VẼ Hình 2.1 - Hệ thống bóc tách nội dung của VietSpider ............................................ 16 Hình 2.2 – Mô hình bóc tách nội dung chính bằng so sánh khung mẫu ................... 17 Hình 2.3 – Sơ đồ thuật toán KEA ............................................................................. 30 Hình 3.1 – Mô hình hệ thống lọc Website có nội dung khiêu dâm .......................... 39 Hình 3.2 – Quy trình huấn luyện lấy TOKEN URL ................................................. 40 Hình 3.3 – Quy trình huấn luyện TOKEN nội dung ................................................. 41 Hình 3.4 – Quy trình tách từ ..................................................................................... 42 Hình 3.5 – Mô hình huấn luyện từ ............................................................................ 44 Hình 3.6 – Mô hình giai đoạn phân lớp .................................................................... 48 Hình 4.1 – Giao diện lúc khởi động bộ lọc ............................................................... 50 Hình 4.2 – Giao diện đăng nhập................................................................................ 51 Hình 4.3 – Giao diện khi duyệt một địa chỉ WEB tốt ............................................... 51 Hình 4.4 – Giao diện khi duyệt một địa chỉ WEB xấu ............................................. 52 Hình 4.5 – Giao diện danh sách địa chỉ WEB tốt, xấu ............................................. 52 Hình 4.6 – Giao diện chức năng hệ thống ................................................................. 53 Hình 4.7 – Giao diện huấn luyện từ đơn, từ ghép ..................................................... 53 Hình 4.8 – Giao diện duyệt các TOKEN từ đơn đƣa vào danh sách ToKEN ......... 54 Hình 4.9 – Giao diện duyệt các TOKEN từ ghép đƣa vào danh sách ToKEN ........ 54 Hình 4.10 – Giao diện duyệt TOKEN từ đơn và từ ghép ......................................... 55 Hình 4.11 – Giao diện huấn luyện TOKEN URL ..................................................... 55 Hình 4.12 – Giao diện danh sách các TOKEN URL sau huấn luyện ....................... 56 Hình 4.13 – Địa chỉ URL thu thập đƣợc ................................................................... 56 Hình 4.14 – File tốt thu thập đƣợc ............................................................................ 57 Hình 4.15 – File xấu thu thập đƣợc ........................................................................... 57 Hình 4.16 – Cơ sở dữ liệu TOKEN nội dung sau quá trình huấn luyện .................. 58 DANH SÁCH CÁC BẢNG BIỂU Bảng 1.1 – Kết quả đánh giá NET PROJECT ............................................................ 5 Bảng 1.2 – Một số sản phẩm lọc WEB theo URL ...................................................... 7 Bảng 2.1 – Xác định cụm ứng viên ........................................................................... 32 Bảng 3.1 – Thống kê một số từ điển thông dụng tiếng việt ...................................... 43 Bảng 3.2 – Số liệu thống kê bảng từ điển ................................................................. 43 Bảng 3.3 – Ví dụ minh họa tần số xuất hiện các TOKEN ........................................ 46 Bảng 3.4 –Ví dụ minh họa tần số xuất hiện các TOKEN chƣa làm trơn .................. 47 Bảng 3.5 –Ví dụ minh họa tần số xuất hiện các TOKEN đã làm trơn ...................... 47 Bảng 4.1 – Kết quả thực nghiệm File nội dung ........................................................ 59 Bảng 4.2 – Kết quả thực nghiệm URL ...................................................................... 59 1 MỞ ĐẦU 1. Lý do chọn đề tài Internet bắt đầu xuất hiện từ những năm thập niên 60. Tuy nhiên tại thời điểm đó nó chỉ đƣợc sử dụng nội bộ và phục vụ chủ yếu cho quân sự. Ngày 19/11/1997 là ngày đầu tiên Việt Nam chính thức hòa vào mạng Internet toàn cầu, sau mƣời mấy năm hoạt động Internet trở thành một thuật ngữ hầu nhƣ ai cũng biết, một phƣơng tiện truyền thông ai ai cũng đang sử dụng, thậm chí với một số bộ phận còn phụ thuộc hoàn toàn. Tầm ảnh huởng của Internet phát tán mạnh mẽ khi nó bắt đầu phát huy công dụng giải trí của mình, ngƣời ta không chỉ có thể tìm tƣ liệu mà còn xem phim, nghe nhạc, chơi game trên mạng. Hàng triệu triệu ngƣời vào mạng mỗi ngày, nhƣng số ngƣời vào mạng để làm việc, học tập, truy cập tài liệu thì rất ít. Với sự phát triển nhanh chóng của Internet hiện nay, đó là dấu hiệu đáng mừng trƣớc sự phát triển của công nghệ thông tin trong một xã hội hiện đại. Nhƣng đằng sau nó là những hệ lụy từ Internet mang lại cho con ngƣời, trong đó đặc biệt là giới trẻ. Song song với các trò chơi trên mạng, thì việc tò mò truy cập vào các trang có nội dung không lành mạnh để đọc truyện Sex, xem các hình ảnh khiêu dâm, xem phim Sex cũng trở nên phổ biến và tác hại làm cho ngƣời xem muốn có hành vi quan hệ tình dục ngay, dẫn đến tình trạng sa đà vào tệ nạn mại dâm, hiếp dâm khi chƣa đủ tuổi vị thành niên. 1 Website khiêu dâm không chỉ ảnh hƣởng đến hành vi tình dục của giới trẻ mà còn ảnh hƣởng đến đạo đức làm việc nơi công sở 2. Ngoài ra, nó còn gây mất an ninh cho máy tính cá nhân của ngƣời sử dụng và hệ thống mạng máy tính nơi cơ quan, bởi các phần mềm độc hại. Vậy làm sao để ngăn chặn không cho ngƣời sử dụng truy cập vào các Website có nội dung khiêu dâm là vấn đề đang đƣợc xã hội quan tâm. Hiện nay trong nƣớc và ngoài nƣớc cũng có nhiều phần mềm đƣợc nghiên cứu nhƣ: Nghiên cứu trong nƣớc có thể đề cập đến một số phần mềm sau: Phần mềm Killporn của tác giả Nguyễn Hữu Bình; Phần mềm VwebFilter (viết tắt VWF) của Công ty Điện toán và Truyền số liệu xây dựng; Phần mềm Depraved Web Killer 1 http://vi.wikipedia.org/wiki/Internet_t%E1%BA%A1i_Vi%E1%BB%87t_Nam http://baohay.vn/chuyen-de/nhung-dieu-can-biet/288247/Web-sex-dang-tro-thanh-mon-giaitri-o-chon-cong-so.html 2 2 (DWK) của Vũ Lƣơng Bằng, nhân viên công ty Điện thoại Đông, quận 10 (TP HCM); Phần mềm MiniFireWall 4.0 (MFW) của tác giả Huỳnh Ngọc Ẩn (công tác tại phòng Tin học - Bƣu điện tỉnh Đồng Tháp); Bộ lọc phát hiện các Website có nội dung không lành mạnh, luận văn thạc sĩ công nghệ thông tin của Cao Nguyễn Thủy Tiên. Nghiên cứu ngoài nƣớc có thể kể đến một số phần mềm sau: STOP P-O-RN 5.5 đƣợc phát hành bởi PB Software LLC; K9 Web Protection đƣợc phát hành bởi Blue Coat Systems; Media Detective 2.3 đƣợc phát hành bởi Tap Tap Software; Parental Filter 3.0 đƣợc phát hành bởi NWSP Software Design; ScrubLT 3.2.2.0 đƣợc phát hành bởi CrubLT; CyberSitter đƣợc phát hành bởi Solid Oak Software ; iShield 1.0 đƣợc phát hành bởi Guardware. Thực tế cho thấy các phần mềm ngoài nƣớc đa phần muốn sử dụng thì phải trả phí và thƣờng lọc hình ảnh khiêu dâm còn lọc nội dung khiêu dâm chủ yếu bằng tiếng anh còn bằng tiếng việt thì hạn chế, còn các phần mềm trong nƣớc thì cũng còn những hạn chế trong việc chặn từ khóa khiêu dâm thông dụng và chặn URL cụ thể của Website. Qua đó cho thấy còn nhiều vấn đề cần phải nghiên cứu làm sáng tỏ, làm tốt hơn và đó là cũng là lý do mà đề tài “Xây dựng bộ lọc phát hiện các Website có nội dung khiêu dâm dựa trên URL và TEXT CONTENT” đƣợc lựa chọn cho luận văn này. 2. Mục tiêu đề tài Xây dựng bộ lọc WEB có thể tự động phát hiện các Website cần truy cập có nội dung khiêu dậm dựa trên URL và TEXT CONTENT của Website. 3. Nội dung thực hiện Thu thập các URL và TEXT CONTENT của các Website có nội dung khiêu dâm và không khiêu dâm để tạo bộ dữ liệu các token từ đã đƣợc huấn luyện để phục vụ cho việc phân loại các Website có nội dung khiêu dâm và không khiêu dâm. Nghiên cứu cách khai phá URL và TEXT CONTENT của Website từ đó đề xuất mô hình lọc các Website có nội dung khiêu dâm dựa trên URL và TEXT CONTENT. Cài đặt bộ lọc Website hiện thực hóa vấn đề nghiên cứu. 3 4. Phƣơng pháp thực hiện Dùng các công cụ, phần mềm đã có trong nƣớc và ngoài nƣớc để thu thập dữ liệu của các trang tin tức, các trang Web có nội dung khiêu dâm. Dữ liệu cần thu thập là URL và nội dung của Website. Để phân lớp URL của một Website cần duyệt thuộc lớp tốt hay xấu thì dựa vào danh sách ToKenURL. Danh sách ToKenURL là các từ, cụm từ đƣợc huấn luyện từ các URL thu thập đƣợc. Để phân lớp nội dung của một Website cần duyệt thuộc lớp có nội dung Khiêu dâm hay không thì dựa vào danh sách ToKen nội dung. Danh sách ToKen nội dung này đƣợc xây dựng từ việc huấn luyện các tập dữ liệu tốt và tập dữ liệu xấu thu thập đƣợc, tính tỉ lệ xuất hiện của các ToKen từ trên các tập dữ liệu tốt và xấu để chọn ra các ToKen từ có trọng số cao rồi so sánh với bộ từ điển dữ liệu để chọn ra các ToKen từ đặc trƣng dùng để phân lớp nội dung của Website. Nghiên cứu và áp dụng các thuật toán tách câu, tách từ trong văn bản tiếng việt, kết hợp với thuật toán Naïve Bayes để tính xác suất nội dung văn bản của Website cần duyệt để phân lớp Website là khiêu dâm hay không khiêu dâm. 4 CHƢƠNG 1. TỔNG QUAN VỀ TRÍCH LỌC DỮ LIỆU TRÊN WEBSITE 1.1. Giới thiệu Lọc trang WEB là một vấn đề không phải là mới. Làm sao để phát hiện đƣợc các trang WEB có nội dung và hình ảnh khiêu dâm là vấn đề cần thiết. Các gia đình có sử dụng Internet thì cha mẹ không muốn con mình tiếp xúc với các trang WEB có nội dung và hình ảnh khiêu dâm. Hiện nay, một số quốc gia trên thế giới, trong đó có cả Việt Nam đã và đang nghiên cứu các giải pháp ngăn chặn các trang WEB khiêu dâm sao cho có hiệu quả, vì thế yêu cầu đặt ra là liên tục phát triển các phần mềm phát hiện và ngăn chặn các trang WEB khiêu dâm là một biện pháp an toàn bổ sung. Nhiều trang WEB khiêu dâm không chỉ có nội dung khiêu dâm và hình ảnh khiêu dâm mà cón chứa cả phần mềm độc hại, phần mềm quảng cáo, phần mềm gián điệp và Virus… Nói chung các trang WEB và các trang WEB có thể đƣợc phân loại là WEB khiêu dâm chủ yêu dựa trên các yếu tố nhƣ: hình ảnh khiêu dâm và nội dung khiêu dâm. Trong phạm vi của đề tài này chỉ giới hạn phát hiện và ngăn chặn các trang WEB có nội dung khiêu dâm dựa trên URL và TEXT CONTENT của trang WEB. 1.2. Các loại bộ lọc WEB có nội dung khiêu dâm Lọc chặn nội dung khiêu dâm trên mạng không phải là vấn đề đơn giản, nguyên nhân nằm ở chỗ có hàng tỷ liên kết, và thực chẳng dễ dàng chút nào để biết chắc chắn đâu là liên kết bẩn trong khối lƣợng thông tin khổng lồ và lộn xộn nhƣ thế. Dƣới đây là một vài cách thức thƣờng đƣợc dùng trong các bộ lọc WEB đen, WEB khiêu dâm. 1.2.1. Bộ lọc WEB dựa vào địa chỉ mạng  Bộ lọc dựa vào danh sách đen (Back List) và danh sách trắng (White List) Đây là biện pháp mà hầu hết các công cụ chặn web đen áp dụng, họ xây dựng, chia nhóm và phân loại các trang web để biết chắc chắn nội dung chủ yếu của một tên miền nào đấy thuộc về danh sách đen hay danh sách trắng (danh sách trắng là danh sách các website đƣợc phép truy cập, danh sách đen là danh sách những trang cấm), điều này có thể đƣợc thực hiện bằng máy, hoặc thông qua cộng đồng Internet đông đảo giúp sức. Nó tỏ ra khá hiệu quả, ngăn chặn hầu nhƣ 99% các trang web 5 sex phổ biến, tuy nhiên nhƣợc điểm của chƣơng trình là đôi khi bỏ sót các trang web sex cỡ nhỏ, bởi vì các trang nhƣ thế sinh ra rất nhiều mỗi ngày, và không có một phần mềm nào có thể thêm đầy đủ tất cả vào danh sách đen của nó đƣợc.  Lọc qua địa chỉ IP Đây là kỹ thuật ngăn chặn trực tiếp trên đƣờng mạng bằng các địa chỉ IP của một website. Kỹ thuật này có thể là thiết thực trong bối cảnh các website thƣờng bị truy cập thông qua địa chỉ IP hay nó có thể truy cập thông qua IP thay cho tên DSN. Đa số trƣờng hợp, không đƣợc khuyến khích dùng do 3 sự kém cỏi sau: Ngăn chặn truy cập đến một IP cũng sẽ ngăn chặn lƣu thông mạng đến những site có host ảo trên cùng IP ngay cả khi nó có nội dung liên quan đến vấn đề cấm hay không. Ngăn chặn truy cập đến một IP cũng sẽ ngăn chặn lƣu thông mạng đến mỗi thành viên của cổng thông tin nằm trên IP đó. Nó sẽ ngăn chặn một thành phần của website không phải là một phần hay một tập các trang con. Đó là sự thay đổi thƣờng xuyên của các website bị lọc ngay khi chủ nhân website phát hiện ra bị lọc. Hành động này dựa trên DNS để cho phép ngƣời dùng vẫn còn truy cập đến trang web. Bảng thống kê phía dƣới sẽ so sánh kết quả lọc của một số phần mềm theo dự án khảo sát website của dự án NetProject. Bảng 1.1 – Kết quả đánh giá của NetProject Phần mềm lọc Tỉ lệ khóa dùng Efectiveness Rate BizGuard 55% 10% Cyber Patrol 52% 2% Cyber Sitter 46% 3% Cyber Snoop 65% 23% Norton Internet Secủity 45% 6% SurfMonkey 65% 11% X-Stop 65% 4%  Bức tường lửa (Firewall) Firewall là một kỹ thuật đƣợc tích hợp vào hệ thống mạng để chống sự truy cập trái phép, nhằm bảo vệ các nguồn thông tin nội bộ và hạn chế sự xâm nhập không 6 mong muốn vào hệ thống. Thông thƣờng Firewall đƣợc đặt giữa mạng bên trong (Intranet) của một công ty, tổ chức,  vai trò chính là bảo mật thông tin, ngăn chặn sự truy cập không mong muốn từ bên ngoài và cấm truy cập từ bên trong (Intranet) tới một số địa chỉ nhất định trên Internet. Ưu điểm: Đa số các các hệ thống firewall đều sử dụng bộ lọc packet. Một trong những ƣu điểm của phƣơng pháp này là chi phí thấp vì cơ chế lọc packet đã đƣợc bao gồm trong mỗi phần mềm router. Hạn chế: việc định nghĩa các chế độ lọc packet là một việc phức tạp, đòi hỏi ngƣời quản trị mạng cần có hiểu biết chi tiết về các dịch vụ Internet, các dạng Packet header,  1.2.2. Bộ lọc WEB dựa vào URL (Universal Resoure Locator)  Dựa vào từ khóa của URL Thông thƣờng các bộ lọc web nhƣ thế này sẽ có một danh sách các từ khóa dành cho ngƣời lớn đƣợc tạo ra sẳn để nhận dạng đƣợc những địa chỉ web bị chặn. Từ khóa URL là chuỗi con nằm trong một địa chỉ web, những URL của trang web có chứa chuỗi con này thƣờng là những trang web có nội dung khiêu dâm. Các trang web có nội dung khiêu dâm thƣờng dùng từ ngữ khiêu dâm, tình dục làm tên miền cho website với mục đích gợi nhớ để ngƣời dùng dễ tìm kiếm bằng các công cụ tiềm kiếm. Thực tế cho thấy có trang web nào mà nội dung lành mạnh lại đặt tên miền cho website nhƣ thế. Vì vậy, những trang web có từ khóa URL nhƣ vậy cần chặn trực tiếp ngay từ đầu mà không cần phải tìm hiểu nội dung bên trong. Ví dụ: các trang web này đều là web có nội dung khiêu dâm www.sexviet.com www.sex700.com www.sexygirls.com do đều chứa các từ khóa là "sex" Hoặc các trang web khiêu dâm sau đây www.freeporns.com www.asiaporns.com www.childporn.com các trang này đều chứa các từ khóa là "porn" 7 Ưu điểm: Đơn giản nhƣng khá tin cậy. Hạn chế: Đôi khi có một trang nào đấy chẳng chứa bất kỳ từ khóa khiêu dâm nào trong URL nhƣng bản thân trang đó lại có nội dung bẩn sẽ đƣợc chƣơng trình bỏ qua hoặc ngƣợc lại một trang web về giáo dục giới tính lành mạnh có thể chứa từ khóa sex trong URL sẽ lại bị chặn.  Dựa vào URL Đây là kỹ thuật lọc bằng cách quan sát lƣu thông web (HTTP) bằng cách theo dõi URL và các host field bên trong các yêu cầu HTTP để nhận ra đích đến của yêu cầu. Host field đuợc dùng riêng biệt bởi các máy chủ web hosting để nhận ra tài nguyên nào đƣợc trả về. Lọc web qua URL thƣờng đƣợc xếp vào loại chủ đề rộng lớn về "Content Management". Các kỹ thuật lọc qua URL ra đời từ 2 kiểu lọc "pass-by" và "passthrough". Lọc theo "pass-by": xử lý trên đƣờng mạng mà không cần phải trực tiếp trong đƣờng nối giữa ngƣời dùng và internet. Yêu cầu ban đầu đƣợc chuyển đến máy chủ web đầu cuối. Nếu yêu cầu bị cho là không thích hợp thì bộ lọc sẽ ngăn chặn những trang gốc từ bất cứ yêu cầu truy cập nào. Kỹ thuật này cho phép thiết bị lọc không bao gồm bộ định hƣớng yêu cầu. Nếu thiết bị lọc bị hỏng, lƣu thông mạng vẫn tiếp tục hoạt động một cách bình thƣờng. Lọc theo "pass-through": gồm việc sử dụng một thiết bị trên đƣờng của tất cả yêu cầu của ngƣời dùng. Vì thế lƣu thông mạng đi qua bộ lọc "pass-through" là thiết bị lọc thực sự. Thƣờng bộ lọc này nằm trong các kiểu firewall, router, application switch, proxy server, cache server.  Tùy chọn bộ lọc URL Điểm đặc biệt của các sản phẩm theo phƣơng pháp này cho phép ngƣời dùng chỉ định các URL bằng cách thêm hay bớt các URL khỏi "danh sách các site xấu" (Bad Site List) mặc dù các website nguyên thủy trong danh sách không thể bị loại bỏ. Dƣới đây là danh sách các sản phẩm lọc web phổ biến. Bảng 1.2 - Một số sản phẩm lọc web theo phƣơng thức URL Sản phẩm Smartfilter Hãng (Công ty) Secure Computing 8 Web Filter SurfControl Web Security Symatec Bt-WebFilter Burst Technology CyBlock WebFilter Wavecrest Computing Ưu điểm: Những Website ảo không bị ảnh hƣởng: Kỹ thuật này không ảnh hƣởng đến các máy chủ web ảo khi chúng cùng dùng một IP nhƣ những website hạn chế. Một website bị chặn và website không bị chặn có thể chia sẻ cùng một địa chỉ IP. Không ảnh hƣởng đối với việc thay đổi IP: Trong phần lớn tình huống, sự thay đổi IP của website bị hạn chế sẽ không ảnh hƣởng đến phƣơng pháp này. Vì phƣơng pháp lọc này không phụ thuộc vào địa chỉ IP. Chủ sở hữu những trang web có thể đòi bất cứ IP nào họ muốn, nhƣng ngƣời dùng đứng sau bộ lọc không thể truy cập đƣợc. Những Website ảo không bị ảnh hƣởng: Kỹ thuật này không ảnh hƣởng đến các máy chủ web ảo khi chúng cùng dùng một IP nhƣ những website hạn chế. Một website bị chặn và website không bị chặn có thể chia sẻ cùng một địa chỉ IP. Không ảnh hƣởng đối với việc thay đổi IP: Trong phần lớn tình huống, sự thay đổi IP của website bị hạn chế sẽ không ảnh hƣởng đến phƣơng pháp này. Vì phƣơng pháp lọc này không phụ thuộc vào địa chỉ IP. Chủ sở hữu những trang web có thể đòi bất cứ IP nào họ muốn, nhƣng ngƣời dùng đứng sau bộ lọc không thể truy cập đƣợc. Hạn chế:  Thƣờng không thể ngăn chặn các cổng phi tiêu chuẩn:  Những Web server làm việc với cổng tiêu chuẩn rất tốt.  Website trên các cổng phi tiêu chuẩn thì khó khăn cho việc ngăn cấm vì chúng yêu cầu một cấp độ cao hơn trong bộ lọc.  Một giải pháp lọc qua URL có thể là kỹ thuật có khả năng cần thiết cho những kết nối HTTP trên các cổng phi tiêu chuẩn  Không làm việc với các lƣu thông bị mã hóa: vì HTTP yêu cầu sử dụng SSL/TLS bị mã hóa. Phƣơng pháp lọc theo URL không thể đọc các hostfield. Cho nên, bộ lọc không có hiệu quả phát hiện một tài nguyên nào trên một địa chỉ IP mà yêu cầu thực sự định hƣớng vào. 9 Tóm lại, các server cần có bộ lọc để thực hiện loại bỏ một số trang web không tốt, nhƣng nó có thể làm cho hệ thống chậm lại. 1.2.3. Bộ lọc WEB dựa vào DNS Những website bị lọc sẽ hoàn toàn không thể truy cập đƣợc đến tất cả các cấu hình sử dụng bộ lọc nameserver cho bộ phân giải tên do tất cả các bộ lọc nameserver sẽ trả về thông tin bất hợp lệ khi yêu cầu phân giải một hostname của website bị lọc. Nhƣ vậy không thể truy cập đến tài liệu trên của máy chủ chứa Website. Tuy nhiên, các website không bị lọc sẽ cho phép truy cập miễn là chúng nó có một hostname khác từ các website bị lọc. Vì tên của chúng không đƣợc hỗ trợ thông tin bất hợp lệ bởi bộ lọc nameserver nên dữ liệu đúng sẽ trả về cho bất cứ ngƣời dùng nào yêu cầu phân giải tên và website hiển nhiên là có thể truy cập vào đƣợc. Ƣu điểm: Sử dụng đa nghi thức (multi-protocol): http, ftp, gropher và bất kỳ nghi thức nào khác dựa trên hệ thống tên. Không bị ảnh hƣởng bởi việc thay đổi IP: Khi thay đổi IP của một website không ảnh hƣởng đến phƣơng pháp lọc này, đây là phƣơng pháp lọc hoàn toàn độc lập với địa chỉ IP. Hạn chế:  Không hiệu quả đối với các URL có chứa địa chỉ IP:  Phần lớn những địa chỉ của một website ở dạng DNS (www.lhu.edu.vn), tuy nhiên cũng có những địa chỉ đƣợc chỉ định bằng một địa chỉ IP thay vì là dạng DNS (http://118.69.126.40).  Trong trƣờng hợp này nó đƣợc truy cập đến bằng địa chỉ IP mà không phải dùng địa crhỉ DNS của nó.  Toàn bộ web server bị chặn hoàn toàn: Kỹ thuật không cho phép việc khóa có chọn lựa các trang còn lại trên một webserver. Vì thế, nếu một trang bị cấm là www.exp.com/bad.htm thì có thể tất cả các truy cập không thể truy xuất đến www.exp.com dù nó không trong danh sách bị khóa.  Ảnh hƣởng đến các subdomain: Xét về kỹ thuật, một tên miền đơn nhƣ example.com trong URL http://www.example.com đƣợc dùng truy cập đến web server. Cùng một thời điểm, domain name có thể phục vụ nhƣ một domain cấp trên của các cổng khác nhƣ 10 host1.example.com. Trong trƣờng hợp này, những địa chỉ DNS dạng www.example.com có thể bị phân giải sai. Ngoài ra, nó cũng làm cho bộ phân giải tên miền bị sai đối với các miền con. Và nó còn ảnh hƣởng đến các dịch vụ chạy trên mạng nhƣ e-mai 1.2.4. Bộ lọc WEB dựa vào từ khóa Tƣơng tự nhƣ cách tiếp cận dựa vào URL keyword cũng có một danh sách các từ khóa để nhận ra những trang web bị chặn. Một trang web cấm sẽ chứa nhiều từ khóa không hợp lệ, đây là cơ sở để nhận ra trang web bị cấm. Điều quan trọng đối với phƣơng pháp này là ngữ nghĩa của từ khóa theo ngữ cảnh, điều này làm cho hệ thống có những nhầm lẫn khi đƣa ra một quyết định về một trang web có đƣợc thể hiện hay không. Một website chuyên đề bệnh ung thƣ có thể bị khóa với lý do bài viết về "bệnh ung thư vú", ta thấy đƣợc rằng nếu trong bài viết có đề cập quá nhiều đến từ khóa nằm trong danh sách từ khóa chặn là "vú" thì vô tình hệ thống sẽ nhầm lẫn và khóa trang này. Vấn đề tiếp theo đó là các từ cố ý hay vô ý đánh vần sai, ở một số trang chứa nội dung xấu thì ngôn từ đƣợc dùng trong trang web của nó bị thay đổi để đánh lừa hệ thống lọc, tuy nhiên khi ngƣời sử dụng đọc thì có thể hiểu ngay đó chỉ là sai chính tả thôi còn đối với hệ thống lọc điều đó làm ảnh hƣởng lớn đến hệ thống. 1.2.5. Bộ lọc dựa vào nội dung text và hình ảnh Theo Stanfor project CS229 của SaiKat Sen. Để xây dựng bộ lọc dựa vào nội dung text và hình ảnh tác giả sử dụng ba kỹ thuật chính đó là: phân tích hình ảnh, văn bản, phân tích và xếp hạng.  Để phân tích văn bản, tác giả tiến hành kiểm tra:  Tiêu đề trang: nếu tiêu đề trang có chứa một từ ngƣời lớn thì trang đƣợc phân lớp là trang ngƣời lớn.  Từ khóa: các trang web dành cho ngƣời lớn và các trang web có chứa nội dung gần giống trang web ngƣời lớn thì tiến hành tìm kiếm các từ khóa của trang trong từ điển từ vựng về ngƣời lớn.  URL: phân tích các từ trên URL thành các chuỗi con và tra cứu vào bộ từ điển dành cho ngƣời lớn. Trong trƣờng hợp không có một từ điển trực tuyến tốt dành cho ngƣời lớn thì tiến hành xây dựng bằng cách sử dụng một ứng dụng tùy chỉnh và sử dụng cơ sở dữ liệu từ vựng Princeton

- Xem thêm -