Nghiên cứu giải pháp lọc nội dung Internet tại máy tính cá nhân và xây dựng phần mềm

  • Số trang: 59 |
  • Loại file: PDF |
  • Lượt xem: 19 |
  • Lượt tải: 0
tailieuonline

Đã đăng 27700 tài liệu

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Tiến Dũng NGHIÊN CỨU GIẢI PHÁP LỌC NỘI DUNG INTERNET TẠI MÁY TÍNH CÁ NHÂN VÀ XÂY DỰNG PHẦN MỀM LUẬN VĂN THẠC SĨ Hà Nội – 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Tiến Dũng NGHIÊN CỨU GIẢI PHÁP LỌC NỘI DUNG INTERNET TẠI MÁY TÍNH CÁ NHÂN VÀ XÂY DỰNG PHẦN MỀM Ngành : Công nghệ Thông tin Chuyên ngành : Hệ thống Thông tin Mã số : 60 48 05 LUẬN VĂN THẠC SĨ NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS. TS. HÀ QUANG THỤY Hà Nội - 2009 MỤC LỤC MỤC LỤC .........................................................................................................................i DANH SÁCH HÌNH VẼ ................................................................................................. ii MỞ ĐẦU ........................................................................................................................ iii Chƣơng 1 - TỔNG QUAN LỌC NỘI DUNG INTERNET ............................................... 1 1.1. Đánh giá tình hình nghiên cứu thuộc lĩnh vực đề tài ............................................... 1 1.1.1. Thế giới ........................................................................................................... 1 1.1.2. Tại Việt Nam ................................................................................................... 3 1.2. Thực trạng lọc nội dung truy cập hiện nay .............................................................. 4 Chƣơng 2 - MỘT SỐ NỘI DUNG CƠ BẢN VỀ PHƢƠNG PHÁP LỌC INTERNET ...... 7 2.1. Biện pháp lọc ......................................................................................................... 7 2.2. Phƣơng pháp lọc..................................................................................................... 8 2.2.1. Lọc địa chỉ IP ................................................................................................... 8 2.2.2. Lọc địa chỉ URL .............................................................................................. 9 2.2.3. Lọc từ khóa ...................................................................................................... 9 2.2.4. Lọc cụm từ ..................................................................................................... 10 2.2.5. Lọc ảnh .......................................................................................................... 10 2.3. Vị trí thực hiện lọc................................................................................................ 11 2.3.1. Lọc tại cổng Internet quốc gia ........................................................................ 11 2.3.2. Lọc tại cổng Internet mạng LAN .................................................................... 11 2.3.3. Lọc thông qua bên thứ ba ............................................................................... 12 2.3.4. Lọc tại máy tính cá nhân ................................................................................ 12 Chƣơng 3 - GIẢI PHÁP LỌC NỘI DUNG INTERNET ................................................. 13 3.1. Giải pháp tại cổng Internet quốc gia ..................................................................... 13 3.1.1. Kiến trúc hệ thống.......................................................................................... 13 3.1.2. Hoạt động ...................................................................................................... 15 3.1.3. Phân tích các thành phần ................................................................................ 16 3.2. Giải pháp tại cổng Internet của mạng LAN ........................................................... 19 3.2.1. Kiến trúc tổng quan........................................................................................ 19 3.2.2. Giải thuật và cơ chế hoạt động ....................................................................... 19 3.3. Giải pháp trực tiếp trên máy tính cá nhân ............................................................. 24 3.3.1. User mode: lấy nội dung từ lớp ứng dụng (Application) ................................. 25 3.3.2. User Mode: lấy nội dung từ lớp phiên (Session) ............................................. 29 3.3.3. Kernel mode: lấy nội dung từ lớp mạng (IP) .................................................. 32 3.3.4. Kernel mode: cơ chế nghe lén (sniffer) .......................................................... 35 3.4. Đề xuất giải pháp.................................................................................................. 36 3.4.1. Đánh giá giải pháp trực tiếp ........................................................................... 36 3.4.2. Đề xuất .......................................................................................................... 37 Chƣơng 4 - GIẢI PHÁP LỌC NỘI DUNG VÀ XÂY DỰNG PHẦN MỀM TẠI MÁY TÍNH CÁ NHÂN............................................................................................................ 39 4.1. Giải thuật.............................................................................................................. 39 4.2. Hoạt động............................................................................................................. 40 4.3. Phân tích các thành phần ...................................................................................... 41 4.3.1. Thành phần lấy dữ liệu................................................................................... 41 4.3.2. Thành phần phân tích nội dung gói tin ........................................................... 45 4.3.3. Thành phần tách, tổng hợp gói tin thành phiên giao dịch ................................ 48 4.3.4. Thành phần lọc cụ thể, lọc loại trừ ................................................................. 51 4.3.5. Thành phần lọc nội dung ................................................................................ 52 4.3.6. Thành phần quản lý ứng dụng ........................................................................ 54 4.3.7. Thành phần ghi log truy cập ........................................................................... 56 4.3.8. Thành phần quản lý luật truy cập ................................................................... 56 4.4. Chƣơng trình thử nghiệm ..................................................................................... 57 4.4.1. Kết quả chƣơng trình thử nghiệm ................................................................... 57 4.4.2. So sánh với chƣơng trình cùng loại ................................................................ 58 KẾT LUẬN .................................................................................................................... 60 TÀI LIỆU THAM KHẢO............................................................................................... 61 DANH SÁCH HÌNH VẼ Hình 2.1. Lọc tại cổng Internet quốc gia ......................................................................... 11 Hình 2.2. Lọc thông qua bên thứ ba ................................................................................ 12 Hình 2.3. Lọc tại máy tính cá nhân ................................................................................. 12 Hình 3.1. Hệ thống tƣởng lửa hiện tại của các ISP .......................................................... 14 Hình 3.2. Kiến trúc hệ thống lọc nội dung Internet tại ISP .............................................. 15 Hình 3.3. Gateway Filter lọc cho một mạng LAN ........................................................... 19 Hình 3.4. Sơ đồ giải thuật lọc cho mạng LAN 1 .............................................................. 20 Hình 3.5. Sơ đồ giải thuật lọc cho mạng LAN 2 .............................................................. 22 Hình 3.6. Sơ đồ giải thuật lọc cho mạng LAN 3 .............................................................. 23 Hình 3.7. Sơ đồ giải thuật lọc cho mạng LAN 4 .............................................................. 24 Hình 3.8. Nội dung kiểm soát lấy từ cửa sổ trình duyệt ................................................... 26 Hình 3.9. Sơ đồ giải thuật User mode (lấy nội dung lớp ứng dụng) ................................. 27 Hình 3.10. Hook Firewall ở User Mode .......................................................................... 30 Hình 3.11. Sơ đồ giải thuật User mode (lấy nội dung lớp phiên) ..................................... 31 Hình 3.12. Các chế độ Hook Firewall trên Windows ...................................................... 33 Hình 3.13. Sơ đồ giải thuật Kernel mode (lấy nội dung lớp IP) ....................................... 34 Hình 4.1. Sơ đồ giải thuật lọc nội dung trực tiếp trên máy tính cá nhân........................... 39 Hình 4.2. Phân lớp xử lý gói tin ...................................................................................... 41 Hình 4.3. Sơ đồ xử lý tổng quát giải pháp lọc nội dung ................................................... 42 Hình 4.4. Quy trình ghi log truy cập ............................................................................... 42 Hình 4.5. Cấu trúc dữ liệu tầng Transport ....................................................................... 43 Hình 4.6. Cấu trúc dữ liệu tầng Network ......................................................................... 44 Hình 4.7. Cấu trúc dữ liệu tầng DataLink........................................................................ 44 Hình 4.8. Cấu trúc gói tin lấy dữ liệu .............................................................................. 45 Hình 4.9. Các gói tin dạng thô và đƣợc phân tích theo từng lớp mạng............................. 47 Hình 4.10. Dữ liệu tầng TCP/IP của một gói tin .............................................................. 48 Hình 4.11. Header file ảnh .............................................................................................. 48 Hình 4.12. Header file text/html ...................................................................................... 49 Hình 4.13. Gói tin đầu tiên của một phiên giao dịch........................................................ 49 Hình 4.14. Tham số Seq và Ack...................................................................................... 49 Hình 4.15. Tham số Seq và Ack gói tin kế tiếp ............................................................... 50 Hình 4.16. Tổng hợp các gói tin đơn lẻ thành phiên giao dịch ......................................... 50 Hình 4.17. Trích đoạn danh sách lọc đang đƣợc áp dụng cho mạng VNN ....................... 51 Hình 4.18. Gói tin request(Get) ....................................................................................... 52 Hình 4.19. Ánh xạ tên tiến trình và cổng tƣơng ứng ........................................................ 55 Hình 4.20. Ánh xạ chi tiết PID (Process number) và số cổng .......................................... 55 Hình 4.21. Tổng hợp ghi log ........................................................................................... 56 Hình 4.22. Cập nhật luật truy cập từ server ..................................................................... 57 MỞ ĐẦU Mạng Internet ra đời và phát triển thành một kho dữ liệu khổng lồ, bao gồm đầy đủ các khía cạnh về văn hoá, chính trị, khoa học - kỹ thuật,... Với sự đa sắc màu văn hoá trên thế giới, đa tín ngƣỡng, đa lối sống, đa tƣ duy,… đã làm cho thông tin trên Internet luôn song hành tính tích cực và tiêu cực trong nội tại. Ƣu thế từ công nghệ Internet làm cho sức thâm nhập của kênh thông tin quan trọng này đối với ngƣời sử dụng rất rộng lớn và nhanh chóng. Các khía cạnh xấu - độc hại trong xã hội cũng theo đƣờng Internet để thâm nhập vào mỗi gia đình, mỗi con ngƣời. Chính vì lý do đó, công việc hỗ trợ quản lý và đảm bảo an toàn – an ninh thông tin trên mạng Internet đã trở thành mối quan tâm của mỗi gia đình, mỗi tổ chức, mỗi quốc gia. Về phƣơng diện gia đình, mối quan tâm của các bậc phụ huynh là ngăn ngừa việc thâm nhập các trang Web độc hại đối với con em mình. Về phía cá nhân ngƣời sử dụng, khai thác đƣợc những thông tin tích cực và ngăn ngừa tiếp xúc web độc hại do vô tình hay cố ý. Trong những năm gần đây, lĩnh vực nghiên cứu phát triển hệ thống lọc nội dung hỗ trợ quản lý và đảm bảo an toàn – an ninh thông tin trên mạng Internet nhận đƣợc sự quan tâm đặc biệt ở hầu hết các quốc gia trên thế giới. Tại Việt Nam, giải pháp cấp quốc gia đã đƣợc Nhà nƣớc chỉ đạo các ban ngành liên quan nghiên cứu và đề xuất. Tuy nhiên trƣớc thực tế nhu cầu cần giải pháp lọc nội dung truy cập của ngƣời sử dụng Internet, tìm hiểu và xây dựng giải pháp lọc nội dung truy cập trực tiếp trên máy tính cá nhân hiện đang là mục tiêu nghiên cứu của nhiều cá nhân, tập thể và đây chính là mục tiêu của luận văn này. Chƣơng thứ nhất của luận văn trình bày tổng quan về lọc nội dung Internet trên thế giới và tại Việt Nam, phân tích thực trạng về lọc nội dung truy cập hiện nay trên phƣơng diện về chính sách quy định của Nhà nƣớc cũng nhƣ yêu cầu đặt ra đối với các công cụ phần mềm. Chƣơng thứ hai của luận văn trình bày các nội dung cơ bản liên quan đến vấn đề lọc nội dung truy cập Internet, bao gồm: biện pháp lọc, phƣơng pháp lọc và vị trí thực hiện lọc. Dựa trên việc phân tích về vị trí thực hiện lọc nội dung đã trình bày trong chƣơng hai, chƣơng thứ ba trình bày về các giải pháp lọc nội dung truy cập tại cổng Internet Quốc gia, tại cổng Internet của mạng LAN và giải pháp trực tiếp trên máy tính cá nhân. Cuối cùng, chƣơng thứ tƣ trình bày về giải pháp và xây dựng chƣơng trình lọc nội dung truy cập Internet tại máy tính cá nhân. Trong các trƣờng hợp thử nghiệm, chƣơng trình đã hoạt động đúng chức năng đặt ra. Chƣơng 1 - TỔNG QUAN LỌC NỘI DUNG INTERNET 1.1. Đánh giá tình hình nghiên cứu thuộc lĩnh vực đề tài 1.1.1. Thế giới Hầu hết các nƣớc trên thế giới đều xây dựng và thực hiện các chính sách quốc gia về an toàn – an ninh Internet, trong đó đặc biệt chú ý tới vấn đề lọc nội dung trên Internet. Ngoài một số công bố về vấn đề lọc nội dung đối với nƣớc Mỹ [ 1 ], một số công trình nghiên cứu về lọc nội dung trên Internet điển hình đối với một số nƣớc khác đã đƣợc tổ chức The OpenNet Initiative - ONI (Tổ chức cộng tác, phối hợp nghiên cứu của the Citizen Lab thuộc Munk Centre for International Studies tại University of Toronto) tổng hợp và công bố tại trang Web với địa chỉ http://www.opennetinitiative.net/. Đây là một tổ chức có nhiệm vụ điều tra nghiên cứu về tình trạng giám sát và lọc thông tin trên thực tế tại các quốc gia, để từ đó tìm ra những ảnh hƣởng đến chủ quyền đất nƣớc, các tác động đến ngƣời sử dụng,... Để đạt đƣợc mục đích đó, ONI sử dụng một cách tiếp cận kết hợp các phƣơng tiện kỹ thuật tiên tiến (các công cụ giám sát mạng tinh vi, các kỹ thuật đánh giá phù hợp với từng hoàn cảnh cụ thể,…) và năng lực về tri thức địa phƣơng dựa trên quan hệ hợp tác giữa các nhà nghiên cứu và chuyên gia trên toàn thế giới. Một điều đặc biệt đáng chú ý, do tầm quan trọng của việc bảo đảm an toàn-an ninh thông tin trên mạng diện rộng nói chung và mạng Internet nói riêng, hầu hết chính phủ các nƣớc đều thành lập các cơ quan cấp nhà nƣớc tiến hành các hoạt động nghiên cứu và triển khai đối với công tác đảm bảo an toàn an ninh Internet, trong đó có vấn đề lọc nội dung trên Internet. Mỹ đƣợc coi là quốc gia xuất phát của công nghệ Internet, vấn đề bảo đảm an toàn an ninh trên mạng Internet của nƣớc Mỹ đã đƣợc đề cập đến ngay từ những ngày đầu xuất hiện Internet. Đồng thời với các đạo luật an ninh mạng trong các giao dịch điện tử, vấn đề lọc nội dung Internet, đặc biệt đối với việc truy nhập Internet của trẻ em, đƣợc quan tâm rất sớm. Trong báo cáo đƣợc công bố vào tháng 12/2005, Marcia S. Smith [ 1 ] đã tổng hợp và phân tích các văn bản pháp lý điển hình của nƣớc Mỹ về vấn đề lọc Internet 1 đối với trẻ em bao gồm các văn bản the 1996 Communications Decency Act (CDA), the 1998 Child Online Protection Act (COPA), the 2000 Children’s Internet Protection Act (CIPA - http://www.ala.org/CIPA/), the 2002 “Dot Kids” Act (P.L. 107-317) và the 2003 “Amber Alert” Act (P.L. 108-21). Thêm nữa, có tới 21 bang của nƣớc Mỹ bổ sung các luật lọc Internet áp dụng cho các trƣờng phổ thông và thƣ viện công cộng, bao gồm cả đòi hỏi bắt buộc phải sử dụng các bộ lọc Internet. Hai bang Texas và Utah còn có các đạo luật riêng đối với nhà cung cấp dịch vụ Internet hoặc nhà cung cấp máy tính về các điều khoản đảm bảo cơ chế lọc Internet. Việc sử dụng Internet của trẻ em đã đặt ra cho các bậc phụ huynh thêm nhiều mối quan tâm, lo lắng về các hiểm họa mới, trong đó có hiện tƣợng trẻ em sử dụng “blog” để đƣa nhật ký cá nhân trên mạng. Vì vậy, các gia đình Mỹ đã sử dụng các phƣơng tiện kỹ thuật để đảm bảo an toàn truy nhập Internet cho con em mình. Theo kết quả nghiên cứu của Amanda Lenhart, số lƣợng gia đình có trẻ vị thành niên kết nối Internet trực tuyến đã sử dụng bộ lọc Internet ngày càng tăng và đạt tới 54% vào tháng 3-2005. Hiện nay, hầu hết các trƣờng học và thƣ viện trên khắp nƣớc Mỹ đều sử dụng những hệ thống lọc Internet có quy luật lọc ràng buộc trong luật lọc (National Conference of State Legislatures). Nhiều sản phẩm phần mềm lọc nội dung đã đƣợc công bố và đƣợc sử dụng từ rất sớm. Dự án The InFoPeople Project kết thúc vào năm 2001 [ 1 ], cung cấp một cái nhìn tổng quát về hoạt động lọc nội dung trên Internet tại nƣớc Mỹ, đặc biệt đã cung cấp các đánh giá xác đáng về các sản phẩm phần mềm lọc nội dung điển hình nhƣ CyberPatrol, i-Gear, i-Prism, N2H2, S4F, SmartFilter, Web Inspector, WebSense, X-Stop. Tuy là nƣớc có hệ thống phƣơng tiện hiện đại trong việc đảm bảo an ninh quốc gia, nhƣng trong không ít tình huống, chính quyền Mỹ đã phải sử dụng nhiều giải pháp đa dạng, trong đó có các giải pháp về pháp lý, để tiến hành công việc lọc nội dung thông tin trên các đƣờng truyền thông tin công cộng. Tóm lại, trên cả phƣơng diện an ninh quốc gia cũng nhƣ phƣơng diện an toàn truy nhập Inernet của công dân (đặc biệt đối với trẻ em), nƣớc Mỹ đã triển khai nhiều giải pháp về pháp lý, về khoa học và công nghệ trong việc mở rộng các hình thức lọc Internet. Theo đó, nhiều dự án đã đƣợc triển khai và nhiều phần mềm đã đƣợc phát triển. 2 1.1.2. Tại Việt Nam Sau khi Nghị định 55/2001/NĐ-CP ra đời Internet ở Việt Nam phát triển mạnh đã khẳng định lộ trình phổ cập và xã hội hoá Internet của nhà nƣớc đã đi đúng hƣớng. Nhờ những chính sách quản lý hợp lý và phù hợp với xu thế phát triển cũng nhƣ với quan điểm rất mới “quản lý phải theo kịp yêu cầu của sự phát triển”, Internet Việt Nam đã phát triển với tốc độ chóng mặt, giá cƣớc Internet liên tục đƣợc giảm xuống, số lƣợng ngƣời sử dụng Internet gia tăng ngày càng nhanh đặc biệt là khách hàng thuộc nhóm thuê bao cá nhân hộ gia đình. Theo số liệu thống kê của Trung tâm Thông tin mạng Internet Việt Nam (VNNIC) [ 18 ], tính đến hết tháng 04/2008, số lƣợng thuê bao Internet Việt Nam đã đạt con số 5,6 triệu thuê bao, khoảng 19,5 triệu ngƣời sử dụng Internet, đạt mật độ 23,12%. Trong đó các điểm truy cập Internet công cộng đã phát triển nhanh chóng, tính riêng ISP VDC đã có tới hơn 20.000 điểm truy cập là đại lý chính thức, chƣa tính đến các điểm truy cập không phải là đại lý. Tình hình truy cập tại đây rất tự do, không đƣợc quản lý chặt chẽ, các đại lý cũng không thể theo dõi quản lý nội dung truy cập của khách hàng, không tổ chức nào đứng ra đảm bảo về nội dung truy cập ở đây là lành mạnh. Tình trạng truy cập tự do nhƣ hiện nay ảnh hƣởng rất lớn tới tình hình an ninh xã hội. Song hành với sự phát triển của Internet là những vấn đề tiêu cực: các hoạt động phạm pháp trên Internet có ảnh hƣởng xấu đến an ninh trật tự, an ninh quốc gia, vi phạm luật pháp và văn hóa Việt nam ngày càng gia tăng. Mặt trái của việc phát triển phổ cập thông tin tại những điểm truy cập công cộng thể hiện ra và đã đƣợc xã hội quan tâm, tuy nhiên một mảng khác của Internet cũng đang ảnh hƣởng rất lớn tới xã hội đó là các thuê bao cá nhân hộ gia đình. Vấn đề có thể xảy ra đối với ngƣời sử dụng cá nhân khi truy cập vào Internet: o Vô tình tiếp xúc với thông tin độc hại: vào nhầm địa chỉ, virus, spyware,… o Hạn chế tiếp xúc của con em trong nhà đối với thông tin Internet. o Nhu cầu quản lý sự truy cập thông tin tại các phòng máy: trƣờng học, điểm cung cấp dịch vụ Internet công cộng, cơ quan tổ chức,… Đa phần ngƣời dùng Internet cá nhân tại Việt Nam hiện nay đều không đƣợc bảo vệ đúng mức trƣớc các thông tin độc hại khi tiếp xúc với môi trƣờng Internet. Đứng trƣớc sự phát triển nhƣ vũ bão của Internet nhƣ hiện nay, việc quản lý 3 nội dung truy cập là một vấn đề cấp bách cần đƣợc quan tâm xử lý kịp thời. Những trang web đƣợc coi là trái với luật pháp Việt Nam trên Internet là rất lớn (web “đen”), đặc biệt là chúng luôn phát triển, thay hình đổi dạng, khiến cho việc đƣa ra một chuẩn thế nào là một trang web đen rất khó khăn. Viê ̣c truy câ ̣p web đen, thông tin đô ̣c ha ̣i , phát tán virus ... hiện đang không đƣợc kiể m soát ta ̣i các điể m truy câ ̣p internet công cô ̣ng , cá nhân hộ gia đình. Chỉ với một vài từ khóa qua các công cụ tìm kiếm, hàng nghìn trang web với nội dung trái với pháp luật Việt Nam đã hiển thị ra. Số lƣợng các web đen bằng tiếng Việt thời gian gần đây xuất hiện ngày càng nhiều. Các giải pháp kỹ thuật kết hợp với kiểm tra hành chính đã đƣợc tiến hành nhƣng hiệu quả công việc hiện tại không đạt đƣợc nhƣ mong muốn. Internet là không biên giới, nếu những nội dung đồi trụy, phi đạo đức vi phạm pháp luật đƣợc đặt tại các máy chủ ở nƣớc ngoài thì việc xử lý gặp rất nhiều khó khăn, thậm chí là không thể. Do đó , để kiểm soá t tố t hơn tình tra ̣ng này , cầ n phải kế t hơ ̣p việc cải tiến giải pháp kỹ thuật với các công tác hành chính, giáo dục ý thức... Trong đó , cải tiến giải pháp kỹ thuật đƣợc coi là giải pháp trƣớc nhất . Các nhà cung cấp dịch vụ ISP là các đơn vị có trách nhiệm ở đây. Nhiều ý kiến cho rằng cần phát triển mạnh hơn nữa các hệ thống lọc web đen ở ngay cổng Internet quốc gia, yêu cầu các nhà cung cấp dịch vụ đƣờng truyền (IXP) và cung cấp dịch vụ Internet (ISP) thiết lập hệ thống tƣờng lửa hữu hiệu. Tuy nhiên, các giải pháp đang áp dụng hiện nay vẫn không đủ để phong tỏa những web độc hại, vốn cực kỳ linh động (thƣờng xuyên đổi địa chỉ tên miền và địa chỉ IP..., vƣợt qua tƣờng lửa). Mặt khác, việc lọc từ cổng quốc gia nơi tập trung lƣu lƣợng thông tin khổng lồ qua lại - gây ảnh hƣởng đến tốc độ của hệ thống, đối với những hệ thống tƣờng lửa hiện nay việc đầu tƣ nâng cấp trang thiết bị không đáp ứng kịp với tiến độ phát triển của Internet. 1.2. Thực trạng lọc nội dung truy cập hiện nay Hiện nay do tốc độ phát triển nhanh chóng của Internet với nhiều kết nối băng rộng, nhu cầu đƣờng truyền quốc tế gia tăng, hệ thống tƣờng lửa của các ISP không đáp ứng đƣợc yêu cầu và thƣờng xuyên bị quá tải dẫn tới bỏ qua không lọc các trang web độc hại. Vấn đề xử lý web đen hiện đang là yêu cầu bức xúc và là mối quan tâm hàng đầu của toàn xã hội. Tại Việt Nam, nhu cầu có một giải pháp phần mềm hỗ trợ cho các vị phụ huynh bảo vệ con em mình khỏi các thông tin độc hại, giúp cho các điểm Internet 4 công cộng ngăn chặn đƣợc các truy cập vào trang web đen, giúp cho ngƣời dùng cá nhân tránh vô tình truy cập web đen,… là rất cần thiết. Đó là giải pháp tối ƣu, tiện dụng, đáp ứng đƣợc phần đa nhu cầu cá nhân sử dụng Internet hiện nay trong lúc đợi các nhà cung cấp dịch vụ ISP và Nhà nƣớc xây dựng đƣợc một giải pháp tổng thể, thống nhất. Lọc Internet nói chung (lọc nội dung nói riêng) liên quan tới việc hạn chế khả năng thâm nhập Internet của ngƣời dùng để ngăn chặn việc truy nhập tới các trang Web có nội dung xấu. Việc lọc nội dung về hình thức có vẻ mâu thuẫn với quan niệm tự do khai thác thông tin trên Internet vì vậy việc hạn chế khả năng thâm nhập Internet cần đƣợc đảm bảo bằng pháp luật. Chính vì lẽ đó, cùng với việc nghiên cứu, phát triển các phƣơng tiện lọc nội dung trên Web, mỗi quốc gia cũng cần xây dựng một hệ thống văn bản pháp lý đối với việc lọc thông tin nhằm đảm bảo tính hợp thức của mọi hoạt động cần thiết liên quan. Hành động của nhà nƣớc đối với vấn đề chống truy cập web độc hại Các cơ quan chức năng rất quan tâm đến tình hình quản lý nội dung truy cập Internet, liên tục đƣa ra những qui định về quản lý truy cập Internet. Cụ thể hóa sự quan tâm đó là Thông tƣ 02 (02/2005/TTLT-BCVT-VHTT-CA-KHĐT), có qui định "Quyền và nghĩa vụ của đại lý Internet": các đại lý cần cài đặt chƣơng trình phần mềm quản lý đồng thời thực hiện các giải pháp kỹ thuật đảm bảo ngăn chặn ngƣời sử dụng truy cập đến các trang web có nội dung xấu trên Internet. Đại lý Internet chỉ đƣợc cung cấp nội dung thông tin về ngƣời sử dụng cho các cơ quan Nhà nƣớc có thẩm quyền. Thông tƣ liên tịch số 02/2005/TTLT-BCVT-VHTT-CA-KHĐT về quản lý đại lý Internet ra đời tạo điều kiện thúc đẩy phát triển đại lý Internet theo đúng quy định của pháp luật, hƣớng dẫn tăng cƣờng quản lý việc phát hành, khai thác, sử dụng thông tin qua Internet và các hoạt động khác theo quy định của pháp luật, ngoài ra giúp ngăn ngừa hoạt động vi phạm pháp luật thông qua việc sử dụng dịch vụ Internet tại các đại lý Internet công cộng. Nhiệm vụ đặt ra ở đây cho các cơ quan quản lý là đảm bảo sự phát triển, phát huy tối đa hiệu quả của Internet, mang tri thức nhân loại phục vụ cho sự nghiệp công nghiệp hóa, hiện đại hóa đất nƣớc, đồng thời hạn chế thấp nhất những ảnh hƣởng tiêu cực của Internet. Văn bản này khi đi vào cuộc sống sẽ có tính hiệu lực và hiệu quả quản lý đại lý Internet rất cao. Tuy nhiên với sự phát triển của Internet Việt Nam việc giám sát hoạt động của các đại 5 lý Internet theo yêu cầu quản lý của cơ quan Nhà nƣớc nếu không có công cụ kỹ thuật hiệu quả thì rất khó khăn. Trong khi các cơ quan chức năng đang xây dựng giải pháp tổng thể xử lý vấn đề này thì ngƣời dùng Internet tìm đến với các công cụ (phần cứng và phần mềm) nhằm ngăn chặn web độc hại. Các chƣơng trình này hoạt động theo một số nguyên tắc chung nhƣ lọc theo địa chỉ IP, địa chỉ URL, theo từ khóa có trong nội dung của website,.... Khái niệm website độc hại Hiện tại Web độc hại đƣợc chia ra làm hai dạng: thứ nhất là những trang web chứa những nội dung bạo lực, khiêu dâm… những nội dung trái với văn hóa của Việt Nam; thứ hai đó là những trang web mang tính chính trị, mang tính chất phá hoại an ninh quốc gia. Nhƣ đã trình bày ở trên, việc đánh giá thế nào là một trang web độc hại đang là vấn đề chƣa hoàn toàn rõ ràng. Bởi lẽ trên thực tế, nhiều trƣờng hợp rất khó để đánh giá nội dung một trang web có độc hại hay không. Ví dụ nhiều trang web có thể là độc hại với đối tƣợng học sinh nhƣng lại không độc hại với những đối tƣợng khác, có những trang web có tính giáo dục về giới tính lại dễ bị nhầm là trang web đen… Tuy nhiên những đánh giá mang tính tƣơng đối nếu áp dụng vào thực tế để ngăn chặn cũng có thể hạn chế đƣợc đa số các trang web độc hại, với hiệu suất trên 80% có thể coi là đạt yêu cầu quản lý [ 3 ]. 6 Chƣơng 2 - MỘT SỐ NỘI DUNG CƠ BẢN VỀ PHƢƠNG PHÁP LỌC INTERNET Để có thể xây dựng đƣợc chƣơng trình lọc nội dung truy cập Internet thì trƣớc hết phải hiểu rõ bản chất của nội dung Internet. Vì vậy, chƣơng này sẽ tập trung nghiên cứu những nội dung liên quan đến hình thái lọc nhƣ biện pháp lọc, phƣơng pháp lọc và vị trí thực hiện. Từ đó có thể xây dựng đƣợc chƣơng trình lọc nội dung truy cập Internet. 2.1. Biện pháp lọc Căn cứ vào các yêu cầu đặt ra đối với lọc nội dung truy cập Internet, có thể chia biện pháp lọc thành một số loại cụ thể nhƣ sau [ 1, 3, 4, 5, 6, 15 ]:  Lọc cụ thể (inclusion filtering): ngƣời dùng chỉ đƣợc phép truy cập những thông tin đã đƣợc cho phép, nằm trong một danh sách đƣợc hiểu theo nghĩa “danh sách trắng”, thông thƣờng là một danh sách các địa chỉ web đƣợc phép truy nhập. Những thông tin nằm ngoài danh sách này đều bị cấm chặn.  Lọc loại trừ (exclusion filtering): ngƣời dùng sẽ bị chặn luồng thông tin nằm trong một danh sách, gọi là “danh sách đen”, thông thƣờng là một danh sách các địa chỉ web không đƣợc phép truy nhập. Tất cả những thông tin không liên quan đến danh sách này đều đƣợc phép truy cập.  Phân tích nội dung: hạn chế và ngăn chặn ngƣời dùng những thông tin chứa những nội dung cấm theo những tiêu chuẩn đã đƣợc đề ra. Chúng ta có thể nhận thấy rằng hai cách tiếp cận đầu cho khả năng thi hành đơn giản nếu cho trƣớc một danh sách trắng hoặc một danh sách đen. Tuy nhiên, trong thực tế thì khó khăn gặp phải chính là bài toán xác định chính xác các danh sách nhƣ vậy và luôn đƣa đến một kết quả hoặc là lọc không đầy đủ (xuất hiện liên tục các trang web “đen” mới trên Internet) hoặc hạn chế miền truy cập thông tin Internet (danh sách “trắng”quá hạn chế, không tƣơng thích với sự tăng trƣởng không ngừng của Internet). Cách tiếp cận lọc thông qua phân tích nội dung đƣợc tiến hành nhờ các kỹ thuật “hiểu” nội dung của thông tin trên web để ngăn chặn các 7 thông tin có nội dung xấu. Công việc “hiểu” và đánh giá thông tin đƣợc tải về cho phép việc lọc Internet có tính công phu và hoàn hảo hơn nhƣng lại đòi hỏi khối lƣợng tính toán lớn để xem xét từng nội dung đƣợc tải về. Tuy nhiên, do tính chất công phu của cách tiếp cận lọc nội dung và sự tăng trƣởng không ngừng về năng lực tính toán mà cách tiếp cận lọc thông qua phân tích nội dung ngày càng đƣợc phát triển mạnh. Việc triển khai công nghệ lọc nội dung phụ thuộc rất nhiều vào ngữ cảnh và vị trí tiến hành. Chúng ta có thể chia làm ba mức lọc thông tin chính sau:  Mức cục bộ: mức này đƣợc thể hiện thông qua các phần mềm cài đặt trong các máy tính cá nhân với một mục đích sử dụng trong một phạm vi nhỏ nhƣ gia đình, công ty có quy mô nhỏ v.v. (bộ lọc mức này đƣợc gọi là client-based filter).  Mức tổ chức: mức này cần đến những giải pháp lọc nội dung cho một mạng cỡ vừa, ví dụ nhƣ một mạng intranet trong một trƣờng học, một công ty cỡ lớn, v.v. (bộ lọc mức này đƣợc gọi là server-based filter).  Mức quốc gia: yêu cầu ở mức này đòi hỏi rất nhiều yếu tố khác nhau về công nghệ và kỹ thuật để đạt đƣợc khả năng lọc nội dung ở mạng xƣơng sống (backbone) của việc truy cập Internet của cả một quốc gia Phƣơng tiện lọc nội dung đƣợc thi hành bằng cả phần cứng lẫn phần mềm, trong đó nòng cốt là các phƣơng tiện phần mềm. Lori Bowen Ayre và ©2005 TopTenREVIEWS, Inc. đã cung cấp danh sách các sản phẩm phần mềm lọc Internet thông dụng nhất. Đồng thời, việc thiết đặt cơ chế an ninh mạng, ở mức cao hơn là cơ chế lọc nội dung Internet, cũng đã đƣợc tiến hành trên các thiết bị phần cứng, có thể kể đến một số thiết bị nhƣ Draytek Vigor2900, Planet VRT-311, một số sản phẩm CISCO... 2.2. Phƣơng pháp lọc Trên cơ sở phân tích luồng dữ liệu trong quá trình truy cập Internet, một cách tƣơng đối, phƣơng pháp lọc đƣợc chia ra thành các loại sau: 2.2.1. Lọc địa chỉ IP Tất cả các nội dung và thông tin trên mạng đều đƣợc trao đổi dƣới dạng chuỗi các gói tin. Mỗi gói tin có các địa chỉ IP nguồn/đích, Port nguồn/đích, giao thức sử dụng. Lọc gói đƣợc thực hiện thông qua cơ chế kiểm tra các thông tin trên của tất 8 cả các gói và chặn chúng nếu chúng đến từ các trang web bị cấm. Lọc gói tin có thể đƣợc thực hiện tại các router bởi các nhà cung cấp dịch vụ ISP, thông qua kiểm soát thông tin về địa chỉ IP nguồn/đích. Hiện nay có một số loại router có thể thực hiện lọc gói mà không gây ra bất kỳ hiệu ứng suy thoái đối với công việc định tuyến của nó. Vấn đề chính của cơ chế lọc gói tại ISP là hoạt động dựa vào địa chỉ IP, mỗi địa chỉ IP đại diện cho một máy tính, không phải là một trang web do đó lọc gói bằng cách sử dụng IP có thể chặn một số lƣợng lớn các trang web lƣu trữ trên máy chủ hợp pháp. Đã có nhiều trang web cộng đồng bị chặn, chẳng hạn nhƣ yahoo bị chặn bởi bản thân yahoo lƣu trữ một số forum chứa nội dung không lành mạnh, phản động [ 3 ]. Đồng thời việc lọc gói tại ISP còn có những khó khăn khác nếu nhƣ thực hiện trên một quy mô lớn. Các router đƣợc sử dụng bởi các ISP để liên kết mạng Internet chỉ có giới hạn không gian nhất định cho việc định tuyến nên việc bổ sung các định tuyến lọc địa chỉ IP sẽ làm giảm nhanh chóng năng lực hoạt động của router. Đối với nhà cung cấp dịch vụ Internet thì cần có hạ tầng mạng hoạt động luôn luôn ổn định do đó cơ chế lọc gói không đƣợc sử dụng rộng rãi. 2.2.2. Lọc địa chỉ URL Phổ biến và hiệu quả cao hơn lọc gói là hình thức lọc dựa trên các URL, đảm bảo không lọc những trang web hợp pháp nhƣng trên cùng một địa chỉ IP. Lọc URL có thể đƣợc sử dụng với cả hai hình thức bao gồm lọc cụ thể và lọc loại trừ. Thực hiện lọc URL có thể đƣợc tiến hành đối với từng phần của một website. Các thành phần cơ cấu địa chỉ URL của trang Web cho phép lọc truy cập vào toàn bộ các trang web, hoặc chỉ các phần của trang web. Ngoài nguồn gốc lọc gói và URL, lọc nội dung còn có thể sử dụng phƣơng pháp nhƣ các từ khóa tìm kiếm, phân tích hình ảnh. 2.2.3. Lọc từ khóa Quét nội dung truy cập Internet vào máy tính và tìm các từ mà đƣợc liệt kê trong một danh sách đen. Một trang web bị chặn nếu nó có chứa bất cứ từ nào trong danh sách chặn đó. Hình thức lọc từ đƣợc áp dụng đối với cả những yêu cầu 9 (request) đƣợc gửi đi từ máy tính để đảm bảo truy cập đối với từ khóa cấm đƣợc lọc ngay từ đầu. Các trang web khiêu dâm thƣơng mại cần phải đƣợc tìm thấy một cách dễ dàng đƣợc tìm thấy bởi các khách hàng tiềm năng và các công cụ tìm kiếm mà họ sử dụng để lƣớt web. Một trong những cơ chế của các trang web là để thêm một số khả năng tìm kiếm từ khóa để trang Web của họ, thậm chí nếu họ không thực sự hiển thị. Những từ này sẽ đƣợc chọn của trang Web crawlers, thêm vào danh mục đƣợc sử dụng bởi các công cụ tìm kiếm của họ và sau đó có thể đƣợc tìm thấy bằng cách web surfers. Do đó lọc từ khóa áp dụng triệt để đối với các từ khóa xuất hiện trong trang web tìm kiếm hay thẻ meta của nội dung các trang web truy cập. Một số nhƣợc điểm với lọc từ khóa:  Họ chỉ kiểm tra nội dung dạng văn bản, không thực hiện kiểm tra đối với các hình ảnh. Cụ thể đối với những trang web khiêu dâm nhƣ tiếng Nga, tiếng Nhật có cả những từ nội địa và hình ảnh thực sự cần lọc thì những từ khoá tiếng Anh, tiếng Việt hoàn toàn mất tác dụng.  Khác nữa, lọc từ khóa gặp trƣờng hợp từ khóa cần lọc nằm trong cụm từ có nghĩa khác và trong những bối cảnh khác nhau sẽ có nghĩa không cần phải lọc. 2.2.4. Lọc cụm từ Lọc cụm từ là một trƣờng hợp mở rộng của lọc từ khóa. Lọc cụm từ thực hiện kiểm soát nội dung truy cập thông qua một cụm từ, không phải xem xét từng từ một xuất hiện trong cụm từ đó. Với biện pháp lọc này đạt kết quả cao hơn nhiều so với lọc từ khóa, hạn chế tối đa trƣờng hợp phát sinh của việc từ khóa có nghĩa khác nhau trong bối cảnh khác nhau. 2.2.5. Lọc ảnh Ảnh là một phần quan trọng của Internet ngày nay. Thông kê cho thấy khoảng hơn 70% các trang web có chứa ảnh và trung bình có 19 ảnh trong một trang HTML [ 2 ]. Ảnh thƣờng đƣợc sử dụng để trang web trở nên hấp dẫn. Tuy nhiên ảnh cũng chứa các nội dung độc hại nhƣ khiêu dâm, phản động. Do đó kỹ thuật lọc ảnh hiệu quả là một phần quan trọng trong giải pháp lọc nội dung trên Internet. Nhận thấy giữa các ảnh chứa các vùng da lớn và các ảnh khiêu dâm có mối tƣơng quan với nhau, do đó trong các giải pháp lọc nội dung ảnh thƣờng đƣợc chia 10 thành các giai đoạn [ 2 ]: o Phát hiện màu sắc da trong ảnh là bƣớc xử lý đầu tiên trong quá trình phân tích nội dung ảnh. o Kế tiếp là giai đoạn trích trọn thuộc tính từ các vùng da đã đƣợc phát hiện. Thời gian tính toán cũng là yếu tố cần quan tâm do đó quá trình trích chọn thuộc tính cần cân bằng giữa mức độ chi tiết của các thuộc tính và thời gian để tính toán các thuộc tính. Các thuộc tính đƣợc lấy ra từ ảnh sẽ là đầu vào cho bộ lọc ảnh [ 2 ]. 2.3. Vị trí thực hiện lọc Lọc có thể diễn ra trên một máy tính cá nhân, trên một máy chủ của doanh nghiệp, tại một công ty cung cấp dịch vụ internet, hoặc trên một hệ thống lọc của bên thứ ba. 2.3.1. Lọc tại cổng Internet quốc gia Các giải pháp lọc cũng đƣợc thiết kế để hoạt động tại ISP nhƣng do đặc tính về đảm bảo hoạt động tại ISP nên hiện nay các giải pháp lọc hiện chỉ thực hiện hạn chế đối với danh sách địa chỉ IP đen. Hình 2.1. Lọc tại cổng Internet quốc gia Quản trị viên sẽ tiếp nhận danh sách các trang web bị cấm từ các nhà cung cấp bộ lọc phần mềm hay các cơ quan quản lý Nhà nƣớc, biên soạn cho phù hợp và cập nhật vào hệ thống. Đề xuất đối với giải pháp lọc tại cổng internet quốc gia cần đảm bảo hoạt động đầy đủ chức năng lọc và không ảnh hƣởng tới hiệu năng của hệ thống. Lọc tại nhà cung cấp dịch vụ ISP có độ an toàn rất cao do chạy trên một hệ thống an toàn [ 1, 3, 4 ]. 2.3.2. Lọc tại cổng Internet mạng LAN Tƣơng tự nhƣ lọc tại cổng Internet quốc gia nhƣng quy mô hệ thống nhỏ hơn 11 rất nhiều. Tùy thuộc đối với quy mô hệ thống mạng LAN thành phần phân tải trong phần mềm lọc nội dung đƣợc sử dụng, đảm bảo hoạt động truy cập Internet của ngƣời sử dụng không ảnh hƣởng bởi hệ thống. 2.3.3. Lọc thông qua bên thứ ba Trong trƣờng hợp này, các truy cập Internet sẽ đƣợc trao đổi thông qua bên thứ ba, nơi mà các yêu cầu sẽ đƣợc kiểm tra đối với một bộ lọc danh sách. Để có đƣợc điều này, trình duyệt của ngƣời sử dụng đầu cuối phải đƣợc cấu hình để trỏ đến bên thứ ba và sẽ không thể truy cập vào Internet mà không đi qua bên thứ ba. Hình 2.2. Lọc thông qua bên thứ ba Hình thức lọc này đòi hỏi hệ thống bên thứ ba thiết kế đặc biệt có thể bao gồm cả trình duyệt riêng cài đặt trên máy tính ngƣời sử dụng [ 4 ]. 2.3.4. Lọc tại máy tính cá nhân Đa số các giải pháp lọc hiện nay đƣợc thiết kế để chạy trên các máy tính cá nhân. Kỹ thuật lọc thực hiện kết hợp các phƣơng pháp lọc phổ biến trên (mục 1.2). Bộ luật lọc mới nhất đƣợc cập nhật định kỳ từ các nhà cung cấp phần mềm. Lọc tại máy tính cá nhân ƣu điểm về nguồn lực dƣ thừa máy tính, thời gian xử lý thực, tiết kiệm chi phí đầu tƣ phần cứng. Tuy nhiên, lọc tại máy tính cá nhân là giải pháp ít tin cậy nhất do phần mềm hoạt động trong môi trƣờng không bảo mật, dễ bị vô hiệu hóa. Hình 2.3. Lọc tại máy tính cá nhân 12
- Xem thêm -