Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết trong máy tìm kiếm VietSeek

  • Số trang: 83 |
  • Loại file: PDF |
  • Lượt xem: 14 |
  • Lượt tải: 0
nhattuvisu

Đã đăng 26946 tài liệu

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI KHOA CÔNG NGHỆ ĐẶNG TIỂU HÙNG PHƯƠNG PHÁP BIỂU DIỄN NGỮ NGHĨA LÂN CẬN SIÊU LIÊN KẾT CHO MÁY TÌM KIẾM VIETSEEK LUẬN VĂN THẠC SĨ Hà Nội - 2004 ĐẠI HỌC QUỐC GIA HÀ NỘI KHOA CÔNG NGHỆ ĐẶNG TIỂU HÙNG PHƯƠNG PHÁP BIỂU DIỄN NGỮ NGHĨA LÂN CẬN SIÊU LIÊN KẾT CHO MÁY TÌM KIẾM VIETSEEK Chuyên ngành: Công nghệ thông tin Mã số: 1.01.10 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. HÀ QUANG THỤY Hà Nội - 2004 1 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek MỤC LỤC PHẦN MỞ ĐẦU ........................................................................................................................... 4 CHƢƠNG 1. TỔNG QUAN VỀ TÌM KIẾM THÔNG TIN TRÊN WEB ................................... 6 1.1 Giới thiệu về tìm kiếm thông tin ..................................................... 6 1.2 Bài toán tìm kiếm thông tin ............................................................ 6 1.2.1 Giai đoạn 1: Thu thập và phân tích thông tin ........................... 10 1.2.2 Giai đoạn 2: Xử lý câu hỏi và trả lời ....................................... 11 1.3 Mô hình biểu diễn thông tin của văn bản ....................................... 13 1.3.1 Mô hình biểu diễn thông tin theo từ khoá................................ 13 1.3.2 Mô hình biểu diễn thông tin theo nội dung .............................. 15 1.4 Phân tích cú pháp và ngữ nghĩa .................................................... 16 1.5 Phân lớp văn bản ......................................................................... 16 1.6 Phân cụm văn bản ........................................................................ 16 1.7 Khai thác thông tin cấu trúc web................................................... 17 1.8 Khai thác thông tin sử dụng web................................................... 17 CHƢƠNG 2. PHƢƠNG PHÁP BIỂU DIỄN TRANG WEB THEO NGỮ NGHĨA LÂN CẬN SIÊU LIÊN KẾT ................................................................................................................ 19 2.1 Giới thiệu .................................................................................... 19 2.2 Phƣơng pháp đánh giá chất lƣợng độ đo tƣơng tự .......................... 20 2.2.1 Chọn phƣơng pháp đánh giá................................................... 20 2.2.2 Xác định thứ tự nền trong ODP .............................................. 21 2.2.3 So sánh sự tƣơng quan giữa các tập thứ tự .............................. 24 2.2.4 Miền của tập thứ tự................................................................ 25 2.3 Định nghĩa mô hình vector biểu diễn thông tin văn bản ................. 28 2.3.1 Vector biểu diễn thông tin văn bản ......................................... 28 2.3.2 Lựa chọn từ khoá biểu diễn .................................................... 28 2.3.3 Lƣợc bớt từ khoá ................................................................... 30 Đặng Tiểu Hùng – Luận văn cao học 2 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek 2.3.4 Xác định trọng số của từ khoá ................................................ 30 2.4 Định nghĩa độ đo tƣơng tự............................................................ 32 2.5 Đánh giá chất lƣợng xếp hạng đối với mỗi phƣơng pháp xây dựng vector 33 2.5.1 Đánh giá chất lƣợng đối với cách chọn từ khoá ....................... 34 2.5.2 Đánh giá chất lƣợng đối với cách chuẩn hoá trọng số từ khoá.. 41 2.5.3 Đánh giá chất lƣợng đối với phƣơng pháp lƣợc bớt từ khoá..... 44 2.6 Thiết kế các thuật toán tìm kiếm theo mô hình vector .................... 45 CHƢƠNG 3. MÁY TÌM KIẾM VIETSEEK VÀ THỬ NGHIỆM THUẬT TOÁN TÌM KIẾM THEO NGỮ NGHĨA LÂN CẬN SIÊU LIÊN KẾT ........................................................ 48 3.1 Máy tìm kiếm VietSeek................................................................ 48 3.1.1 Các đặc điểm cơ bản của VietSeek ......................................... 48 3.1.2 Cơ sở dữ liệu của VietSeek .................................................... 49 3.2 Đề xuất thuật toán tìm kiếm mới cho máy tìm kiếm VietSeek ........ 52 3.2.1 Những cơ sở để đề xuất thuật toán.......................................... 52 3.2.2 Xây dựng các thuật toán áp dụng cho máy tìm kiếm VietSeek . 56 3.2.3 Kết quả thực hiện .................................................................. 66 PHẦN KẾT LUẬN ..................................................................................................................... 71 TÀI LIỆU THAM KHẢO ........................................................................................................... 73 PHỤ LỤC .................................................................................................................................... 75 Đặng Tiểu Hùng – Luận văn cao học 3 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek LỜI CẢM ƠN Tôi xin bày tỏ lòng kính trọng và biết ơn tới các thầy giáo, cô giáo khoa Công nghệ trường Đại học Quốc gia Hà Nội đã dìu dắt tôi trong suốt quá trình học tập và nghiên cứu, cũng như đóng góp những ý kiến quý báu cho luận văn. Đặc biệt tôi xin bày tỏ lòng kính trọng và biết ơn sâu sắc Thầy giáo Tiến sĩ Hà Quang Thuỵ cùng gia đình đã tận tình, dành nhiều thời gian hướng dẫn, động viên, khích lệ cho tôi hoàn thành luận văn này. Tôi xin bày tỏ lòng biết ơn sâu sắc tới gia đình, bạn bè và đồng nghiệp đã tạo điều kiện thuận lợi giúp đỡ cũng như có nhiều ý kiến đóng góp bổ ích cho luận văn. Tôi xin kính chúc các thầy giáo, cô giáo cùng gia đình mạnh khoẻ, hạnh phúc; Tiếp tục sự nghiệp đào tạo cho các thế hệ học sinh, sinh viên đạt được nhiều thành công hơn nữa trên con đường học tập và nghiên cứu khoa học. Tôi xin chúc các bạn bè, đồng nghiệp mạnh khoẻ, thành công; áp dụng hiệu quả và sáng tạo các kiến thức được học vào thực tiễn. Xin trân trọng cảm ơn. Hà Nội ngày 25/03/2004 Học viên Đặng Tiểu Hùng Đặng Tiểu Hùng – Luận văn cao học 4 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek PHẦN MỞ ĐẦU Cùng với sự phát triển mạnh mẽ của Iinternet là một sốkhối lƣợng khổng lồ dữ liệu đƣợc phát sinh, tuy nhiên (theo thông tin từcủa tập đoàn Oracle) thì khoảng 90% dữ liệu ở dạng phi cấu trúc hoặc nửa cấu trúc. Trong khi nNhu cầu khai thác, tìm kiếm thông tin một cách chính xác trên internet đã ngày càng trở nên bức thiết hơn, do đó xuất hiện các hệ tìm kiếm theo từ khoá (cụm từ khoá) nhƣ Yahoo, Google ... Tuy nhiên việc tìm kiếm theo từ khoá vẫn chƣa đủ để giúp ngƣời sử dụng nhanh chóng tìm đƣợc trang Web cần thiết vì số lƣợng kết quả trả lại rất lớn và nhiều khi chỉ là các trang Web ít có liên quan. Vì vậy các hệ thống tìm kiếm ngàycần đƣợc cải tiến để ngày càng thông minh hơn. Xuất hiện những hệ hƣớng tới mục tiêu cụ thể nhƣ tra cứu thông tin về các chủ đề y tế, giáo dục, luật phá p, âm nhạc ... Tuy vậy, việc nghiên cứu các giải pháp để tìm đƣợc mộtcác trang thông tin theo một nội dung nào đó sát với yêu cầu ngƣời sử dụng thì vẫn còn nhiều hạn chế. Đã có nhiều mô hình tìm kiếm đƣợc đề xuất, song những mô hình lý tƣởng về mặt lý thuyết thì lại chƣa có tính khả thi khi cài đặt. Do đó, trong các hệ tìm kiếm, ngƣời ta tìm cách cải tiến các phƣơng pháp đơn giảncó sẵn để có áp dụng trong thực tế. Luận văn này hƣớng tới việc nghiên cứu, phân tích, đánh giá kết quả của một số thuật toán tìm kiếm theo nội dung, từ đó đề xuất một phƣơng án cải tiến để nâng cao hiệu quả về tính chính xác của nội dung cũng nhƣ về tốc độ. Từ việc tìm hiểu, đánh giá và phân tích ƣu, nhƣợc điểm của các phƣơng pháp tiếp cận khác nhau, dựa theo mục tiêutrên ý tƣởng nâng cao hiệu quả tìm kiếm, luận văn đề xuất giải pháp thực hiện “Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek”. Nội dung của luận văn đƣợc định hƣớng vào các vấn đề sau: 1. Mô hình toán học củabiểu diễn trang văn bản Web. Đặng Tiểu Hùng – Luận văn cao học 5 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek 2. Khái quát các phƣơng pháp tiếp cận trong tìm kiếm trang Web có nội dung tƣơng tự. Đánh giá ƣu điểm và nhƣợc điểm của mỗi phƣơng pháp đƣợc khảo sát. 3. Đề xuất phƣơng pháp kết hợp để đạtnâng cao hiệu quả cao hơn trong tìm kiếm trang Web có nội dung tƣơng tự. Luận văn bao gồm Phần mở đầu, ba chƣơng nội dung và Phần kết luận vớimà nội dung các chƣơng đƣợc trình bày nhƣ dƣới đây. Chƣơng 1 với tiêu đề là Tổng quan về các phương pháp biểu diễn và tìm kiếm thông tin trên web giới thiệu khái quát về các phƣơng pháp biểu diễn và tìm kiếm trên web. Tiêu đề của chƣơng 2 là Phương pháp biểu diễn trang web theo ngữ nghĩa lân cận siêu liên kết. Chƣơng này sẽ trình bày cơ sở, nội dung của phƣơng pháp đƣợc đề xuất cũng nhƣ trìnhvà đánh giá phƣơng pháp đƣợc đề xuất với các phƣơng pháp khác. Luận văn cũng trình bày chi tiếtcác đánh các lựa chọn đƣợc đề xuất trong mỗi bƣớc của phƣơng pháp, từ đó chọn ra giải pháp tốt nhất. Chƣơng 3 Máy tìm kiếm VietSeek và thử nghiệm Thuật toán tìm kiếm theo ngữ nghĩa lân cận siêu liên kết giới thiệu kiến trúc logic của máy tìm kiếm VietSeek, thiết kế logic về dữ liệu theo biểu diễn vector và thuật toán tìm kiếm theo nội dung trên cơ sở biểu diễn trang web do luận văn đề xuất. Trong cChƣơng này cũng đề xuất những cải tiến khi áp dụng vào thực tế để nâng cao hiệu suất thực hiện của phƣơng pháp biểu diễn. Phần kết luận tổng hợp những kết quả nghiên cứu chính của luận văn, và chỉ ra một số hạn chế của luận văn. Đồng thời luận văn cũng đề xuất một số hƣớng nghiên cứu cụ thể tiếp theo của luận văn. Phần phụ lục bổ sung một số thông tin về chi tiết về việc áp dụng thuật toán cho máy tìm kiếm VietSeek nhƣ sơ đồ khối một số module cần bổ sung chức năng, những lệnh bổ sung vào cơ sở dữ liệu của VietSeek. Đặng Tiểu Hùng – Luận văn cao học 6 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek CHƢƠNG 1. TỔNG QUAN VỀ TÌM KIẾM THÔNG TIN TRÊN WEB Giới thiệu về tìm kiếm thông tin Khai phá dữ liệuthông tin trên web (web mining) là quá trình khảo sát và phân tích dữ liệu web một cách tự động hoặc bán tự động để phát hiện ra thông tin. Từ thông tin đƣợc khai phá, và tìm kiếm thông tin (Infomartion Retrieval) trên web là phƣơng pháp để truy cập một cách hiệu quả nhất đến thông tin mà ngƣời dùng quan tâm, đó có thể làkỳ vọng cung cấp một tập hợp nhỏ các văn bản gần nhất đến lĩnh vực hoặc chủ đề mà ngƣời dùng mong muốn tiếp cận. Nguån tµi liÖu Cho: - Mét nguån c¸c tµi liÖu - Mét c©u hái cña ng-êi dïng (dùa theo v¨n b¶n) T×m: TËp c¸c tµi liÖu (®-îc xÕp h¹ng tõ nguån cã liªn quan ®Õn c©u hái) C©u hái, vÝ dô: §THïng HÖ t×m kiÕm th«ng minh Tµi liÖu Tµi liÖu ®-îc xÕp h¹ng Tµi liÖu Tµi liÖu Hình 1.: Tìm kiếm thông tin Bài toán tìm kiếm thông tin Có 2 bài toán cơ bản trong tìm kiếm thông tin là tìm kiếm theo từ khoá và tìm kiếm theo nội dung. Bài toán tìm kiếm theo từ khoá là bài toán tìm kiếm thông tin theo các từ khóa do ngƣời dùng cung cấp [1]. Hệ tìm kiếm sẽ trả về cho ngƣời dùng các trang web có chứa những từ khoá trong câu hỏi. Tuy vậy, với số lƣợng khổng lồ các trang web trên internet nhƣ hiện nay thì số lƣợng kết quả tìm đƣợc theo từ khoá Đặng Tiểu Hùng – Luận văn cao học 7 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek là quá lớn. Ví dụ nếu tìm các trang web có từ khoá find similar web page thì cho kết quả 858 trang web. Hình 2.: Tìm kiếm thông tin theo từ khoá Đặng Tiểu Hùng – Luận văn cao học 8 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek Bằng cách tìm kiếm theo cụm từ khoá thì số lƣợng kết quả trả về chính xác hơn, số kết quả trả về là 25 trang web. Hình 3.: Tìm kiếm thông tin theo cụm từ khoá Đặng Tiểu Hùng – Luận văn cao học 9 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek Nếu tìm trang web tƣơng tự với một trang web mẫu thì số lƣợng kết quả chỉ là 8 trang web và những trang web này cũng gần với nội dung trang web đƣợc tìm kiếm hơn tất cả các trang web khác đã đƣợc phân tích. Hình 4.: Tìm kiếm thông tin theo nội dung một trang web mẫu Một cách tiếp cận khác là tìm kiếm theo các site đƣợc đề cập trong luận văn của Phạm Thanh Nam [1] vì số lƣợng các site ít biến động và ít hơn rất nhiều so với các trang web. Tuy vậy, do lƣợng thông tin ứng với mỗi lĩnh vực (các site) đều rất lớn nên vẫn quá khó khăn để tiếp cận các trang văn bản đáp ứng mong muốn với yêu cầu ngƣời dùng. Chính vì lý do đóo mà các đề tài nghiên cứu những năm gần đây đi sâu về lĩnh vực tìm kiếm theo nội dung tƣơng tự với trang văn bản mẫu nhƣ luận văn thạc sĩ của Phạm Thanh Nam năm 20032 [1], luận ánvăn tiến sĩ của Seán Slattery năm 2002 [13] hoặc trong một số báo cáo về WWW đƣợc tổ chức năm 2002[16], năm 2003. Để đáp ứng các yêu cầu tìm kiếm thông tin của ngƣời dùng Đặng Tiểu Hùng – Luận văn cao học 10 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek một cách nhanh nhất, tất cả các giải pháp tìm kiếm thông tin đều chia thành 2 giai đoạn thực hiện tƣơng đối độc lập với nhau  Giai đoạn 1: Tthu thập và phân tích thông tin về các trang web.  Giai đoạn 2: Xử lý câu hỏi và trả lời Hình 5: Kiến trúc các hệ tìm kiếm thông tin Do giai đoạn 1 không tƣơng tác trực tiếp với ngƣời dùng nên các thông tin đƣợc phân tích một cách đầy đủ nhất để giảm thiểu các phân tích ở giai đoạn sau. Số lƣợng các trang web đƣợc phân tích rất lớn (hàng triệu trang) nên thời gian thực hiện giai đoạn 1 rất lớn (tính bằng giờ) còn t hời gian thực hiện giai đoạn 2 là rất nhỏ (tính bằng phần trăm giây). Giai đoạn 1: Tthu thập và phân tích thông tin Các bƣớc xử lý chính:  Tìm duyệt các trang web. Từ các danh sách địa chỉ là tham số ban đầu, bộ phận tìm duyệt sẽ tải trang web và chuyển cho bộ phận phân tích nội dung trang web. Các trang web ban đầu có độ sâu là 0, các liên kết có trong trang web sẽ đƣợc bộ phận phân tích ghi nhận lại với độ sâu là 1. Sau khi đã phân tích xong các trang web có độ sâu là 0 thì bộ tìm duyệt Đặng Tiểu Hùng – Luận văn cao học 11 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek tiếp tục tải nội dung các trang web có độ sâu là 1 để phân tích và tìm ra các trang web có độ sâu tiếp theo là 2. Quá trình tải trang web sẽ dừng lại khi đạt đến một độ sâu nhất định nào đó do ngƣời dùng đặt tham số nhƣ trong VietSeek là 256.  Phân tích và lưu trữ thông tin biểu diễn trang web. Đây là bƣớc cơ bản quyết định đến chất lƣợng của các hệ tìm kiếm. Các trang web đƣợc phân tích về mặt nội dung để xây dựng thành vector biểu diễn trang web. Các liên kết có trong trang web cũng đƣợc ghi nhận lại. Các trang web cũng đƣợc đánh giá mối tƣơng quan với các trang khác theo mục tiêu của bài toán, ví dụ nhƣ sự tƣơng tự về nội dung so với các trang web khác hoặc phân vào lớp các chủ đề. Toàn bộ thời gian và tài nguyên của các hệ tìm kiếm đƣợc sử dụng trong bƣớc này. Do đó bƣớc này cũng đƣợc chia thành bài toán nhỏ hơn cần phải giải quyết là xây dựng cấu trúc biểu diễn thông tin từ các văn bản được phân tích, phân tích cú pháp/ngữ nghĩa, sinh vector biểu diễn, phân lớp văn bản, phân cụm văn bản, phân tích kết quả. Những nội dung này sẽ đƣợc trình bày trong mục 1.3, 1.4, 1.5, 1.6, 1.7 và 1.8 của chƣơng này.  Lưu trữ bản sao trang web. Để nhanh chóng truy xuất đến nội dung trang web tìm thấy, thông thƣờng các hệ tìm kiếm thƣờng lƣu trữ sẵn bản sao các trang web dƣới dạng nén cung cấp cho ngƣời dùng. Phƣơng pháp nén thƣờng đƣợc dùng zip. Việc chọn một kỹ thuật nén thƣờng đƣợc cân nhắc giữa tốc độ và tỷ lệ nén. Tỷ lệ nén của zip là 3/1 tuy có nhỏ hơn so với một số phƣơng pháp nén khác nhƣng tốc độ nén và giải nén của zip lại nhanh nên đƣợc áp dụng rộng rãi trong các ứng dụng trên internet. Giai đoạn 2: Xử lý câu hỏi và trả lời Các bƣớc xử lý chính: Đặng Tiểu Hùng – Luận văn cao học 12 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek  Phân tích câu hỏi của người dùng. Các hệ tìm kiếm thôƣờng thƣờng cho phép ngƣời dùng tìm kiếm các trang web dƣới dạng biểu thức logic, ngoài ra để thuận tiện và nâng cao tính chính xác của câu hỏi, các hệ tìm kiếm cũng cho phép ngƣời dùng đƣa vào các điều kiện nâng cao nhƣ tìm từ trong chủ đề, tìm các trang theo nội dung của một trang web, tìm theo thời gian xuất hiện, tìm theo ngôn ngữ ..v.v. Câu hỏi của ngƣời dùng sẽ đƣợc phân tích thành các điều kiện để hệ tìm kiếm có những ứng xử phù hợp.  Định vị các trang web kết quả và xếp hạng. Dựa trên các điều kiện của ngƣời dùng và các trang web đã đƣợc phân tích trong giai đoạn “thu thập và phân tích thông tin” hệ tìm kiếm nhanh chóng định vị ra đƣợc các trang web kết quả, hơn nữa các trang web cũng đƣợc lấy ra theo mức độ tƣơng quan với câu hỏi của ngƣời dùng theo một số tiêu chí sắp xếp, ví dụ nhƣ thứ tự có xuất hiện các từ khoá trong câu hỏi, mức độ gần với nội dung trang web mẫu. Mức độ chính xác của trang web đối với câu hỏi của ngƣời dùng (hạng của trang web) cũng đƣợc tính toán và cung cấp cho ngƣời dùng. Một số hệ tìm kiếm còn bổ sung thêm tính năng xử lý các phản hồi của ngƣời dùng với kết quả để nâng cao độ chính xác cho các lần trả lời sau nhƣ ghi nhận số lần truy cập của trang web để tăng độ ƣu tiên về hạng của trang web, thay đổi độ tƣơng tự của các trang web đã phân tích, chuyển trang web vào nhóm văn bản có chủ đề chính xác hơn.  Hiển thị nội dung trang web sẵn có. Ngƣời dùng có thể lấy trang web từ địa chỉ đƣợc cung cấp bởi hệ tìm kiếm hoặc có thể xem nội dung trang web sẵn có trong kho lƣu trữ của hệ tìm kiếm. Thao tác này yêu cầu hệ tìm kiếm giải nén trang web và hiển thị., tThông thƣờng thì hệ tìm kiếm sẽ tô sáng các thành phần có trong câu hỏi của ngƣời dùng bằng các màu sắc để ngƣời dùng nhanh chóng nhận ra vị trí của chúng trong trang web kết quả. Đặng Tiểu Hùng – Luận văn cao học 13 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek Mô hình biểu diễn thông tin của văn bản Cơ sở dữ liệu Fulltext là cơ sở dữ liệu phi cấu trúc biểu diễn thông tin của văn bản mà dữ liệu chứa trong đó bao gồm các nội dung văn bản và các thuộc tính của các nội dung đó. Dữ liệu trong cơ sở dữ liệu Fulltext thƣờng đƣợc tổ chức nhƣ một sự kết hợp giữa hai phần: phần cơ sở dữ liệu thông thƣờng quản lý thuộc tính của các văn bản, và phần tập hợp nội dung các văn bản đƣợc quản lý. C¬ së d÷ liÖu Fulltext C¬ së d÷ liÖu vÒ thuéc tÝnh tµi liÖu C¬ së d÷ liÖu vÒ néi dung tµi liÖu Hình 6.: Mô hình tổ chức của cơ sở dữ liệu Fulltext Hiện nay có ba mô hình cơ sở dữ liệu Fulltext điển hình là 1. Mô hình logic 2. Mô hình cú pháp 3. Mô hình vector Mô hình vector là mô hình đƣợc sử dụng phổ biến nhất trong các hệ tìm kiếm hiện nay. Mô hình biểu diễn thông tin theo từ khoá Mỗi văn bản đƣợc biểu diễn nhƣ một vector có các thành phần là thể hiện từ khoá tƣơng ứng có mặt hoặc không có mặt trong văn bản đó. Mỗi từ khoá lại có một trọng số biểu diễn về mức độ quan trọng của nó trong văn bản. Quá trình gán các giá trị đó đƣợc gọi là quá trình đánh chỉ số (indexing). Hiện nay có nhiều phƣơng Đặng Tiểu Hùng – Luận văn cao học 14 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek pháp đánh chỉ số nhƣ TF, IDF, TF*IDF, LSI [3]... trong đó chủ yếu dựa vào tần số xuất hiện của các từ hoặc mối quan hệ giữa sự xuất hiện của các từ trong văn bản. Nhƣ vậy thì số chiều của không gian vector là lực lƣợng của tập các từ khoá. Ví dụ văn bản thứ nhất có nội dung “VietKey 32-Bit là chương trình hỗ trợ gõ tiếng Việt trong các môi trường Windows 32-Bit của Microsoft”. Và văn bản thứ 2 “VietKey có thể nhúng được tiếng Việt trong hầu hết các ứng dụng 16-bit và 32-bit trong môi trường Windows 32-bit” Vector biểu diễn văn bản sẽ gồm các thành (từ khoá, tần suất của từ trong văn bản): Từ khoá Vector biểu diễn văn bản 1 Vector biểu diễn văn bản 2 16 0 1 32 2 2 bit 1 3 các 1 1 có 0 1 của 1 0 chương 1 0 dụng 0 1 được 0 1 gõ 1 0 hầu 0 1 hết 0 1 hỗ 1 0 là 1 0 môi 1 1 Đặng Tiểu Hùng – Luận văn cao học 15 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek microsoft 1 0 nhúng 0 1 thể 0 1 tiếng 1 1 trình 1 0 trường 1 1 trợ 1 0 trong 1 2 ứng 0 1 và 0 1 vietkey 1 1 việt 1 1 windows 1 1 Bảng 1.: Vector biểu diễn văn bản Mô hình biểu diễn thông tin theo nội dung Đối với bài toán tìm kiếm theo nội dung, phần lớn các giải pháp tìm kiếm thông tin đều lựa chọn mô hình vector. Có 3ba phƣơng pháp tiếp cận trong việc xác định từ khoá trong vector biểu diễn văn bản. 1. Phƣơng pháp biểu diễn theo nội dung văn bản: Từ khoá trong vector biểu diễn văn bản u là những từ có mặt trong văn bản u. 2. CáchPhƣơng pháp tiếp cận theo liên kết: Từ khoá trong vector biểu diễn văn bản u là những từ khoá có trong định danh của những văn bản v có liên kết đến văn bản u. Đặng Tiểu Hùng – Luận văn cao học 16 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek 3. CáchPhƣơng pháp tiếp cận theo ngữ nghĩa lân cận liên kết: Từ khoá trong vector biểu diễn văn bản u là những từ xuất hiện trong cửa sổ ngữ nghĩa lân cận liên kết từ những văn bản v đến văn bản u. Luận văn đề cập tới giải pháp kết hợp các phƣơng pháp tiếp cận trên đây. Phân tích cú pháp và ngữ nghĩa Trong trang web không chỉ có thông tin thể hiện nội dung mà còn các thông tin phụ trợ nhƣ các comment, các đoạn mã, các thẻ HTML. Do đó cần phải tách lọc thông tin mà trang web biểu diễn, tách thông tin về các liên kết. Cần phải xác định từ gốc của từ biểu diễn văn bản, xác định vị trí của từ trong văn bản, xác định các biên của đoạn văn theo cú pháp câu (dấu ngắt câu) hoặc biên theo chủ đề đoạn văn (ngắt đoạn, ngắt bảng, ngắt trang). Phân lớp văn bản Phân lớp văn bản đƣợc xem nhƣ là quá trình gán các văn bản vào một hay nhiều lớp văn bản đã đƣợc xác định trƣớc. Sau khi đƣợc phân lớp, các văn bản sẽ đƣợc đánh chỉ số đối với từng lớp tƣơng ứng. Ngƣời dùng có thể yêu cầu hệ tìm kiếm giới hạn số kết quả trong một chủ đề hoặc lớp văn bản mong muốn. Phân lớp văn bản có thể thực hiện tự động bằng các phƣơng pháp cây quyết định [3], mạng Bayer, máy vector trợ giúp. Ngoài ra, các trang web có thể thể đƣợc phân lớp bằng thủ công nhờ sự tình nguyện của ngƣời dùng trên internet nhƣ thƣ mục chủ đề các trang web ODP (Open Directory Project) [19]. Phân cụm văn bản Phân cụm văn bản là việc tự động sinh ra các lớp văn bản dựa vào sự tƣơng tự của các văn bản. Các lớp văn bản ở đây là chƣa biết trƣớc, ngƣời dùng có thể chỉ yêu cầu số lƣợng các lớp cần phân loại, hệ sẽ đƣa ra các văn bản theo từng tập hợp, từng cụm, mỗi tập hợp chứa các văn bản tƣơng tự nhau. Đặng Tiểu Hùng – Luận văn cao học 17 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek Khai thác thông tin cấu trúc web Trong tìm kiếm thông tin trên web, các trang web đã chứa đựng thông tin nửa cấu trúc, đó chính là các liên kết giữa các trang web. Thông thƣờng, các web đem lại nhiều thông tin sẽ đƣợc trích dẫn nhiều do đó có thể khai thác thông tin liên kết giữa các trang web để đánh giá trọng số của trang web nhƣ Slattery đã đề xuất [13]. Khai thác thông tin sử dụng web Thông tin sử dụng web đƣợc chứa tronglà một tập hợp các file liên quan ngầm đến những máy chủ web. Mục đích của việc khai thác thông tin sử dụng web để phát hiện ra những mẫu dữ liệu có ý nghĩa đƣợc sinh ra trong những giao dịch khách/chủ. Thông thƣờng các dữ liệu đó ở phía máy chủ là access logs, referrer logs, agent logs và phía máy trạm là cookies. Một dạng thông tin nữa về ngƣời dùng web là các profile của họ. Trong tìm kiếm thông tin, các trang web đem lại nhiều thông tin thƣờng đƣợc truy cập nhiều hơn các trang web khác trong cùng chủ đề. Do đó tần suất truy cập (thông tin sử dụng web) của các trang web cũng là một thành phần cần xem xét khi đánh giá trọng số của trang web. Tuy nhiên, với mỗi ngƣời dùng thì có thể có tập hợp các trang web đƣợc yêu thích của riêng mình. Ngƣời sử dụng có thể yêu cầu mà hệ tìm kiếm cho phép giới hạn các trang kết quả trong một tên miền nào đó nhƣ .com.vn và những tham số nhƣ vậy có thể đƣợc định nghĩa trong các profile. KẾT LUẬN CHƢƠNG 1 Trong chƣơng này, luận văn đã giới thiệu tổng quát bài toán tìm kiếm thông tin trên web và các phƣơng pháp tìm kiếm thông tin trên web: 1. Các phƣơng pháp tìm kiếm theo từ khoá gồm mô hình cú pháp, mô hình logic và mô hình vector. Các phƣơng pháp này đã đƣợc nghiên cứu khá kỹ lƣỡng và tiêu biểu nhất là mô hình vector đƣợc áp dụng nhiều trong các máy tìm kiếm hiện nay. Đặng Tiểu Hùng – Luận văn cao học 18 Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek 2. Các phƣơng pháp tìm kiếm theo nội dung đang đƣợc nghiên cứu hiện nay là tìm kiếm theo nội dung toàn văn, theo liên kết và theo ngữ nghĩa lân cận liên kết. Luận văn đã phân tích nguyên tắc hoạt động cũng nhƣ ƣu điểm và nhƣợc điểm của mỗi phƣơng pháp. Từ những phân tích trên, luận văn sẽ trình bày phƣơng pháp biểu diễn văn bản mới trong chƣơng 2 và đề xuất thuật toán tìm kiếm theo nội dung trong chƣơng 3. Đặng Tiểu Hùng – Luận văn cao học
- Xem thêm -