ĐẠI HỌC QUỐC GIA HÀ NỘI
KHOA CÔNG NGHỆ
ĐẶNG TIỂU HÙNG
PHƯƠNG PHÁP BIỂU DIỄN
NGỮ NGHĨA LÂN CẬN SIÊU LIÊN KẾT
CHO MÁY TÌM KIẾM VIETSEEK
LUẬN VĂN THẠC SĨ
Hà Nội - 2004
ĐẠI HỌC QUỐC GIA HÀ NỘI
KHOA CÔNG NGHỆ
ĐẶNG TIỂU HÙNG
PHƯƠNG PHÁP BIỂU DIỄN
NGỮ NGHĨA LÂN CẬN SIÊU LIÊN KẾT
CHO MÁY TÌM KIẾM VIETSEEK
Chuyên ngành: Công nghệ thông tin
Mã số: 1.01.10
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. HÀ QUANG THỤY
Hà Nội - 2004
1
Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek
MỤC LỤC
PHẦN MỞ ĐẦU ........................................................................................................................... 4
CHƢƠNG 1. TỔNG QUAN VỀ TÌM KIẾM THÔNG TIN TRÊN WEB ................................... 6
1.1
Giới thiệu về tìm kiếm thông tin ..................................................... 6
1.2
Bài toán tìm kiếm thông tin ............................................................ 6
1.2.1
Giai đoạn 1: Thu thập và phân tích thông tin ........................... 10
1.2.2
Giai đoạn 2: Xử lý câu hỏi và trả lời ....................................... 11
1.3
Mô hình biểu diễn thông tin của văn bản ....................................... 13
1.3.1
Mô hình biểu diễn thông tin theo từ khoá................................ 13
1.3.2
Mô hình biểu diễn thông tin theo nội dung .............................. 15
1.4
Phân tích cú pháp và ngữ nghĩa .................................................... 16
1.5
Phân lớp văn bản ......................................................................... 16
1.6
Phân cụm văn bản ........................................................................ 16
1.7
Khai thác thông tin cấu trúc web................................................... 17
1.8
Khai thác thông tin sử dụng web................................................... 17
CHƢƠNG 2. PHƢƠNG PHÁP BIỂU DIỄN TRANG WEB THEO NGỮ NGHĨA LÂN
CẬN SIÊU LIÊN KẾT ................................................................................................................ 19
2.1
Giới thiệu .................................................................................... 19
2.2
Phƣơng pháp đánh giá chất lƣợng độ đo tƣơng tự .......................... 20
2.2.1
Chọn phƣơng pháp đánh giá................................................... 20
2.2.2
Xác định thứ tự nền trong ODP .............................................. 21
2.2.3
So sánh sự tƣơng quan giữa các tập thứ tự .............................. 24
2.2.4
Miền của tập thứ tự................................................................ 25
2.3
Định nghĩa mô hình vector biểu diễn thông tin văn bản ................. 28
2.3.1
Vector biểu diễn thông tin văn bản ......................................... 28
2.3.2
Lựa chọn từ khoá biểu diễn .................................................... 28
2.3.3
Lƣợc bớt từ khoá ................................................................... 30
Đặng Tiểu Hùng – Luận văn cao học
2
Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek
2.3.4
Xác định trọng số của từ khoá ................................................ 30
2.4
Định nghĩa độ đo tƣơng tự............................................................ 32
2.5
Đánh giá chất lƣợng xếp hạng đối với mỗi phƣơng pháp xây dựng
vector 33
2.5.1
Đánh giá chất lƣợng đối với cách chọn từ khoá ....................... 34
2.5.2
Đánh giá chất lƣợng đối với cách chuẩn hoá trọng số từ khoá.. 41
2.5.3
Đánh giá chất lƣợng đối với phƣơng pháp lƣợc bớt từ khoá..... 44
2.6
Thiết kế các thuật toán tìm kiếm theo mô hình vector .................... 45
CHƢƠNG 3. MÁY TÌM KIẾM VIETSEEK VÀ THỬ NGHIỆM THUẬT TOÁN TÌM
KIẾM THEO NGỮ NGHĨA LÂN CẬN SIÊU LIÊN KẾT ........................................................ 48
3.1
Máy tìm kiếm VietSeek................................................................ 48
3.1.1
Các đặc điểm cơ bản của VietSeek ......................................... 48
3.1.2
Cơ sở dữ liệu của VietSeek .................................................... 49
3.2
Đề xuất thuật toán tìm kiếm mới cho máy tìm kiếm VietSeek ........ 52
3.2.1
Những cơ sở để đề xuất thuật toán.......................................... 52
3.2.2
Xây dựng các thuật toán áp dụng cho máy tìm kiếm VietSeek . 56
3.2.3
Kết quả thực hiện .................................................................. 66
PHẦN KẾT LUẬN ..................................................................................................................... 71
TÀI LIỆU THAM KHẢO ........................................................................................................... 73
PHỤ LỤC .................................................................................................................................... 75
Đặng Tiểu Hùng – Luận văn cao học
3
Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek
LỜI CẢM ƠN
Tôi xin bày tỏ lòng kính trọng và biết ơn tới các thầy giáo, cô giáo khoa Công
nghệ trường Đại học Quốc gia Hà Nội đã dìu dắt tôi trong suốt quá trình học tập
và nghiên cứu, cũng như đóng góp những ý kiến quý báu cho luận văn.
Đặc biệt tôi xin bày tỏ lòng kính trọng và biết ơn sâu sắc Thầy giáo Tiến sĩ Hà
Quang Thuỵ cùng gia đình đã tận tình, dành nhiều thời gian hướng dẫn, động viên,
khích lệ cho tôi hoàn thành luận văn này.
Tôi xin bày tỏ lòng biết ơn sâu sắc tới gia đình, bạn bè và đồng nghiệp đã tạo
điều kiện thuận lợi giúp đỡ cũng như có nhiều ý kiến đóng góp bổ ích cho luận văn.
Tôi xin kính chúc các thầy giáo, cô giáo cùng gia đình mạnh khoẻ, hạnh phúc;
Tiếp tục sự nghiệp đào tạo cho các thế hệ học sinh, sinh viên đạt được nhiều thành
công hơn nữa trên con đường học tập và nghiên cứu khoa học.
Tôi xin chúc các bạn bè, đồng nghiệp mạnh khoẻ, thành công; áp dụng hiệu
quả và sáng tạo các kiến thức được học vào thực tiễn.
Xin trân trọng cảm ơn.
Hà Nội ngày 25/03/2004
Học viên
Đặng Tiểu Hùng
Đặng Tiểu Hùng – Luận văn cao học
4
Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek
PHẦN MỞ ĐẦU
Cùng với sự phát triển mạnh mẽ của Iinternet là một sốkhối lƣợng khổng lồ dữ
liệu đƣợc phát sinh, tuy nhiên (theo thông tin từcủa tập đoàn Oracle) thì khoảng
90% dữ liệu ở dạng phi cấu trúc hoặc nửa cấu trúc. Trong khi nNhu cầu khai thác,
tìm kiếm thông tin một cách chính xác trên internet đã ngày càng trở nên bức thiết
hơn, do đó xuất hiện các hệ tìm kiếm theo từ khoá (cụm từ khoá) nhƣ Yahoo,
Google ... Tuy nhiên việc tìm kiếm theo từ khoá vẫn chƣa đủ để giúp ngƣời sử dụng
nhanh chóng tìm đƣợc trang Web cần thiết vì số lƣợng kết quả trả lại rất lớn và
nhiều khi chỉ là các trang Web ít có liên quan. Vì vậy các hệ thống tìm kiếm
ngàycần đƣợc cải tiến để ngày càng thông minh hơn. Xuất hiện những hệ hƣớng tới
mục tiêu cụ thể nhƣ tra cứu thông tin về các chủ đề y tế, giáo dục, luật phá p, âm
nhạc ... Tuy vậy, việc nghiên cứu các giải pháp để tìm đƣợc mộtcác trang thông tin
theo một nội dung nào đó sát với yêu cầu ngƣời sử dụng thì vẫn còn nhiều hạn chế.
Đã có nhiều mô hình tìm kiếm đƣợc đề xuất, song những mô hình lý tƣởng về mặt
lý thuyết thì lại chƣa có tính khả thi khi cài đặt. Do đó, trong các hệ tìm kiếm, ngƣời
ta tìm cách cải tiến các phƣơng pháp đơn giảncó sẵn để có áp dụng trong thực tế.
Luận văn này hƣớng tới việc nghiên cứu, phân tích, đánh giá kết quả của một số
thuật toán tìm kiếm theo nội dung, từ đó đề xuất một phƣơng án cải tiến để nâng cao
hiệu quả về tính chính xác của nội dung cũng nhƣ về tốc độ.
Từ việc tìm hiểu, đánh giá và phân tích ƣu, nhƣợc điểm của các phƣơng pháp
tiếp cận khác nhau, dựa theo mục tiêutrên ý tƣởng nâng cao hiệu quả tìm kiếm, luận
văn đề xuất giải pháp thực hiện “Phương pháp biểu diễn ngữ nghĩa lân cận siêu
liên kết cho máy tìm kiếm VietSeek”.
Nội dung của luận văn đƣợc định hƣớng vào các vấn đề sau:
1. Mô hình toán học củabiểu diễn trang văn bản Web.
Đặng Tiểu Hùng – Luận văn cao học
5
Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek
2. Khái quát các phƣơng pháp tiếp cận trong tìm kiếm trang Web có nội
dung tƣơng tự. Đánh giá ƣu điểm và nhƣợc điểm của mỗi phƣơng pháp
đƣợc khảo sát.
3. Đề xuất phƣơng pháp kết hợp để đạtnâng cao hiệu quả cao hơn trong
tìm kiếm trang Web có nội dung tƣơng tự.
Luận văn bao gồm Phần mở đầu, ba chƣơng nội dung và Phần kết luận vớimà
nội dung các chƣơng đƣợc trình bày nhƣ dƣới đây.
Chƣơng 1 với tiêu đề là Tổng quan về các phương pháp biểu diễn và tìm
kiếm thông tin trên web giới thiệu khái quát về các phƣơng pháp biểu diễn và tìm
kiếm trên web.
Tiêu đề của chƣơng 2 là Phương pháp biểu diễn trang web theo ngữ nghĩa
lân cận siêu liên kết. Chƣơng này sẽ trình bày cơ sở, nội dung của phƣơng pháp
đƣợc đề xuất cũng nhƣ trìnhvà đánh giá phƣơng pháp đƣợc đề xuất với các phƣơng
pháp khác. Luận văn cũng trình bày chi tiếtcác đánh các lựa chọn đƣợc đề xuất
trong mỗi bƣớc của phƣơng pháp, từ đó chọn ra giải pháp tốt nhất.
Chƣơng 3 Máy tìm kiếm VietSeek và thử nghiệm Thuật toán tìm kiếm theo
ngữ nghĩa lân cận siêu liên kết giới thiệu kiến trúc logic của máy tìm kiếm
VietSeek, thiết kế logic về dữ liệu theo biểu diễn vector và thuật toán tìm kiếm theo
nội dung trên cơ sở biểu diễn trang web do luận văn đề xuất. Trong cChƣơng này
cũng đề xuất những cải tiến khi áp dụng vào thực tế để nâng cao hiệu suất thực hiện
của phƣơng pháp biểu diễn.
Phần kết luận tổng hợp những kết quả nghiên cứu chính của luận văn, và chỉ
ra một số hạn chế của luận văn. Đồng thời luận văn cũng đề xuất một số hƣớng
nghiên cứu cụ thể tiếp theo của luận văn.
Phần phụ lục bổ sung một số thông tin về chi tiết về việc áp dụng thuật toán
cho máy tìm kiếm VietSeek nhƣ sơ đồ khối một số module cần bổ sung chức năng,
những lệnh bổ sung vào cơ sở dữ liệu của VietSeek.
Đặng Tiểu Hùng – Luận văn cao học
6
Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek
CHƢƠNG 1. TỔNG QUAN VỀ TÌM KIẾM THÔNG TIN TRÊN WEB
Giới thiệu về tìm kiếm thông tin
Khai phá dữ liệuthông tin trên web (web mining) là quá trình khảo sát và phân
tích dữ liệu web một cách tự động hoặc bán tự động để phát hiện ra thông tin. Từ
thông tin đƣợc khai phá, và tìm kiếm thông tin (Infomartion Retrieval) trên web là
phƣơng pháp để truy cập một cách hiệu quả nhất đến thông tin mà ngƣời dùng quan
tâm, đó có thể làkỳ vọng cung cấp một tập hợp nhỏ các văn bản gần nhất đến lĩnh
vực hoặc chủ đề mà ngƣời dùng mong muốn tiếp cận.
Nguån tµi
liÖu
Cho:
- Mét nguån c¸c tµi liÖu
- Mét c©u hái cña ng-êi
dïng (dùa theo v¨n b¶n)
T×m:
TËp c¸c tµi liÖu (®-îc xÕp
h¹ng tõ nguån cã liªn quan
®Õn c©u hái)
C©u hái,
vÝ dô:
§THïng
HÖ t×m
kiÕm
th«ng
minh
Tµi liÖu
Tµi liÖu ®-îc
xÕp h¹ng
Tµi liÖu
Tµi liÖu
Hình 1.: Tìm kiếm thông tin
Bài toán tìm kiếm thông tin
Có 2 bài toán cơ bản trong tìm kiếm thông tin là tìm kiếm theo từ khoá và tìm
kiếm theo nội dung. Bài toán tìm kiếm theo từ khoá là bài toán tìm kiếm thông tin
theo các từ khóa do ngƣời dùng cung cấp [1]. Hệ tìm kiếm sẽ trả về cho ngƣời dùng
các trang web có chứa những từ khoá trong câu hỏi. Tuy vậy, với số lƣợng khổng lồ
các trang web trên internet nhƣ hiện nay thì số lƣợng kết quả tìm đƣợc theo từ khoá
Đặng Tiểu Hùng – Luận văn cao học
7
Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek
là quá lớn. Ví dụ nếu tìm các trang web có từ khoá find similar web page thì cho kết
quả 858 trang web.
Hình 2.: Tìm kiếm thông tin theo từ khoá
Đặng Tiểu Hùng – Luận văn cao học
8
Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek
Bằng cách tìm kiếm theo cụm từ khoá thì số lƣợng kết quả trả về chính xác
hơn, số kết quả trả về là 25 trang web.
Hình 3.: Tìm kiếm thông tin theo cụm từ khoá
Đặng Tiểu Hùng – Luận văn cao học
9
Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek
Nếu tìm trang web tƣơng tự với một trang web mẫu thì số lƣợng kết quả chỉ là
8 trang web và những trang web này cũng gần với nội dung trang web đƣợc tìm
kiếm hơn tất cả các trang web khác đã đƣợc phân tích.
Hình 4.: Tìm kiếm thông tin theo nội dung một trang web mẫu
Một cách tiếp cận khác là tìm kiếm theo các site đƣợc đề cập trong luận văn
của Phạm Thanh Nam [1] vì số lƣợng các site ít biến động và ít hơn rất nhiều so với
các trang web. Tuy vậy, do lƣợng thông tin ứng với mỗi lĩnh vực (các site) đều rất
lớn nên vẫn quá khó khăn để tiếp cận các trang văn bản đáp ứng mong muốn với
yêu cầu ngƣời dùng. Chính vì lý do đóo mà các đề tài nghiên cứu những năm gần
đây đi sâu về lĩnh vực tìm kiếm theo nội dung tƣơng tự với trang văn bản mẫu nhƣ
luận văn thạc sĩ của Phạm Thanh Nam năm 20032 [1], luận ánvăn tiến sĩ của Seán
Slattery năm 2002 [13] hoặc trong một số báo cáo về WWW đƣợc tổ chức năm
2002[16], năm 2003. Để đáp ứng các yêu cầu tìm kiếm thông tin của ngƣời dùng
Đặng Tiểu Hùng – Luận văn cao học
10
Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek
một cách nhanh nhất, tất cả các giải pháp tìm kiếm thông tin đều chia thành 2 giai
đoạn thực hiện tƣơng đối độc lập với nhau
Giai đoạn 1: Tthu thập và phân tích thông tin về các trang web.
Giai đoạn 2: Xử lý câu hỏi và trả lời
Hình 5: Kiến trúc các hệ tìm kiếm thông tin
Do giai đoạn 1 không tƣơng tác trực tiếp với ngƣời dùng nên các thông tin
đƣợc phân tích một cách đầy đủ nhất để giảm thiểu các phân tích ở giai đoạn sau.
Số lƣợng các trang web đƣợc phân tích rất lớn (hàng triệu trang) nên thời gian thực
hiện giai đoạn 1 rất lớn (tính bằng giờ) còn t hời gian thực hiện giai đoạn 2 là rất nhỏ
(tính bằng phần trăm giây).
Giai đoạn 1: Tthu thập và phân tích thông tin
Các bƣớc xử lý chính:
Tìm duyệt các trang web. Từ các danh sách địa chỉ là tham số ban đầu,
bộ phận tìm duyệt sẽ tải trang web và chuyển cho bộ phận phân tích nội
dung trang web. Các trang web ban đầu có độ sâu là 0, các liên kết có
trong trang web sẽ đƣợc bộ phận phân tích ghi nhận lại với độ sâu là 1.
Sau khi đã phân tích xong các trang web có độ sâu là 0 thì bộ tìm duyệt
Đặng Tiểu Hùng – Luận văn cao học
11
Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek
tiếp tục tải nội dung các trang web có độ sâu là 1 để phân tích và tìm ra
các trang web có độ sâu tiếp theo là 2. Quá trình tải trang web sẽ dừng
lại khi đạt đến một độ sâu nhất định nào đó do ngƣời dùng đặt tham số
nhƣ trong VietSeek là 256.
Phân tích và lưu trữ thông tin biểu diễn trang web. Đây là bƣớc cơ
bản quyết định đến chất lƣợng của các hệ tìm kiếm. Các trang web
đƣợc phân tích về mặt nội dung để xây dựng thành vector biểu diễn
trang web. Các liên kết có trong trang web cũng đƣợc ghi nhận lại. Các
trang web cũng đƣợc đánh giá mối tƣơng quan với các trang khác theo
mục tiêu của bài toán, ví dụ nhƣ sự tƣơng tự về nội dung so với các
trang web khác hoặc phân vào lớp các chủ đề. Toàn bộ thời gian và tài
nguyên của các hệ tìm kiếm đƣợc sử dụng trong bƣớc này. Do đó bƣớc
này cũng đƣợc chia thành bài toán nhỏ hơn cần phải giải quyết là xây
dựng cấu trúc biểu diễn thông tin từ các văn bản được phân tích, phân
tích cú pháp/ngữ nghĩa, sinh vector biểu diễn, phân lớp văn bản, phân
cụm văn bản, phân tích kết quả. Những nội dung này sẽ đƣợc trình bày
trong mục 1.3, 1.4, 1.5, 1.6, 1.7 và 1.8 của chƣơng này.
Lưu trữ bản sao trang web. Để nhanh chóng truy xuất đến nội dung
trang web tìm thấy, thông thƣờng các hệ tìm kiếm thƣờng lƣu trữ sẵn
bản sao các trang web dƣới dạng nén cung cấp cho ngƣời dùng. Phƣơng
pháp nén thƣờng đƣợc dùng zip. Việc chọn một kỹ thuật nén thƣờng
đƣợc cân nhắc giữa tốc độ và tỷ lệ nén. Tỷ lệ nén của zip là 3/1 tuy có
nhỏ hơn so với một số phƣơng pháp nén khác nhƣng tốc độ nén và giải
nén của zip lại nhanh nên đƣợc áp dụng rộng rãi trong các ứng dụng
trên internet.
Giai đoạn 2: Xử lý câu hỏi và trả lời
Các bƣớc xử lý chính:
Đặng Tiểu Hùng – Luận văn cao học
12
Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek
Phân tích câu hỏi của người dùng. Các hệ tìm kiếm thôƣờng thƣờng
cho phép ngƣời dùng tìm kiếm các trang web dƣới dạng biểu thức
logic, ngoài ra để thuận tiện và nâng cao tính chính xác của câu hỏi, các
hệ tìm kiếm cũng cho phép ngƣời dùng đƣa vào các điều kiện nâng cao
nhƣ tìm từ trong chủ đề, tìm các trang theo nội dung của một trang web,
tìm theo thời gian xuất hiện, tìm theo ngôn ngữ ..v.v. Câu hỏi của ngƣời
dùng sẽ đƣợc phân tích thành các điều kiện để hệ tìm kiếm có những
ứng xử phù hợp.
Định vị các trang web kết quả và xếp hạng. Dựa trên các điều kiện của
ngƣời dùng và các trang web đã đƣợc phân tích trong giai đoạn “thu
thập và phân tích thông tin” hệ tìm kiếm nhanh chóng định vị ra đƣợc
các trang web kết quả, hơn nữa các trang web cũng đƣợc lấy ra theo
mức độ tƣơng quan với câu hỏi của ngƣời dùng theo một số tiêu chí sắp
xếp, ví dụ nhƣ thứ tự có xuất hiện các từ khoá trong câu hỏi, mức độ
gần với nội dung trang web mẫu. Mức độ chính xác của trang web đối
với câu hỏi của ngƣời dùng (hạng của trang web) cũng đƣợc tính toán
và cung cấp cho ngƣời dùng. Một số hệ tìm kiếm còn bổ sung thêm tính
năng xử lý các phản hồi của ngƣời dùng với kết quả để nâng cao độ
chính xác cho các lần trả lời sau nhƣ ghi nhận số lần truy cập của trang
web để tăng độ ƣu tiên về hạng của trang web, thay đổi độ tƣơng tự của
các trang web đã phân tích, chuyển trang web vào nhóm văn bản có chủ
đề chính xác hơn.
Hiển thị nội dung trang web sẵn có. Ngƣời dùng có thể lấy trang web
từ địa chỉ đƣợc cung cấp bởi hệ tìm kiếm hoặc có thể xem nội dung
trang web sẵn có trong kho lƣu trữ của hệ tìm kiếm. Thao tác này yêu
cầu hệ tìm kiếm giải nén trang web và hiển thị., tThông thƣờng thì hệ
tìm kiếm sẽ tô sáng các thành phần có trong câu hỏi của ngƣời dùng
bằng các màu sắc để ngƣời dùng nhanh chóng nhận ra vị trí của chúng
trong trang web kết quả.
Đặng Tiểu Hùng – Luận văn cao học
13
Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek
Mô hình biểu diễn thông tin của văn bản
Cơ sở dữ liệu Fulltext là cơ sở dữ liệu phi cấu trúc biểu diễn thông tin của văn
bản mà dữ liệu chứa trong đó bao gồm các nội dung văn bản và các thuộc tính của
các nội dung đó. Dữ liệu trong cơ sở dữ liệu Fulltext thƣờng đƣợc tổ chức nhƣ một
sự kết hợp giữa hai phần: phần cơ sở dữ liệu thông thƣờng quản lý thuộc tính của
các văn bản, và phần tập hợp nội dung các văn bản đƣợc quản lý.
C¬ së d÷ liÖu Fulltext
C¬ së d÷ liÖu vÒ
thuéc tÝnh tµi liÖu
C¬ së d÷ liÖu vÒ
néi dung tµi liÖu
Hình 6.: Mô hình tổ chức của cơ sở dữ liệu Fulltext
Hiện nay có ba mô hình cơ sở dữ liệu Fulltext điển hình là
1. Mô hình logic
2. Mô hình cú pháp
3. Mô hình vector
Mô hình vector là mô hình đƣợc sử dụng phổ biến nhất trong các hệ tìm kiếm
hiện nay.
Mô hình biểu diễn thông tin theo từ khoá
Mỗi văn bản đƣợc biểu diễn nhƣ một vector có các thành phần là thể hiện từ
khoá tƣơng ứng có mặt hoặc không có mặt trong văn bản đó. Mỗi từ khoá lại có một
trọng số biểu diễn về mức độ quan trọng của nó trong văn bản. Quá trình gán các
giá trị đó đƣợc gọi là quá trình đánh chỉ số (indexing). Hiện nay có nhiều phƣơng
Đặng Tiểu Hùng – Luận văn cao học
14
Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek
pháp đánh chỉ số nhƣ TF, IDF, TF*IDF, LSI [3]... trong đó chủ yếu dựa vào tần số
xuất hiện của các từ hoặc mối quan hệ giữa sự xuất hiện của các từ trong văn bản.
Nhƣ vậy thì số chiều của không gian vector là lực lƣợng của tập các từ khoá.
Ví dụ văn bản thứ nhất có nội dung “VietKey 32-Bit là chương trình hỗ trợ gõ
tiếng Việt trong các môi trường Windows 32-Bit của Microsoft”.
Và văn bản thứ 2 “VietKey có thể nhúng được tiếng Việt trong hầu hết các ứng
dụng 16-bit và 32-bit trong môi trường Windows 32-bit”
Vector biểu diễn văn bản sẽ gồm các thành (từ khoá, tần suất của từ trong văn
bản):
Từ khoá
Vector biểu diễn văn bản 1
Vector biểu diễn văn bản 2
16
0
1
32
2
2
bit
1
3
các
1
1
có
0
1
của
1
0
chương
1
0
dụng
0
1
được
0
1
gõ
1
0
hầu
0
1
hết
0
1
hỗ
1
0
là
1
0
môi
1
1
Đặng Tiểu Hùng – Luận văn cao học
15
Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek
microsoft
1
0
nhúng
0
1
thể
0
1
tiếng
1
1
trình
1
0
trường
1
1
trợ
1
0
trong
1
2
ứng
0
1
và
0
1
vietkey
1
1
việt
1
1
windows
1
1
Bảng 1.: Vector biểu diễn văn bản
Mô hình biểu diễn thông tin theo nội dung
Đối với bài toán tìm kiếm theo nội dung, phần lớn các giải pháp tìm kiếm
thông tin đều lựa chọn mô hình vector. Có 3ba phƣơng pháp tiếp cận trong việc xác
định từ khoá trong vector biểu diễn văn bản.
1. Phƣơng pháp biểu diễn theo nội dung văn bản: Từ khoá trong vector
biểu diễn văn bản u là những từ có mặt trong văn bản u.
2. CáchPhƣơng pháp tiếp cận theo liên kết: Từ khoá trong vector biểu
diễn văn bản u là những từ khoá có trong định danh của những văn bản
v có liên kết đến văn bản u.
Đặng Tiểu Hùng – Luận văn cao học
16
Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek
3. CáchPhƣơng pháp tiếp cận theo ngữ nghĩa lân cận liên kết: Từ khoá
trong vector biểu diễn văn bản u là những từ xuất hiện trong cửa sổ ngữ
nghĩa lân cận liên kết từ những văn bản v đến văn bản u.
Luận văn đề cập tới giải pháp kết hợp các phƣơng pháp tiếp cận trên đây.
Phân tích cú pháp và ngữ nghĩa
Trong trang web không chỉ có thông tin thể hiện nội dung mà còn các thông
tin phụ trợ nhƣ các comment, các đoạn mã, các thẻ HTML. Do đó cần phải tách lọc
thông tin mà trang web biểu diễn, tách thông tin về các liên kết. Cần phải xác định
từ gốc của từ biểu diễn văn bản, xác định vị trí của từ trong văn bản, xác định các
biên của đoạn văn theo cú pháp câu (dấu ngắt câu) hoặc biên theo chủ đề đoạn văn
(ngắt đoạn, ngắt bảng, ngắt trang).
Phân lớp văn bản
Phân lớp văn bản đƣợc xem nhƣ là quá trình gán các văn bản vào một hay
nhiều lớp văn bản đã đƣợc xác định trƣớc. Sau khi đƣợc phân lớp, các văn bản sẽ
đƣợc đánh chỉ số đối với từng lớp tƣơng ứng. Ngƣời dùng có thể yêu cầu hệ tìm
kiếm giới hạn số kết quả trong một chủ đề hoặc lớp văn bản mong muốn. Phân lớp
văn bản có thể thực hiện tự động bằng các phƣơng pháp cây quyết định [3], mạng
Bayer, máy vector trợ giúp. Ngoài ra, các trang web có thể thể đƣợc phân lớp bằng
thủ công nhờ sự tình nguyện của ngƣời dùng trên internet nhƣ thƣ mục chủ đề các
trang web ODP (Open Directory Project) [19].
Phân cụm văn bản
Phân cụm văn bản là việc tự động sinh ra các lớp văn bản dựa vào sự tƣơng tự
của các văn bản. Các lớp văn bản ở đây là chƣa biết trƣớc, ngƣời dùng có thể chỉ
yêu cầu số lƣợng các lớp cần phân loại, hệ sẽ đƣa ra các văn bản theo từng tập hợp,
từng cụm, mỗi tập hợp chứa các văn bản tƣơng tự nhau.
Đặng Tiểu Hùng – Luận văn cao học
17
Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek
Khai thác thông tin cấu trúc web
Trong tìm kiếm thông tin trên web, các trang web đã chứa đựng thông tin nửa
cấu trúc, đó chính là các liên kết giữa các trang web. Thông thƣờng, các web đem
lại nhiều thông tin sẽ đƣợc trích dẫn nhiều do đó có thể khai thác thông tin liên kết
giữa các trang web để đánh giá trọng số của trang web nhƣ Slattery đã đề xuất [13].
Khai thác thông tin sử dụng web
Thông tin sử dụng web đƣợc chứa tronglà một tập hợp các file liên quan ngầm
đến những máy chủ web. Mục đích của việc khai thác thông tin sử dụng web để
phát hiện ra những mẫu dữ liệu có ý nghĩa đƣợc sinh ra trong những giao dịch
khách/chủ. Thông thƣờng các dữ liệu đó ở phía máy chủ là access logs, referrer
logs, agent logs và phía máy trạm là cookies. Một dạng thông tin nữa về ngƣời dùng
web là các profile của họ.
Trong tìm kiếm thông tin, các trang web đem lại nhiều thông tin thƣờng đƣợc
truy cập nhiều hơn các trang web khác trong cùng chủ đề. Do đó tần suất truy cập
(thông tin sử dụng web) của các trang web cũng là một thành phần cần xem xét khi
đánh giá trọng số của trang web.
Tuy nhiên, với mỗi ngƣời dùng thì có thể có tập hợp các trang web đƣợc yêu
thích của riêng mình. Ngƣời sử dụng có thể yêu cầu mà hệ tìm kiếm cho phép giới
hạn các trang kết quả trong một tên miền nào đó nhƣ .com.vn và những tham số nhƣ
vậy có thể đƣợc định nghĩa trong các profile.
KẾT LUẬN CHƢƠNG 1
Trong chƣơng này, luận văn đã giới thiệu tổng quát bài toán tìm kiếm thông
tin trên web và các phƣơng pháp tìm kiếm thông tin trên web:
1. Các phƣơng pháp tìm kiếm theo từ khoá gồm mô hình cú pháp, mô
hình logic và mô hình vector. Các phƣơng pháp này đã đƣợc nghiên
cứu khá kỹ lƣỡng và tiêu biểu nhất là mô hình vector đƣợc áp dụng
nhiều trong các máy tìm kiếm hiện nay.
Đặng Tiểu Hùng – Luận văn cao học
18
Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek
2. Các phƣơng pháp tìm kiếm theo nội dung đang đƣợc nghiên cứu hiện
nay là tìm kiếm theo nội dung toàn văn, theo liên kết và theo ngữ
nghĩa lân cận liên kết.
Luận văn đã phân tích nguyên tắc hoạt động cũng nhƣ ƣu điểm và nhƣợc điểm
của mỗi phƣơng pháp. Từ những phân tích trên, luận văn sẽ trình bày phƣơng pháp
biểu diễn văn bản mới trong chƣơng 2 và đề xuất thuật toán tìm kiếm theo nội dung
trong chƣơng 3.
Đặng Tiểu Hùng – Luận văn cao học
- Xem thêm -