BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
Lâm Tùng Giang
MỘT SỐ PHƯƠNG PHÁP PHỤC VỤ XẾP HẠNG
CÁC TRANG WEB TRONG TÌM KIẾM XUYÊN NGỮ
Chuyên ngành
Mã số
: Khoa học máy tính
: 62 48 01 01
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
ĐÀ NẴNG - 2017
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
Lâm Tùng Giang
MỘT SỐ PHƯƠNG PHÁP PHỤC VỤ XẾP HẠNG
CÁC TRANG WEB TRONG TÌM KIẾM XUYÊN NGỮ
Chuyên ngành
Mã số
: Khoa học máy tính
: 62 48 01 01
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC
1. PGS.TS. Võ Trung Hùng
2. PGS.TS. Huỳnh Công Pháp
ĐÀ NẴNG - 2017
LỜI CAM ĐOAN
Tôi xin cam đoan: Luận án này là công trình nghiên cứu thực sự của cá nhân
tôi, được thực hiện tại Trường Đại học Bách khoa, Đại học Đà Nẵng dưới sự hướng
dẫn khoa học của PGS.TS. Võ Trung Hùng và PGS.TS. Huỳnh Công Pháp.
Các số liệu, những kết luận nghiên cứu được trình bày trong luận án này là
trung thực và chưa từng được công bố ở bất kỳ công trình nào của các tác giả khác.
Tôi xin chịu trách nhiệm về những lời cam đoan của tôi.
Tác giả,
Lâm Tùng Giang
-i-
MỤC LỤC
MỞ ĐẦU .................................................................................................................... 1
1. ĐẶT VẤN ĐỀ ....................................................................................................... 1
2. MỤC TIÊU, ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU ................................... 5
2.1. Mục tiêu ............................................................................................................ 5
2.2. Đối tượng .......................................................................................................... 5
2.3. Phạm vi ............................................................................................................. 5
3. ĐÓNG GÓP CỦA LUẬN ÁN ............................................................................... 6
4. BỐ CỤC CỦA LUẬN ÁN ..................................................................................... 8
CHƯƠNG 1: TỔNG QUAN VÀ ĐỀ XUẤT NGHIÊN CỨU .................................... 9
1.1. TRUY VẤN THÔNG TIN .................................................................................. 9
1.1.1. Khái niệm ....................................................................................................... 9
1.1.2. Định nghĩa hình thức .................................................................................... 10
1.1.3. Sơ đồ xử lý của hệ thống truy vấn thông tin.................................................. 10
1.1.4. Các mô hình truy vấn thông tin truyền thống ................................................ 12
1.1.5. Khai thác quan hệ giữa các thuật ngữ trong văn bản ..................................... 16
1.2. ĐÁNH GIÁ HỆ THỐNG TRUY VẤN THÔNG TIN ....................................... 19
1.2.1. Khái niệm ..................................................................................................... 19
1.2.2. Các độ đo ..................................................................................................... 20
1.2.3. Môi trường thực nghiệm ............................................................................... 22
1.3. TRUY VẤN THÔNG TIN XUYÊN NGỮ........................................................ 24
1.3.1. Khái niệm ..................................................................................................... 24
1.3.2. Các hướng tiếp cận ....................................................................................... 24
1.3.3. Các kỹ thuật dịch tự động ............................................................................. 25
1.4. CÁC KỸ THUẬT XẾP HẠNG LẠI ................................................................. 25
- ii -
1.4.1. Xếp hạng và xếp hạng lại ............................................................................. 25
1.4.2. Khai thác thông tin của các máy tìm kiếm có sẵn ......................................... 26
1.4.3. Học xếp hạng ............................................................................................... 28
1.4.4. Khai thác thông tin người sử dụng ................................................................ 30
1.5. XẾP HẠNG TRANG WEB .............................................................................. 31
1.5.1. Đặc thù của tìm kiếm web ............................................................................ 31
1.5.2. Các phương pháp xếp hạng trang Web ......................................................... 32
1.5.3. Xếp hạng trang Web trong tìm kiếm xuyên ngữ ........................................... 36
1.6. CÁC HẠN CHẾ VÀ ĐỀ XUẤT NGHIÊN CỨU .............................................. 37
1.6.1. Hạn chế ........................................................................................................ 37
1.6.2. Đề xuất nghiên cứu....................................................................................... 37
1.7. TIỂU KẾT CHƯƠNG....................................................................................... 41
CHƯƠNG 2: DỊCH TỰ ĐỘNG PHỤC VỤ TRUY VẤN XUYÊN NGỮ................ 42
2.1. CÁC PHƯƠNG PHÁP DỊCH TỰ ĐỘNG......................................................... 42
2.1.1. Sử dụng máy dịch ......................................................................................... 42
2.1.2. Sử dụng kho ngữ liệu ................................................................................... 43
2.1.3. Sử dụng từ điển ............................................................................................ 44
2.1.4. Sử dụng ngôn ngữ trung gian........................................................................ 44
2.1.5. Sử dụng không gian ngữ nghĩa ..................................................................... 45
2.1.6. Đánh giá chung ............................................................................................ 45
2.2. KHỬ NHẬP NHẰNG....................................................................................... 46
2.3. MÔ HÌNH SỬ DỤNG TỪ ĐIỂN MÁY ............................................................ 47
2.3.1. Xây dựng dữ liệu từ điển .............................................................................. 48
2.3.2. Khử nhập nhằng dựa trên độ đo mức độ liên quan của cặp từ ....................... 49
2.3.3. Các biến thể của công thức MI ..................................................................... 49
2.3.4. Thuật toán chọn bản dịch tốt nhất ................................................................. 51
- iii -
2.3.5. Xây dựng câu truy vấn.................................................................................. 58
2.4. THỰC NGHIỆM ÁP DỤNG CÔNG THỨC SMI ............................................. 62
2.4.1. Môi trường thực nghiệm ............................................................................... 62
2.4.2. Kết quả thực nghiệm .................................................................................... 64
2.5. THỰC NGHIỆM TẠO BẢN DỊCH CÂU TRUY VẤN CÓ CẤU TRÚC ......... 65
2.5.1. Môi trường thực nghiệm ............................................................................... 65
2.5.2. Cấu hình thực nghiệm .................................................................................. 65
2.5.3. Kết quả thực nghiệm .................................................................................... 66
2.6. TIỂU KẾT CHƯƠNG....................................................................................... 67
CHƯƠNG 3: HỖ TRỢ DỊCH CÂU TRUY VẤN .................................................... 69
3.1. CÁC KỸ THUẬT HỖ TRỢ DỊCH CÂU TRUY VẤN ..................................... 69
3.1.1. Phân đoạn câu truy vấn ở ngôn ngữ nguồn ................................................... 69
3.1.2. Mở rộng câu truy vấn ................................................................................... 70
3.1.3. Thu hẹp câu truy vấn .................................................................................... 71
3.1.4. Xử lý thuật ngữ không có trong từ điển ........................................................ 72
3.2. PHÂN ĐOẠN CÂU TRUY VẤN ..................................................................... 73
3.2.1. Sử dụng công cụ vnTagger ........................................................................... 73
3.2.2. Thuật toán WLQS ........................................................................................ 73
3.2.3. Kết hợp WLQS và công cụ vnTagger ........................................................... 75
3.3. ĐIỀU CHỈNH CÂU TRUY VẤN Ở NGÔN NGỮ ĐÍCH ................................. 78
3.3.1. Phản hồi ẩn ................................................................................................... 79
3.3.2. Phản hồi ẩn trong truy vấn xuyên ngữ .......................................................... 81
3.3.3. Điều chỉnh câu truy vấn có cấu trúc ở ngôn ngữ đích.................................... 82
3.4. THỰC NGHIỆM .............................................................................................. 86
3.4.1. Cấu hình thực nghiệm .................................................................................. 86
3.4.2. Kết quả ......................................................................................................... 87
- iv -
3.5. TIỂU KẾT CHƯƠNG....................................................................................... 89
CHƯƠNG 4: XẾP HẠNG LẠI ................................................................................. 91
4.1. HỌC XẾP HẠNG DỰA TRÊN LẬP TRÌNH DI TRUYỀN.............................. 91
4.1.1. Mô hình ứng dụng lập trình di truyền ........................................................... 93
4.1.2. Xây dựng công cụ và kết quả thực nghiệm ................................................... 94
4.1.3. Đánh giá ....................................................................................................... 96
4.2. ĐỀ XUẤT CÁC MÔ HÌNH LÂN CẬN ............................................................ 97
4.2.1. Mô hình CL-Büttcher ................................................................................... 98
4.2.2. Mô hình xếp hạng CL-Rasolofo ................................................................... 99
4.2.3. Mô hình xếp hạng CL-HighDensity............................................................ 100
4.2.4. Thực nghiệm việc ứng dụng mô hình lân cận xuyên ngữ ............................ 101
4.3. HỌC XẾP HẠNG TRANG WEB ................................................................... 103
4.3.1. Các mô hình học xếp hạng.......................................................................... 103
4.3.2. Môi trường thực nghiệm ............................................................................. 106
4.3.3. Cấu hình thực nghiệm ................................................................................ 109
4.3.4. Kết quả thực nghiệm .................................................................................. 109
4.4. TIỂU KẾT CHƯƠNG..................................................................................... 110
CHƯƠNG 5: HỆ THỐNG TÌM KIẾM WEB XUYÊN NGỮ VIỆT-ANH ........... 111
5.1. THIẾT KẾ HỆ THỐNG.................................................................................. 111
5.1.1. Các thành phần hệ thống & sơ đồ thuật toán ............................................... 111
5.1.2. Dữ liệu từ điển ........................................................................................... 114
5.1.3. Dữ liệu đánh chỉ mục ................................................................................. 114
5.2. PHƯƠNG PHÁP THỰC NGHIỆM ................................................................ 115
5.3. THỰC NGHIỆM CÁC GIẢI PHÁP DỊCH CÂU TRUY VẤN ....................... 116
5.3.1. Cấu hình thực nghiệm ................................................................................ 116
5.3.2. Kết quả thực nghiệm .................................................................................. 117
-v-
5.3.3. Đánh giá ..................................................................................................... 119
5.4. THỰC NGHIỆM ĐIỀU CHỈNH CÂU TRUY VẤN ....................................... 119
5.4.1. Cấu hình thực nghiệm ................................................................................ 119
5.4.2. Kết quả thực nghiệm .................................................................................. 120
5.4.3. Đánh giá ..................................................................................................... 121
5.5. THỰC NGHIỆM XẾP HẠNG LẠI................................................................. 121
5.5.1. Cấu hình thực nghiệm ................................................................................ 122
5.5.2. Kết quả thực nghiệm .................................................................................. 123
5.5.3. Đánh giá ..................................................................................................... 125
5.6. ĐÁNH GIÁ HIỆU QUẢ KẾT HỢP CÁC KỸ THUẬT .................................. 125
5.7. TIỂU KẾT CHƯƠNG..................................................................................... 128
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN............................................................. 129
1. KẾT LUẬN ....................................................................................................... 129
1.1. Tóm tắt nội dung luận án ............................................................................... 129
1.2. Các kết quả đạt được ..................................................................................... 129
2. HƯỚNG PHÁT TRIỂN ..................................................................................... 132
TÀI LIỆU THAM KHẢO ..................................................................................... 133
- vi -
DANH MỤC HÌNH VẼ
Hình 1.1: Quá trình xử lý của hệ thống truy vấn thông tin .......................... 11
Hình 1.2: Biểu đồ trung bình 11 điểm ......................................................... 22
Hình 1.3: Mô hình xếp hạng tìm kiếm Web đa ngữ ..................................... 38
Hình 1.4: Sơ đồ xử lý giai đoạn truy vấn ..................................................... 39
Hình 3.1: Phân loại phương pháp mở rộng câu truy vấn.............................. 71
Hình 3.2: Phản hồi của người dùng ............................................................. 79
Hình 3.3: Phản hồi ẩn về độ phù hợp của kết quả tìm kiếm ban đầu ............ 79
Hình 3.4: Đồ thị trung bình 11 điểm ........................................................... 88
Hình 4.1: Hệ thống tìm kiếm Web đa ngữ Việt-Anh ................................. 107
Hình 5.1: Các thành phần của hệ thống tìm kiếm Web Việt - Anh ............ 111
Hình 5.2: Sơ đồ thuật toán của hệ thống.................................................... 112
Hình 5.3: So sánh các cấu hình dùng 1 bản dịch ....................................... 118
Hình 5.4: So sánh các cấu hình dùng 3 bản dịch ....................................... 119
Hình 5.5: Kết quả của 5 lần huấn luyện của các phương pháp ................... 124
Hình 5.6: Điểm MAP khi sử dụng phương án dịch Top_three_all ............. 127
Hình 5.7: Điểm MAP khi sử dụng phương án dịch Top_three_weight ...... 128
- vii -
DANH MỤC BẢNG
Bảng 1.1 Thông tin sử dụng & đặc điểm của các mô hình xếp hạng............ 18
Bảng 2.1: Cấu hình thực nghiệm ................................................................. 63
Bảng 2.2: Kết quả thực nghiệm ................................................................... 64
Bảng 2.3: So sánh P@k và MAP các cấu hình ............................................ 66
Bảng 3.1: Điểm số MAP ............................................................................. 87
Bảng 3.2: Số lượng tài liệu phù hợp tải về .................................................. 88
Bảng 4.1 Ví dụ thuộc tính của bộ sưu tập OHSUMED................................ 92
Bảng 4.2 So sánh giá trị MAP ..................................................................... 95
Bảng 4.3 So sánh giá trị NDCG@k............................................................. 96
Bảng 4.4: So sánh giá trị P@k .................................................................... 96
Bảng 4.5: Điểm MAP của các cấu hình thực nghiệm ................................ 102
Bảng 4.6: Mức độ tăng hiệu quả khi áp dụng mô hình lân cận .................. 102
Bảng 4.7: Các phương án hàm distance .................................................... 105
Bảng 4.8: Kết quả thực nghiệm ................................................................. 109
Bảng 5.1: Các cấu hình đánh giá các giải pháp dịch câu truy vấn .............. 116
Bảng 5.2: So sánh các giải pháp dịch câu truy vấn .................................... 117
Bảng 5.3: Cấu hình đánh giá kết quả điều chỉnh câu truy vấn ................... 120
Bảng 5.4: So sánh các giải pháp điều chỉnh câu truy vấn .......................... 121
Bảng 5.5: Cấu hình thực nghiệm học xếp hạng ......................................... 122
Bảng 5.6: Kết quả thực nghiệm các phương pháp học xếp hạng ................ 123
Bảng 5.7: Đánh giá việc áp dụng các kỹ thuật đề xuất............................... 125
- viii -
DANH MỤC TỪ VIẾT TẮT
AP
Average Precision
CLEF
Cross Language Evaluation Forum
CLIR
Cross Language Information Retrieval
DF
Document frequency
FIRE
Forum for Information Retrieval Evaluation
GP
Genetic Programming
HITS
Hypertext Induced Topic Search
HTML
Hyper Text Markup Language
IDF
Inverse Document Frequency
IR
Information Retrieval
LETOR
LEearning TO Rank
LMIR
Language Models in Information Retrieval
LSI
Latent Sematic Indexing
MAP
Mean Average Precision
MI
Mutual Information
MRD
Machine Readable Dictionary
NDCG
Normalized Discount Cumulative Gain
PRF
Pseudo-Relevance Feedback
SMI
Summary Mutual Information
SVD
Singular-Value Decomposition
TF
Term frequency
TREC
Text REtrieval Conference
UNL
Universal Network Language
VSM
Vector Space Model
WLQS
Word-Length-based Query Segmentation
WWW
Word Wide Web
- ix -
DANH MỤC THUẬT NGỮ
Anchor
Mốc, neo
Authority
Độ tin cậy
Average Precision
Độ chính xác trung bình
Bag of Words
Túi từ
Bilingual Machine Readable Dictionary
Từ điển máy song ngữ
Binary Independence Retrieval – BIR
Mô hình truy vấn nhị phân độc
lập
Boolean model
Mô hình Boolean
Cohesion Score
Điểm liên kết
Cross Language Information Retrieval -
Truy vấn thông tin xuyên ngữ
CLIR
Cross-language Web Search
Tìm kiếm web xuyên ngữ
Data sparsity
Tính thưa thớt dữ liệu
Degree of similarity
Mức độ tương tự
Discounted Cumulative Gain
Độ lợi tích lũy giảm dần
Fuzzy-Logic model
Mô hình lô-gic mờ
Gain Function
Hàm lợi ích
Hub
Trung tâm
Hyper Text Markup Language-HTML
Ngôn ngữ siêu văn bản
Hyperlink
Siêu liên kết
Information Retrieval – IR
Truy vấn thông tin
Inverse document frequency – IDF
Tần suất tài liệu nghịch đảo
IR model
Mô hình truy vấn thông tin
Language Model – LMIR
Mô hình ngôn ngữ
Latent Sematic Indexing - LSI
Mô hình chỉ mục ngữ nghĩa ngầm
Learning to Rank
Học xếp hạng
Loss Function
Hàm tổn thất
Machine Learning - ML
Học máy
-x-
Mean Average Precision
Độ chính xác trung bình bình
quân
Meta tag
Thẻ cung cấp thông tin trang web
Mutual Information - MI
Thông tin tương hỗ
Precision
Độ chính xác
Probabilistic model
Mô hình xác suất
Proximity Model
Mô hình lân cận
Pseudo-Relevance Feedback – PRF
Phản hồi giả
Query
Câu truy vấn
Recall
Độ bao phủ
Regions models
Mô hình vùng
Relevant information
Thông tin phù hợp
Singular-Value Decomposition – SVD
Phân tích giá trị đơn
Summary Mutual Information
Tổng thông tin tương hỗ
Term frequency – TF
Tần suất xuất hiện của thuật ngữ
trong tài liệu
Three-way data
dữ liệu 3 hướng
True Relevance Feedback
Phản hồi thực sự
Two-way data
dữ liệu 2 hướng
Vector Space model – VSM
Mô hình không gian vec-tơ
Word-length-based Query Segmentation
Phân đoạn câu truy vấn dựa trên
độ dài từ
World Wide Web
Mạng lưới thông tin toàn cầu
- xi -
MỞ ĐẦU
1. ĐẶT VẤN ĐỀ
Hơn hai mươi năm qua, chúng ta chứng kiến sự phát triển và lớn mạnh vượt
bậc của Internet và World Wide Web. Đến cuối năm 2015, chỉ riêng Google đã
đánh chỉ mục được khoảng 47 tỷ trang web1. Bên cạnh kích thước khổng lồ, sự tăng
trưởng của World Wide Web còn thể hiện ở tính đa dạng của các ngôn ngữ được sử
dụng trong các trang web. Đến thời điểm này, tiếng Anh tiếp tục là ngôn ngữ phổ
biến nhất, được sử dụng tại 54% trong tổng số các website, tiếp theo là tiếng Nga và
tiếng Đức, tương ứng là 6,1% và 5,7%. Riêng tiếng Việt được sử dụng tại khoảng
0,6% tổng số các website2.
Cùng với sự đa dạng về ngôn ngữ, việc tìm kiếm thông tin không còn giới
hạn ở tiếng mẹ đẻ của người dùng mà đã được mở rộng ra các ngôn ngữ khác. Bài
toán tìm kiếm web xuyên ngữ (Cross-Language Web Search) đặt ra nhiệm vụ từ
nhu cầu thông tin của người dùng được trình bày ở một ngôn ngữ (gọi là ngôn ngữ
nguồn), thực hiện việc xác định các trang web phù hợp được viết bằng một ngôn
ngữ khác (gọi là ngôn ngữ đích). Việc giải quyết bài toán có ý nghĩa thực tế, cho
phép người sử dụng truy cập các nguồn tài nguyên thông tin ở các ngôn ngữ khác
nhau [134].
Nền tảng công nghệ để giải quyết bài toán tìm kiếm web xuyên ngữ là sự kết
hợp các kỹ thuật áp dụng trong truy vấn thông tin xuyên ngữ (Cross-language
Information Retrieval - CLIR) - một lĩnh vực con của truy vấn thông tin
(Information Retrieval - IR) - và việc khai thác các đặc thù riêng của các trang web.
Truy vấn thông tin quan tâm vấn đề tìm kiếm thông tin phù hợp hay tài liệu
chứa các thông tin như vậy dựa trên nhu cầu thông tin của người sử dụng từ một tập
hợp lớn các tài liệu (được gọi là kho tài liệu). Nhu cầu thông tin được biểu diễn
dưới dạng câu truy vấn. Một tài liệu được coi là phù hợp nếu chứa thông tin phù
1
2
http://www.worldwidewebsize.com/ (truy cập 26/12/2015)
http://w3techs.com/technologies/overview/content_language/all (truy cập 26/12//2015)
-1-
hợp với câu truy vấn. Mặc dù sự phù hợp là một khái niệm quan trọng trong truy
vấn thông tin và được đề cập tới trong mọi nghiên cứu liên quan, cho đến nay vẫn
tồn tại các cách hiểu khác nhau về thuật ngữ này [12], [105]. Một cách lý tưởng,
một hệ thống truy vấn thông tin cần có khả năng xác định các tài liệu phù hợp dựa
trên nội dung, ý nghĩa của tài liệu và câu truy vấn chứ không phải dựa theo cách
biểu diễn của chúng. Ví dụ, từ câu truy vấn "các thảm họa thiên nhiên", cần lọc ra
các tài liệu chứa các thông tin liên quan đến "động đất", "sóng thần", hay "núi lửa".
Tuy nhiên, trên thực tế hầu hết các hệ thống truy vấn thông tin tính toán mức độ phù
hợp của các tài liệu dựa trên cách thức biểu diễn văn bản (ví dụ thông qua các từ
khóa chứa bên trong) và chưa có khả năng phân tích ý nghĩa văn bản [4], [43],
[100]. Trong truy vấn thông tin xuyên ngữ, việc xác định tính phù hợp còn phức tạp
hơn do câu truy vấn và các tài liệu được viết bằng các ngôn ngữ khác nhau [113].
Xếp hạng trong truy vấn thông tin liên quan đến việc tạo lập kết quả khi thực
hiện một câu truy vấn ở dạng một danh sách các tài liệu theo thứ tự phù hợp với nhu
cầu truy vấn. Trong tìm kiếm web xuyên ngữ, hai vấn đề chính của việc xếp hạng
kết quả tìm kiếm bao gồm: (1) sự khác biệt về ngôn ngữ giữa câu truy vấn và các tài
liệu cần tìm kiếm; (2) nhu cầu hiển thị các tài liệu phù hợp nhu cầu truy vấn tại đầu
danh sách kết quả, tạo điều kiện truy cập thuận lợi cho người sử dụng. Nhằm giải
quyết các vấn đề này, cần thực hiện hai nhiệm vụ trọng tâm: Thứ nhất là nhiệm vụ
dịch thuật, thực hiện việc biểu diễn câu truy vấn và các tài liệu trong một không
gian chung, cụ thể là trong cùng một ngôn ngữ. Thứ hai là nhiệm vụ xếp hạng,
thông qua việc triển khai các giải pháp kỹ thuật và các thước đo, thực hiện việc
đánh giá, so sánh mức độ phù hợp giữa các tài liệu và câu truy vấn. Mục tiêu chung
của các nhiệm vụ này là nhằm nâng cao hiệu quả xếp hạng kết quả tìm kiếm.
Có nhiều thước đo khác nhau được sử dụng nhằm đánh giá các hệ thống truy
vấn thông tin, bao gồm kích thước kho tài liệu, thời gian đáp ứng, cách biểu diễn
kết quả, mức độ nỗ lực của người sử dụng, độ bao phủ, độ chính xác [26]; trong đó
hai thước đo cuối được sử dụng phổ biến nhất và được coi là các thước đo chính về
hiệu quả của một hệ thống [100], [155]. Đặc biệt, độ chính xác cao của một hệ
thống liên quan trực tiếp đến việc xếp hạng các kết quả tìm kiếm, đảm bảo các tài
-2-
liệu đứng đầu danh sách kết quả tìm kiếm là các tài liệu phù hợp với nhu cầu truy
vấn thông tin.
Vấn đề được quan tâm nhất trong các nghiên cứu về CLIR thường liên quan
chất lượng dịch thuật [128]. Để giải quyết vấn đề này, 3 hướng tiếp cận chủ yếu
trong CLIR là dịch câu truy vấn, dịch tài liệu hay chuyển cả câu truy vấn và các tài
liệu sang một ngôn ngữ trung gian [172]. Hướng tiếp cận phổ biến là dịch câu truy
vấn sang ngôn ngữ của các tài liệu cần tìm kiếm, sau đó sử dụng các công cụ truy
vấn đơn ngữ ở ngôn ngữ này. Công việc dịch thuật được thực hiện bằng nhiều
phương pháp khác nhau: sử dụng từ điển, sử dụng các kho ngữ liệu song song, áp
dụng công cụ dịch máy. Trong các phương pháp dịch tự động phục vụ truy vấn
thông tin xuyên ngữ, việc sử dụng từ điển để dịch câu truy vấn được áp dụng rộng
rãi nhờ tính đơn giản và sự có sẵn của các từ điển máy song ngữ (Machine Readable
Dictionary - MRD) [94], [119]. Các kết quả nghiên cứu cho thấy, do các khó khăn
gây ra bởi sự nhập nhằng ngữ nghĩa của các từ trong câu truy vấn và độ bao phủ của
từ điển, hiệu quả xếp hạng của các hệ thống CLIR dựa trên từ điển còn khá hạn chế
và phụ thuộc nhiều vào các cặp ngôn ngữ cụ thể [172]. Theo đánh giá của
Ballesteros và Croft [7], các hệ thống truy vấn xuyên ngữ dùng kỹ thuật dịch từ điển
có chất lượng dưới 60% so với các hệ thống đơn ngữ - đo bằng tỷ lệ giá trị độ chính
xác trung bình bình quân (Mean Average Precision – MAP) của hai hệ thống. Đối
với tiếng Việt, kết quả nghiên cứu của tác giả Ho Bao Quoc và các đồng sự [63] cho
thấy do ảnh hưởng của việc phân đoạn câu truy vấn cũng như chất lượng dịch thuật,
hiệu quả của hệ thống truy vấn xuyên ngữ Việt-Anh chỉ đạt 47,58% so với hệ thống
truy vấn đơn ngữ (trong khi hệ thống truy vấn xuyên ngữ Anh-Việt đạt 72,27%). Từ
đây có thể thấy, việc nghiên cứu nhằm phát triển các phương pháp tăng chất lượng
dịch câu truy vấn, đặc biệt khi ngôn ngữ câu truy vấn không phải tiếng Anh, là một
vấn đề cấp thiết và mang tính thời sự.
Bên cạnh vấn đề dịch thuật, nhiều nghiên cứu được triển khai nhằm tăng hiệu
quả xếp hạng. Hướng tiếp cận phổ biến là dựa trên các mô hình xếp hạng có sẵn
trong truy vấn đơn ngữ (thực hiện sau khi dịch câu truy vấn). Một số công trình
[11], [87], [157], [163] đề xuất tích hợp máy dịch thống kê vào mô hình xếp hạng
-3-
xuyên ngữ. Ngoài ra, kỹ thuật học xếp hạng cũng được áp dụng nhằm nâng cao hiệu
quả xếp hạng [96], [97], [122]. Nhìn chung, hầu hết các giải pháp xếp hạng đề xuất
được triển khai độc lập với việc nghiên cứu vấn đề dịch thuật. Việc nghiên cứu kết
nối, trao đổi thông tin giữa các mô-đun là cần thiết nhằm tăng hiệu quả của toàn hệ
thống nhưng chưa được chú ý nhiều. Trong luận án, tác giả mong muốn tiếp tục sử
dụng thông tin kết xuất từ quá trình dịch câu truy vấn phục vụ việc xếp hạng.
Tìm kiếm web có những điểm khác biệt so với truy vấn thông tin văn bản
truyền thống, vốn được áp dụng cho các hệ thống thư viện. Thứ nhất, người sử dụng
Web không có xu hướng tìm tất cả tài liệu thỏa mãn nhu cầu truy vấn, mà mong
muốn nhận được kết quả phù hợp trong khoảng 10 tài liệu đầu tiên trong danh sách
kết quả tìm kiếm [16]. Điều này đặt ra yêu cầu về độ chính xác cao đối với hệ thống
tìm kiếm Web. Thứ hai, trong cấu trúc một tài liệu siêu văn bản (Hyper Text
Markup Language - HTML) chứa các thành phần như tiêu đề, tóm tắt, nội dung.
Bên cạnh đó, nó cũng chứa các thành phần đặc biệt như hyperlinks, anchor, meta
tag. Các thành phần này có thể có mức độ tác động khác nhau trong việc tìm kiếm.
Trong các nghiên cứu [33], [70], [124], [145], việc xây dựng đa chỉ mục và gán
trọng số khác nhau cho các thành phần của trang web giúp tăng độ chính xác trong
kết quả tìm kiếm. Điều này cho thấy một hệ thống tìm kiếm web nên được thiết kế
khác biệt so với một hệ thống truy vấn thông tin văn bản truyền thống, khai thác cấu
trúc đặc thù của các tài liệu có cấu trúc, nhằm nâng cao hiệu quả tìm kiếm. Hầu hết
các giải pháp đã liệt kê đều giới hạn ở việc đề xuất gán trọng số một cách thủ công
và do đó, cần các nghiên cứu tiếp theo nhằm khắc phục các hạn chế này.
Xuất phát từ tình hình thực tiễn trên, đề tài "Một số phương pháp phục vụ
xếp hạng trang Web trong tìm kiếm xuyên ngữ" được chọn làm nội dung nghiên cứu
của luận án Tiến sĩ kỹ thuật của tác giả. Thông qua các công việc cải tiến chất lượng
dịch thuật, kết hợp thông tin của quá trình dịch thuật trong quá trình xếp hạng, đề
xuất phương án xếp hạng dựa trên việc sử dụng cấu trúc đặc thù của các trang web,
tác giả đặt mục tiêu nâng cao hiệu quả xếp hạng danh sách kết quả tìm kiếm; qua
đó, đóng góp các kết quả lý thuyết đối với các lĩnh vực nghiên cứu liên quan, cũng
-4-
như tạo ra khả năng ứng dụng thực tế trong việc xây dựng, triển khai các hệ thống
tìm kiếm web xuyên ngữ cho các cơ quan, tổ chức.
2. MỤC TIÊU, ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
2.1. Mục tiêu
Luận án đặt mục tiêu đề xuất một mô hình tìm kiếm web xuyên ngữ và các
giải pháp kỹ thuật áp dụng tại các thành phần của mô hình nhằm nâng cao hiệu quả
xếp hạng danh sách kết quả tìm kiếm.
Các mục tiêu cụ thể của luận án bao gồm:
Đề xuất các phương pháp phục vụ dịch thuật, bao gồm các kỹ thuật tiền
xử lý câu truy vấn ở ngôn ngữ nguồn, dịch câu truy vấn và xử lý câu truy vấn ở
ngôn ngữ đích;
Đề xuất các phương pháp xếp hạng lại danh sách kết quả tìm kiếm trong
truy vấn xuyên ngữ, chú trọng việc xếp hạng các trang Web.
Kết hợp áp dụng các giải pháp đề xuất trong một mô hình tìm kiếm web
xuyên ngữ nhằm nâng cao hiệu quả xếp hạng các tài liệu web trong danh sách kết
quả tìm kiếm, cụ thể là nâng cao độ chính xác, áp dụng cho cặp ngôn ngữ Việt-Anh.
2.2. Đối tượng
Các đối tượng nghiên cứu của luận án bao gồm:
Các kỹ thuật dịch áp dụng trong truy vấn thông tin xuyên ngữ;
Các kỹ thuật xử lý câu truy vấn trong truy vấn xuyên ngữ;
Các kỹ thuật xếp hạng lại kết quả truy vấn thông tin.
2.3. Phạm vi
Với đối tượng nghiên cứu nêu trên và để đáp ứng mục tiêu nghiên cứu, luận
án xác định phạm vi nghiên cứu như sau:
Luận án tập trung giải quyết hai bài toán dịch câu truy vấn và xếp hạng
kết quả tìm kiếm web xuyên ngữ ;
-5-
Cặp ngôn ngữ được chú trọng nghiên cứu là cặp ngôn ngữ Việt-Anh; cụ
thể là với câu truy vấn tiếng Việt và các văn bản tìm kiếm được viết bằng tiếng
Anh;
Thước đo được sử dụng nhằm đánh giá hiệu quả hệ thống tìm kiếm là độ
chính xác trung bình bình quân (Mean Average Precision - MAP) với 2 lý do chính:
thứ nhất, đây là độ đo được sử dụng phổ biến tại các nghiên cứu về truy vấn thông
tin; thứ hai, độ đo này liên quan trực tiếp tới khả năng các tài liệu đứng đầu danh
sách kết quả tìm kiếm được đánh giá phù hợp với yêu cầu truy vấn;
Các kỹ thuật hỗ trợ truy vấn thông tin xuyên ngữ được tập trung nghiên
cứu và áp dụng bao gồm phân đoạn câu truy vấn, sử dụng phản hồi ẩn và mở rộng
câu truy vấn;
Luận án chú trọng nghiên cứu kỹ thuật học xếp hạng dựa trên lập trình di
truyền;
Luận án sử dụng các máy tìm kiếm đơn ngữ có sẵn và không đi sâu
nghiên cứu các vấn đề liên quan kỹ thuật được sử dụng trong các máy tìm kiếm đơn
ngữ.
3. ĐÓNG GÓP CỦA LUẬN ÁN
Trên cơ sở so sánh các kết quả đạt được với tình hình nghiên cứu hiện tại,
luận án có những đóng góp trong việc nâng cao chất lượng dịch thuật và nâng cao
hiệu quả xếp hạng lại kết quả tìm kiếm trong lĩnh vực tìm kiếm web xuyên ngữ, cụ
thể như sau:
Đề xuất được các phương pháp khử nhập nhằng mới trong mô-đun dịch
câu truy vấn trên nền tảng của khái niệm Mutual Information về sự cùng xuất hiện
của các thuật ngữ trong văn bản (chương 2). Phương pháp thứ nhất dựa trên hàm
Summary Mutual Information (SMI) cho phép chọn một bản dịch tốt nhất cho mỗi
từ khóa truy vấn và cho kết quả tốt hơn thuật toán khử nhập nhằng greedy được sử
dụng rộng rãi [99]. Phương pháp thứ hai áp dụng thuật toán chọn bản dịch một cách
tuần tự (SeQuential Translation - SQ), xác định danh sách các bản dịch tốt nhất
-6-
được xếp theo thứ tự phù hợp cho mỗi từ khóa truy vấn, phục vụ việc xây dựng câu
truy vấn có cấu trúc;
Đề xuất được phương pháp hiệu quả phục vụ tiền xử lý câu truy vấn
(chương 3). Một cách cụ thể, tác giả đã đề xuất thuật toán phân đoạn WLQS (viết
tắt của Word-length-based Query Segmentation) dựa trên độ dài của từ khóa; thuật
toán được sử dụng đồng thời cùng công cụ mã nguồn mở vnTagger [89], thực hiện
việc phân tích câu truy vấn thành các cụm từ cần dịch, đi kèm với các danh sách
bản dịch ứng viên. Kết quả này phục vụ như đầu vào cho các phương pháp khử
nhập nhằng trình bày trong chương 2;
Đề xuất được các phương pháp phục vụ xây dựng, cải tiến câu truy vấn
tại ngôn ngữ đích (chương 3). Trên cơ sở câu truy vấn có cấu trúc được tạo lập bằng
phương pháp chọn bản dịch một cách tuần tự trình bày tại chương 2, tác giả đề xuất
mô hình hai bước dựa trên kỹ thuật phản hồi ẩn, tính toán lại trọng số các từ khóa
truy vấn và áp dụng các công thức tính toán trọng số các thuật ngữ chứa trong các
văn bản để mở rộng câu truy vấn. Thông qua thực nghiệm, tác giả xác định công
thức kết hợp trọng số tf-idf cục bộ và trọng số idf toàn cục của các từ khóa mang lại
hiệu quả tốt nhất, khi tăng điểm MAP của hệ thống lên đến 12%.
Đề xuất được các mô hình lân cận xuyên ngữ (chương 4). Các mô hình
lân cận xuyên ngữ lần đầu tiên được xây dựng dựa trên cơ sở của các hàm xếp hạng
lân cận đơn ngữ đã có và ý tưởng xem xét các bản dịch của một từ khóa như cùng
một từ ảo. Trong luận án, điểm xếp hạng lân cận xuyên ngữ của tài liệu so với câu
truy vấn được tính toán dựa trên khoảng cách giữa các bản dịch ứng viên của các từ
khóa truy vấn. Các mô hình lân cận xuyên ngữ cho phép định nghĩa các hàm xếp
hạng mới cho máy tìm kiếm và được sử dụng trong quá trình xếp hạng lại;
Đề xuất được phương pháp học xếp hạng dựa trên lập trình di truyền
(chương 4). Hai phương pháp học xếp hạng (giám sát và không giám sát) được áp
dụng nhằm xây dựng hàm xếp hạng tổng hợp dưới dạng tổ hợp tuyến tính của các
mô hình xếp hạng cơ sở TF-IDF, BM25 và các mô hình xếp hạng lân cận xuyên
ngữ, phục vụ việc xếp hạng lại kết quả tìm kiếm web;
Thiết kế một mô hình tìm kiếm web xuyên ngữ cho cặp ngôn ngữ Việt-
-7-
- Xem thêm -