ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
Đỗ Thị Thanh Tuyền
MÔ HÌNH TÌM KIẾM VĂN BẢN TIẾNG VIỆT
DỰA TRÊN NGỮ NGHĨA
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
TP. HỒ CHÍ MINH – NĂM 2020
ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
Đỗ Thị Thanh Tuyền
MÔ HÌNH TÌM KIẾM VĂN BẢN TIẾNG VIỆT
DỰA TRÊN NGỮ NGHĨA
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 62.48.01.01
PHẢN BIỆN:
1. PGS. TS. Trần Văn Lăng
2. PGS. TS. Quản Thành Thơ
3. PGS. TS. Đỗ Thanh Nghị
PHẢN BIỆN ĐỘC LẬP:
1. PGS. TS. Đỗ Thanh Nghị
2. TS. Ngô Quốc Việt
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS. TS. Nguyễn Tuấn Đăng
2. PGS. TS. Vũ Đức Lung
TP. HỒ CHÍ MINH – NĂM 2020
LỜI CAM ĐOAN
Tôi cam đoan rằng nội dung luận án này do chính tôi trực tiếp thực hiện và chưa được
công bố trong bất kỳ khóa luận tốt nghiệp, luận văn thạc sĩ hay luận án tiến sĩ nào
ngoài những báo cáo hội nghị, bài báo tạp chí hay đề tài nghiên cứu khoa học phục
vụ cho chính luận án này.
Tác giả luận án
Đỗ Thị Thanh Tuyền
MỤC LỤC
DANH MỤC BẢNG
1
DANH MỤC HÌNH ẢNH
1
DANH MỤC TỪ VIẾT TẮT
1
MỞ ĐẦU
1
1.
Lý do lựa chọn đề tài
1
2.
Mục đích của luận án
3
3.
Nội dung nghiên cứu
4
4.
Đối tượng nghiên cứu
4
5.
Phạm vi nghiên cứu
4
6.
Ý nghĩa khoa học và thực tiễn của đề tài
5
7.
Cấu trúc của luận án
6
CHƯƠNG 1.
1.1
TỔNG QUAN
8
TRUY XUẤT THÔNG TIN
8
1.1.1
Lịch sử nghiên cứu
1.1.2
Một số mô hình truy xuất thông tin căn bản
1.2
8
TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU
10
13
1.2.1
Chú giải ngữ nghĩa
14
1.2.2
Mở rộng câu truy vấn tự động
17
1.3
CÁC CƠ SỞ CHO TRUY XUẤT VĂN BẢN TIẾNG VIỆT
19
1.3.1
Phân tích hình thái
19
1.3.2
Phân tích cú pháp phụ thuộc
20
1.3.3
Phân tích ngữ nghĩa của câu
23
1.4
VẤN ĐỀ NGỮ NGHĨA TRONG TRUY XUẤT VĂN BẢN
TIẾNG VIỆT
24
1.4.1
Ngữ nghĩa của từ
25
1.4.2
Ngữ nghĩa của ngữ đoạn
26
1.4.3
Ngữ nghĩa của văn bản
27
1.4.4
Truy xuất văn bản bản theo ngữ nghĩa
28
1.5
CÁC VẤN ĐỀ CẦN NGHIÊN CỨU
CHƯƠNG 2.
2.1
MÔ HÌNH TRUY XUẤT VĂN BẢN DỰA TRÊN
NGỮ NGHĨA
BIỂU DIỄN NGỮ NGHĨA
29
33
33
1
2.1.1
Ngôn ngữ biểu diễn ngữ nghĩa
33
2.1.2
Cấu trúc biểu diễn ngữ nghĩa của cụm từ
44
2.1.3
Cấu trúc biểu diễn ngữ nghĩa của văn bản
45
2.2
ĐỀ XUẤT MÔ HÌNH CHUNG
46
2.2.1
Các yếu tố ảnh hưởng đến độ chính xác và độ phủ
47
2.2.2
Biểu diễn văn bản và câu truy vấn
50
2.2.3
Tính toán độ liên quan giữa văn bản và câu truy vấn
52
2.3
ĐỘ ĐO KHOẢNG CÁCH NGỮ NGHĨA
52
2.3.1
Khoảng cách Jaccard-Tanimoto
52
2.3.2
Độ đo khoảng cách ngữ nghĩa
53
2.3.3
Các trọng số
63
2.4
CHỈ MỤC NGỮ NGHĨA
69
2.4.1
Chỉ mục lớp nghĩa
70
2.4.2
Chỉ mục quan hệ nghĩa
72
2.5
TRUY XUẤT CHỈ MỤC NGỮ NGHĨA
74
2.5.1
Truy xuất chỉ mục lớp nghĩa
74
2.5.2
Truy xuất chỉ mục quan hệ nghĩa
75
2.5.3
Tính toán khoảng cách ngữ nghĩa
75
2.5.4
Tính độ liên quan để xếp hạng
75
2.6
MÔ HÌNH HỆ THỐNG
76
2.6.1
Thành phần Phân tích tài liệu
76
2.6.2
Thành phần Lập chỉ mục
78
2.6.3
Thành phần Phân tích câu truy vấn
80
2.6.4
Thành phần Truy xuất chỉ mục
81
2.6.5
Thành phần Xếp hạng
82
2.7
CÁC THAM SỐ CỦA MÔ HÌNH
82
2.7.1
VLO
82
2.7.2
Mô hình phân tích cú pháp phụ thuộc
82
2.7.3
Mô hình gán nhãn nghĩa
83
2.7.4
Hệ số kết hợp kết quả so khớp
83
2.7.5
Hệ số điều chỉnh trọng số vị trí
83
CHƯƠNG 3.
3.1
CƠ SỞ TRI THỨC NGỮ NGHĨA TỪ VỰNG
TIẾNG VIỆT
ONTOLOGY LÀ GÌ?
84
86
2
3.2
NÉT NGHĨA LÀ GÌ?
87
3.3
CƠ SỞ TRI THỨC NGỮ NGHĨA TỪ VỰNG TIẾNG VIỆT LÀ GÌ?
87
3.4
LÝ DO XÂY DỰNG VLO
90
3.4.1
Thể hiện chi tiết nghĩa của từ vựng
3.4.2
Thể hiện chi tiết các ràng buộc giữa các nghĩa từ vựng
101
3.4.3
Có khả năng suy diễn các quan hệ phụ thuộc
102
3.5
CẤU TRÚC CỦA CƠ SỞ TRI THỨC NGỮ NGHĨA TỪ VỰNG
TIẾNG VIỆT
97
103
3.5.1
Các thành phần trong VLO
103
3.5.2
Các đặc điểm của VLO
114
3.5.3
Xây dựng VLO
115
3.6
MỘT SỐ VẤN ĐỀ KHI XÂY DỰNG VLO
115
3.6.1
Tính khách quan
116
3.6.2
Chi phí xây dựng
119
3.6.3
Đánh giá VLO
120
3.7
KẾT CHƯƠNG
CHƯƠNG 4.
4.1
121
PHƯƠNG PHÁP PHÂN TÍCH NGỮ NGHĨA CỤM TỪ
TIẾNG VIỆT
PHÂN TÍCH NGỮ NGHĨA CỦA CÂU
123
123
4.1.1
Bài toán
123
4.1.2
Hướng giải quyết vấn đề
124
4.2
GÁN NHÃN NGHĨA CHO TỪ VỰNG
128
4.3
PHÂN TÍCH QUAN HỆ PHỤ THUỘC THEO NGỮ NGHĨA CÂU
129
4.3.1
Rút gọn quan hệ phụ thuộc
129
4.3.2
Áp dụng các ràng buộc nghĩa và mở rộng quan hệ nghĩa
131
4.3.3
Biểu diễn theo cấu trúc ngữ nghĩa
138
4.4
ĐÁNH GIÁ KẾT QUẢ PHÂN TÍCH NGỮ NGHĨA
138
4.4.1
Đánh giá kết quả gán nhãn nghĩa
139
4.4.2
Đánh giá kết quả phân tích ngữ nghĩa
140
4.4.3
Đánh giá tác dụng của việc phân tích ngữ nghĩa
143
4.5
KẾT CHƯƠNG
CHƯƠNG 5.
5.1
144
THỬ NGHIỆM VÀ ĐÁNH GIÁ
CÁC CHỈ SỐ ĐÁNH GIÁ
5.1.1
145
145
Độ chính xác, độ phủ và độ F
3
145
5.1.2
Độ chính xác bộ phận
146
5.1.3
Độ chính xác trung bình
147
5.2
BỘ DỮ LIỆU THỬ NGHIỆM
147
5.3
CÀI ĐẶT THỬ NGHIỆM
150
5.3.1
Chương trình TF.IDF
150
5.3.2
Chương trình BM25
151
5.3.3
Chương trình SEMDORE
152
5.3.4
Chương trình QRYEXP
152
5.3.5
Chương trình WE
153
5.3.6
Chương trình LDA
153
5.4
CÁC THỬ NGHIỆM
154
5.4.1
Thử nghiệm về ảnh hưởng của mô hình
154
5.4.2
Thử nghiệm về ảnh hưởng của term
156
5.4.3
So sánh với một phương pháp Automatic Query Expansion
160
5.4.4
So sánh với một phương pháp sử dụng vector ngữ nghĩa
161
5.4.5
So sánh với một phương pháp sử dụng LDA
162
5.4.6
So sánh hiệu quả của mô hình đề xuất và các mô hình liên quan
164
5.5
KẾT CHƯƠNG
165
KẾT LUẬN VÀ KIẾN NGHỊ
166
Kết luận
166
Kiến nghị
168
DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ
CÓ LIÊN QUAN ĐẾN LUẬN ÁN
170
Danh mục Bài báo hội nghị
170
Danh mục Bài báo tạp chí
170
Danh mục Đề tài nghiên cứu khoa học
171
TÀI LIỆU THAM KHẢO
Tiếng Việt
Tiếng Anh
PHỤ LỤC A
A.1. Xác định hệ số điều khiển trọng số vị trí
1
A.2. Truy hồi chỉ mục lớp nghĩa
1
A.3. Truy hồi chỉ mục quan hệ nghĩa
3
4
A.4. Tính toán độ liên quan xếp hạng
4
A.5. Tạo từ điển và danh sách posting cho chỉ mục lớp nghĩa
5
A.6. Tính trọng số trong chỉ mục lớp nghĩa
5
A.7. Tạo từ điển và danh sách postings cho chỉ mục quan hệ nghĩa
6
A.8. Tính trọng số cho chỉ mục quan hệ nghĩa
7
A.9. Tính trọng số truy vấn
7
5
DANH MỤC BẢNG
Bảng 1.1
Minh họa định dạng CoNLL của câu "các phương trình dựa trên
lý thuyết va chạm " .................................................................................22
Bảng 3.1
Bảng từ vựng, giải nghĩa và các nét nghĩa tương ứng của các từ
"máy bay", "máy ảnh", "máy bay phản lực", "máy bay trực thăng"
và "máy bay lên thẳng" ..........................................................................98
Bảng 3.2
Danh sách các lớp nghĩa cấp 1 trong VLO tương ứng với các
từ loại tiếng Việt theo dự án VLSP ......................................................105
Bảng 3.3
Danh sách các quan hệ phụ thuộc trong Định nghĩa 2.1 và các
quan hệ phụ thuộc tương ứng được triển khai thực tế trong VLO ......107
Bảng 3.4
Danh sách các quan hệ phụ thuộc theo Định nghĩa 2.1 và các
quan hệ phụ thuộc tương ứng của Stanford do De Marneffe và
các đồng tác giả công bố ......................................................................108
Bảng 3.5
Các trường hợp có thể xác lập quan hệ phụ thuộc liên từ ................... 112
Bảng 3.6
Danh sách các quan hệ phụ thuộc được triển khai trong VLO
được dùng trong các dạng từ ghép....................................................... 113
Bảng 4.1
Các trường hợp rút gọn quan hệ phụ thuộc .........................................129
Bảng 4.2
Bảng các trường hợp xử lý điều chỉnh từ ghép ...................................132
Bảng 4.3
Bảng chuyển đổi các quan hệ phụ thuộc cú pháp về quan hệ nghĩa ...136
Bảng 4.4
Mô tả bộ dữ liệu thử nghiệm xác định nghĩa của từ vựng ...................139
Bảng 4.5
Kết quả huấn luyện và dự đoán nhãn nghĩa của mô hình đề xuất
và mô hình ME ....................................................................................140
Bảng 4.6
Mô tả tập câu S dùng để đánh giá kết quả phân tích ngữ nghĩa ..........140
Bảng 4.7
Mô tả tập câu G đã được phân tích ngữ nghĩa thủ công ......................140
Bảng 4.8
Kết quả phân tích ngữ nghĩa theo từng loại quan hệ ...........................141
Bảng 4.9
Kết quả phân tích ngữ nghĩa trong trường hợp không phân biệt
loại quan hệ bổ nghĩa ...........................................................................141
Bảng 4.10 Kết quả phân tích ngữ nghĩa chỉ sử dụng phương pháp phân tích
cú pháp phụ thuộc trong trường hợp có phân biệt các loại quan hệ
bổ nghĩa................................................................................................142
Bảng 4.11 Kết quả phân tích ngữ nghĩa chỉ sử dụng phương pháp phân tích
cú pháp phụ thuộc trong trường hợp không phân biệt các loại
quan hệ bổ nghĩa ..................................................................................142
1
Bảng 4.12 So sánh kết quả phân tích ngữ nghĩa của phương pháp đề xuất và
phương pháp phân tích cú pháp phụ thuộc ..........................................143
Bảng 4.13 So sánh kết quả truy xuất câu theo các phương pháp ..........................144
Bảng 5.1
Bộ dữ liệu thử nghiệm truy xuất văn bản tiếng Việt
VN-CRANFIELD-1 ............................................................................148
Bảng 5.2 S o sánh kết quả truy xuất văn bản trên dữ liệu gốc và dữ liệu
VN-CRANFIELD-1 ............................................................................149
Bảng 5.3
Thử nghiệm kết quả truy xuất theo từng mô hình với bộ dữ liệu
Cranfield ..............................................................................................155
Bảng 5.4
So sánh kết quả thử nghiệm của mô hình truy xuất của luận án với
baseline là hai mô hình TF.IDF và BM25 ...........................................157
Bảng 5.5
So sánh kết quả thử nghiệm truy xuất văn bản tiếng Việt trong
trường hợp chỉ sử dụng từng đặc trưng từ ghép, lớp nghĩa, quan hệ
cú pháp và quan hệ ngữ nghĩa .............................................................158
Bảng 5.6
Các nghĩa từ vựng được bổ sung vào VLO .........................................159
Bảng 5.7
So sánh kết quả thử nghiệm mô hình truy xuất của luận án trong
trường hợp bổ sung dữ liệu cho VLO với baseline là mô hình
TF.IDF và BM25..................................................................................159
Bảng 5.8
Kết quả truy xuất văn bản của mô hình đề xuất và mô hình
mở rộng câu truy vấn dùng từ đồng nghĩa và từ có một phần
nghĩa chung ..........................................................................................160
Bảng 5.9
So sánh kết quả truy xuất của mô hình truy xuất sử dụng vector
ngữ nghĩa với mô hình truy xuất của luận án ......................................161
Bảng 5.10 So sánh kết quả truy xuất của mô hình truy xuất sử dụng LDA
với mô hình truy xuất của luận án .......................................................163
Bảng 5.11 Kết quả thử nghiệm truy xuất văn bản sử dụng mô hình LDA
với các tham số k, và .....................................................................163
Bảng 5.12 Kết quả truy xuất văn bản tiếng Việt của mô hình đề xuất và
các mô hình liên quan. .........................................................................164
2
DANH MỤC HÌNH ẢNH
Hình 1.1
Mô hình truy xuất văn bản bản căn bản.................................................10
Hình 1.2
Mô hình truy xuất văn bản bản theo hướng tự động mở rộng
câu truy vấn............................................................................................18
Hình 1.3
Minh họa a) cấu trúc ngữ đoạn và b) cấu trúc phụ thuộc ......................21
Hình 2.1
Mô hình chung cho truy xuất văn bản được đề xuất .............................46
Hình 2.2
Ma trận Term-Document được lập cho thành phần C trong văn bản,
trong đó ci là các nghĩa từ vựng có trong chuỗi C của tất cả văn bản,
dj là văn bản thứ j trong tập tài liệu, TFij là giá trị tần số của nghĩa ci
có trong văn bản dj .................................................................................50
Hình 2.3
Ma trận Term-Sentence được lập cho thành phần R trong văn bản,
trong đó ri là các quan hệ trên các nghĩa từ vựng có trong
chuỗi R trong tất cả văn bản, dj là văn bản thứ j trong tập tài liệu,
sjk là chuỗi quan hệ nghĩa thứ k trong văn bản dj, TFj,i,k là giá trị
tần số của quan hệ phụ thuộc nghĩa ri có trong chuỗi quan
hệ phụ thuộc thứ k tương ứng với cụm từ sk trong văn bản dj...............51
Hình 2.4
Minh họa việc tính trọng số lớp nghĩa và quan hệ nghĩa a) đồ thị
G được khởi tạo và b) đồ thị G được tính trọng số đỉnh sau Bước 4. ...66
Hình 2.5
Tổ chức chỉ mục lớp nghĩa gồm: a) Từ điển và postings list
b) Tổng trọng số của các lớp nghĩa trong từng tài liệu ..........................71
Hình 2.6
Tổ chức chỉ mục quan hệ nghĩa gồm a) Từ điển và postings list
b) Tổng trọng số của các quan hệ nghĩa trong một câu .........................73
Hình 2.7
Mô hình hệ thống tìm kiếm văn bản tiếng Việt dựa trên ngữ nghĩa ......76
Hình 2.8
Sơ đồ thành phần phân tích tài liệu........................................................77
Hình 2.9
Sơ đồ thành phần lập chỉ mục ................................................................78
Hình 2.10 Sơ đồ thành phần phân tích câu truy vấn ...............................................80
Hình 2.11 Sơ đồ thành phần truy xuất chỉ mục ......................................................81
Hình 3.1
Minh họa a) Từ điển giải nghĩa và b) Từ điển nhãn nghĩa ....................84
Hình 3.2
Kết quả phân tích cú pháp của câu "her are a pupils" của
chương trình phân tích cú pháp tự động của Stanford...........................85
Hình 3.3
Minh họa các lớp nghĩa, các nghĩa từ vựng và các quan hệ phụ
thuộc trong câu "mèo nhỏ đuổi chuột nhỏ" được tổ chức trên VLO .....89
Hình 3.4
Kết quả phân tích cú pháp phụ thuộc của câu1) "sử dụng biểu đồ
của lực và phương trình Newton"..........................................................91
1
Hình 3.5
Kết quả phân tích cú pháp phụ thuộc của ngữ đoạn 2)"các đặc tính
của dòng chảy ổn định và không ổn định" ............................................92
Hình 3.6
Kết quả phân tích cú pháp phụ thuộc của câu 3) "máy bay cánh
cong bay trong dòng chảy siêu thanh" ................................................93
Hình 3.7
Kết quả phân tích cú pháp phụ thuộc hợp lý của câu 1) "sử dụng
biểu đồ của lực và phương trình Newton" .............................................93
Hình 3.8
Kết quả phân tích cú pháp phụ thuộc hợp lý của ngữ đoạn 2)
"các đặc tính của dòng chảy ổn định và không ổn định" ......................94
Hình 3.9
Kết quả phân tích cú pháp phụ thuộc hợp lý của câu 3)
"máy bay cánh cong bay trong dòng chảy siêu thanh" .........................95
Hình 3.10 Minh họa cách phân lớp nghĩa từ vựng trong VLO ..............................97
Hình 3.11 Minh họa cấu trúc của VLO ................................................................104
Hình 3.12 Quy trình chung để xây dựng ngữ liệu ................................................ 116
Hình 4.1
Sơ đồ quá trình phân tích ngữ nghĩa của câu tiếng Việt ......................127
Hình 4.2
Minh họa đồ thị quan hệ sau khi chuyển tên quan hệ..........................138
2
DANH MỤC TỪ VIẾT TẮT
BIM
Binary Independence Model
CRF
Conditional Random Field
DNN
Deep Neural Network
DRT
Discourse Representation Theory
ESA
Explicit Semantic Analysis
HMM
Hidden Markov Model
HPSG
Head-driven Phrase Structure
LDA
Latent Dirichlet Allocation
LSA
Latent Semantic Analysis
LSI
Latent Semantic Index
MAP
Mean Average Precision
ME
Maximum Entropy
POS
Part of Speech
PSG
Phrase Structure Grammar
SCI
Semantic Class Index
SRI
Semantic Relation Index
TBL
Tranformation Based Learning
VLO
Vietnamese Lexicon Ontology
WE
Word Embeddings
1
MỞ ĐẦU
1. Lý do lựa chọn đề tài
Ngôn ngữ là phương tiện để diễn đạt suy nghĩ của con người. Trong đó, văn bản
là một trong những cách thể hiện của ngôn ngữ và là một trong những phương tiện
lưu trữ thông tin và tri thức của con người.
Ngày nay, với sự phát triển của công nghệ thông tin, văn bản được tạo ra và lưu
trữ với khối lượng lớn. Trong đó, khối lượng văn bản được lưu trữ theo kỹ thuật số
ngày càng nhiều. Vì thế, nhu cầu khai thác và tìm kiếm thông tin cũng như tri thức
chứa đựng trong các tài liệu văn bản này cần được nghiên cứu và giải quyết để nâng
cao hiệu quả. Hiệu quả được thể hiện thông qua việc giảm thời gian xác định tài liệu
chứa thông tin cần thiết.
Truy xuất thông tin là một lĩnh vực nghiên cứu đã hình thành từ những năm
1950 [97] với mục tiêu hỗ trợ cho việc tìm kiếm tài liệu theo từ khóa trong các thư
viện. Khi số lượng tài liệu điện tử tăng, việc chọn một danh sách từ khóa mô tả chính
xác nhất cho từng tài liệu trở thành một công việc tốn nhiều công sức. Vì thế, việc
tìm kiếm tài liệu đã được thực hiện trên dữ liệu toàn văn bản (full text search) thay vì
thực hiện trên một danh sách các từ khóa được lựa chọn cẩn trọng. Từ đó, việc truy
xuất văn bản bản phát sinh một vấn đề cần giải quyết. Đó là làm thế nào tìm được
những tài liệu văn bản thỏa một yêu cầu thông tin được biểu diễn bằng một câu truy
vấn gồm từ, một ngữ đoạn hoặc một câu.
Khi áp dụng phương pháp truy xuất văn bản theo từ khóa cho dữ liệu toàn văn
bản thì tỉ lệ các tài liệu văn bản thỏa yêu cầu truy xuất, thể hiện ở độ chính xác, trở
nên thấp đi. Có hai nguyên nhân có thể giải thích hiện tượng này. Thứ nhất, các từ
khóa được chọn để câu truy vấn chưa thể hiện được đặc điểm của tài liệu cần truy
xuất, chẳng hạn dùng câu truy vấn "tìm giá trị của x" để truy xuất văn bản về "giải
phương trình bậc hai". Do từ khóa được chọn là những từ phổ biến nên số lượng tài
liệu truy xuất được tăng lên làm giảm độ chính xác của kết quả. Thứ hai, các từ khóa
1
được chọn có thể không xuất hiện trong văn bản cần truy xuất do cách sử dụng từ ngữ
của tác giả của văn bản và của người truy xuất văn bản khác nhau. Chẳng hạn dùng
câu truy vấn "máy bay đáp trên mặt nước" để tìm tài liệu viết về "thủy phi cơ". Trường
hợp này làm giảm số lượng tài liệu thỏa yêu cầu từ đó làm giảm độ chính xác của kết
quả truy xuất. Hai nguyên nhân này là vấn đề cần giải quyết của các nghiên cứu về
truy xuất văn bản.
Bài toán truy xuất văn bản đã được nghiên cứu theo các cách tiếp cận đại số
tuyến tính, xác suất, xử lý ngôn ngữ tự nhiên và học máy. Các nghiên cứu về truy
xuất văn bản theo hướng tiếp cận xử lý ngôn ngữ tự nhiên có thể phân chia theo hai
nhóm phương pháp chính. Nhóm phương pháp thứ nhất giải quyết vấn đề bằng cách
sử dụng tri thức trong một lĩnh vực cụ thể để phân tích tài liệu và câu truy vấn. Kết
quả phân tích sẽ được sử dụng trong quá trình so khớp văn bản và câu truy vấn. Nhóm
phương pháp này gồm có các nghiên cứu truy xuất văn bản bằng cách sử dụng
ontology và mở rộng câu truy vấn (query expansion). Nhóm phương pháp thứ hai giải
quyết vấn đề bằng cách sử dụng các đặc điểm phân bố của các đối tượng (có thể là
từ, thuật ngữ hoặc tên gọi các thực thể) được trình bày trong tài liệu và câu truy vấn
vào quá trình so khớp văn bản và câu truy vấn. Nhóm phương pháp này gồm có các
nghiên cứu về mô hình truy xuất văn bản như mô hình xác suất, mô hình chủ đề hoặc
vector ngữ nghĩa (word embedding), mô hình mạng neuron và mô hình đồ thị. Các
nghiên cứu về truy xuất văn bản cũng có thể theo hướng kết hợp từ hai nhóm phương
pháp trên bằng cách phân tích văn bản và câu truy vấn theo nhóm phương pháp thứ
nhất và sử dụng các mô hình truy xuất trong nhóm phương pháp thứ hai để cải tiến
độ chính xác của kết quả truy xuất.
Đề tài luận án nghiên cứu truy xuất văn bản theo cách tiếp cận xử lý ngôn ngữ
tự nhiên theo nhóm phương pháp thứ nhất, trong đó đi sâu vào phân tích ngữ nghĩa
của câu trong ngôn ngữ tự nhiên thay vì dùng ontology cho lĩnh vực riêng. Đề tài này
được chọn vì các lý do sau:
Thứ nhất, phân tích ngữ nghĩa của văn bản có thể được giải quyết theo nhiều
cách khác nhau nhưng đều cần sử dụng đến tri thức liên quan đến ngôn ngữ. Tri thức
này có thể được thể hiện bằng các luật văn phạm hay được thể hiện trong kết quả chú
2
giải cú pháp của các câu. Theo hướng truyền thống, ngữ nghĩa sẽ được phân tích dựa
trên các luật văn phạm đã được tổng hợp từ các nghiên cứu về ngôn ngữ học. Theo
hướng học máy, ngữ nghĩa sẽ được phân tích dựa vào các quy luật được phát hiện khi
xử lý ngữ liệu có kích thước lớn trong đó ngữ liệu cần được chú giải tùy theo yêu cầu
của bài toán. Quá trình chú giải các tài liệu đều cần sử dụng đến tri thức về ngôn ngữ
học. Vì thế, đề tài chọn hướng tiếp cận theo xử lý ngôn ngữ tự nhiên nhằm chứng
minh các tri thức về ngôn ngữ có vai trò quan trọng trong truy xuất thông tin và góp
phần vào việc xây dựng tài nguyên cơ bản cho các nghiên về phân tích ngữ nghĩa cho
văn bản tiếng Việt.
Thứ hai, các nghiên cứu truy xuất văn bản bản theo hướng xử lý ngôn ngữ tự
nhiên đều cần một tài nguyên ngôn ngữ quan trọng, đó là từ điển, từ điển đồng nghĩa
hoặc ontology. Trong đó, từ điển có thể sử dụng chung cho nhiều lĩnh vực còn
ontology thường được xây dựng cho từng lĩnh vực nghiên cứu riêng. Đối với ontology
theo lĩnh vực, đối tượng được xây dựng là các khái niệm trong lĩnh vực được nghiên
cứu. Đối với ontology đa lĩnh vực, chẳng hạn WordNet, đối tượng được xây dựng
cũng là các khái niệm nhưng không giới hạn lĩnh vực áp dụng. Các quan hệ trong các
ontology này chủ yếu là quan hệ giữa các khái niệm trong thế giới thực. Hiện tại,
chưa có ontology về từ vựng của một ngôn ngữ để cho thấy các quan hệ về mặt văn
phạm và ngữ nghĩa giữa các từ trong ngữ đoạn hoặc câu. Vì thế, đề tài chọn hướng
tiếp cận xử lý ngôn ngữ tự nhiên cho bài toán truy xuất thông tin để nghiên cứu việc
áp dụng ontology trong phân tích ngữ nghĩa của câu.
Thứ ba, hiện tại các công bố về truy xuất văn bản bản theo hướng tiếp cận xử lý
ngôn ngữ tự nhiên ở mức ngữ nghĩa còn ít. Vì thế, đề tài được nghiên cứu để đóng
góp kết quả cho hướng nghiên cứu về xử lý ngôn ngữ tự nhiên.
2. Mục đích của luận án
Mục đích của luận án là nghiên cứu đề xuất mô hình truy xuất văn bản bản dựa
trên kết quả nghiên cứu về phân tích ngữ nghĩa của câu tiếng Việt theo ngôn ngữ học
tính toán. Kết quả nghiên cứu của luận án là để chứng tỏ được khả năng giải quyết
vấn đề truy xuất thông tin của hướng tiếp cận ngôn ngữ học tính toán. Bên cạnh đó,
3
kết quả xây dựng ngữ liệu trong quá trình nghiên cứu có thể góp phần vào việc xây
dựng tài nguyên ngôn ngữ phục vụ cho các nghiên cứu về xử lý văn bản tiếng Việt.
3. Nội dung nghiên cứu
Để đạt được mục đích nghiên cứu, các nội dung cần được nghiên cứu trong luận
án như sau:
-
Tổng quan về truy xuất văn bản bản và truy xuất văn bản bản theo ngữ nghĩa.
-
Mô hình hệ thống truy xuất văn bản bản theo ngữ nghĩa với các phương pháp
lập chỉ mục và truy xuất chỉ mục ngữ nghĩa.
-
Phương pháp phân tích ngữ nghĩa của một câu và một văn bản tiếng Việt.
Phương pháp này được nghiên cứu để phân tích ngữ nghĩa của văn bản và
câu câu truy vấn. Kết quả phân tích sẽ được sử dụng để lập chỉ mục và truy
xuất theo mô hình đã nghiên cứu.
4. Đối tượng nghiên cứu
Từ mục đích của luận án, đối tượng nghiên cứu được xác định gồm:
-
Mô hình hệ thống truy xuất văn bản tiếng Việt dựa trên ngữ nghĩa.
-
Ngữ nghĩa của câu và văn bản tiếng Việt.
-
Khoảng cách ngữ nghĩa giữa hai câu tiếng Việt và giữa một câu và một văn
bản tiếng Việt.
-
Chỉ mục theo ngữ nghĩa cho các văn bản tiếng Việt.
5. Phạm vi nghiên cứu
Phạm vi nghiên cứu về xử lý ngôn ngữ tự nhiên:
-
Phân tích ngữ nghĩa của từng ngữ đoạn hoặc câu riêng lẻ, không phân tích
ngữ nghĩa diễn ngôn của văn bản. Vì thế, các vấn đề về sở chỉ, hồi chỉ và
tỉnh lược trong văn bản chưa được giải quyết.
-
Phân tích ngữ nghĩa của ngữ đoạn và câu dựa trên ngữ nghĩa trực tiếp của từ
vựng, không xử lý hàm ý, ẩn ý.
4
-
Ngữ nghĩa của văn bản là ngữ nghĩa phân tích được ở các câu trong văn bản,
không chứa ngữ nghĩa được suy diễn từ văn bản.
-
Văn bản đảm bảo tính liền lạc (cohesion), không có hiện tượng chuyển mạch
ý.
Phạm vi nghiên cứu về truy xuất thông tin:
-
Nghiên cứu mô hình truy xuất thông tin theo hướng cải tiến độ phủ và độ
chính xác, không đặt vấn đề về hiệu năng (thời gian xử lý câu truy vấn, kích
thước chỉ mục, xử lý phân tán, v.v.) của hệ thống khi được triển khai thực tế.
-
Cấu trúc chỉ mục được đề xuất ở mức logic, không đặt vấn đề cài đặt, tối ưu
và nén chỉ mục.
6. Ý nghĩa khoa học và thực tiễn của đề tài
Về mặt khoa học, luận án nghiên cứu giải quyết bài toán phân tích ngữ nghĩa
của câu để làm cơ sở cho việc đề xuất mô hình truy xuất văn bản bản tiếng Việt dựa
trên ngữ nghĩa. Bài toán phân tích ngữ nghĩa của câu được nghiên cứu theo cách tiếp
cận ngôn ngữ học tính toán, sử dụng khái niệm ngữ nghĩa theo ngữ nghĩa học hình
thức. Luận án có các đóng góp về mặt khoa học như sau:
1) Đề xuất ngôn ngữ biểu diễn ngữ nghĩa cụm từ theo Universal Dependency
và mô hình truy xuất văn bản có cơ chế so khớp và tính toán độ liên quan ở
mức ngữ nghĩa của câu.
2) Đề xuất cấu trúc ontology cho nghĩa từ vựng tiếng Việt (VLO) chứa các
nghĩa từ vựng, lớp nghĩa và các ràng buộc ngữ nghĩa giữa các nghĩa từ vựng
và giữa các lớp nghĩa. VLO được xây dựng thủ công để sử dụng tại bước
gán nhãn nghĩa, kiểm tra và điều chỉnh các quan hệ phụ thuộc trong phân
tích ngữ nghĩa cụm từ.
3) Đề xuất phương pháp phân tích ngữ nghĩa cụm từ bằng cách biến đổi kết
quả phân tích cú pháp phụ thuộc qua ba giai đoạn: a) Phân tích cú pháp phụ
thuộc, b) Gán nhãn ngữ nghĩa từ vụng và c) Điều chỉnh các quan hệ phụ
thuộc trên cây cú pháp phụ thuộc dựa vào các ràng buộc ngữ nghĩa trong
VLO.
5
4) Đề xuất phương pháp tính toán độ liên quan trên ngôn ngữ biểu diễn ngữ
nghĩa theo độ đo Jaccard-Tanimoto.
Bên cạnh các đóng góp về mặt khoa học, về mặt thực tiễn luận án có các đóng
góp sau:
1) Cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt (VLO) với hơn 2800 nghĩa từ
vựng và hơn 17000 ràng buộc ngữ nghĩa (gồm kết quả chú giải thủ công và
suy diễn tự động) để sử dụng trong các phương pháp phân tích cú pháp có
ràng buộc ngữ nghĩa.
2) Ngữ liệu gồm 1000 câu và ngữ đoạn được gán nhãn ngữ nghĩa thủ công và
chú giải các quan hệ phụ thuộc theo dạng Universal Dependency.
3) Mô hình truy xuất văn bản tiếng Việt theo ngữ nghĩa với các thành phần và
kỹ thuật tính toán của nó có thể được cài đặt để sử dụng thực tế. Mô hình
được nghiên cứu có kết quả truy xuất tốt hơn hai mô hình vector với công
thức xếp hạng TF.IDF và mô hình xác suất với công thức xếp hạng BM25.
7. Cấu trúc của luận án
Ngoài phần Mở đầu và Kết luận – kiến nghị, luận án được trình bày qua năm
chương như sau:
-
Chương 1 trình bày bài toán truy xuất văn bản bản nói chung, các mô hình
giải quyết bài toán này và phương pháp đánh giá kết quả truy xuất văn bản
của một giải pháp. Kế đến, một số kết quả nghiên cứu liên quan đến đề tài
luận án được trình bày để thấy được các giải pháp hiện có cho vấn đề truy
xuất văn bản bản theo ngữ nghĩa. Sau đó, các cơ sở lý thuyết về ngữ nghĩa
và xử lý ngôn ngữ tự nhiên có liên quan đến phân tích ngữ nghĩa được trình
bày để có cơ sở xác định cụ thể vấn đề truy xuất văn bản bản tiếng Việt dựa
trên ngữ nghĩa và phương hướng giải quyết vấn đề này.
-
Chương 2 trình bày mô hình truy xuất văn bản bản được nghiên cứu để áp
dụng cho bài toán truy xuất văn bản bản theo ngữ nghĩa. Các nội dung nghiên
cứu trong CHƯƠNG 2 gồm mô hình truy xuất văn bản, khoảng cách ngữ
6
nghĩa giữa văn bản và câu truy vấn, công thức tính trọng số cho các term,
phương pháp lập chỉ mục và truy xuất chỉ mục.
-
Chương 3 giới thiệu về Cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt (VLO),
phương pháp xây dựng, tác dụng của nó và một số vấn đề liên quan đến việc
xây dựng VLO. VLO được xây dựng nhằm mục đích tạo hệ thống ký hiệu
ngữ nghĩa của từ vựng để sử dụng trong bài toán phân tích ngữ nghĩa. Bên
cạnh đó, VLO cũng chứa các ràng buộc ngữ nghĩa có trong các câu thực tế
để sử dụng trong việc điều chỉnh kết quả phân tích cú pháp phụ thuộc và mở
rộng các quan hệ phụ thuộc trong phân tích ngữ nghĩa.
-
Chương 4 trình bày phương pháp phân tích ngữ nghĩa cụm từ tiếng Việt dựa
vào kết quả phân tích cú pháp phụ thuộc tiếng Việt kết hợp với các ràng buộc
ngữ nghĩa đã ghi nhận được trong VLO. Mục tiêu của Chương 4 là phân tích
một câu tiếng Việt thành các quan hệ phụ thuộc giữa các nghĩa từ vựng có
trong câu đó. Kết quả này chính là biểu diễn ngữ nghĩa của câu đã được phân
tích. Kết quả phân tích ngữ nghĩa được đánh giá theo độ phủ và độ chính xác
trên các quan hệ phụ thuộc giữa các nghĩa từ vựng phân tích được so với kết
quả phân tích ngữ nghĩa thủ công. Kết quả này cũng được so sánh với kết
quả phân tích quan hệ phụ thuộc khi chỉ dùng phương pháp phân tích cú
pháp phụ thuộc mới nhất cho câu tiếng Việt.
-
Chương 5 trình bày kết quả đánh giá mô hình truy xuất văn bản bản tiếng
Việt dựa trên ngữ nghĩa với baseline là mô hình vector với công thức tính
toán độ liên quan TF.IDF và mô hình xác suất với công thức tính toán độ
liên quan BM25. Kết quả truy xuất của mô hình được nghiên cứu cũng được
so sánh với kết quả truy xuất của mô hình sử dụng phương pháp mở rộng
câu truy vấn sử dụng ontology là VLO để thấy được tính hiệu quả của mô
hình được nghiên cứu.
7
- Xem thêm -