Đăng ký Đăng nhập
Trang chủ Mô hình tìm kiếm văn bản tiếng việt dựa trên ngữ nghĩa...

Tài liệu Mô hình tìm kiếm văn bản tiếng việt dựa trên ngữ nghĩa

.PDF
200
1
86

Mô tả:

ĐẠI HỌC QUỐC GIA TP. HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN Đỗ Thị Thanh Tuyền MÔ HÌNH TÌM KIẾM VĂN BẢN TIẾNG VIỆT DỰA TRÊN NGỮ NGHĨA LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH TP. HỒ CHÍ MINH – NĂM 2020 ĐẠI HỌC QUỐC GIA TP. HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN Đỗ Thị Thanh Tuyền MÔ HÌNH TÌM KIẾM VĂN BẢN TIẾNG VIỆT DỰA TRÊN NGỮ NGHĨA Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 62.48.01.01 PHẢN BIỆN: 1. PGS. TS. Trần Văn Lăng 2. PGS. TS. Quản Thành Thơ 3. PGS. TS. Đỗ Thanh Nghị PHẢN BIỆN ĐỘC LẬP: 1. PGS. TS. Đỗ Thanh Nghị 2. TS. Ngô Quốc Việt NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. PGS. TS. Nguyễn Tuấn Đăng 2. PGS. TS. Vũ Đức Lung TP. HỒ CHÍ MINH – NĂM 2020 LỜI CAM ĐOAN Tôi cam đoan rằng nội dung luận án này do chính tôi trực tiếp thực hiện và chưa được công bố trong bất kỳ khóa luận tốt nghiệp, luận văn thạc sĩ hay luận án tiến sĩ nào ngoài những báo cáo hội nghị, bài báo tạp chí hay đề tài nghiên cứu khoa học phục vụ cho chính luận án này. Tác giả luận án Đỗ Thị Thanh Tuyền MỤC LỤC DANH MỤC BẢNG 1 DANH MỤC HÌNH ẢNH 1 DANH MỤC TỪ VIẾT TẮT 1 MỞ ĐẦU 1 1. Lý do lựa chọn đề tài 1 2. Mục đích của luận án 3 3. Nội dung nghiên cứu 4 4. Đối tượng nghiên cứu 4 5. Phạm vi nghiên cứu 4 6. Ý nghĩa khoa học và thực tiễn của đề tài 5 7. Cấu trúc của luận án 6 CHƯƠNG 1. 1.1 TỔNG QUAN 8 TRUY XUẤT THÔNG TIN 8 1.1.1 Lịch sử nghiên cứu 1.1.2 Một số mô hình truy xuất thông tin căn bản 1.2 8 TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU 10 13 1.2.1 Chú giải ngữ nghĩa 14 1.2.2 Mở rộng câu truy vấn tự động 17 1.3 CÁC CƠ SỞ CHO TRUY XUẤT VĂN BẢN TIẾNG VIỆT 19 1.3.1 Phân tích hình thái 19 1.3.2 Phân tích cú pháp phụ thuộc 20 1.3.3 Phân tích ngữ nghĩa của câu 23 1.4 VẤN ĐỀ NGỮ NGHĨA TRONG TRUY XUẤT VĂN BẢN TIẾNG VIỆT 24 1.4.1 Ngữ nghĩa của từ 25 1.4.2 Ngữ nghĩa của ngữ đoạn 26 1.4.3 Ngữ nghĩa của văn bản 27 1.4.4 Truy xuất văn bản bản theo ngữ nghĩa 28 1.5 CÁC VẤN ĐỀ CẦN NGHIÊN CỨU CHƯƠNG 2. 2.1 MÔ HÌNH TRUY XUẤT VĂN BẢN DỰA TRÊN NGỮ NGHĨA BIỂU DIỄN NGỮ NGHĨA 29 33 33 1 2.1.1 Ngôn ngữ biểu diễn ngữ nghĩa 33 2.1.2 Cấu trúc biểu diễn ngữ nghĩa của cụm từ 44 2.1.3 Cấu trúc biểu diễn ngữ nghĩa của văn bản 45 2.2 ĐỀ XUẤT MÔ HÌNH CHUNG 46 2.2.1 Các yếu tố ảnh hưởng đến độ chính xác và độ phủ 47 2.2.2 Biểu diễn văn bản và câu truy vấn 50 2.2.3 Tính toán độ liên quan giữa văn bản và câu truy vấn 52 2.3 ĐỘ ĐO KHOẢNG CÁCH NGỮ NGHĨA 52 2.3.1 Khoảng cách Jaccard-Tanimoto 52 2.3.2 Độ đo khoảng cách ngữ nghĩa 53 2.3.3 Các trọng số 63 2.4 CHỈ MỤC NGỮ NGHĨA 69 2.4.1 Chỉ mục lớp nghĩa 70 2.4.2 Chỉ mục quan hệ nghĩa 72 2.5 TRUY XUẤT CHỈ MỤC NGỮ NGHĨA 74 2.5.1 Truy xuất chỉ mục lớp nghĩa 74 2.5.2 Truy xuất chỉ mục quan hệ nghĩa 75 2.5.3 Tính toán khoảng cách ngữ nghĩa 75 2.5.4 Tính độ liên quan để xếp hạng 75 2.6 MÔ HÌNH HỆ THỐNG 76 2.6.1 Thành phần Phân tích tài liệu 76 2.6.2 Thành phần Lập chỉ mục 78 2.6.3 Thành phần Phân tích câu truy vấn 80 2.6.4 Thành phần Truy xuất chỉ mục 81 2.6.5 Thành phần Xếp hạng 82 2.7 CÁC THAM SỐ CỦA MÔ HÌNH 82 2.7.1 VLO 82 2.7.2 Mô hình phân tích cú pháp phụ thuộc 82 2.7.3 Mô hình gán nhãn nghĩa 83 2.7.4 Hệ số kết hợp kết quả so khớp 83 2.7.5 Hệ số điều chỉnh trọng số vị trí 83 CHƯƠNG 3. 3.1 CƠ SỞ TRI THỨC NGỮ NGHĨA TỪ VỰNG TIẾNG VIỆT ONTOLOGY LÀ GÌ? 84 86 2 3.2 NÉT NGHĨA LÀ GÌ? 87 3.3 CƠ SỞ TRI THỨC NGỮ NGHĨA TỪ VỰNG TIẾNG VIỆT LÀ GÌ? 87 3.4 LÝ DO XÂY DỰNG VLO 90 3.4.1 Thể hiện chi tiết nghĩa của từ vựng 3.4.2 Thể hiện chi tiết các ràng buộc giữa các nghĩa từ vựng 101 3.4.3 Có khả năng suy diễn các quan hệ phụ thuộc 102 3.5 CẤU TRÚC CỦA CƠ SỞ TRI THỨC NGỮ NGHĨA TỪ VỰNG TIẾNG VIỆT 97 103 3.5.1 Các thành phần trong VLO 103 3.5.2 Các đặc điểm của VLO 114 3.5.3 Xây dựng VLO 115 3.6 MỘT SỐ VẤN ĐỀ KHI XÂY DỰNG VLO 115 3.6.1 Tính khách quan 116 3.6.2 Chi phí xây dựng 119 3.6.3 Đánh giá VLO 120 3.7 KẾT CHƯƠNG CHƯƠNG 4. 4.1 121 PHƯƠNG PHÁP PHÂN TÍCH NGỮ NGHĨA CỤM TỪ TIẾNG VIỆT PHÂN TÍCH NGỮ NGHĨA CỦA CÂU 123 123 4.1.1 Bài toán 123 4.1.2 Hướng giải quyết vấn đề 124 4.2 GÁN NHÃN NGHĨA CHO TỪ VỰNG 128 4.3 PHÂN TÍCH QUAN HỆ PHỤ THUỘC THEO NGỮ NGHĨA CÂU 129 4.3.1 Rút gọn quan hệ phụ thuộc 129 4.3.2 Áp dụng các ràng buộc nghĩa và mở rộng quan hệ nghĩa 131 4.3.3 Biểu diễn theo cấu trúc ngữ nghĩa 138 4.4 ĐÁNH GIÁ KẾT QUẢ PHÂN TÍCH NGỮ NGHĨA 138 4.4.1 Đánh giá kết quả gán nhãn nghĩa 139 4.4.2 Đánh giá kết quả phân tích ngữ nghĩa 140 4.4.3 Đánh giá tác dụng của việc phân tích ngữ nghĩa 143 4.5 KẾT CHƯƠNG CHƯƠNG 5. 5.1 144 THỬ NGHIỆM VÀ ĐÁNH GIÁ CÁC CHỈ SỐ ĐÁNH GIÁ 5.1.1 145 145 Độ chính xác, độ phủ và độ F 3 145 5.1.2 Độ chính xác bộ phận 146 5.1.3 Độ chính xác trung bình 147 5.2 BỘ DỮ LIỆU THỬ NGHIỆM 147 5.3 CÀI ĐẶT THỬ NGHIỆM 150 5.3.1 Chương trình TF.IDF 150 5.3.2 Chương trình BM25 151 5.3.3 Chương trình SEMDORE 152 5.3.4 Chương trình QRYEXP 152 5.3.5 Chương trình WE 153 5.3.6 Chương trình LDA 153 5.4 CÁC THỬ NGHIỆM 154 5.4.1 Thử nghiệm về ảnh hưởng của mô hình 154 5.4.2 Thử nghiệm về ảnh hưởng của term 156 5.4.3 So sánh với một phương pháp Automatic Query Expansion 160 5.4.4 So sánh với một phương pháp sử dụng vector ngữ nghĩa 161 5.4.5 So sánh với một phương pháp sử dụng LDA 162 5.4.6 So sánh hiệu quả của mô hình đề xuất và các mô hình liên quan 164 5.5 KẾT CHƯƠNG 165 KẾT LUẬN VÀ KIẾN NGHỊ 166 Kết luận 166 Kiến nghị 168 DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ CÓ LIÊN QUAN ĐẾN LUẬN ÁN 170 Danh mục Bài báo hội nghị 170 Danh mục Bài báo tạp chí 170 Danh mục Đề tài nghiên cứu khoa học 171 TÀI LIỆU THAM KHẢO Tiếng Việt Tiếng Anh PHỤ LỤC A A.1. Xác định hệ số điều khiển trọng số vị trí 1 A.2. Truy hồi chỉ mục lớp nghĩa 1 A.3. Truy hồi chỉ mục quan hệ nghĩa 3 4 A.4. Tính toán độ liên quan xếp hạng 4 A.5. Tạo từ điển và danh sách posting cho chỉ mục lớp nghĩa 5 A.6. Tính trọng số trong chỉ mục lớp nghĩa 5 A.7. Tạo từ điển và danh sách postings cho chỉ mục quan hệ nghĩa 6 A.8. Tính trọng số cho chỉ mục quan hệ nghĩa 7 A.9. Tính trọng số truy vấn 7 5 DANH MỤC BẢNG Bảng 1.1 Minh họa định dạng CoNLL của câu "các phương trình dựa trên lý thuyết va chạm " .................................................................................22 Bảng 3.1 Bảng từ vựng, giải nghĩa và các nét nghĩa tương ứng của các từ "máy bay", "máy ảnh", "máy bay phản lực", "máy bay trực thăng" và "máy bay lên thẳng" ..........................................................................98 Bảng 3.2 Danh sách các lớp nghĩa cấp 1 trong VLO tương ứng với các từ loại tiếng Việt theo dự án VLSP ......................................................105 Bảng 3.3 Danh sách các quan hệ phụ thuộc trong Định nghĩa 2.1 và các quan hệ phụ thuộc tương ứng được triển khai thực tế trong VLO ......107 Bảng 3.4 Danh sách các quan hệ phụ thuộc theo Định nghĩa 2.1 và các quan hệ phụ thuộc tương ứng của Stanford do De Marneffe và các đồng tác giả công bố ......................................................................108 Bảng 3.5 Các trường hợp có thể xác lập quan hệ phụ thuộc liên từ ................... 112 Bảng 3.6 Danh sách các quan hệ phụ thuộc được triển khai trong VLO được dùng trong các dạng từ ghép....................................................... 113 Bảng 4.1 Các trường hợp rút gọn quan hệ phụ thuộc .........................................129 Bảng 4.2 Bảng các trường hợp xử lý điều chỉnh từ ghép ...................................132 Bảng 4.3 Bảng chuyển đổi các quan hệ phụ thuộc cú pháp về quan hệ nghĩa ...136 Bảng 4.4 Mô tả bộ dữ liệu thử nghiệm xác định nghĩa của từ vựng ...................139 Bảng 4.5 Kết quả huấn luyện và dự đoán nhãn nghĩa của mô hình đề xuất và mô hình ME ....................................................................................140 Bảng 4.6 Mô tả tập câu S dùng để đánh giá kết quả phân tích ngữ nghĩa ..........140 Bảng 4.7 Mô tả tập câu G đã được phân tích ngữ nghĩa thủ công ......................140 Bảng 4.8 Kết quả phân tích ngữ nghĩa theo từng loại quan hệ ...........................141 Bảng 4.9 Kết quả phân tích ngữ nghĩa trong trường hợp không phân biệt loại quan hệ bổ nghĩa ...........................................................................141 Bảng 4.10 Kết quả phân tích ngữ nghĩa chỉ sử dụng phương pháp phân tích cú pháp phụ thuộc trong trường hợp có phân biệt các loại quan hệ bổ nghĩa................................................................................................142 Bảng 4.11 Kết quả phân tích ngữ nghĩa chỉ sử dụng phương pháp phân tích cú pháp phụ thuộc trong trường hợp không phân biệt các loại quan hệ bổ nghĩa ..................................................................................142 1 Bảng 4.12 So sánh kết quả phân tích ngữ nghĩa của phương pháp đề xuất và phương pháp phân tích cú pháp phụ thuộc ..........................................143 Bảng 4.13 So sánh kết quả truy xuất câu theo các phương pháp ..........................144 Bảng 5.1 Bộ dữ liệu thử nghiệm truy xuất văn bản tiếng Việt VN-CRANFIELD-1 ............................................................................148 Bảng 5.2 S o sánh kết quả truy xuất văn bản trên dữ liệu gốc và dữ liệu VN-CRANFIELD-1 ............................................................................149 Bảng 5.3 Thử nghiệm kết quả truy xuất theo từng mô hình với bộ dữ liệu Cranfield ..............................................................................................155 Bảng 5.4 So sánh kết quả thử nghiệm của mô hình truy xuất của luận án với baseline là hai mô hình TF.IDF và BM25 ...........................................157 Bảng 5.5 So sánh kết quả thử nghiệm truy xuất văn bản tiếng Việt trong trường hợp chỉ sử dụng từng đặc trưng từ ghép, lớp nghĩa, quan hệ cú pháp và quan hệ ngữ nghĩa .............................................................158 Bảng 5.6 Các nghĩa từ vựng được bổ sung vào VLO .........................................159 Bảng 5.7 So sánh kết quả thử nghiệm mô hình truy xuất của luận án trong trường hợp bổ sung dữ liệu cho VLO với baseline là mô hình TF.IDF và BM25..................................................................................159 Bảng 5.8 Kết quả truy xuất văn bản của mô hình đề xuất và mô hình mở rộng câu truy vấn dùng từ đồng nghĩa và từ có một phần nghĩa chung ..........................................................................................160 Bảng 5.9 So sánh kết quả truy xuất của mô hình truy xuất sử dụng vector ngữ nghĩa với mô hình truy xuất của luận án ......................................161 Bảng 5.10 So sánh kết quả truy xuất của mô hình truy xuất sử dụng LDA với mô hình truy xuất của luận án .......................................................163 Bảng 5.11 Kết quả thử nghiệm truy xuất văn bản sử dụng mô hình LDA với các tham số k,  và .....................................................................163 Bảng 5.12 Kết quả truy xuất văn bản tiếng Việt của mô hình đề xuất và các mô hình liên quan. .........................................................................164 2 DANH MỤC HÌNH ẢNH Hình 1.1 Mô hình truy xuất văn bản bản căn bản.................................................10 Hình 1.2 Mô hình truy xuất văn bản bản theo hướng tự động mở rộng câu truy vấn............................................................................................18 Hình 1.3 Minh họa a) cấu trúc ngữ đoạn và b) cấu trúc phụ thuộc ......................21 Hình 2.1 Mô hình chung cho truy xuất văn bản được đề xuất .............................46 Hình 2.2 Ma trận Term-Document được lập cho thành phần C trong văn bản, trong đó ci là các nghĩa từ vựng có trong chuỗi C của tất cả văn bản, dj là văn bản thứ j trong tập tài liệu, TFij là giá trị tần số của nghĩa ci có trong văn bản dj .................................................................................50 Hình 2.3 Ma trận Term-Sentence được lập cho thành phần R trong văn bản, trong đó ri là các quan hệ trên các nghĩa từ vựng có trong chuỗi R trong tất cả văn bản, dj là văn bản thứ j trong tập tài liệu, sjk là chuỗi quan hệ nghĩa thứ k trong văn bản dj, TFj,i,k là giá trị tần số của quan hệ phụ thuộc nghĩa ri có trong chuỗi quan hệ phụ thuộc thứ k tương ứng với cụm từ sk trong văn bản dj...............51 Hình 2.4 Minh họa việc tính trọng số lớp nghĩa và quan hệ nghĩa a) đồ thị G được khởi tạo và b) đồ thị G được tính trọng số đỉnh sau Bước 4. ...66 Hình 2.5 Tổ chức chỉ mục lớp nghĩa gồm: a) Từ điển và postings list b) Tổng trọng số của các lớp nghĩa trong từng tài liệu ..........................71 Hình 2.6 Tổ chức chỉ mục quan hệ nghĩa gồm a) Từ điển và postings list b) Tổng trọng số của các quan hệ nghĩa trong một câu .........................73 Hình 2.7 Mô hình hệ thống tìm kiếm văn bản tiếng Việt dựa trên ngữ nghĩa ......76 Hình 2.8 Sơ đồ thành phần phân tích tài liệu........................................................77 Hình 2.9 Sơ đồ thành phần lập chỉ mục ................................................................78 Hình 2.10 Sơ đồ thành phần phân tích câu truy vấn ...............................................80 Hình 2.11 Sơ đồ thành phần truy xuất chỉ mục ......................................................81 Hình 3.1 Minh họa a) Từ điển giải nghĩa và b) Từ điển nhãn nghĩa ....................84 Hình 3.2 Kết quả phân tích cú pháp của câu "her are a pupils" của chương trình phân tích cú pháp tự động của Stanford...........................85 Hình 3.3 Minh họa các lớp nghĩa, các nghĩa từ vựng và các quan hệ phụ thuộc trong câu "mèo nhỏ đuổi chuột nhỏ" được tổ chức trên VLO .....89 Hình 3.4 Kết quả phân tích cú pháp phụ thuộc của câu1) "sử dụng biểu đồ của lực và phương trình Newton"..........................................................91 1 Hình 3.5 Kết quả phân tích cú pháp phụ thuộc của ngữ đoạn 2)"các đặc tính của dòng chảy ổn định và không ổn định" ............................................92 Hình 3.6 Kết quả phân tích cú pháp phụ thuộc của câu 3) "máy bay cánh cong bay trong dòng chảy siêu thanh" ................................................93 Hình 3.7 Kết quả phân tích cú pháp phụ thuộc hợp lý của câu 1) "sử dụng biểu đồ của lực và phương trình Newton" .............................................93 Hình 3.8 Kết quả phân tích cú pháp phụ thuộc hợp lý của ngữ đoạn 2) "các đặc tính của dòng chảy ổn định và không ổn định" ......................94 Hình 3.9 Kết quả phân tích cú pháp phụ thuộc hợp lý của câu 3) "máy bay cánh cong bay trong dòng chảy siêu thanh" .........................95 Hình 3.10 Minh họa cách phân lớp nghĩa từ vựng trong VLO ..............................97 Hình 3.11 Minh họa cấu trúc của VLO ................................................................104 Hình 3.12 Quy trình chung để xây dựng ngữ liệu ................................................ 116 Hình 4.1 Sơ đồ quá trình phân tích ngữ nghĩa của câu tiếng Việt ......................127 Hình 4.2 Minh họa đồ thị quan hệ sau khi chuyển tên quan hệ..........................138 2 DANH MỤC TỪ VIẾT TẮT BIM Binary Independence Model CRF Conditional Random Field DNN Deep Neural Network DRT Discourse Representation Theory ESA Explicit Semantic Analysis HMM Hidden Markov Model HPSG Head-driven Phrase Structure LDA Latent Dirichlet Allocation LSA Latent Semantic Analysis LSI Latent Semantic Index MAP Mean Average Precision ME Maximum Entropy POS Part of Speech PSG Phrase Structure Grammar SCI Semantic Class Index SRI Semantic Relation Index TBL Tranformation Based Learning VLO Vietnamese Lexicon Ontology WE Word Embeddings 1 MỞ ĐẦU 1. Lý do lựa chọn đề tài Ngôn ngữ là phương tiện để diễn đạt suy nghĩ của con người. Trong đó, văn bản là một trong những cách thể hiện của ngôn ngữ và là một trong những phương tiện lưu trữ thông tin và tri thức của con người. Ngày nay, với sự phát triển của công nghệ thông tin, văn bản được tạo ra và lưu trữ với khối lượng lớn. Trong đó, khối lượng văn bản được lưu trữ theo kỹ thuật số ngày càng nhiều. Vì thế, nhu cầu khai thác và tìm kiếm thông tin cũng như tri thức chứa đựng trong các tài liệu văn bản này cần được nghiên cứu và giải quyết để nâng cao hiệu quả. Hiệu quả được thể hiện thông qua việc giảm thời gian xác định tài liệu chứa thông tin cần thiết. Truy xuất thông tin là một lĩnh vực nghiên cứu đã hình thành từ những năm 1950 [97] với mục tiêu hỗ trợ cho việc tìm kiếm tài liệu theo từ khóa trong các thư viện. Khi số lượng tài liệu điện tử tăng, việc chọn một danh sách từ khóa mô tả chính xác nhất cho từng tài liệu trở thành một công việc tốn nhiều công sức. Vì thế, việc tìm kiếm tài liệu đã được thực hiện trên dữ liệu toàn văn bản (full text search) thay vì thực hiện trên một danh sách các từ khóa được lựa chọn cẩn trọng. Từ đó, việc truy xuất văn bản bản phát sinh một vấn đề cần giải quyết. Đó là làm thế nào tìm được những tài liệu văn bản thỏa một yêu cầu thông tin được biểu diễn bằng một câu truy vấn gồm từ, một ngữ đoạn hoặc một câu. Khi áp dụng phương pháp truy xuất văn bản theo từ khóa cho dữ liệu toàn văn bản thì tỉ lệ các tài liệu văn bản thỏa yêu cầu truy xuất, thể hiện ở độ chính xác, trở nên thấp đi. Có hai nguyên nhân có thể giải thích hiện tượng này. Thứ nhất, các từ khóa được chọn để câu truy vấn chưa thể hiện được đặc điểm của tài liệu cần truy xuất, chẳng hạn dùng câu truy vấn "tìm giá trị của x" để truy xuất văn bản về "giải phương trình bậc hai". Do từ khóa được chọn là những từ phổ biến nên số lượng tài liệu truy xuất được tăng lên làm giảm độ chính xác của kết quả. Thứ hai, các từ khóa 1 được chọn có thể không xuất hiện trong văn bản cần truy xuất do cách sử dụng từ ngữ của tác giả của văn bản và của người truy xuất văn bản khác nhau. Chẳng hạn dùng câu truy vấn "máy bay đáp trên mặt nước" để tìm tài liệu viết về "thủy phi cơ". Trường hợp này làm giảm số lượng tài liệu thỏa yêu cầu từ đó làm giảm độ chính xác của kết quả truy xuất. Hai nguyên nhân này là vấn đề cần giải quyết của các nghiên cứu về truy xuất văn bản. Bài toán truy xuất văn bản đã được nghiên cứu theo các cách tiếp cận đại số tuyến tính, xác suất, xử lý ngôn ngữ tự nhiên và học máy. Các nghiên cứu về truy xuất văn bản theo hướng tiếp cận xử lý ngôn ngữ tự nhiên có thể phân chia theo hai nhóm phương pháp chính. Nhóm phương pháp thứ nhất giải quyết vấn đề bằng cách sử dụng tri thức trong một lĩnh vực cụ thể để phân tích tài liệu và câu truy vấn. Kết quả phân tích sẽ được sử dụng trong quá trình so khớp văn bản và câu truy vấn. Nhóm phương pháp này gồm có các nghiên cứu truy xuất văn bản bằng cách sử dụng ontology và mở rộng câu truy vấn (query expansion). Nhóm phương pháp thứ hai giải quyết vấn đề bằng cách sử dụng các đặc điểm phân bố của các đối tượng (có thể là từ, thuật ngữ hoặc tên gọi các thực thể) được trình bày trong tài liệu và câu truy vấn vào quá trình so khớp văn bản và câu truy vấn. Nhóm phương pháp này gồm có các nghiên cứu về mô hình truy xuất văn bản như mô hình xác suất, mô hình chủ đề hoặc vector ngữ nghĩa (word embedding), mô hình mạng neuron và mô hình đồ thị. Các nghiên cứu về truy xuất văn bản cũng có thể theo hướng kết hợp từ hai nhóm phương pháp trên bằng cách phân tích văn bản và câu truy vấn theo nhóm phương pháp thứ nhất và sử dụng các mô hình truy xuất trong nhóm phương pháp thứ hai để cải tiến độ chính xác của kết quả truy xuất. Đề tài luận án nghiên cứu truy xuất văn bản theo cách tiếp cận xử lý ngôn ngữ tự nhiên theo nhóm phương pháp thứ nhất, trong đó đi sâu vào phân tích ngữ nghĩa của câu trong ngôn ngữ tự nhiên thay vì dùng ontology cho lĩnh vực riêng. Đề tài này được chọn vì các lý do sau: Thứ nhất, phân tích ngữ nghĩa của văn bản có thể được giải quyết theo nhiều cách khác nhau nhưng đều cần sử dụng đến tri thức liên quan đến ngôn ngữ. Tri thức này có thể được thể hiện bằng các luật văn phạm hay được thể hiện trong kết quả chú 2 giải cú pháp của các câu. Theo hướng truyền thống, ngữ nghĩa sẽ được phân tích dựa trên các luật văn phạm đã được tổng hợp từ các nghiên cứu về ngôn ngữ học. Theo hướng học máy, ngữ nghĩa sẽ được phân tích dựa vào các quy luật được phát hiện khi xử lý ngữ liệu có kích thước lớn trong đó ngữ liệu cần được chú giải tùy theo yêu cầu của bài toán. Quá trình chú giải các tài liệu đều cần sử dụng đến tri thức về ngôn ngữ học. Vì thế, đề tài chọn hướng tiếp cận theo xử lý ngôn ngữ tự nhiên nhằm chứng minh các tri thức về ngôn ngữ có vai trò quan trọng trong truy xuất thông tin và góp phần vào việc xây dựng tài nguyên cơ bản cho các nghiên về phân tích ngữ nghĩa cho văn bản tiếng Việt. Thứ hai, các nghiên cứu truy xuất văn bản bản theo hướng xử lý ngôn ngữ tự nhiên đều cần một tài nguyên ngôn ngữ quan trọng, đó là từ điển, từ điển đồng nghĩa hoặc ontology. Trong đó, từ điển có thể sử dụng chung cho nhiều lĩnh vực còn ontology thường được xây dựng cho từng lĩnh vực nghiên cứu riêng. Đối với ontology theo lĩnh vực, đối tượng được xây dựng là các khái niệm trong lĩnh vực được nghiên cứu. Đối với ontology đa lĩnh vực, chẳng hạn WordNet, đối tượng được xây dựng cũng là các khái niệm nhưng không giới hạn lĩnh vực áp dụng. Các quan hệ trong các ontology này chủ yếu là quan hệ giữa các khái niệm trong thế giới thực. Hiện tại, chưa có ontology về từ vựng của một ngôn ngữ để cho thấy các quan hệ về mặt văn phạm và ngữ nghĩa giữa các từ trong ngữ đoạn hoặc câu. Vì thế, đề tài chọn hướng tiếp cận xử lý ngôn ngữ tự nhiên cho bài toán truy xuất thông tin để nghiên cứu việc áp dụng ontology trong phân tích ngữ nghĩa của câu. Thứ ba, hiện tại các công bố về truy xuất văn bản bản theo hướng tiếp cận xử lý ngôn ngữ tự nhiên ở mức ngữ nghĩa còn ít. Vì thế, đề tài được nghiên cứu để đóng góp kết quả cho hướng nghiên cứu về xử lý ngôn ngữ tự nhiên. 2. Mục đích của luận án Mục đích của luận án là nghiên cứu đề xuất mô hình truy xuất văn bản bản dựa trên kết quả nghiên cứu về phân tích ngữ nghĩa của câu tiếng Việt theo ngôn ngữ học tính toán. Kết quả nghiên cứu của luận án là để chứng tỏ được khả năng giải quyết vấn đề truy xuất thông tin của hướng tiếp cận ngôn ngữ học tính toán. Bên cạnh đó, 3 kết quả xây dựng ngữ liệu trong quá trình nghiên cứu có thể góp phần vào việc xây dựng tài nguyên ngôn ngữ phục vụ cho các nghiên cứu về xử lý văn bản tiếng Việt. 3. Nội dung nghiên cứu Để đạt được mục đích nghiên cứu, các nội dung cần được nghiên cứu trong luận án như sau: - Tổng quan về truy xuất văn bản bản và truy xuất văn bản bản theo ngữ nghĩa. - Mô hình hệ thống truy xuất văn bản bản theo ngữ nghĩa với các phương pháp lập chỉ mục và truy xuất chỉ mục ngữ nghĩa. - Phương pháp phân tích ngữ nghĩa của một câu và một văn bản tiếng Việt. Phương pháp này được nghiên cứu để phân tích ngữ nghĩa của văn bản và câu câu truy vấn. Kết quả phân tích sẽ được sử dụng để lập chỉ mục và truy xuất theo mô hình đã nghiên cứu. 4. Đối tượng nghiên cứu Từ mục đích của luận án, đối tượng nghiên cứu được xác định gồm: - Mô hình hệ thống truy xuất văn bản tiếng Việt dựa trên ngữ nghĩa. - Ngữ nghĩa của câu và văn bản tiếng Việt. - Khoảng cách ngữ nghĩa giữa hai câu tiếng Việt và giữa một câu và một văn bản tiếng Việt. - Chỉ mục theo ngữ nghĩa cho các văn bản tiếng Việt. 5. Phạm vi nghiên cứu  Phạm vi nghiên cứu về xử lý ngôn ngữ tự nhiên: - Phân tích ngữ nghĩa của từng ngữ đoạn hoặc câu riêng lẻ, không phân tích ngữ nghĩa diễn ngôn của văn bản. Vì thế, các vấn đề về sở chỉ, hồi chỉ và tỉnh lược trong văn bản chưa được giải quyết. - Phân tích ngữ nghĩa của ngữ đoạn và câu dựa trên ngữ nghĩa trực tiếp của từ vựng, không xử lý hàm ý, ẩn ý. 4 - Ngữ nghĩa của văn bản là ngữ nghĩa phân tích được ở các câu trong văn bản, không chứa ngữ nghĩa được suy diễn từ văn bản. - Văn bản đảm bảo tính liền lạc (cohesion), không có hiện tượng chuyển mạch ý.  Phạm vi nghiên cứu về truy xuất thông tin: - Nghiên cứu mô hình truy xuất thông tin theo hướng cải tiến độ phủ và độ chính xác, không đặt vấn đề về hiệu năng (thời gian xử lý câu truy vấn, kích thước chỉ mục, xử lý phân tán, v.v.) của hệ thống khi được triển khai thực tế. - Cấu trúc chỉ mục được đề xuất ở mức logic, không đặt vấn đề cài đặt, tối ưu và nén chỉ mục. 6. Ý nghĩa khoa học và thực tiễn của đề tài Về mặt khoa học, luận án nghiên cứu giải quyết bài toán phân tích ngữ nghĩa của câu để làm cơ sở cho việc đề xuất mô hình truy xuất văn bản bản tiếng Việt dựa trên ngữ nghĩa. Bài toán phân tích ngữ nghĩa của câu được nghiên cứu theo cách tiếp cận ngôn ngữ học tính toán, sử dụng khái niệm ngữ nghĩa theo ngữ nghĩa học hình thức. Luận án có các đóng góp về mặt khoa học như sau: 1) Đề xuất ngôn ngữ biểu diễn ngữ nghĩa cụm từ theo Universal Dependency và mô hình truy xuất văn bản có cơ chế so khớp và tính toán độ liên quan ở mức ngữ nghĩa của câu. 2) Đề xuất cấu trúc ontology cho nghĩa từ vựng tiếng Việt (VLO) chứa các nghĩa từ vựng, lớp nghĩa và các ràng buộc ngữ nghĩa giữa các nghĩa từ vựng và giữa các lớp nghĩa. VLO được xây dựng thủ công để sử dụng tại bước gán nhãn nghĩa, kiểm tra và điều chỉnh các quan hệ phụ thuộc trong phân tích ngữ nghĩa cụm từ. 3) Đề xuất phương pháp phân tích ngữ nghĩa cụm từ bằng cách biến đổi kết quả phân tích cú pháp phụ thuộc qua ba giai đoạn: a) Phân tích cú pháp phụ thuộc, b) Gán nhãn ngữ nghĩa từ vụng và c) Điều chỉnh các quan hệ phụ thuộc trên cây cú pháp phụ thuộc dựa vào các ràng buộc ngữ nghĩa trong VLO. 5 4) Đề xuất phương pháp tính toán độ liên quan trên ngôn ngữ biểu diễn ngữ nghĩa theo độ đo Jaccard-Tanimoto. Bên cạnh các đóng góp về mặt khoa học, về mặt thực tiễn luận án có các đóng góp sau: 1) Cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt (VLO) với hơn 2800 nghĩa từ vựng và hơn 17000 ràng buộc ngữ nghĩa (gồm kết quả chú giải thủ công và suy diễn tự động) để sử dụng trong các phương pháp phân tích cú pháp có ràng buộc ngữ nghĩa. 2) Ngữ liệu gồm 1000 câu và ngữ đoạn được gán nhãn ngữ nghĩa thủ công và chú giải các quan hệ phụ thuộc theo dạng Universal Dependency. 3) Mô hình truy xuất văn bản tiếng Việt theo ngữ nghĩa với các thành phần và kỹ thuật tính toán của nó có thể được cài đặt để sử dụng thực tế. Mô hình được nghiên cứu có kết quả truy xuất tốt hơn hai mô hình vector với công thức xếp hạng TF.IDF và mô hình xác suất với công thức xếp hạng BM25. 7. Cấu trúc của luận án Ngoài phần Mở đầu và Kết luận – kiến nghị, luận án được trình bày qua năm chương như sau: - Chương 1 trình bày bài toán truy xuất văn bản bản nói chung, các mô hình giải quyết bài toán này và phương pháp đánh giá kết quả truy xuất văn bản của một giải pháp. Kế đến, một số kết quả nghiên cứu liên quan đến đề tài luận án được trình bày để thấy được các giải pháp hiện có cho vấn đề truy xuất văn bản bản theo ngữ nghĩa. Sau đó, các cơ sở lý thuyết về ngữ nghĩa và xử lý ngôn ngữ tự nhiên có liên quan đến phân tích ngữ nghĩa được trình bày để có cơ sở xác định cụ thể vấn đề truy xuất văn bản bản tiếng Việt dựa trên ngữ nghĩa và phương hướng giải quyết vấn đề này. - Chương 2 trình bày mô hình truy xuất văn bản bản được nghiên cứu để áp dụng cho bài toán truy xuất văn bản bản theo ngữ nghĩa. Các nội dung nghiên cứu trong CHƯƠNG 2 gồm mô hình truy xuất văn bản, khoảng cách ngữ 6 nghĩa giữa văn bản và câu truy vấn, công thức tính trọng số cho các term, phương pháp lập chỉ mục và truy xuất chỉ mục. - Chương 3 giới thiệu về Cơ sở tri thức ngữ nghĩa từ vựng tiếng Việt (VLO), phương pháp xây dựng, tác dụng của nó và một số vấn đề liên quan đến việc xây dựng VLO. VLO được xây dựng nhằm mục đích tạo hệ thống ký hiệu ngữ nghĩa của từ vựng để sử dụng trong bài toán phân tích ngữ nghĩa. Bên cạnh đó, VLO cũng chứa các ràng buộc ngữ nghĩa có trong các câu thực tế để sử dụng trong việc điều chỉnh kết quả phân tích cú pháp phụ thuộc và mở rộng các quan hệ phụ thuộc trong phân tích ngữ nghĩa. - Chương 4 trình bày phương pháp phân tích ngữ nghĩa cụm từ tiếng Việt dựa vào kết quả phân tích cú pháp phụ thuộc tiếng Việt kết hợp với các ràng buộc ngữ nghĩa đã ghi nhận được trong VLO. Mục tiêu của Chương 4 là phân tích một câu tiếng Việt thành các quan hệ phụ thuộc giữa các nghĩa từ vựng có trong câu đó. Kết quả này chính là biểu diễn ngữ nghĩa của câu đã được phân tích. Kết quả phân tích ngữ nghĩa được đánh giá theo độ phủ và độ chính xác trên các quan hệ phụ thuộc giữa các nghĩa từ vựng phân tích được so với kết quả phân tích ngữ nghĩa thủ công. Kết quả này cũng được so sánh với kết quả phân tích quan hệ phụ thuộc khi chỉ dùng phương pháp phân tích cú pháp phụ thuộc mới nhất cho câu tiếng Việt. - Chương 5 trình bày kết quả đánh giá mô hình truy xuất văn bản bản tiếng Việt dựa trên ngữ nghĩa với baseline là mô hình vector với công thức tính toán độ liên quan TF.IDF và mô hình xác suất với công thức tính toán độ liên quan BM25. Kết quả truy xuất của mô hình được nghiên cứu cũng được so sánh với kết quả truy xuất của mô hình sử dụng phương pháp mở rộng câu truy vấn sử dụng ontology là VLO để thấy được tính hiệu quả của mô hình được nghiên cứu. 7
- Xem thêm -

Tài liệu liên quan

Tài liệu xem nhiều nhất