Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Truy hồi thông tin dựa trên ontology...

Tài liệu Truy hồi thông tin dựa trên ontology

.PDF
138
174
102

Mô tả:

ĐẠI HỌC QUỐC GIA TP.HCM TRƢỜNG ĐẠI HỌC BÁCH KHOA TP.HCM NGÔ MINH VƢƠNG TRUY HỒI THÔNG TIN DỰA TRÊN ONTOLOGY LUẬN ÁN TIẾN SĨ KỸ THUẬT TP. HỒ CHÍ MINH NĂM 2013 ĐẠI HỌC QUỐC GIA TP.HCM TRƢỜNG ĐẠI HỌC BÁCH KHOA TP.HCM NGÔ MINH VƢƠNG TRUY HỒI THÔNG TIN DỰA TRÊN ONTOLOGY LUẬN ÁN TIẾN SĨ KỸ THUẬT TP. HỒ CHÍ MINH NĂM 2013 ĐẠI HỌC QUỐC GIA TP.HCM TRƢỜNG ĐẠI HỌC BÁCH KHOA TP.HCM NGÔ MINH VƢƠNG TRUY HỒI THÔNG TIN DỰA TRÊN ONTOLOGY Chuyên ngành: Khoa học Máy tính Mã số chuyên ngành: 62.48.01.01 Phản biện độc lập 1: PGS. TS. Đồng Thị Bích Thủy, ĐH KHTN, ĐHQG TPHCM Phản biện độc lập 2: PGS. TS. Lê Thanh Hƣơng, Viện CNTT&TT, ĐH BKHN Phản biện 1: PGS. TS. Đỗ Phúc, ĐH CNTT, ĐHQG TPHCM Phản biện 2: TS. Nguyễn Thị Minh Huyền, ĐH KHTN, ĐHQG HN Phản biện 3: PGS. TS. Dƣơng Tuấn Anh, ĐH BKTPHCM, ĐHQG TPHCM NGƢỜI HƢỚNG DẪN KHOA HỌC PGS. TS. Cao Hoàng Trụ, ĐH BKTPHCM, ĐHQG TPHCM LỜI CAM ĐOAN Tôi cam đoan rằng nội dung của luận án này là kết quả nghiên cứu của bản thân. Tất cả những tham khảo từ các nghiên cứu liên quan điều đƣợc nêu rõ nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo đƣợc đề cập ở phần sau của luận án. Những đóng góp trong luận án là kết quả nghiên cứu của tác giả đã đƣợc công bố trong các bài báo của tác giả ở phần sau của luận án và chƣa đƣợc công bố trong bất kỳ công trình khoa học nào khác. Tác giả luận án Ngô Minh Vƣơng i LỜI CẢM ƠN Trong quá trình hoàn thành luận án này, tôi đã đƣợc các thầy cô nơi cơ sở đào tạo giúp đỡ tận tình, cơ quan nơi công tác tạo mọi điều kiện thuận lợi và bạn bè cùng gia đình thƣờng xuyên động viên khích lệ. Luận án này không thể hoàn thành tốt nếu không có sự tận tình hƣớng dẫn và sự giúp đỡ quí báu của PGS.TS. Cao Hoàng Trụ, Thầy hƣớng dẫn mà tôi tôn vinh và muốn đƣợc bày tỏ lòng biết ơn sâu sắc nhất. Tôi cũng muốn đƣợc bày tỏ lòng biết ơn đối với tập thể các thầy cô Khoa KH&KT Máy Tính - Đại học Bách Khoa Tp.HCM đã giúp đỡ và tạo điều kiện cho tôi rất nhiều trong quá trình học tập và nghiên cứu ở Khoa. Cảm ơn Phòng Quản lý Sau Đại học về sự hỗ trợ các thủ tục trong quá trình hoàn thành luận án. Cảm ơn Ban Giám hiệu Trƣờng Đại học Bách Khoa Tp.HCM, Phòng Khoa học Công nghệ & Dự án, và Phòng Quản lý Sau Đại học đã tài trợ cho tôi thực hiện đề tài nghiên cứu cấp trƣờng năm 2010. Cảm ơn Tập đoàn TOSHIBA đã cấp học bổng Chƣơng trình nghiên cứu khoa học và công nghệ cho học viên sau đại học xuất sắc trong 3 năm 2008, 2009 và 2010. Cảm ơn Ban Giám đốc ĐHQGTpHCM, Ban Quan hệ và Đối ngoại đã tạo điều kiện thuận lợi cho tôi tiếp cận đƣợc học bổng TOSHIBA ở trên. Cảm ơn Tập đoàn VNG đã tài trợ một phần kinh phí để tôi có thể công bố và thuyết trình công trình của mình tại hội nghị IJCNLP-2011 ở Chiang Mai, Thailand. Những tài trợ này đã hỗ trợ tôi rất nhiều về mặt tài chính để trang trải một phần kinh phí học tập và nghiên cứu của tôi trong thời gian qua. Tôi chân thành cảm ơn Trung tâm CNTT - Ngân hàng Phát Triển Nhà ĐBSCL, Trung tâm R&D - Tập đoàn VNG và Khoa CNTT - Đại học Tôn Đức Thắng đã tạo mọi điều kiện thuận lợi cho tôi từ năm 2008 đến nay để hoàn thành luận án này. Cuối cùng tôi cảm ơn tất cả bạn bè và ngƣời thân đã góp nhiều ý kiến và những lời động viên khích lệ quí báu giúp tôi vƣợt qua khó khăn để hoàn thành tốt luận án. Tác giả luận án Ngô Minh Vƣơng ii TÓM TẮT Các hệ thống truy hồi tài liệu dạng văn bản hiện nay gặp nhiều thách thức trong việc khám phá và biểu diễn ngữ nghĩa của truy vấn và tài liệu. Truy hồi tài liệu dựa trên việc so trùng các từ khóa có nhiều nhƣợc điểm bởi vì nó chỉ xem xét đến hình thức bề mặt của các từ xuất hiện trong văn bản hơn là ý nghĩa của các từ này. Trong khi đó, nội dung của văn bản phần lớn đƣợc xác định bởi các khái niệm nhƣ thực thể có tên và từ WordNet. Mặc khác, truy vấn đã có thể hiện rõ hơn mong muốn của ngƣời đặt truy vấn nếu đƣợc bổ sung các khái niệm tiềm ẩn phù hợp. Mục tiêu của luận án này là nghiên cứu và khai thác các ontology về thực thể có tên, từ WordNet và sự kiện về quan hệ thực thể để nâng cao hiệu quả truy hồi tài liệu về độ chính xác và độ đầy đủ. Trong văn bản, các khái niệm đƣợc diễn đạt dƣới các dạng nhƣ tên của thực thể hoặc nhãn của từ. Các khái niệm này ẩn chứa các đặc điểm ontology bên dƣới các hình thức bề mặt của chúng nhƣ bí danh/từ đồng nghĩa, lớp cha/nghĩa cha, lớp con/nghĩa con và định danh/nghĩa của từ. Ngoài ra, mỗi truy vấn còn hàm ý các thực thể liên quan đến các thực thể xuất hiện tƣờng minh trong truy vấn. Luận án này có ba nội dung chính. Thứ nhất, luận án khảo sát tất cả các đặc điểm ontology của thực thể có tên, các cách kết hợp chúng với từ khóa thông thƣờng, và nghiên cứu ảnh hƣởng của chúng đến hiệu quả truy hồi tài liệu, trong đó có cặp tên-lớp và định danh của thực thể có tên mà các công trình trƣớc đây chƣa khai thác. Thứ hai, luận án đề xuất sử dụng thêm cặp nhãn-nghĩa của từ WordNet bên cạnh các đặc điểm ontology cơ bản khác đã đƣợc sử dụng trƣớc đây. Thứ ba, luận án khai thác ontology về sự kiện để mở rộng truy vấn bằng các thực thể tiềm ẩn theo các quan hệ tƣờng minh với các thực thể trong truy vấn. Các mô hình đề xuất đƣợc hiện thực bằng cách mở rộng mô hình không gian vectơ cơ bản và đƣợc đánh giá bằng thực nghiệm trên các tập dữ liệu và độ đo hiệu quả chuẩn. Kết quả thí nghiệm cho thấy các mô hình đề xuất cho hiệu quả truy hồi tài liệu cao hơn so với các mô hình ở các công trình liên quan quan và mô hình truy hồi tài liệu theo từ khoá thông thƣờng. Đặc biệt luận án đã sử dụng phƣơng pháp kiểm định ý nghĩa thống kê để xác nhận lại sự tăng hiệu quả thật sự của các mô hình đề xuất. iii ABSTRACT Current text document retrieval systems are facing to many challenges in discovering and representing the semantics of queries and documents. Document retrieval based on lexical matching of keywords has many drawbacks because it only considers the surface forms of words appearing in a text rather than the meaning of the words. Meanwhile, the content of a text is mostly determined by concepts such as named entities and WordNet words. On the other hand, the meaning of a query could express more clearly user intention if it is expanded with suitable latent concepts. The objective of this thesis is to exploit ontologies of named entities, WordNet words and entity relationship facts to improve the performance of document retrieval in terms of the precision and recall measures. In a text, concepts are expressed by their surface forms like entity names or word labels. Those concepts contain hidden ontological features under their surface forms, such as aliases/synonyms, super-classes/hypernyms, sub-classes/hyponyms and identifiers/senses. Besides, each query also implies those entities that are related to entities explicitly appearing in the query. This thesis consists of three main parts. First, the thesis explores ontological features of named entities, different combinations of them and keywords, and evaluates their impact to document retrieval performance, in which name-class pairs and identifies of named entities have not been exploited in previous works. Second, the thesis proposes usage of form-sense pairs of WordNet words in addition to other basic ontological features that have been used previously. Third, the thesis exploits an ontology of facts to expand a query by latent entities that have explicit relations with other entities in the query. The proposed models are implemented by extending the basic vector space model and experimented on benchmark datasets and standard performance measures. Experiment results show that the proposed models give better retrieval performance than the models of related works and the traditional keyword-based document retrieval model. Especially, this thesis uses statistical significance tests to confirm the actual improvement in performance of the proposed models. iv MỤC LỤC 1 2 3 4 5 Chƣơng 1 - GIỚI THIỆU ......................................................................................1 1.1 Động cơ nghiên cứu........................................................................................1 1.2 Mục tiêu và phạm vi của luận án.....................................................................2 1.3 Những đóng góp chính của luận án.................................................................3 1.4 Cấu trúc của luận án .......................................................................................4 Chƣơng 2 - CƠ SỞ KIẾN THỨC..........................................................................6 2.1 Mô hình không gian vectơ ..............................................................................6 2.2 Giới thiệu về Lucene.......................................................................................7 2.3 Ontology.........................................................................................................7 2.4 Nhận diện thực thể có tên và phân giải nhập nhằng nghĩa của từ...................11 2.5 Tập dữ liệu kiểm tra......................................................................................12 2.6 Độ đo hiệu quả truy hồi ................................................................................13 2.7 Kiểm định ý nghĩa thống kê ..........................................................................15 Chƣơng 3 - KHAI THÁC THỰC THỂ CÓ TÊN.................................................17 3.1 Giới thiệu .....................................................................................................17 3.2 Các công trình liên quan ...............................................................................19 3.3 Mô hình đa không gian vectơ cho thực thể có tên .........................................22 3.4 Kết hợp thực thể có tên và từ khóa................................................................31 3.5 Đánh giá thực nghiệm...................................................................................38 3.6 Kết luận ........................................................................................................56 Chƣơng 4 - KHAI THÁC TỪ WORDNET .........................................................58 4.1 Giới thiệu .....................................................................................................58 4.2 Các công trình liên quan ...............................................................................59 4.3 Mô hình không gian vectơ dựa trên từ WordNet ...........................................61 4.4 Đánh giá thực nghiệm...................................................................................66 4.5 Kết luận ........................................................................................................72 Chƣơng 5 - KHAI THÁC THÔNG TIN TIỀM ẨN .............................................73 5.1 Giới thiệu .....................................................................................................73 5.2 Các công trình liên quan ...............................................................................74 v 6 7 5.3 Phƣơng pháp kích hoạt lan truyền.................................................................76 5.4 Mở rộng truy vấn ..........................................................................................78 5.5 Đánh giá thực nghiệm...................................................................................80 5.6 Kết luận ........................................................................................................86 Chƣơng 6 – KẾT HỢP CÁC MÔ HÌNH .............................................................88 6.1 Giới thiệu .....................................................................................................88 6.2 Mô hình hợp nhất .........................................................................................88 6.3 Đánh giá thực nghiệm...................................................................................90 6.4 Kết luận ........................................................................................................95 Chƣơng 7 - TỔNG KẾT......................................................................................96 7.1 Tóm tắt .........................................................................................................96 7.2 Hƣớng phát triển...........................................................................................98 CÁC CÔNG TRÌNH CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN..................... 100 TÀI LIỆU THAM KHẢO........................................................................................ 102 vi DANH MỤC CÁC BẢNG Bảng 2.1. Thống kê về việc sử dụng tập kiểm tra trong các công trình mà luận án khảo sát ở SIGIR-2007 và SIGIR-2008...................................................... 13 Bảng 3.1. Khảo sát việc khai thác các đặc điểm ontology của thực thể có tên cho truy hồi tài liệu .......................................................................................... 21 Bảng 3.2. Các ví dụ về việc chuyển đổi từ để hỏi sang lớp của thực thể..................... 37 Bảng 3.3. Các độ chính xác trung bình tại mƣời một điểm đầy đủ chuẩn của các mô hình Lexical, NEo, NEn và NE-KW .................................................... 39 Bảng 3.4. Các độ F trung bình tại mƣời một điểm đầy đủ chuẩn của các mô hình Lexical, NEo, NEn và NE-KW .................................................................. 39 Bảng 3.5. Các độ chính xác trung bình nhóm của các mô hình Lexical, NEo, NEn và NE-KW......................................................................................... 40 Bảng 3.6. Trị số p hai chiều của phƣơng pháp kiểm định ngẫu nhiên Fisher của mô hình NE+KW so với các mô hình khác ................................................ 41 Bảng 3.7. Việc sử dụng các đặc điểm ontology của thực thể có tên để biểu diễn truy vấn và tài liệu ..................................................................................... 44 Bảng 3.8. Các độ chính xác trung bình tại mƣời một điểm đầy đủ chuẩn của các mô hình Lexical, Group_1, Group_2, Group_3, NE+KW+notID, và NE+KW .................................................................................................... 46 Bảng 3.9. Các độ F trung bình tại mƣời một điểm đầy đủ chuẩn của các mô hình Lexical, Group_1, Group_2, Group_3, NE+KW+notID, và NE+KW ........ 46 Bảng 3.10. Các độ chính xác trung bình nhóm của các mô hình Lexical, Group_1, Group_2, Group_3, NE+KW+notID, và NE+KW ................... 46 Bảng 3.11. Trị số p hai chiều của phƣơng pháp kiểm định ngẫu nhiên Fisher của mô hình NE+KW so với các mô hình Lexical, Group_1, Group_2, Group_3 và NE+KW+notID ................................................................... 47 Bảng 3.12. Các độ chính xác trung bình của hai mô hình Lexical và NE+KW trên các truy vấn điển hình ...................................................................... 50 vii Bảng 3.13. Các độ chính xác trung bình tại mƣời một điểm đầy đủ chuẩn của các mô hình Lexical, NE+KW và NE+KW+Wh ........................................... 52 Bảng 3.14. Các độ F trung bình tại mƣời một điểm đầy đủ chuẩn của các mô hình Lexical, NE+KW và NE+KW+Wh ................................................. 52 Bảng 3.15. Các độ chính xác trung bình nhóm của các mô hình Lexical, NE+KW và NE+KW+Wh ..................................................................................... 53 Bảng 3.16. Trị số p hai chiều của phƣơng pháp kiểm định ngẫu nhiên Fisher giữa các mô hình NE+KW+Wh, NE+KW và Lexical ..................................... 53 Bảng 3.17. Độ chính xác trung bình của hai mô hình Lexical và NE+KW+Wh trên các truy vấn điển hình ...................................................................... 54 Bảng 4.1. Khảo sát việc khai thác các đặc điểm ontology của từ WordNet cho truy hồi tài liệu .......................................................................................... 61 Bảng 4.2. Việc sử dụng các đặc điểm ontology của từ WordNet để biểu diễn truy vấn và tài liệu ............................................................................................ 66 Bảng 4.3. Các độ chính xác tại mƣời một điểm đầy đủ chuẩn của các mô hình Lexical, Group_1, Group_2 và WN+KW................................................... 68 Bảng 4.4. Các độ F trung bình tại mƣời một điểm đầy đủ chuẩn của các mô hình Lexical, Group_1, Group_2 và WN+KW................................................... 68 Bảng 4.5. Các độ chính xác trung bình nhóm của các mô hình Lexical, Group_1, Group_2 và WN+KW................................................................................ 68 Bảng 4.6. Trị số p hai chiều của phƣơng pháp kiểm định ngẫu nhiên Fisher giữa mô hình WN+KW với các mô hình Lexical, Group_1 và Group_2 ............ 69 Bảng 4.7. Các độ chính xác trung bình của các mô hình Lexical và WN+KW trên các truy vấn điển hình......................................................................... 70 Bảng 5.1. Các độ chính xác và độ F trung bình tại mƣời một điểm đầy đủ chuẩn của các mô hình Lexical, CSA và R+CSA ................................................. 82 Bảng 5.2. Các độ chính xác trung bình nhóm của các mô hình Lexical, CSA và R+CSA...................................................................................................... 83 viii Bảng 5.3. Trị số p hai chiều của phƣơng pháp kiểm định ngẫu nhiên Fisher giữa mô hình R+CSA với hai mô hình Lexical và CSA ..................................... 84 Bảng 5.4. Các độ chính xác trung bình của các mô hình Lexical, CSA và R+CSA trên các truy vấn điển hình......................................................................... 84 Bảng 6.1. Các độ chính xác và độ F trung bình tại mƣời một điểm đầy đủ chuẩn của các mô hình NE+KW+Wh, WN+KW và NE+WN .............................. 91 Bảng 6.2. Các độ chính xác trung bình nhóm của các mô hình NE+KW+Wh, WN+KW và NE+WN................................................................................ 92 Bảng 6.3. Trị số p hai chiều của phƣơng pháp kiểm định ngẫu nhiên giữa mô hình NE+WN với hai mô hình NE+KW+Wh và WN+KW ........................ 92 Bảng 6.4. Các độ chính xác và độ F trung bình tại mƣời một điểm đầy đủ chuẩn của các mô hình NE+WN, R+CSA và UM ................................................ 93 Bảng 6.5. Các độ chính xác trung bình nhóm của các mô hình NE+WN, R+CSA và UM ....................................................................................................... 94 Bảng 6.6. Trị số p hai chiều của phƣơng pháp kiểm định ngẫu nhiên giữa mô hình UM so với các mô hình NE+WN và R+CSA ..................................... 94 ix DANH MỤC CÁC HÌNH Hình 2.1. Sự phân cấp của các lớp tổng quát nhất trong KIM ontology........................9 Hình 2.2. Ví dụ về các thực thể có tên và quan hệ trong KIM ontology .......................9 Hình 2.3. Mạng lƣới quan hệ nghĩa cha/nghĩa con và tập đồng nghĩa của một nghĩa của từ “movement”...........................................................................10 Hình 2.4. Ví dụ về các sự kiện trong YAGO ..............................................................11 Hình 3.1. Biểu diễn truy vấn và tài liệu bằng các tập hợp bộ ba thực thể có tên .........23 Hình 3.2. Biểu diễn truy vấn và tài liệu trong mô hình từ khóa và mô hình đa không gian vectơ........................................................................................28 Hình 3.3. Biểu diễn truy vấn trong mô hình chồng lấp NEo .......................................30 Hình 3.4. Biểu diễn truy vấn và tài liệu trong mô hình NE+KW ................................34 Hình 3.5. Kiến trúc hệ thống của các mô hình NE-KW..............................................35 Hình 3.6. Đánh chỉ mục trong các mô hình NE-KW ..................................................36 Hình 3.7. Biểu diễn truy vấn trong mô hình NE+KW+Wh.........................................38 Hình 3.8. Các đƣờng cong P-R và F-R trung bình của các mô hình Lexical, NEn, và NE+KW ................................................................................................42 Hình 3.9. Sự khác biệt về độ chính xác trung bình ở mỗi truy vấn giữa mô hình NE+KW với hai mô hình Lexical và NEn ..................................................42 Hình 3.10. Các đƣờng cong P-R và F-R trung bình của các mô hình Lexical, Group_1, Group_2, Group_3 và NE+KW ................................................47 Hình 3.11. Sự khác biệt về độ chính xác trung bình ở mỗi truy vấn giữa mô hình NE+KW với ba mô hình Group_1, Group_2 và Group_3 .........................48 Hình 3.12. Đƣờng cong P-R của hai mô hình Lexical và NE+KW trên các truy vấn điển hình............................................................................................50 Hình 3.13. Đƣờng cong trung bình P-R và F-R của các mô hình Lexical, NE+KW và NE+KW+Wh ........................................................................52 Hình 3.14. Độ khác biệt của mỗi truy vấn ở độ chính xác trung bình giữa mô hình NE+KW+Wh với hai mô hình Lexical và NE+KW ..........................54 x Hình 3.15. Đƣờng cong P-R của hai mô hình Lexical và NE+KW+Wh trên các truy vấn điển hình.....................................................................................55 Hình 4.1. Các đoạn văn bản ví dụ từ BBC..................................................................62 Hình 4.2. Cây phân cấp nghĩa cha và nghĩa con của một số nghĩa của từ “movement” ...............................................................................................62 Hình 4.3. Kiến trúc hệ thống của mô hình WN+KW..................................................65 Hình 4.4. Các đƣờng cong P-R và F-R trung bình của các mô hình Lexical, Group_1, Group_2 và WN+KW ................................................................69 Hình 4.5. Độ khác biệt của mỗi truy vấn ở độ chính xác trung bình của mô hình WN+KW so với các mô hình Lexical, Group_1 và Group_2 .....................70 Hình 5.1. Ví dụ về các khái niệm có liên quan với khái niệm Thailand trong một ontology về sự kiện....................................................................................77 Hình 5.2. Kiến trúc hệ thống của mô hình mở rộng truy vấn sử dụng phƣơng pháp R+CSA..............................................................................................78 Hình 5.3. Các bƣớc của phƣơng pháp R+CSA ...........................................................79 Hình 5.4. Đƣờng cong trung bình P-R và F-R của các mô hình Lexical, CSA và R+CSA ......................................................................................................82 Hình 5.5. Độ khác biệt của mỗi truy vấn ở độ chính xác trung bình giữa mô hình R+CSA với hai mô hình Lexical và CSA ...................................................83 Hình 6.1. Kiến trúc hệ thống của mô hình UM...........................................................89 Hình 6.2. Các đƣờng cong trung bình P-R và F-R của các mô hình NE+KW+Wh, WN+KW và NE+WN ........................................................91 Hình 6.3. Độ khác biệt ở độ chính xác trung bình của mỗi truy vấn giữa mô hình NE+WN với hai mô hình NE+KW+Wh và WN+KW ................................92 Hình 6.4. Các đƣờng cong trung bình P-R và F-R của các mô hình NE+WN, R+CSA và UM ..........................................................................................94 Hình 6.5. Độ khác biệt của mỗi truy vấn ở độ chính xác trung bình giữa mô hình UM với hai mô hình NE+WN và R+CSA ..................................................95 Hình 7.1. Sự phát triển và hiệu quả của các mô hình đề xuất......................................98 xi DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT Từ viết tắt Diễn giải tiếng Anh Diễn giải tiếng Việt AP Average Precision Độ chính xác trung bình CSA Constrained Spreading Activation Kích hoạt lan truyền có ràng buộc F F-measure Độ F IE Information Extraction Rút trích thông tin IR Information Retrieval Truy hồi thông tin KB Knowledge Base Cơ sở tri thức KW Keyword Từ khóa MAP Mean Average Precision Độ chính xác trung bình nhóm NE Named Entity Thực thể có tên NER Named Entity Recognition Nhận diện thực thể có tên P Precision Độ chính xác R Recall Độ đầy đủ R+CSA Relation Constrained Spreading Kích hoạt lan truyền có ràng buộc Activation quan hệ SA Spreading Activation SIGIR Special Interest Group Information Retrieval UM Unified Model Mô hình hợp nhất TREC Text REtrieval Conference Hội nghị truy hồi văn bản VSM Vector Space Model Mô hình không gian vectơ WSD Word Sense Disambiguation Phân giải nhập nhằng nghĩa của từ Kích hoạt lan truyền on Cộng đồng quan tâm đặc biệt về truy hồi thông tin xii 1 Chƣơng 1 - GIỚI THIỆU 1.1 Động cơ nghiên cứu Ngày nay, nhiều thông tin hữu ích đƣợc lƣu trữ trên WWW và, theo bản báo cáo tháng 12/2010 của ITU1, có hơn 2 tỷ ngƣời sử dụng Internet với tần suất thƣờng xuyên. Do đó, nhu cầu khai thác và sử dụng thông tin trên WWW một cách hiệu quả là rất lớn. Theo [1], truy hồi thông tin là thu thập các nguồn thông tin liên quan đến một yêu cầu về thông tin, còn máy tìm kiếm là một ứng dụng thực tế của truy hồi thông tin. Các vấn đề chính của truy hồi thông tin là mô hình biểu diễn truy vấn và tài liệu, và phƣơng pháp so khớp và xếp hạng mức độ liên quan giữa các tài liệu và truy vấn. Trong khi đó, các vấn đề chính của máy tìm kiếm là tối ƣu việc lƣu trữ và truy xuất thông tin, hiệu suất tìm kiếm, và các vấn đề ứng dụng cụ thể khác. Nhằm khắc phục nhƣợc điểm của các mô hình truyền thống và nâng cao hiệu quả truy hồi thông tin, các mô hình truy hồi thông tin theo ngữ nghĩa đã đƣợc nghiên cứu và phát triển ([2]). Dựa vào sự phân loại ở [3], [4] và [5], các công trình về truy hồi thông tin theo ngữ nghĩa có thể đƣợc phân vào các lĩnh vực chính là: (1) truy hồi thông tin dựa trên giao diện ngƣời dùng nhƣ ở [6], [7] và [8]; (2) truy hồi thực thể nhƣ ở [9], [10], [11] và [12]; (3) truy hồi thông tin xuyên ngôn ngữ nhƣ ở [13], [14], [15] và [16]; (4) truy hồi tài liệu viết bằng ngôn ngữ có cấu trúc nhƣ ở [17], [18] và [19]; và (5) truy hồi văn bản, là tài liệu viết bằng ngôn ngữ tự nhiên, nhƣ ở [20], [21], và [22]. Trong luận án này, khi không cần nhấn mạnh, chúng tôi dùng thuật ngữ “truy hồi tài liệu” với ý nghĩa là truy hồi văn bản. Dữ liệu trên Web phần lớn là văn bản và chỉ phù hợp cho con ngƣời đọc hiểu. Do đó, việc nghiên cứu và phát triển các mô hình truy hồi văn bản có độ đầy đủ và độ chính xác cao là cần thiết. Các mô hình truy hồi tài liệu truyền thống không xét đến sự đa nghĩa và đồng nghĩa của các từ, và các khái niệm tiềm ẩn trong truy vấn và tài liệu. Các mô hình này chỉ sử dụng các từ khóa để biểu diễn truy vấn và tài liệu, và việc so International Telecommunication Union, là cơ quan chuyên môn của Liên Hợp Quốc về công nghệ thông tin và truyền thông. http://www.itu.int/net/itunews/issues/2010/10/04.aspx 1 1 khớp giữa một truy vấn và một tài liệu là sự so khớp giữa hai tập từ khóa đại diện cho chúng. Vì vậy có nhiều tài liệu đƣợc trả về không thực sự phù hợp với truy vấn. Nhằm khắc phục nhƣợc điểm nói trên của các mô hình truy hồi tài liệu theo từ khóa, các mô hình truy hồi theo ngữ nghĩa khai thác và biểu diễn nghĩa của các từ và khái niệm tiềm ẩn trong truy vấn và tài liệu. Cùng với sự ra đời và phát triển của Web có ngữ nghĩa ([23]), ontology đƣợc sử dụng rộng rãi trong việc nghiên cứu và phát triển các mô hình truy hồi tài liệu theo ngữ nghĩa ([24], [25], [26]). Trong đó, nhiều công trình với mục đích nâng cao hiệu quả truy hồi tài liệu đã: (1) khai thác thực thể có tên nhƣ ở [27], [28], [29], [30] và [31]; (2) khai thác từ WordNet nhƣ ở [32], [33], [34], [35] và [36]; trong luận án, chúng tôi gọi từ WordNet là từ đƣợc mô tả trong một ontology về từ vựng nhƣ WordNet; hoặc (3) thêm thông tin vào truy vấn nhƣ ở [21], [37], [38], [39] và [40]. Ví dụ với truy vấn tìm kiếm các tài liệu về “Earthquake in USA” thì các tài liệu về “Earthquake in United States of America”, về “Temblor in USA” hoặc về “Earthquake in Denali, Alaska 2002” đều phù hợp với truy vấn này. Điều này là do: (1) USA và United States of America là hai bí danh (alias) của cùng một thực thể có tên (Named Entity, NE); (2) Earthquake và Temblor là hai từ WordNet đồng nghĩa với nhau; và (3) Denali, Alaska 2002 là một trận động đất xảy ra ở USA. Trong khi đó, các tài liệu về “Earthquake in Fukushima 2011” không phù hợp với truy vấn trên vì Fukushima 2011 tuy cũng là một trận động đất nhƣng xảy ra ở Japan, không phải ở USA. Để giải quyết các vấn đề này, cần khai thác các đặc điểm ontology về thực thể có tên, về từ WordNet, và về sự kiện. 1.2 Mục tiêu và phạm vi của luận án Mục tiêu của luận án là nghiên cứu khai thác các ontology về thực thể có tên, từ WordNet và sự kiện để nâng cao hiệu quả truy hồi tài liệu. Thứ nhất, luận án khảo sát tất cả các đặc điểm ontology của thực thể có tên và nghiên cứu ảnh hƣởng của chúng đến hiệu quả truy hồi tài liệu. Đồng thời, luận án nghiên cứu các cách kết hợp giữa thực thể có tên và từ khóa trong truy hồi tài liệu. Trong đó, so với các công trình trƣớc đây, luận án khai thác thêm cặp tên-lớp và định danh của thực thể có tên để biểu diễn truy vấn và tài liệu. Ngoài ra, luận án khai thác các lớp thực thể ở mức cụ thể tiềm ẩn trong từ để hỏi dạng Wh. Thứ hai, luận án nghiên cứu khai thác các đặc điểm ontology 2 của từ WordNet và kết hợp chúng với từ khóa. Ngoài các đặc điểm ontology cơ bản của từ WordNet là nhãn và nghĩa đã đƣợc sử dụng trong các công trình trƣớc đây, luận án sử dụng thêm cặp nhãn-nghĩa để biểu diễn từ WordNet trong trƣờng hợp từ này có nhiều hơn một nghĩa trong ngữ cảnh xem xét. Thứ ba, luận án khai thác ontology về sự kiện để thêm vào truy vấn các thực thể tiềm ẩn liên quan với các thực thể theo các quan hệ tƣờng minh trong truy vấn. Hiệu quả truy hồi của các mô hình truy hồi tài liệu phụ thuộc vào ba mô đun chính là xử lý và biểu diễn truy vấn, xử lý và biểu diễn tài liệu, và so khớp giữa hai biểu diễn này ([41]). Trong phạm vi luận án, chúng tôi tập trung vào xử lý và biểu diễn truy vấn và tài liệu. Việc so khớp giữa các biểu diễn của truy vấn và tài liệu đƣợc hiện thực theo mô hình không gian vectơ, là một mô hình truy hồi thông tin phổ biến. Các mô hình đề xuất của luận án sử dụng các ontology về thực thể có tên, từ WordNet và sự kiện có độ bao phủ lớn, và các giải thuật nhận diện thực thể có tên và phân giải nhập nhằng nghĩa của từ có độ chính xác cao của các công trình khác. Vì vậy, các kết quả thí nghiệm trong luận án chịu ảnh hƣởng của chất lƣợng của các ontology và công cụ xử lý đƣợc sử dụng. Tuy nhiên, ý nghĩa của luận án là nghiên cứu sự khác biệt về hiệu quả truy hồi tài liệu của các mô hình khác nhau trên cùng một nền tảng ontology và công cụ tiền xử lý. Việc xây dựng một hệ thống truy hồi tài liệu để dùng ngay trong thực tiễn nằm ngoài phạm vi của luận án. Vì vậy, trọng tâm của luận án không phải là vấn đề thời gian xử lý và truy hồi tài liệu, mà là về độ chính xác và độ đầy đủ của các mô hình và phƣơng pháp đề xuất. Thêm vào đó, luận án chỉ xử lý văn bản tiếng Anh để các đóng góp của luận án có thể công bố trong cộng đồng nghiên cứu trên thế giới về các vấn đề này, nơi mà các công trình và tập kiểm tra trên tiếng Anh là phổ biến. 1.3 Những đóng góp chính của luận án Luận án đã đề xuất các mô hình truy hồi tài liệu khai thác các đặc điểm ontology về thực thể có tên, về từ WordNet và về sự kiện một cách tƣơng đối đầy đủ và toàn diện nhằm nâng cao hiệu quả truy hồi, bao gồm: 1. Mô hình khai thác các đặc điểm ontology của thực thể có tên và kết hợp chúng với từ khóa. 3 2. Mô hình khai thác các đặc điểm ontology của từ WordNet kết hợp với từ khóa. 3. Mô hình mở rộng truy vấn với các thực thể có tên bằng cách lan truyền theo các quan hệ tƣờng minh trong truy vấn. 4. Mô hình kết hợp các phƣơng pháp trong các mô hình đƣợc đề xuất ở trên. Hiệu quả của các mô hình đề xuất đƣợc kiểm tra bằng thực nghiệm và qua bƣớc kiểm định ý nghĩa thống kê. 1.4 Cấu trúc của luận án Luận án này đƣợc chia thành 7 chƣơng. Chƣơng 1 trình bày mục tiêu, phạm vi, những đóng góp chính, và giới thiệu cấu trúc của luận án. Chƣơng 2 trình bày về cơ sở kiến thức. Từ Chƣơng 3 đến Chƣơng 5, mỗi chƣơng đều có các phần: giới thiệu, các công trình liên quan, phƣơng pháp đề xuất, kết quả thực nghiệm, và kết luận. Với mỗi mô hình đề xuất, luận án phân tích nguyên nhân của kết quả thực nghiệm trên một số truy vấn điển hình trong tập dữ liệu kiểm tra. Chƣơng 6 đề xuất và thực nghiệm mô hình kết hợp các mô hình trình bày ở các Chƣơng 3, 4 và 5. Chƣơng cuối cùng là tổng kết. Chƣơng 2 – Cơ sở kiến thức Chƣơng này giới thiệu các kiến thức nền tảng, tài nguyên, và công cụ, bao gồm: mô hình không gian vectơ, các ontology KIM, WordNet và YAGO, và các động cơ nhận diện thực thể có tên và phân giải nhập nhằng nghĩa của từ. Bên cạnh đó, chƣơng này trình bày các tập dữ liệu kiểm tra, độ đo và phƣơng pháp đánh giá hiệu quả truy hồi tài liệu của các mô hình đề xuất so với các mô hình liên quan. Chƣơng 3 – Khai thác thực thể có tên Trong chƣơng này, luận án nghiên cứu và đề xuất các mô hình không gian vectơ dựa trên ontology, khai thác và phân tích các cách kết hợp khác nhau của các đặc điểm ontology của thực thể có tên với từ khóa. Thêm vào đó là đề xuất việc ánh xạ từ để hỏi trong truy vấn sang lớp của thực thể có tên. Các mô hình đề xuất đƣợc so sánh về hiệu quả truy hồi tài liệu với nhau, với mô hình dựa trên từ khóa truyền thống, và với các mô hình dựa trên thực thể có tên trƣớc đây. Kết quả nghiên cứu liên quan đến chƣơng này đƣợc phát triển từ [42], và đã đƣợc công bố trong [43], [44], [45] và [46]. 4 Chƣơng 4 – Khai thác WordNet Trong chƣơng này, luận án nghiên cứu, phân tích và đề xuất một mô hình truy hồi tài liệu khai thác các đặc điểm ontology của từ WordNet kết hợp với từ khóa. Hiệu quả của việc khai thác các đặc điểm ontology của từ WordNet đƣợc trình bày thông qua các thí nghiệm so sánh với các mô hình dựa trên từ WordNet trƣớc đây. Kết quả nghiên cứu liên quan đến chƣơng này đã đƣợc công bố trong [47]. Chƣơng 5 – Khai thác thông tin tiềm ẩn Trong chƣơng này, luận án nghiên cứu và đề xuất một mô hình mở rộng truy vấn bằng cách kích hoạt lan truyền theo các quan hệ tƣờng minh trong truy vấn. Mô hình này đƣợc đánh giá và so sánh với các mô hình kích hoạt lan truyền truyền thống. Kết quả nghiên cứu liên quan đến chƣơng này đã đƣợc công bố trong [48] và [49]. Chƣơng 6 – Mô hình hợp nhất Chƣơng này trình bày mô hình hợp nhất, trong đó các phƣơng pháp đề xuất ở các Chƣơng 3, 4 và 5 đƣợc tích hợp lại với nhau. Cụ thể là, mô hình này mở rộng truy vấn nhƣ ở Chƣơng 5. Sau đó các truy vấn mở rộng và tài liệu sẽ đƣợc chú giải theo các đặc điểm ontology của thực thể có tên và từ vựng nhƣ ở Chƣơng 3 và 4. Hiệu quả của mô hình này đƣợc đánh giá so với các mô hình riêng lẻ đề xuất ở các Chƣơng 3, 4 và 5. Kết quả nghiên cứu liên quan đến chƣơng này đã đƣợc công bố trong [50]. 5
- Xem thêm -

Tài liệu liên quan