Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Nghiên cứu phương pháp tìm kiếm ngữ nghĩa sử dụng ontology và ứng dụng xây dựng ...

Tài liệu Nghiên cứu phương pháp tìm kiếm ngữ nghĩa sử dụng ontology và ứng dụng xây dựng hệ thống tra cứu tìm kiếm văn bản mẫu bệnh

.PDF
115
123
99

Mô tả:

BỘ QUỐC PHÒNG HỌC VIỆN KỸ THUẬT QUÂN SỰ NGUYỄN HỒNG SƠN NGHIÊN CỨU PHƯƠNG PHÁP TÌM KIẾM NGỮ NGHĨA SỬ DỤNG ONTOLOGY VÀ ỨNG DỤNG XÂY DỰNG HỆ THỐNG TRA CỨU, TÌM KIẾM VĂN BẢN MẪU BỆNH LUẬN ÁN TIẾN SĨ HÀ NỘI –2020 BỘ QUỐC PHÒNG HỌC VIỆN KỸ THUẬT QUÂN SỰ NGUYỄN HỒNG SƠN NGHIÊN CỨU PHƯƠNG PHÁP TÌM KIẾM NGỮ NGHĨA SỬ DỤNG ONTOLOGY VÀ ỨNG DỤNG XÂY DỰNG HỆ THỐNG TRA CỨU, TÌM KIẾM VĂN BẢN MẪU BỆNH Chuyên ngành: Cơ sở toán học cho tin học Mã số: 9 46 01 10 LUẬN ÁN TIẾN SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. TS. Dương Trọng Hải 2. TS. Hoa Tất Thắng HÀ NỘI –2020 1 LỜI CAM ĐOAN Tôi xin cam đoan luận án này là công trình nghiên cứu do tác giả thực hiện dưới sự hướng dẫn của tập thể cán bộ hướng dẫn. Luận án có sử dụng thông tin trích dẫn từ nhiều nguồn tham khảo khác nhau, các thông tin trích dẫn đều được ghi rõ nguồn gốc. Các số liệu thực nghiệm, kết quả nghiên cứu trình bày trong luận án là hoàn toàn trung thực, chưa được công bố bởi tác giả nào hay trong bất kì công trình nào khác. Nghiên cứu sinh Nguyễn Hồng Sơn 2 LỜI CẢM ƠN Luận án được hoàn thành tại Bộ môn Hệ thống thông tin thuộc Khoa Công nghệ thông tin - Học viện Kỹ thuật Quân sự với sự hướng dẫn khoa học của TS. Dương Trọng Hải và TS. Hoa Tất Thắng. Tác giả xin bày tỏ lòng biết ơn sâu sắc nhất đến các thầy đã tận tình hướng dẫn, động viên và tạo điều kiện tốt nhất cho NCS hoàn thành luận án của mình. Trong suốt quá trình làm luận án, tác giả luôn nhận được sự động viên, giúp đỡ và góp ý tận tình của các thầy cô trong Bộ môn Hệ thống thông tin và các thầy cô trong Học viện Kỹ thuật Quân sự. Bên cạnh đó NCS còn được tạo điều kiện và sự hỗ trợ của các anh chị chuyên viên Phòng Đào tạo Sau đại học của Học viện Kỹ thuật Quân sự. Tác giả xin chân thành cảm ơn những sự giúp đỡ quí báu đó. NCS cũng luôn được sự hỗ trợ, tạo điều kiện của Phòng Đào tạo, Phòng Tổ chức- Hành chính và lãnh đạo Trường Đại học Luật, Đại học Huế; cũng như các thầy cô, đồng nghiệp nơi công tác. Tác giả xin bày tỏ lòng biết ơn đến các thầy cô, đồng nghiệp và quý Phòng Ban của Trường Đại họcLuật, Đại học Huế. Trong quá trình làm luận án, NCS cũng nhận được sự giúp đỡ, đóng góp ý kiến từ nhiều nhà khoa học là PGS.TS. Trần Nguyên Ngọc, PGS.TS Bùi Thu Lâm, PGS.TS Ngô Thành Long, TS Tống Minh Đức, TS Nguyễn Văn Giang, TS Nguyễn Mạnh Hùng, PGS.TS Nguyễn Long Giang, PGS.TS Đoàn Văn Ban, PGS.TS Đặng Văn Đức, PGS.TS Nguyễn Ngọc Hóa và nhiều cá nhân khác. Tác giả xin chân thành cảm ơn những sự giúp đỡ quí báu của các nhà khoa học, các cá nhân trên. Để hoàn thành luận án của mình, NCS đã nhận được sự hỗ trợ vô cùng to lớn của gia đình, do đó NCS xin phép được dành những lời cảm ơn đặc biệt nhất cho gia đình của mình. 3 MỤC LỤC Trang LỜI CAM ĐOAN ................................................................................................................. 1 LỜI CẢM ƠN....................................................................................................................... 2 MỤC LỤC ............................................................................................................................ 3 DANH MỤC CÁC HÌNH VẼ, SƠ ĐỒ ............................................................................... 6 DANH MỤC CÁC BẢNG BIỂU ........................................................................................ 8 DANH MỤC THUẬT NGỮ CHUYÊN NGÀNH ............................................................. 9 DANH MỤC CHỮ VIẾT TẮT ......................................................................................... 10 MỞ ĐẦU ............................................................................................................................. 11 1. Tính cấp thiết của đề tài luận án.................................................................................. 11 2. Mục tiêu của đề tài luận án ......................................................................................... 13 3. Đối tượng và phạm vi nghiên cứu của đề tài luận án .................................................. 14 4. Nội dung nghiên cứu đề tài luận án ............................................................................ 14 5. Phương pháp nghiên cứu đề tài luận án ...................................................................... 14 6. Những điểm mới của đề tài luận án ............................................................................ 15 7. Ý nghĩa khoa học và thực tiễn của đề tài luận án........................................................ 15 8. Cấu trúc luận án .......................................................................................................... 16 CHƯƠNG 1. KIẾN THỨC CƠ SỞ .................................................................................. 19 1.1. Ontology................................................................................................................... 19 1.1.1. Khái niệm Ontology ............................................................................................................ 19 1.1.2. Ứng dụng Ontology ............................................................................................................. 20 1.1.3. Các ngôn ngữ Ontology ...................................................................................................... 21 1.1.4. Tiến trình xây dựng ontology ............................................................................................. 22 1.2. Trích rút thông tin từ văn bản .................................................................................. 25 1.2.1. Trích rút đặc trưng phổ biến ............................................................................................... 26 1.2.2. Trích rút quan hệ ngữ nghĩa trong văn bản ....................................................................... 29 1.3. Các mô hình tìm kiếm .............................................................................................. 30 1.3.1. Tìm kiếm tương tác.............................................................................................................. 30 1.3.2. Tìm kiếm ngữ nghĩa ............................................................................................................ 31 1.4. Luật kết hợp ............................................................................................................. 34 4 1.4.1. Giới thiệu .............................................................................................................................. 34 1.4.2. Thuật toán Apriori................................................................................................................ 36 1.5. Kết chương ............................................................................................................... 38 CHƯƠNG 2. TÌM KIẾM NGỮ NGHĨA DỰA TRÊN NỘI DUNG VĂN BẢN ........... 39 2.1. Trích rút triple dựa trên mô hình ngữ pháp .............................................................. 39 2.1.1. Trích rút triple....................................................................................................................... 39 2.1.2. Quy trình trích rút thông tin văn bản.................................................................................. 44 2.1.3. Đánh giá ................................................................................................................................ 44 2.2. Tìm kiếm đa diện dữ liệu văn bản ............................................................................ 46 2.2.1. Xây dựng tham chiếu định hướng xử lý nhập nhằng sử dụng Wikipedia ..................... 47 2.2.2. Xây dựng không gian tìm kiếm ngữ nghĩa sử dụng tham chiếu định hướng xử lý nhập nhằng................................................................................................................................................ 50 2.2.3. Đánh giá kết quả trích rút dữ liệu định hướng lý nhập nhằng từ Wikipedia Disambiguation .............................................................................................................................. 52 2.3. Phương pháp cá nhân hóa facet trong tìm kiếm đa diện .......................................... 53 2.4. Kết chương ............................................................................................................... 55 CHƯƠNG 3. TÌM KIẾM NGỮ NGHĨA CÓ TƯƠNG TÁC ......................................... 57 3.1. Sử dụng luật kết hợp trong tìm kiếm ngữ nghĩa thông tin bệnh .............................. 57 3.2. Luật kết hợp trong Ontology bệnh (ASO - Associate rules in Disease Ontology) .. 61 3.3. Đánh giá ................................................................................................................... 70 3.3.1. Đánh giá độ chính xác và độ bao phủ ................................................................................ 70 3.3.2. Kết quả .................................................................................................................................. 71 3.4. Kết chương ............................................................................................................... 72 CHƯƠNG 4. XÂY DỰNG HỆ THỐNG TRA CỨU, TÌM KIẾM NGỮ NGHĨA THÔNG TIN BỆNH .......................................................................................................... 73 4.1. Tổng quan hệ thống tìm kiếm ngữ nghĩa thông tin bệnh ......................................... 73 4.2. Xây dựng Ontology bệnh ......................................................................................... 73 4.2.1. Lựa chọn Disease Ontology................................................................................................ 73 4.2.2. Dịch tự động Google Translation ....................................................................................... 75 4.2.3. Tinh chỉnh bán tự động ....................................................................................................... 77 4.2.4. Chỉnh sửa công tác Ontology bệnh .................................................................................... 80 4.3. Thu thập dữ liệu ....................................................................................................... 81 4.4. Xây dựng phương pháp tìm kiếm ngữ nghĩa có tương tác điều hướng luồng tìm kiếm ................................................................................................................................. 83 4.5. Xây dựng hệ thống ................................................................................................... 84 5 4.5.1. Cấu trúc cơ sở dữ liệu (Disease Schema ........................................................................... 84 4.5.2. Khung tìm kiếm ................................................................................................................... 86 4.6. Kết chương ............................................................................................................... 89 KẾT LUẬN VÀ CÁC NGHIÊN CỨU TIẾP THEO ...................................................... 91 1. Kết luận ....................................................................................................................... 91 2. Các nghiên cứu tiếp theo ............................................................................................. 92 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ CỦA TÁC GIẢ CÓ LIÊN QUAN ĐẾN LUẬN ÁN .......................................................................................... 93 TÀI LIỆU THAM KHẢO ................................................................................................. 94 PHỤ LỤC.......................................................................................................................... 108 6 DANH MỤC CÁC HÌNH VẼ, SƠ ĐỒ Trang Hình 1.1. Quá trình trích rút thực thể trong văn bản không cấu trúc [2] .................... 28 Hình 1.2. Ví dụ về tìm kiếm đa diện và giải thích các khái niệm liên quan [CNET faceted search] .................................................................................................................... 34 Hình 2.1. Mô hình cú pháp (Syntax Model) – phần 1..................................................... 41 Hình 2.2. Mô hình cú pháp (Syntax Model) – phần 2..................................................... 42 Hình 2.3. Các bước xử lý một câu .................................................................................... 43 Hình 2.4. Số bộ ba trích rút chính xác và tổng số bộ ba được trích rút ....................... 45 Hình 2.5. Trang dữ liệu định hướng xử lý nhập nhằng của từ Java trên Wikipedia Disambiguation ................................................................................................................... 49 Hình 2.6. Phân loại facet của từ Java theo Wikipedia Disambiguation ......................... 49 [CTLA5] .............................................................................................................................. 49 Hình 2.7. Quá trình xây dựng không gian tìm kiếm ngữ nghĩa .................................... 50 [CTLA5] .............................................................................................................................. 50 Hình 2.8. Sơ đồ kết quả tìm kiếm dự kiến ....................................................................... 51 Hình 3.1. Hộp tìm kiếm ..................................................................................................... 58 Hình 3.2. Hộp tìm kiếm hệ thống tìm kiếm ngữ nghĩa có tương tác ............................. 60 Hình 3.3. Danh sách các triệu chứng ẩn được hệ thống gợi ý........................................ 60 Hình 3.4. Kết quả ban đầu và gợi ý các triệu chứng ẩn ................................................. 61 Hình 3.5. Kết quả sau khi người dùng tương tác ............................................................ 61 Hình 3.7. Quan hệ subclass trong Ontology bệnh ........................................................... 70 Hình 3.8. So sánh giữa Apriori và ASO-Apriori ............................................................. 71 Hình 4.1. Hệ thống tìm kiếm ngữ nghĩa thông tin bệnh ................................................. 73 Hình 4.2. Cấu trúc của DO................................................................................................ 75 Hình 4.3. Sử dụng Google Translate ................................................................................ 76 Hình 4.4. Google Translate dịch chưa chính xác cụm từ “abdominal pain” và “stomach pain” .................................................................................................................................... 77 7 Hình 4.5. Lưu đồ các bước xây dựng ontology bệnh phiên bản tiếng Việt................... 77 Hình 4.6. Tài liệu ICD-10 song ngữ Việt - Anh ............................................................... 78 Hình 4.7. Một ví dụ về xác định triệu chứng bệnh ......................................................... 79 Hình 4.8. Một phần Ontology bệnh .................................................................................. 79 Hình 4.9. Miêu tả thông tin một số thuộc tính trong file exel dữ liệu ........................... 82 Hình 4.10. Hơn 3.000 bệnh thu thập từ sở y tế................................................................ 83 Hình 4.11. Hệ thống gợi ý từ khóa.................................................................................... 84 Hình 4.12. Cấu trúc cơ sở dữ liệu bệnh ........................................................................... 85 Hình 4.13. Autocomplete trong khung tìm kiếm............................................................. 86 Hình 4.14. Gợi ý từ khóa liên quan trong khung tìm kiếm ............................................ 87 Hình 4.15. Hiển thị kết quả tìm kiếm bệnh ..................................................................... 89 Hình PL1.1. Mô tả bệnh .................................................................................................. 108 Hình PL1.2. Giải phẩu bệnh ........................................................................................... 109 Hình PL1.3. Dịch tễ học................................................................................................... 109 Hình PL1.4. Yếu tố nguy cơ ............................................................................................ 110 Hình PL1.5. Bệnh sử ........................................................................................................ 110 Hình PL1.6. Lâm sàng - cận lâm sàng ........................................................................... 111 Hình PL1.7. Chuẩn đoán ................................................................................................. 111 Hình PL1.8. Điều trị ........................................................................................................ 112 Hình PL2.1. Xét nghiệm .................................................................................................. 112 Hình PL2.2. Khái niệm bệnh, trong đó có đầy đủ các thông tin như nguyên nhân, triệu chứng, lưu trú, vật gây bệnh. ................................................................................. 113 Hình PL2.3. Các cơ sở dữ liệu bệnh khác được tham chiếu ........................................ 113 8 DANH MỤC CÁC BẢNG BIỂU Trang Bảng 2.1. Bảng các mẫu sử dụng động từ tiếng Anh [17] .............................................. 39 Bảng 2.2. Mẫu dữ liệu trích rút được ứng với facet là Places của từ Java. .................. 52 Bảng 2.3. So sánh các tài liệu/facet được trích xuất với dữ liệu chuẩn ......................... 53 Bảng 2.4. Kết quả thử nghiệm cá nhân hoá tìm kiếm đa diện ....................................... 55 Bảng 3.1. Dữ liệu DiseaseRule .......................................................................................... 59 Bảng 3.2. Các mối quan hệ trong Ontology bệnh ........................................................... 65 Bảng 4.1. Thông tin cơ sở dữ liệu ..................................................................................... 85 9 DANH MỤC THUẬT NGỮ CHUYÊN NGÀNH Ký hiệu Diễn giải Semantic search Tìm kiếm ngữ nghĩa Interactive search Tìm kiếm tương tác Faceted search Tìm kiếm đa diện Search click graph Tìm kiếm bằng cách nhấn chuột chọn lựa trên biểu đồ Large - scale context embedded vocabulary tree Cây từ vựng ngữ cảnh nhúng cỡ lớn Ontology Bản thể học 10 DANH MỤC CHỮ VIẾT TẮT Tên đầy đủ Chữ viết tắt DO (Disease Ontology) Ontology bệnh DD (Disease Database) Cơ sở dữ liệu bệnh TF (Term frequency) Tần suất xuất hiện từ IDF (Inverse document frequency) Tần suất tài liệu ngược NER (Name Entity Recoginition) Nhận diện thực thể định danh OpenIE (Open Information Extraction) Khai thác thông tin mở IE (Information Extraction) Trích rút thông tin IR (Information Retrieval) Truy xuất thông tin CSTT-PLB Cơ sở tri thức phân loại bệnh YHTT Y học thường thức OWL (Web Ontology Language) Ngôn ngữ ontology web XML (Extensible Markup Language) Ngôn ngữ đánh dấu văn bản mở rộng W3C (World Wide Web Consortium) Hiệp hội web toàn cầu ICD (International Statistical Classification of Diseases and Related Health Problems) Phân loại thống kê quốc tế về bệnh và các vấn đề sức khỏe liên quan CSDL Cơ sở dữ liệu 11 MỞ ĐẦU 1. Tính cấp thiết của đề tài luận án Sự bùng nổ lượng thông tin người dùng Internet, cũng như sự phát triển của dữ liệu lớn (Big data) đưa đến một cơ hội mới và cũng là một thách thức cho bài toán tìm kiếm thông tin. Khi tìm kiếm thông tin, người dùng có nhu cầu muốn có kết quả chính xác, nhiều thông tin nhất liên quan đến các từ khóa đầu vào. Người dùng cũng cần được máy tính hỗ trợ đưa ra các từ khóa, thông tin liên quan để tiếp tục quá trình tìm kiếm, do họ chưa thực rõ nội dung tìm kiếm. Ví dụ, khi làm việc với hệ thống hỗ trợ tìm kiếm thông tin bệnh, ban đầu người sử dụng chỉ có một vài triệu chứng bệnh ban đầu và muốn biết xem những triệu chứng đó là của bệnh gì, họ cần hệ thống khuyến nghị các triệu chứng bệnh liên quan để chọn và xác nhận, dần dần làm rõ quá trình tìm kiếm cho đến khi tìm được câu trả lời cuối cùng. Cách tìm kiếm thông tin phổ biến hiện nay là tìm kiếm những tài liệu trong số các tài liệu đã lưu trong cơ sở dữ liệu (CSDL), các tài liệu này có nội dung phù hợp với nhu cầu thông tin cần tìm kiếm. Hiện nay, các hệ thống tìm kiếm văn bản phần lớn vẫn dựa trên cách sử dụng từ khóa. Khi đó người dùng phải diễn đạt nội dung mình cần tìm kiếm dưới dạng các từ khoá tổng quát nhất và phải đảm bảo mối quan hệ ngữ nghĩa giữa các từ khóa (cụm từ khoá) với nội dung cần tìm. Do vậy, vấn đề khó khăn đối với người dùng khi tìm kiếm thông tin dựa trên từ khóa là ở khả năng họ mô tả thông tin cần tìm dưới dạng các từ khóa một cách chính xác nhất và chuyển nhu cầu tìm kiếm này thành dạng thức truy vấn, phù hợp với hệ thống. Đặc biệt,khi người dùng ít kinh nghiệm hoặc không thể đặc tả đúng từ khóa có liên quan đến nội dung cần tìm kiếm. Nếu người dùng không hiểu về chuyên môn họ rất khó tìm được các tài liệu mong muốn. Điều này sẽ được thể hiện rất rõ khi người dùng tìm kiếm bệnh dựa trên các triệu chứng ban đầu chưa được biểu đạt rõ ràng. Hiện nay, các trang tìm 12 kiếm thông tin về bệnh chủ yếu mới dừng ở chế độ tra cứu tuần tự, từng mục triệu chứng cần tra cứu. Người dùng phải tự đọc nhiều kết quả tìm kiếm để tìm được thông tin cần tham khảo. Làm như vậy sẽ mất rất nhiều thời gian, hiệu quả đem lại không cao và thường kém chính xác. Đây chính là lý do cơ bản làm cho các hệ thống tìm kiếm hiện nay trả về kết quả không hoàn toàn đáp ứng các yêu cầu đặt ra của người sử dụng không chuyên. Các hệ thống tìm kiếm thông tin hiện tại còn tiếp cận theo kỹ thuật tìm kiếm đa diện, với điều kiện thông tin văn bản đã được lưu trữ theo phân lớp đa diện (facets) [5]. Ưu điểm của hệ thống tìm kiếm đa diện là cho phép người dùng dễ dàng chọn lựa các thuộc tính cùng với các giá trị mong muốn để dễ đi đến kết quả tìm kiếm cuối cùng. Tuy nhiên, các facets thường phải được thiết kế trước, phải xác định các giá trị cụ thể của các thuộc tính. Điều này hạn chế sự mềm dẻo trong tìm kiếm, chỉ phù hợp với các trang thông tin giải trí, thương mại điện tử. Cách tiếp cận tìm kiếm tương tác (Interactive search) [4], [91], [105], [109] đòi hỏi hệ thống phải tương tác với người dùng thiết kế dần dần kết quả tìm kiếm tương ứng, phù hợp với ý định tìm kiếm của người dùng. Kỹ thuật này được dùng nhiều trong tìm kiếm hình ảnh [105] nhằm lọc hình ảnh, có sự phản hồi qua lại với người dùng. Tuy nhiên, sự tương tác vẫn phụ thuộc vào kiến thức chuyên môn sử dụng kinh nghiệm và trực giác của người dùng để hướng dẫn quá trình tìm kiếm. Tiếp cận tìm kiếm ngữ nghĩa (Semantic search) ) [36], [38], [75] cho phép tăng độ chính xác việc trích lọc thông tin, bằng cách nắm được ý định tìm kiếm của người dùng, cũng như ngữ cảnh để từ khóa được đặt trong không gian dữ liệu tìm kiếm: Nghiên cứu cấu trúc câu truy vấn [75], [77], phân tích phiên giao dịch 15], [33], [38], phân tích ý định của người dùng sau các lần nhấn chuột [33], [59] và phân nhóm ngữ nghĩa trong hệ thống hỏi đáp cộng đồng [30]. Tuy nhiên, việc xây dựng một hệ thống tìm kiếm ngữ nghĩa cho đến nay vẫn còn là bài 13 toán khó,do nhiều vấn đề vẫn chưa có lời giải tối ưu [2], [4]. Ngoài ra, việc xây dựng sẵn cơ sở tri thức miền ứng dụng gặp nhiều khó khăn,tốn chi phí xây dựng và duy trì, cần can thiệp của người quản trị, phụ thuộc vào tri thức chuyên gia miền ứng dụng, phụ thuộc vào ngôn ngữ [5], [6]. Luận án nghiên cứu kết hợp các kỹ thuật tìm kiếm ngữ nghĩa để hỗ trợ người dùng xác định dần dần câu truy vấn mong muốn. Đề tài “Nghiên cứu phương pháp tìm kiếm ngữ nghĩa sử dụng Ontology và ứng dụng xây dựng hệ thống tra cứu, tìm kiếm văn bản mẫu bệnh” của luận án sẽ khai thác, tích hợp các ontology được thiết kế xây dựng nhằm biểu thị tri thức chuyên gia trong lĩnh vực bệnh học, được làm giàu thông tin với các luật kết hợp để hướng người dùng dần dần hình thành câu truy vấn. Cách tiếp cận này sẽ tạo ra cách tìm kiếm ngữ nghĩa có tương tác giữa người dùng và hệ thống tìm kiếm. Để xây dựng được hệ thống tìm kiếm ngữ nghĩa có tương tác, các vấn đề liên quan được luận án nghiên cứu,bao gồm: xây dựng ontology bệnh, trích rút đặc trưng đối tượng văn bản (dưới dạng các bộ ba triples thông tin thực thể), và xác định các luật kết hợp gắn với thuộc tính của ontology bệnh để có thể ứng dụng thử nghiệm trong hệ thống tìm kiếm ngữ nghĩa có tương tác thông tin bệnh. 2. Mục tiêu của đề tài luận án Mục tiêu chung Nghiên cứu các phương pháp xây dựng hệ thống tìm kiếm ngữ nghĩa có tương tác và ứng dụng trong Hệ thống tìm kiếm ngữ nghĩa có tương tác thông tin bệnh. Mục tiêu cụ thể - Nghiên cứu phương pháp thu thập thông tin và tri thức trong tìm kiếm ngữ nghĩa; 14 - Nghiên cứu phương pháp xây dựng, tổ chức lưu trữ, quản lý và khai thác sử dụng tri thức dưới dạng ontology; - Nghiên cứu khai thác luật kết hợp trong Ontology bệnh; - Nghiên cứu các mô hình tìm kiếm; - Xây dựng Hệ thống tìm kiếm ngữ nghĩa có tương tác thông tin bệnh. 3. Đối tượng và phạm vi nghiên cứu của đề tài luận án Đối tượng nghiên cứu chính của luận án là: - Phương pháp thu thập thông tin bằng trích rút đặc trưng văn bản; - Phương pháp xây dựng, tổ chức lưu trữ, quản lý và khai thác sử dụng tri thức dưới dạng ontology; - Phương pháp khai thác luật kết hợp trong Ontology bệnh; - Các mô hình tìm kiếm; - Phân tích thiết kế và xây dựng Hệ thống tìm kiếm ngữ nghĩa có tương tác thông tin bệnh. 4. Nội dung nghiên cứu đề tài luận án - Thu thập thông tin nhờ trích rút đặc trưng văn bản; - Xây dựng, tổ chức lưu trữ, quản lý và khai thác sử dụng tri thức Ontology bệnh DO (Disease Ontology); - Xác định luật kết hợp trong Ontology bệnh; - Giải pháp tìm kiếm ngữ nghĩa có tương tác thông tin bệnh gợi ý người sử dụng xác định câu truy vấn cho phép nhận được kết quả tìm kiếm đúng ý định; - Hệ thống tìm kiếm ngữ nghĩa có tương tác thông tin bệnh. 5. Phương pháp nghiên cứu đề tài luận án Cơ sở lý thuyết về các mô hình tìm kiếm và phương pháp sử dụng ontology trong các hệ thống tìm kiếm; Cơ sở lý thuyết xây dựng ontology; Phương pháp xây dựng và làm giàu Ontology bệnh tiếng Việt; 15 Phương pháp xây dựng hệ thống kiếm ngữ nghĩa có tương tác và áp dụng xây dựng hệ thống tìm kiếm ngữ nghĩa có tương tác thông tin bệnh. 6. Những điểm mới của đề tài luận án (1) Đề xuất phương pháp trích rút bộ ba (triple) dựa trên mô hình cú pháp, trích rút các bộ ba từ dữ liệu văn bản phục vụ cho việc xây dựng đặc trưng của văn bản [CTLA3]; (2) Đề xuất phương pháp tìm kiếm đa diện dữ liệu văn bản và cá nhân hoá tìm kiếm đa diện sử dụng dữ liệu định hướng xử lý nhập nhằng của Wikipedia Disambiguation [CTLA3, CTLA4]; (3) Đề xuất phương pháp khai phá luật kết hợp trong Ontology bệnh (ASO-Apriori) [CTLA2] dựa trên 02 độ đo mới: độ hỗ trợ mở rộng và độ tin cậy mở rộng và khái phá luật kết hợp ngữ nghĩa giữa các mối quan hệ trong Ontology bệnh; (4) Xây dựng Ontology bệnh tiếng Việt [CTLA1]; (5) Đề xuất phương pháp và xây dựng Hệ thống tìm kiếm ngữ nghĩa thông tin bệnh có hỗ trợ tương tác với người sử dụng bằng các gợi ý dựa trên tập luật kết hợp giữa các triệu chứng và luật kết hợp ngữ nghĩa từ các mối quan hệ trên Ontology bệnh [CTLA1]. 7. Ý nghĩa khoa học và thực tiễn của đề tài luận án Luận án mở ra hướng nghiên cứu mới về tích hợp ontology và sử dụng luật kết hợp trong hệ thống tìm kiếm thống minh có tương tác. Hệ thống tìm kiếm ngữ nghĩa thông tin bệnh thực sự hữu ích trong thực tế, giúp người sử dụng dễ dàng lựa chọn các truy vấn phù hợp với ý định của họ mà không cần nhớ toàn bộ truy vấn. Các đề xuất của luận án còn có thể ứng dụng trong các hệ thống khác nhau, như: Đề xuất phương pháp trích rút bộ ba (triple) dựa trên mô hình cú pháp, trích rút các bộ ba từ dữ liệu văn bản phục vụ cho việc xây dựng đặc 16 trưng của văn bản có thể sử dụng trong các hệ thống phân loại, phận cụm và tóm tắt văn bản; Đề xuất phương pháp tìm kiếm đa diện dữ liệu văn bản và cá nhân hoá tìm kiếm đa diện sử dụng dữ liệu định hướng xử lý nhập nhằng của Wikipedia Disambiguation có thể áp dụng cho các hệ thống khuyến nghị, các hệ chuyên gia. 8. Cấu trúc luận án * Cấu trúc của luận án, ngoài các phần Mở đầu, Kết luận và Các nghiên cứu tiếp theo, gồm có 4 chương như sau: CHƯƠNG 1. KIẾN THỨC CƠ SỞ Chương 1 giới thiệu các khái niệm về ontology, ngôn ngữ ontology, các bước xây dựng một ontology và các phương pháp rút trích thông tin văn bản: phương pháp trích rút đặc trưng phổ biến và phương pháp trích rút quan hệ ngữ nghĩa làm cơ sở cho việc thu thập thông tin và xây dựng Ontology bệnh cho Hệ thống tìm kiếm ngữ nghĩa thông tin bệnh. Phân tích các mô hình tìm kiếm: tìm kiếm tương tác và tìm ngữ nghĩa; trình bày phương pháp khai phá luật kết hợp làm cơ sở cho đề xuất tích hợp ontology và hỗ trợ tương tác với người sử dụng trong hệ thống tìm kiếm ngữ nghĩa. CHƯƠNG 2. TÌM KIẾM NGỮ NGHĨA DỰA TRÊN NỘI DUNG VĂN BẢN Chương 2 trình bày về các phương pháp đề xuất sử dụng trong hệ thống tìm kiếm ngữ, cụ thể: đề xuất phương pháp rút trích triple dựa trên mô hình cú pháp, kết quả đánh giá cho thấy phương pháp đề xuất cho kết quả tốt hơn so với Ollie và ClausIE [CTLA3]; đề xuất phương pháp tìm kiếm đa diện dữ liệu văn bản dựa trên dữ liệu định hướng xử lý nhập 17 nhằng của Wikipedia Disambiguation [CTLA4] và đề xuất phương pháp cá nhân hoá tìm kiếm đa diện [CTLA5]. CHƯƠNG 3. TÌM KIẾM NGỮ NGHĨA CÓ TƯƠNG TÁC Trong chương này, luận án đã trình bày phương pháp sử dụng luật kết hợp trong tìm kiếm ngữ nghĩa thông tin bệnh và đề xuất phương pháp mới khai phá luật kết hợp trong Ontology bệnh được gọi là ASO-Apriori [CTLA2]. Điểm mới của phương pháp này chính là đưa ra 02 độ đo mới: độ hỗ trợ mở rộng và độ tin cậy mở rộng nhằm khai thác các quan hệ giữa các triệu chứng trong Ontology bệnh. Sử dụng 02 độ đo mới này, luận án đã đề xuất thuật toán ASO-AprioriGenFrequentSymptom sinh ra các tập triệu chứng phổ biến sử dụng nguyên lý Apriori mở rộng để cắt tỉa bớt tập ứng viên theo Mệnh đề 3.1. Thuật toán ASO-Apriori sinh ra các luật kết hợp giữa các triệu chứng, được sử dụng để gợi ý các triệu chứng tiếp theo cho người sử dụng và luật kết hợp ngữ nghĩa giữa các mối quan hệ trong Ontology bệnh, được sử dụng để gợi ý người sử dụng lựa chọn các facet tiếp theo. Kết quả thực nghiệm đã chứng tỏ hiệu quả của các luật kết hợp mở rộng trong định hướng tìm kiếm của người sử dụng. CHƯƠNG 4. XÂY DỰNG HỆ THỐNG TRA CỨU, TÌM KIẾM NGỮ NGHĨA THÔNG TIN BỆNH Chương 4 trình bày Hệ thống tìm kiếm ngữ nghĩa thông tin bệnh có hỗ trợ tương tác với người sử dụng bằng các gợi ý dựa trên tập luật khai thác được từ Ontology bệnh [CTLA1]. Trình bày chi tiết các bước xây dựng Ontology bệnh tiếng Việt xuất phát từ Bộ phân loại bệnh từ ICD-10- 18 CM và thu thập hơn 3.000 tài liệu về các bệnh để làm giàu Ontology bệnh. Xây dựng phương pháp tìm kiếm ngữ nghĩa có tương tác điều hướng luồng tìm kiếm. Xây dựng và thử nghiệm hệ thống gồm: cơ sở dữ liệu và khung tìm kiếm ngữ nghĩa thông tin bệnh có tương tác. **************************************
- Xem thêm -

Tài liệu liên quan