BỘ QUỐC PHÒNG
HỌC VIỆN KỸ THUẬT QUÂN SỰ
NGUYỄN HỒNG SƠN
NGHIÊN CỨU PHƯƠNG PHÁP TÌM KIẾM NGỮ NGHĨA SỬ DỤNG
ONTOLOGY VÀ ỨNG DỤNG XÂY DỰNG HỆ THỐNG TRA CỨU,
TÌM KIẾM VĂN BẢN MẪU BỆNH
LUẬN ÁN TIẾN SĨ
HÀ NỘI –2020
BỘ QUỐC PHÒNG
HỌC VIỆN KỸ THUẬT QUÂN SỰ
NGUYỄN HỒNG SƠN
NGHIÊN CỨU PHƯƠNG PHÁP TÌM KIẾM NGỮ NGHĨA SỬ DỤNG
ONTOLOGY VÀ ỨNG DỤNG XÂY DỰNG HỆ THỐNG TRA CỨU,
TÌM KIẾM VĂN BẢN MẪU BỆNH
Chuyên ngành:
Cơ sở toán học cho tin học
Mã số:
9 46 01 10
LUẬN ÁN TIẾN SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. TS. Dương Trọng Hải
2. TS. Hoa Tất Thắng
HÀ NỘI –2020
1
LỜI CAM ĐOAN
Tôi xin cam đoan luận án này là công trình nghiên cứu do tác giả thực
hiện dưới sự hướng dẫn của tập thể cán bộ hướng dẫn. Luận án có sử dụng
thông tin trích dẫn từ nhiều nguồn tham khảo khác nhau, các thông tin trích
dẫn đều được ghi rõ nguồn gốc. Các số liệu thực nghiệm, kết quả nghiên cứu
trình bày trong luận án là hoàn toàn trung thực, chưa được công bố bởi tác giả
nào hay trong bất kì công trình nào khác.
Nghiên cứu sinh
Nguyễn Hồng Sơn
2
LỜI CẢM ƠN
Luận án được hoàn thành tại Bộ môn Hệ thống thông tin thuộc Khoa
Công nghệ thông tin - Học viện Kỹ thuật Quân sự với sự hướng dẫn khoa học
của TS. Dương Trọng Hải và TS. Hoa Tất Thắng. Tác giả xin bày tỏ lòng biết
ơn sâu sắc nhất đến các thầy đã tận tình hướng dẫn, động viên và tạo điều
kiện tốt nhất cho NCS hoàn thành luận án của mình.
Trong suốt quá trình làm luận án, tác giả luôn nhận được sự động viên,
giúp đỡ và góp ý tận tình của các thầy cô trong Bộ môn Hệ thống thông tin và
các thầy cô trong Học viện Kỹ thuật Quân sự. Bên cạnh đó NCS còn được tạo
điều kiện và sự hỗ trợ của các anh chị chuyên viên Phòng Đào tạo Sau đại học
của Học viện Kỹ thuật Quân sự. Tác giả xin chân thành cảm ơn những sự
giúp đỡ quí báu đó.
NCS cũng luôn được sự hỗ trợ, tạo điều kiện của Phòng Đào tạo, Phòng
Tổ chức- Hành chính và lãnh đạo Trường Đại học Luật, Đại học Huế; cũng
như các thầy cô, đồng nghiệp nơi công tác. Tác giả xin bày tỏ lòng biết ơn đến
các thầy cô, đồng nghiệp và quý Phòng Ban của Trường Đại họcLuật, Đại học
Huế.
Trong quá trình làm luận án, NCS cũng nhận được sự giúp đỡ, đóng
góp ý kiến từ nhiều nhà khoa học là PGS.TS. Trần Nguyên Ngọc, PGS.TS
Bùi Thu Lâm, PGS.TS Ngô Thành Long, TS Tống Minh Đức, TS Nguyễn
Văn Giang, TS Nguyễn Mạnh Hùng, PGS.TS Nguyễn Long Giang, PGS.TS
Đoàn Văn Ban, PGS.TS Đặng Văn Đức, PGS.TS Nguyễn Ngọc Hóa và nhiều
cá nhân khác. Tác giả xin chân thành cảm ơn những sự giúp đỡ quí báu của
các nhà khoa học, các cá nhân trên.
Để hoàn thành luận án của mình, NCS đã nhận được sự hỗ trợ vô cùng
to lớn của gia đình, do đó NCS xin phép được dành những lời cảm ơn đặc biệt
nhất cho gia đình của mình.
3
MỤC LỤC
Trang
LỜI CAM ĐOAN ................................................................................................................. 1
LỜI CẢM ƠN....................................................................................................................... 2
MỤC LỤC ............................................................................................................................ 3
DANH MỤC CÁC HÌNH VẼ, SƠ ĐỒ ............................................................................... 6
DANH MỤC CÁC BẢNG BIỂU ........................................................................................ 8
DANH MỤC THUẬT NGỮ CHUYÊN NGÀNH ............................................................. 9
DANH MỤC CHỮ VIẾT TẮT ......................................................................................... 10
MỞ ĐẦU ............................................................................................................................. 11
1. Tính cấp thiết của đề tài luận án.................................................................................. 11
2. Mục tiêu của đề tài luận án ......................................................................................... 13
3. Đối tượng và phạm vi nghiên cứu của đề tài luận án .................................................. 14
4. Nội dung nghiên cứu đề tài luận án ............................................................................ 14
5. Phương pháp nghiên cứu đề tài luận án ...................................................................... 14
6. Những điểm mới của đề tài luận án ............................................................................ 15
7. Ý nghĩa khoa học và thực tiễn của đề tài luận án........................................................ 15
8. Cấu trúc luận án .......................................................................................................... 16
CHƯƠNG 1. KIẾN THỨC CƠ SỞ .................................................................................. 19
1.1. Ontology................................................................................................................... 19
1.1.1. Khái niệm Ontology ............................................................................................................ 19
1.1.2. Ứng dụng Ontology ............................................................................................................. 20
1.1.3. Các ngôn ngữ Ontology ...................................................................................................... 21
1.1.4. Tiến trình xây dựng ontology ............................................................................................. 22
1.2. Trích rút thông tin từ văn bản .................................................................................. 25
1.2.1. Trích rút đặc trưng phổ biến ............................................................................................... 26
1.2.2. Trích rút quan hệ ngữ nghĩa trong văn bản ....................................................................... 29
1.3. Các mô hình tìm kiếm .............................................................................................. 30
1.3.1. Tìm kiếm tương tác.............................................................................................................. 30
1.3.2. Tìm kiếm ngữ nghĩa ............................................................................................................ 31
1.4. Luật kết hợp ............................................................................................................. 34
4
1.4.1. Giới thiệu .............................................................................................................................. 34
1.4.2. Thuật toán Apriori................................................................................................................ 36
1.5. Kết chương ............................................................................................................... 38
CHƯƠNG 2. TÌM KIẾM NGỮ NGHĨA DỰA TRÊN NỘI DUNG VĂN BẢN ........... 39
2.1. Trích rút triple dựa trên mô hình ngữ pháp .............................................................. 39
2.1.1. Trích rút triple....................................................................................................................... 39
2.1.2. Quy trình trích rút thông tin văn bản.................................................................................. 44
2.1.3. Đánh giá ................................................................................................................................ 44
2.2. Tìm kiếm đa diện dữ liệu văn bản ............................................................................ 46
2.2.1. Xây dựng tham chiếu định hướng xử lý nhập nhằng sử dụng Wikipedia ..................... 47
2.2.2. Xây dựng không gian tìm kiếm ngữ nghĩa sử dụng tham chiếu định hướng xử lý nhập
nhằng................................................................................................................................................ 50
2.2.3. Đánh giá kết quả trích rút dữ liệu định hướng lý nhập nhằng từ Wikipedia
Disambiguation .............................................................................................................................. 52
2.3. Phương pháp cá nhân hóa facet trong tìm kiếm đa diện .......................................... 53
2.4. Kết chương ............................................................................................................... 55
CHƯƠNG 3. TÌM KIẾM NGỮ NGHĨA CÓ TƯƠNG TÁC ......................................... 57
3.1. Sử dụng luật kết hợp trong tìm kiếm ngữ nghĩa thông tin bệnh .............................. 57
3.2. Luật kết hợp trong Ontology bệnh (ASO - Associate rules in Disease Ontology) .. 61
3.3. Đánh giá ................................................................................................................... 70
3.3.1. Đánh giá độ chính xác và độ bao phủ ................................................................................ 70
3.3.2. Kết quả .................................................................................................................................. 71
3.4. Kết chương ............................................................................................................... 72
CHƯƠNG 4. XÂY DỰNG HỆ THỐNG TRA CỨU, TÌM KIẾM NGỮ NGHĨA
THÔNG TIN BỆNH .......................................................................................................... 73
4.1. Tổng quan hệ thống tìm kiếm ngữ nghĩa thông tin bệnh ......................................... 73
4.2. Xây dựng Ontology bệnh ......................................................................................... 73
4.2.1. Lựa chọn Disease Ontology................................................................................................ 73
4.2.2. Dịch tự động Google Translation ....................................................................................... 75
4.2.3. Tinh chỉnh bán tự động ....................................................................................................... 77
4.2.4. Chỉnh sửa công tác Ontology bệnh .................................................................................... 80
4.3. Thu thập dữ liệu ....................................................................................................... 81
4.4. Xây dựng phương pháp tìm kiếm ngữ nghĩa có tương tác điều hướng luồng tìm
kiếm ................................................................................................................................. 83
4.5. Xây dựng hệ thống ................................................................................................... 84
5
4.5.1. Cấu trúc cơ sở dữ liệu (Disease Schema ........................................................................... 84
4.5.2. Khung tìm kiếm ................................................................................................................... 86
4.6. Kết chương ............................................................................................................... 89
KẾT LUẬN VÀ CÁC NGHIÊN CỨU TIẾP THEO ...................................................... 91
1. Kết luận ....................................................................................................................... 91
2. Các nghiên cứu tiếp theo ............................................................................................. 92
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ CỦA TÁC GIẢ CÓ
LIÊN QUAN ĐẾN LUẬN ÁN .......................................................................................... 93
TÀI LIỆU THAM KHẢO ................................................................................................. 94
PHỤ LỤC.......................................................................................................................... 108
6
DANH MỤC CÁC HÌNH VẼ, SƠ ĐỒ
Trang
Hình 1.1. Quá trình trích rút thực thể trong văn bản không cấu trúc [2] .................... 28
Hình 1.2. Ví dụ về tìm kiếm đa diện và giải thích các khái niệm liên quan [CNET
faceted search] .................................................................................................................... 34
Hình 2.1. Mô hình cú pháp (Syntax Model) – phần 1..................................................... 41
Hình 2.2. Mô hình cú pháp (Syntax Model) – phần 2..................................................... 42
Hình 2.3. Các bước xử lý một câu .................................................................................... 43
Hình 2.4. Số bộ ba trích rút chính xác và tổng số bộ ba được trích rút ....................... 45
Hình 2.5. Trang dữ liệu định hướng xử lý nhập nhằng của từ Java trên Wikipedia
Disambiguation ................................................................................................................... 49
Hình 2.6. Phân loại facet của từ Java theo Wikipedia Disambiguation ......................... 49
[CTLA5] .............................................................................................................................. 49
Hình 2.7. Quá trình xây dựng không gian tìm kiếm ngữ nghĩa .................................... 50
[CTLA5] .............................................................................................................................. 50
Hình 2.8. Sơ đồ kết quả tìm kiếm dự kiến ....................................................................... 51
Hình 3.1. Hộp tìm kiếm ..................................................................................................... 58
Hình 3.2. Hộp tìm kiếm hệ thống tìm kiếm ngữ nghĩa có tương tác ............................. 60
Hình 3.3. Danh sách các triệu chứng ẩn được hệ thống gợi ý........................................ 60
Hình 3.4. Kết quả ban đầu và gợi ý các triệu chứng ẩn ................................................. 61
Hình 3.5. Kết quả sau khi người dùng tương tác ............................................................ 61
Hình 3.7. Quan hệ subclass trong Ontology bệnh ........................................................... 70
Hình 3.8. So sánh giữa Apriori và ASO-Apriori ............................................................. 71
Hình 4.1. Hệ thống tìm kiếm ngữ nghĩa thông tin bệnh ................................................. 73
Hình 4.2. Cấu trúc của DO................................................................................................ 75
Hình 4.3. Sử dụng Google Translate ................................................................................ 76
Hình 4.4. Google Translate dịch chưa chính xác cụm từ “abdominal pain” và “stomach
pain” .................................................................................................................................... 77
7
Hình 4.5. Lưu đồ các bước xây dựng ontology bệnh phiên bản tiếng Việt................... 77
Hình 4.6. Tài liệu ICD-10 song ngữ Việt - Anh ............................................................... 78
Hình 4.7. Một ví dụ về xác định triệu chứng bệnh ......................................................... 79
Hình 4.8. Một phần Ontology bệnh .................................................................................. 79
Hình 4.9. Miêu tả thông tin một số thuộc tính trong file exel dữ liệu ........................... 82
Hình 4.10. Hơn 3.000 bệnh thu thập từ sở y tế................................................................ 83
Hình 4.11. Hệ thống gợi ý từ khóa.................................................................................... 84
Hình 4.12. Cấu trúc cơ sở dữ liệu bệnh ........................................................................... 85
Hình 4.13. Autocomplete trong khung tìm kiếm............................................................. 86
Hình 4.14. Gợi ý từ khóa liên quan trong khung tìm kiếm ............................................ 87
Hình 4.15. Hiển thị kết quả tìm kiếm bệnh ..................................................................... 89
Hình PL1.1. Mô tả bệnh .................................................................................................. 108
Hình PL1.2. Giải phẩu bệnh ........................................................................................... 109
Hình PL1.3. Dịch tễ học................................................................................................... 109
Hình PL1.4. Yếu tố nguy cơ ............................................................................................ 110
Hình PL1.5. Bệnh sử ........................................................................................................ 110
Hình PL1.6. Lâm sàng - cận lâm sàng ........................................................................... 111
Hình PL1.7. Chuẩn đoán ................................................................................................. 111
Hình PL1.8. Điều trị ........................................................................................................ 112
Hình PL2.1. Xét nghiệm .................................................................................................. 112
Hình PL2.2. Khái niệm bệnh, trong đó có đầy đủ các thông tin như nguyên nhân,
triệu chứng, lưu trú, vật gây bệnh. ................................................................................. 113
Hình PL2.3. Các cơ sở dữ liệu bệnh khác được tham chiếu ........................................ 113
8
DANH MỤC CÁC BẢNG BIỂU
Trang
Bảng 2.1. Bảng các mẫu sử dụng động từ tiếng Anh [17] .............................................. 39
Bảng 2.2. Mẫu dữ liệu trích rút được ứng với facet là Places của từ Java. .................. 52
Bảng 2.3. So sánh các tài liệu/facet được trích xuất với dữ liệu chuẩn ......................... 53
Bảng 2.4. Kết quả thử nghiệm cá nhân hoá tìm kiếm đa diện ....................................... 55
Bảng 3.1. Dữ liệu DiseaseRule .......................................................................................... 59
Bảng 3.2. Các mối quan hệ trong Ontology bệnh ........................................................... 65
Bảng 4.1. Thông tin cơ sở dữ liệu ..................................................................................... 85
9
DANH MỤC THUẬT NGỮ CHUYÊN NGÀNH
Ký hiệu
Diễn giải
Semantic search
Tìm kiếm ngữ nghĩa
Interactive search
Tìm kiếm tương tác
Faceted search
Tìm kiếm đa diện
Search click graph
Tìm kiếm bằng cách nhấn chuột chọn lựa trên
biểu đồ
Large - scale context embedded vocabulary tree
Cây từ vựng ngữ cảnh nhúng cỡ lớn
Ontology
Bản thể học
10
DANH MỤC CHỮ VIẾT TẮT
Tên đầy đủ
Chữ viết tắt
DO
(Disease Ontology) Ontology bệnh
DD
(Disease Database) Cơ sở dữ liệu bệnh
TF
(Term frequency) Tần suất xuất hiện từ
IDF
(Inverse document frequency) Tần suất tài liệu
ngược
NER
(Name Entity Recoginition) Nhận diện thực thể
định danh
OpenIE
(Open Information Extraction) Khai thác thông
tin mở
IE
(Information Extraction) Trích rút thông tin
IR
(Information Retrieval) Truy xuất thông tin
CSTT-PLB
Cơ sở tri thức phân loại bệnh
YHTT
Y học thường thức
OWL
(Web Ontology Language) Ngôn ngữ ontology
web
XML
(Extensible Markup Language) Ngôn ngữ đánh
dấu văn bản mở rộng
W3C
(World Wide Web Consortium) Hiệp hội web
toàn cầu
ICD
(International Statistical Classification of
Diseases and Related Health Problems) Phân loại
thống kê quốc tế về bệnh và các vấn đề sức khỏe
liên quan
CSDL
Cơ sở dữ liệu
11
MỞ ĐẦU
1. Tính cấp thiết của đề tài luận án
Sự bùng nổ lượng thông tin người dùng Internet, cũng như sự phát triển
của dữ liệu lớn (Big data) đưa đến một cơ hội mới và cũng là một thách thức
cho bài toán tìm kiếm thông tin. Khi tìm kiếm thông tin, người dùng có nhu cầu
muốn có kết quả chính xác, nhiều thông tin nhất liên quan đến các từ khóa đầu
vào. Người dùng cũng cần được máy tính hỗ trợ đưa ra các từ khóa, thông tin
liên quan để tiếp tục quá trình tìm kiếm, do họ chưa thực rõ nội dung tìm kiếm.
Ví dụ, khi làm việc với hệ thống hỗ trợ tìm kiếm thông tin bệnh, ban đầu người
sử dụng chỉ có một vài triệu chứng bệnh ban đầu và muốn biết xem những triệu
chứng đó là của bệnh gì, họ cần hệ thống khuyến nghị các triệu chứng bệnh
liên quan để chọn và xác nhận, dần dần làm rõ quá trình tìm kiếm cho đến khi
tìm được câu trả lời cuối cùng.
Cách tìm kiếm thông tin phổ biến hiện nay là tìm kiếm những tài liệu
trong số các tài liệu đã lưu trong cơ sở dữ liệu (CSDL), các tài liệu này có nội
dung phù hợp với nhu cầu thông tin cần tìm kiếm. Hiện nay, các hệ thống tìm
kiếm văn bản phần lớn vẫn dựa trên cách sử dụng từ khóa. Khi đó người dùng
phải diễn đạt nội dung mình cần tìm kiếm dưới dạng các từ khoá tổng quát nhất
và phải đảm bảo mối quan hệ ngữ nghĩa giữa các từ khóa (cụm từ khoá) với nội
dung cần tìm. Do vậy, vấn đề khó khăn đối với người dùng khi tìm kiếm thông
tin dựa trên từ khóa là ở khả năng họ mô tả thông tin cần tìm dưới dạng các từ
khóa một cách chính xác nhất và chuyển nhu cầu tìm kiếm này thành dạng thức
truy vấn, phù hợp với hệ thống. Đặc biệt,khi người dùng ít kinh nghiệm hoặc
không thể đặc tả đúng từ khóa có liên quan đến nội dung cần tìm kiếm. Nếu
người dùng không hiểu về chuyên môn họ rất khó tìm được các tài liệu mong
muốn. Điều này sẽ được thể hiện rất rõ khi người dùng tìm kiếm bệnh dựa trên
các triệu chứng ban đầu chưa được biểu đạt rõ ràng. Hiện nay, các trang tìm
12
kiếm thông tin về bệnh chủ yếu mới dừng ở chế độ tra cứu tuần tự, từng mục
triệu chứng cần tra cứu. Người dùng phải tự đọc nhiều kết quả tìm kiếm để tìm
được thông tin cần tham khảo. Làm như vậy sẽ mất rất nhiều thời gian, hiệu
quả đem lại không cao và thường kém chính xác. Đây chính là lý do cơ bản
làm cho các hệ thống tìm kiếm hiện nay trả về kết quả không hoàn toàn đáp
ứng các yêu cầu đặt ra của người sử dụng không chuyên.
Các hệ thống tìm kiếm thông tin hiện tại còn tiếp cận theo kỹ thuật tìm
kiếm đa diện, với điều kiện thông tin văn bản đã được lưu trữ theo phân lớp
đa diện (facets) [5]. Ưu điểm của hệ thống tìm kiếm đa diện là cho phép
người dùng dễ dàng chọn lựa các thuộc tính cùng với các giá trị mong muốn
để dễ đi đến kết quả tìm kiếm cuối cùng. Tuy nhiên, các facets thường phải
được thiết kế trước, phải xác định các giá trị cụ thể của các thuộc tính. Điều
này hạn chế sự mềm dẻo trong tìm kiếm, chỉ phù hợp với các trang thông tin
giải trí, thương mại điện tử. Cách tiếp cận tìm kiếm tương tác (Interactive
search) [4], [91], [105], [109] đòi hỏi hệ thống phải tương tác với người dùng
thiết kế dần dần kết quả tìm kiếm tương ứng, phù hợp với ý định tìm kiếm của
người dùng. Kỹ thuật này được dùng nhiều trong tìm kiếm hình ảnh [105]
nhằm lọc hình ảnh, có sự phản hồi qua lại với người dùng. Tuy nhiên, sự
tương tác vẫn phụ thuộc vào kiến thức chuyên môn sử dụng kinh nghiệm và
trực giác của người dùng để hướng dẫn quá trình tìm kiếm. Tiếp cận tìm kiếm
ngữ nghĩa (Semantic search) ) [36], [38], [75] cho phép tăng độ chính xác
việc trích lọc thông tin, bằng cách nắm được ý định tìm kiếm của người dùng,
cũng như ngữ cảnh để từ khóa được đặt trong không gian dữ liệu tìm kiếm:
Nghiên cứu cấu trúc câu truy vấn [75], [77], phân tích phiên giao dịch 15],
[33], [38], phân tích ý định của người dùng sau các lần nhấn chuột [33], [59]
và phân nhóm ngữ nghĩa trong hệ thống hỏi đáp cộng đồng [30]. Tuy nhiên,
việc xây dựng một hệ thống tìm kiếm ngữ nghĩa cho đến nay vẫn còn là bài
13
toán khó,do nhiều vấn đề vẫn chưa có lời giải tối ưu [2], [4]. Ngoài ra, việc
xây dựng sẵn cơ sở tri thức miền ứng dụng gặp nhiều khó khăn,tốn chi phí
xây dựng và duy trì, cần can thiệp của người quản trị, phụ thuộc vào tri thức
chuyên gia miền ứng dụng, phụ thuộc vào ngôn ngữ [5], [6].
Luận án nghiên cứu kết hợp các kỹ thuật tìm kiếm ngữ nghĩa để hỗ trợ
người dùng xác định dần dần câu truy vấn mong muốn. Đề tài “Nghiên cứu
phương pháp tìm kiếm ngữ nghĩa sử dụng Ontology và ứng dụng xây dựng hệ
thống tra cứu, tìm kiếm văn bản mẫu bệnh” của luận án sẽ khai thác, tích hợp
các ontology được thiết kế xây dựng nhằm biểu thị tri thức chuyên gia trong
lĩnh vực bệnh học, được làm giàu thông tin với các luật kết hợp để hướng
người dùng dần dần hình thành câu truy vấn. Cách tiếp cận này sẽ tạo ra cách
tìm kiếm ngữ nghĩa có tương tác giữa người dùng và hệ thống tìm kiếm. Để
xây dựng được hệ thống tìm kiếm ngữ nghĩa có tương tác, các vấn đề liên
quan được luận án nghiên cứu,bao gồm: xây dựng ontology bệnh, trích rút
đặc trưng đối tượng văn bản (dưới dạng các bộ ba triples thông tin thực thể),
và xác định các luật kết hợp gắn với thuộc tính của ontology bệnh để có thể
ứng dụng thử nghiệm trong hệ thống tìm kiếm ngữ nghĩa có tương tác thông
tin bệnh.
2. Mục tiêu của đề tài luận án
Mục tiêu chung
Nghiên cứu các phương pháp xây dựng hệ thống tìm kiếm ngữ nghĩa có
tương tác và ứng dụng trong Hệ thống tìm kiếm ngữ nghĩa có tương tác thông
tin bệnh.
Mục tiêu cụ thể
- Nghiên cứu phương pháp thu thập thông tin và tri thức trong tìm kiếm
ngữ nghĩa;
14
- Nghiên cứu phương pháp xây dựng, tổ chức lưu trữ, quản lý và khai
thác sử dụng tri thức dưới dạng ontology;
- Nghiên cứu khai thác luật kết hợp trong Ontology bệnh;
- Nghiên cứu các mô hình tìm kiếm;
- Xây dựng Hệ thống tìm kiếm ngữ nghĩa có tương tác thông tin bệnh.
3. Đối tượng và phạm vi nghiên cứu của đề tài luận án
Đối tượng nghiên cứu chính của luận án là:
- Phương pháp thu thập thông tin bằng trích rút đặc trưng văn bản;
- Phương pháp xây dựng, tổ chức lưu trữ, quản lý và khai thác sử dụng tri
thức dưới dạng ontology;
- Phương pháp khai thác luật kết hợp trong Ontology bệnh;
- Các mô hình tìm kiếm;
- Phân tích thiết kế và xây dựng Hệ thống tìm kiếm ngữ nghĩa có tương tác
thông tin bệnh.
4. Nội dung nghiên cứu đề tài luận án
- Thu thập thông tin nhờ trích rút đặc trưng văn bản;
- Xây dựng, tổ chức lưu trữ, quản lý và khai thác sử dụng tri thức
Ontology bệnh DO (Disease Ontology);
- Xác định luật kết hợp trong Ontology bệnh;
- Giải pháp tìm kiếm ngữ nghĩa có tương tác thông tin bệnh gợi ý người sử
dụng xác định câu truy vấn cho phép nhận được kết quả tìm kiếm đúng ý định;
- Hệ thống tìm kiếm ngữ nghĩa có tương tác thông tin bệnh.
5. Phương pháp nghiên cứu đề tài luận án
Cơ sở lý thuyết về các mô hình tìm kiếm và phương pháp sử dụng
ontology trong các hệ thống tìm kiếm; Cơ sở lý thuyết xây dựng ontology;
Phương pháp xây dựng và làm giàu Ontology bệnh tiếng Việt;
15
Phương pháp xây dựng hệ thống kiếm ngữ nghĩa có tương tác và áp dụng
xây dựng hệ thống tìm kiếm ngữ nghĩa có tương tác thông tin bệnh.
6. Những điểm mới của đề tài luận án
(1) Đề xuất phương pháp trích rút bộ ba (triple) dựa trên mô hình cú pháp,
trích rút các bộ ba từ dữ liệu văn bản phục vụ cho việc xây dựng đặc trưng
của văn bản [CTLA3];
(2) Đề xuất phương pháp tìm kiếm đa diện dữ liệu văn bản và cá nhân hoá
tìm kiếm đa diện sử dụng dữ liệu định hướng xử lý nhập nhằng của
Wikipedia Disambiguation [CTLA3, CTLA4];
(3) Đề xuất phương pháp khai phá luật kết hợp trong Ontology bệnh
(ASO-Apriori) [CTLA2] dựa trên 02 độ đo mới: độ hỗ trợ mở rộng và độ
tin cậy mở rộng và khái phá luật kết hợp ngữ nghĩa giữa các mối quan hệ
trong Ontology bệnh;
(4) Xây dựng Ontology bệnh tiếng Việt [CTLA1];
(5) Đề xuất phương pháp và xây dựng Hệ thống tìm kiếm ngữ nghĩa thông
tin bệnh có hỗ trợ tương tác với người sử dụng bằng các gợi ý dựa trên tập
luật kết hợp giữa các triệu chứng và luật kết hợp ngữ nghĩa từ các mối
quan hệ trên Ontology bệnh [CTLA1].
7. Ý nghĩa khoa học và thực tiễn của đề tài luận án
Luận án mở ra hướng nghiên cứu mới về tích hợp ontology và sử dụng
luật kết hợp trong hệ thống tìm kiếm thống minh có tương tác. Hệ thống tìm
kiếm ngữ nghĩa thông tin bệnh thực sự hữu ích trong thực tế, giúp người sử
dụng dễ dàng lựa chọn các truy vấn phù hợp với ý định của họ mà không cần
nhớ toàn bộ truy vấn.
Các đề xuất của luận án còn có thể ứng dụng trong các hệ thống khác
nhau, như: Đề xuất phương pháp trích rút bộ ba (triple) dựa trên mô hình cú
pháp, trích rút các bộ ba từ dữ liệu văn bản phục vụ cho việc xây dựng đặc
16
trưng của văn bản có thể sử dụng trong các hệ thống phân loại, phận cụm và
tóm tắt văn bản; Đề xuất phương pháp tìm kiếm đa diện dữ liệu văn bản và cá
nhân hoá tìm kiếm đa diện sử dụng dữ liệu định hướng xử lý nhập nhằng của
Wikipedia Disambiguation có thể áp dụng cho các hệ thống khuyến nghị, các
hệ chuyên gia.
8. Cấu trúc luận án
* Cấu trúc của luận án, ngoài các phần Mở đầu, Kết luận và Các nghiên
cứu tiếp theo, gồm có 4 chương như sau:
CHƯƠNG 1.
KIẾN THỨC CƠ SỞ
Chương 1 giới thiệu các khái niệm về ontology, ngôn ngữ
ontology, các bước xây dựng một ontology và các phương
pháp rút trích thông tin văn bản: phương pháp trích rút đặc
trưng phổ biến và phương pháp trích rút quan hệ ngữ nghĩa
làm cơ sở cho việc thu thập thông tin và xây dựng Ontology
bệnh cho Hệ thống tìm kiếm ngữ nghĩa thông tin bệnh. Phân
tích các mô hình tìm kiếm: tìm kiếm tương tác và tìm ngữ
nghĩa; trình bày phương pháp khai phá luật kết hợp làm cơ
sở cho đề xuất tích hợp ontology và hỗ trợ tương tác với
người sử dụng trong hệ thống tìm kiếm ngữ nghĩa.
CHƯƠNG 2.
TÌM KIẾM NGỮ NGHĨA DỰA TRÊN NỘI DUNG
VĂN BẢN
Chương 2 trình bày về các phương pháp đề xuất sử dụng
trong hệ thống tìm kiếm ngữ, cụ thể: đề xuất phương pháp
rút trích triple dựa trên mô hình cú pháp, kết quả đánh giá
cho thấy phương pháp đề xuất cho kết quả tốt hơn so với
Ollie và ClausIE [CTLA3]; đề xuất phương pháp tìm kiếm đa
diện dữ liệu văn bản dựa trên dữ liệu định hướng xử lý nhập
17
nhằng của Wikipedia Disambiguation [CTLA4] và đề xuất
phương pháp cá nhân hoá tìm kiếm đa diện [CTLA5].
CHƯƠNG 3.
TÌM KIẾM NGỮ NGHĨA CÓ TƯƠNG TÁC
Trong chương này, luận án đã trình bày phương pháp sử
dụng luật kết hợp trong tìm kiếm ngữ nghĩa thông tin bệnh và
đề xuất phương pháp mới khai phá luật kết hợp trong
Ontology bệnh được gọi là ASO-Apriori [CTLA2]. Điểm mới
của phương pháp này chính là đưa ra 02 độ đo mới: độ hỗ
trợ mở rộng và độ tin cậy mở rộng nhằm khai thác các quan
hệ giữa các triệu chứng trong Ontology bệnh. Sử dụng 02 độ
đo mới này, luận án đã đề xuất thuật toán ASO-AprioriGenFrequentSymptom sinh ra các tập triệu chứng phổ biến
sử dụng nguyên lý Apriori mở rộng để cắt tỉa bớt tập ứng
viên theo Mệnh đề 3.1. Thuật toán ASO-Apriori sinh ra các
luật kết hợp giữa các triệu chứng, được sử dụng để gợi ý các
triệu chứng tiếp theo cho người sử dụng và luật kết hợp ngữ
nghĩa giữa các mối quan hệ trong Ontology bệnh, được sử
dụng để gợi ý người sử dụng lựa chọn các facet tiếp theo.
Kết quả thực nghiệm đã chứng tỏ hiệu quả của các luật kết
hợp mở rộng trong định hướng tìm kiếm của người sử dụng.
CHƯƠNG 4.
XÂY DỰNG HỆ THỐNG TRA CỨU, TÌM KIẾM NGỮ
NGHĨA THÔNG TIN BỆNH
Chương 4 trình bày Hệ thống tìm kiếm ngữ nghĩa
thông tin bệnh có hỗ trợ tương tác với người sử dụng bằng
các gợi ý dựa trên tập luật khai thác được từ Ontology bệnh
[CTLA1]. Trình bày chi tiết các bước xây dựng Ontology
bệnh tiếng Việt xuất phát từ Bộ phân loại bệnh từ ICD-10-
18
CM và thu thập hơn 3.000 tài liệu về các bệnh để làm giàu
Ontology bệnh. Xây dựng phương pháp tìm kiếm ngữ nghĩa
có tương tác điều hướng luồng tìm kiếm. Xây dựng và thử
nghiệm hệ thống gồm: cơ sở dữ liệu và khung tìm kiếm ngữ
nghĩa thông tin bệnh có tương tác.
**************************************
- Xem thêm -