ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Tiến Thanh
TRÍCH CHỌN QUAN HỆ THỰC THỂ TRÊN
WIKIPEDIA TIẾNG VIỆT DỰA VÀO
CÂY PHÂN TÍCH CÚ PHÁP
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2010
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Tiến Thanh
TRÍCH CHỌN QUAN HỆ THỰC THỂ TRÊN
WIKIPEDIA TIẾNG VIỆT DỰA VÀO
CÂY PHÂN TÍCH CÚ PHÁP
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: PGS.TS. Hà Quang Thụy
Cán bộ đồng hướng dẫn: ThS. Nguyễn Thu Trang
HÀ NỘI - 2010
LỜI CẢM ƠN
Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới PGS.TS Hà
Quang Thụy, ThS. Nguyễn Thu Trang, CN. Trần Nam Khánh đã tận tình hướng dẫn
tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp.
Tôi chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi để
tôi học tập và nghiên cứu tại trường Đại học Công Nghệ.
Tôi cũng xin gửi lời cảm ơn tới ThS. Trần Mai Vũ và các anh chị, các bạn sinh
viên tại phòng thí nghiệm KT-Sislab đã giúp tôi rất nhiều trong việc thu thập và xử lý
dữ liệu. Tôi xin gửi lời cảm ơn tới các bạn trong lớp K51CA và K51CHTTT đã ủng hộ
khuyến khích tôi trong suốt quá trình học tập tại trường.
Cuối cùng, tôi muốn được gửi lời cảm ơn vô hạn tới gia đình và bạn bè, những
người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận
tốt nghiệp.
Tôi xin chân thành cảm ơn !
Hà Nội, ngày 21 tháng 05 năm 2010
Sinh viên
Nguyễn Tiến Thanh
i
Tóm tắt
Trích chọn quan hệ ngữ nghĩa được xem là bài toán cơ bản của xử lý ngôn ngữ
tự nhiên nhận được sự quan tâm rất lớn từ các nhà nghiên cứu, các hội nghị lớn trên
thế giới[1, 8, 40]. Tại Việt Nam, bài toán này vẫn đặt ra rất nhiều các thách thức do
tính phức tạp của ngôn ngữ tiếng Việt và sự không đầy đủ của các tài nguyên ngôn
ngữ học.
Trên cơ sở phân tích ưu và nhược điểm của các phương pháp trích chọn quan
hệ, khóa luận áp dụng phương pháp trích chọn quan hệ dựa trên đặc trưng để giải
quyết bài toán này. Các đặc trưng biểu thị quan hệ được trích chọn dựa trên cây phân
tích cú pháp tiếng Việt, sau đó được đưa vào bộ phân lớp SVM tìm được loại quan hệ
tương ứng, từ đó trích chọn được các thể hiện của quan hệ. Hơn nữa, nhằm giảm công
sức cho giai đoạn xây dựng tập dữ liệu học, khóa luận khai thác tính giàu cấu trúc của
dữ liệu trên Wikipedia tiếng Việt để xây dựng tập dữ liệu học bán tự động.
Kết quả thực nghiệm trên một số loại quan hệ ban đầu cho thấy mô hình trích
chọn của hệ thống cho độ đo F1 đạt 86,4%. Điều này khẳng định mô hình là khả quan,
có khả năng ứng dụng trong thực tế.
ii
MỤC LỤC
Lời cảm ơn
..................................................................................................... i
Tóm tắt
.................................................................................................... ii
Mục lục
................................................................................................... iii
Danh sách các bảng ............................................................................................ v
Danh sách các hình vẽ ....................................................................................... vi
Danh sách các từ viết tắt................................................................................... vii
Mở đầu
.................................................................................................... 1
Chương 1.
Khái quát về bài toán trích chọn ngữ nghĩa ............................ 3
1.1.
Quan hệ ngữ nghĩa ...................................................................................... 3
1.1.1. Khái niệm ............................................................................................... 3
1.1.2. Phân loại các quan hệ ngữ nghĩa ............................................................. 3
1.2.
Bài toán trích chọn quan hệ ngữ nghĩa ........................................................ 7
1.3.
Ứng dụng .................................................................................................... 8
Tóm tắt chương một ................................................................................................ 9
Chương 2.
Một số hướng tiếp cận trích chọn quan hệ ngữ nghĩa........... 10
2.1.
Học không giám sát trích chọn quan hệ ..................................................... 10
2.2.
Học có giám sát trích chọn quan hệ ........................................................... 13
2.2.1. Link grammar ....................................................................................... 13
2.2.2. Phương pháp trích chọn dựa trên các đặc trưng ..................................... 16
2.2.3. Phương pháp trích chọn dựa trên hàm nhân .......................................... 22
2.3.
Học bán giám sát trích chọn quan hệ ......................................................... 24
2.3.1. DIRPE .................................................................................................. 24
2.3.2. Snowball ............................................................................................... 27
2.4.
Nhận xét.................................................................................................... 29
Tóm tắt chương hai................................................................................................ 29
Chương 3.
Mô hình trích chọn quan hệ trên Wikipedia tiếng Việt dựa
vào cây phân tích cú pháp.............................................................................. 30
3.1.
Đặc trưng của Wikipedia........................................................................... 30
3.1.1. Thực thể trong Wikipedia ..................................................................... 30
3.1.2. Infobox ................................................................................................. 31
3.1.3. Cách phân mục ..................................................................................... 31
3.2.
Cây phân tích cú pháp tiếng Việt ............................................................... 32
3.2.1. Phân tích cú pháp .................................................................................. 32
iii
3.2.2. Một số thành phần cơ bản của cây phân tích cú pháp tiếng Việt ............ 32
3.3.
Mô hình trích chọn quan hệ dựa trên cây phân tích cú pháp trên Wikipedia
tiếng Việt ............................................................................................................... 33
3.3.1. Phát biểu bài toán.................................................................................. 33
3.3.2. Ý tưởng giải quyết bài toán ................................................................... 33
3.3.3. Xây dựng tập dữ liệu học ...................................................................... 34
3.3.4. Mô hình hệ thống trích chọn quan hệ .................................................... 36
Tổng kết chương ba ................................................................................................ 40
Chương 4.
Thực nghiệm và đánh giá kết quả .......................................... 41
4.1.
Môi trường thực nghiệm ........................................................................... 41
4.1.1. Câu hình phần cứng .............................................................................. 41
4.1.2. Công cụ phần mềm ............................................................................... 41
4.2.
Dữ liệu thực nghiệm .................................................................................. 42
4.3.
Thực nghiệm ............................................................................................. 42
4.3.1. Mô tả cài đặt chương trình .................................................................... 42
4.3.2. Xây dựng tập dữ liệu học dựa trên Wikipedia tiếng Việt ....................... 42
4.3.3. Sinh vector đặc trưng ............................................................................ 45
4.3.4. Phân lớp SVM ...................................................................................... 47
4.4.
Đánh giá.................................................................................................... 48
4.4.1. Đánh giá hệ thống ................................................................................. 48
4.4.2. Phương pháp “10-fold cross validation”................................................ 49
4.4.3. Kết quả kiểm thử .................................................................................. 49
4.5.
Nhận xét.................................................................................................... 51
Kết luận
.................................................................................................. 52
Phụ lục
.................................................................................................. 53
Tài liệu tham khảo ........................................................................................... 56
iv
Danh sách các bảng
Bảng 1-1 : 15 quan hệ trong Wordnet .......................................................................... 4
Bảng 1-2: 22 loại quan hệ ngữ nghĩa theo Roxana Girju .............................................. 5
Bảng 2-1: Đường đi ngắn nhất ................................................................................... 23
Bảng 2-2: Một số đặc trưng thu được từ đường đi phụ thuộc ..................................... 23
Bảng 3-1: Các thuộc tính của vector đặc trưng ........................................................... 39
Bảng 4-1: Cấu hình phần cứng ................................................................................... 41
Bảng 4-2: Danh sách các phần mềm sử dụng ............................................................. 41
Bảng 4-3 : Các giá trị đánh giá hệ thống phân lớp ...................................................... 49
Bảng 5-1: Bảng các nhãn được sử dụng trong cây phân tích cú pháp ......................... 53
v
Danh sách các hình vẽ
Hình 1: Ví dụ về đường liên kết (1) ........................................................................... 14
Hình 2: Ví dụ về đường liên kết (2) ........................................................................... 14
Hình 3: Ví dụ về mẫu................................................................................................. 14
Hình 4: Ví dụ về cặp thực thể sinh bởi quá trình khớp mẫu ........................................ 14
Hình 5: Ví dụ về cây phân tích cú pháp...................................................................... 21
Hình 6: Các đặc trưng thu được từ cây phân tích cú pháp .......................................... 21
Hình 7: Minh họa đồ thị phụ thuộc ............................................................................ 22
Hình 8: Các quan hệ mẫu trích chọn được.................................................................. 26
Hình 9: Kiến trúc của hệ thống Snowball ................................................................... 27
Hình 10: Ví dụ về cây phân tích cú pháp tiếng Việt ................................................... 32
Hình 11: Quá trình xây dựng tập dữ liệu học ............................................................. 34
Hình 12: Cấu trúc biểu diễn của thông tin của infobox............................................... 35
Hình 13: Mô hình trích chọn quan hệ trên Wikipedia ................................................. 36
Hình 14: Cây con biểu diễn quan hệ “thành_lập” ....................................................... 38
Hình 15: Ví dụ về tìm kiếm trên Wikipedia ............................................................... 44
Hình 16 : Bảng thống kê dữ liệu học của quan hệ “ngày sinh” ................................... 48
Hình 17: Kết quả kiểm thử đối với quan hệ “năm thành lập” ..................................... 50
Hình 18: Kết quả kiểm thử đối với quan hệ “hiệu trưởng” ......................................... 50
Hình 19: Kết quả kiểm thử đối với quan hệ “ngày sinh” ............................................ 51
Hình 20: So sánh kết quả trung bình của ba quan hệ .................................................. 51
vi
Danh sách các từ viết tắt
Từ hoặc cụm từ
Viết tắt
A Library for Support Vector Machines
Dual Iterative Pattern Relation Expansion
LibSVM
DIPRE
Support vector machine
SVM
Wikipedia
Wiki
vii
Mở đầu
Trích chọn quan hệ ngữ nghĩa được xem là bài toán cơ bản của xử lý ngôn
ngữ tự nhiên, thực hiện nhiệm vụ trích chọn quan hệ giữa các khái niệm về mặt ngữ
nghĩa hoặc dựa vào quan hệ xác định trước nhằm tìm kiếm những thông tin phục vụ
cho quá trình xử lý khác. Trích chọn quan hệ được ứng dụng nhiều cho các bài toán
như: xây dựng Ontology[13, 14, 17, 29], hệ thống hỏi đáp [21,28], phát hiện ảnh
qua đoạn văn bản [10], tìm mối liên hệ giữa bệnh-genes [26],… Vì thế, trích chọn
quan hệ không những nhận được sự quan tâm rất lớn từ các nhà nghiên cứu, các hội
nghị lớn trên thế giới trong những năm gần đây như: Coling/ACL, Senseval,… mà
còn là một phần trong các dự án quan trọng mang tầm cỡ quốc tế trong lĩnh vực
khai phá tri thức như: ACE (Automatic Content Extraction), DARPA EELD
(Evidence Extraction and Link Discovery), ARDA-AQUAINT (Question
Answering for Intelligence), ARDA NIMD (Novel Intelligence from Massive
Data).
Tại Việt Nam, bài toán này vẫn đặt ra rất nhiều các thách thức do tính phức
tạp của ngôn ngữ tiếng Việt và sự không đầy đủ của các tài nguyên ngôn ngữ học.
Trên cơ sở phân tích các phương pháp trích chọn quan hệ, khóa luận đã đưa ra mô
hình học có giám sát trích chọn quan hệ thực thể dựa vào cây phân tích cú pháp
trên miền dữ liệu Wikipedia tiếng Việt. Kết quả bước đầu cho thấy mô hình là khả
quan và có khả năng ứng dụng tốt.
Nội dung của khóa luận được bố cục gồm có 4 chương:
Chương 1: Giới thiệu khái quát về bài toán trích chọn quan hệ ngữ nghĩa
cũng như các khái niệm liên quan.
Chương 2: Giới thiệu các phương pháp tiếp cận giải quyết bài toán trích
chọn quan hệ. Với mỗi một phương pháp học máy: có giám sát, không giám sát và
bán giám sát, khóa luận giới thiệu một số mô hình tiêu biểu. Đây là cơ sơ phương
pháp luận quan trọng để khóa luận đưa ra mô hình áp dụng đối với bài toán trích
chọn quan hệ trên miền dữ liệu Wikipedia tiếng Việt.
Chương 3: Trên cơ sở phân tích ưu và nhược điểm của các phương pháp
được trình bày ở chương 2, khóa luận đã lựa chọn phương pháp trích chọn quan hệ
dựa trên đặc trưng theo tiếp cận học có giám sát để giải quyết bài toán này. Các đặc
trưng của quan hệ sẽ được lấy ra dựa trên cây phân tích cú pháp tiếng Việt, sau đó
được đưa vào bộ phân lớp sử dụng thuật toán SVM. Hơn nữa, để giảm công sức cho
1
giai đoạn xây dựng tập dữ liệu học, các đặc trưng của dữ liệu trên Wikipedia tiếng
Việt đã được sử dụng. Nội dung chính của chương này trình bày các đặc trưng của
Wikipedia, cây phân tích cú pháp tiếng Việt và mô hình trích chọn quan hệ dựa trên
cây phân tích cú pháp.
Chương 4: Thực nghiệm, kết quả và đánh giá. Tiến hành thực nghiệm việc
xây dựng tập dữ liệu học, thực nghiệm trích chọn quan hệ sử dụng bộ phân lớp
SVM.
Phần kết luận và định hướng phát triển khoá luận: Tóm lược những điểm
chính của khoá luận. Chỉ ra những điểm cần khắc phục, đồng thời đưa ra những
hướng nghiên cứu trong thời gian sắp tới.
2
Chương 1. Khái quát về bài toán trích chọn ngữ nghĩa
Nội dung chính của khóa luận là đề xuất một mô hình trích chọn quan hệ
thực thể dựa trên cây phân tích cú pháp trên miền dữ liệu Wikipedia tiếng Việt.
Chương này sẽ giới thiệu khái niệm về quan hệ ngữ nghĩa, bài toán trích chọn quan
hệ ngữ nghĩa và những ứng dụng của bài toán này. Đây là cơ sở lý thuyết quan
trọng cho việc xác định mục tiêu cũng như phạm vi giải quyết của mô hình đề xuất.
1.1. Quan hệ ngữ nghĩa
1.1.1. Khái niệm
Xác định quan hệ ngữ nghĩa (semantic relation) là một lĩnh vực nghĩa nhận
được sự rất nhiều quan tâm từ các nhà nghiên cứu về ngôn ngữ học cũng như xử lý
ngôn ngữ tự nhiên. Có nhiều định nghĩa về quan hệ ngữ nghĩa đã được đưa ra. Theo
nghĩa hẹp, Birger Hjorland [41] đã định nghĩa quan hệ ngữ nghĩa:
“Quan hệ ngữ nghĩa là mối quan hệ về mặt ngữ nghĩa giữa hai hay nhiều
khái niệm. Trong đó, khái niệm được biểu diễn dưới dạng từ hay cụm từ.”
Ví dụ: Ta có câu “Trường Đại học Công nghệ được Thủ tướng chính phủ
quyết định thành lập ngày 25 tháng 5 năm 2004.” Khi đó, ta nói: (“Trường Đại
học Công nghệ”, “ngày 25 tháng 5 năm 2004”) có quan hệ ngữ nghĩa là “ngày
thành lập”.
Trong khóa luận này, trong trường hợp không gây nhầm lẫn, khái niệm quan
hệ ngữ nghĩa được gọi tắt là quan hệ.
Việc xác định các quan hệ giữa các khái niệm là một vấn đề quan trọng trong
tìm kiếm thông tin. Điều này sẽ làm tăng tính ngữ nghĩa cho câu hay tập tài liệu.
Đồng thời, khi tìm kiếm một thông tin nào đó, ta có thể nhận được những thông tin
về các vấn đề khác liên quan tới nó. Vì vậy, để tìm kiếm được những thông tin
chính xác, chúng ta cần biết các loại quan hệ giữa các khái niệm và đồng thời tìm
hiểu các phương pháp để xác định được các quan hệ đó.
1.1.2. Phân loại các quan hệ ngữ nghĩa
Quan hệ ngữ nghĩa thể hiện quan hệ giữa các khái niệm và được biểu diễn
dưới dạng cấu trúc phân cấp thông qua các quan hệ. Trong [16], Zornitsa Kozareva
đã tổng kết và chỉ ra rằng phân loại các quan hệ ngữ nghĩa là rất đa dạng, phụ thuộc
vào những đặc trưng ngữ nghĩa cũng như mục đích và đối tượng tiếp cận. Mục này
3
sẽ giới thiệu hai hệ thống phân loại quan hệ ngữ nghĩa được sử dụng khá phổ biến
trong bài toán trích chọn quan hệ đó là WordNet và hệ thống phân loại của Girju.
WordNet [15, 38] là một từ điển trực tuyến trong Tiếng Anh, được phát triển
bởi các nhà từ điển học thuộc trường đại học Princeton (Mỹ). WordNet bao gồm
100.000 khái niệm bao gồm danh từ, động từ, tính từ, phó từ liên kết với nhau thông
qua 15 quan hệ (được mô tả trong bảng 1-1)
Bảng 1-1 : 15 quan hệ trong Wordnet
STT
1.
2.
Quan hệ ngữ
nghĩa
Các khái niệm được
liên kết bởi quan hệ
ngữ nghĩa
Ví dụ
Hypernymy
Danh từ - Danh từ
Cat is-a feline
(is - a)
Động từ - Động từ
Manufacture is-a make
Hyponymy
Danh từ - Danh từ
Feline reverse is-a cat
(reverse is-a)
Động từ - Động từ
Manufacture reverse is-a mak
3.
Is-part- of
4.
Has-part
Danh từ - Danh từ
Table has-part leg
5.
Is-member-of
Danh từ - Danh từ
UK is-member-of NATO
6.
Has-member
Danh từ - Danh từ
NATO has-member UK
7.
Is-suff-of
Danh từ - Danh từ
Carbon is-stuff-of coal
8.
Has-stuff
Danh từ - Danh từ
Coal has-stuff carbon
9.
Cause-to
Động từ - Động từ
To develop cause-to to grow
10. Entail
Động từ - Động từ
To snore entail to sleep
11. Atribute
Tính từ - Danh từ
Hot attribute temperature
12. Synonymy
Danh từ - Danh từ
Car synonym automobile
Động từ - Động từ
To notice synonym to observe
Tính từ - Tính từ
Happy synonym content
Phó từ - Phó từ
Mainly synonym primarily
(synset)
Danh từ - Danh từ
4
Leg is-part-of table
13. Antonymy
Danh từ - Danh từ
Động từ - Động từ
Happines
unhappiness
antonymy
Tính từ - Tính từ
To inhale antonymy to exhale
Phó từ - Phó từ
Sincere antonymy insincere
Always antonymy never
14. Similarity
Tính từ - Tính từ
Abridge similarity shorten
15. See-also
Động từ - Động từ
Touch see-also touch down
Tính từ - Tính từ
Inadequate
insatisfactory
see-also
Thông thường, người ta hay sử dụng WordNet vào việc tìm kiếm các quan
hệ ngữ nghĩa. Đồng thời, dựa vào các quan hệ này, một từ trong WordNet có thể
tìm được các liên hệ với các khái niệm khác.
Roxana Girju [9] đã đưa ra hệ thống các quan hệ ngữ nghĩa gồm 22 loại như
trong bảng …, trong đó một số quan hệ ngữ nghĩa quan trọng thường được dùng để
thể hiện quan hệ giữa các khái niệm như: hyponymy/ hypernymy (is - a),
meronymy/holonym (part - whole), đồng nghĩa (synonymy) và trái nghĩa
(antonymy) .
Bảng 1-2: 22 loại quan hệ ngữ nghĩa theo Roxana Girju
STT
1.
Quan hệ ngữ nghĩa
HYPERNYMY
(IS-A)
Mô tả
Ví dụ
Một thực thể/ sự kiện/ trạng
thái là lớp con của một thực
thể/ sự kiện/ trạng thái khác
daisy flower;
large company, such as
Microsoft
2.
PART-WHOLE
(MERONYMY)
Một thực thể/ sự kiện/ trạng
thái là một bộ phận của thực
thể/ sự kiện/ trạng thái khác
door knob; the door of
the car
3.
CAUSE
Một sự kiện/trạng thái là
nguyên nhân cho một sự
kiện/trạng thái khác xảy ra
malaria mosquitos;
“death by hunger”;
“The earthquake
5
generated a big
Tsunami”
4.
INSTRUMENT
pump drainage; He
Một thực thể được sử dụng
như là một phương tiên/công broke the box with a
cụ
hammer.
5.
MAKE / PRODUCE Một thực thể tạo ra/ sản xuất
ra một thực thể khác
honey bees; GM makes
cars
6.
KINSHIP (thân
thích)
Một thực thể có liên quan tới boy’s sister; Mary
thực thể khác bởi quan hệ
has a daughter
huyết thống, hôn nhân
7.
POSSESSION (sở
hữu)
Một thực thể sở hữu thực thể family
khác
estate; the girl has a
new car.
8.
SOURCE / FROM
Xuất xứ của thực thể
olive oil
9.
PURPOSE
Một trạng thái hay dành
động là kết quả từ một trạng
thái hay sự kiện khác
migraine drug; He was
quiet in order not to
disturb her.
10. LOCATION/SPACE
quan hệ đặc biệt giữa hai
thực thể hoặc giữa thực thể
và sự kiện
field mouse; I left the
keys in the car
11. TEMPORAL
Thời gian liên quan tới một
sự kiện
5-O’ clock tea; the
store opens at 9 am
12. EXPERIENCER
Cảm giác hay trạng thái của
một thực thể
desire for
chocolate; Mary’s fear.
13. MEANS
Phương tiện mà một sự kiện
được thực hiện
bus service; I go to
school by bus.
14. MANNER
Cách thức mà một sự kiện
xảy ra
hard-working
immigrants;
performance with
6
passion
15. TOPIC
Một đối tượng là đặc trưng
của đối tượng khác
they argued about
politics
16. BENEFICIARY
Một thực thể hưởng lợi ích
từ một trạng thái hay sự kiện
customer service; I
wrote Mary a letter.
17. PROPERTY
Thuộc tính của một thực
thể/sự kiện hay trạng thái
red rose; the juice has a
funny color.
18. THEME
the entity acted upon in an
action/event
music lover
19. AGENT
Tác nhân thực hiện hành
động
the investigation of the
police
20. DEPICTIONDEPICTED
Một thực thể được biểu diễn
trong một thực thể khác
the picture of the girl
21. TYPE
Một từ hay khái niệm là kiểu member state;
của một từ hay hay khái
framework law
niệm khác
22. MEASURE
Một thực thể biểu diễn số
lượng của một thực thể/sự
kiện nào đó
70-km distance; The
jacket costs $60; a cup
of sugar
1.2. Bài toán trích chọn quan hệ ngữ nghĩa
Theo [8, 35, 40], trích chọn quan hệ được xem là một bộ phận quan trọng
của trích chọn thông tin. Tập các câu hay các văn khi xem xét ở mức trừu tượng cao
thì đây chính là tập hợp các khái niệm, các thực thể và quan hệ giữa chúng. Các
thực thể hay khái niệm thể hiện dưới dạng các từ hay cụm từ. Các quan hệ ngữ
nghĩa giữa chứng được ẩn trong các liên kết các khái niệm hay thực thể này. Việc
phát hiện ra các quan hệ này có ý nghĩa rất quan trọng trong các bài toán xử lý
ngôn ngữ tự nhiên.
Roxana Girju [9] đã phát biểu bài toán trích chọn quan hệ ngữ nghĩa như
sau: “Nhận đầu vào là các khái niệm hay thực thể, thông qua tập tài liệu không có
7
cấu trúc như các trang web, các tài liệu, tin tức,… ta cần phải xác định được các
quan hệ ngữ nghĩa giữa chúng”
Một ví dụ về trích chọn quan hệ ngữ nghĩa được Roxana Girju [9] đưa ra như
sau:
Cho một đoạn văn bản với các thực thể/khái niệm được gán nhãn:
[Saturday’s snowfall]TEMP topped [a record in Hartford, Connecticut]LOC with
[the total of 12/5 inches]MEASURE, [the weather service]TOPIC said. The storm
claimed its fatality Thursday when [a car driven by a [college student]PARTin [the mountains of
WHOLE]THEME skidded on [an interstate overpass]LOC
Virginia]LOC/PART-WHOLE and hit [a concrete barrier]PART-WHOLE, police said.
Khi đó, hệ thống trích chọn quan hệ ngữ nghĩa sẽ cho kết quả là các quan hệ
có thể có giữa các thực thể/khái niệm này, cụ thể như sau:
TEMP (Saturday, snowfall)
LOC (mountains, Virginia)
PART-WHOLE/LOC (mountains, Virginia)
LOC (Hartford Connecticut, record)
PART-WHOLE (concrete, barrier)
LOC (interstate, overpass)
PART-WHOLE (student, college)
TOPIC (weather, service)
THEME (car, driven by a college student)
MEASURE(total, 12.5 inches)
1.3. Ứng dụng
Trích chọn quan hệ ngữ nghĩa được ứng dụng trong nhiều lĩnh vực khác nhau.
Lĩnh vực đầu tiên phải nhắc tới là việc xây dựng cơ sở tri thức mà điển hình là xây
dựng Ontology – thành phần nhân của Web ngữ nghĩa. Trong khi những lợi ích mà
Web ngữ nghĩa đem lại là rất lớn thì việc xây dựng các ontology một cách thủ công
lại hết sức khó khăn. Giải pháp cho vấn đề này chính là kĩ thuật trích chọn thông tin
nói chung để tự động hóa một phần quá trình xây dựng các ontology. Đã có rất
nhiều các nghiên cứu liên quan tới vân đề này như [13, 14, 17, 29]
Trích chọn mối quan hệ ngữ nghĩa cũng được sử dụng nhiều có trong các hệ
thống hỏi đáp. Việc xây dựng hệ thống hỏi đáp một hệ thống hỏi đáp đã được xây
dựng dựa vào việc trích xuất tự động các từ, khái niệm và mối quan hệ. Chẳng hạn
Kim và cộng sự [21] cũng đưa ra một hệ thống hỏi đáp OntotrileQA sử dụng kĩ
8
thuật trích chọn quan hệ ngữ nghĩa cho các thực thể trên ontoloty đã được gán nhãn
bằng tay.
Ngoài ra, trích chọn quan hệ còn có ứng dụng trong các lĩnh vực xử lý anh
như phát hiện ảnh qua đoạn văn bản (text-to-image generation) [10] . Trích chọn
quan hệ cũng là một công cụ đắc lực tron lĩnh vực công nghệ sinh học như tìm
quan hệ bệnh tật - Genes, ảnh hưởng qua lại giữa protein-protein (Protein-Protein
interaction)[26]…
Tóm tắt chương một
Trong chương này, khoá luận giới thiệu khái quát các khái niệm liên quan tới
bài toán trích chọn quan hệ ngữ nghĩa, một số loại quan hệ ngữ nghĩa và những ứng
dụng điển hình. Trong chương tiếp theo, khoá luận sẽ tập trung làm rõ các phương
pháp điển hình mô hình hóa bài toán trích chọn quan hệ ngữ nghĩa và cách giải
quyết tương ứng.
9
Chương 2. Một số hướng tiếp cận trích chọn quan hệ ngữ nghĩa
Trích chọn quan hệ được xem là một phần quan trọng của trích chọn thông
tin [8], nhận được sự quan tâm ngày càng nhiều hơn của cộng đồng xử lý ngôn ngữ
tự nhiên và học máy. Các tiếp cận giải quyết bài toán hiện nay tập trung vào sử
dụng các phương pháp học máy để tiến hành trích chọn tự động. Cả ba loại học máy
là học không giám sát, học có giám sát và học bán giám sát đều thể hiện được
những ưu điểm riêng của mình.
Hơn nữa, trong các nghiên cứu gần đây [7,11,12,20], cây phân tích cú pháp
của câu được xem là một thông tin quan trọng cho trích chọn quan hệ. Do đó, trong
chương này, với mỗi một phương pháp học máy, khóa luận sẽ giới thiệu một số mô
hình tiêu biểu. Đây là cơ sơ phương pháp luận quan trọng để khóa luận đưa ra mô
hình áp dụng đối với bài toán trích chọn quan hệ trên miền dữ liệu Wikipedia tiếng
Việt.
2.1. Học không giám sát trích chọn quan hệ
Học không giám sát có bản chất là sử dụng các thuật toán phân cụm các quan
hệ để mô hình hóa. Có nhiều cách khác nhau [1, 6, 11, 17 ] để biểu diễn quan hệ
giữa hai thực thể/khái niệm, trong đó phổ biến nhất là biểu diễn quan hệ này dưới
dạng vector đặc trưng. Vấn đề cốt lõi là làm thế nào để lựa chọn được các đặc trưng
tốt và hiệu quả. Một giải pháp đã được Jinxiu Chen và cộng sự [17] đưa ra dựa trên
ý tưởng xây dựng hàm Entropy để xếp hạng các đặc trưng, từ đó, đưa một thuật
toán lựa chọn được đặc trưng và số cụm tối ưu nhất. Cụ thể như sau:
Đầu tiên, Jinxiu Chen đã đưa ra một số khái niệm:
Gọi P = {p1, p 2,… pN} là tập tất cả các vector ngữ cảnh mà đồng thời xuất
hiện cặp thực thể E1 và E2. Ở đây, ngữ cảnh bao gồm tất cả các từ xuất hiện trước, ở
giữa và sau cặp thực thể.
Gọi W= {w1, w2, … , wM} là tập các đặc trưng, bao gồm tất cả các từ xuất
hiện trong P.
Giả sử, pn (1 ≤ n ≤ N) thuộc không gian đặc trưng W (chiều của W là M).
Độ tương đồng giữa vector p i và p j được cho bởi công thức:
S i , j exp( * Di, j ) trong đó:
Di,j là độ đo Oclit giữa p i và p j,
10
ln 0.5
là hằng số dương thu được bằng thực nghiệm
D
D là khoảng cách trung bình giữa các pi
Khi đó, entropy của tập dữ liệu P với N điểm dữ liệu được định nghĩa là:
N
N
E
i 1
(S
i, j
log S i , j (1 S i , j ) log(1 S i , j )) (2.1)
j 1
Sau đó, để lựa chọn một tập con các đặc trưng quan trọng từ W, các đặc trưng được
xếp hạng theo độ quan trọng của chúng theo cụm. Hàm xếp hạng các đặc trưng dựa
trên một giả thiết rằng “một đặc trưng là không quan trọng nếu nó xuất hiện trong
tập dữ liệu có thể tách rời” [16]. Độ quan trọng của mỗi đặc trưng I(wk) được xác
định bởi entropy của tập dữ liệu sau khi loại bỏ đi đặc trưng wk.
Dựa trên nhận xét rằng: “một đặc trưng là kém quan trọng nhất nếu sau khi
loại bỏ nó đi sẽ làm cho E đạt giá trị nhỏ nhất”, các đặc trưng được xắp sếp theo độ
quan trọng của chúng, ta thu được tập Wr = {f1, …, fM}.
Khi đó, việc tìm tập con đặc trưng tốt nhất F sẽ trở thành bài toán tìm kiếm
trên
không
gian
{(f1,
…,
fk),
≤
1
≤
k
M}
:
tức
là
tìm
Fk arg max F Wr {criterion( F , k )}
Gọi P là tập con các cặp thực thể được lấy mẫu từ tập các cặp thực thể đầy
đủ P. Kích thước của P là N (với α = 0.9)
Gọi C (hay C ) là ma trận kết nối có kích thước | P | *| P | (hay | P | * | P | )
dựa trên các kết quả phân cụm tương ứng từ P ( hay P ) trong đó:
cij =
1 nếu như cặp thực thể pi và pj nằm trong cùng một cụm
0 trong trường hợp ngược lại
Khi đó, độ ổn định M (C , C )
(là độ nhất quán giữa kết quả phân cụm
trên C và C ) sẽ được tính theo công thức:
M (C
i, j
1{C =C =1, p P , p P
, C)
1{C =1, p P , p P }
i, j
i, j
i
j
i, j
i, j
i
}
(2.2)
j
Tuy nhiên, vì M (C , C ) có chiều hướng giảm khi số cụm k tăng nên để tránh
trường hợp các giá trị k nhỏ sẽ được lựa chọn làm số cụm, biến ngẫu nhiên độc lập
11
- Xem thêm -