I H C QU C GIA TP.HCM
TR
NG
I H C BÁCH KHOA
NGUY N QUANG CHÂU
MÔ HÌNH RÚT TRÍCH
C MT
C TR NG NG
NGH A
TRONG TI NG VI T
Chuyên ngành : Khoa h c máy tính
Mã s : 60.48.01.01
LU N ÁN TI N S K THU T
NG
IH
NG D N KHOA H C:
TP. HCM - N M 2011
T
I
I H C QU C GIA TP.HCM
TR
NG
I H C BÁCH KHOA
NGUY N QUANG CHÂU
MÔ HÌNH RÚT TRÍCH
C MT
C TR NG NG
NGH A
TRONG TI NG VI T
Chuyên ngành : Khoa h c máy tính
Mã s : 62.48.01.01
LU N ÁN TI N S K THU T
NG
IH
NG D N KHOA H C:
TP. HCM - N M 2011
T
I
Mô hình rút trích c m t
c tr ng ng ngh a trong ti ng Vi t
L I CAM OAN
Tôi cam oan r ng n i dung c a lu n án này là k t qu nghiên c u c a
b n thân. T t c nh ng tham kh o t các nghiên c u liên quan i u
c nêu
rõ ngu n g c m t cách rõ ràng t danh m c tài li u tham kh o
c p
c
ph n sau c a lu n án. Nh ng óng góp trong lu n án là k t qu nghiên c u
c a tác gi
án và ch a
ã
c công b trong các bài báo c a tác gi
ph n sau c a lu n
c công b trong b t k công trình khoa h c nào khác.
Tác gi lu n án
Nguy n Quang Châu
1
Mô hình rút trích c m t
c tr ng ng ngh a trong ti ng Vi t
L IC M
N
Trong quá trình hoàn thành lu n án này, tôi ã
c s
ào t o giúp
c các th y cô n i
t n tình, c quan n i công tác t o m i i u ki n
thu n l i và b n bè cùng gia ình th
ng xuyên
ng viên khích l .
Lu n án này không th hoàn thành t t n u không có s
h
ng d n và s giúp
th y h
quý báu c a PGS.TS. Phan Th T
ng d n mà tôi mu n
Tôi c#ng mu n
t n tình
i, Ng
i
c bày t! lòng bi t n sâu s"c nh t.
c bày t! lòng bi t n
i v i t p th các th y cô
Khoa CNTT- $ i h c Bách Khoa TP. H Chí Minh ã giúp
và t o
i u ki n cho tôi r t nhi u trong quá trình h c t p và nghiên c u
Khoa; c m n Phòng qu n lý sau $ i h c v s h% tr các th t c hoàn
thành lu n án.
Tôi chân thành c m n Tr
ng $ i h c Công Nghi p TP. H Chí
Minh, &c bi t khoa CNTT, ã h% tr và t o m i i u ki n thu n l i cho
tôi trong quá trình hoàn thành khóa h c NCS.
Cu i cùng, tôi c m n t t c b n bè và ng
ki n thi t th c và có nh ng l i
i thân ã góp nhi u ý
ng viên khích l quý báu giúp tôi hoàn
thành t t lu n án.
Tác gi lu n án
Nguy n Quang Châu
2
Mô hình rút trích c m t
c tr ng ng ngh a trong ti ng Vi t
TÓM T T
World Wide Web (WWW) phát tri n nhanh chóng cùng v i ngu n tài
nguyên thông tin ngày càng phong phú, nhu c u khai thác ngu n thông tin
này c a ng
ng
i s' d ng ngày càng tr nên c p thi t
i. Vi c khai thác này
iv i
c th c hi n thông qua các ph
truy h i thông tin (Information Retrieval), tóm l
i s ng c a con
ng th c nh
c v n b n (Text
Summarization), và rút trích thông tin (Information Extraction), ...
M t trong các v n
c t lõi c a h th ng khai thác này là xác
rút trích chính xác các c m t
trong v)n b n. V n
nh và
&c tr ng ng ngh(a (CT$TNN) c a câu
này là m i quan tâm c a các nhà ngôn ng h c, c#ng
nh các nhà khoa h c trong l(nh v c x' lý ngôn ng t nhiên b ng máy
tính.
* Vi t Nam, chúng ta mong mu n có
c mt
c m t h th ng rút trích các
&c tr ng ng ngh(a c a câu trong v)n b n ti ng Vi t, nh m áp
ng nhu c u ang b b! ng! trong các h th ng khai thác thông tin. $i u
này ã òi h!i và thúc +y vi c nghiên c u và phát tri n mô hình rút trích
c m t
&c tr ng ng
ngh(a trong ti ng Vi t (Vietnamese Key Phrase
Information Extraction Model - ViKE). Lu n án nghiên c u rút trích c m t
&c tr ng ng ngh(a (CT$TNN) c a câu
n ti ng Vi t. V i kh o sát t n
su t xu t hi n c a các c m trong các v)n b n ti ng Vi t, lu n án ã t p
trung nghiên c u vi c xác
ngh(a (CDT$TNN) cho câu
nh và rút trích c m danh t
&c tr ng ng
n ti ng Vi t.
Lu n án trình bày mô hình ViKE. ViKE là mô hình k t h p hai h
ti p c n chính: (1) h
danh t
ng ngôn ng h c hay h
ng ti p c n xác
&c tr ng ng ngh(a, c th là s' d ng ph
lo i trên Ontology c a Wikipedia; (2) h
&c tr ng ng ngh(a hay h
nh c m
ng pháp so trùng th
ng ti p c n rút trích c m danh t
ng ti p c n h c máy, c th là s' d ng ph
pháp Máy vect h tr (Support Vector Machines – SVMs). Lu n án
các tính ch t &c tr ng cho ph
ng pháp xác
ng ngh(a dùng SVMs nh m n"m b"t
3
ng
nh c m danh t
ng
xu t
&c tr ng
c v trí lô-gích và &c tính hình
Mô hình rút trích c m t
c tr ng ng ngh a trong ti ng Vi t
thái t,ng quát c a CDT$TNN: (a) v trí t trong câu; (b) nhãn t lo i; (c)
c u trúc c m danh t ; (d) các t quan h gi a các c m danh t .
$
ánh giá hi u su t h th ng c a các mô hình
nghi m trên t p câu
c ch n l c t
xu t, lu n án th c
các ngu n ng
li u TREC07,
TREC06, TREC02 (http://trec.nist.gov/data/) và www.lexxe.com (Qiao,
2010). T p câu ti ng Anh
c H i Nghiên C u D ch Thu t Tp. H Chí
Minh d ch sang t p câu ti ng Vi t t
ng nh n di n c m danh t
công. K t qu mô hình ViKE
i u hòa l n l
xác,
y
ng ng và
c b n chuyên gia ngôn
&c tr ng ng ngh(a b ng ph
t
chính xác,
và
trung bình
t là 89,52% , 87,63% và 88,57%. Nh v y v i
và
và mô hình theo h
chính
trung bình i u hòa c a mô hình ViKE ã c i thi n
hi u su t c a hai mô hình thành ph n (mô hình theo h
m c tiêu
y
ng pháp th
ng ti p c n xác
ra c a lu n án.
4
ng ti p c n rút trích
nh CDT$TNN) và áp ng
c
Mô hình rút trích c m t
c tr ng ng ngh a trong ti ng Vi t
M CL C
DANH M C CÁC B NG ...................................................................................9
DANH M C CÁC HÌNH ..................................................................................10
Ch
ng 1. GI I THI U ..........................................................................................11
1.1 M c tiêu và ph m vi .................................................................................11
1.2 Nh ng óng góp chính c a lu n án...........................................................16
1.3 C u trúc c a lu n án .................................................................................17
Ch
ng 2. C
S
LÝ THUY T NGÔN NG
TI NG VI T ........................19
2.1 Gi i thi u .................................................................................................19
2.2 C s lý thuy t .........................................................................................20
2.3 K t ch
Ch
ng...............................................................................................29
ng 3. T NG QUAN CÁC MÔ HÌNH RÚT TRÍCH C M T
C
TR NG ..............................................................................................................31
3.1 Gi i thi u .................................................................................................31
3.2 Các nghiên c u liên quan..........................................................................32
3.3 S t
3.4 Ph
ng quan gi a h
nh CT$T ...............37
ng pháp ti p c n c a lu n án.............................................................38
3.5 K t ch
Ch
ng ti p c n rút trích và xác
ng...............................................................................................52
ng 4. MÔ HÌNH XÁC
NH C M T
TRONG TI NG VI T (ViKEa) -PH
C TR NG NG
NGH A
NG PHÁP SO TRÙNG M U D A
TRÊN ONTOLOGY..........................................................................................54
4.1 Gi i thi u ................................................................................................54
4.2 Rút trích c m danh t d tuy n……………………...………………………...............55
4.3 Công o n xác
nh c m danh t
&c tr ng ng ngh(a d a trên
ontology………………………………………………………………………………………………………..62
4.4 K t ch
Ch
ng
………………………………………………………………..………………………….73
ng 5. MÔ HÌNH RÚT TRÍCH C M T
TRONG TI NG VI T (ViKEe) – PH
C TR NG NG
NGH A
NG PHÁP H C MÁY...................75
5.1 Gi i thi u .................................................................................................75
5.2 Ph
ng pháp Support Vector Machines....................................................77
5
Mô hình rút trích c m t
c tr ng ng ngh a trong ti ng Vi t
5.3 Phát bi u bài toán rút trích CDT$TNN trong ti ng Vi t .........................89
5.4 Mô hình ViKEe ........................................................................................90
5.5 K t qu th c nghi m...............................................................................100
5.6 K t ch
Ch
ng ............................................................................................101
ng 6. MÔ HÌNH RÚT TRÍCH C M T
TRONG TI NG VI T (ViKE) - K T H P H
TRÍCH VÀ H
NG TI P C N XÁC
C TR NG NG
NGH A
NG TI P C N RÚT
NH ...................................................102
6.1 Gi i thi u ...............................................................................................102
6.2 Mô hình rút trích CDT$TNN trong ti ng Vi t........................................103
6.3 H th ng rút trích CDT$TNN trong ti ng Vi t ......................................105
6.4 $ánh giá hi u su t rút trích CDT$TNN .................................................107
6.5 K t ch
Ch
ng.............................................................................................112
ng 7. T NG K T ...................................................................................114
7.1 Gi i thi u ..............................................................................................114
7.2 Tóm t"t các k t qu
7.3 H
t
c ..................................................................115
ng phát tri n.....................................................................................116
7.4 K t lu n..................................................................................................117
CÁC BÀI BÁO C A TÁC GI LIÊN QUAN
CÁC CÔNG TRÌNH NCKH LIÊN QUAN
N LU N ÁN ............. ……119
N LU N ÁN………......................121
TÀI LI U THAM KH O ...............................................................................122
PH L C……………………………………………………………………………….……………….i
6
Mô hình rút trích c m t
c tr ng ng ngh a trong ti ng Vi t
DANH M C CÁC T
STT
T vi t t t
1
BaseNP
2
CT$TNN
3
CDT$TNN
VI T T T
Di n gi i ti ng Anh
Di n gi i ti ng Vi t
Base-Noun Phrase
C m danh t c s
Key phrase
C mt
Key noun phrase
C m danh t
&c tr ng ng ngh(a
&c tr ng ng ngh(a
ViKEa
Mô hình rút trích c m danh t
Vietnamese Key phrase
&c tr ng ng ngh(a trong ti ng
Extraction for Assigment
Vi t theo h ng ti p c n xác
approach
nh CT$TNN
ViKEe
Mô hình rút trích c m danh t
Vietnamese Key phrase
&c tr ng ng ngh(a trong ti ng
Extraction for Extraction
Vi t theo h ng ti p c n rút
approach
trích CT$TNN
6
ViKE
Vietnamese Key phrase
Extraction
Mô hình rút trích c m danh t
&c tr ng ng ngh(a trong ti ng
Vi t
7
ViO
Vietnamese Ontology
Ontology ti ng Vi t
8
ViWiki
Vietnamese Wikipedia
Bách khoa toàn th tr c tuy n
ti ng Vi t
9
POS
Part-Of-Speech
Nhãn t lo i
4
5
10
POS Tagging Part-Of- Speech Tagging Gán nhãn t lo i
11
NP Chunking Noun Phrase Chunking
12
IR
13
G m c m danh t
Information retrieval
Truy h i thông tin
ViDic
Vietnamese Dictionary
T
14
SVMs
Support Vector
Machines
Máy vect h% tr
15
SMO
Sequential Minimal
Optimisation
T i u hóa c c ti u tu n t
16
Vietnamese Word
vnWordSegmentation Segmentation
17
vnPOSTagger
Vietnamese Part-OfSpeech Tagger
7
i n ti ng Vi t
Phân o n t ti ng Vi t
Công c gán nhãn t
Vi t
lo i ti ng
Mô hình rút trích c m t
18
NLP
c tr ng ng ngh a trong ti ng Vi t
Natural Language
Processing
X' lý ngôn ng t nhiên
Text REtrieval
Conference
H i ngh v truy h i thông tin
v)n b n
c t, ch c l n u
tiên vào n)m 1992 b i vi n
NIST và B Qu c Phòng M-
19
TREC
20
1vs1
One vs One
K- thu t so sánh M t-M t
21
1vsR
One vs Rest
K- thu t so sánh M t-Ph n d
còn l i
22
LM
Linear Model
Mô hình tuy n tính
23
CSDL
Database
C s d li u
24
JAPE
Java Annotation Patterns
B x' lý v)n ph m JAPE
Engine
25
GATE
General Architecture for
Ki n trúc x' lý v)n b n
Text Engineering
26
IOB
IOB
Nhãn IOB
27
CS
Co-worker
C ng s
8
Mô hình rút trích c m t
c tr ng ng ngh a trong ti ng Vi t
DANH M C CÁC B NG
B ng 3.1: K t qu gán nhãn t lo i.......................................................................51
B ng 4.1: B nhãn t lo i c a t ...........................................................................57
B ng 4.2: Các phiên b n Wiktionary(29/1/2008).................................................63
B ng 4.3: S trang thông tin (# danh hi u), th lo i và trang ,i h
ng c a phiên
b n Vi.Wikipedia(4/2/2009).................................................................63
B ng 4.4: K t qu rút trích CDT$TNN c a mô hình ViKEa...............................73
B ng 5.1: Kho ng li u..........................................................................................95
B ng 5.2: $ chính xác c a k t qu phân lo i nhãn gom c m IOB.....................100
B ng 5.3: K t qu rút trích CDT$TNN c a mô hình ViKEe..............................101
B ng 6.1: K t qu rút trích c m danh t
&c tr ng ng ngh(a trong mô hình
ViKE....................................................................................................108
B ng 6.2: So sánh hi u su t rút trích CDT$TNN gi a các mô hình...................109
B ng 6.3: Th i gian áp ng khi th c nghi m trên t p C1 v i 10 câu ng u
nhiên....................................................................................................110
9
Mô hình rút trích c m t
c tr ng ng ngh a trong ti ng Vi t
DANH M C CÁC HÌNH
Hình 3.1 Mô hình t,ng quát rút trích c m t
&c tr ng ng ngh(a.......................39
Hình 3.2 Mô hình cho bài toán phân o n t . ......................................................42
Hình 3.3 Minh h a tìm ki m t trong t
i n........................................................43
Hình 3.4 Mô hình gán nhãn k t h p......................................................................49
Hình 4.1 Mô hình rút trích c m danh t
&c tr ng ng ngh(a theo h
ng xác
nh.........................................................................................................55
Hình 4.2 S
th hi n m i quan h gi a c m danh t A và c m danh t B…..67
Hình 4.3 Mô hình rút trích CDT$TNN d a vào so trùng m u
và Ontology – ViKEa………………………………………….……………….68
Hình 5.1 Nguyên lý c c ti u r i ro c u trúc. ........................................................78
Hình 5.2 Các m&t ph.ng phân tách. ......................................................................79
Hình 5.3 M&t ph.ng phân tách (w,b) cho t p hu n luy n hai chi u......................80
Hình 5.4 Ví d v m t tr
ng h p không phân bi t
c. ...................................83
Hình 5.5 Quá trình ánh x t không gian nh p vào không gian &c tr ng............86
Hình 5.6 Mô hình rút trích c m danh t
&c tr ng ng ngh(a - ViKEe................91
Hình 6.1 Mô hình t,ng quát rút trích c m danh t
&c tr ng ng ngh(a ViKE...103
Hình 6.2 Mô hình ki n trúc ba l p cu h th ng rút trích CDT$TNN trong
ti ng Vi t –ViKE……………..............................................................106
Hình 6.3 $ th so sánh hi u su t rút trích CDT$TNN gi a các phiên b n…...108
Hình 6.4 $ th so sánh hi u su t rút trích CDT$TNN gi a các mô hình…….109
Hình 6.5 $ th bi u th th i gian áp ng khi th c nghi m trên t p C1 v i
10 câu ng u nhiên……………………………………………...……..110
10
Mô hình rút trích c m t
c tr ng ng ngh a trong ti ng Vi t
Ch
ng 1
GI I THI U
1.1 M c tiêu và ph m vi
Internet là m t n i l u tr ngu n thông tin c a nhân lo i. Ngu n thông tin này
c chia s , phát tri n và m r ng không ng ng cùng v i s phát tri n nhanh
chóng c a World Wide Wed (Web). V n
t ra là làm th nào
s d ng ngu n tài nguyên thông tin này m t cách hi u qu nh t.
11
khai thác và
Mô hình rút trích c m t
c tr ng ng ngh a trong ti ng Vi t
Thông tin trên Web h u h t
u th hi n d
i d ng ngôn ng t nhiên, thông qua
các trang Web, các h th ng truy h i thông tin (Information Retrieval)
c phát
tri n và thành công nh t hi n nay là Google1, Yahoo2, v.v... Tuy nhiên, các mô
u s d ng t khóa
x lý và truy h i tài li u. Hi u su t truy h i c a
chúng có nh ng gi i h n nh t
nh vì ng ngh a c a tài li u b m t i nhi u khi
hình này
v nb n
c bi u di n d
c p thông tin t phía ng
i d ng m t t p các t khóa. T
i s d ng c ng
c bi u di n b i các t khóa. S bi u
di n này rõ ràng không có kh n ng th hi n
mong mu n c a ng
hi n nay, ng
ng t , yêu c u cung
c tr!n v"n nhu c u thông tin nh
i s d ng. Do ó, khi truy h i thông tin trên các h th ng
i s d ng
u nh n
c thêm các tài li u không liên quan t i
thông tin c n tìm.
# c i ti n các mô hình truy h i thông tin theo t khóa, nhi u công trình
nghiên c$u i khai thác ti m n ng c a c m t
truy h i thông tin (Hulth, 2004), tóm l
c tr ng trong các h th ng nh
c v n b n (Text Summarization) (Paice và
Black, 2003), và rút trích thông tin (Information Extraction) (Medelyan và Witten,
2006; Thuy Dung Nguyen, 2007), ...Trong các h th ng này, khái ni m c m t
tr ng
c
nh ngh a nh sau:
nh ngh a 1.1: Trong các th vi n và khoa h!c thông tin c m t
(c m t khóa – key phrase)
c
c tr ng
nh ngh a là “c m t mô t ng n g n và chính
hay khía c nh c a ch
xác ch
c
mà nó
c th o lu n trong v n b n”
(Feather và P., 1996, 240).
Theo quan i m c a Cao Xuân H o (1998): “câu
c a ngôn t , c a v n b n. Nó là
n
c b n c a l i nói,
n v nh nh t có th s d ng vào vi c giao t .
Nói cách khác, câu là ngôn b n (v n b n) ng n nh t”.
Nh v y, v i quan i m câu là v n b n ng%n nh t và
c mt
c tr ng di n
c$u là câu
n, lu n án
t ch
ng 2, trang 22).
C mt
c tr ng ng ngh a –
ch
1
ng h p
c a v n b n ng%n nh t (câu) và ph m vi nghiên
nh ngh a c m t
ngh a 2.1 (Ch
nh n m nh tr
c tr ng ng ngh a nh trong
nh
c vi t t%t là CT#TNN – có kh n ng mô t
trong câu (hay v n b n). Nói cách khác, CT#TNN mang thông tin v n i
www.google.com/
12
Mô hình rút trích c m t
c tr ng ng ngh a trong ti ng Vi t
dung nòng c t c a m t câu. CT#TNN r t h u d ng trong nhi u $ng d ng. Trong
l nh v c truy h i thông tin, các CT#TNN không ch& h' tr trong vi c xác
dung c a m t v n b n có thích h p v i yêu c u thông tin c a ng
nh n i
i s d ng hay
không, mà còn bi u th n i dung nòng c t c a câu truy v n thông tin trong
ng c
tìm ki m (search engine) trên Web th h th$ ba và h th ng h i- áp (questionanswering) (Qiao, 2010).
Do các CT#TNN ph n ánh
b n, nên chúng
c n i dung nòng c t (ch
c s d ng
phân lo i v n b n (text classification) (Jones và
c v n b n (text summarization) (Barker và Cornacchia,
Mahoui, 2000), tóm l
2000). M c dù các CT#TNN
c dùng r ng rãi trong các h th ng $ng d ng
khác nhau, nh ng th t s vi c rút trích các CT#TNN t
t ng v n b n b(ng ph
Nhu c u này là
) c a câu trong v n
ng $ng cho t ng câu hay
ng pháp th công t n r t nhi u th i gian và công s$c.
ng l c thúc
)y các nghiên c$u rút trích t
CT#TNN. Có th phân các nghiên c$u v CT#TNN thành ba h
1. H
ng ti p c n s d ng t
c xây d ng b(ng ph
ng pháp th công dùng
ng pháp so trùng các CT#TNN trong t
Thu n l i chính c a h
nhi u h th ng v*n ang s d ng ph
Xing, 1998; ...). Tuy nhiên, ph
c th c hi n b(ng các
i n v i các c m t trong tài li u.
n gi n. Hi n nay
ng pháp này (Bian và Chen, 1998; Li và
ng pháp này còn b h n ch khi tài li u có nh ng
i n. #ây là m t v n
quy t. Các nghiên c$u theo h
i n
rút trích các CT#TNN trong
ng ti p c n là nhanh và th c hi n
t m i không có trong t
ng chính:
i n (Dictionary approach): s d ng m t t
câu (hay v n b n). Quá trình rút trích các CT#TNN
ph
ng các
c n
ng ti p c n s d ng t
c i thi n quá trình so trùng nh : so trùng c!c
c nghiên c$u và gi i
i n ã có nhi u chi n l
c
i (maximum-matching), so
trùng c!c ti u (minimum-matching), so trùng t i (forward-matching), so trùng lùi
(backward-matching), so trùng theo c hai h
các ph
ng pháp gi i quy t v n
nhiên, hi u su t c a h
ng (bi-directional- matching) và
b(ng ánh giá kinh nghi m (heuristics). Tuy
ng ti p c n này l i phù thu c vào
l nc at
i n. Nó
th t s không hi u qu khi gi i quy t bài toán nh n di n danh t riêng nh tên, v
trí, hay các thu t ng m i trong nh ng ph m vi chuyên bi t.
2
www. yahoo.com/
13
Mô hình rút trích c m t
2. H
c tr ng ng ngh a trong ti ng Vi t
ng ti p c n ngôn ng h c (Linguistic approach), h
ng này dùng c s tri
th$c ng ngh a t v ng (nh WordNet3, Wikipedia4,…), dùng ph
giá theo kinh nghi m, hay ph
ng pháp lu t
ng pháp ánh
rút trích các c m t (Wu và Tseng,
1995). Các nghiên c$u v x lý ngôn ng ti ng Anh ã ch$ng t+ h
này có th
t
chính xác cao. Tuy nhiên
thu c vào vi c thi t k
t ng h
th ng c
chính xác c a ph
th
ng ti p c n
ng pháp còn ph
(Brill, 1995; Church, 1988;
Voutilainen, 1997). M c dù nhi u k t qu nghiên c$u ã ch$ng t+ h
ng ti p c n
này có nhi u ti m n ng, tuy nhiên v*n ch a có m t công trình nghiên c$u nào theo
ng ti p c n này cho ngôn ng ti ng Vi t, và hi n th c theo h
h
ng ti p c n này
còn g p nhi u khó kh n. Khó kh n chính là vi c xây d ng m t c s tri th$c ng
ngh a t v ng ti ng Vi t cho nh ng mi n (domain) chuyên bi t, có ph m vi l n.
Vi c này òi h+i r t nhi u th i gian và công s$c.
V i m c tiêu gi i quy t cho bài toán rút trích CT#TNN cho câu
n c a ti ng
Vi t, lu n án t p trung xây d ng mô hình ViKEa (Vietnamese Key phrase
Extraction for assignment approach) theo h
ng ti p c n ngôn ng h!c d a trên
Ontology và khai thác các tri th$c ngôn ng ti ng Vi t
nâng cao hi u qu c a
mô hình. Vi c lu n án nghiên c$u và khai thác Vi.Wikipedia (Vietnamese
Wikipedia) nh kho tri th$c ti ng Vi t ã gi i quy t khó kh n v tài nguyên tri
th$c t v ng ti ng Vi t khi xây d ng mô hình theo h
3. H
ng ti p c n b"ng ph
là quá trình h!c các giá tr
ng pháp th#ng kê (Statistical approach), th c ch t
ã
các c m t (Su và CS, 1996). H
c mt
ng ti p c n này.
c th ng kê t m t kho ng li u l n
rút trích
ng ti p c n này t+ ra hi u qu cho vi c rút trích
c tr ng ng ngh a (Yang và CS, 1998; Chien, 1997; Chien, 1998; Chen
và CS, 1997), và nó liên quan m t thi t v i h
ng ti p c n n-gram v i n có giá tr
2,3, hay 4. Tuy nhiên, khi Chien (1997) dùng PAT-Tree (PATricia Tree)
trích các CT#TNN trong v n b n c a ti ng Trung Qu c, tác gi
rút
ã không gi i h n
giá tr c a n. M c dù có gia t ng v m t tính toán, k, thu t này không nh ng
không òi h+i nhi u công s$c
l y
3
4
t ot
i n hay c s tri th$c mà còn có kh n ng
c các thu t ng có tr!ng s cao trong kho ng li u. Tuy nhiên, m t h n ch
www.wordnet.com/
www.wikipedia.org/
14
Mô hình rút trích c m t
c ah
c tr ng ng ngh a trong ti ng Vi t
ng ti p c n là có m t s tr
ng h p không th rút trích các c m t h p lý
mà có t n su t th p.
M c dù h
nh ng có
ng ti p c n b(ng th ng kê có
(Recall) cao so v i h
$y
chính xác (Precision) không t t,
ng ti p c n ngôn ng h!c. Vì v y, v i
m c tiêu là c i thi n t i a hi u qu c a h th ng ViKEa theo h
ng ti p c n ngôn
ng h!c khi vi c khai thác ngôn ng v*n còn gi i h n, lu n án s- xây d ng mô
hình rút trích các CT#TNN b(ng ph
CT#TNN
c gán nhãn t lo i ban
ng pháp máy h!c có giám sát. Các
u làm t p hu n luy n
rút trích. #ây là c s cho mô hình xác
nh úng các CT#TNN trong các c m t
d tuy n. Mô hình rút trích dùng m t t p các tính ch t
c mt .V n
t , nh(m xác
t ra là ph i xác
xây d ng mô hình
nh
c tr ng
c các tính ch t
phân lo i các
c tr ng c a các c m
nh m t cách chính xác các CT#TNN trong các c m t d tuy n.
Nh v y, m c tiêu c a lu n án là xây d ng m t mô hình lai cho bài toán rút
trích CT#TNN trong câu
hình theo h
n ti ng Vi t. Mô hình này là s ph i h p c a hai mô
ng ti p c n ngôn ng h!c và ph
chính là s ph i h p c a hai mô hình theo h
CT#TNN (
c trình bày trong Ch
lu n án s d ng ph
ng ti p c n rút trích và xác
ng 3). Trong h
nh c m t
lu n án
ct ol pt
xu t b n tính ch t
c
c tr ng ng ngh a dùng ph
ng pháp
máy h c vect h% tr (Support Vector Machines-SVMs) nh(m n%m b%t
c v trí
lô-gích và
ng pháp xác
nh
ng ti p c n ngôn ng h!c,
ng pháp so trùng m*u d a trên Ontology
Wikipedia ti ng Vi t. Mô hình này là c s
tr ng cho ph
ng pháp xác su t th ng kê. #ó
c tính hình thái c a CT#TNN, là: (1) v trí t trong câu, (2) nhãn t
lo i, (3) c u trúc c m t , (4) các t quan h gi a các c m t .
T
ây, các bài toán chính c n
c gi i quy t trong ph m vi lu n án bao g m:
Bài toán 1 - Xây d ng mô hình ViKEa.
Lu n án nghiên c$u và khai thác ngu n tài nguyên c a Vi.wikipedia
xây
d ng m t Ontology ti ng Vi t ViO (Vietnamese Ontology) nh(m ph c v yêu c u
c a bài toán.
Lu n án
xu t mô hình xác
nh CT#TNN,
c g!i là ViKEa, d a trên các
tri th$c ngôn ng t nhiên (nh h th ng lu t và ViO) và các bài toán ti n x lý
(nh phân o n t và gán nhãn t lo i).
15
Mô hình rút trích c m t
c tr ng ng ngh a trong ti ng Vi t
Bài toán 2 - Xây d ng mô hình rút trích c m t
c tr ng ng ngh a,
c g!i
là ViKEe (Vietnamese Key phrase Extraction for extraction approach).
Lu n án nghiên c$u và phân tích các mô hình h!c máy. T
rút trích CT#TNN dùng ph
ó
xu t mô hình
ng pháp SVMs, nh(m c i thi n t i a hi u qu c a
mô hình ViKEa khi ngu n tài nguyên ti ng Vi t s.n có còn h n ch .
Bài toán 3 - Xây d ng mô hình ViKE (Vietnamese Key phrase Extraction).
ViKE là s k t h p hai mô hình ViKEa và ViKEe cho bài toán rút trích c m t
c tr ng ng ngh a trong câu
n c a ti ng Vi t, v i m c tiêu khai thác t i a
chính xác c a vi c rút trích CT#TNN c a t ng mô hình trong bài toán 1 và 2.
1.2 Nh ng óng góp chính c a lu n án
Sau ây là nh ng óng góp chính c a lu n án
i v i l nh v c x lý ngôn ng
t nhiên mà c th là x lý v n b n ti ng Vi t:
-
&óng góp th' nh t: Xây d ng c ch rút trích c m t
c tr ng ng ngh a
trong câu ti ng Vi t.
-
&óng góp th' hai: # xu t mô hình ViKEa, là mô hình xác
tr ng ng ngh a câu
n c a ti ng Vi t, dùng ph
nh c m t
c
ng pháp so trùng m*u d a
trên vi c khai thác Vi.Wikipedia nh m t Ontology ti ng Vi t.
-
&óng góp th' ba: # xu t mô hình ViKEe, là mô hình rút trích c m t
tr ng ng ngh a trong câu
b n tính ch t
n c a ti ng Vi t, dùng ph
c
ng pháp SVMs v i
c tr ng: (1) v trí t trong câu; (2) nhãn t lo i; (3) c u trúc
c m t ; (4) các t quan h gi a các c m t .
-
&óng góp th' t : # xu t mô hình ViKE, là s k t h p hai mô hình ViKEa và
ViKEe cho bài toán rút trích c m t
c tr ng ng ngh a trong câu
nc a
ti ng Vi t.
-
&óng góp th' n m: Xây d ng m t ki n trúc công ngh hoàn ch&nh cho $ng
d ng rút trích CT#TNN trong câu
-
&óng góp th' sáu: # xu t ph
Ontology ti ng Vi t không ch&
tr ng ng ngh a trong câu
n c a ti ng Vi t.
ng pháp khai thác Vi.Wikipedia nh
ph c v cho vi c xác
nh c m danh t
n c a ti ng Vi t mà còn góp ph n gi i v n
16
m t
c
thi u
Mô hình rút trích c m t
c tr ng ng ngh a trong ti ng Vi t
tài nguyên có s.n c a ng li u ti ng Vi t, h' tr cho v n
x lý ngôn ng t
nhiên trong ti ng Vi t.
1.3 C u trúc c a lu n án
Lu n án
c chia thành b y ch
ng và m t ph l c. Ch
ph m vi, m c tiêu và c u trúc c a lu n án. Trong m'i ch
n ch
2
ng 7,
Ch
t
ng ti p theo, t ch
u có ph n gi i thi u và m t ph n k t ch
án trình bày ph n t/ng k t trong ch
ng 1 trình bày
ng
ng. Cu i cùng, lu n
ng 7.
ng 2 gi i thi u c s lý thuy t ngôn ng ti ng Vi t, t lo i, c m t , c m
c tr ng ng ngh a cho câu ti ng Vi t.
Ch
ng 3 trình bày t/ng quan các nghiên c$u liên quan và các cách ti p c n,
u i m và khuy t c a t ng mô hình xác
chúng tôi
nh và rút trích CT#T. T phân tích này
xu t m t mô hình ViKE cho bài toán rút trích c m t
ngh a trong câu
c tr ng ng
n c a ti ng Vi t. # ng th i, lu n án c ng trình bày h
ng gi i
quy t cho ph n ti n x lý, g m bài toán phân o n t và gán nhãn t lo i
c
gi i thi u trong (Chau Q. Nguyen, Tuoi T. Phan, 2006) và (Chau Q. Nguyen, Tuoi
T. Phan, Tru H. Cao, 2006); c ng nh các ph
hình rút trích
Ch
ng pháp ánh giá hi u su t c a mô
c lu n án áp d ng cho mô hình ViKE.
ng 4 trình bày mô hình ViKEa xác
nh CT#TNN b(ng ph
ng pháp so
trùng m*u trên Ontology ti ng Vi t ViO. # ng th i, lu n án c ng trình bày
ph
ng pháp khai thác ngu n tài nguyên Vi.Wikipedia nh m t Ontology ti ng
Vi t
xây d ng Ontology ViO. Các khái ni m
các óng góp ã
c lu n án
ngh , c ng nh
c gi i thi u trong (Chau Q. Nguyen, Thanh C. Nguyen, Tuoi
T. Phan, 2006), (Chau Q. Nguyen, Tuoi T. Phan, 2007) và (Chau Q. Nguyen, Tuoi
T. Phan, 2009).
Ch
ph
ng 5 trình bày ViKEe theo h
ng pháp SVMs v i b n tính ch t
ng ti p c n rút trích CT#TNN dùng
c tr ng
c
xu t: v trí t trong câu,
nhãn t lo i, c u trúc c m t , và các t quan h gi a các c m t
ã
c gi i thi u
trong (Chau Q. Nguyen, Luan T. Hong, Tuoi T. Phan, 2008) và (Chau Q. Nguyen,
Luan T. Hong, Tuoi T. Phan, 2009).
Ch
ng 6 trình bày mô hình ViKE, là s k t h p hai mô hình ViKEa và
17
Mô hình rút trích c m t
c tr ng ng ngh a trong ti ng Vi t
ViKEe cho bài toán rút trích c m t
c tr ng ng ngh a trong câu
n c a ti ng
Vi t. # ng th i, lu n án c ng trình bày mô hình ki n trúc h th ng c a ViKE v i
các ánh giá hi u su t c a h th ng thông qua th c nghi m. Các óng góp ã
c
gi i thi u trong (Chau Q. Nguyen, Tuoi T. Phan, 2009).
Ch
ng 7 trình bày tóm t%t các k t qu
toán rút trích c m t
ngh các h
t
c c a lu n án khi gi i quy t bài
c tr ng ng ngh a trong câu
ng nghiên c$u trong t
ng lai liên quan
18
n c a ti ng Vi t,
n lu n án.
ng th i
- Xem thêm -