Đăng ký Đăng nhập
Trang chủ Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt...

Tài liệu Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt

.PDF
174
73
97

Mô tả:

I H C QU C GIA TP.HCM TR NG I H C BÁCH KHOA NGUY N QUANG CHÂU MÔ HÌNH RÚT TRÍCH C MT C TR NG NG NGH A TRONG TI NG VI T Chuyên ngành : Khoa h c máy tính Mã s : 60.48.01.01 LU N ÁN TI N S K THU T NG IH NG D N KHOA H C: TP. HCM - N M 2011 T I I H C QU C GIA TP.HCM TR NG I H C BÁCH KHOA NGUY N QUANG CHÂU MÔ HÌNH RÚT TRÍCH C MT C TR NG NG NGH A TRONG TI NG VI T Chuyên ngành : Khoa h c máy tính Mã s : 62.48.01.01 LU N ÁN TI N S K THU T NG IH NG D N KHOA H C: TP. HCM - N M 2011 T I Mô hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t L I CAM OAN Tôi cam oan r ng n i dung c a lu n án này là k t qu nghiên c u c a b n thân. T t c nh ng tham kh o t các nghiên c u liên quan i u c nêu rõ ngu n g c m t cách rõ ràng t danh m c tài li u tham kh o c p c ph n sau c a lu n án. Nh ng óng góp trong lu n án là k t qu nghiên c u c a tác gi án và ch a ã c công b trong các bài báo c a tác gi ph n sau c a lu n c công b trong b t k công trình khoa h c nào khác. Tác gi lu n án Nguy n Quang Châu 1 Mô hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t L IC M N Trong quá trình hoàn thành lu n án này, tôi ã c s ào t o giúp c các th y cô n i t n tình, c quan n i công tác t o m i i u ki n thu n l i và b n bè cùng gia ình th ng xuyên ng viên khích l . Lu n án này không th hoàn thành t t n u không có s h ng d n và s giúp th y h quý báu c a PGS.TS. Phan Th T ng d n mà tôi mu n Tôi c#ng mu n t n tình i, Ng i c bày t! lòng bi t n sâu s"c nh t. c bày t! lòng bi t n i v i t p th các th y cô Khoa CNTT- $ i h c Bách Khoa TP. H Chí Minh ã giúp và t o i u ki n cho tôi r t nhi u trong quá trình h c t p và nghiên c u Khoa; c m n Phòng qu n lý sau $ i h c v s h% tr các th t c hoàn thành lu n án. Tôi chân thành c m n Tr ng $ i h c Công Nghi p TP. H Chí Minh, &c bi t khoa CNTT, ã h% tr và t o m i i u ki n thu n l i cho tôi trong quá trình hoàn thành khóa h c NCS. Cu i cùng, tôi c m n t t c b n bè và ng ki n thi t th c và có nh ng l i i thân ã góp nhi u ý ng viên khích l quý báu giúp tôi hoàn thành t t lu n án. Tác gi lu n án Nguy n Quang Châu 2 Mô hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t TÓM T T World Wide Web (WWW) phát tri n nhanh chóng cùng v i ngu n tài nguyên thông tin ngày càng phong phú, nhu c u khai thác ngu n thông tin này c a ng ng i s' d ng ngày càng tr nên c p thi t i. Vi c khai thác này iv i c th c hi n thông qua các ph truy h i thông tin (Information Retrieval), tóm l i s ng c a con ng th c nh c v n b n (Text Summarization), và rút trích thông tin (Information Extraction), ... M t trong các v n c t lõi c a h th ng khai thác này là xác rút trích chính xác các c m t trong v)n b n. V n nh và &c tr ng ng ngh(a (CT$TNN) c a câu này là m i quan tâm c a các nhà ngôn ng h c, c#ng nh các nhà khoa h c trong l(nh v c x' lý ngôn ng t nhiên b ng máy tính. * Vi t Nam, chúng ta mong mu n có c mt c m t h th ng rút trích các &c tr ng ng ngh(a c a câu trong v)n b n ti ng Vi t, nh m áp ng nhu c u ang b b! ng! trong các h th ng khai thác thông tin. $i u này ã òi h!i và thúc +y vi c nghiên c u và phát tri n mô hình rút trích c m t &c tr ng ng ngh(a trong ti ng Vi t (Vietnamese Key Phrase Information Extraction Model - ViKE). Lu n án nghiên c u rút trích c m t &c tr ng ng ngh(a (CT$TNN) c a câu n ti ng Vi t. V i kh o sát t n su t xu t hi n c a các c m trong các v)n b n ti ng Vi t, lu n án ã t p trung nghiên c u vi c xác ngh(a (CDT$TNN) cho câu nh và rút trích c m danh t &c tr ng ng n ti ng Vi t. Lu n án trình bày mô hình ViKE. ViKE là mô hình k t h p hai h ti p c n chính: (1) h danh t ng ngôn ng h c hay h ng ti p c n xác &c tr ng ng ngh(a, c th là s' d ng ph lo i trên Ontology c a Wikipedia; (2) h &c tr ng ng ngh(a hay h nh c m ng pháp so trùng th ng ti p c n rút trích c m danh t ng ti p c n h c máy, c th là s' d ng ph pháp Máy vect h tr (Support Vector Machines – SVMs). Lu n án các tính ch t &c tr ng cho ph ng pháp xác ng ngh(a dùng SVMs nh m n"m b"t 3 ng nh c m danh t ng xu t &c tr ng c v trí lô-gích và &c tính hình Mô hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t thái t,ng quát c a CDT$TNN: (a) v trí t trong câu; (b) nhãn t lo i; (c) c u trúc c m danh t ; (d) các t quan h gi a các c m danh t . $ ánh giá hi u su t h th ng c a các mô hình nghi m trên t p câu c ch n l c t xu t, lu n án th c các ngu n ng li u TREC07, TREC06, TREC02 (http://trec.nist.gov/data/) và www.lexxe.com (Qiao, 2010). T p câu ti ng Anh c H i Nghiên C u D ch Thu t Tp. H Chí Minh d ch sang t p câu ti ng Vi t t ng nh n di n c m danh t công. K t qu mô hình ViKE i u hòa l n l xác, y ng ng và c b n chuyên gia ngôn &c tr ng ng ngh(a b ng ph t chính xác, và trung bình t là 89,52% , 87,63% và 88,57%. Nh v y v i và và mô hình theo h chính trung bình i u hòa c a mô hình ViKE ã c i thi n hi u su t c a hai mô hình thành ph n (mô hình theo h m c tiêu y ng pháp th ng ti p c n xác ra c a lu n án. 4 ng ti p c n rút trích nh CDT$TNN) và áp ng c Mô hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t M CL C DANH M C CÁC B NG ...................................................................................9 DANH M C CÁC HÌNH ..................................................................................10 Ch ng 1. GI I THI U ..........................................................................................11 1.1 M c tiêu và ph m vi .................................................................................11 1.2 Nh ng óng góp chính c a lu n án...........................................................16 1.3 C u trúc c a lu n án .................................................................................17 Ch ng 2. C S LÝ THUY T NGÔN NG TI NG VI T ........................19 2.1 Gi i thi u .................................................................................................19 2.2 C s lý thuy t .........................................................................................20 2.3 K t ch Ch ng...............................................................................................29 ng 3. T NG QUAN CÁC MÔ HÌNH RÚT TRÍCH C M T C TR NG ..............................................................................................................31 3.1 Gi i thi u .................................................................................................31 3.2 Các nghiên c u liên quan..........................................................................32 3.3 S t 3.4 Ph ng quan gi a h nh CT$T ...............37 ng pháp ti p c n c a lu n án.............................................................38 3.5 K t ch Ch ng ti p c n rút trích và xác ng...............................................................................................52 ng 4. MÔ HÌNH XÁC NH C M T TRONG TI NG VI T (ViKEa) -PH C TR NG NG NGH A NG PHÁP SO TRÙNG M U D A TRÊN ONTOLOGY..........................................................................................54 4.1 Gi i thi u ................................................................................................54 4.2 Rút trích c m danh t d tuy n……………………...………………………...............55 4.3 Công o n xác nh c m danh t &c tr ng ng ngh(a d a trên ontology………………………………………………………………………………………………………..62 4.4 K t ch Ch ng ………………………………………………………………..………………………….73 ng 5. MÔ HÌNH RÚT TRÍCH C M T TRONG TI NG VI T (ViKEe) – PH C TR NG NG NGH A NG PHÁP H C MÁY...................75 5.1 Gi i thi u .................................................................................................75 5.2 Ph ng pháp Support Vector Machines....................................................77 5 Mô hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t 5.3 Phát bi u bài toán rút trích CDT$TNN trong ti ng Vi t .........................89 5.4 Mô hình ViKEe ........................................................................................90 5.5 K t qu th c nghi m...............................................................................100 5.6 K t ch Ch ng ............................................................................................101 ng 6. MÔ HÌNH RÚT TRÍCH C M T TRONG TI NG VI T (ViKE) - K T H P H TRÍCH VÀ H NG TI P C N XÁC C TR NG NG NGH A NG TI P C N RÚT NH ...................................................102 6.1 Gi i thi u ...............................................................................................102 6.2 Mô hình rút trích CDT$TNN trong ti ng Vi t........................................103 6.3 H th ng rút trích CDT$TNN trong ti ng Vi t ......................................105 6.4 $ánh giá hi u su t rút trích CDT$TNN .................................................107 6.5 K t ch Ch ng.............................................................................................112 ng 7. T NG K T ...................................................................................114 7.1 Gi i thi u ..............................................................................................114 7.2 Tóm t"t các k t qu 7.3 H t c ..................................................................115 ng phát tri n.....................................................................................116 7.4 K t lu n..................................................................................................117 CÁC BÀI BÁO C A TÁC GI LIÊN QUAN CÁC CÔNG TRÌNH NCKH LIÊN QUAN N LU N ÁN ............. ……119 N LU N ÁN………......................121 TÀI LI U THAM KH O ...............................................................................122 PH L C……………………………………………………………………………….……………….i 6 Mô hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t DANH M C CÁC T STT T vi t t t 1 BaseNP 2 CT$TNN 3 CDT$TNN VI T T T Di n gi i ti ng Anh Di n gi i ti ng Vi t Base-Noun Phrase C m danh t c s Key phrase C mt Key noun phrase C m danh t &c tr ng ng ngh(a &c tr ng ng ngh(a ViKEa Mô hình rút trích c m danh t Vietnamese Key phrase &c tr ng ng ngh(a trong ti ng Extraction for Assigment Vi t theo h ng ti p c n xác approach nh CT$TNN ViKEe Mô hình rút trích c m danh t Vietnamese Key phrase &c tr ng ng ngh(a trong ti ng Extraction for Extraction Vi t theo h ng ti p c n rút approach trích CT$TNN 6 ViKE Vietnamese Key phrase Extraction Mô hình rút trích c m danh t &c tr ng ng ngh(a trong ti ng Vi t 7 ViO Vietnamese Ontology Ontology ti ng Vi t 8 ViWiki Vietnamese Wikipedia Bách khoa toàn th tr c tuy n ti ng Vi t 9 POS Part-Of-Speech Nhãn t lo i 4 5 10 POS Tagging Part-Of- Speech Tagging Gán nhãn t lo i 11 NP Chunking Noun Phrase Chunking 12 IR 13 G m c m danh t Information retrieval Truy h i thông tin ViDic Vietnamese Dictionary T 14 SVMs Support Vector Machines Máy vect h% tr 15 SMO Sequential Minimal Optimisation T i u hóa c c ti u tu n t 16 Vietnamese Word vnWordSegmentation Segmentation 17 vnPOSTagger Vietnamese Part-OfSpeech Tagger 7 i n ti ng Vi t Phân o n t ti ng Vi t Công c gán nhãn t Vi t lo i ti ng Mô hình rút trích c m t 18 NLP c tr ng ng ngh a trong ti ng Vi t Natural Language Processing X' lý ngôn ng t nhiên Text REtrieval Conference H i ngh v truy h i thông tin v)n b n c t, ch c l n u tiên vào n)m 1992 b i vi n NIST và B Qu c Phòng M- 19 TREC 20 1vs1 One vs One K- thu t so sánh M t-M t 21 1vsR One vs Rest K- thu t so sánh M t-Ph n d còn l i 22 LM Linear Model Mô hình tuy n tính 23 CSDL Database C s d li u 24 JAPE Java Annotation Patterns B x' lý v)n ph m JAPE Engine 25 GATE General Architecture for Ki n trúc x' lý v)n b n Text Engineering 26 IOB IOB Nhãn IOB 27 CS Co-worker C ng s 8 Mô hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t DANH M C CÁC B NG B ng 3.1: K t qu gán nhãn t lo i.......................................................................51 B ng 4.1: B nhãn t lo i c a t ...........................................................................57 B ng 4.2: Các phiên b n Wiktionary(29/1/2008).................................................63 B ng 4.3: S trang thông tin (# danh hi u), th lo i và trang ,i h ng c a phiên b n Vi.Wikipedia(4/2/2009).................................................................63 B ng 4.4: K t qu rút trích CDT$TNN c a mô hình ViKEa...............................73 B ng 5.1: Kho ng li u..........................................................................................95 B ng 5.2: $ chính xác c a k t qu phân lo i nhãn gom c m IOB.....................100 B ng 5.3: K t qu rút trích CDT$TNN c a mô hình ViKEe..............................101 B ng 6.1: K t qu rút trích c m danh t &c tr ng ng ngh(a trong mô hình ViKE....................................................................................................108 B ng 6.2: So sánh hi u su t rút trích CDT$TNN gi a các mô hình...................109 B ng 6.3: Th i gian áp ng khi th c nghi m trên t p C1 v i 10 câu ng u nhiên....................................................................................................110 9 Mô hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t DANH M C CÁC HÌNH Hình 3.1 Mô hình t,ng quát rút trích c m t &c tr ng ng ngh(a.......................39 Hình 3.2 Mô hình cho bài toán phân o n t . ......................................................42 Hình 3.3 Minh h a tìm ki m t trong t i n........................................................43 Hình 3.4 Mô hình gán nhãn k t h p......................................................................49 Hình 4.1 Mô hình rút trích c m danh t &c tr ng ng ngh(a theo h ng xác nh.........................................................................................................55 Hình 4.2 S th hi n m i quan h gi a c m danh t A và c m danh t B…..67 Hình 4.3 Mô hình rút trích CDT$TNN d a vào so trùng m u và Ontology – ViKEa………………………………………….……………….68 Hình 5.1 Nguyên lý c c ti u r i ro c u trúc. ........................................................78 Hình 5.2 Các m&t ph.ng phân tách. ......................................................................79 Hình 5.3 M&t ph.ng phân tách (w,b) cho t p hu n luy n hai chi u......................80 Hình 5.4 Ví d v m t tr ng h p không phân bi t c. ...................................83 Hình 5.5 Quá trình ánh x t không gian nh p vào không gian &c tr ng............86 Hình 5.6 Mô hình rút trích c m danh t &c tr ng ng ngh(a - ViKEe................91 Hình 6.1 Mô hình t,ng quát rút trích c m danh t &c tr ng ng ngh(a ViKE...103 Hình 6.2 Mô hình ki n trúc ba l p cu h th ng rút trích CDT$TNN trong ti ng Vi t –ViKE……………..............................................................106 Hình 6.3 $ th so sánh hi u su t rút trích CDT$TNN gi a các phiên b n…...108 Hình 6.4 $ th so sánh hi u su t rút trích CDT$TNN gi a các mô hình…….109 Hình 6.5 $ th bi u th th i gian áp ng khi th c nghi m trên t p C1 v i 10 câu ng u nhiên……………………………………………...……..110 10 Mô hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t Ch ng 1 GI I THI U 1.1 M c tiêu và ph m vi Internet là m t n i l u tr ngu n thông tin c a nhân lo i. Ngu n thông tin này c chia s , phát tri n và m r ng không ng ng cùng v i s phát tri n nhanh chóng c a World Wide Wed (Web). V n t ra là làm th nào s d ng ngu n tài nguyên thông tin này m t cách hi u qu nh t. 11 khai thác và Mô hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t Thông tin trên Web h u h t u th hi n d i d ng ngôn ng t nhiên, thông qua các trang Web, các h th ng truy h i thông tin (Information Retrieval) c phát tri n và thành công nh t hi n nay là Google1, Yahoo2, v.v... Tuy nhiên, các mô u s d ng t khóa x lý và truy h i tài li u. Hi u su t truy h i c a chúng có nh ng gi i h n nh t nh vì ng ngh a c a tài li u b m t i nhi u khi hình này v nb n c bi u di n d c p thông tin t phía ng i d ng m t t p các t khóa. T i s d ng c ng c bi u di n b i các t khóa. S bi u di n này rõ ràng không có kh n ng th hi n mong mu n c a ng hi n nay, ng ng t , yêu c u cung c tr!n v"n nhu c u thông tin nh i s d ng. Do ó, khi truy h i thông tin trên các h th ng i s d ng u nh n c thêm các tài li u không liên quan t i thông tin c n tìm. # c i ti n các mô hình truy h i thông tin theo t khóa, nhi u công trình nghiên c$u i khai thác ti m n ng c a c m t truy h i thông tin (Hulth, 2004), tóm l c tr ng trong các h th ng nh c v n b n (Text Summarization) (Paice và Black, 2003), và rút trích thông tin (Information Extraction) (Medelyan và Witten, 2006; Thuy Dung Nguyen, 2007), ...Trong các h th ng này, khái ni m c m t tr ng c nh ngh a nh sau: nh ngh a 1.1: Trong các th vi n và khoa h!c thông tin c m t (c m t khóa – key phrase) c c tr ng nh ngh a là “c m t mô t ng n g n và chính hay khía c nh c a ch xác ch c mà nó c th o lu n trong v n b n” (Feather và P., 1996, 240). Theo quan i m c a Cao Xuân H o (1998): “câu c a ngôn t , c a v n b n. Nó là n c b n c a l i nói, n v nh nh t có th s d ng vào vi c giao t . Nói cách khác, câu là ngôn b n (v n b n) ng n nh t”. Nh v y, v i quan i m câu là v n b n ng%n nh t và c mt c tr ng di n c$u là câu n, lu n án t ch ng 2, trang 22). C mt c tr ng ng ngh a – ch 1 ng h p c a v n b n ng%n nh t (câu) và ph m vi nghiên nh ngh a c m t ngh a 2.1 (Ch nh n m nh tr c tr ng ng ngh a nh trong nh c vi t t%t là CT#TNN – có kh n ng mô t trong câu (hay v n b n). Nói cách khác, CT#TNN mang thông tin v n i www.google.com/ 12 Mô hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t dung nòng c t c a m t câu. CT#TNN r t h u d ng trong nhi u $ng d ng. Trong l nh v c truy h i thông tin, các CT#TNN không ch& h' tr trong vi c xác dung c a m t v n b n có thích h p v i yêu c u thông tin c a ng nh n i i s d ng hay không, mà còn bi u th n i dung nòng c t c a câu truy v n thông tin trong ng c tìm ki m (search engine) trên Web th h th$ ba và h th ng h i- áp (questionanswering) (Qiao, 2010). Do các CT#TNN ph n ánh b n, nên chúng c n i dung nòng c t (ch c s d ng phân lo i v n b n (text classification) (Jones và c v n b n (text summarization) (Barker và Cornacchia, Mahoui, 2000), tóm l 2000). M c dù các CT#TNN c dùng r ng rãi trong các h th ng $ng d ng khác nhau, nh ng th t s vi c rút trích các CT#TNN t t ng v n b n b(ng ph Nhu c u này là ) c a câu trong v n ng $ng cho t ng câu hay ng pháp th công t n r t nhi u th i gian và công s$c. ng l c thúc )y các nghiên c$u rút trích t CT#TNN. Có th phân các nghiên c$u v CT#TNN thành ba h 1. H ng ti p c n s d ng t c xây d ng b(ng ph ng pháp th công dùng ng pháp so trùng các CT#TNN trong t Thu n l i chính c a h nhi u h th ng v*n ang s d ng ph Xing, 1998; ...). Tuy nhiên, ph c th c hi n b(ng các i n v i các c m t trong tài li u. n gi n. Hi n nay ng pháp này (Bian và Chen, 1998; Li và ng pháp này còn b h n ch khi tài li u có nh ng i n. #ây là m t v n quy t. Các nghiên c$u theo h i n rút trích các CT#TNN trong ng ti p c n là nhanh và th c hi n t m i không có trong t ng chính: i n (Dictionary approach): s d ng m t t câu (hay v n b n). Quá trình rút trích các CT#TNN ph ng các c n ng ti p c n s d ng t c i thi n quá trình so trùng nh : so trùng c!c c nghiên c$u và gi i i n ã có nhi u chi n l c i (maximum-matching), so trùng c!c ti u (minimum-matching), so trùng t i (forward-matching), so trùng lùi (backward-matching), so trùng theo c hai h các ph ng pháp gi i quy t v n nhiên, hi u su t c a h ng (bi-directional- matching) và b(ng ánh giá kinh nghi m (heuristics). Tuy ng ti p c n này l i phù thu c vào l nc at i n. Nó th t s không hi u qu khi gi i quy t bài toán nh n di n danh t riêng nh tên, v trí, hay các thu t ng m i trong nh ng ph m vi chuyên bi t. 2 www. yahoo.com/ 13 Mô hình rút trích c m t 2. H c tr ng ng ngh a trong ti ng Vi t ng ti p c n ngôn ng h c (Linguistic approach), h ng này dùng c s tri th$c ng ngh a t v ng (nh WordNet3, Wikipedia4,…), dùng ph giá theo kinh nghi m, hay ph ng pháp lu t ng pháp ánh rút trích các c m t (Wu và Tseng, 1995). Các nghiên c$u v x lý ngôn ng ti ng Anh ã ch$ng t+ h này có th t chính xác cao. Tuy nhiên thu c vào vi c thi t k t ng h th ng c chính xác c a ph th ng ti p c n ng pháp còn ph (Brill, 1995; Church, 1988; Voutilainen, 1997). M c dù nhi u k t qu nghiên c$u ã ch$ng t+ h ng ti p c n này có nhi u ti m n ng, tuy nhiên v*n ch a có m t công trình nghiên c$u nào theo ng ti p c n này cho ngôn ng ti ng Vi t, và hi n th c theo h h ng ti p c n này còn g p nhi u khó kh n. Khó kh n chính là vi c xây d ng m t c s tri th$c ng ngh a t v ng ti ng Vi t cho nh ng mi n (domain) chuyên bi t, có ph m vi l n. Vi c này òi h+i r t nhi u th i gian và công s$c. V i m c tiêu gi i quy t cho bài toán rút trích CT#TNN cho câu n c a ti ng Vi t, lu n án t p trung xây d ng mô hình ViKEa (Vietnamese Key phrase Extraction for assignment approach) theo h ng ti p c n ngôn ng h!c d a trên Ontology và khai thác các tri th$c ngôn ng ti ng Vi t nâng cao hi u qu c a mô hình. Vi c lu n án nghiên c$u và khai thác Vi.Wikipedia (Vietnamese Wikipedia) nh kho tri th$c ti ng Vi t ã gi i quy t khó kh n v tài nguyên tri th$c t v ng ti ng Vi t khi xây d ng mô hình theo h 3. H ng ti p c n b"ng ph là quá trình h!c các giá tr ng pháp th#ng kê (Statistical approach), th c ch t ã các c m t (Su và CS, 1996). H c mt ng ti p c n này. c th ng kê t m t kho ng li u l n rút trích ng ti p c n này t+ ra hi u qu cho vi c rút trích c tr ng ng ngh a (Yang và CS, 1998; Chien, 1997; Chien, 1998; Chen và CS, 1997), và nó liên quan m t thi t v i h ng ti p c n n-gram v i n có giá tr 2,3, hay 4. Tuy nhiên, khi Chien (1997) dùng PAT-Tree (PATricia Tree) trích các CT#TNN trong v n b n c a ti ng Trung Qu c, tác gi rút ã không gi i h n giá tr c a n. M c dù có gia t ng v m t tính toán, k, thu t này không nh ng không òi h+i nhi u công s$c l y 3 4 t ot i n hay c s tri th$c mà còn có kh n ng c các thu t ng có tr!ng s cao trong kho ng li u. Tuy nhiên, m t h n ch www.wordnet.com/ www.wikipedia.org/ 14 Mô hình rút trích c m t c ah c tr ng ng ngh a trong ti ng Vi t ng ti p c n là có m t s tr ng h p không th rút trích các c m t h p lý mà có t n su t th p. M c dù h nh ng có ng ti p c n b(ng th ng kê có (Recall) cao so v i h $y chính xác (Precision) không t t, ng ti p c n ngôn ng h!c. Vì v y, v i m c tiêu là c i thi n t i a hi u qu c a h th ng ViKEa theo h ng ti p c n ngôn ng h!c khi vi c khai thác ngôn ng v*n còn gi i h n, lu n án s- xây d ng mô hình rút trích các CT#TNN b(ng ph CT#TNN c gán nhãn t lo i ban ng pháp máy h!c có giám sát. Các u làm t p hu n luy n rút trích. #ây là c s cho mô hình xác nh úng các CT#TNN trong các c m t d tuy n. Mô hình rút trích dùng m t t p các tính ch t c mt .V n t , nh(m xác t ra là ph i xác xây d ng mô hình nh c tr ng c các tính ch t phân lo i các c tr ng c a các c m nh m t cách chính xác các CT#TNN trong các c m t d tuy n. Nh v y, m c tiêu c a lu n án là xây d ng m t mô hình lai cho bài toán rút trích CT#TNN trong câu hình theo h n ti ng Vi t. Mô hình này là s ph i h p c a hai mô ng ti p c n ngôn ng h!c và ph chính là s ph i h p c a hai mô hình theo h CT#TNN ( c trình bày trong Ch lu n án s d ng ph ng ti p c n rút trích và xác ng 3). Trong h nh c m t lu n án ct ol pt xu t b n tính ch t c c tr ng ng ngh a dùng ph ng pháp máy h c vect h% tr (Support Vector Machines-SVMs) nh(m n%m b%t c v trí lô-gích và ng pháp xác nh ng ti p c n ngôn ng h!c, ng pháp so trùng m*u d a trên Ontology Wikipedia ti ng Vi t. Mô hình này là c s tr ng cho ph ng pháp xác su t th ng kê. #ó c tính hình thái c a CT#TNN, là: (1) v trí t trong câu, (2) nhãn t lo i, (3) c u trúc c m t , (4) các t quan h gi a các c m t . T ây, các bài toán chính c n c gi i quy t trong ph m vi lu n án bao g m: Bài toán 1 - Xây d ng mô hình ViKEa. Lu n án nghiên c$u và khai thác ngu n tài nguyên c a Vi.wikipedia xây d ng m t Ontology ti ng Vi t ViO (Vietnamese Ontology) nh(m ph c v yêu c u c a bài toán. Lu n án xu t mô hình xác nh CT#TNN, c g!i là ViKEa, d a trên các tri th$c ngôn ng t nhiên (nh h th ng lu t và ViO) và các bài toán ti n x lý (nh phân o n t và gán nhãn t lo i). 15 Mô hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t Bài toán 2 - Xây d ng mô hình rút trích c m t c tr ng ng ngh a, c g!i là ViKEe (Vietnamese Key phrase Extraction for extraction approach). Lu n án nghiên c$u và phân tích các mô hình h!c máy. T rút trích CT#TNN dùng ph ó xu t mô hình ng pháp SVMs, nh(m c i thi n t i a hi u qu c a mô hình ViKEa khi ngu n tài nguyên ti ng Vi t s.n có còn h n ch . Bài toán 3 - Xây d ng mô hình ViKE (Vietnamese Key phrase Extraction). ViKE là s k t h p hai mô hình ViKEa và ViKEe cho bài toán rút trích c m t c tr ng ng ngh a trong câu n c a ti ng Vi t, v i m c tiêu khai thác t i a chính xác c a vi c rút trích CT#TNN c a t ng mô hình trong bài toán 1 và 2. 1.2 Nh ng óng góp chính c a lu n án Sau ây là nh ng óng góp chính c a lu n án i v i l nh v c x lý ngôn ng t nhiên mà c th là x lý v n b n ti ng Vi t: - &óng góp th' nh t: Xây d ng c ch rút trích c m t c tr ng ng ngh a trong câu ti ng Vi t. - &óng góp th' hai: # xu t mô hình ViKEa, là mô hình xác tr ng ng ngh a câu n c a ti ng Vi t, dùng ph nh c m t c ng pháp so trùng m*u d a trên vi c khai thác Vi.Wikipedia nh m t Ontology ti ng Vi t. - &óng góp th' ba: # xu t mô hình ViKEe, là mô hình rút trích c m t tr ng ng ngh a trong câu b n tính ch t n c a ti ng Vi t, dùng ph c ng pháp SVMs v i c tr ng: (1) v trí t trong câu; (2) nhãn t lo i; (3) c u trúc c m t ; (4) các t quan h gi a các c m t . - &óng góp th' t : # xu t mô hình ViKE, là s k t h p hai mô hình ViKEa và ViKEe cho bài toán rút trích c m t c tr ng ng ngh a trong câu nc a ti ng Vi t. - &óng góp th' n m: Xây d ng m t ki n trúc công ngh hoàn ch&nh cho $ng d ng rút trích CT#TNN trong câu - &óng góp th' sáu: # xu t ph Ontology ti ng Vi t không ch& tr ng ng ngh a trong câu n c a ti ng Vi t. ng pháp khai thác Vi.Wikipedia nh ph c v cho vi c xác nh c m danh t n c a ti ng Vi t mà còn góp ph n gi i v n 16 m t c thi u Mô hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t tài nguyên có s.n c a ng li u ti ng Vi t, h' tr cho v n x lý ngôn ng t nhiên trong ti ng Vi t. 1.3 C u trúc c a lu n án Lu n án c chia thành b y ch ng và m t ph l c. Ch ph m vi, m c tiêu và c u trúc c a lu n án. Trong m'i ch n ch 2 ng 7, Ch t ng ti p theo, t ch u có ph n gi i thi u và m t ph n k t ch án trình bày ph n t/ng k t trong ch ng 1 trình bày ng ng. Cu i cùng, lu n ng 7. ng 2 gi i thi u c s lý thuy t ngôn ng ti ng Vi t, t lo i, c m t , c m c tr ng ng ngh a cho câu ti ng Vi t. Ch ng 3 trình bày t/ng quan các nghiên c$u liên quan và các cách ti p c n, u i m và khuy t c a t ng mô hình xác chúng tôi nh và rút trích CT#T. T phân tích này xu t m t mô hình ViKE cho bài toán rút trích c m t ngh a trong câu c tr ng ng n c a ti ng Vi t. # ng th i, lu n án c ng trình bày h ng gi i quy t cho ph n ti n x lý, g m bài toán phân o n t và gán nhãn t lo i c gi i thi u trong (Chau Q. Nguyen, Tuoi T. Phan, 2006) và (Chau Q. Nguyen, Tuoi T. Phan, Tru H. Cao, 2006); c ng nh các ph hình rút trích Ch ng pháp ánh giá hi u su t c a mô c lu n án áp d ng cho mô hình ViKE. ng 4 trình bày mô hình ViKEa xác nh CT#TNN b(ng ph ng pháp so trùng m*u trên Ontology ti ng Vi t ViO. # ng th i, lu n án c ng trình bày ph ng pháp khai thác ngu n tài nguyên Vi.Wikipedia nh m t Ontology ti ng Vi t xây d ng Ontology ViO. Các khái ni m các óng góp ã c lu n án ngh , c ng nh c gi i thi u trong (Chau Q. Nguyen, Thanh C. Nguyen, Tuoi T. Phan, 2006), (Chau Q. Nguyen, Tuoi T. Phan, 2007) và (Chau Q. Nguyen, Tuoi T. Phan, 2009). Ch ph ng 5 trình bày ViKEe theo h ng pháp SVMs v i b n tính ch t ng ti p c n rút trích CT#TNN dùng c tr ng c xu t: v trí t trong câu, nhãn t lo i, c u trúc c m t , và các t quan h gi a các c m t ã c gi i thi u trong (Chau Q. Nguyen, Luan T. Hong, Tuoi T. Phan, 2008) và (Chau Q. Nguyen, Luan T. Hong, Tuoi T. Phan, 2009). Ch ng 6 trình bày mô hình ViKE, là s k t h p hai mô hình ViKEa và 17 Mô hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t ViKEe cho bài toán rút trích c m t c tr ng ng ngh a trong câu n c a ti ng Vi t. # ng th i, lu n án c ng trình bày mô hình ki n trúc h th ng c a ViKE v i các ánh giá hi u su t c a h th ng thông qua th c nghi m. Các óng góp ã c gi i thi u trong (Chau Q. Nguyen, Tuoi T. Phan, 2009). Ch ng 7 trình bày tóm t%t các k t qu toán rút trích c m t ngh các h t c c a lu n án khi gi i quy t bài c tr ng ng ngh a trong câu ng nghiên c$u trong t ng lai liên quan 18 n c a ti ng Vi t, n lu n án. ng th i
- Xem thêm -

Tài liệu liên quan

Tài liệu xem nhiều nhất