Đăng ký Đăng nhập
Trang chủ Cách tiếp cận dựa trên ngữ liệu cho kiểm lỗi chính tả tiếng việt...

Tài liệu Cách tiếp cận dựa trên ngữ liệu cho kiểm lỗi chính tả tiếng việt

.PDF
116
109
86

Mô tả:

TR NG I H C KHOA H C T NHIÊN KHOA CÔNG NGH THÔNG TIN MÔN CÔNG NGH TRI TH C Châu H i Duy - 0112005 CÁCH TI P C N D A TRÊN NG LI U CHO KI M L I CHÍNH T TI NG VI T KHÓA LU N C NHÂN TIN H C GIÁO VIÊN H TS. inh NG D N n NIÊN KHÓA 2001 – 2005 ic m n Ñ&Ò u tiên em xin t lòng bi t n sâu s c tình giúp , tr c ti p h ng d n và truy n có th th c hi n và hoàn thành n th y inh n, ng i ãt n t nhi u kinh nghi m quý báu em tài này. Em xin chân thành c m n các th y cô thu c khoa Công ngh Thông tin, tr ng i h c Khoa h c T nhiên. Các th y cô ã t n tình d y d , truy n em nhi u ki n th c quý báu trong su t nh ng n m ih c t cho em có c ngày n ông bà, cha m , nh ng ng i ã sinh n các b n trong nhóm VCL, c bi t là hôm nay. Con xin g i l i c m n sâu s c thành và nuôi d ng con thành ng i. Sau cùng tôi xin g i l i c m n n V Th y – ng trình có th ho t i ã t ng h p và cung c p ng li u hu n luy n ch ng ng. TP. H Chí Minh, tháng 7 n m 2005 Châu H i Duy – 0112005 Nh n xét c a Giáo viên ph n bi n ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... Ch ký c a GVPB cl c u ..................................................................................................... 1 Ch ng 1. 1.1. ng quan ........................................................................... 3 Ki m l i chính t c a ti ng n 1.1.1. Ki m l i chính t cho các ngôn ng châu Âu................................... 4 1.1.1.1. Ph ng pháp T ng c nh........................................................ 4 1.1.1.2. Ph ng pháp 1.1.1.3. Ph ng pháp Danh sách quy t 1.1.2. c tr ng lân c n................................................ 4 nh.......................................... 5 Ki m l i chính t cho các ngôn ng châu Á..................................... 6 1.1.2.1. Mô hình CInsunSpell cho ti ng Hoa......................................... 6 1.1.2.2. Ph 1.1.3. 1.2. c ngoài........................................... 4 ng pháp c a Nagata cho ti ng Nh t .................................. 7 ánh giá chung v các mô hình trên ................................................ 9 Ki m l i chính t ti ng Vi t...........................................................10 1.2.1. Ch 1.2.2. Ki m l i chính t d a vào phân tích cú pháp ................................. 11 1.2.3. Ki m l i chính t b ng mô hình l 1.2.4. Word 2003 phiên b n ti ng Vi t .................................................... 13 Ch ng 2. ng trình VietSpell.................................................................. 10 i t ......................................... 12 s lý thuy t ...................................................................14 2.1. Chu n chính t ...............................................................................15 2.2. t s ki n th c c b n v chính t ti ng Vi t ..............................15 2.2.1. Các y u t c a ti ng và ch vi t: ................................................... 15 2.2.1.1. Âm ......................................................................................... 16 2.2.1.2. Ch cái................................................................................... 17 2.2.1.3. Thanh và d u.......................................................................... 17 2.2.1.4. Ti ng hay âm ti t.................................................................... 17 2.2.1.5. Hình v ................................................................................... 17 2.2.1.6. .......................................................................................... 18 2.2.2. Quy cách ghi d u thanh trên ch vi t............................................. 19 2.2.3. t qu u tra l i chính t ........................................................... 19 2.2.3.1. thanh 2.2.3.2. âm 2.2.3.3. âm chính ........................................................................... 20 2.2.3.4. âm cu i ............................................................................. 20 2.2.4. u ......................................................................... 19 u .............................................................................. 20 Nguyên nhân ................................................................................. 20 2.2.4.1. thanh 2.2.4.2. âm 2.2.4.3. âm chính ........................................................................... 21 2.2.4.4. âm cu i ............................................................................. 21 2.3. c u ......................................................................... 20 u .............................................................................. 21 m chung c a m t h ki m l i chính t ...............................22 2.3.1. Các ch c n ng chính ..................................................................... 22 2.3.2. Các lo i l i chính t ....................................................................... 22 2.3.3. Nguyên nhân gây ra l i chính t .................................................... 23 2.3.4. Các sai l m c a trình ki m l i........................................................ 24 2.4. s tin h c .................................................................................25 2.4.1. Lu t Bayes .................................................................................... 25 2.4.2. Mô hình N-Gram t ng quát ........................................................... 26 2.4.2.1. ng b ng N-Gram........................................................ 26 2.4.2.2. Hu n luy n N-Gram ............................................................... 28 2.4.2.3. Làm m n................................................................................. 29 2.4.3. Ch cl Tách t .......................................................................................... 30 2.4.3.1. Kh p t i a ............................................................................ 31 2.4.3.2. WFST..................................................................................... 32 ng 3. Mô hình ..............................................................................33 3.1. Mô hình t ng quát .........................................................................34 3.2. Ti n x lý ......................................................................................37 3.2.1. Tách c m ti ng .............................................................................. 37 3.2.2. Tách ti ng...................................................................................... 37 3.2.3. c “nhi u” ................................................................................... 38 3.3. 3.2.3.1. Nh n di n ti ng Anh .............................................................. 38 3.2.3.2. Nh n di n t vi t t t ............................................................... 38 3.2.3.3. Nh n di n phiên âm................................................................ 38 Ki m l i non-word ........................................................................39 3.3.1. Phát hi n l i .................................................................................. 39 3.3.2. a l i ........................................................................................... 39 3.4. 3.3.2.1. a l i phát âm ...................................................................... 39 3.3.2.2. a l i nh p li u..................................................................... 40 3.3.2.3. Các l i khác ........................................................................... 43 Ki m l i real-word ........................................................................43 3.4.1. Phát hi n l i b ng bigram .............................................................. 44 3.4.1.1. Ýt ng chính ........................................................................ 44 3.4.1.2. t h p v i trigram ................................................................ 45 3.4.1.3. Làm m n................................................................................. 47 3.4.1.4. Heuristic h n ch l i tích c c ................................................. 47 3.4.2. Phát hi n l i b ng FMM và n-gram ............................................... 48 3.5. p danh sách ng viên s a l i......................................................50 3.6. c trong quá trình ki m l i..........................................................51 Ch ng 4. 4.1. Cài Cài 4.1.1. t th c nghi m ..........................................................52 t ...........................................................................................53 Chu n hoá ti ng............................................................................. 53 4.1.1.1. Mã hoá các ch cái................................................................. 53 4.1.1.2. Mã hoá ti ng .......................................................................... 53 4.1.1.3. u trúc l p Tieng.................................................................. 55 4.1.2. Mã hoá t và n-gram ..................................................................... 57 4.1.2.1. Mã hoá t ............................................................................... 57 4.1.2.2. Mã hoá n-gram ....................................................................... 58 4.1.2.3. u trúc l p Tu ...................................................................... 59 4.1.3. 4.1.4. u trúc d li u cho các t n và các b n-gram......................... 59 Phát sinh ng viên ......................................................................... 60 4.1.4.1. Phát sinh các ti ng g n gi ng ................................................. 60 4.1.4.2. Phát sinh các t g n gi ng ...................................................... 61 4.1.5. Ki m l i chính t ........................................................................... 64 4.1.5.1. Dò tìm l i ............................................................................... 64 4.1.5.2. p x p các ng viên s a l i .................................................. 66 4.1.5.3. c trong quá trình ki m l i................................................... 66 4.1.6. Hu n luy n .................................................................................... 66 4.1.7. Tích h p vào Word........................................................................ 69 4.1.8. Các x lý khác............................................................................... 70 4.1.8.1. ng mã ti ng Vi t................................................................. 70 4.1.8.2. Linh tinh................................................................................. 70 4.1.9. 4.2. Vài hình nh v Ch ng trình........................................................ 71 Th nghi m và ánh giá ...............................................................73 4.2.1. Các tham s th nghi m ................................................................ 73 4.2.2. t qu .......................................................................................... 74 4.2.3. Nh n xét........................................................................................ 79 4.2.4. So sánh v i VietSpell .................................................................... 80 4.2.4.1. Kh n ng phát hi n l i............................................................ 80 4.2.4.2. Kh n ng ngh s a l i ........................................................ 80 4.3. ánh giá và K t lu n .....................................................................88 4.4. ng phát tri n............................................................................89 Tài li u tham kh o ...................................................................................90 Ph l c ....................................................................................................92 Danh sách hình Hình 1: Dò tìm l i b ng ma tr n ti ng nh m l n.................................................... 8 Hình 2: Mô hình t ng quát .................................................................................. 36 Hình 3: Bigram c m r ng v phía sau .......................................................... 47 Hình 4: Mã ti ng................................................................................................. 54 Hình 5: Mã t ..................................................................................................... 57 Hình 6: Mã n-gram ............................................................................................. 58 Hình 7: S ki m l i b ng FMM và n-gram..................................................... 65 Hình 8: Quá trình ki m l i .................................................................................. 71 Hình 9: Quá trình ki m l i hoàn t t ..................................................................... 72 Hình 10: K t qu th nghi m v i P_bi' = 5.33 .................................................... 75 Hình 11: K t qu th nghi m v i P_bi' = 4.95 .................................................... 76 Hình 12: K t qu th nghi m v i P_bi' = 4.73 .................................................... 77 Hình 13: K t qu th nghi m v i P_bi' = 4.59 .................................................... 78 Danh sách b ng ng 1: Các thành ph n d nh m l n khi phát âm ............................................... 39 ng 2: Phím g c và các phím lân c n................................................................ 42 ng 3: K t qu th nghi m................................................................................ 74 Danh sách thu t toán Thu t toán 1: Phát sinh ti ng ng viên d a vào l i phát âm................................. 40 Thu t toán 2: Phát hi n l i b ng bigram.............................................................. 45 Thu t toán 3: K t h p bigram và trigram phát hi n l i ................................... 46 Thu t toán 4: Phát hi n l i b ng FMM và n-gram ............................................... 49 Thu t toán 5: Phát sinh t ng viên..................................................................... 62 Thu t toán 6: Binary Search c i ti n.................................................................... 63 Thu t toán 7: Quá trình hu n luy n ..................................................................... 67 Thu t toán 8: Các b c t o n-gram trong giai n hu n luy n........................... 68 Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t u tv n Là m t ch vi t ghi âm, ch vi t ti ng Vi t c ng có r t nhi u quy cách k t h p t ng ký t c a b ng ch cái v i nhau nh v t o thành nh ng t có ngh a, i là chính t . Vi c dùng úng chính t r t quan tr ng, nh t là trong các v n b n hành chính. M t v n b n sai chính t có th gây khó ch u cho ng ng i c không tin t ng vào trình c a chính ng Tr c, làm i ã t o ra v n b n ó. Nh ng quan tr ng h n h t, vi c sai chính t có th làm ng i dung c n truy n i i ti p nh n hi u sai t. c ây, vi c ki m l i chính t ph i hoàn toàn d a vào s c ng nhiên, xã h i càng phát tri n, l ng thông tin c n truy n i. Tuy t ngày càng nhi u, vi c ki m l i chính t “th công” r t m t th i gian và công s c. n ây, cùng v i s phát tri n nhanh chóng c a công ngh thông tin, ng l c i hành chánh t ra: làm sao n t ngày càng c m r ng và m t nhu c u m i ang máy tính có th thay th (m t ph n hay toàn b ) cho con ng i trong vi c ki m l i chính t , hay nói cách khác là làm sao ch ng trình b t l i chính t t xây d ng m t ng. Ngoài ra, hi n nay trong nhi u v n b n khoa h c c a ti ng Vi t th dùng thêm ti ng Anh ng có chú thích cho các thu t ng ho c cho các t không th ch sát ngh a. Do ó, m t ch ng trình ki m l i chính t t ng cho các v n b n có c ti ng Vi t và ti ng Anh là r t c n thi t. Thêm vào ó, vi c ki m l i chính t còn có th c dùng trong giai n ti n x lý c a r t nhi u bài toán khác v x lý ngôn ng t nhiên, ví d nh : phân lo i v n b n, tóm t t v n b n, d ch t ng, nh n d ng ch vi t, nh n d ng gi ng nói, … Tuy nhiên, trong khi bài toán ki m l i chính t cho các ngôn ng châu Âu ã c gi i quy t m t cách khá tr n v n, vi c ki m l i chính t cho ti ng Vi t l i -1- Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t p nhi u khó kh n. Vì v y, cho n nay, m c dù ã có vài công trình v này nh ng h u nh ch a có công trình nào c tiêu c a Nh c áp d ng vào th c t . tài ã nói trên, m t ch ng trình ki m l i chính t t trong hoàn c nh hi n nay. Tuy ã có m t s công trình v ch a áp d ng tài c vào th c t . T nh ng ng là r t c n thi t tài này nh ng h u h t u ki n trên, tôi ã ch n ki m l i chính t làm lu n v n t t nghi p c a mình. c tiêu sau cùng c a hoàn ch nh, có th tài này là m t ch ng trình ki m l i chính t c s d ng ngay trong th c t . ngoài hi u qu th c t , các mô hình ngôn ng t c áp d ng c yêu c u này, ây không nên quá u k , ph c t p ho c òi h i nhi u không gian nh . Tù nh ng yêu c u trên, tôi ch n n-gram ti ng làm h Mô hình n-gram có m t s u m, ó là không quá ph c t p trong x lý, và n u c t ch c c u trúc d li u t t, l Trong mô hình c a ng ti p c n chính. ng b nh chi m d ng là ch p nh n tài này, n-gram c dùng làm ph ng ti n c. tính toán các xác su t, các m i liên k t gi a nh ng ti ng trong v n b n, dò tìm ra nh ng vùng b i, và sau cùng a ra các ngh s a ch a cho ng i dùng l a ch n. c c lu n v n Lu n v n này g m 4 ch • Ch ng v i n i dung chính nh sau: ng 1: Trình bày tình hình phát tri n c a ki m l i chính t trên th gi i, ánh giá m t s ph • Ch ng 2: Các v n ng pháp ã lý thuy t c công b . c dùng n trong lu n v n, g m lý thuy t ngôn ng h c và tin h c. • Ch ng 3: Mô hình và ph • Ch ng 4: Tóm t t quá trình cài giá v lu n v n cùng h ng pháp c s d ng trong lu n v n. t, cùng v i các th nghi m và ánh ng phát tri n sau này. Ngoài ra còn có ph n tài li u tham kh o và ph l c. -2- Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t Ch ng 1. ng quan nh ng n m 60 c a th k XX, bài toán ki m l i chính t máy tính ã nh n c s quan tâm c a các nhà khoa h c. Cho thu t toán, mô hình chúng gi i quy t bài toán này ã ng b ng n nay, r t nhi u c công b , tuy nhiên h u h t u t p trung vào các ngôn ng bi n cách c a châu Âu nh ti ng Anh, ti ng Pháp,… còn ki m l i chính t cho các ngôn ng Hoa, ti ng Vi t,… ch m i b t Hi n nay, v n ang u c nghiên c u g n ây. c quan tâm nh t trong ki m l i chính t là ki m i chính t c m ng c nh. Khác v i các ph th ng, v n xem xét các t m t cách tr t t t ,… Do ó, ph n các ng pháp ki m l i chính t truy n c l p nhau và ch y u d a vào t trong ki m l i chính t c m ng c nh, không, h th ng ph i xét n l p c a châu Á nh ti ng quy t n, nh m t t có b sai chính t hay c tr ng xung quanh nó nh t lân c n, t lo i, ng pháp ki m l i c m ng c nh có th phát hi n c nh ng l i sai v cách dùng t , t c là t v n không b sai chính t , nh ng trong hoàn c nh c a câu v n thì vi c dùng nó là không h p lý. Tuy nhiên, i cùng v i hi u qu cao là s khó kh n trong cách ti p c n. a vào lo i hình ngôn ng (bi n cách hay ki m l i chính t có th c chia thành hai “tr n l p), các ph ng pháp ng phái” chính: ki m l i cho các ngôn ng châu Âu và ki m l i cho các ngôn ng châu Á. Ph n chính t ã u c a ch ng này xin gi i thi u m t vài ph ng pháp ki m l i c công b và ng d ng thành công trong th c t cho các ngôn ng c ngoài. Ph n cu i ch ng s m qua các công trình ã ki m l i ti ng Vi t, cùng v i m t s nh n xét v chúng. -3- c công b cho Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t 1.1. Ki m l i chính t c a ti ng n c ngoài 1.1.1. Ki m l i chính t cho các ngôn ng châu Âu Nh ã nói trên, bài toán ki m l i chính t cho các ngôn ng châu Âu, nh t là ti ng Anh, ã nhau nh T nhiên, ph c tìm hi u t r t s m, v i nhi u mô hình, ph ng pháp khác ng c nh [GS96] , Lai Bayes [Gol95], Winnow [GR99],… Tuy ng pháp ki m l i chính t c m ng c nh nh n c quan tâm nh t do nó có nhi u u c nhi u nhà khoa m so v i cách ki m l i ch d a vào t n. 1.1.1.1. Ph ng pháp T ng c nh1 t trong nh ng um i phân bi t m t t v i nh ng t nh p nh ng v i nó là các t xung quanh nó trong câu. Ví d , khi ang xem xét ch n l a gi a dessert và desert, n u có các t nh arid, sand, sun,… g n ó, ta s ch n desert, còn n u g p các t nh chocolate, delicious,… g n ó, ta s ch n dessert. Ph ng pháp T ng c nh c Golding xây d ng d a trên nh n xét này. Trong giai n c, v i m i t th ng b vi t sai chính t , h th ng s ghi nh nh ng t th ng xu t hi n xung quanh nó trong ng li u. Khi ch y th c t , v i m i t nghi ng , h th ng s xem xét các t lân c n v i nó, sau ó ch n ra t thích h p nh t làm t thay th . 1.1.1.2. Ph Ph ng pháp c tr ng lân c n2 ng pháp T ng c nh r t t t trong vi c phát hi n các nguyên t c chung nh t ph thu c vào nh ng t lân c n, nh ng không quan tâm chúng. Trong tr p 1 2 ng h p ó, các ph ng pháp rút ra các quy lu t v tr t t . Context words Collocations -4- n tr t t c a c tr ng lân c n t ra r t thích Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t t c tr ng lân c n là m t m u các y u t v cú pháp xung quanh t ang xét. Có hai c tr ng th ng c s d ng trong ph ng pháp này, ó là nhãn t lo i và t lân c n. Ph ph ng pháp c tr ng lân c n ng pháp T ng c nh. Ý t c th c hi n theo cách th c t ng chính nh m l n v i nhau d a vào các ây là phân bi t nh ng t d b dùng c tr ng lân c n c a chúng. M i n cung c p vài d u hi u v i kh n ng quy t p nh m l n. Nh ng d u hi u này lu t quy t nh (th ng t v i c tr ng lân nh3 khác nhau cho nh ng t trong c k t h p v i nhau và tính toán theo m t ng là Bayes). Sau cùng, t nào có h p lý cao nh t s c ch n. Tuy nhiên, ph t t có các ph ng pháp c tr ng lân c n c ng có nh c m, ó là khi c tr ng mâu thu n ho c hàm ch a nhau, g i là xung ng pháp này ho t ng t t, các c tr ng xung t v i nhau c n hi n và lo i b . Hi n nay, ngoài heuristic, v n ch a có m t ph ch nh gi i quy t v n Danh sách quy t ng pháp Danh sách quy t ng pháp hoàn nh nh là s k t h p c a T ng c nh và m c a c hai ph nguyên t c t t nh t theo cách dùng c tr ng lân c n ng pháp này: T ng c nh s rút ra các c l p v i tr t t t , còn c tr ng lân c n tr ng - ng pháp này òi h i ph i xây d ng m t danh sách r t l n các ây là các t ng c nh và các p x p theo kh n ng quy t c tr ng ph n ánh c tr ng lân c n. Nh ng nh gi m d n, trong ó kh n ng quy t tin c y c a nó trong vi c ra quy t ng c nh. c tr ng phù h p u tiên s c dùng Strength Conflict -5- c tr ng c c nh c a m i nh. M t t nh p nh ng c phân lo i b ng cách duy t qua danh sách và so kh p t ng 4 c rút ra các nguyên t c ph thu c vào tr t t . Ph 3 c phát này. 1.1.1.3. Ph t n d ng u t4. phân lo i t c tr ng v i ang xét. Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t Vì Danh sách quy t nh a ra l i gi i ch d a vào m t c tr ng m nh nh t, hi u su t c a nó ph n l n tùy thu c vào cách xác nh kh n ng quy t cho nh ng ng pháp này, b i vì vi c c tr ng. ây chính là nh c m c a ph nh tìm ra m t công th c ánh giá t ng quát là r t khó. Do ó, Danh sách quy t tr ng h n. Theo ó, danh sách nh có th c c i ti n b ng cách dùng nhi u c l a ch n các t t t nh t, h th ng s duy t qua toàn b c tr ng, so sánh t ng c tr ng v i ng c nh, r i k t h p chúng a ra l i gi i sau cùng. Vi c k t h p các c tr ng có th c th c hi n nh vào t b phân lo i, ví d nh nh Bayes. 1.1.2. Ki m l i chính t cho các ngôn ng châu Á n ây, ki m l i chính t cho các ngôn ng châu Á ã t c quan tâm và c m t s thành t u. Không nh các ngôn ng châu Âu, vi c ki m l i chính cho các ngôn ng n l p c a châu Á g p nhi u khó kh n. Nguyên nhân ch u là do các ngôn ng c a châu Á nh ti ng Hoa, ti ng Nh t, ti ng Hàn,… không có ranh gi i t rõ ràng. áp d ng nh ng mô hình ki m l i chính t c m ng nh c a các ngôn ng châu Âu, v n b n ti ng châu Á c n . Vi c xác không nh ranh gi i t ngay khi v n b n n gi n. V i v n b n c xác nh ranh gi i u vào là úng chính t ã là u vào sai chính t , bài toán tách t càng khó kh n n. Do ó, các nhà ngôn ng h c – tin h c c a châu Á ã i cho ki m l i chính t . Ph n này s ra m t s mô hình m qua m t vài mô hình trong s ó. 1.1.2.1. Mô hình CInsunSpell cho ti ng Hoa Mô hình ki m l i này có tên là CInsunSpell [JX00] c Jianhua và Wang Xiaolong, là s k t h p gi a Trigram ti ng, ph ng Bayes và Phân ph i tr ng s t ng5, Hoa. 5 Automatic Weight Distribution -6- xu t b i Li ng pháp c c dùng cho s a l i chính t ti ng Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t Trigram kích th c5 c dùng trong b c dùng c ki m l i. Theo ó, m t “c a s ” trigram ánh giá m i liên k t gi a các ti ng v i nhau. C a s trigram th c ra là m t chu i con, v i ti ng c n xét xung quanh (2 ti ng li n tr sai chính t khi hai liên k t tr c và 2 ti ng li n sau). Ti ng trung tâm c và sau nó có có giá tr nh h n m t giá tr ng u y u. Liên k t c xem là c xem là y u khi ng. u h t các mô hình dùng n-gram th a th t, d n trung tâm, và 4 ti ng lân c n u g p tr ng i chính, ó là d li u quá n các xác su t n-gram s r t th p (th ng có giá tr b ng 0). kh c ph c, các tác gi c a CInsunSpell dùng thêm bigram cùng v i làm m n b ng cách m r ng c a s bigram t 3 ti ng thành 4 ti ng v phía sau nâng cao hi u su t phát hi n l i. phân lo i Bayes c dùng trong b c s a l i. Ý t chu i thích h p nh t (có xác su t cao nh t) t chu i i. u vào ánh giá s phù h p c a chu i s a l i, Bayes pháp Phân ph i tr ng s t bi n chu i ng d a trên S phép bi n ng chính là tìm làm ph ng án s a c k t h p v i ph ng i ít nh t6 [WF74] u vào thành chu i s a l i. Theo th nghi m c a các tác gi , CInsunSpell có t l phát hi n l i là kho ng 60%, t l l i tích c c kho ng 10%. Hai giá tr này thay ng ng c dùng trong h th ng. 1.1.2.2. Ph Ph ng pháp c a Nagata cho ti ng Nh t ng pháp c a Nagata [Na98] c áp d ng nh n d ng ch vi t (OCR). Tuy nhiên nó v n có th chính t do con ng Ph nh p vào ng pháp c a Masaaki g m hai giai c dùng n: Trong giai c chia thành nhi u chu i ti ng, v i n. Trong giai u tiên cho các h th ng s a các l i i gây ra. thành m t t có trong t 6 i tùy vào các n ho c n th nh t, câu u ki n m i chu i ti ng t o n gi ng v i ít nh t m t t nào ó trong t n th hai, b ng các ph Minimun edit distance -7- ng pháp th ng kê, n chu i t t t nh t Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t c t o thành t nh ng “t ” ã có a l i. D giai n tr c) c ch n làm ng viên i ây là ví d minh h a cho cách ti p c n này: Câu u vào: Tôi lam vi c h p tát x h p tác s t t xã mua bán Ma tr n ti ng nh m l n: lám làm báng lãm l m Tôi lam vi c p tát mua p tác mua p t lãm p tác m p tác lám làm vi c bán xã xã Hình 1: Dò tìm l i b ng ma tr n ti ng nh m l n có th chia chu i th ng dùng hai ph u vào thành các chu i con m t cách h p lý, h ng pháp, ó là Mô hình ngôn ng th ng kê và Thu t toán Forward-DB Backward A* tách t . Ngôn ng th ng kê c dùng tính xác su t k t h p c a chu i con và chu i nhãn t lo i. Xác su t k t h p này th c ra là tích xác su t xu t hi n c a chu i con v i xác su t xu t hi n chu i nhãn trong ng li u hu n luy n. Sau cùng Thu t toán Forward-DB Backward A* [Na94] -8- c dùng ánh giá các xác su t báng Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t t h p ó, sau cùng tìm ra cách k t h p có xác su t l n nh t làm l i gi i cho bài toán tách t . Theo ánh giá c a tác gi , ph ng pháp này giúp c i thi n chính xác c a OCR t 90% lên 96%, hi u su t tách t là 93%. 1.1.3. ánh giá chung v các mô hình trên Các ph ng pháp T ng c nh, c tr ng lân c n và Danh sách quy t ã nh c ng d ng r t thành công cho các ngôn ng châu Âu nh ti ng Anh, ti ng Pháp, ti ng Tây Ban Nha,… Tuy nhiên nb n u vào c n ph i áp d ng các mô hình ó cho ti ng Vi t, c tách t b ng m t mô hình tách t m . Mô hình tách t m không t t s làm gi m áng k hi u su t chung c a toàn h th ng. Cho n nay v n ch a có m t mô hình tách t m hoàn ch nh cho ti ng Vi t. Ngoài ra, u h t các ph lo i, trong khi ng pháp cho ti ng Anh u òi h i ng li u ã c gán nhãn t n nay v n ch a có kho ng li u ti ng Vi t tho mãn yêu c u này. Thêm vào ó, các ph ng pháp nh Danh sách quy t nh và Bayes òi h i h th ng ph i th c hi n nhi u thao tác x lý khá ph c t p nh n ra t sai chính t nên c ng khó c áp d ng vào th c t . Do ó chúng tôi ch xem nh ng mô hình a Golding nh là ngu n tài li u tham kh o thêm mà không áp d ng chúng. i h th ng CInSunSpell cho ki m l i ti ng Hoa, các tác gi Bigram và Trigram m c ti ng ã dùng c a dò tìm ti ng sai chính t . ó là cách ti p c n t phù h p cho ti ng Vi t vì không c n ph i tách t . Bên c nh ó, mô hình này còn có nh ng u m khác. nh trong quá trình x lý. u u m u tiên là tính m th hai, c ng là CInsunSpell không òi h i kho ng li u hu n luy n ã n gi n trong cài c t c ng m quan tr ng nh t, c tách t hay gán nhãn lo i mà ch c n m t kho ng li u úng chính t . V i nh ng c m ó, vi c áp d ng CInsunSpell cho ti ng Vi t có nhi u kh n ng s thành công trong th c t . Mô hình s a l i chính t c a Masaaki cho ti ng Nh t, v m t lý thuy t c ng có th áp d ng ngay cho ti ng Vi t mà không c n s a là các ngôn ng i nhi u vì Nh t-Vi t u n l p. Tuy nhiên, c ng nh m t s mô hình dùng cho ti ng -9- Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t Anh, mô hình này c n có kho ng li u ã u ch a th áp ng c tách t và gán nhãn t lo i, ó là c. Bên c nh ó, vi c dò tìm ph ng án s a l i b ng ma tr n ti ng nh m l n, khi áp d ng vào ti ng Vi t, s ph i ng u v i m t th thách m i: bùng n t h p, nh t là trong th c t , các l i sai khi nh p li u r t a ng nên t p nh m l n khá l n. Do ó, vi c áp d ng mô hình c a Maasaki cho ti ng Vi t ngay lúc này là r t khó kh n. 1.2. Ki m l i chính t ti ng Vi t Ki m l i chính t là m t bài toán khó, nh t là ki m l i chính t cho các ngôn ng n l p nh ti ng Vi t, ti ng Hoa. Tr c khi tôi th c hi n tài này, nh ng ng i i tr c ã công b m t s công trình nghiên c u v ki m l i chính t ti ng Vi t v i các h nhau. M i cách ti p c n có các VietSpell, h u h t chúng này s u ch a u-khuy t ng ti p c n khác m khác nhau. Tuy nhiên, ngoài c áp d ng thành công trong th c t . Ph n m qua các công trình ó, cùng v i m t vài nh n xét v chúng. Ngoài ra, trong n m nay c ng có m t s ki n áng chú ý: Microsoft phát hành trình x lý n b n MS Word 2003 giao di n ti ng Vi t có kèm ch c n ng ki m l i chính t ti ng Vi t. 1.2.1. Ch ng trình VietSpell VietSpell c a L u Hà Xuyên là ch i hoá và ng trình ki m l i chính t c s d ng r ng rãi hi n nay. Ch ã th ng ng trình này có nhi u u m nh g n nh , x lý nhanh, tích h p t t. Nh ng nh n xét, ánh giá v ch này ng trình c rút ra t VietSpell Pro phiên b n 3.0. Nhìn chung, VietSpell là m t ch ng trình t t, b i vì ngoài vi c ki m l i chính t , nó còn có các ch c n ng h u ích cho ng nh ng ch c n ng ó không c xem xét ây. Tuy nhiên, p pháp, khách hàng ph i tr ti n b n quy n. nào c ng áp ng c. - 10 - i Vi t nh chuy n mã, b gõ, dùng nó m t cách u này không ph i ng i dùng Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t Tuy nhiên, v i ch c n ng ki m l i chính t , VietSpell không h có m t mô hình ngôn ng hoàn ch nh, mà ch phát hi n l i d a vào các heuristic, nên v n còn ph m m t s l i tích c c l n tiêu c c, Bên c nh ó, VietSpell v n gây ra m t s xung t v i MS Word, nh t là v i MS Word các phiên b n sau này nh Word 2003. Ngoài ra, VietSpell v n còn m t s l i v k thu t thi t k ch ch n kh i sai, ôi khi làm h v n b n ngu n, a ra ng trình nh ngh s a l i m t cách không h p lý, … 1.2.2. Ki m l i chính t d a vào phân tích cú pháp m 1999, trong lu n v n t t nghi p i h c, Nguy n c H i và Nguy n Ph m H nh Nhi [HN99] ã phân tích cú pháp. ây xu t mô hình ki m l i chính t ti ng Vi t b ng cách c xem là cách ti p c n d a trên lu t. Theo mô hình này, câu u vào s c h th ng ti n hành phân tích cú pháp b ng thu t toán Earley. Nh ng ch không phân tích c s b xem là l i chính t . Earley là m t thu t toán m nh cho phân tích cú pháp. Tuy nhiên do có ph c t p cao: O(n3) v i n là s ti ng trong câu, Earley c n c cài tt t t ng th i gian x lý. áp d ng Earley cho ti ng Vi t, câu u ki n nó có th b sai chính t . u vào c n ph i c tách t trong ó là khó kh n th nh t. m khó kh n th hai, là các lu t ng pháp c a ngôn ng t nhiên r t ph c t p, ti ng Vi t có kho ng 3000 lu t, trong khi ch ng trình ch t p h p kh n ti p theo, ti ng Vi t là ngôn ng các ti ng tr c kho ng 700 lu t. m khó n l p, s ti ng l i ít, nên vi c ph i h p t o thành câu “nghe có v h p lý” c ng nhi u, do ó có r t nhi u ng h p câu sai chính t nh ng v n phân tích cú pháp chính c a ph c. ây là h n ch ng pháp này. ng v i cách ti p c n trên, [TPLT98] ã xây d ng ch chính t VPCTTV. Ch 140 t lo i, 2000 lu n và ng trình ki m l i ng trình này có ph n hoàn ch nh h n [HN99] do có t chính xác 95%. - 11 - n
- Xem thêm -

Tài liệu liên quan