Tài liệu Cách tiếp cận dựa trên ngữ liệu cho kiểm lỗi chính tả tiếng việt

  • Số trang: 116 |
  • Loại file: PDF |
  • Lượt xem: 48 |
  • Lượt tải: 0
bangnguyen-hoai

Đã đăng 3509 tài liệu

Mô tả:

TR NG I H C KHOA H C T NHIÊN KHOA CÔNG NGH THÔNG TIN MÔN CÔNG NGH TRI TH C Châu H i Duy - 0112005 CÁCH TI P C N D A TRÊN NG LI U CHO KI M L I CHÍNH T TI NG VI T KHÓA LU N C NHÂN TIN H C GIÁO VIÊN H TS. inh NG D N n NIÊN KHÓA 2001 – 2005 ic m n Ñ&Ò u tiên em xin t lòng bi t n sâu s c tình giúp , tr c ti p h ng d n và truy n có th th c hi n và hoàn thành n th y inh n, ng i ãt n t nhi u kinh nghi m quý báu em tài này. Em xin chân thành c m n các th y cô thu c khoa Công ngh Thông tin, tr ng i h c Khoa h c T nhiên. Các th y cô ã t n tình d y d , truy n em nhi u ki n th c quý báu trong su t nh ng n m ih c t cho em có c ngày n ông bà, cha m , nh ng ng i ã sinh n các b n trong nhóm VCL, c bi t là hôm nay. Con xin g i l i c m n sâu s c thành và nuôi d ng con thành ng i. Sau cùng tôi xin g i l i c m n n V Th y – ng trình có th ho t i ã t ng h p và cung c p ng li u hu n luy n ch ng ng. TP. H Chí Minh, tháng 7 n m 2005 Châu H i Duy – 0112005 Nh n xét c a Giáo viên ph n bi n ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... ..................................................................................................................... Ch ký c a GVPB cl c u ..................................................................................................... 1 Ch ng 1. 1.1. ng quan ........................................................................... 3 Ki m l i chính t c a ti ng n 1.1.1. Ki m l i chính t cho các ngôn ng châu Âu................................... 4 1.1.1.1. Ph ng pháp T ng c nh........................................................ 4 1.1.1.2. Ph ng pháp 1.1.1.3. Ph ng pháp Danh sách quy t 1.1.2. c tr ng lân c n................................................ 4 nh.......................................... 5 Ki m l i chính t cho các ngôn ng châu Á..................................... 6 1.1.2.1. Mô hình CInsunSpell cho ti ng Hoa......................................... 6 1.1.2.2. Ph 1.1.3. 1.2. c ngoài........................................... 4 ng pháp c a Nagata cho ti ng Nh t .................................. 7 ánh giá chung v các mô hình trên ................................................ 9 Ki m l i chính t ti ng Vi t...........................................................10 1.2.1. Ch 1.2.2. Ki m l i chính t d a vào phân tích cú pháp ................................. 11 1.2.3. Ki m l i chính t b ng mô hình l 1.2.4. Word 2003 phiên b n ti ng Vi t .................................................... 13 Ch ng 2. ng trình VietSpell.................................................................. 10 i t ......................................... 12 s lý thuy t ...................................................................14 2.1. Chu n chính t ...............................................................................15 2.2. t s ki n th c c b n v chính t ti ng Vi t ..............................15 2.2.1. Các y u t c a ti ng và ch vi t: ................................................... 15 2.2.1.1. Âm ......................................................................................... 16 2.2.1.2. Ch cái................................................................................... 17 2.2.1.3. Thanh và d u.......................................................................... 17 2.2.1.4. Ti ng hay âm ti t.................................................................... 17 2.2.1.5. Hình v ................................................................................... 17 2.2.1.6. .......................................................................................... 18 2.2.2. Quy cách ghi d u thanh trên ch vi t............................................. 19 2.2.3. t qu u tra l i chính t ........................................................... 19 2.2.3.1. thanh 2.2.3.2. âm 2.2.3.3. âm chính ........................................................................... 20 2.2.3.4. âm cu i ............................................................................. 20 2.2.4. u ......................................................................... 19 u .............................................................................. 20 Nguyên nhân ................................................................................. 20 2.2.4.1. thanh 2.2.4.2. âm 2.2.4.3. âm chính ........................................................................... 21 2.2.4.4. âm cu i ............................................................................. 21 2.3. c u ......................................................................... 20 u .............................................................................. 21 m chung c a m t h ki m l i chính t ...............................22 2.3.1. Các ch c n ng chính ..................................................................... 22 2.3.2. Các lo i l i chính t ....................................................................... 22 2.3.3. Nguyên nhân gây ra l i chính t .................................................... 23 2.3.4. Các sai l m c a trình ki m l i........................................................ 24 2.4. s tin h c .................................................................................25 2.4.1. Lu t Bayes .................................................................................... 25 2.4.2. Mô hình N-Gram t ng quát ........................................................... 26 2.4.2.1. ng b ng N-Gram........................................................ 26 2.4.2.2. Hu n luy n N-Gram ............................................................... 28 2.4.2.3. Làm m n................................................................................. 29 2.4.3. Ch cl Tách t .......................................................................................... 30 2.4.3.1. Kh p t i a ............................................................................ 31 2.4.3.2. WFST..................................................................................... 32 ng 3. Mô hình ..............................................................................33 3.1. Mô hình t ng quát .........................................................................34 3.2. Ti n x lý ......................................................................................37 3.2.1. Tách c m ti ng .............................................................................. 37 3.2.2. Tách ti ng...................................................................................... 37 3.2.3. c “nhi u” ................................................................................... 38 3.3. 3.2.3.1. Nh n di n ti ng Anh .............................................................. 38 3.2.3.2. Nh n di n t vi t t t ............................................................... 38 3.2.3.3. Nh n di n phiên âm................................................................ 38 Ki m l i non-word ........................................................................39 3.3.1. Phát hi n l i .................................................................................. 39 3.3.2. a l i ........................................................................................... 39 3.4. 3.3.2.1. a l i phát âm ...................................................................... 39 3.3.2.2. a l i nh p li u..................................................................... 40 3.3.2.3. Các l i khác ........................................................................... 43 Ki m l i real-word ........................................................................43 3.4.1. Phát hi n l i b ng bigram .............................................................. 44 3.4.1.1. Ýt ng chính ........................................................................ 44 3.4.1.2. t h p v i trigram ................................................................ 45 3.4.1.3. Làm m n................................................................................. 47 3.4.1.4. Heuristic h n ch l i tích c c ................................................. 47 3.4.2. Phát hi n l i b ng FMM và n-gram ............................................... 48 3.5. p danh sách ng viên s a l i......................................................50 3.6. c trong quá trình ki m l i..........................................................51 Ch ng 4. 4.1. Cài Cài 4.1.1. t th c nghi m ..........................................................52 t ...........................................................................................53 Chu n hoá ti ng............................................................................. 53 4.1.1.1. Mã hoá các ch cái................................................................. 53 4.1.1.2. Mã hoá ti ng .......................................................................... 53 4.1.1.3. u trúc l p Tieng.................................................................. 55 4.1.2. Mã hoá t và n-gram ..................................................................... 57 4.1.2.1. Mã hoá t ............................................................................... 57 4.1.2.2. Mã hoá n-gram ....................................................................... 58 4.1.2.3. u trúc l p Tu ...................................................................... 59 4.1.3. 4.1.4. u trúc d li u cho các t n và các b n-gram......................... 59 Phát sinh ng viên ......................................................................... 60 4.1.4.1. Phát sinh các ti ng g n gi ng ................................................. 60 4.1.4.2. Phát sinh các t g n gi ng ...................................................... 61 4.1.5. Ki m l i chính t ........................................................................... 64 4.1.5.1. Dò tìm l i ............................................................................... 64 4.1.5.2. p x p các ng viên s a l i .................................................. 66 4.1.5.3. c trong quá trình ki m l i................................................... 66 4.1.6. Hu n luy n .................................................................................... 66 4.1.7. Tích h p vào Word........................................................................ 69 4.1.8. Các x lý khác............................................................................... 70 4.1.8.1. ng mã ti ng Vi t................................................................. 70 4.1.8.2. Linh tinh................................................................................. 70 4.1.9. 4.2. Vài hình nh v Ch ng trình........................................................ 71 Th nghi m và ánh giá ...............................................................73 4.2.1. Các tham s th nghi m ................................................................ 73 4.2.2. t qu .......................................................................................... 74 4.2.3. Nh n xét........................................................................................ 79 4.2.4. So sánh v i VietSpell .................................................................... 80 4.2.4.1. Kh n ng phát hi n l i............................................................ 80 4.2.4.2. Kh n ng ngh s a l i ........................................................ 80 4.3. ánh giá và K t lu n .....................................................................88 4.4. ng phát tri n............................................................................89 Tài li u tham kh o ...................................................................................90 Ph l c ....................................................................................................92 Danh sách hình Hình 1: Dò tìm l i b ng ma tr n ti ng nh m l n.................................................... 8 Hình 2: Mô hình t ng quát .................................................................................. 36 Hình 3: Bigram c m r ng v phía sau .......................................................... 47 Hình 4: Mã ti ng................................................................................................. 54 Hình 5: Mã t ..................................................................................................... 57 Hình 6: Mã n-gram ............................................................................................. 58 Hình 7: S ki m l i b ng FMM và n-gram..................................................... 65 Hình 8: Quá trình ki m l i .................................................................................. 71 Hình 9: Quá trình ki m l i hoàn t t ..................................................................... 72 Hình 10: K t qu th nghi m v i P_bi' = 5.33 .................................................... 75 Hình 11: K t qu th nghi m v i P_bi' = 4.95 .................................................... 76 Hình 12: K t qu th nghi m v i P_bi' = 4.73 .................................................... 77 Hình 13: K t qu th nghi m v i P_bi' = 4.59 .................................................... 78 Danh sách b ng ng 1: Các thành ph n d nh m l n khi phát âm ............................................... 39 ng 2: Phím g c và các phím lân c n................................................................ 42 ng 3: K t qu th nghi m................................................................................ 74 Danh sách thu t toán Thu t toán 1: Phát sinh ti ng ng viên d a vào l i phát âm................................. 40 Thu t toán 2: Phát hi n l i b ng bigram.............................................................. 45 Thu t toán 3: K t h p bigram và trigram phát hi n l i ................................... 46 Thu t toán 4: Phát hi n l i b ng FMM và n-gram ............................................... 49 Thu t toán 5: Phát sinh t ng viên..................................................................... 62 Thu t toán 6: Binary Search c i ti n.................................................................... 63 Thu t toán 7: Quá trình hu n luy n ..................................................................... 67 Thu t toán 8: Các b c t o n-gram trong giai n hu n luy n........................... 68 Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t u tv n Là m t ch vi t ghi âm, ch vi t ti ng Vi t c ng có r t nhi u quy cách k t h p t ng ký t c a b ng ch cái v i nhau nh v t o thành nh ng t có ngh a, i là chính t . Vi c dùng úng chính t r t quan tr ng, nh t là trong các v n b n hành chính. M t v n b n sai chính t có th gây khó ch u cho ng ng i c không tin t ng vào trình c a chính ng Tr c, làm i ã t o ra v n b n ó. Nh ng quan tr ng h n h t, vi c sai chính t có th làm ng i dung c n truy n i i ti p nh n hi u sai t. c ây, vi c ki m l i chính t ph i hoàn toàn d a vào s c ng nhiên, xã h i càng phát tri n, l ng thông tin c n truy n i. Tuy t ngày càng nhi u, vi c ki m l i chính t “th công” r t m t th i gian và công s c. n ây, cùng v i s phát tri n nhanh chóng c a công ngh thông tin, ng l c i hành chánh t ra: làm sao n t ngày càng c m r ng và m t nhu c u m i ang máy tính có th thay th (m t ph n hay toàn b ) cho con ng i trong vi c ki m l i chính t , hay nói cách khác là làm sao ch ng trình b t l i chính t t xây d ng m t ng. Ngoài ra, hi n nay trong nhi u v n b n khoa h c c a ti ng Vi t th dùng thêm ti ng Anh ng có chú thích cho các thu t ng ho c cho các t không th ch sát ngh a. Do ó, m t ch ng trình ki m l i chính t t ng cho các v n b n có c ti ng Vi t và ti ng Anh là r t c n thi t. Thêm vào ó, vi c ki m l i chính t còn có th c dùng trong giai n ti n x lý c a r t nhi u bài toán khác v x lý ngôn ng t nhiên, ví d nh : phân lo i v n b n, tóm t t v n b n, d ch t ng, nh n d ng ch vi t, nh n d ng gi ng nói, … Tuy nhiên, trong khi bài toán ki m l i chính t cho các ngôn ng châu Âu ã c gi i quy t m t cách khá tr n v n, vi c ki m l i chính t cho ti ng Vi t l i -1- Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t p nhi u khó kh n. Vì v y, cho n nay, m c dù ã có vài công trình v này nh ng h u nh ch a có công trình nào c tiêu c a Nh c áp d ng vào th c t . tài ã nói trên, m t ch ng trình ki m l i chính t t trong hoàn c nh hi n nay. Tuy ã có m t s công trình v ch a áp d ng tài c vào th c t . T nh ng ng là r t c n thi t tài này nh ng h u h t u ki n trên, tôi ã ch n ki m l i chính t làm lu n v n t t nghi p c a mình. c tiêu sau cùng c a hoàn ch nh, có th tài này là m t ch ng trình ki m l i chính t c s d ng ngay trong th c t . ngoài hi u qu th c t , các mô hình ngôn ng t c áp d ng c yêu c u này, ây không nên quá u k , ph c t p ho c òi h i nhi u không gian nh . Tù nh ng yêu c u trên, tôi ch n n-gram ti ng làm h Mô hình n-gram có m t s u m, ó là không quá ph c t p trong x lý, và n u c t ch c c u trúc d li u t t, l Trong mô hình c a ng ti p c n chính. ng b nh chi m d ng là ch p nh n tài này, n-gram c dùng làm ph ng ti n c. tính toán các xác su t, các m i liên k t gi a nh ng ti ng trong v n b n, dò tìm ra nh ng vùng b i, và sau cùng a ra các ngh s a ch a cho ng i dùng l a ch n. c c lu n v n Lu n v n này g m 4 ch • Ch ng v i n i dung chính nh sau: ng 1: Trình bày tình hình phát tri n c a ki m l i chính t trên th gi i, ánh giá m t s ph • Ch ng 2: Các v n ng pháp ã lý thuy t c công b . c dùng n trong lu n v n, g m lý thuy t ngôn ng h c và tin h c. • Ch ng 3: Mô hình và ph • Ch ng 4: Tóm t t quá trình cài giá v lu n v n cùng h ng pháp c s d ng trong lu n v n. t, cùng v i các th nghi m và ánh ng phát tri n sau này. Ngoài ra còn có ph n tài li u tham kh o và ph l c. -2- Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t Ch ng 1. ng quan nh ng n m 60 c a th k XX, bài toán ki m l i chính t máy tính ã nh n c s quan tâm c a các nhà khoa h c. Cho thu t toán, mô hình chúng gi i quy t bài toán này ã ng b ng n nay, r t nhi u c công b , tuy nhiên h u h t u t p trung vào các ngôn ng bi n cách c a châu Âu nh ti ng Anh, ti ng Pháp,… còn ki m l i chính t cho các ngôn ng Hoa, ti ng Vi t,… ch m i b t Hi n nay, v n ang u c nghiên c u g n ây. c quan tâm nh t trong ki m l i chính t là ki m i chính t c m ng c nh. Khác v i các ph th ng, v n xem xét các t m t cách tr t t t ,… Do ó, ph n các ng pháp ki m l i chính t truy n c l p nhau và ch y u d a vào t trong ki m l i chính t c m ng c nh, không, h th ng ph i xét n l p c a châu Á nh ti ng quy t n, nh m t t có b sai chính t hay c tr ng xung quanh nó nh t lân c n, t lo i, ng pháp ki m l i c m ng c nh có th phát hi n c nh ng l i sai v cách dùng t , t c là t v n không b sai chính t , nh ng trong hoàn c nh c a câu v n thì vi c dùng nó là không h p lý. Tuy nhiên, i cùng v i hi u qu cao là s khó kh n trong cách ti p c n. a vào lo i hình ngôn ng (bi n cách hay ki m l i chính t có th c chia thành hai “tr n l p), các ph ng pháp ng phái” chính: ki m l i cho các ngôn ng châu Âu và ki m l i cho các ngôn ng châu Á. Ph n chính t ã u c a ch ng này xin gi i thi u m t vài ph ng pháp ki m l i c công b và ng d ng thành công trong th c t cho các ngôn ng c ngoài. Ph n cu i ch ng s m qua các công trình ã ki m l i ti ng Vi t, cùng v i m t s nh n xét v chúng. -3- c công b cho Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t 1.1. Ki m l i chính t c a ti ng n c ngoài 1.1.1. Ki m l i chính t cho các ngôn ng châu Âu Nh ã nói trên, bài toán ki m l i chính t cho các ngôn ng châu Âu, nh t là ti ng Anh, ã nhau nh T nhiên, ph c tìm hi u t r t s m, v i nhi u mô hình, ph ng pháp khác ng c nh [GS96] , Lai Bayes [Gol95], Winnow [GR99],… Tuy ng pháp ki m l i chính t c m ng c nh nh n c quan tâm nh t do nó có nhi u u c nhi u nhà khoa m so v i cách ki m l i ch d a vào t n. 1.1.1.1. Ph ng pháp T ng c nh1 t trong nh ng um i phân bi t m t t v i nh ng t nh p nh ng v i nó là các t xung quanh nó trong câu. Ví d , khi ang xem xét ch n l a gi a dessert và desert, n u có các t nh arid, sand, sun,… g n ó, ta s ch n desert, còn n u g p các t nh chocolate, delicious,… g n ó, ta s ch n dessert. Ph ng pháp T ng c nh c Golding xây d ng d a trên nh n xét này. Trong giai n c, v i m i t th ng b vi t sai chính t , h th ng s ghi nh nh ng t th ng xu t hi n xung quanh nó trong ng li u. Khi ch y th c t , v i m i t nghi ng , h th ng s xem xét các t lân c n v i nó, sau ó ch n ra t thích h p nh t làm t thay th . 1.1.1.2. Ph Ph ng pháp c tr ng lân c n2 ng pháp T ng c nh r t t t trong vi c phát hi n các nguyên t c chung nh t ph thu c vào nh ng t lân c n, nh ng không quan tâm chúng. Trong tr p 1 2 ng h p ó, các ph ng pháp rút ra các quy lu t v tr t t . Context words Collocations -4- n tr t t c a c tr ng lân c n t ra r t thích Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t t c tr ng lân c n là m t m u các y u t v cú pháp xung quanh t ang xét. Có hai c tr ng th ng c s d ng trong ph ng pháp này, ó là nhãn t lo i và t lân c n. Ph ph ng pháp c tr ng lân c n ng pháp T ng c nh. Ý t c th c hi n theo cách th c t ng chính nh m l n v i nhau d a vào các ây là phân bi t nh ng t d b dùng c tr ng lân c n c a chúng. M i n cung c p vài d u hi u v i kh n ng quy t p nh m l n. Nh ng d u hi u này lu t quy t nh (th ng t v i c tr ng lân nh3 khác nhau cho nh ng t trong c k t h p v i nhau và tính toán theo m t ng là Bayes). Sau cùng, t nào có h p lý cao nh t s c ch n. Tuy nhiên, ph t t có các ph ng pháp c tr ng lân c n c ng có nh c m, ó là khi c tr ng mâu thu n ho c hàm ch a nhau, g i là xung ng pháp này ho t ng t t, các c tr ng xung t v i nhau c n hi n và lo i b . Hi n nay, ngoài heuristic, v n ch a có m t ph ch nh gi i quy t v n Danh sách quy t ng pháp Danh sách quy t ng pháp hoàn nh nh là s k t h p c a T ng c nh và m c a c hai ph nguyên t c t t nh t theo cách dùng c tr ng lân c n ng pháp này: T ng c nh s rút ra các c l p v i tr t t t , còn c tr ng lân c n tr ng - ng pháp này òi h i ph i xây d ng m t danh sách r t l n các ây là các t ng c nh và các p x p theo kh n ng quy t c tr ng ph n ánh c tr ng lân c n. Nh ng nh gi m d n, trong ó kh n ng quy t tin c y c a nó trong vi c ra quy t ng c nh. c tr ng phù h p u tiên s c dùng Strength Conflict -5- c tr ng c c nh c a m i nh. M t t nh p nh ng c phân lo i b ng cách duy t qua danh sách và so kh p t ng 4 c rút ra các nguyên t c ph thu c vào tr t t . Ph 3 c phát này. 1.1.1.3. Ph t n d ng u t4. phân lo i t c tr ng v i ang xét. Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t Vì Danh sách quy t nh a ra l i gi i ch d a vào m t c tr ng m nh nh t, hi u su t c a nó ph n l n tùy thu c vào cách xác nh kh n ng quy t cho nh ng ng pháp này, b i vì vi c c tr ng. ây chính là nh c m c a ph nh tìm ra m t công th c ánh giá t ng quát là r t khó. Do ó, Danh sách quy t tr ng h n. Theo ó, danh sách nh có th c c i ti n b ng cách dùng nhi u c l a ch n các t t t nh t, h th ng s duy t qua toàn b c tr ng, so sánh t ng c tr ng v i ng c nh, r i k t h p chúng a ra l i gi i sau cùng. Vi c k t h p các c tr ng có th c th c hi n nh vào t b phân lo i, ví d nh nh Bayes. 1.1.2. Ki m l i chính t cho các ngôn ng châu Á n ây, ki m l i chính t cho các ngôn ng châu Á ã t c quan tâm và c m t s thành t u. Không nh các ngôn ng châu Âu, vi c ki m l i chính cho các ngôn ng n l p c a châu Á g p nhi u khó kh n. Nguyên nhân ch u là do các ngôn ng c a châu Á nh ti ng Hoa, ti ng Nh t, ti ng Hàn,… không có ranh gi i t rõ ràng. áp d ng nh ng mô hình ki m l i chính t c m ng nh c a các ngôn ng châu Âu, v n b n ti ng châu Á c n . Vi c xác không nh ranh gi i t ngay khi v n b n n gi n. V i v n b n c xác nh ranh gi i u vào là úng chính t ã là u vào sai chính t , bài toán tách t càng khó kh n n. Do ó, các nhà ngôn ng h c – tin h c c a châu Á ã i cho ki m l i chính t . Ph n này s ra m t s mô hình m qua m t vài mô hình trong s ó. 1.1.2.1. Mô hình CInsunSpell cho ti ng Hoa Mô hình ki m l i này có tên là CInsunSpell [JX00] c Jianhua và Wang Xiaolong, là s k t h p gi a Trigram ti ng, ph ng Bayes và Phân ph i tr ng s t ng5, Hoa. 5 Automatic Weight Distribution -6- xu t b i Li ng pháp c c dùng cho s a l i chính t ti ng Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t Trigram kích th c5 c dùng trong b c dùng c ki m l i. Theo ó, m t “c a s ” trigram ánh giá m i liên k t gi a các ti ng v i nhau. C a s trigram th c ra là m t chu i con, v i ti ng c n xét xung quanh (2 ti ng li n tr sai chính t khi hai liên k t tr c và 2 ti ng li n sau). Ti ng trung tâm c và sau nó có có giá tr nh h n m t giá tr ng u y u. Liên k t c xem là c xem là y u khi ng. u h t các mô hình dùng n-gram th a th t, d n trung tâm, và 4 ti ng lân c n u g p tr ng i chính, ó là d li u quá n các xác su t n-gram s r t th p (th ng có giá tr b ng 0). kh c ph c, các tác gi c a CInsunSpell dùng thêm bigram cùng v i làm m n b ng cách m r ng c a s bigram t 3 ti ng thành 4 ti ng v phía sau nâng cao hi u su t phát hi n l i. phân lo i Bayes c dùng trong b c s a l i. Ý t chu i thích h p nh t (có xác su t cao nh t) t chu i i. u vào ánh giá s phù h p c a chu i s a l i, Bayes pháp Phân ph i tr ng s t bi n chu i ng d a trên S phép bi n ng chính là tìm làm ph ng án s a c k t h p v i ph ng i ít nh t6 [WF74] u vào thành chu i s a l i. Theo th nghi m c a các tác gi , CInsunSpell có t l phát hi n l i là kho ng 60%, t l l i tích c c kho ng 10%. Hai giá tr này thay ng ng c dùng trong h th ng. 1.1.2.2. Ph Ph ng pháp c a Nagata cho ti ng Nh t ng pháp c a Nagata [Na98] c áp d ng nh n d ng ch vi t (OCR). Tuy nhiên nó v n có th chính t do con ng Ph nh p vào ng pháp c a Masaaki g m hai giai c dùng n: Trong giai c chia thành nhi u chu i ti ng, v i n. Trong giai u tiên cho các h th ng s a các l i i gây ra. thành m t t có trong t 6 i tùy vào các n ho c n th nh t, câu u ki n m i chu i ti ng t o n gi ng v i ít nh t m t t nào ó trong t n th hai, b ng các ph Minimun edit distance -7- ng pháp th ng kê, n chu i t t t nh t Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t c t o thành t nh ng “t ” ã có a l i. D giai n tr c) c ch n làm ng viên i ây là ví d minh h a cho cách ti p c n này: Câu u vào: Tôi lam vi c h p tát x h p tác s t t xã mua bán Ma tr n ti ng nh m l n: lám làm báng lãm l m Tôi lam vi c p tát mua p tác mua p t lãm p tác m p tác lám làm vi c bán xã xã Hình 1: Dò tìm l i b ng ma tr n ti ng nh m l n có th chia chu i th ng dùng hai ph u vào thành các chu i con m t cách h p lý, h ng pháp, ó là Mô hình ngôn ng th ng kê và Thu t toán Forward-DB Backward A* tách t . Ngôn ng th ng kê c dùng tính xác su t k t h p c a chu i con và chu i nhãn t lo i. Xác su t k t h p này th c ra là tích xác su t xu t hi n c a chu i con v i xác su t xu t hi n chu i nhãn trong ng li u hu n luy n. Sau cùng Thu t toán Forward-DB Backward A* [Na94] -8- c dùng ánh giá các xác su t báng Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t t h p ó, sau cùng tìm ra cách k t h p có xác su t l n nh t làm l i gi i cho bài toán tách t . Theo ánh giá c a tác gi , ph ng pháp này giúp c i thi n chính xác c a OCR t 90% lên 96%, hi u su t tách t là 93%. 1.1.3. ánh giá chung v các mô hình trên Các ph ng pháp T ng c nh, c tr ng lân c n và Danh sách quy t ã nh c ng d ng r t thành công cho các ngôn ng châu Âu nh ti ng Anh, ti ng Pháp, ti ng Tây Ban Nha,… Tuy nhiên nb n u vào c n ph i áp d ng các mô hình ó cho ti ng Vi t, c tách t b ng m t mô hình tách t m . Mô hình tách t m không t t s làm gi m áng k hi u su t chung c a toàn h th ng. Cho n nay v n ch a có m t mô hình tách t m hoàn ch nh cho ti ng Vi t. Ngoài ra, u h t các ph lo i, trong khi ng pháp cho ti ng Anh u òi h i ng li u ã c gán nhãn t n nay v n ch a có kho ng li u ti ng Vi t tho mãn yêu c u này. Thêm vào ó, các ph ng pháp nh Danh sách quy t nh và Bayes òi h i h th ng ph i th c hi n nhi u thao tác x lý khá ph c t p nh n ra t sai chính t nên c ng khó c áp d ng vào th c t . Do ó chúng tôi ch xem nh ng mô hình a Golding nh là ngu n tài li u tham kh o thêm mà không áp d ng chúng. i h th ng CInSunSpell cho ki m l i ti ng Hoa, các tác gi Bigram và Trigram m c ti ng ã dùng c a dò tìm ti ng sai chính t . ó là cách ti p c n t phù h p cho ti ng Vi t vì không c n ph i tách t . Bên c nh ó, mô hình này còn có nh ng u m khác. nh trong quá trình x lý. u u m u tiên là tính m th hai, c ng là CInsunSpell không òi h i kho ng li u hu n luy n ã n gi n trong cài c t c ng m quan tr ng nh t, c tách t hay gán nhãn lo i mà ch c n m t kho ng li u úng chính t . V i nh ng c m ó, vi c áp d ng CInsunSpell cho ti ng Vi t có nhi u kh n ng s thành công trong th c t . Mô hình s a l i chính t c a Masaaki cho ti ng Nh t, v m t lý thuy t c ng có th áp d ng ngay cho ti ng Vi t mà không c n s a là các ngôn ng i nhi u vì Nh t-Vi t u n l p. Tuy nhiên, c ng nh m t s mô hình dùng cho ti ng -9- Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t Anh, mô hình này c n có kho ng li u ã u ch a th áp ng c tách t và gán nhãn t lo i, ó là c. Bên c nh ó, vi c dò tìm ph ng án s a l i b ng ma tr n ti ng nh m l n, khi áp d ng vào ti ng Vi t, s ph i ng u v i m t th thách m i: bùng n t h p, nh t là trong th c t , các l i sai khi nh p li u r t a ng nên t p nh m l n khá l n. Do ó, vi c áp d ng mô hình c a Maasaki cho ti ng Vi t ngay lúc này là r t khó kh n. 1.2. Ki m l i chính t ti ng Vi t Ki m l i chính t là m t bài toán khó, nh t là ki m l i chính t cho các ngôn ng n l p nh ti ng Vi t, ti ng Hoa. Tr c khi tôi th c hi n tài này, nh ng ng i i tr c ã công b m t s công trình nghiên c u v ki m l i chính t ti ng Vi t v i các h nhau. M i cách ti p c n có các VietSpell, h u h t chúng này s u ch a u-khuy t ng ti p c n khác m khác nhau. Tuy nhiên, ngoài c áp d ng thành công trong th c t . Ph n m qua các công trình ó, cùng v i m t vài nh n xét v chúng. Ngoài ra, trong n m nay c ng có m t s ki n áng chú ý: Microsoft phát hành trình x lý n b n MS Word 2003 giao di n ti ng Vi t có kèm ch c n ng ki m l i chính t ti ng Vi t. 1.2.1. Ch ng trình VietSpell VietSpell c a L u Hà Xuyên là ch i hoá và ng trình ki m l i chính t c s d ng r ng rãi hi n nay. Ch ã th ng ng trình này có nhi u u m nh g n nh , x lý nhanh, tích h p t t. Nh ng nh n xét, ánh giá v ch này ng trình c rút ra t VietSpell Pro phiên b n 3.0. Nhìn chung, VietSpell là m t ch ng trình t t, b i vì ngoài vi c ki m l i chính t , nó còn có các ch c n ng h u ích cho ng nh ng ch c n ng ó không c xem xét ây. Tuy nhiên, p pháp, khách hàng ph i tr ti n b n quy n. nào c ng áp ng c. - 10 - i Vi t nh chuy n mã, b gõ, dùng nó m t cách u này không ph i ng i dùng Cách ti p c n d a trên ng li u cho ki m l i chính t ti ng Vi t Tuy nhiên, v i ch c n ng ki m l i chính t , VietSpell không h có m t mô hình ngôn ng hoàn ch nh, mà ch phát hi n l i d a vào các heuristic, nên v n còn ph m m t s l i tích c c l n tiêu c c, Bên c nh ó, VietSpell v n gây ra m t s xung t v i MS Word, nh t là v i MS Word các phiên b n sau này nh Word 2003. Ngoài ra, VietSpell v n còn m t s l i v k thu t thi t k ch ch n kh i sai, ôi khi làm h v n b n ngu n, a ra ng trình nh ngh s a l i m t cách không h p lý, … 1.2.2. Ki m l i chính t d a vào phân tích cú pháp m 1999, trong lu n v n t t nghi p i h c, Nguy n c H i và Nguy n Ph m H nh Nhi [HN99] ã phân tích cú pháp. ây xu t mô hình ki m l i chính t ti ng Vi t b ng cách c xem là cách ti p c n d a trên lu t. Theo mô hình này, câu u vào s c h th ng ti n hành phân tích cú pháp b ng thu t toán Earley. Nh ng ch không phân tích c s b xem là l i chính t . Earley là m t thu t toán m nh cho phân tích cú pháp. Tuy nhiên do có ph c t p cao: O(n3) v i n là s ti ng trong câu, Earley c n c cài tt t t ng th i gian x lý. áp d ng Earley cho ti ng Vi t, câu u ki n nó có th b sai chính t . u vào c n ph i c tách t trong ó là khó kh n th nh t. m khó kh n th hai, là các lu t ng pháp c a ngôn ng t nhiên r t ph c t p, ti ng Vi t có kho ng 3000 lu t, trong khi ch ng trình ch t p h p kh n ti p theo, ti ng Vi t là ngôn ng các ti ng tr c kho ng 700 lu t. m khó n l p, s ti ng l i ít, nên vi c ph i h p t o thành câu “nghe có v h p lý” c ng nhi u, do ó có r t nhi u ng h p câu sai chính t nh ng v n phân tích cú pháp chính c a ph c. ây là h n ch ng pháp này. ng v i cách ti p c n trên, [TPLT98] ã xây d ng ch chính t VPCTTV. Ch 140 t lo i, 2000 lu n và ng trình ki m l i ng trình này có ph n hoàn ch nh h n [HN99] do có t chính xác 95%. - 11 - n
- Xem thêm -