Tài liệu Kiểm lỗi chính tả cảm ngữ cảnh tiếng việt

  • Số trang: 51 |
  • Loại file: PDF |
  • Lượt xem: 104 |
  • Lượt tải: 0
nhattuvisu

Tham gia: 29/07/2015

Mô tả:

0 0 4 ;\'Â T • i ^ Đ Ạ I H Ọ C Q U Ố C G IA H À N Ộ I KHOA CÔNG NGHÊ N G U Y ỄN PHƯƠNG T H Á I K IỂ M L Ỗ I C H ÍN H TẢ C Ả M T IẾ N G L U Ậ N V Ă N N G Ữ C Ả N H V IỆ T T H Ạ C S Ỹ C H U Y Ê N N G À N H : T IN H Ọ C M Ã N G À N H : 010110 N G Ư Ờ I H Ư Ớ N G DẪN: PGS. N G U Y ỄN Q U Ố C TO Ả N ĐẠi Mí.:-.: CÍ-:( TRUNGTÂM ■Áìi L t HÀ NỘI - 2003 HÁ N Ỏ I T iiơ V IỀ N N o V : J -O U A (? M ụ c lụ c Chương 1: 1. 2. 3. 4. Giới thiệu............................................................................... 5 B à i to á n k i ể m l ỗ i c h í n h t ả ........................................................................................ 5 G iớ i t h iệ u c á c p h ư ơ n g p h á p k iể m l ỗ i c h ín h t ả ........................................................ 5 T iế p c ậ n c ủ a c h ú n g t ô i ............................................................................................. 7 M ộ t s ố p h ư ơ n g p h á p h ọ c m á y t h ố n g k ê tr o n g N L P . .............................................. 8 4 .1 H à m p h â n l o ạ i B a y e s " n g â y t h ơ " ....................................................................... 9 4 .2 D a n h s á c h q u y ế t đ ị n h ......................................................................................... 9 4 .3 N ộ i s u y ................................................................................................................ 1 0 C hư ơng 2: M ộ t s ố đ ặ c đ i ể m .................................................................... 11 1. Đ ặ c đ iể m t iế n g V i ệ t ................................................................................................ 11 2 . C á c đ ơ n v ị c ủ a t iế n g V i ệ t ....................................................................................... 11 2 .1 T i ế n g .................................................................................................................... 11 2 .2 T ừ . . .7............ .............................................. ......................................................... 1 2 2 .3 C â u . . . ........................... 1 2 3 . M ộ t s ố đ ố i tư ợ n g n g ô n n g ữ m à lu ậ n v ã n sẽ k h a i t h á c .........................................1 2 3 .1 T i ế n g ................................................................................................................... 13 3 .2 T ừ v à từ l o ạ i ....................................................................................................... 13 C hư ơ ng 3: 1. 2. 3. 4. C O R P U S .................................................................................... 1 4 C á c y ê u c ầ u c h í n h c h o c ô n g v iệ c S N L P ......................................................... 1 4 X ử l ý v ă n b ả n ..................................................................................................... 15 Đ á n h d ấ u d ữ l i ệ u ............................................................................................... 1 9 T ạ o c o r p u s t h ô từ I n t e r n e t ................................................................................ 1 9 C hương 4: K i ể m l ỗ i c h í n h tả d ự a v à o từ đ i ể n ........................................ 2 2 1. T ậ p n h ầ m lẫ n â m t i ế t .............................................................................................2 2 1.1 N h ầ m lẫ n d o đ á n h m á y s a i .............................................................................. 2 2 1 .2 N h ầ m lẫ n d o p h á t â m ....................................................................................... 2 4 1 .3 N h ầ m lẫ n c ủ a c á c h ệ n h ậ n d ạ n g c h ữ ............................................................... 2 6 2 . K iể m l ỗ i c h í n h tả d ự a v à o từ đ i ể n ................................................................ ....... 2 6 2 .1 T h u ậ t t o á n .......................................................................................................... 2 7 2 .2 Đ á n h g i á ............................................................................................................. 2 7 C hư ơng 5: K i ể m l ỗ i c h í n h t ả s ử d ụ n g d a n h s á c h q u y ế t đ ị n h ............. 2 9 1. G iớ i t h i ệ u ....... .. ........................................................................................................ 2 9 2 . C á c t h u ộ c t í n h ........................................................................................................ 2 9 2 .1 T ừ g h é p .............................................................................................................. 3 0 2 .2 C o l l o c a t i o n ........................................................................................................ 3 0 3 2 .3 T ừ n g ữ c ả n h ........................................................................... 2 .4 H u ấ n l u y ệ n ............................................................................. 3 . T h u ậ t to á n k iể m l ỗ i ..................................................................... 3 .1 T h u ậ t to á n k iể m l ỗ i ............................................................... 3 .2 Đ á n h g iá đ ộ p h ứ c t ạ p ............................................................ 4 . Đ á n h g i á ....................................................................................... 4 .1 B ộ t e s t ..................................................................................... 4 . 2 Đ ộ đ o ...................................................................................... 4 .3 K ế t q u ả v à th ả o l u ậ n ............................................................. 31 32 33 33 34 35 36 38 38 C hư ơng 6: K i ể m l ỗ i c h í n h t ả s ử d ụ n g h à m p h â n lớ p B a y e s ..........................................................................................4 2 1. G iớ i t h i ệ u ..................................................................................... 2 . T h u ậ t t o á n ............................................................................... .. 3 . Đ á n h g iá v à th ả o l u ậ n ................................................................. K ế t l u ậ n .......................................................................................... 4 5 T à i liệ u th a m k h ả o 4 6 P h ụ l ụ c ........................................................................................... 4 9 4 ,4 2 .4 2 .4 4 C H Ư Ơ N G 1: G IỚ I T H IỆ U Đ â y là c h ư ơ n g n h ậ p đ ề c ủ a lu ậ n v ã n . C h ư ơ n g n à y g iớ i t h iệ u v ề b à i to á n k iể m lỗ i c h ín h tả , c á c p h ư ơ n s p h á p k iể m lỗ i c h ín h tả , v à m ộ t s ố k ỹ th u ậ t h ọ c m á y sẽ đ ư ợ c sử d ụ n g tr o n g c á c c h ư ơ n g s a u . 1 . B à i to á n k iể m lỗ i c h ín h tả B à i to á n k iể m l ỗ i c h í n h tả k h ô n g tầ m th ư ờ n g v à c ó t í n h ứ n g d ụ n g c a o . C á c c h ư ơ n g t r ì n h s o ạ n th ả o v à x ử l ý v ă n b ả n r ấ t c ầ n t ín h n ă n g s o á t l ỗ i c h ín h tả tự đ ộ n g đ ể g iú p n g ư ờ i sử d ụ n g g iả m th ờ i g ia n v à c ô n g s ứ c b ỏ ra . C á c c h ư ơ n g t r ì n h n h ậ n d ạ n g v ă n b ả n c ũ n g c ầ n t í n h n ă n g n à y đ ể n â n g c a o c h ấ t lư ợ n g n h ậ n d ạ n g . M ộ t c h ư o n g t r ì n h k iể m l ỗ i c h ín h tả c ó h a i c h ứ c n ă n g là s o á t l ỗ i v à g ợ i ý . C h ứ c n ă n g s o á t l ỗ i sẽ c h ỉ ra c á c â m t iế t s a i, c ò n c h ứ c n ă n g g ợ i ý th ì đ ư a ra d a n h s á c h ứ n g c ử v iê n â m t iế t đ ú n g v ớ i m ỗ i â m t iế t s a i đ ư ợ c t ì m ra . M ộ t s ố c h ư ơ n g t r ì n h k iể m l ỗ i c h ín h tả t iế n g V i ệ t t h ô n g d ụ n g là : V ie t R e s : Đ â y là b ộ g õ t iế n g V iệ t c ó c h ứ c n ă n g k iể m l ỗ i c h í n h tả â m t iế t , c h ạ y tr ê n h ệ đ iề u h à n h D O S n ê n h iệ n g iờ k h ô n g c ò n đ ư ợ c s ử d ụ n g p h ổ b iế n . - V ie t S p e ll 2 0 0 0 : C h ư ơ n g t r ì n h k iể m l ỗ i c h ín h tả t iế n g V i ệ t m ứ c từ v ự n g ( d ĩ n h iê n là c ả â m t iế t ) . 2 . G ió i th iệ u c á c p h ư ơ n g p h á p k iể m lỗ i c h ín h tả T a c ó th ế c h ia c á c p h ư ơ n g p h á p k iể m l ỗ i c h ín h tả t h à n h h a i lo ạ i là p h ư ơ n s p h á p d ự a tr ê n lu ậ t v à p h ư ơ n ẹ p h á p th ố n g k ê . T r o n g k h o ả n g h ơ n m ư ờ i n ă m v ừ a q u a , n h iề u p h ư ơ n e p h á p k iể m l ỗ i c h ín h tả t iế n g A n h b ằ n g t h ố n g k ê đ ã đ ư ợ c đ ề x u ấ t. N h ữ n g p h ư ơ n g p h á p n à y x e m x é t v ấ n đ ề k iể m l ỗ i c h í n h tả h o ặ c tr ự c tiế p , h o ặ c g iá n tiế p b ằ n g c á c h q u i n ó v ề b à i to á n x ử l ý n h ậ p n h ằ n g từ v ự n e . 5 M ộ t s ố n g h iê n c ứ u sử d ụ n g m ô h ìn h k ê n h n h iễ u n h ư M a y s v à c ộ n g sự ( 1 9 9 0 ) , C h u r c h v à G a le ( 1 9 9 1 ) , B r i l l v à M o o r e ( 2 0 0 1 ) . M ô h ì n h k ê n h n h iễ u r ấ t tổ n g q u á t v à c ó k h ả n ã n g á p d ụ n g c h o n h iề u v ấ n đ ề k h á c n h a u , v ề tr ự c g iá c , k ê n h n h iễ u là m ộ t k ê n h t r u y ề n t h ô n g m à th ô n g t in tr u y ề n q u a c ó th ể b ị n h iễ u v à k h ó n h ậ n d ạ n g đ ư ợ c th ô n g t in đ ú n g . G iả sử o là từ ta n h ậ n đ ư ợ c ở c u ố i k ê n h , ta c ầ n đ o á n từ đ ã đ ư ợ c tr u y ề n đ i. G iả sử V là từ v ự n g c ủ a n g ô n n g ữ , k h i đ ó : A w = a rg m a x P(w I o ) W€V th e o c ô n g th ứ c B a y e s : P(0) th ê m v à o đ ó , v ì P ( O ) là n h ư n h a u v ớ i m ọ i w th u ộ c V n ê n : A w = a rg m a x P (0 1 W€V M a y s ( 1 9 9 0 ) t í n h P ( O lw ) sử d ụ n g th u ậ t to á n M in im u m - e d it - d is t a n c e ( ta sẽ n g h iê n c ứ u ở c h ư ơ n g s a u ), c ò n P ( w ) đ ư ợ c ư ớ c lư ợ n g b ằ n g m ô h ì n h n g ô n n g ữ t r ig r a m từ (word trigram). Y a r o w s k y ( 1 9 9 4 ) á p d ụ n g d a n h s á c h q u y ế t đ ịn h đ ể n h ậ n d ạ n g từ đ ú n g . Ư u đ iể m c ủ a p h ư ơ n g p h á p n à y s o v ớ i p h ư ơ n g p h á p tr ê n là k h ả n ă n g sử d ụ n g n h iề u lo ạ i t r i th ứ c n e ô n n g ữ , k h ô n e c h ỉ là t r ig r a m . Đ iể m đ ặ c b iệ t là n ó r a q u y ế t đ ịn h c h ỉ d ự a tr ê n m ộ t d ấ u h iệ u t in c ậ y n h ấ t. G o ld in s ( 1 9 9 5 ) đ ề x u ấ t p h ư ơ n g p h á p la i B a y e s , sử d ụ n g h à m p h â n lo ạ i B a y e s " n g â y th ơ " . P h ư ơ n g p h á p n à v c ũ n e c ó k h ả n ă n s sử d ụ n s n h iề u lo ạ i t r i th ứ c n g ô n n g ữ n h ư d a n h s á c h q u y ế t đ ịn h n h ư n c n ó ra q u y ế t đ ịn h d ự a tr ê n k ế t h ợ p n h iề u d ấ u h iệ u . G o ld in g v à S c h a b e s ( 1 9 9 6 ) k ế t h ợ p m ô h ì n h t r ig r a m từ lo ạ i v à h à m p h â n lo ạ i B a y e s . T rư ớ c t iê n , m ô h ì n h t r is r a m x á c đ ịn h từ lo ạ i đ ú n s tạ i v ị t r í đ a n c x é t d ự a v à o n g ữ c ả n h , n ế u c ò n n h ậ p n h ằ n g t h ì p h ư ơ n g p h á p la i B a v e s sẽ x ử l ý tiế p . G ầ n đ á y h ơ n , c ó c á c p h ư ơ n g p h á p : h ọ c d ự a tr ê n b iế n đ ổ i ( M a n g u v à B r i l l , 1 9 9 7 ) , p h â n tíc h n g h ĩa ẩ n ( J o n e s v à M a r t in , 1 9 9 7 ) , d if f e r e n t ia l- g r a m m a r s ( P o w e r s , 1 9 9 7 ) , W in n o w - b a s e d ( G o ld in g v à R o th , 1 9 9 9 ), v à k h ô i p h ụ c c ố k ế t từ v ự n e ( H ir s t v à B u d a n it s k y , 2 0 0 1 ) . 6 C á c p h ư ơ n g p h á p k iể m l ỗ i c h ín h tả t iế n g V i ệ t d ự a tr ê n lu ậ t đ ư ợ c n g h iê n c ứ u k h á n h iề u , ở m ứ c â m t iế t , p h ư ơ n g p h á p sử d ụ n g lu ậ t c ấ u tạ o â m t iế t k ế t h ợ p v ớ i từ đ iể n á m t iế t c h o k ế t q u ả t ố t n h ấ t ( P h ạ m H ồ n g N g u y ê n , 1 9 9 8 ) . Â m t iế t v à o sẽ đ ư ợ c p h â n lo ạ i b ằ n g c á c h p h â n t í c h c ấ u tạ o v à tr a từ đ iể n , c á c lo ạ i c ó th ể c ó là : sai cấu tạo, đúng cảu tạo nhưng không có trong từ điển, có trong từ điển, sai cấu tạo nhưng có thể là lừ tiếng nước ngoài. Ví du: S ai c ấ u tạ o : te t Đ ú n g c ấ u tạ o n h ư n g k h ô n g c ó tr o n g từ đ iể n : h ư ờ n C ó tr o n g từ đ iể n : v ịt S a i cấ u tạ o n h ư n g c ó th ể là từ tiế n g nư ớ c n g o à i: fo r e ig n M ứ c k iể m l ỗ i n à y k h ô n g b ắ t đ ư ợ c c á c l ỗ i từ s a i n h ư n g â m t iế t đ ú n g v ì k h ô n g sử d ụ n g th ô n g t i n n g ữ c ả n h . ở m ứ c từ v ự n g , c á c l ỗ i s a i từ s h é p c ó th ể đ ư ợ c b ắ t d ự a v à o từ đ iể n t iế n g V i ệ t ( L ư u H à X u y ê n , 2 0 0 0 ) . P h ư ơ n g p h á p n à y c ó ư u đ iể m là đ ơ n g iả n v à b ắ t k h á t ố t c á c l ỗ i từ g h é p ở m ứ c đ ộ k iể m t r a n h ỏ ( n h ỏ h ơ n 3 th e o V ie t s p e ll 2 0 0 0 ) . N h ư ợ c đ iể m là k h ô n g b ắ t đ ư ợ c l ỗ i từ đ ơ n v à h a y b á o l ỗ i s a i ở m ứ c đ ộ k iể m tr a lớ n ( th e o V ie t s p e ll 2 0 0 0 ) v ì q u á ư u t iê n từ g h é p . C ó m ộ t s ố n g h iê n c ứ u ứ n g d ụ n g p h â n t íc h c ú p h á p t r o n s k iể m l ỗ i c h í n h tả . C á c th u ậ t to á n E a r le y v à C Y K đ ã đ ư ợ c d ù n g đ ể p h â n t íc h c ú p h á p t iế n g V i ệ t p h ụ c v ụ c h o k iể m l ỗ i c h í n h tả ( N s u y ễ n C ô n g T ú , 1 9 9 8 ) ( L ê T h a n h H ư ơ n g , 1 9 9 9 ) , n h ư n g k ế t q u ả th ự c n ơ h iệ m đ ã k h ô n g c h ỉ r õ đ ư ợ c h iệ u q u ả c ủ a p h ư ơ n g p h á p n à y . C h o đ ế n n a y c h ư a c ó n g h iê n c ứ u n à o ứ n g d ụ n g p h â n tíc h n g ữ n g h ĩa v à n g ữ d ụ n g c h o k iể m l ỗ i c h ín h tả t iế n g V iệ t . 3 . T iế p c ậ n c ủ a c h ú n g tỏ i M ộ t n h ư ợ c đ iể m c h u n g c ủ a c á c c h ư ơ n g t r ì n h k iể m l ỗ i c h í n h tả t iế n g V i ệ t h iệ n n a y là k h ô n g c ó k h ả n ã n g h ọ c ( v ì sử d ụ n g p h ư ơ n g p h á p d ự a tr ê n lu ậ t ) , th ê m v à o đ ó c á c lo ạ i t r i th ứ c n e ô n n g ữ đ ư ợ c k h a i th á c là r ấ t h ạ n c h ế . 7 L u ậ n v ă n n à y lự a c h ọ n h a i p h ư ơ n g p h á p c ủ a Y a r o w s k y ( 1 9 9 4 ) v à G o ỉd in g ( 1 9 9 5 , 1 9 9 6 ) đ ể á p d ụ n g c h o tiế n g V iệ t . N h ữ n g p h ư ơ n g p h á p n à y t h u ộ c t iế p c ậ n d ự a tr ê n th u ộ c t í n h (feature-based method). Ư u đ iể m n ổ i b ậ t c ủ a n ó là k h a i th á c n h iề u lo ạ i t r i th ứ c n g ô n n g ữ v à c h ỉ y ê u c ầ u c o r p u s c h o h u ấ n lu y ệ n . Q u á t r ì n h h u ấ n lu y ệ n sẽ r ú t ra ( extract) n h ữ n g t r i th ứ c c ầ n t h iế t c h o v iệ c k iể m l ỗ i . H ơ n n ữ a , k h ả n ă n g h ọ c là m c h o c h ư ơ r m t r ì n h c ó th ể th íc h n g h i v ớ i sự th a y đ ổ i k h ô n s n g ừ n g c ủ a n g ô n n g ữ v ớ i ít đ ò i h ỏ i v ề s ứ c n g ư ờ i. 4 . M ộ t sỏ p h ư ơ n g p h á p h ọ c m á y th ố n g k ê tr o n g N L P N h iề u v ấ n đ ề t r o n g N L P c ó th ể đ ư ợ c p h á t b iể u lạ i (re-formulated) n h ư b à i to á n p h â n lo ạ i. T r o n g đ ó c ô n g v iệ c là q u a n s á t m ộ t " r m ữ c ả n h " n g ô n n g ữ b e B n à o đ ó v à d ự đ o á n " lớ p " n g ô n n g ữ a e A c h ín h x á c . C ô n g v iệ c n à y b a o g ồ m x â y d ự n g m ộ t h à m p h â n lo ạ i c l : B - * A m à h o á ra c ó th ể đ ư ợ c th ự c h iệ n v ớ i m ộ t p h â n p h ố i x á c s u ấ t đ iề u k iệ n p , P(a I b) là x á c s u ấ t c ủ a " ló p " a k h i c h o trư ớ c " n g ữ c ả n h " b n à o đ ó . N g ữ c ả n h t r o n g c á c b à i to á n N L P b a o g ồ m ít n h ấ t là c á c từ , v à n g ữ c ả n h c h ín h x á c p h ụ th u ộ c v à o b ả n c h ấ t c ủ a v ấ n đ ề . V ớ i m ộ t s ố v ấ n đ ề , n g ữ c ả n h b c ó th ể c h ỉ là d u y n h ấ t m ộ t từ , t r o n g k h i ở c á c b à i to á n k h á c , b b a o g ồ m m ộ t v à i từ v à n h ã n c ú p h á p tư ơ n g ứ n g . C á c c o r p u s v ă n b ả n lớ n th ư ờ n g c h ứ a m ộ t s ố th ô n g t in v ề sự đ ổ n g x u ấ t h iệ n c ủ a " c ủ a " a v à " c ủ a " b , n h ư n g k h ô n g b a o g iờ đ ủ đ ể m ô tả t in c ậ y P(a I b) v ớ i m ọ i c ặ p ( a ,b ) . D o đ ó th á c h th ứ c là t ì m m ộ t p h ư ơ n s p h á p s ử d ụ n g c á c d ấ u h iệ u c ụ c b ộ (j->ơrriơl) v ề " c ủ a " a v à " c ủ a " b đ ể ư ớ c lư ợ n g t i n c ậ y m ô h ì n h x á c s u ấ t p . P h ầ n n à y g iớ i th iệ u m ộ t s ố m ô h ì n h h ọ c m á y th ố n g k ê t ổ n g q u á t, k h ô n g p h ụ th u ộ c v à o lĩ n h v ự c h a y ứ n s d ụ n g . G iả sử : - A là tậ p c á c b iế n c ố ( d ự đ o á n ) c ó th ể c ó B là tậ p c á c n s ữ c ả n h c ó th ể c ó . - T ậ p c á c v ị từ n g ữ c ả n h CP = {c p , ,...,cpm} , t r o n g đ ó m ỗ i h à m cpị : B —>{true, false) c h o b iế t c ó h a y k h ô n g th ô n g t i n h ữ u íc h t r o n g n g ữ - cảnhb e T ậ p h u ấ n lu y ệ n T = {(ax,b\),...(aN,bN) } , t r o n g đ ó bL € B B nà o đó. là n g ữ c ả n h v à aị 6 A < là lớ p đ ú n g c ủ a n ó . C h ú n g t ô i c ũ n g g iả s ử r ằ n g c á c k ỹ th u ậ t h ọ c m á y ở đ â v s ử d ụ n e tậ p h u ấ n lu y ệ n đ ể t ín h tầ n s u ấ t đ ồ n e x u ấ t h iệ n g iữ a b iế n c ố a n à o đ ó v ớ i g iá t r ị c h â n l ý c ủ a v ị từ n g ữ 8 c ả n h c p (. ( b ấ t k ỳ ) đ ư ợ c á p d ụ n g c h o m ộ t n g ữ c ả n h b (tứ c là t í n h tầ n s u ấ t c ủ a (a,cpị(b))). 4.1 H à m p h â n loại B a y e s " n g â y thơ" H à m p h â n lo ạ i B a y e s n g â y th ơ đ ư ợ c d ẫ n x u ấ t từ lu ậ t B a v e s , v à g iả t h iế t đ ộ c lậ p x á c s u ấ t m ạ n h v ề d ấ u h iệ u đ ư ợ c q u a n s á t. N ó đ ã đ ư ợ c s ử d ụ n g c h o c á c ứ n g d ụ n g N L P n h ư là p h â n lo ạ i v ă n b ả n (text categorization) ( L e w is v à R in g u e t t e , 1 9 9 4 ) , x ử lý n h ậ p n h ằ n g n g h ĩa c ủ a từ ( G a l e , 1 9 9 2 ) . T h e o lu ậ t B a y e s : P{b) Sử d ụ n g n ó đ ể x â y d ự n g m ộ t h à m p h â n lo ạ i; clbayes : B —» A cIbayes(b) = asr m a x P(b I ơ)P(a) aeA N ó i c h u n g , v iệ c t í n h tr ự c tiế p ( explicit) P(b I a) là k h ô n s th ể d o d ữ liệ u th ư a , v ì v ậ y n g ư ờ i ta th ư ờ n g d ù n g g iả t h iế t đ ộ c lậ p x á c s u ấ t m ạ n h : P(b I a) = P({cpị(b) I cpị(b) = true} I a) = Y[P{cp,{b)\a) ( i.c p ị b ) = tru e T a c ó th ể t í n h tr ự c t iế p c á c x á c s u ấ t P[cpt(b) I a) từ c á c tầ n s u ấ t ( a,cpt(b)) m à k h ô n g c ầ n th u ậ t to á n x ấ p x ỉ lặ p . 4.2 D a n h s á c h q u y ế t đ ịn h Y a r o w s k y ( 1 9 9 6 ) á p d ụ n g k ỹ th u ậ t h ọ c m á y d a n h s á c h q u y ế t đ ịn h c h o v ấ n đ ề x ử l ý n h ậ p n h ằ n e n g h ĩa c ủ a từ , sử d ụ n g c á c k ỹ th u ậ t h ọ c c ó s iá m s á t v à k h ô n g g iá m s á t. C á c d a n h s á c h q u y ế t đ ịn h tr o n g [ Y a r o w s k y , 1 9 9 6 ] x ế p h ạ n g c ó h iệ u q u ả c á c d ấ u h iệ u k h á c n h a u th e o đ ộ t in c ậ y , c á c b iế n c ố te s t c h ư a b iế t đ ư ợ c p h â n lo ạ i b ở i c h ỉ m ộ t d ấ u h iệ u t in c ậ y n h ấ t c ó h iệ u lự c . N ế u k h ô n g g ia n b iế n c ố c h ỉ c ó h a i p h ầ n tử , tứ c là A = {a',a" ) , đ ộ t in c ậ y c ủ a m ỗ i v ị từ n g ữ c ả n h cpị đ ư ợ c c h o b ở i: lo g - P(a' I cp (b) = true) P ( ữ " | cpị(b) = true) T v s ố n à y đ ư ợ c d ù n g đ ể tạ o ra m ộ t d a n h s á c h đ ư ợ c s ắ p c ủ a c á c v ị từ n g ữ c ả n h v à c á c b iế n c ố { ( c / 7 j , a , (cpn,a n ) } , tr o n g đ ó : a,- = a r g m a x P(a I cpí(b) = true). K h i p h â n lo ạ i m ộ t tr ư ờ n g h ợ p te s t b , k ỹ th u ậ t d a n h s á c h ° q u y ế t đ ịn h c h ọ n b iế n c ố aị tư ơ n s ứ n g v ớ i v ị từ đ ầ u tiê n tr o n g d a n h s á c h th o ả m ã n cpị(b) = true. K v th u ậ t d a n h s á c h q u y ế t đ ịn h c h o p h é p ta s ử d ụ n g n h iề u lo ạ i d ấ u h iệ u k h á c n h a u , n h ư n g c u ố i c ù n g c h ọ n b iế n c ố c h ỉ d ự a tr ê n m ộ t d ấ u h iệ u t i n c ậ y . 9 4 .3 N ộ i s u y N ộ i s u y tu y ế n t í n h là c á c h p h ổ b iế n đ ể k ế t h ợ p c á c ư ớ c lư ợ n s đ ư ợ c d ẫ n x u ấ t từ n h iề u d ấ u h iệ u k h á c n h a u . V í d ụ , n ó đ ư ợ c sử d ụ n g r ộ n g r ã i t r o n g m ô h ì n h n g ô n n g ữ , tr o n g đ ó m ụ c tiê u là t ín h P(Wị I W;_2WM ) b ằ n g c á c h k ế t h ợ p c á c ư ớ c lư ợ n g c ủ a m ộ t s ố p h â n p h ố i th à n h p h ầ n : P(w, I w,._2w w ) = V U w , ) + V 2( w i I Wi-1 ) + ¿3^3 ( w / I w /-2 Wí-1) ở đ â y Ằị > 0 v à Ắ, = 1 . Í=1 M ỗ i p h â n p h ố i th à n h p h ầ n p đ ư ợ c ư ớ c lư ợ n g tr ự c t iế p từ c á c tầ n s u ấ t th ô c ủ a d ữ liệ u h u ấ n lu y ệ n v à m ỗ i Ẫị là m ộ t " t r ọ n g s ố " p h ả n á n h tầ m q u a n t r ọ n g c ủ a p h â n p h ố i th à n h p h ầ n tư ơ n g ứ n g v ớ i n ó . C á c tr ọ n g s ố đ ư ợ c t í n h s a o c h o c ự c đ ạ i k h ả n ă n g x ả y ra c ủ a d ữ l iệ u h e ld - o u t [J e lin e k , 1 9 9 0 ]. K ỹ th u ậ t n à y c ó th ể đ ư ợ c tổ n g q u á t h o á đ ể k ế t h ợ p s ố lư ợ n g t u ỳ ý c á c m ô h ìn h x á c s u ấ t: Pifl I b) = Ỵ ,ẢiPM I cPÁb) = true) i ở đ â y Pị(a I cpị(b) = true) là p h â n p h ổ i x á c s u ấ t đ iề u k iệ n đ ư ợ c d ẫ n x u ấ t từ c á c tầ n s u ấ t c ủ a (a,cp.(b)) tr o n g tậ p h u ấ n lu y ệ n , v à m ỗ i v ị từ cpi k ế t h ợ p v ớ i m ộ t Xị m à đ á n h t r ọ n g s ố ư ớ c lư ợ n g P(a I cp.ịb) = true) v ớ i a e À . K ỹ th u ậ t n ộ i s u y k h ô n g g iả t h iế t g ì v ề b ả n c h ấ t b ê n d ư ớ i c ủ a c á c m ô h ìn h m à n ó k ế t h ợ p , d o đ ó n ó là m ộ t p h ư ơ n g p h á p r ấ t tổ n g q u á t đ ể tíc h h ợ p d ấ u h iệ u . 10 C H Ư Ơ N G N G Ữ 2 : M Ộ T P H Á P § ố Đ Ặ C T IẾ N G Đ IỂ M V IỆ T C h ư ơ n ẹ n à y t r ì n h b à y m ộ t s ố đ ặ c đ iể m n g ữ p h á p t iế n g V i ệ t v ớ i t r ọ n g tâ m là n h ữ n g đ ố i tư ợ n g n g ô n n g ữ sẽ đ ư ợ c k h a i th á c c h o m ụ c đ í c h k iể m l ỗ i c h í n h tả . M ỗ i đ ố i tư ợ n g sẽ đ ư ợ c t r ì n h b à y c ù n g v ớ i v ấ n đ ề tư ơ n g ứ n g t r o n g N L P . 1 . Đ ặ c đ iể m tiế n g V iệ t T iế n g V i ệ t th u ộ c h ọ N a m á v à là m ộ t n g ô n n g ữ đ ơ n lậ p . T r o n g t iế n g V i ệ t , q u a n h ệ g iữ a c á c từ đ ư ợ c b iể u t h ị k h ô n g p h ả i b ằ n g c á c p h ụ t ố c h ứ a t r o n g b ả n th â n từ m à b ằ n e n h ữ n g p h ư ơ n g t iệ n n ằ m n g o à i từ n h ư t r ậ t tự từ , h ư từ . Đ ặ c đ iể m n à y b a o q u á t n g ữ p h á p t iế n g V i ệ t c ả v ề n g ữ á m , n g ữ p h á p v à n g ữ n g h ĩa . 2 . C á c đ o n v ị c ủ a tiế n g V iệ t 2.1 Tiến g G iá t r ị n g ữ â m : T iế n g là â m t iế t. K h i n ó i, c ứ p h á t â m m ộ t h ơ i là th à n h m ộ t â m t iế t . V ề c h ữ v iế t , m ỗ i â m t iế t đ ư ợ c g h i th à n h m ộ t c h ữ . C ấ u tạ o : P h ụ â m đ ầ u , v ầ n , p h ụ â m c u ố i, d ấ u th a n h . B ả n g c á c th à n h p h ầ n á m t iế t : Phu âm đầu b c d đ g h k 1 m n q r s t V X c h g h g i k h n g n h p h q u th t r n g h N guyên âm a â ă e ê i o ô ơ u ư y a i ao au a y âu â y e o é u ia iu iê o a o i oe o ă o o ô i ơ i u a u y u i u â u ỏ uê u ơ ưa ư i ươ ưu y é iê u o a i o a o o a y o e o u ó i u â y u y é ươi ươu u y a u y u uêu yêu Phụ ám cuối c p t m n ch ng nh D ấ u th a n h h u y ề n , h ỏ i. n g ã , sắc, n ặ n g G iá t r ị n g ữ n g h ĩa : T iế n g là đ ơ n v ị n h ỏ n h ấ t c ó th ể c ó n g h ĩa . G iá t r ị n g ữ p h á p : T a đ ã b iế t n g ữ p h á p g ồ m n h ữ n g q u i tắ c c ấ u tạ o từ , c ấ u tạ o c â u . T iế n g là đ ơ n v ị n g ữ p h á p d ù n g đ ể c ấ u tạ o từ . 11 2.2 T ừ T ừ là đ ơ n v ị đ ể đ ặ t c â u . T ừ t iế n a V i ệ t c ó đ ặ c tr ư n g là đ a â m t iế t . X u n g q u a n h v iệ c x á c đ ịn h t h ế n à o là từ tiế n g V i ệ t c ò n n h iề u tr a n h c ã i. T u y n h iê n c ó c á c đ iể m s a u th ư ờ n g đ ư ợ c t h ố n g n h ấ t ( Đ in h Đ i ề n , ... 2 0 0 1 ) : - V ề m ặ t h ì n h th ứ c : từ là m ộ t k h ố i th ố n g n h ấ t v ề c ấ u tạ o ( v ề c h ín h tả , n g ữ â m , V .V .). V ề n ộ i d u n g : từ c ó n g h ĩa h o à n c h ỉn h . - V ề k h ả n ă n g : từ c ó k h ả n ă n g h o ạ t đ ộ n g tự d o v à đ ộ c lậ p v ề m ậ t c ú p h á p . H a i p h ư ơ n s ; th ứ c c ấ u tạ o từ c h ủ y ế u là láy v à ^hép-. L á y là s ắ p đ ặ t c á c t iế n g th à n h đ ô i, k ế c ậ n n h a u v à s a o c h o c ó p h ố i h ợ p n c ữ â m . Sự p h ố i h ợ p n g ữ â m n à y tạ o n ê n n g h ĩa c ủ a từ láy. V í d u : lo n g la n h , c h ậ p c h ờ n , ... - G h é p là s ắ p đ ặ t c á c t iế n g th à n h đ ô i, k ế c ậ n n h a u v à s a o c h o c ó p h ố i h ợ p n g ữ n g h ĩa . S ự p h ố i h ợ p n g ữ n g h ĩa n à y tạ o n ê n n g h ĩa c ủ a từ ghép. V í d u : n h à c ử a , ă n ở , n o ấ m , x e đ ạ p , ... B à i t o á n : K h á c v ớ i t iế n g A n h , p h â n đ o ạ n từ (word segmentation) tr o n g tiế n g V iệ t là b à i to á n k h ó , đ ã c ó m ộ t s ố n g h iê n c ứ u v ề v ấ n đ ề n à y . N h ậ n d ạ n g từ lá y v à r ú t ( extraction) từ m ớ i tự đ ộ n g d ự a v à o c o r p u s c ũ n g là c á c b à i to á n h a y . X á c đ ịn h từ lo ạ i c ủ a c á c từ t r o n g c â u là b à i to á n c ó n h iề u ứ n g d ụ n g . 2.3 Cảu T r o n g n g ô n n e ữ , c ấ u là đ c m v ị ở b ậ c c a o h ơ n c ả . H a i đ ặ c đ iể m c ủ a c â u là c ó n g h ĩa h o à n c h ỉn h v à c ấ u tạ o r ấ t đ a d ạ n g . B à i t o á n : P h á n t í c h c ú p h á p (syntactic parsing) là b à i to á n c ơ b ả n c ủ a N L P , h iệ n n a y c á c k ế t q u ả v ề p h â n t í c h c ú p h á p t iế n g V i ệ t c ò n r ấ t ít. 3 . M ộ t s ô đ ô i tư ợ n g n g ô n n g ữ m à lu ậ n v ă n s ẽ k h a i th á c C á c đ ố i tư ợ n g n g ô n n g ữ sẽ đ ư ợ c x e m x é t tr o n g n h ữ n g p h ầ n s a u là : tiế n g , từ , từ lo ạ i, c o llo c a t io n . 12 3.1 Tiếng B ằ n g c á c h p h â n t í c h c ấ u tạ o m ộ t â m t iế t , ta c ó th ể tạ o r a tậ p n h ầ m lẫ n c ủ a n ó v ớ i n g ư ỡ n g k h o ả n g c á c h s o ạ n th ả o n h ỏ n h ấ t c h o trư ớ c ( k h o ả n g c á c h s o ạ n th ả o n h ỏ n h ấ t g iữ a â m t iế t g ố c v à m ỗ i â m t iế t th u ộ c tậ p n h ầ m lẫ n k h ô n g v ư ợ t q u á n e ư ỡ n g n à y ). 3.2 Từ và từ loại - T ừ v à từ lo ạ i là đ ơ n v ị t r i th ứ c tr o n g k iể m l ỗ i c h ín h tả c ả m n g ữ c ả n h . T h e o T ừ đ iể n T iế n g V i ệ t ( H o à n g P h ê , ... 2 0 0 2 ) , c ó tá m từ lo ạ i s a u : d a n h từ ( d ) , đ ộ n g từ ( đ g ) , t í n h từ ( t ) , đ ạ i từ ( đ ) , p h ụ từ ( p ) , k ế t từ ( k ) , tr ợ từ ( t r ) , c ả m từ ( c ) . K h ô n g p h ả i t ổ h ợ p từ lo ạ i n à o c ũ n g là h ợ p lệ , v ấ n đ ề x á c đ ịn h tự đ ộ n g từ lo ạ i c ủ a c á c từ t r o n g c â u s ọ i là POS-tagger. Ví du: C â u v à o : T ô i ăn c ơ m C h u ỗ i từ lo ạ i: T ô i/đ ă n /đ g c ơ m /d C á c m ẫ u từ lo ạ i đ ư ợ c c o i là th u ộ c tín h v à d ù n g đ ể s u y d iễ n . C h ẳ n g h ạ n đ i s a u c á c p h ụ từ n h ư " đ ã " h a y " đ a n g " th ư ờ n g là đ ộ n g từ , đ i s a u c á c p h ụ từ n h ư " c á c " h a y " n h ữ n g " th ư ờ n g là d a n h từ , v .v . - T ừ c h é p c ũ n g là d ấ u h iệ u đ ể k iể m l ỗ i , b ở i v ì k h i m ộ t â m t i ế t sai- th ì. từ g h é p c h ứ a n ó sẽ c h o ta t h ô n g t i n đ ể s u y đ o á n . B ở i v ì từ là đ ơ n v ị đ ể tạ o c â u n ê n m ọ i c â u t iế n g V i ệ t đ ề u c h ia đ ư ợ c th à n h d ã y từ . N ế u m ộ t c â u k h ô n e c ó tín h c h ấ t đ ó t h ì c ó th ể n ó b ị lỗ i. 3.3 Collocation và các tù ngữ cảnh - C o llo c a t io n là c á c từ đ i v ớ i n h a u ( k h ô n g n h ấ t t h iế t p h ả i k ề n h a u ) m ộ t c á c h c h ắ c c h ắ n . M ứ c đ ộ c h ắ c c h ắ n n ằ m g iữ a k h o ả n g c ụ m từ v à th à n h n g ữ . Vỉ du: c h ạ y c h ư ơ n g t r ì r ih , ả n h đ ộ n g , ... - T ừ n g ữ c ả n h là c á c từ th ư ờ n g x u ấ t h iệ n c ù n g n h a u t r o n g m ộ t n g ữ c ả n h n h ấ t đ ịn h . Ví du: m á y t í n h , f i l e , c h ư ơ n g t r ì n h , d ữ liệ u , V .V .; t iề n , n g á n h à n g , tà i k h o ả n , v .v . 13 ChưoTig 3: T r o n t h ể g x u b ả n T r ê n h a y A n y ế t m t h P t i ế n g V t ự x u c x ử ó y ê g ô n n h i ề u n g u ữ t ự n l o ạ i c ầ u g i ớ i h á p ạ d ự l ý g c ô h c o i ê n b ằ n g t h s k h á c n c o r p u s r p m ộ t l o ạ i ữ n g t ổ a c n ặ à o đ ó n h n o u p h ủ ố d u a n g t h ữ h ụ n n c ố h n g k a u , t u ỳ t h í c h h ê ợ ( S N t h p 1 . u L L P ộ c u ậ ) , c o r p b à i n v ã u s u t o n s l à á n n à h o v y t à i à y p ê n h ư u g ơ c u y n ê g n h ô n g h á p g i ả i c o r p u s v ă n n h ầ a p k m h ạ h ê i n n c h n o t h ô . t ự đ h D u ư n g L o ó ộ t c , t r o n g h i ệ n c ấ p C t h í đ c D i ề u c á c ộ n g m v ă n r i ê n g . v y i ệ n c l ấ y c á c u g h O ư ơ n r p u s T o r p A , v . v . c a í a l o m c ủ a à y e n c C s á c s ả n l u đ m p ậ n ư ợ ụ c n g h ẩ v ã n , c d à n đ í c h ô n n m c h g c h ú đ ể ữ ủ n g n a h h g i ê n ư ọ g i ớ i u t i ế n g n t ô i c ứ h đ ã ư n g p h ả i t h i ệ u v ề c o r p u s . t ạ o t ừ h g v ụ t r ê n i l à c ả n l i ệ u , h ơ c b a h ư ứ x u ấ t p ự c h c ă k d r i ê n u v ả i d m ể s a l ý ẩ Đ i ệ c c t ừ Q í t . v p ử h g r p g g x h p r ấ t ề v à d r u đ n t ừ T n n s ả n t h ì v à t ử n , i ệ t s c ó t r i ể n v ấ n điện o ế â y r p đ C à p h á t h á n t h ô . , C l ý t h i ế u . q c o ử CORPUS T ấ n b r o đ n ề ả n g k h , đ ó c o c h ó , u y g ắ t n c h ỉ đ ể ư v n m ă n b ả n ã n g ắ t h â n c â u ợ c , , p g i ả i q u t h ô l à c â u , t í c h y g ì ? p h t ừ ế t c ầ n c v ă à m â B n t ố , t u y ệ t ắ t đ t í c h p h đ ố i â n ầ u t ừ d ạ n t ừ t ố , p h â n ạ t ừ n ế đ u o l à n m b g v à ằ n g t a y . 1. Các yêu cầu chính cho công việc SNLP Đ ó M l à á y o h C ó đ ể y x r p u s : t á c C á t í n h , t í n h : t o á n C m p ư ơ h ẩ n C ử C l ý o r p v ã n m g n h a i á à y ụ n g đ ị n h P h á n m é m d : c c o r p c h ú n g u s h l à ọ c h ỉ l o ạ i d c á c c o r p k ạ n g v T r ì n h c s ã r p u s t h h o d v . v . ) ề u o u s ư v à ờ n p h ầ n g c ó l i ệ u v ề m k ề m í c h . t h ư ớ c l ớ n d o đ ó d ạ n h i ề u t à i n g u y ê n t í n h b à i b á o , . c , đ c ậ p l à c n b ả s o ạ n ữ h a đ ế n o r p u s t h ô h ặ c l à n t h o ả o y â c o m r p v ă n u n g t h a n h s c h ứ v m g b ả n ô à n n ữ ( n h a d ữ c o r p u i à u , g n t r i g ô , c ó ư l à đ ể u ộ c l i ệ u s t h ư d ợ ạ c ở c n đ g đ v á n n i ệ n ă n h đ b ả n d ấ u . t h ứ c . n 14 n g ữ l ậ p t r ì n h , v . v . n b , ả n b à i ( n h b o á ư l à t i ế n g , V .V .). . V i ệ c đ á n h d ấ u c ó t á c 2. Xử lý văn bản 2.1 Định dạng mức thấp T a c ó có c l à c ô I n h ư n ơ n T 0 V đ 9 C đ ể à 3 h h đ ầ ọ ộ à ặ ể đ ợ d n g ế ể t l i ệ u l ấ v r a c á c v ạ ù c f i l e ã b h o b ộ , t r o n k h v ă n c n ả n h à , U m ã g c n ứ U n b v x o i c ơ n e , n d g e p t h ã n ả u v ă n h ứ n c h o t r ì n h ụ t h t ừ n r a h h ô b c l ý o u l ấ y ử d a ả n v à h c ầ n n ư c a t a i c h á y v i ệ c c ó a i 1 f i l e ă n i đ i ả n ữ l o ạ i g h d đ c n t ớ i ơ p g a i ư c c ó ợ n h t r ở M ạ h đ t d u c l ấ y m v Đ N m i ệ t . ) . V c á c t h í c h ã t ạ i , t r i ệ t p t r ì n h k h i i ệ n 9 ặ c ụ g t i ế n g 6 g g t e r n e t S a u H t h ể ă n ể n b ả g c ộ ả h T M n b ú n n t i ế n t i ê u c h ú n h i ệ u g v à ê n ẩ ồ n ặ c c o V X r p í d M L , t b ộ u s . ụ n D g k h i u đ o đ n c o ồ ó t a ó c ầ n r p s ẽ u s c ầ n t r o n g . n V i ệ t n n à l à s ử u đ ầ u . o à i ệ t c n h t h u n a L g t ô i o b g h V g c l i ệ u H b t i ế n c ữ l à v y d u h m l à ụ c ó q u á v ẫ n c h ư a ợ p d ự t h ố y t ổ d ộ n h g v n à g n h m ã t h n h i ề u đ ư n ợ g ấ t ố n s b c ả ộ n g á p s ẵ n m n h ấ t . d ( T t b m ộ ụ C ã n g V m N ã l à . 2.2 Cắt câu T a t h c h ỉ A n J o G d c h ư h ờ o , d h n ) , ầ n ụ n đ e k ế t ấ u n g â g n o c á u . P h ắ t u h ấ à i ư ả n c h ơ đ ộ n g â g m c â y à c r a c ó c á c v g q c y (case) n ầ c n n c l à ò n n u d à i c n n g h l ớ ủ p i ề a n i ê p y n ( 1 9 4 ; ộ ấ m h ố n t ừ ê o m c ứ t h y à l o ạ i c á c à v v ì t h ể h ứ g ó â á ú c c h h ă n đ i ề u p p u u c á c t s ố k ấ ý c â u , t ừ u g d t ố c v ề c ầ u C c m t ự c ũ ứ a c á c k ê . t r ư ớ h u v ộ à t n p á c c ó h ố ấ u h ư ơ i h c ó d u s a u k n g t h n ộ n t l ư ợ n i ề u h ấ g c ộ ư V, c t h ể c m h t h m p h á ứ u n h ‘ ! \ h d c â u , g u l ớ n s o d m đ n c ắ c â c ữ ã n c ư p h n ộ t í n h ấ c g ộ T , v í t c ị a c h ỉ t c â u . y p á c h đ ư y d h n h n h ụ ữ i ê n ư v i ế t â R i l e n l ớ t ắ t t r ư ợ ớ c c g á t r ư ớ c y b a 9 o v à n n ? ( n h t ê n ( 1 p c á c h t r o I n t e r n e t , t ừ l i ệ u u 8 9 ) 2 ồ m h ã n à y t i ế n g ư M f i l e s a u n n r . , . . . đ ã s ử c á c h m ộ c h o m ộ n a t h d ấ u u ấ n d ấ u ư ợ l u y ệ n . P a l m c â u e v m ộ t R e y E n t r o r à t h n v a p à H s ử d u ậ t t o r v y à c h ụ e a r s t n g á n R a o v m m t n ấ n a 9 ộ t m ạ n h p a r k h đ ề n à , ạ đ 1 n ộ g 9 n 9 ơ c l ậ p i ( 1 9 y v à 9 đ 7 ạ t đ r o n 7 ) ã n s ) đ ô v đ s ử n à ư ể n M ợ c đ o g ữ i k đ ộ d ụ á n n g r a n v à h e c h p e h h đ ạ t v í n ( 1 h â x n b g i ớ i đ ộ 9 9 á c ) 9 t ừ c c h 8 ố í n đ 9 ủ a h c â u . x ã . 2 l o ạ i á 5 á p % c d H c ụ a o n g ọ v đ ( 9 m ã 8 ô à x s a u â - 9 9 h ì n y d % ) . h M ự a x t đ i m u . ' Tim từ m ới, thống kê collocation cần corpus văn bản thô; phân tích cú pháp yêu cầu corpus cây cú pháp; dịch m áy thống kê yêu cầu corpus song ngữ; nhận dạng tiếng nói cần corpus tiếng nói v.v. 15 c m 2.3 Phân tích từ tô P h â n c ó t í c h t h ể t ừ l à t ố t ừ , d l à ấ u q u á c á u t r ì n h , s ố , c h i a v ã n b ả n v à o t h à n h c á c đ e m v ị g ọ i l à t ừ t ố ( m ỗ i t ừ t ố . . . ) . Ví du: C ả u C h r y s l e r K é t " m v à o : " P r e v i o u s l y , C q u ả : o r p . r o n V i ệ t g t i ế n k h C o ả " m e n A g a n a g h k n r . h r y s l e r " P r e v i o u s l y " , a r k e t i n g " , T ' s M h t r ắ n g o ả r . " , y e a r s o l d , " V i t u l l i " , " o f ' , n c h ỉ 4 3 w a s g e n e r a l m a r k e t i n g m a n a g e r o f d i v i s i o n . " " M e r ” , V i t u l l i , g " C h r y s l e r " , t r ắ n g l à d ấ " 4 3 " , u h l à d i ệ u p " C o r p . " , ấ u h h á n i ệ u đ b i ệ t ' " s " , ể á " y e a r s " , p m h â " C n " o l d " , h r y s l e r b i ệ t " w a s " , " g e n e r a l " , d i v i s i o n " , c á c t ừ , n h ư n g d o w s t r o n g t i ế n g t i ế t . Ví du: C â u K ế t v à o : q u ả : " t r o n g " , C h â m " M ư ơ n i c r o s o f t " M " W g i c r o s o f t " , i n d o w t r ì n h t i ế t , d ấ t h ừ a u p s " , h â c â u , T k k h i ế m k h u y ế t " n h ậ n " , " c á c " , v ề b ả o " k h i ế m m ậ t " , t r o n g W i n " k h u y ế t " , " v ề " , N T ” " b ả o " , " m ậ t " , " t í c h s ố , c á c " t h ừ a " , " N n n h ậ n t ừ ý t ố t i ế n g V i ệ t c ủ a d ã y h i ề u c h ú n g t ô i n h ậ n d ạ n g đ o c á c l o ạ i t ừ t ố s a u : h i ệ u . 2.4 Phản đoạn tù V ấ n t h ứ đ c ề c h b ở i i a v ì v ă n đ a b s ố ả t ừ n t i ế n t i ế n g g V i ệ t V i ệ t t h à n h t ạ o b ở i n t ừ â ( b à i m t o á n p h â n ạ n t ừ ) l à m ộ t t h á c h t i ế t . Ví du: C u m C á c t ừ : " c ủ a k h ả n ă n g " c ủ a ” , " c ủ a c ô n g " , ư ớ i đ ư ợ c p h á p á c h l a i . y c i a " n g h ệ " n g h ệ " . h ú t h M đ o a n : " n g h ệ " " c ố n g đ n g h ệ " p h â n " c ô n g " , " c ủ a " , D c ô n g ỗ n g à n i n t ô i h h ó g i ớ i c á c n m l ạ i h t h i ệ u ó c ó m c h t h ể v ề í n c h c á c p h ư l à : d ự a v à o c á c m ứ h i a r a ơ n 16 g p h á p l u ậ t , c đ ộ : p d t ừ h â ự n đ a v v ự n o à g ạ o , h n t ừ t h ố ì n h đ n g i ể n k ê , t h á i , h ì n h . c á c c ú p p C h ú n g h ư ơ n g n g ữ h á p , n g h ĩ a . t o á n M ô đ ề x v à ý v í T h ì n u ấ t t ư d u ụ h ở m a í n c g n g ư ờ i t a h i n g t r á n h d ù g ồ m h á n g tri c á c a T r u Q x ử P o x á c l m c h h i ệ n c h í n n y 9 n u t h h r a ộ , ố c 9 g g v à s u ấ t c ủ a t ừ C á i c ò n T h - W e i c r ( 1 9 m ộ t v h n đ ư o ạ c ổ h à N t ả t r ư ớ 7 ) s a n M ô 9 . ô h ì n h g ( 1 ư t i ê n T h % . ( 1 9 ể u k t i ê n n s a i t ừ n p h i ế u ớ ợ c h 9 6 ư đ á i v i a ) h h h i ệ u d à i ư c ủ a ủ h c c ư d ư n ớ t h ứ c q u á ấ t t ạ o t h h a i r a x ấ p x ỉ d n m ụ ô h c a y ủ h a p ể h m ồ n g k ề i a n g v à n h đ ể g i ả i e n g n g b à i t y X Y k ế t h ợ ộ t n g p Z " c ô n c " l ự c ô n g t h ứ M v à t ừ m ô ậ c o r p u ì n ý m t ự , h ô n g k h á c x p ậ ư ợ l i ê n s ử d ) . T b i ế n c s ử k ế t n p n ụ n h g W ê m đ ổ ạ n t ừ : ợ c p h á n đ r a m h ì n d á ư ợ h t h a t r ê n i ê n g ự b b c á c đ a ) m ứ k ô c h v à o h ì n ạ à h y ằ h s ử n ấ t a h ý t ự . ì n h ạ n n đ ể h đ ể g . d ự d ụ T a ( 1 9 t ừ c ó 9 1 ) đ i ể n t h ể l ấ y v . p n h n â g à o r a Đ đ c á c ộ đ í n t ừ ạ n đ ư a t r o p c ặ p c h o ã e n h y t ừ x á c t i ế n g r a c á c h t h á i . t c á i s ử t h l u n c h o k ế t C ó b k ộ ý y u ấ á a t ì m h o m ô v ớ i B h ạ h a i k g t ừ " đ ó , n u n T ộ l u ậ t . i ữ h S h n m M o ụ F i o k ế t d t ừ đ h a i , v ớ i ư n i - g o đ l i ê n á t ừ ( h a y t ố t h h # M h ô ạ n M ì n g t í n h l ự c đ b o B p s h t h ì đ h c c ó k t ừ á Z đ â y : " c o t h Z ọ ộ n Y ì n k r a h X d n p # h â y g t y ô h ả n L p h i ế u # c ủ a # c ô n g h h a i t r á i ) t h a x ơ o " b h k h i ư d Z t ô h ) Y l à m m c ì n i ữ à n P M X M t r ê n g g i á g c ó n h à o M M # n ộ B t y M m H a ọ r a ư t , q u ả . h i c ô n g F c h a ư ộ n ó . ợ đ m a ư n ĩ a đ ệ ậ t n a d t ự , v à c n â ụ u ằ ả W á n g d ị c h g c ợ a T v ớ i m l a m t o á n h ơ n . c ư S t h u ậ t l u ậ t đ g F t h t ố t n ó g n ạ n n t o b q l u ậ t c d h u c c h í n h y n b i ê n n a o ể h ờ c h ấ t h l ư l à : u ấ n ợ n g l ê n . g i ó i n đ ợ ( h y g c s ử r a ) r u p c t á c 9 n é ) ả i à ầ đ 6 a n c o ị o h đ ố i t i ế n g c e n 9 g 9 h h l ạ i p h 9 p ư m g ì n 9 đ đ ị n t ừ ( 1 b i ê n t h ờ i m h h t h r o f t ) . đ . 0 ( c ó r i ê n ) s ự C e â l à 1 0 0 t ừ 9 n 4 à n a u l à c 9 v à l u y ệ n . e ( 1 c á c t ê n n a n a v à a h ó v à u a # c h o # t ô i # 1 0 0 # c ổ S p r o a t P p t ô i n g i ả n M " M ư m a n M : đ M ủ à y c h o ơ F M c u n đ a o M ợ a c l à ( b B ư B h t c p h i ế u # c ủ a đ M m a u a # c h o # t ô i # 1 0 0 # c ổ v à t e i ể M " M i a o n a m : G g h u M g à n M p e ờ F é l ý á c u h L ư i m c h g " M v à n x n à t ừ a đ g ủ t h ư u a c g c ó ủ è n M c ( F ô n à y . Ví du: L h g Q v ă n t h i ệ u u ố b c ả . m B n ằ t h à n p h ư ơ n c á c h h c â u , g p s ử h d s a u 17 á ụ p n đ p g ó h â n đ t ừ đ i ể n t h à n h o t ừ t ầ n c á c c g i ú p c s u ấ t c ủ ụ v à m , a h o v i ệ c t ừ c u ố đ i ơ n c ù k , i ể m l ư ợ c n g t h ! CẠI h c c q u ó c g i a k ị n ô i ITRŨHGTÀM THÒKŨ niiTHƯVIẸN •;. \l: L O l M \________ l ỗ i đ ổ à n h c á c x t ừ ử D k l ý a i t h ộ ể L á h h ằ ( 1 c n 9 9 i - g r a m ế t q ộ ) c ã ó t r ọ B t ạ o t h à ô h ả c ủ a m v à c n g p h í t o n F x â y s u ấ t t r í . u s ố h đ t ầ n v ị t t ố t 9 l i ệ u b m g l o ạ i t à i n x é t g ư á o h m ộ t ì n ự h p 1 n g c m n % n t ụ n c h t ừ , c ò T r á i h c o n t h ư ô n n g s u ấ t à y n à y . t u ỳ ộ d t ầ n t ừ 0 s ử s ố , b ợ M ợ à i n h M d đ n t ổ c ụ c t h ấ y l ạ i , ộ c v à o c h ạ y c c m ớ m : t ầ n t h ứ a t ầ n g g b u o g ồ b ộ . t h s u ấ t t h ô n ậ m c h i ọ c ò n n g t i n t à i l i ệ u t i n v ề g ộ h H ô m t h e u r i s t i c . h o v s u ấ t x n e g n q u c ả n t r ọ n g t r í n a h ậ n x é t ữ h ư ơ n g p h á p n à y . i ệ c m c ó v ị ơ P n h ệ , c ả h c h i k é v h g ô n c á c t ầ n t h s ố t h ì b i ế t ô n p h i ú p g đ s u ấ t g ố t i n i n ư t ừ â ợ x á n g c h t à i n g c h a i l i ệ u , ữ c ả n s u ấ t c ữ c ó a o u h m đ í c h à á n g c h o . T e a c h o h a n b à i s á t t r ê n ả t ố t B r e n n g h n g ữ Đ o C ô n t i n k u p g t l ắ m q à c h ỉ ậ s u ấ t à m à h t ự . t ầ n k n v ý v m i n t t o á n c o r p n h n n h Đ S p r o a t q u y ế t k h o ả n g S ử d ụ n đ o ạ b ả n n e u v k h á c ( 1 9 h á 9 5 g t ừ c u n n o 9 m y ê a u ã đ 0 0 1 á c h K c ộ ư 6 ) v n h i ề u à u 0 n ) p t i ế n g p h á t c o đ ư s ự ạ n ấ n g ợ c ( 2 0 n đ ơ ề s u ấ t t i ế n g â t r ẻ g ề h ã ả đ t ừ c đ q v ạ ợ ) m 0 c ả à n 0 o m ế t à n đ A ạ n h p s o 0 1 r o n n ư h b ) đ đ h ề u t r u t ê n n g n g Q g ộ t o ạ u y ố c n P M ơ n g p ầ n g Q u ố c . ì n h p h â n g n ó i r u h m a ộ e a h t n r i ê n g , T m g h ư c T ủ ề n P á n h t i ế n c . t o P ô n ấ t t h u ậ t t a y . m v ớ i x l a n ụ t i ế n g m â n n ằ v à s á n d r u t r i ể n n h T o n s ử ư ợ ì n h t r o a n ô h c đ n n đ ă n ư ợ h á p đ o ạ n q u k ế t n s n c à b ả n h u ấ n t h u ộ y t h á ố n t h í c h l u y ệ n h ó c g k ê t r ì n h c h n g d ú n ự n h i c ó m c a h P P g i á o h ọ m k ế t t r ê n g M v i ệ c c n g ô n . ì n ể h p t h á i l a i h â n t ừ . đ Đ o á ạ n h ợ n p t i ế n h g i á g i ữ g V đ a ộ m ô i ệ t . H c h h í n h ì n h ọ đ ã x á c đ ể c ủ a g i ả i v à o h â . ô h g n V n ( c h ỉ h đ v ớ i v % ( 2 n đ ( 2 c t i ế n h ê a n â đ ố i u i ề s ự s h i ê n . k n T c ứ t ự u ấ t v à i ê ộ g ì n h i ệ t à n c ầ n M a r k ( N g u h . c o Ư r p o v y u ễ đ u s ẩ n n P i ể m t h ô h h ư u ơ n c ủ v à ấ n g a p t ừ l u y ệ n T h á i h ư ơ v n b à g đ i ể n ) c p d o ũ n ằ n ộ g n h á đ ó t h u ậ t g p s ự , n à d ễ 2 0 y d t o 0 l à à n á n 3 k s ) h á B c ô p a h u o n g d ụ n ì n h m - W k ế t y ê g q u v e u i c ả t ố t c ầ u à o h c c á c p t r ê n a o n v ã n v ề t à i l ĩ n h v ự c . 2.5 Các vấn đề khác T l à r o n g n g ô t i ế n n n g »> g A ữ đ n ơ h n , k l ậ p h i x n ê ử n l ý t a v c ó ă n b t h ể ả n b ỏ t h ô q u c a v ấ 18 g n c đ ầ n ề p h n à y . â n t í c h h t h á i t ừ . T i ế n g V i ệ t P h đ ặ â n t í c h c đ c á c i ể n t ô i n e h m ô ậ d a n l à n n n d h t ừ v i ế t g ữ t ư n g d ạ ợ a r i ê n h o n g n a c h h a h ì n t ừ v à ữ t ừ v i ế t c á i h n h đ ư r i ê n g d ầ t ắ t u n ê t i ế n g ự a v l à n T d r u à o b à i ễ n n g t o á n h Q ậ u n ố k h b i ế t c , N h ó . D h ơ a n ậ t , n h s o t ừ r i ê n v ớ i v . v . C h d ư ơ a n n g t i ế n h g t ừ g V r i ê n t r ì n h c ủ i ệ t g a c ó t r o n g c h ú n g h e u r i s t i c s . Vi du: " s ố l i ệ u " c u ộ c h ọ p " đ i ề u T r o n t h ố n g t r a g k ê Hiệp hội Thuốc lá VN" c ủ a v í ban Kinh t ế và Ngân sách Quốc hội " Uỷ v ớ i Trung tâm Thông tin Thương mại {Bộ Thươììg mại)" t ừ d ụ t r ê n c á c c ụ m d a n h t ừ r i ê n g đ ư ợ c v i ế t n g h n g ữ i ê n g . 3. Đ á n h d ấ u d ữ liệu M ộ t s ố n g ư ờ n h ã n k h ô n i l o ạ i t a t ự g [ A / D T n n g ư ờ ộ n g đ M á t h t r ì n h Ví du: đ ộ s p t o c b à d ấ k ế t o v h y c â u k h u h N N P b i ế n : 2 Ĩ ữ a b ả n , t ừ t ự đ ộ s a u đ ó l o ạ i , n g n c ú v à h à p l à n g h m ô á p , t h ủ n c ô ữ n s ẽ g n s h . T n g c h T r e e b a n k . ĩ a . r ư ỉ n ớ h Đ c ể t ạ o t i ê n l ạ i b ằ c o c n h g ư ơ r p u n g t a y . s l o ạ i n à y t r ì n h g á n C h ú s e t / V B N n g t ô i đ â y . g á n / N ổ p ở đ ư ợ c a n ợ h ã n s â u e s m p n h ã n t ừ l o ạ i t r o n g P e n n ] f o r / I N [ t h e / D a n I t e l e c o m d / c t h e / D y e t / R T o r o n t o / N c a b l e / N N t e l e v i s i o n / N N B m u n i c a t i o n s / N N S c o n c e m N h a s / V / N N ] D T c o B b u p e e n o n / V B / N N N r a t e / N í ì x e d Ạ /TB N , / , B b Z u n ' t / R t / c c B w ] i l l / M a r o u n d / I N [ 8 / C D % / N N ] 4. Tạo corpus thỏ từ Internet S ơ đ ồ ] c s a i d / V [ T q u á t r ì n h t ạ o c o r p u s : 19 D p r o b a b l y / R B b e / V B a t / I N Tự động Tự đống 4.1 Download file HTML C ó n h t h ấ y ổ c ứ i ề u t ố t c n h h ư ấ t ơ n l à g T t r ì n h e l e p o d o r t P w r o n . l o a d C h ư p h â f i l e ơ n g s i ê u v ă n b ả t r ì n h n à y c ó n t ừ t h ể I n t e r n e t . d o w n l o a T d r o c ả n m g đ ộ t ó c W e h ú n g b s i t e t ô i v ề n g . 4.2 Lây text N ế C O u M k h P O ô n N g E m N u T ố đ n ọ v i ế t c f i l e b H ộ T M L n c ủ t í c h a M f i l e i c r o s o 4.3 Chuẩn hoá 20 H f t T ( M L (H T M L p a r s e r ) , m sh tm l ) . t a s ử d ụ n g C ô n g v i ệ c ẩ ã h o á L ọ c b ỏ c á c f i l e L ọ c b ỏ c á c t e x t x ẩ n h o v ỏ u m n u h n u h C ể h C - y c t i ế n á g c ề b b h a o g V i ệ t ứ a ấ u d m ( n u : ế u t e x t t r o ấ ồ n x ấ u g t h c ầ n ) m a n ( t r a n g ỗ h i f i l e ( h ò a q u ả n ( t i ê u — > h o ấ u g c á o đ ề , à , q , u t ì m ả n g v i ệ c , c á o , v . v . ) v . v . ) b b ằ a n s n g c ắ t c â u ( S x h e u r i s t i c s . h e u r i s t i c s . v . v . ) 4.4 Đánh dấu văn bản C h ú t ừ , M 2 n t ô i c â u ô 0 g h 0 3 c h ỉ đ ơ n g i ả n k ế t q u ả đ ư ợ c l u n h h â n đ o ạ n t ừ ì n p t h ự c r a m h i ệ n f i l e à c đ s ử h ú á d n n ụ s h n d g t ô i c â u c á c s ử n d ụ ) . h n v ã à n g t ừ . đ á l à n S h H M M < a u d ấ k h i u M c ( N â u g < v à / S u y ễ n P h b ả n # m h i ệ n p > ư ) ơ n h â v à g n đ o t ừ T ạ n ( # ) . h á i , . . . • Ví du: < S > P h ầ n < S > T ậ p m ề d ự m # n g < S d ữ > d # H m đ ự a c ô n ô ề m à n o g m q # # m á l B y M t í n h # t ự # k h ắ c # c h o b i ế t # s ẽ # t u n g t r ê n # c ô n g n g h ệ # đ i ệ n n g h ệ # t ự # s ử a # # ắ t u a # , # I B M b p h ụ c # s ự c ủ a # n g c ố r a # t h ị t o á n # t ự à n h # b a # t r ư ờ đ ộ n c ố n g đ ầ u # b á n # p h i ê n c ủ I B # , # g n g h i ệ p # m á y # m ớ > n g # c á c # p h i ê n g ả n / S i # D ó B p p h ầ n # t h ự t í n h # . < 2 V c ớ i # c ủ a # h a i # p h ầ n # m ụ c t i ê u # x â y / s > e r s i o n 8 # c ủ a # p h ầ n m ề m # c ơ s ở l i ệ u # . < / s > 4.5 Một sỏ kết quả C h ú T ê B á o P C B á o L a o n n g c o t ô i r p t ạ o u W đ đ ư ợ c h a i s o r l d ộ n g V i ệ t N a m c o r p u s v ă n K í c h b ả n t h ư t h ô ớ c v ớ i c á c t h ô n s t i n C á 2 2 M b T i n 4 M b K h 6 t h ể 21 n c h ư s a u : c h ủ đ ề h ọ c o a h ọ c , t h a o , k i n h v ă n h o á t ế , q u ố c t ế ,
- Xem thêm -