Tài liệu Phương pháp thêm dấu tiếng việt vào văn bản tiếng việt không dấu

  • Số trang: 70 |
  • Loại file: PDF |
  • Lượt xem: 91 |
  • Lượt tải: 0
bangnguyen-hoai

Đã đăng 3509 tài liệu

Mô tả:

TR NG I H C KHOA H C T NHIÊN KHOA CÔNG NGH THÔNG TIN MÔN CÔNG NGH TRI TH C PHAN QU C LÂN PH NG PHÁP THÊM D U TI NG VI T VÀO V N B N TI NG VI T KHÔNG D U KHOÁ LU N C NHÂN TIN H C TP. HCM, N M 2005 TR NG I H C KHOA H C T NHIÊN KHOA CÔNG NGH THÔNG TIN MÔN CÔNG NGH TRI TH C PHAN QU C LÂN – 0112267 PH NG PHÁP THÊM D U TI NG VI T VÀO V N B N TI NG VI T KHÔNG D U KHOÁ LU N C NHÂN TIN H C GIÁO VIÊN H NG D N Th.S PH M PH M TUY T TRINH NIÊN KHÓA 2001 – 2005 1 ic m n i ti p h u tiên, em xin chân thành c m n cô Ph m Ph m Tuy t Trinh, cô ã tr c ng d n và t o u ki n cho em nghiên c u và hoàn thành lu n v n này. Em c ng xin chân thành c m n th y inh n, th y ã h tr , giúp em r t nhi u trong quá trình th c hi n. Và em c ng xin c m n t t c các th y cô trong khoa Công ngh thông tin ã t n tình ch b o và giúp trong tr em trong su t quá trình h c t p ng. Con xin chân thành c m n ba m , ông bà, anh em và ng ãt om i u ki n t t nh t cho con h c t p và i thân trong gia ình ng viên, khích l con trong quá trình th c hi n lu n v n. Và cu i cùng, tôi xin g i l i c m n Sinh, b n Kh ng …, nh ng ng n t t c b n bè, c bi t là anh Toàn, b n i ã h tr và giúp tôi hoàn thi n lu n v n này. c dù em ã c g ng hoàn thành lu n v n trong ph m vi và kh n ng cho phép nh ng ch c ch n s không tránh kh i nh ng thi u sót. Em kính mong nh n cs m thông và t n tình ch b o c a quý Th y Cô và các b n. TP. H Chí Minh, tháng 7 n m 2005 Phan Qu c Lân – 0112267 2 NH N XÉT C A GIÁO VIÊN H NG D N ___________________________________________________ ___________________________________________________ ___________________________________________________ ___________________________________________________ ___________________________________________________ ___________________________________________________ ___________________________________________________ ___________________________________________________ ___________________________________________________ ___________________________________________________ ___________________________________________________ ___________________________________________________ ___________________________________________________ ___________________________________________________ ___________________________________________________ ___________________________________________________ ___________________________________________________ ___________________________________________________ ___________________________________________________ ___________________________________________________ Thành ph H Chí Minh, tháng 07 n m 2005 Giáo viên h ng d n Th.S Ph m Ph m Tuy t Trinh 3 NH N XÉT C A GIÁO VIÊN PH N BI N ___________________________________________________ ___________________________________________________ ___________________________________________________ ___________________________________________________ ___________________________________________________ ___________________________________________________ ___________________________________________________ ___________________________________________________ ___________________________________________________ ___________________________________________________ ___________________________________________________ ___________________________________________________ ___________________________________________________ ___________________________________________________ ___________________________________________________ ___________________________________________________ ___________________________________________________ ___________________________________________________ ___________________________________________________ ___________________________________________________ Thành ph H Chí Minh, tháng 07 n m 2005 Giáo viên ph n bi n TS. inh 4 n I NÓI Ch vi t ti ng Vi t c a chúng ta có 1 u thanh c ng nh d u c a các ký t . U c m r t hay là có s xu t hi n c a các u này giúp cho ti ng Vi t “thêm thanh, thêm u”. Tuy nhiên, c ng chính vi c “thêm thanh, thêm Vi t tr nên t n nhi u th i gian h n. 1 v n thông d ng, 1 ti n ích c m i ng u” ó làm cho vi c gõ ti ng khác, khi vi c s d ng Internet tr nên i a chu ng là d ch v Email. Nh ng, cho n hi n nay, h u h t các mail server v n ch a h tr t t ti ng Vi t, do ó, tình tr ng các lá mail trên m ng h u nh không có d u. Vi c phát tri n 1 công c giúp thêm d u ti ng Vi t vào v n b n không d u là vi c r t c n thi t và thú v . tài này h ng ng m i, do ó, ch n vi c gi i quy t bài toán thêm d u ti ng Vi t theo m t ng trình không chú tr ng chuyên sâu vào l nh v c nào. Vi c thêm ch c n ng h tr các l nh v c chuyên sâu khác không nh h trúc c a mô hình mà ch Lu n v n § Ch ng nhi u nc u ng trình áp d ng. c t ch c thành 5 ch ng v i n i dung nh sau : ng 1 gi i thi u t ng quan v bài toán Thêm d u ti ng Vi t vào v n b n không d u, và các công trình ã có liên quan n tài. § Ch ng 2 gi i thi u các c s lý thuy t _ tin h c c n s d ng. § Ch ng 3 nh n xét các mô hình ã có tr c ây, và chính. § Ch ng 4 c th hóa mô hình cài § Ch ng 5 t ng k t và ra h t. ng phát tri n . a ra mô hình cài t CL C Ch ng 1. 1.1. Gi i thi u v bài toán Thêm d u ti ng Vi t vào v n b n không d u.......10 1.1.1. 1.1.2. 1.1.3. 1.2. Phát bi u bài toán.........................................................................................10 c m .......................................................................................................10 ng gi i quy t ..........................................................................................11 Gi i thi u các công trình ã có ..................................................................11 1.2.1. 1.2.2. 1.2.3. 1.2.4. Ch AMPad..........................................................................................................11 VietPad .........................................................................................................12 www.EasyVn.com.........................................................................................13 VnMark ........................................................................................................14 ng 2. 2.1. NG QUAN....................................................................9 S LÝ THUY T TIN H C....................................15 Lý thuy t v ngôn ng h c.........................................................................16 2.1.1. Âm ti t (còn g i là “ti ng”) ..........................................................................16 2.1.1.1. nh ngh a và c m âm ti t ti ng Vi t ..............................................16 2.1.1.2. Thanh là thành ph n c a âm ti t ti ng Vi t .............................................16 2.1.1.3. T i sao l i ph i dùng d u thanh ? ............................................................17 2.1.2. ..................................................................................................................18 2.1.2.1. Các quan ni m v t ...............................................................................18 2.1.2.2. Tiêu chí nh n di n “t ” ti ng Vi t...........................................................18 2.1.2.2.1. Các tiêu chu n v hình th c .................................................................19 2.1.2.2.2. Các tiêu chu n v n i dung ..................................................................19 2.2. Tách t ........................................................................................................20 2.2.1. 2.2.2. 2.3. Kh p t i a (LRMM – Left Right Max Matching).....................................21 Mô hình m ng WFST và m ng n -ron .......................................................22 Tách câu......................................................................................................22 2.3.1. Tách câu b ng Heristics. ..............................................................................23 2.3.1.1. X lý d u ch m. .....................................................................................23 2.3.1.2. X lý d u ch m trong ngo c. ..................................................................24 Ch ng 3.MÔ HÌNH CÀI 3.1. Các mô hình thêm d u ã T ......................................................25 c s d ng...................................................26 3.1.1. VietPad .........................................................................................................26 3.1.1.1. Mô hình thêm d u ti ng Vi t ..................................................................26 3.1.1.1.1. Ti n x lý ............................................................................................26 3.1.1.1.2. Tách token...........................................................................................27 3.1.1.1.3. L y ra các t không d u, chuy n thành t có d u .................................27 3.1.2. VnMark ........................................................................................................28 6 3.1.2.1. Mô hình thêm d u ti ng Vi t ..................................................................28 3.1.2.1.1. Ti n x lý ............................................................................................30 3.1.2.1.2. Tách câu ..............................................................................................30 3.1.2.1.3. Tìm các kh n ng ánh d u c a t , câu ................................................30 3.1.2.2. Mô hình hu n luy n................................................................................31 3.2. Mô hình xu t..........................................................................................32 3.2.1. Mô hình.........................................................................................................32 3.2.1.1. Tách câu .................................................................................................33 3.2.1.2. Tách t b ng ph ng pháp LRMM.........................................................34 3.2.1.3. Ch n t thích h p ...................................................................................34 3.2.2. Mô hình hu n luy n .....................................................................................36 3.2.2.1. Th ng kê t n su t xu t hi n c a t ..........................................................36 3.2.2.1.1. Xây d ng kho ng li u.........................................................................36 3.2.2.1.2. Th ng kê t n su t xu t hi n c a t .......................................................37 3.2.2.1.3. T o t n chuy n i ........................................................................38 3.2.2.2. Trích xu t các c m t th ng s d ng ....................................................39 3.2.3. So sánh mô hình này v i 2 mô hình trên .....................................................41 Ch ng 4.CÀI 4.1. 4.2. 4.3. Xây d ng kho ng li u text t báo n t ..................................................44 Tách câu........................................................................................................48 Tách t và th ng kê......................................................................................50 o t p tin t o t p tin t 4.3.1. 4.3.2. Ch 5.1. 5.2. n chính............................................................................52 n c m t .........................................................................55 o kho d li u tinh gi n m i......................................................................55 o t p tin t n c m t ...........................................................................58 Ch 4.4.1. 4.4.2. 4.5. NGHI M.............................................43 Th ng kê t n s xu t hi n c a t ...............................................................44 4.1.1. 4.1.2. 4.1.3. 4.4. T TH ng trình chính....................................................................................58 Ch Ch ng trình VietEditor..............................................................................59 ng trình thêm d u qua Clipboard.......................................................60 Th nghi m ................................................................................................62 ng 5. T QU , H NG PHÁT TRI N .............................63 n ch và h ng phát tri n .....................................................................64 t lu n ......................................................................................................64 Ph l c : C u trúc kho ng li u ......................................................67 7 DANH M C HÌNH Hình 1.2.1-1 : Thêm d u ti ng Vi t t ng b ng AMPad......................................................12 Hình 1.2.2-2 : Gõ ti ng Vi t không d u trên VietPad.............................................................12 Hình 1.2.2-3 : V n b n sau khi th c hi n ch c n ng thêm d u ti ng Vi t c a VietPad...........13 Hình 1.2.3-4 : Gõ ti ng Vi t không d u trên EasyVn..............................................................14 Hình 1.2.3-5 : V n b n sau khi t ng thêm d u trên EasyVn ..............................................14 Hình 1.2.4-6 : S k t c u âm ti ng Vi t.............................................................................17 Hình 3.1.1-7 : L u th c hi n c a mô hình ng d ng trong VietPad...................................26 Hình 3.1.2-8 : L u th c hi n c a mô hình n-gram ............................................................29 Hình 3.2-9: L u th c hi n c a mô hình xu t ................................................................33 Hình 3.2-10 : T p tin m u sau khi th ng kê t n su t t ..........................................................38 Hình 3.2-11 : Trích t p tin TuDienChinh.txt ..........................................................................39 Hình 3.2-12 : Trích t p tin CumTu.txt....................................................................................41 Hình 4.1.1-13: Giao di n ch ng trình HTML2TXT ..............................................................44 Hình 4.1.1-14: C u hình c a ch ng trình HTML2TXT.........................................................45 Hình 4.1.1-15 : M t trang báo thanh niên..............................................................................47 Hình 4.1.1-16 : li u c tách t trang báo Thanh niên...................................................48 Hình 4.1.2-17: Giao di n ch ng trình Tách Câu..................................................................49 Hình 4.1.2-18: T vi t t t cung c p cho ch ng trình Tách Câu............................................49 Hình 4.1.2-19: N i dung file k t xu t c a ch ng trình Tách Câu .........................................50 Hình 4.1.3-20: Giao di n module tách t ...............................................................................51 Hình4.1.3-21: N i dung t p tin th m c ngu n......................................................................51 Hình 4.1.3-22: N i dung t p tin t n .................................................................................52 Hình 4.1.3-23: N i dung t p tin k t qu .................................................................................52 Hình 4.1.3-24: Giao di n ch ng trình t o t n chính.......................................................53 Hình 4.1.3-25 : Trích 1 ph n TuDienChinh.txt.......................................................................54 Hình 4.1.3-26 : Trích 1 ph n TuDienPhanLop.txt.................................................................54 Hình 4.1.3-27: Trích 1 ph n KhoCau.txt................................................................................55 Hình 4.3.1-28: Giao di n ch ng trình t o kho d li u tinh gi n...........................................56 Hình 4.3.1-29 : Trích 1 ph n th m c k t xu t .......................................................................57 Hình 4.3.1-30 : Th m c con _a trong th m c k t xu t.........................................................57 Hình 4.3.2-31: Giao di n ch ng trình t o t p tin c m t .....................................................58 Hình 4.4.1-32: Giao di n ch ng trình chính VietEditor .......................................................59 Hình 4.4.2-33: Giao di n ch ng trình chính thêm d u Clipboard ........................................60 Hình 4.4.2-34: Test ch ng trình thêm d u Clipboard...........................................................61 Hình 5.2-35 : T p tin kho ng li u m u .................................................................................69 8 Ch ng 1. NG QUAN Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 1.1. Gi i thi u v bài toán Thêm d u ti ng Vi t vào n b n không d u 1.1.1. Phát bi u bài toán Bài toán có th c phát bi u nh sau : Cho m t v n b n ti ng Vi t không u. Chuy n v n b n không d u này thành có d u v i Ch s d ng t n t và kho ng li u thô làm Khái ni m t c l u trong t ây là “t t chính xác cao. u vào. n” – t c là các t n, t ghép và c m t n. Ch x lý các v n b n ti ng Vi t có mã Unicode. 1.1.2. c m Ch vi t ti ng Vi t có 1 c m r t hay là s xu t hi n c a các d u thanh ng nh d u c a các ký t . Vi c có d u thanh và d u c a ký t này làm phong phú thêm cho ngôn t ti ng Vi t, và c ng góp ph n t ng bi u c m c a ti ng Vi t. u thanh là 1 thành ph n “b t kh phân” trong âm ti t ti ng Vi t [8]. Khi lo i b d u thanh, vi c hi u ngh a c a t , g m 1 hay nhi u âm ti t k t h p v i nhau, tr nên khó kh n và d gây hi u l m. thêm d u, tr nh ranh gi i t c tiên, ta c n ph i xác nh ranh gi i t . Bài toán xác i v i v n b n ti ng Vi t có d u ã là 1 vi c th thách, thì khi không có d u, vi c nh n di n ranh gi i t càng tr nên khó kh n h n. V n này l i càng khó kh n, khi ranh gi i t trong ti ng Vi t c ng nh 1 s ngôn ng Châu Á khác, m t t chính t có th không t n. ng ng v i m t “t ” trên v n i v i các th ti ng Châu Âu, ta có th d dàng nh n ra m t t , do các t c phân cách b i kho ng tr ng. u này l i không úng v i ti ng Vi t. Trong ti ng Vi t, các ti ng _ hay còn g i là âm ti t _ kho ng tr ng, ch không ph i t . 10 c phân cách b i Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u Sau khi ã nh n di n c ranh gi i t , ta c n ph i xác u nào có d ng th hi n không d u nh v y. Vi c xác nh này c ng gây nhi u khó kh n, khi 1 t không d u có th có nhi u t có d u t Ví d 1-1 : T không d u “toi” có 3 t có d u t nh cho úng t có ng ng v i nó. ng ng là “tôi”, “t i” và “t i”. Do ó, sau khi ã gi i quy t xong bài toán tách t ti ng Vi t không d u, ta n ph i gi i quy t thêm bài toán xác nh t có d u thích h p v i t không d u ó. ây chính là 2 bài toán c n gi i quy t chính c a mô hình. 1.1.3. ng gi i quy t i v i tách t có d u, có nhi u mô hình c s d ng và t k t qu cao nh MM (Maximum Matching : forward / backward hay còn g i là LRMM: Left Right); gi i thu t h c c i bi n TBL; m ng chuy n d ch tr ng thái h u h n có tr ng s WFST (Weighted finite-state Transducer); gi i thu t d a trên nén (compression) [1] …. H ng gi i quy t c xu t là s d ng ph ng pháp tách t LRMM [1][7] k t h p v i mô hình Bigram ã gi i quy t khá hi u qu 2 n c a bài toán này. Ph u offine, nh ng có th ng pháp ch m i c cài t c áp d ng cho mô hình thêm gán d u online. 1.2. Gi i thi u các công trình ã có 1.2.1. AMPad AMPad [12] (tên version c và thông d ng v i m i ng a tác gi Tr n Tri t Tâm là s n ph m Ch ng trình ã c nhi u ng i bi t i là AutoMark) u tiên nghiên c u v l nh v c này. n và c s d ng r ng rãi. u này cho th y vi c phát tri n ng d ng hoàn thi n h n n a v thêm d u ti ng Vi t là có nhu c u, và nhu c u này s ngày càng t ng cao. Ch 11 ng trình AMPad có Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u m hay là vi c áp d ng mô hình x lý thêm d u quan, thân thi n cho ng online, t o s tr c i s d ng. Hình 1.2.1-1 : Thêm d u ti ng Vi t t 1.2.2. ch ng b ng AMPad VietPad Vietpad [11] là trình so n th o h tr ti ng Vi t Unicode, c phát tri n i Quân Nguy n và nhóm phát tri n trên http://vietpad.sourceforge.net. Ngoài ch c n ng thêm d u t ng offline mà lu n v n ang nghiên c u, VietPad còn là 1 trình so n th o ti ng Vi t h tr r t t t Unicode và là mã ngu n m . Hình 1.2.2-2 : Gõ ti ng Vi t không d u trên VietPad 12 Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u Hình 1.2.2-3 : V n b n sau khi th c hi n ch c n ng thêm d u ti ng Vi t c a VietPad 1.2.3. www.EasyVn.com Trang web www.easyvn.com [10] cung c p d ch v email trên m ng, v i s h tr ng n t mi n phí i dùng r t t t v ngôn ng Vi t. 1 ch c n ng n i t c a www.easyvn.com là : sau khi so n th o xong b c mail, ng th ch n ch c n ng Thêm d u ti ng Vi t u. Do ây là d ch v i dùng có bi n v n b n không d u thành có c cung c p và thu phí trên NET (cho s d ng th trong 2 tháng), mô hình thêm d u t ng c a www.easyvn.com 13 c gi kín. Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u Hình 1.2.3-4 : Gõ ti ng Vi t không d u trên EasyVn Hình 1.2.3-5 : V n b n sau khi t 1.2.4. ng thêm d u trên EasyVn VnMark VnMark [2] th t l c ch c tác gi Nguy n V n Toàn phát tri n. Do tác gi ng trình, do ó, không có hình nh minh ho ch 14 ã làm ng trình. Ch ng 2. S LÝ THUY T TIN H C Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u 2.1. Lý thuy t v ngôn ng h c 2.1.1. Âm ti t (còn g i là “ti ng”) 2.1.1.1. nh ngh a và “Ti ng” là “ Vi t c m âm ti t ti ng Vi t n v c b n” trong ti ng Vi t [1]. M t “ti ng” trong ti ng c nói lên là m t t “ti ng” là m t n v ng âm, và c ng là m t n v phát ngôn, và là m t nh ng k t c u l i nói trong ho t n v ng pháp. n v c a l i nói ng nói n ng giao ti p. t o ra c tính này c a ti ng chính là m t tính cách lo i hình c a ti ng Vi t, trong ó m i phát âm trùng khít v i n v ng pháp (hình v , và t ). Khi xét trên bình di n ng âm, ti ng là m t n v c a ng âm, t c là m t âm ti t [9]. Vi c nh n di n “ti ng” i v i m i ng nv i v i ng i Vi t là i mà không c n m t trình u quá d dàng, t nhiên ngôn ng gì cao, vì : trong l i nói (m t ng âm), m i “ti ng” bao gi c ng phát ra m t h i, nghe thành m t ti ng, và có mang m t thanh u nh t ), m i ti ng bao gi c ng u; còn trong ch vi t (m t chính c vi t r i thành t ng ch (ng n cách b ng kho ng tr ng hay các d u ng t). n v “ti ng” i v i ng n v t nhiên, khái ni m “ti ng” ã có t lâu và ng nó tr c ng i Vi t là m t i b n ng s c khi hi u và s d ng khái ni m “t ”. Ví d 2-1: Câu “Cái bàn này hình bán nguy t” có 6 ti ng 2.1.1.2. Thanh là thành ph n c a âm ti t ti ng Vi t Khi phát âm ti ng Vi t, chúng ta phát âm t ng n v l i nói c t r i nhau, i là âm ti t. Khi phát âm ch m m t âm ti t, có th nh n th y khá rõ là m i âm ti t u có th k t h p nhi u nh t là ba n v phát âm : âm chính + âm cu i. Ba thành ph n trên g m nh ng âm v xu t hi n t theo th t tr c sau, nên g i là nh ng âm v tuy n tính. 16 u + âm ng i Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u Ngoài ra, m i âm ti t c nh m t b c cao th p, g i là thanh Trong l i nói, m i âm ti t ti ng Vi t hi n l p t c khi âm ti t u. u mang m t thanh. Thanh này xu t c phát ra, cho nên có th nói r ng thanh là m t thành ph n b t kh phân c a âm ti t. Thanh là thành ph n âm v phi tuy n tính c a m t âm ti t ti ng Vi t. Thanh là m t s c thái c a âm thanh các âm ti t, qua ó khi phát âm s nh b c cao th p khác nhau c a m i chu i l i nói. Có sáu thanh làm tiêu chu n th nv c a nh b c cao th p khác nhau, ng g i là ngang, h i, s c, huy n, ngã, n ng. Nh v y thì m i âm ti t ti ng Vi t y có t i a b n n v c u thành. i thi u thì m i âm ti t c ng ph i có hai thành ph n : âm chính + thanh. Hình 1.2.4-6 : S 2.1.1.3. k t c u âm ti ng Vi t i sao l i ph i dùng d u thanh ? Các ngôn ng dùng b ng ch cái Latin không dùng thêm kí hi u ch thanh, mà ch ghi l i các âm v tuy n tính b ng các v là con ch . H th ng ch vi t kh i vuông nh ch Hán và ch Nôm c ng không có kí hi u ch thanh. Nh ng tr Latin, các có ng h p ch qu c ng có khác. Khi dùng b ng ch cái v con ch ch a phân bi t ý ngh a m t t c vi t ra, vì n sáu thanh ph i phân bi t. Ðã ành thanh ch là y u t ng âm không thu c v thành ph n âm v tuy n tính, nh ng thanh ti ng Vi t không h n ch là m t y u t ngôn ph n không th thi u u mang tính cách hoa m cho âm ti t, mà là m t thành c khi phát âm m t âm ti t. Nói cách khác, âm ti t ti ng Vi t ch a hoàn ch nh khi ch a c ra ch vi t theo b ng ch cái Latin mà ta th 17 nh thanh. Có l các nhà sáng ch ng g i quen là "ch qu c ng " Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u ã hi u r t rõ tính cách b t kh phân c a thanh nên các v ã dùng ây c ng là c n nh ng kí hi u i v i âm ti t ti ng Vi t, cho ch th các b c thanh t ng ng. Và m n i b t c a ti ng Vi t. 2.1.2. 2.1.2.1. Các quan ni m v t Có 1 s nh ngh a n hình v t nh sau [1] : - Theo L.Bloomfield, thì t là - Theo Solncev thì có kh n ng là c l p v cú pháp khi s d ng trong l . n v nh nh t có ngh a c a ngôn ng , c l p, tái hi n t do trong l i nói ng chính là . n v ngôn ng có tính hai m t: âm và ngh a. - Theo B.Golovin, thì t là n d ng t hình thái t do nh nh c xây d ng nên câu . ây nh ngh a mà trong ngôn ng h c ic ng hay s d ng. Trong n i dung lu n v n này, ta quan tâm t i 3 thu t ng trong ngôn ng ic ng 1. nh n di n t : ng âm : ó là nh ng ng âm nào ó. nv c th ng nh t v i hi n t ng i v i ti ng Vi t, ó chính là nh ng âm ti t, hay còn g i là “ti ng”, “ti ng m t”. 2. chính t : ó là nh ng kho ng cách gi a 2 ch trên v n t , t c là nh ng nv c vi t li n thành kh i, i v i ti ng Vi t, ó chính là “ch ” 3. t n h c : ó là n v mà c n c vào nó ph i x p riêng trong t 2.1.2.2. c m ý ngh a c a n. Tiêu chí nh n di n “t ” ti ng Vi t r t nhi u quan ni m c ng nh các nh ngh a v “t ti ng Vi t”, ta có th rút ra tiêu chu n mà các nhà Vi t ng h c ã d a vào ó khi nh n di n t 18 Lu n v n t t nghi p : Ph ng pháp thêm d u vào v n b n ti ng Vi t không d u ti ng Vi t [3]. Các tiêu chu n này chung qui ta có th phân thành : các tiêu chu n v hình th c và các tiêu chu n v n i dung. 2.1.2.2.1. Các tiêu chu n v hình th c Tính c Tính nh : tính v ng ch c v c u t o, không th chêm – xen c l p : các nhà Vi t ng h c hay dùng tiêu chu n tính phân bi t t ( không n v có ngh a và c l p). Tính c l p) v i hình v ( c l p còn c cl p n v có ngh a và c g i là kh n ng k t h p (t do – h n ch ) Tính t lo i và quan h cú pháp : trong ng /câu, t ch c n ng cú pháp nh t nh, nên m i t m nh n nh ng u ph i mang m t t lo i nào ó, còn hình v thì không có tính ch t t lo i. Quan h gi a các t là quan h cú pháp, còn quan h gi a các hình v c a t không ph i là quan h cú pháp. 2.1.2.2.2. Các tiêu chu n v n i dung Ch c n ng nh danh : ch c n ng này (t th c), coi ó là c dùng xác nh t cách c a c tr ng phân bi t gi a “t ” v i “hình v ” Bi u th khái ni m : vì t v i khái ni m không ph i là m t: có nh ng khái ni m c n bi u th b ng nhi u t , và có nh ng t không bi u th khái ni m. Ý ngh a bi u ni m : vì ý ngh a c a t và khái ni m không trùng nhau, vì y, ng i ta c n phân bi t ý ngh a t v ng và ý ngh a ng pháp. Hoàn ch nh v ngh a : ây là tiêu chu n quan tr ng, Vi t ng h c ch p nh n trong vi c xác liên quan nh t cách c a t . Tiêu chu n này n tính thành ng và tính võ oán. 19 c a s các nhà
- Xem thêm -