I H¯C QU¨C GIA H N¸I
TR×˝NG
I H¯C KHOA H¯C TÜ NHI N
NGUY NTI NH
NGHI N CÙU X Y DÜNG
T I NGUY N SONG NGÚ VI T-ANH
ÙNG DÖNG CHO DÀCH M Y THEO MI N
LU N
NTI NS TO NH¯C
H Nºi - 2020
I H¯C QU¨C GIA H N¸I
TR×˝NG
I H¯C KHOA H¯C TÜ NHI N
NGUY NTI NH
NGHI N CÙU X Y DÜNG T I NGUY N
SONG NGÚ VI T-ANH ÙNG DÖNG CHO
DÀCH M Y THEO MI N
Chuy¶n ng nh: Cì sð to¡n håc cho tin håc
M¢ sŁ: 9460117.02
LU N
NTI NS TO NH¯C
NG×˝I HײNG D N KHOA H¯C:
1. TS. Nguy„n Thà Minh Huy•n
2. PGS.TS. Nguy„n Hœu Ngü
H Nºi - 2020
L˝I CAM
OAN
Tæi xin cam oan c¡c nºi dung tr…nh b y trong lu“n ¡n n y l k‚t qu£ nghi¶n cøu
cıa tæi, ÷æc thüc hi»n d÷îi sü h÷îng d¤n cıa TS. Nguy„n Thà Minh Huy•n
v PGS. TS. Nguy„n Hœu Ngü. C¡c nºi dung tr‰ch d¤n tł c¡c nghi¶n cøu cıa
c¡c t¡c gi£ kh¡c tr…nh b y trong lu“n ¡n n y ÷æc ghi rª nguçn trong phƒn t i
li»u tham kh£o.
Nguy„n Ti‚n H
L˝IC MÌN
Tæi xin gßi líi c£m ìn s¥u s›c ‚n TS. Nguy„n Thà Minh Huy•n v PGS.TS.
Nguy„n Hœu Ngü ¢ trüc ti‚p h÷îng d¤n, ch¿ b£o t“n t…nh, luæn hØ træ v t⁄o
nhœng i•u ki»n tŁt nh§t cho tæi trong qu¡ tr…nh håc t“p v nghi¶n cøu.
Tæi xin gßi líi c£m ìn ‚n c¡c thƒy/cæ gi¡o ð Khoa To¡n - Cì - Tin håc,
Tr÷íng ⁄i håc Khoa håc Tü nhi¶n, ⁄i håc QuŁc gia H Nºi, °c bi»t l c¡c thƒy/cæ
gi¡o ð Bº mæn Tin håc, nhœng ng÷íi ¢ trüc ti‚p gi£ng d⁄y v gióp ï tæi trong
qu¡ tr…nh håc t“p v nghi¶n cøu ð tr÷íng.
Tæi xin gßi c£m ìn ‚n TS. Nguy„n V«n Vinh, PGS. TS. Nguy„n Ph÷ìng
Th¡i, PGS. TS Phan Xu¥n Hi‚u Tr÷íng ⁄i håc Cæng ngh», ⁄i håc QuŁc gia
H Nºi; TS. Trƒn Thà Oanh khoa QuŁc t‚, ⁄i håc QuŁc gia H Nºi; PGS. TS. L¶
Thanh H÷ìng, TS. Ø Thà Ngåc Di»p Tr÷íng ⁄i håc B¡ch khoa H Nºi; PGS. TS
Ø Trung Tu§n, TS. Ø Thanh H , TS. L¶ Hçng Ph÷ìng, PGS. TS. L¶ Trång
V¾nh, TS. Nguy„n Thà B‰ch Thıy, TS. Vô Ti‚n Dông Tr÷íng ⁄i håc Khoa håc
Tü nhi¶n, ⁄i håc QuŁc gia H Nºi, c¡c thƒy/cæ ¢ câ nhœng gâp þ ch¿nh sßa ”
tæi ho n thi»n lu“n ¡n.
Tæi xin gßi líi c£m ìn ‚n t§t c£ anh, chà, em ð Bº mæn Tin håc, Khoa
To¡n-Cì-Tin håc, Tr÷íng ⁄i håc khoa håc Tü nhi¶n, ⁄i håc QuŁc gia H Nºi v Bº
mæn Khoa håc m¡y t‰nh, Khoa Cæng ngh» thæng tin, Tr÷íng ⁄i håc Cæng
ngh», ⁄i håc QuŁc gia H Nºi ¢ gióp ï tæi trong thíi gian l m nghi¶n cøu sinh.
CuŁi còng, tæi xin gßi líi c£m ìn ‚n t§t c£ c¡c th nh vi¶n trong gia …nh, c¡c
b⁄n b–, çng nghi»p nìi tæi cæng t¡c ¢ luæn ıng hº, chia s·, ºng vi¶n v kh‰ch
l» tæi håc t“p, nghi¶n cøu.
Möc löc
Danh möc c¡c chœ vi‚t t›t
Mð ƒu
4
9
1 TŒng quan v• dàch m¡y v t i nguy¶n ngæn ngœ
15
1.1 TŒng quan v• dàch m¡y . . . . . . . . . . . . . . . . . . . . . . . . .
15
1.1.1 Làch sß v• dàch m¡y . . . . . . . . . . . . . . . . . . . . . .
16
1.1.2 Ki‚n tróc cıa h» thŁng dàch m¡y . . . . . . . . . . . . . . .
19
1.1.3 C¡c ph÷ìng ph¡p dàch m¡y . . . . . . . . . . . . . . . . . .
22
1.1.4 C¡c h» thŁng dàch m¡y câ th” sß döng ” thüc nghi»m . .
30
1.1.5 ¡nh gi¡ c¡c h» thŁng dàch m¡y . . . . . . . . . . . . . . .
32
1.2 T i nguy¶n ngæn ngœ cho h» thŁng dàch m¡y . . . . . . . . . . . .
35
1.2.1 T i nguy¶n a ngœ cho dàch m¡y . . . . . . . . . . . . . . .
35
1.2.2 T i nguy¶n song ngœ Vi»t-Anh . . . . . . . . . . . . . . . .
38
1.3 Th‰ch øng mi•n trong dàch m¡y . . . . . . . . . . . . . . . . . . . .
41
1.4 C¡c cæng cö ti•n xß lþ v«n b£n . . . . . . . . . . . . . . . . . . . .
43
1.5 K‚t lu“n ch÷ìng . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
2 X¥y düng kho ngœ li»u song ngœ Vi»t - Anh dâng h ng møc c¥u
theo mi•n
47
2.1 X¥y düng kho ngœ li»u song ngœ Vi»t-Anh theo mi•n . . . . . . .
48
2.1.1 Ph÷ìng ph¡p thu th“p ngœ li»u song ngœ v dâng h ng c¥u 48
1
2.1.2 X¥y düng kho ngœ li»u song ngœ Vi»t - Anh mi•n du làch . 49
2.2 Dâng h ng v«n b£n song ngœ Vi»t-Anh . . . . . . . . . . . . . . .
52
2.2.1 Ph÷ìng ph¡p dâng h ng v«n b£n song ngœ møc c¥u . . . . 52
2.2.2 C£i ti‚n cæng cö dâng h ng c¥u XAlign . . . . . . . . . . .
54
2.3 Ùng döng kho ngœ li»u du làch song ngœ Vi»t-Anh cho h» thŁng
dàch m¡y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
64
2.3.1 K‚t qu£ thüc nghi»m . . . . . . . . . . . . . . . . . . . . . .
65
2.3.2 Mºt sŁ lØi cıa h» thŁng dàch . . . . . . . . . . . . . . . . .
68
2.4 K‚t lu“n ch÷ìng . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
3 X¥y düng kho ngœ li»u tł, cöm tł song ngœ Vi»t-Anh
72
3.1 X¥y düng tü ºng kho tł vüng song ngœ Vi»t - Anh . . . . . . . .
73
3.1.1 X¥y düng kho tł vüng song ngœ . . . . . . . . . . . . . . .
73
3.1.2 Ph÷ìng ph¡p x¥y düng tü ºng tł vüng song ngœ Vi»t-Anh 77
3.1.3 Ph÷ìng ph¡p x¥y düng tü ºng tł vüng song ngœ Vi»tAnh mi•n du làch . . . . . . . . . . . . . . . . . . . . . . . .
79
3.1.4 Thüc nghi»m v k‚t qu£ . . . . . . . . . . . . . . . . . . . .
84
3.2 Tr‰ch rót thu“t ngœ song ngœ Vi»t-Anh tł v«n b£n ìn ngœ ti‚ng
Vi»t düa v o t“p lu“t . . . . . . . . . . . . . . . . . . . . . . . . . .
88
3.2.1 C¡c cæng tr…nh nghi¶n cøu câ li¶n quan . . . . . . . . . . .
90
3.2.2 Ph÷ìng ph¡p tr‰ch rót thu“t ngœ song ngœ Vi»t-Anh tł
v«n b£n ìn ngœ ti‚ng Vi»t . . . . . . . . . . . . . . . . . .
3.2.3 Thüc nghi»m . . . . . . . . . . . . . . . . . . . . . . . . . .
93
104
3.3 K‚t lu“n ch÷ìng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
4 Khai th¡c kho ngœ li»u song ngœ Vi»t-Anh cho dàch m¡y
108
4.1 Ti•n xß lþ dœ li»u hu§n luy»n trong dàch m¡y nì-ron . . . . . . . . 108
4.1.1 Ph÷ìng ph¡p ti•n xß lþ c¥u d i trong dàch m¡y nì-ron . . 110
2
4.1.2 Ph÷ìng ph¡p tr‰ch rót cöm tł ExtPhrase . . . . . . . . . 112
4.1.3
Thüc nghi»m v k‚t
qu£ . . . . . . . . . . . . . . . . . . . . 115
4.2
Ph÷ìng ph¡p sinh tü ºng chó gi£i
ti‚ng Vi»t cho h…nh £nh . . . . 119
4.2.1
C¡c cæng tr…nh câ li¶n quan ‚n sinh chó gi£i
cho £nh . . . 119
4.2.2
• xu§t quy tr…nh x¥y düng h» thŁng sinh chó gi£i ti‚ng
Vi»t cho £nh . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
4.3 K‚t lu“n ch÷ìng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
K‚t lu“n
Danh möc cæng tr…nh khoa håc cıa t¡c gi£ li¶n quan
T i li»u tham kh£o
131
‚n lu“n ¡n 133
135
3
Danh möc c¡c chœ vi‚t t›t
ALPAC
Automatic Language Processing Advisory Committee
(Hºi
BiTES
çng cŁ v§n xß lþ ngæn ngœ tüºng)
Bilingual Term Extraction System
(H» thŁng tr‰ch rót thu“t ngœ song ngœ)
BLEU
BiLingual Evaluation Understudy
(Ch¿ sŁ
¡nh gi¡ ch§t l÷æng dàch song ngœ)
CNN
Convolutional Neural Network (M⁄ng nì-ron t‰ch ch“p)
DTW
Dynamic Time Warping
(Thu“t to¡n c«n ch¿nh thíi gian
ºng)
GRU
Gated Recurrent Unit ( ìn và hçi quy cŒng)
LSTM
Long Short Term Memory (Bº nhî d i ng›n h⁄n)
MI
Mutual Information (Thæng tin t÷ìng hØ)
NLP Natural Language Processing (Xß lþ ngæn ngœ tü nhi¶n)
NMT Neural Machine Translation (Dàch m¡y m⁄ng nì-ron) OPUS
The open parallel corpus (Kho ngœ li»u song song mð) PBSMT
Phrase-Based Statistical Machine Translation
(Dàch m¡y düa tr¶n cöm tł)
PER
Position-independent word Error Rate (T l» lØi tł
ºc l“p và tr‰)
RNN Recurrent Neural Network (M⁄ng nì-ron hçi quy) SMT
Statistical Machine Translation (Dàch m¡y thŁng k¶) SALM Suffix
Array tool kit for empirical Language Manipulations
(Cæng cö låc b£ng cöm tł trong Moses)
4
TER
Translation Error Rate (T l» lØi dàch)
TV
Television (Truy•n h…nh)
VLSP
Vietnamese Language Speech Processing
(Xß lþ ngæn ngœ v ti‚ng nâi ti‚ng Vi»t)
WER
Word Error Rate (T l» lØi tł)
5
Danh s¡ch h…nh v‡
1.1 Tam gi¡c Vauquois . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Mæ h…nh dàch trüc ti‚p . . . . . . . . . . . . . . . . . . . . . . . . .
20
21
1.3 Mæ h…nh dàch qua ngæn ngœ trung gian . . . . . . . . . . . . . . .
22
1.4 Mæ h…nh dàch m¡y thŁng k¶ . . . . . . . . . . . . . . . . . . . . . .
24
1.5 C§u tróc cıa h» thŁng dàch m¡y düa tr¶n m⁄ng nì-ron . . . . . .
27
1.6 C§u tróc cıa h» thŁng dàch m¡y MOSES . . . . . . . . . . . . . .
30
3.1 Ph÷ìng ph¡p x¥y düng tü ºng tł vüng Vi»t-Anh . . . . . . . . .
77
3.2 Ph÷ìng ph¡p x¥y düng tü ºng tł i”n Vi»t-Anh mi•n du làch . .
82
3.3 Mæ h…nh tr‰ch rót thu“t ngœ song ngœ Vi»t-Anh tł v«n b£n ti‚ng
Vi»t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
94
3.4 Mæ h…nh ¡p döng c¡c lu“t ” lüa chån c¡c øng vi¶n l thu“t ngœ
song ngœ Vi»t-Anh . . . . . . . . . . . . . . . . . . . . . . . . . . .
98
4.1 Mæ h…nh chó þ to n cöc . . . . . . . . . . . . . . . . . . . . . . . .
111
4.2 Mæ h…nh chó þ cöc bº. . . . . . . . . . . . . . . . . . . . . . . . . .
111
4.3 Mæ h…nh ti•n xß lþ c¥u d i hìn 30 tł trong hu§n luy»n h» thŁng
dàch m¡y. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
4.4 i”m BLEU cıa c¡c h» thŁng theo º d i tł ti‚ng Vi»t ÷æc coi
l c¥u ti‚ng Vi»t d i . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5 Mæ h…nh chó gi£i ti‚ng Vi»t cho £nh . . . . . . . . . . . . . . . . . 123
4.6 So s¡nh ch§t l÷æng dàch m¡y vîi Google . . . . . . . . . . . . . . . 125
6
118
Danh s¡ch b£ng
2.1 K‰ch th÷îc kho ngœ li»u song ngœ Vi»t-Anh mi•n du làch thu th“p
־c . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
2.2 Gi¡ trà penalty cho mØi ki”u dâng h ng . . . . . . . . . . . . . . .
62
2.3 Dâng h ng tr¶n kho ngœ li»u Vi»t-Anh "Le Petit prince" . . . . .
63
2.4 Dâng h ng tr¶n kho ngœ li»u du làch Vi»t-Anh . . . . . . . . . . .
63
2.5 i”m BLEU cıa 6 h» thŁng dàch . . . . . . . . . . . . . . . . . . .
67
2.6 i”m BLEU cıa 17 H» thŁng dàch m¡y khi dàch c¡c t»p ki”m tra
gçm 10:000 c¥u ti‚ng Vi»t sang ti‚ng Anh, so vîi H» thŁng dàch
m¡y Google Translate n«m 2017 . . . . . . . . . . . . . . . . . . . .
69
3.1 Tł i”n song ngœ Vi»t-Anh tr‰ch rót tł kho ngœ li»u gçm 600:389
c°p c¥u song ngœ Vi»t Anh . . . . . . . . . . . . . . . . . . . . .
86
3.2 Tł i”n song ngœ Vi»t-Anh mi•n du làch tr‰ch rót tł kho ngœ li»u
CorTurism3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
86
3.3 K‚t qu£ tra mºt sŁ tł trong tł i”n ÷æc x¥y düng b‹ng ph÷ìng
ph¡p • xu§t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87
3.4 ThŁng k¶ v• tr‰ch rót øng vi¶n thu“t ngœ . . . . . . . . . . . . . . 104
3.5 SŁ øng vi¶n thäa m¢n tłng lu“t tr¶n kho ngœ li»u y t‚ . . . . . . . 105
3.6 SŁ lƒn ¡p döng lu“t tr¶n dœ li»u Wikipedia . . . . . . . . . . . . . 105
3.7 ¡nh gi¡ k‚t qu£ c¡c c°p thu“t ngœ thu ÷æc . . . . . . . . . . . . 105
3.8 Ph¥n t‰ch k‚t qu£ tł c¡c c°p thu“t ngœ ÷æc tr‰ch rót . . . . . . . 106
7
4.1 ThŁng k¶ kho ngœ li»u song ngœ . . . . . . . . . . . . . . . . . . . 116
4.2 K‚t qu£ tr‰ch rót c°p cöm tł song ngœ . . . . . . . . . . . . . . . . 116
4.3 K‚t qu£ ti•n xß lþ c¥u d i trong dàch m¡y nì-ron . . . . . . . . . 117
4.4 Ch§t l÷æng dàch cıa 499 c¥u ti‚ng Vi»t d i hìn 30 tł . . . . . . . 119
4.5 i”m BLEU cıa c¡c h» thŁng khi dàch 500 c¥u chó gi£i £nh tł
ti‚ng Anh sang ti‚ng Vi»t . . . . . . . . . . . . . . . . . . . . . . . 125
4.6 i”m BLEU cıa h» thŁng dàch 500 c¥u chó gi£i £nh tł ti‚ng Anh
sang ti‚ng Vi»t sß döng kÿ thu“t xß lþ tł mîi . . . . . . . . . . . 128
4.7 Mºt sŁ k‚t qu£ cıa h» thŁng chó gi£i h…nh £nh b‹ng ti‚ng Vi»t . 130
8
M— U
Tł xa x÷a, con ng÷íi ¢ câ mong ÷îc dòng m¡y mâc ” dàch v«n b£n tł ngæn
ngœ n y sang ngæn ngœ kh¡c. °c bi»t trong giai o⁄n hi»n nay, c¡c n÷îc •u câ
xu h÷îng hºi nh“p quŁc t‚ s¥u rºng. Trong qu¡ tr…nh hºi nh“p, con ng÷íi luæn
câ mong muŁn n›m b›t c¡c thæng tin ÷æc vi‚t tł c¡c ngæn ngœ kh¡c nhau mºt
c¡ch nhanh châng, do â r§t cƒn ‚n sü træ gióp cıa c¡c h» thŁng dàch m¡y.
Ng y nay, vîi sü hØ træ m⁄nh m‡ cıa phƒn cøng m¡y t‰nh v Internet, dàch
m¡y ¢ cho k‚t qu£ dàch câ th” ch§p nh“n ÷æc v nhi•u øng döng dàch ¢ ÷æc ÷a
v o sß döng: dàch ti‚ng nâi; dàch tü ºng giœa nhi•u ngæn ngœ kh¡c nhau
(Google Translate hØ træ dàch giœa hìn 100 thø ti‚ng kh¡c nhau); dàch c¡c phö
• phim; dàch c¡c trang Web; . . . Ch§t l÷æng dàch m¡y ng y c ng ÷æc c£i thi»n,
høa hµn s‡ mang ‚n nhi•u øng döng trong nhi•u l¾nh vüc kh¡c nhau.
Trong nghi¶n cøu x¥y düng h» thŁng dàch m¡y, câ mºt sŁ h÷îng ti‚p c“n
kh¡c nhau, nh÷: Dàch düa tr¶n lu“t, dàch düa tr¶n thŁng k¶; dàch düa v o
m⁄ng nì-ron; dàch düa tr¶n cì sð tri thøc. Trong c¡c h÷îng ti‚p c“n n y, ti‚p c“n
dàch m¡y düa v o m⁄ng nì-ron ÷æc ¡nh gi¡ l câ ÷u th‚ v÷æt trºi v ÷æc ký vång
l thu hµp kho£ng c¡ch ngæn ngœ giœa con ng÷íi v m¡y t‰nh [116].
C¡c h» thŁng dàch m¡y, °c bi»t l h» thŁng dàch m¡y düa v o thŁng k¶ hay
düa v o m⁄ng nì-ron, r§t cƒn
‚n mºt kho ngœ li»u song ngœ k‰ch th÷îc lîn
v câ ch§t l÷æng ” hu§n luy»n v n¥ng cao ch§t l÷æng dàch. ¢ câ nhi•u
cæng tr…nh nghi¶n cøu, • xu§t ph÷ìng ph¡p x¥y düng kho ngœ li»u song
ngœ cho c¡c c°p ngæn ngœ. Ban ƒu, c¡c cæng tr…nh t“p trung v o nghi¶n
cøu x¥y düng kho ngœ li»u cho tłng c°p ngæn ngœ ìn l·:
Cæng tr…nh cıa Resnik n«m 1999 [87] ¢ x¥y düng ÷æc kho ngœ li»u song
ngœ Anh-Ph¡p vîi 2:491 c°p v«n b£n, x§p x¿ 1; 5 tri»u tł tr¶n mØi v«n b£n. Cæng
tr…nh cıa Chang Baobao n«m 2004 [10] ¢ x¥y düng ÷æc kho ngœ li»u vîi
9
400:000 c°p c¥u. Cæng tr…nh cıa Megyesi v cºng sü n«m 2006 [12] ¢ x¥y düng
÷æc kho ngœ li»u x§p x¿ 15:000 tł ti‚ng Thöy i”n v 10:000 tł ti‚ng ThŒ Nh¾ Ký.
C¡c cæng tr…nh nghi¶n cøu x¥y düng kho ngœ li»u song ngœ gƒn ¥y t“p trung
v o x¥y düng kho ngœ li»u song song a ngæn ngœ vîi k‰ch th÷îc lîn:
1. Cæng tr…nh cıa Tiedemann n«m 2016 [50], x¥y kho ngœ li»u OPUS
dâng h ng møc c¥u vîi tr¶n 60 ngæn ngœ câ tŒng sŁ 2,6 t c°p c¥u. Dœ
li»u trong kho OPUS (The open parallel corpus) ÷æc thu th“p tł Internet
v chı y‚u l tł phö • phim £nh v phö • tr¶n c¡c ch÷ìng tr…nh TV
(Television). OPUS ÷æc x¥y düng düa tr¶n c¡c cæng cö m¢ nguçn mð v
chia s· trong cºng çng nghi¶n cøu.
2. Cæng tr…nh cıa Abate v cºng sü n«m 2018 [98] x¥y düng ÷æc kho ngœ
li»u song song cho 7 c°p ngæn ngœ: (i)Amharic - Tigrigna: 34:349 c°p c¥u;
(ii)Amharic - Afan Oromo: 11:457 c°p c¥u; (iii) Tigrigna - Afan Oromo:
10:987 c°p c¥u; (iv) Amharic - Wolaytta: 9:400 c°p c¥u; (v) Ge’ez - Amharic:
11:546 c°p c¥u; (vi)Wolaytta - Afan Oromo: 2:923 c°p c¥u; (vii)Tigrigna -
Wolaytta: 2:504 c°p c¥u.
3. Cæng tr…nh cıa Kenji Imamura v Eiichiro Sumita n«m 2018 [55] ¢ x¥y
düng kho ngœ li»u song song cıa 10 ngæn ngœ vîi k‰ch th÷îc lîn: (i)
Ti‚ng Nh“t: 2:029:111 c¥u; (ii) Ti‚ng Anh: 2:029:111 c¥u; (iii) Ti‚ng Trung:
2:026:608 c¥u; (iv) Ti‚ng H n QuŁc: 2:026:608 c¥u; (v) Ti‚ng Th¡i: 1:150:070
c¥u; (vi) Ti‚ng Vi»t: 1:150:070 c¥u; (vii) Ti‚ng In- æ-n¶-xi-a: 1:150:070 c¥u;
(vii) Ti‚ng Ma-lai-xi-a: 1:150:070 c¥u; (ix) Ti‚ng T¥y Ba Nha: 337:654 c¥u;
(x) Ti‚ng Ph¡p 340:499 c¥u.
Łi vîi ti‚ng Vi»t, ¢ câ c¡c • t i, cæng tr…nh nghi¶n cøu x¥y düng kho ngœ
li»u song ngœ Anh-Vi»t nh÷:
10
1. Kho ngœ li»u trong • t i VLSP (Vietnamese Language Speech
1
Processing) nh¡nh • t i xß lþ v«n b£n câ 100:000 c°p c¥u song ngœ
Anh-Vi»t v ¢ ÷æc chia s· cho cºng çng nghi¶n cøu.
2. Kho ngœ li»u trong cæng tr…nh "Tr‰ch rót v«n b£n song ngœ tł trang Web"
n«m 2010 cıa L¶ Quang Hòng v L¶ Anh C÷íng [59] câ tr¶n 35:000 c°p c¥u.
3. Kho ngœ li»u trong cæng tr…nh "Kho ngœ li»u song ngœ Anh - Vi»t
EVB-Corpus cho nghi¶n cøu c¡c t¡c vö trong Ngæn ngœ håc so s¡nh"
n«m 2013 cıa Ngæ QuŁc Hòng v Cºng sü [75]. — cæng tr…nh n y,
nhâm t¡c gi£ ¢ x¥y düng ÷æc kho ngœ li»u song ngœ Anh-Vi»t 800:000
c°p c¥u, trong â câ tr¶n 45:000 c°p c¥u ÷æc dâng h ng møc tł.
4. Kho ngœ li»u trong cæng tr…nh v• x¥y düng kho ngœ li»u song song a
ngæn ngœ cho 10 c°p ngæn ngœ cıa c¡c t¡c gi£ Tri»u H£i Long v
Nguy„n L¶ Minh n«m 2017 [104] câ k‰ch th÷îc hìn 1; 1 tri»u c°p c¥u.
5. Kho ngœ li»u trong cæng tr…nh cıa c¡c t¡c gi£ Ngæ QuŁc Hòng cæng
bŁ n«m 2018 vîi tr¶n 2 tri»u c°p c¥u song ngœ Anh-Vi»t v tr¶n 20 tri»u
2
c°p tł song ngœ .
Li¶n quan ‚n x¥y düng kho ngœ li»u tr¶n th‚ giîi v ð Vi»t Nam gƒn ¥y, c¡c
nh nghi¶n cøu t“p trung v o x¥y düng kho ngœ li»u song song a ngæn ngœ
vîi k‰ch th÷îc lîn [104] [55] [41]. Khâ kh«n m hƒu h‚t c¡c cæng tr…nh nghi¶n
cøu x¥y düng kho ngœ li»u song song ang ph£i Łi m°t l sü thi‚u t i nguy¶n
song ngœ v ch÷a t“n döng ÷æc h‚t c¡c d⁄ng t i nguy¶n. Ngo i ra c¡c cæng
tr…nh ch¿ t“p trung v o kÿ thu“t khai ph¡ mi•n chung v ch÷a nghi¶n cøu c¡c
kÿ thu“t khai ph¡ dœ li»u theo mi•n cö th”.
C¡c nguçn v«n b£n song ngœ sfin câ cho ti‚ng Vi»t v mºt ngæn ngœ kh¡c
nh÷ c°p ngæn ngœ Vi»t-Anh vŁn cÆn h⁄n ch‚, n¶n vi»c x¥y düng kho ngœ li»u
1https://vlsp.hpda.vn/demo/?page=resources
2
https://sites.google.com/a/uit.edu.vn/hungnq/evbcorpus
11
song ngœ Vi»t-Anh k‰ch th÷îc lîn l mºt v§n • khâ kh«n. Do â ch§t l÷æng
dàch m¡y Vi»t-Anh cÆn ch÷a cao.
B¶n c⁄nh â, mi•n dœ li»u hu§n luy»n h» thŁng dàch m¡y công câ £nh h÷ðng
‚n ch§t l÷æng cıa c¡c h» thŁng dàch m¡y. Cæng tr…nh nghi¶n cøu cıa Koehn
v cºng sü n«m 2017 v• 6 th¡ch thøc Łi vîi h» thŁng dàch m¡y nì-ron [85] ¢
ch¿ ra h» thŁng dàch m¡y nì-ron bà gi£m ch§t l÷æng khi dàch c¡c v«n b£n ngo
i mi•n hu§n luy»n h» thŁng. ” kh›c phöc h⁄n ch‚ n y, c¡c nh nghi¶n cøu sß döng
ph÷ìng ph¡p th‰ch øng mi•n trong â c¡c kho ngœ li»u song ngœ theo mi•n
âng vai trÆ quan trång [89] [52] [102] [119] [53] [24].
Du làch l mºt l¾nh vüc ÷u ti¶n ph¡t tri”n t⁄i Vi»t Nam. L÷æng kh¡ch n÷îc
ngo i ‚n Vi»t Nam ng y c ng t«ng. Theo thŁng k¶ cıa TŒng cöc Du làch Vi»t
3
Nam, l÷æng kh¡ch quŁc t‚ ‚n Vi»t Nam n«m 2019 l 1:809:580 l÷æt. Nhu cƒu
dàch tü ºng Vi»t-Anh trong l¾nh vüc du làch do v“y công r§t lîn.
Trong thíi gian gƒn ¥y, t…nh h…nh v• b»nh dàch v sü xu§t hi»n c¡c lo⁄i
b»nh mîi ng y mºt nhi•u, d¤n ‚n nhu cƒu t…m hi”u v tra cøu c¡c v«n b£n
thuºc mi•n y t‚ ng y c ng cao. Do â h» dàch Anh-Vi»t câ ch§t l÷æng trong
l¾nh vüc y t‚ ” hØ træ nhu cƒu n y ang trð n¶n cƒn thi‚t. V… v“y vi»c khai ph¡
dœ li»u ” x¥y düng kho ngœ li»u song ngœ mi•n y t‚ cƒn ÷æc quan t¥m.
Tł nhœng lþ do n¶u tr¶n, lu“n ¡n nghi¶n cøu x¥y düng kho ngœ li»u song
ngœ Vi»t-Anh theo mi•n cho c¡c h» thŁng dàch m¡y v mi•n dœ li»u ÷æc ÷u
ti¶n x¥y düng l du làch v y t‚.
Möc ti¶u cö th” cıa lu“n ¡n:
X¥y düng kho ngœ li»u song ngœ Vi»t-Anh câ dâng h ng cho dàch m¡y
theo mi•n.
Nghi¶n cøu c¡c ph÷ìng ph¡p n¥ng cao hi»u su§t cıa kho ngœ li»u song ngœ
Vi»t-Anh trong dàch m¡y.
3
http://vietnamtourism.gov.vn/index.php/statistic/international
12
” thüc hi»n c¡c möc ti¶u n y, lu“n ¡n tri”n khai thüc hi»n c¡c nºi dung sau:
1. Thu th“p dœ li»u song ngœ Vi»t-Anh mi•n chung (c¡c v«n b£n chøa nºi
dung cıa nhi•u l¾nh vüc kh¡c nhau) v c¡c mi•n cıa tłng l¾nh vüc, trong â
mi•n du làch v mi•n y t‚ ÷æc ÷u ti¶n.
2. Nghi¶n cøu n¥ng cao hi»u qu£ cæng cö dâng h ng c¥u cho c°p ngæn
ngœ Vi»t-Anh v x¥y düng kho ngœ li»u song ngœ Vi»t-Anh theo mi•n.
3. Nghi¶n cøu • xu§t c¡c ph÷ìng ph¡p tr‰ch rót tü ºng c¡c c°p tł, cöm tł
song ngœ ” x¥y düng kho ngœ li»u tł v cöm tł song ngœ Vi»t-Anh.
4. Nghi¶n cøu mºt sŁ kÿ thu“t khai th¡c kho ngœ li»u song ngœ Vi»t-Anh
thu th“p ÷æc trong dàch m¡y.
Lu“n ¡n
⁄t
÷æc c¡c k‚t qu£ sau:
1. Lu“n ¡n ¢ • xu§t kÿ thu“t c£i ti‚n cæng cö dâng h ng XAlign cho c°p
4
ngæn ngœ Vi»t-Anh. Sß döng cæng cö dâng h ng n y lu“n ¡n ¢ thu th“p
5
v x¥y düng ÷æc: tr¶n 20:000 c°p c¥u mi•n du làch ; tr¶n 270:000 c°p c¥u
6
mi•n chung. K‚t qu£ n y ÷æc cæng bŁ trong [CT1].
2. Lu“n ¡n ¢ • xu§t v tri”n khai c¡c ph÷ìng ph¡p tr‰ch rót tł v cöm tł song
ngœ tł kho ngœ li»u song ngœ v kho ngœ li»u ìn ngœ. Tł â ¢ x¥y düng
÷æc kho ngœ li»u tr¶n 40:000 c°p tł v cöm tł song ngœ, bao gçm:
7
8
tr¶n 1:000 c°p cho mi•n du làch, tr¶n 600 c°p cho mi•n y t‚, cÆn l⁄i thuºc
9
mi•n chung. C¡c k‚t qu£ li¶n quan ÷æc cæng bŁ trong [CT3] v [CT4].
3. Lu“n ¡n ¢ • xu§t kÿ thu“t ti•n xß lþ c¥u d i trong dàch m¡y nì-ron c£i
thi»n ch§t l÷æng dàch. K‚t qu£ n y ÷æc cæng bŁ trong [CT2].
https://github.com/viXAlign/viXAlign-project
https://github.com/Tienhavn/tourismcorpus
6
https://github.com/Tienhavn/generalcorpus
7
https://github.com/Tienhavn/Tourismterm
8
https://github.com/Tienhavn/medicalterm
9
https://github.com/Tienhavn/generaltermcorpus
4
5
13
4. Lu“n ¡n tri”n khai mºt ph÷ìng ph¡p sinh chó gi£i ti‚ng Vi»t tü ºng cho h…
nh £nh düa v o dàch m¡y Anh-Vi»t. ” n¥ng cao ch§t l÷æng dàch, lu“n ¡n
¢ • xu§t mºt kÿ thu“t khai th¡c tł di”n ” xß lþ c¡c tł mîi (unknown words) Łi
vîi h» thŁng dàch. K‚t qu£ n y ÷æc tr…nh b y trong [CT6] [CT7].
C§u tróc lu“n ¡n
Sau phƒn mð ƒu, nºi dung ch‰nh cıa lu“n ¡n bao gçm 4 ch÷ìng.
Ch÷ìng 1: Giîi thi»u tŒng quan v• dàch m¡y v t i nguy¶n ngæn ngœ. Trong
ch÷ìng n y, lu“n ¡n tr…nh b y c¡c h÷îng ti‚p c“n cıa dàch m¡y, º o dòng
trong ¡nh gi¡ ch§t l÷æng c¡c h» thŁng dàch m¡y v vai trÆ cıa kho ngœ
li»u song ngœ.
Ch÷ìng 2: T“p trung v o v§n • x¥y düng kho ngœ li»u song ngœ Vi»t-Anh
câ dâng h ng møc c¥u. âng gâp ch‰nh cıa ch÷ìng n y l • xu§t c£i ti‚n
cæng cö dâng h ng c¥u cho c°p ngæn ngœ Vi»t-Anh. B¶n c⁄nh â l vi»c
x¥y düng kho ngœ li»u song ngœ Vi»t-Anh tr¶n mi•n du làch.
Ch÷ìng 3: Tr…nh b y mºt sŁ ph÷ìng ph¡p x¥y düng kho ngœ li»u tł, cöm
tł song ngœ Vi»t-Anh, tł kho ngœ li»u song ngœ Vi»t-Anh câ dâng h ng
møc c¥u v tł v«n b£n ìn ngœ ti‚ng Vi»t.
Ch÷ìng 4: Tr…nh b y hai kÿ thu“t n¥ng cao ch§t l÷æng h» thŁng dàch
m¡y nì-ron. Kÿ thu“t thø nh§t l thüc hi»n ti•n xß lþ c¥u d i ” l m gi u mæ
h…nh dàch. Kÿ thu“t thø hai l khai th¡c tł i”n ” xß lþ c¡c tł mîi Łi vîi h»
thŁng dàch, kÿ thu“t n y ¢ ÷æc øng döng trong h» thŁng dàch tü ºng chó
gi£i £nh tł ti‚ng Anh sang ti‚ng Vi»t.
Phƒn k‚t lu“n: Tr…nh b y tâm l÷æc c¡c k‚t qu£ v âng gâp cıa lu“n ¡n çng
thíi n¶u ra nhœng h⁄n ch‚ v h÷îng ph¡t tri”n cıa lu“n ¡n.
14
Ch֓ng 1
TŒng quan v• dàch m¡y v t i
nguy¶n ngæn ngœ
Ch÷ìng n y tr…nh b y tŒng quan v• dàch m¡y v t i nguy¶n ngæn ngœ
÷æc sß döng trong dàch m¡y: làch sß v• dàch m¡y; ki‚n tróc cıa h» thŁng
dàch m¡y; c¡c h÷îng ti‚p c“n cıa dàch m¡y; ¡nh gi¡ h» thŁng dàch m¡y; t i
nguy¶n ngæn ngœ v t i nguy¶n ngæn ngœ cho c¡c h» thŁng dàch m¡y; th
‰ch øng mi•n trong dàch m¡y v c¡c cæng cö ti•n xß lþ v«n b£n ti‚ng Vi»t.
Chóng tæi ph¥n t‰ch, ¡nh gi¡ c¡c cæng tr…nh nghi¶n cøu li¶n quan, ÷a ra
v§n • cÆn tçn t⁄i m lu“n ¡n s‡ gi£i quy‚t.
1.1
TŒng quan v• dàch m¡y
Dàch m¡y l g…?
Dàch m¡y l mºt h» thŁng sß döng m¡y t‰nh ” chuy”n Œi v«n b£n ÷æc vi‚t
trong ngæn ngœ tü nhi¶n n y th nh b£n dàch t÷ìng ÷ìng trong ngæn ngœ
kh¡c. Ngæn ngœ cıa v«n b£n cƒn dàch cÆn gåi l ngæn ngœ nguçn, ngæn
ngœ cıa b£n dàch ÷æc gåi l ngæn ngœ ‰ch.
15
- Xem thêm -