i
LỜI CAM ĐOAN
Tôi xin cam đoan luận án này là công trình nghiên cứu
khoa học của tôi.
Các kết quả của luận án là trung thực và chưa từng
được ai khác công bố trong bất kỳ công trình nào khác.
TP.HCM, ngày 25 tháng 03 năm 2017
Người thực hiện
Trần Lê Tâm Linh
ii
LỜI CẢM ƠN
Lời đầu tiên, tác giả xin được bày tỏ lòng tri ân sâu sắc đối với Thầy
hướng dẫn: PGS. TS Đinh Điền, người đã trực tiếp hướng dẫn và luôn
chỉ bảo cho tác giả từ những bước đầu ban đầu khó khăn, động viên tác
giả về mọi mặt để tác giả có thể hoàn thành được luận án.
Tác giả cũng xin được bày tỏ lòng biết ơn chân thành đối với các
thầy cô tại Trường Đại học Khoa học Xã hội và Nhân văn, TP.HCM vì
đã truyền đạt cho tác giả những kiến thức quý báu để tác giả có thể phát
triển được đề tài của luận án.
Tác giả cũng xin được cảm ơn lãnh đạo trường Đại học Khoa học
Xã hội và Nhân văn, Thành phố Hồ Chí Minh và lãnh đạo trường Đại
học Khoa học Tự nhiên, Thành phố Hồ Chí Minh vì đã tạo mọi điều kiện
thuận lợi cho tác giả trong quá trình học tập.
Và cũng xin gửi lời cảm ơn trân trọng đến các anh chị em đồng
nghiệp, bạn bè và những người thân trong gia đình vì đã luôn động viên
và giúp đỡ tác giả thực hiện luận án.
Cuối cùng, tác giả cũng xin chân thành cảm ơn tất cả các bạn hữu
lớp CEO-48 vì đã giúp đỡ tác giả trong việc thu thập nguồn ngữ liệu cho
luận án này.
iii
MỤC LỤC
MỞ ĐẦU .....................................................................................................................1
0.1
Lý do nghiên cứu .........................................................................................1
0.2
Mục tiêu và nhiệm vụ nghiên cứu ...............................................................1
0.3
Lịch sử vấn đề ..............................................................................................2
0.3.1
Nghiên cứu về lỗi .........................................................................................2
0.3.2
Nghiên cứu về lỗi dịch thuật ........................................................................3
0.3.3
Nghiên cứu về dịch tự động .........................................................................4
0.3.4
Nghiên cứu về lỗi khi dịch tự động .............................................................5
0.4
Đối tượng và phạm vi nghiên cứu ...............................................................6
0.4.1
Đối tượng nghiên cứu ..................................................................................6
0.4.2
Phạm vi nghiên cứu .....................................................................................6
0.5
Phương pháp nghiên cứu và nguồn ngữ liệu ...............................................6
0.5.1
Phương pháp nghiên cứu .............................................................................6
0.5.2
Phần mềm BLAST .......................................................................................7
0.5.3
Phần mềm BLAST - VCL ...........................................................................8
0.5.4
Nguồn ngữ liệu ............................................................................................8
0.6
Ý nghĩa khoa học và ý nghĩa thực tiễn ........................................................9
0.7
Bố cục của luận án .....................................................................................10
CHƯƠNG 1. CƠ SỞ LÝ THUYẾT .........................................................................11
1.1
Khái niệm lỗi .............................................................................................11
1.1.1
Lỗi ngôn ngữ ..............................................................................................11
1.1.1.1 Khái niệm lỗi chính tả ................................................................................11
1.1.1.2 Khái niệm lỗi từ vựng ................................................................................11
1.1.1.3 Khái niệm lỗi ngữ pháp..............................................................................12
1.1.2
Lỗi kỹ thuật ................................................................................................12
1.1.2.1 Khái niệm lỗi hệ thống...............................................................................12
1.1.2.2 Khái niệm lỗi ngẫu nhiên ...........................................................................12
1.2
Cơ sở lý luận của việc phân tích lỗi dịch thuật ..........................................12
1.2.1
Định nghĩa lỗi dịch thuật và lỗi dịch tự động ............................................13
1.2.1.1 Định nghĩa lỗi dịch thuật ...........................................................................13
iv
1.2.1.2 Định nghĩa lỗi dịch tự động .......................................................................13
1.2.2
Các bước xử lý ngữ liệu trước khi phân tích lỗi ........................................14
1.2.2.1 Thu thập ngữ liệu .......................................................................................14
1.2.2.2 Chuẩn hóa ngữ liệu ....................................................................................14
1.2.2.3 Xử lý ngữ liệu ............................................................................................15
1.2.3
Phân tích lỗi dịch tự động Anh-Việt ..........................................................19
1.2.3.1 Nhận dạng lỗi dịch tự động........................................................................19
1.2.3.2 Phân tích lỗi dịch tự động ..........................................................................19
1.3
Những lỗi ngôn ngữ khi dịch tự động Anh-Việt các hợp đồng kinh tế .....21
1.3.1
Đặc điểm của dịch tự động ........................................................................21
1.3.1.1 Khái niệm về dịch tự động .........................................................................21
1.3.1.2 Những thuận lợi và bất lợi trong dịch tự động ..........................................21
1.3.1.3 Các cách tiếp cận đối với dịch tự động chưa ứng dụng thống kê ..............22
1.3.1.4 Dịch tự động thống kê (SMT)....................................................................26
1.3.2
Đặc điểm về loại hình của tiếng Việt và tiếng Anh ...................................28
1.3.2.1 Đặc điểm của tiếng Việt.............................................................................28
1.3.2.2 Đặc điểm của tiếng Anh.............................................................................29
1.3.3
Hợp đồng kinh tế .......................................................................................30
1.3.3.1 Khái niệm hợp đồng kinh tế.......................................................................30
1.3.3.2 Các loại hợp đồng kinh tế ..........................................................................30
1.3.4
Nhận diện và phân loại lỗi ngôn ngữ khi dịch tự động..............................32
1.3.4.1 Lỗi chính tả khi dịch tự động hợp đồng kinh tế Anh-Việt ........................32
1.3.4.2 Lỗi từ vựng khi dịch tự động hợp đồng kinh tế Anh-Việt .........................36
1.3.4.3 Lỗi ngữ pháp khi dịch tự động hợp đồng kinh tế Anh-Việt ......................38
1.3.4.4 Lỗi hệ thống khi dịch tự động hợp đồng kinh tế Anh-Việt .......................41
1.3.4.5 Lỗi ngẫu nhiên khi dịch tự động hợp đồng kinh tế Anh-Việt....................43
CHƯƠNG 2. PHÂN TÍCH LỖI CHÍNH TẢ VÀ LỖI TỪ VỰNG..........................46
2.1
Lỗi chính tả ................................................................................................46
2.1.1
Lỗi dịch sai chữ số - loại I .........................................................................46
2.1.2
Lỗi dịch sai chữ số - loại II ........................................................................47
2.1.3
Lỗi dịch sai dấu câu - loại I........................................................................48
v
2.1.4
Lỗi dịch sai dấu câu - loại II ......................................................................49
2.1.5
Lỗi thành phần của cấu trúc âm tiết - loại II ..............................................49
2.1.6
Lỗi giữ nguyên từ thuộc ngôn ngữ nguồn - loại I ......................................50
2.1.7
Lỗi giữ nguyên từ thuộc ngôn ngữ nguồn - loại II ....................................51
2.1.8
Lỗi viết hoa - loại I ....................................................................................52
2.1.9
Lỗi viết hoa - loại II ...................................................................................53
2.1.10
Lỗi viết tắt – loại I......................................................................................54
2.1.11
Lỗi viết tắt – loại II ....................................................................................54
2.1.12
Các lỗi chính tả khác- loại II ......................................................................55
2.2
Lỗi từ vựng.................................................................................................58
2.2.1
Lỗi nhập nhằng - loại I ...............................................................................58
2.2.2
Lỗi nhập nhằng - loại II .............................................................................59
2.2.3
Lỗi hiểu sai thành ngữ- loại II ...................................................................60
2.2.4
Lỗi hiểu sai nghĩa thuật ngữ - loại I ...........................................................61
2.2.5
Lỗi hiểu sai nghĩa thuật ngữ - loại II .........................................................62
2.3
Lỗi kỹ thuật ................................................................................................66
2.3.1
Lỗi chính tả và lỗi từ vựng thuộc lỗi hệ thống...........................................67
2.3.2
Lỗi chính tả và lỗi từ vựng thuộc lỗi ngẫu nhiên .......................................71
2.3.3
Lỗi hệ thống và lỗi ngẫu nhiên thông qua khoảng cách Levenshtein........73
2.3.3.1 Kết quả lỗi hệ thống thông qua khoảng cách Levenshtein ........................74
2.3.3.2 Kết quả lỗi ngẫu nhiên thông qua khoảng cách Levenshtein ....................76
TIỂU KẾT .................................................................................................................80
CHƯƠNG 3. PHÂN TÍCH LỖI NGỮ PHÁP ..........................................................81
3.1
Lỗi trật tự từ ...............................................................................................81
3.1.1
Lỗi trật tự từ theo tiêu chí BLAST.............................................................81
3.1.2
Lỗi trật tự từ theo tiêu chí BLAST-VCL ...................................................84
3.1.2.1 Lỗi trật tự từ thuộc cấu trúc chủ động hoặc cấu trúc bị động ....................86
3.1.2.2 Lỗi trật tự từ giữa tính từ - danh từ ............................................................88
3.1.2.3 Lỗi trật tự từ giữa trạng từ - tính từ trong tiếng Anh .................................89
3.1.2.4 Lỗi trật tự từ giữa mạo từ - danh từ trong tiếng Anh .................................89
3.1.2.5 Lỗi trật tự từ thuộc liên từ ..........................................................................91
vi
3.1.2.6 Lỗi trật tự từ giữa danh từ - danh từ ..........................................................91
3.1.2.7 Lỗi trật tự từ giữa danh từ - sở hữu cách - danh từ ....................................92
3.1.2.8 Lỗi trật tự từ giữa số - danh từ ...................................................................93
3.1.2.9 Lỗi trật tự từ giữa giới từ - danh từ ............................................................94
3.1.2.10 Lỗi trật tự từ giữa chủ từ - động từ ............................................................95
3.1.2.11 Lỗi trật tự từ giữa động từ - trạng từ trong tiếng Anh ...............................96
3.1.2.12 Lỗi trật tự từ giữa động từ - túc từ .............................................................96
3.1.2.13 Lỗi trật tự từ giữa động từ - động từ ..........................................................97
3.2
Lỗi dịch sai từ công cụ - loại II ..................................................................99
3.3
Lỗi dịch sai khi hòa hợp giữa chủ từ và động từ - loại II ........................101
3.4
Lỗi thừa từ................................................................................................102
3.4.1
Lỗi thừa từ - loại I ....................................................................................102
3.4.1.1 Lỗi thừa từ nội dung - loại I .....................................................................102
3.4.1.2 Lỗi thừa từ ngữ pháp - loại I ....................................................................103
3.4.1.3 Lỗi dịch thừa từ so với ngôn ngữ nguồn - loại I ......................................103
3.4.2
Lỗi thừa từ - loại II...................................................................................104
3.4.2.1 Lỗi thừa từ nội dung - loại II ...................................................................104
3.4.2.2 Lỗi thừa từ ngữ pháp - loại II...................................................................105
3.4.2.3 Lỗi dịch thừa từ so với ngôn ngữ nguồn - loại II.....................................106
3.5
Lỗi thiếu từ ...............................................................................................107
3.5.1
Lỗi thiếu từ - loại I ...................................................................................107
3.5.1.1 Lỗi thiếu từ nội dung - loại I ....................................................................107
3.5.1.2 Lỗi thiếu từ ngữ pháp - loại I ...................................................................108
3.5.2
Lỗi thiếu từ - loại II ..................................................................................108
3.5.2.1 Lỗi thiếu từ nội dung - loại II ..................................................................109
3.5.2.2 Lỗi thiếu từ ngữ pháp - loại II ..................................................................110
3.6
Lỗi kỹ thuật ..............................................................................................113
3.6.1
Lỗi ngữ pháp thuộc lỗi hệ thống ..............................................................113
3.6.2
Lỗi ngữ pháp thuộc lỗi ngẫu nhiên ..........................................................116
TIỂU KẾT ...............................................................................................................119
KẾT LUẬN .............................................................................................................121
vii
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CÓ LIÊN QUAN ĐẾN LUẬN
ÁN CỦA TÁC GIẢ ................................................................................................126
TÀI LIỆU THAM KHẢO .......................................................................................128
viii
DANH SÁCH BẢNG
Bảng 1. 1 Minh họa lỗi hệ thống thông qua khoảng cách Levenshtein................42
Bảng 2. 1 Lỗi dịch sai chữ số - loại I ....................................................................47
Bảng 2. 2 Lỗi dịch sai chữ số - loại II ..................................................................47
Bảng 2. 3 Lỗi dịch sai dấu câu - loại I ..................................................................48
Bảng 2. 4 Lỗi dịch sai dấu câu - loại II.................................................................49
Bảng 2. 5 Các loại lỗi hình thái khác ....................................................................50
Bảng 2. 6 Lỗi giữ nguyên từ thuộc ngôn ngữ nguồn - loại I ................................50
Bảng 2. 7 Lỗi giữ nguyên từ thuộc ngôn ngữ nguồn - loại II ...............................51
Bảng 2. 8 Lỗi viết hoa – loại I ..............................................................................52
Bảng 2. 9 Lỗi viết hoa – loại II .............................................................................53
Bảng 2. 10 Lỗi viết hoa – loại II ...........................................................................54
Bảng 2. 11 Lỗi viết hoa – loại II ...........................................................................54
Bảng 2. 12 Các lỗi chính tả khác- loại II ..............................................................55
Bảng 2. 13 Lỗi nhập nhằng - loại I .......................................................................58
Bảng 2. 14 Lỗi nhập nhằng - loại II ......................................................................59
Bảng 2. 15 Lỗi hiểu sai thành ngữ ........................................................................60
Bảng 2. 16 Lỗi hiểu sai nghĩa thuật ngữ - loại I ...................................................61
Bảng 2. 17 Lỗi hiểu sai nghĩa thuật ngữ - loại II ..................................................62
Bảng 2. 18 Minh họa lỗi hệ thống có L1 = 0 ........................................................74
Bảng 2. 19 Minh họa lỗi ngẫu nhiên - năm 2014 dịch tốt hơn năm 2012 ............77
Bảng 2. 20 Minh họa lỗi ngẫu nhiên - năm 2012 dịch tốt hơn năm 2014 ............78
Bảng 3. 1 Lỗi trật tự từ thuộc cấu trúc chủ động hoặc cấu trúc bị động ..............87
Bảng 3. 2 Lỗi trật tự từ giữa tính từ - danh từ ......................................................88
Bảng 3. 3 Lỗi trật tự từ giữa trạng từ - tính từ trong tiếng Anh............................89
Bảng 3. 4 Lỗi trật tự từ giữa mạo từ - danh từ ......................................................90
Bảng 3. 5 Lỗi trật tự từ thuộc liên từ ....................................................................91
Bảng 3. 6 Lỗi trật tự từ giữa danh từ - danh từ .....................................................92
Bảng 3. 7 Lỗi trật tự từ giữa danh từ - sở hữu cách- danh từ ...............................92
Bảng 3. 8 Lỗi trật tự từ giữa số - danh từ .............................................................93
Bảng 3. 9 Lỗi trật tự từ giữa giới từ - danh từ ......................................................94
ix
Bảng 3. 10 Lỗi trật tự từ giữa chủ từ - động từ .....................................................95
Bảng 3. 11 Lỗi trật tự từ giữa động từ - trạng từ ..................................................96
Bảng 3. 12 Lỗi trật tự từ giữa động từ - túc từ......................................................96
Bảng 3. 13 Lỗi trật tự từ giữa động từ - động từ ..................................................97
Bảng 3. 14 Lỗi dịch sai từ công cụ -loại II .........................................................100
Bảng 3. 15 Lỗi phù ứng ......................................................................................101
Bảng 3. 16 Lỗi thừa từ nội dung - loại I .............................................................102
Bảng 3. 17 Lỗi thừa từ ngữ pháp - loại I ............................................................103
Bảng 3. 18 Lỗi dịch thừa từ so với ngôn ngữ nguồn - loại I ..............................104
Bảng 3. 19 Lỗi thừa từ nội dung - loại II ............................................................104
Bảng 3. 20 Lỗi thừa từ ngữ pháp - loại II ...........................................................106
Bảng 3. 21 Lỗi dịch thừa từ so với ngôn ngữ nguồn - loại II .............................106
Bảng 3. 22 Lỗi thiếu từ nội dung - loại I ............................................................107
Bảng 3. 23 Lỗi thiếu từ ngữ pháp - loại I ...........................................................108
Bảng 3. 24 Lỗi thiếu từ nội dung - loại II ...........................................................109
Bảng 3. 25 Lỗi thiếu từ ngữ pháp - loại II ..........................................................110
x
DANH SÁCH HÌNH
Hình 1. 1 Giới thiệu tiền xử lý ngữ liệu................................................................15
Hình 1. 2 Minh họa công cụ BLAST ....................................................................16
Hình 1. 3 Minh họa các bước xử lý dữ liệu ..........................................................17
Hình 1. 4 Mô hình phân tích lỗi BLAST-VCL.....................................................18
Hình 2. 1 Lỗi chính tả ..........................................................................................57
Hình 2. 2 Tỉ lệ phần trăm lỗi chính tả ...................................................................58
Hình 2. 3 Lỗi thuật ngữ .........................................................................................63
Hình 2. 4 Minh họa lỗi hiểu sai nghĩa thuật ngữ - loại II .....................................64
Hình 2. 5 Lỗi từ vựng ..........................................................................................65
Hình 2. 6 Tỉ lệ phần trăm lỗi từ vựng ...................................................................66
Hình 2. 7 Lỗi chính tả và lỗi từ vựng thuộc lỗi hệ thống .....................................68
Hình 2. 8 Tỷ lệ phần trăm lỗi chính tả và lỗi từ vựng thuộc lỗi hệ thống ...........69
Hình 2. 9 Lỗi chính tả và lỗi từ vựng thuộc lỗi ngẫu nhiên ..................................72
Hình 2. 10 Tỷ lệ phần trăm lỗi chính tả và lỗi từ vựng thuộc lỗi ngẫu nhiên ......72
Hình 2. 11 Số cặp câu (a) và tỷ lệ phần trăm cặp câu (b) mang lỗi hệ thống và lỗi
ngẫu nhiên .........................................................................................73
Hình 2. 12 Tỉ lệ phần trăm lỗi hệ thống và lỗi ngẫu nhiên trong 3 ngữ liệu ........74
Hình 3. 1 Lỗi trật tự từ theo tiêu chí BLAST ......................................................81
Hình 3. 2 Số lượng câu chứa lỗi trật tự từ ............................................................83
Hình 3. 3 Mô hình phân tích lỗi BLAST-VCL.....................................................85
Hình 3. 4 Lỗi trật tự từ theo tiêu chí BLAST-VCL ..............................................98
Hình 3. 5 Tỉ lệ phần trăm lỗi trật tự từ theo tiêu chí BLAST-VCL ......................99
Hình 3. 6 Kết quả lỗi ngữ pháp...........................................................................111
Hình 3. 7 Tỉ lệ phần trăm lỗi ngữ pháp...............................................................112
Hình 3. 8 Lỗi ngữ pháp theoBLAST - thuộc lỗi hệ thống ..................................114
Hình 3. 9 tỷ lệ phần trăm lỗi ngữ pháp theo BLAST - thuộc lỗi hệ thống .........115
Hình 3. 10 Lỗi ngữ pháp thuộc lỗi ngẫu nhiên ..................................................117
Hình 3. 11 Tỷ lệ phần trăm lỗi ngữ pháp thuộc lỗi ngẫu nhiên ..........................118
xi
BẢNG CHỮ VIẾT TẮT
BLAST
: the Bilingual Annotator/Annotation/Analysis Support Tool
CKT
: Cung Kim Tiến
CT
: Chính tả
DTC
: Dịch thủ công
DTĐ
: Dịch tự động
GT
: Google Translate
HT
: Hệ thống
LEGAL
: Legal documents on labour and economic contracts, settlement of
labour and economic disputes
NL
: Ngữ liệu
NN
: Ngẫu nhiên
NNN
: Ngôn ngữ nguồn
NP
: Ngữ pháp
NTY
: Nguyễn Thành Yến
SMT
: Statistic Machine Translation (Dịch tự động thống kê )
TLTL
: Trần Lê Tâm Linh
TV
: Từ vựng
VCL
: Vietnamese Computational Linguistics
XH-MK
: Xuân Huy – Minh Khiết
1
MỞ ĐẦU
0.1 Lý do nghiên cứu
Dịch tự động là lĩnh vực đã được quan tâm nghiên cứu từ nhiều thập kỷ
qua. Gần đây, lĩnh vực này đã đạt nhiều kết quả đáng kể và được ứng dụng trong
nhiều mặt của đời sống. Trong xu hướng phát triển và hội nhập kinh tế với khu
vực và thế giới hiện nay, nhu cầu dịch các hợp đồng kinh tế ngày càng tăng, đặc
biệt là các hợp đồng Anh-Việt và việc dịch thuật theo cách truyền thống không
thể đáp ứng kịp. Do đó, công việc dịch tự động các hợp đồng kinh tế trở nên cấp
thiết. Như chúng ta đã biết, dịch tự động không thể dịch chính xác như người mà
còn mắc nhiều lỗi. Vì thế, những lỗi ngôn ngữ khi dịch tự động Anh-Việt các hợp
đồng kinh tế là một chủ đề cần được quan tâm.
Trên thực tế, việc xây dựng các chương trình dịch tự động ngôn ngữ tự
nhiên đã được đặt ra từ rất lâu, nhưng thành công của các hệ dịch tự động chỉ
giới hạn trong các cặp ngôn ngữ tương đối gần gũi về mặt cấu trúc ngữ pháp
cũng như từ vựng, ví dụ như dịch tự động từ văn bản tiếng Anh sang tiếng Pháp,
tiếng Anh sang tiếng Nga, v.v.. Những cặp ngôn ngữ thuộc loại hình khác nhau
như cặp Anh-Việt (hòa kết - đơn lập) thì kết quả dịch tự động hiện còn hạn chế.
Việc phân tích khắc phục các lỗi trong dịch tự động là vấn đề liên ngành giữa
ngôn ngữ học và tin học. Trong vấn đề này, sau khi các nhà ngôn ngữ học tìm ra
nguyên nhân mắc lỗi, các chuyên gia tin học sẽ xử lý lỗi bằng cách xây dựng các
phần mềm, cải tiến các mô hình và thuật toán.
0.2 Mục tiêu và nhiệm vụ nghiên cứu
Mục tiêu của luận án là lập ra tiêu chí phân loại lỗi ngôn ngữ khi dịch tự
động hợp đồng kinh tế Anh-Việt. Luận án đứng trên quan điểm ngôn ngữ học để
khảo sát các loại lỗi ngôn ngữ, chủ yếu là lỗi chính tả, lỗi từ vựng và lỗi ngữ
pháp khi dịch tự động hợp đồng kinh tế Anh-Việt để tìm ra quy luật phát sinh lỗi.
Các kết quả nghiên cứu này sẽ làm cơ sở cho ngành tin học cài đặt các thuật toán
khắc phục lỗi. Luận án sẽ tập trung vào việc phân loại các lỗi và tìm ra quy luật
phát sinh lỗi.
2
Nhiệm vụ cụ thể của luận án là:
• Nghiên cứu các vấn đề mang tính lý thuyết về lỗi ngôn ngữ của phần mềm
Google Translate khi dịch tự động Anh-Việt các hợp đồng kinh tế.
• Thiết lập các tiêu chí phân loại lỗi khi dịch tự động từ tiếng Anh sang tiếng
Việt với sự hỗ trợ của phần mềm BLAST (the Bilingual Annotator/
Annotation / Analysis Support Tool), công cụ phân tích và xử lý lỗi.
• Phân tích các loại lỗi ngôn ngữ chủ yếu trong văn bản hợp đồng kinh tế bao
gồm lỗi chính tả, lỗi từ vựng và lỗi ngữ pháp.
• Thống kê, phân loại và mô tả những điểm khác biệt và tương đồng của các
loại lỗi được khảo sát theo những thời điểm khác nhau nhằm tìm ra những loại
lỗi hệ thống và những lỗi ngẫu nhiên.
0.3 Lịch sử vấn đề
0.3.1 Nghiên cứu về lỗi
Vào thập niên 70 của thế kỉ XX, hàng loạt công trình về nghiên cứu miêu tả về
lỗi như: năm 1971 Richards [65] [66] công bố hai công trình liên quan đến Cách
tiếp cận không tương phản đối với việc phân tích lỗi và chiến lược cho ngôn ngữ
thứ hai. Schachter (1974) [69] Nhận xét lỗi trong quá trình phân tích lỗi. Năm
1975, Burt [34] Phân tích lỗi trong lớp học EFL dành cho người lớn. Steel
(1976) [73] công bố nghiên cứu Sự biến đổi trật tự từ: nghiên cứu loại hình ngôn
ngữ. Năm 1977, nhóm các tác giả Schachter và Murcia đã phân tích Những trở
ngại trong việc phân tích lỗi [70]. Cuối thập niên, có công trình Phân tích lỗi và
giảng dạy phép ghép từ (Kroll và Schafer, 1978) [55].
Trong những năm 80 của thế kỉ XX, việc nghiên cứu lỗi đã bắt đầu có tính lý
thuyết nhiều: Williams (1981) [82] công bố Hiện tượng học về lỗi, Corder (1981)
[39] Phân tích lỗi và tính liên ngành của ngôn ngữ học. Sau đó, Selinker, 1984
[71] công bố công trình Phân tích lỗi trong ngôn ngữ trung gian. Năm 1986,
Taylor viết Lỗi và cách giải thích lỗi [76].
3
Ở Việt Nam, đề tài về lỗi được nhiều nhà nghiên cứu ngành ngôn ngữ học
quan tâm như: Khảo sát lỗi tiếng Việt của người nước ngoài và những vấn đề
liên quan (Nguyễn Thiện Nam, 2001) [20], Từ câu sai đến câu hay (Nguyễn Đức
Dân, 2015) [6]. Ngoài ra, khi khảo sát lỗi trên bình diện cú pháp, lỗi trật tự từ
được quan tâm một cách đáng kể. Chẳng hạn như, Lý thuyết trật tự từ trong cú
pháp (Lý Toàn Thắng, 2002) [23] là công trình hữu ích có thể giúp cho việc khảo
sát lỗi trật tự từ trong tiếng Việt thuận lợi hơn. Nguyễn Thị Quỳnh Hoa (2004)
[12] Khảo sát cấu trúc - ngữ nghĩa của hiện tượng đảo ngữ trong tiếng Anh và
tiếng Việt. Trần Thị Minh Phượng (2005) [22] khảo sát Những lỗi thường gặp về
trật tự từ ở người Việt học tiếng Anh. Đinh Điền (2006) [9] So sánh trật tự từ của
định ngữ giữa tiếng Anh và tiếng Việt. Phạm Thị Tuyết Hương (2009) [15]
nghiên cứu Trật tự từ câu đơn tiếng Anh trên bình diện kết học, nghĩa học, dụng
học (có so sánh đối chiếu với tiếng Việt).
Các loại lỗi khác có trong các công trình của nhóm tác giả như: Lỗi ngữ pháp
và cách khắc phục (Cao Xuân Hạo, Lý Tùng Hiếu, Nguyễn Kiên Trường, Võ
Xuân Trang, Trần Thị Tuyết Mai, 2009) [11], Lỗi từ vựng và cách khắc phục (Hồ
Lê, Trần Thị Ngọc Lang và Tô Đình Nghĩa, 2009) [19] và Lỗi chính tả và cách
khắc phục (Lê Trung Hoa, 2009) [13].
Ngoài ra còn có những nghiên cứu về lỗi ngôn ngữ phổ biến như Lỗi ngữ pháp
tiếng Anh thường gặp của người Việt Nam (Đỗ Minh Hùng, 2007) [14], Lỗi ngôn
ngữ của người nước ngoài học tiếng Việt (Nguyễn Linh Chi, 2009) [2]
Các công trình đã liệt kê trên nêu ra các tiêu chí ngôn ngữ học nhưng chúng
chưa đủ để áp dụng cho dịch tự động. Trong dịch tự động các tiêu chí cần được
nêu ra cụ thể hơn để hỗ trợ cho việc lập trình. Luận án này sẽ góp phần bổ sung
vào những “khoảng trống” đó.
0.3.2 Nghiên cứu về lỗi dịch thuật
Khi bàn về những lỗi thường gặp trong quá trình dịch thuật vào thập niên
1960, công trình của Nida (1964) đã có giá trị nhất định khi nghiên cứu của ông
Hướng tới khoa học dịch thuật [62], trong tác phẩm này ông đặc biệt quan tâm
4
đến Những nguyên tắc và những tiến trình liên quan đến dịch kinh thánh. Năm
1965, Catford [35] có công trình Lý thuyết ngôn ngữ về dịch thuật.
Như đã nêu trong phần 2.1, thập niên 1970 có nhiều thành tựu về miêu tả lỗi
dẫn đến những công trình tiếp nối cho thấy Nhiều vấn đề xảy ra trong lý thuyết
và phương pháp dịch thuật của Newmark (1979) [60].
Trong những năm 80 của thế kỉ XX, lỗi dịch thuật được nhìn nhận qua lăng
kính khoa học như: Khoa học hóa những vấn đề về dịch thuật và những phương
pháp dịch thuật (Wilss, 1982) [83], Vấn đề trong đánh giá lỗi dịch thuật
(Kupsch-Losereit, 1985) hay Những cách tiếp cận đối với dịch thuật (Newman,
1988) [59] và Newmark, 1988) [61].
Đến những năm 1990, nghiên cứu lỗi dịch thuật tập trung vào sửa lỗi hay cải
tiến phương pháp dịch thuật. Có những công trình nêu Nguyên nhân mắc lỗi và
cách sửa lỗi (Julian Edge, 1990) [52], Ứng dụng lý thuyết dịch (Bell, 1991) [31],
Phân tích văn bản khi huấn luyện dịch thuật (Nord, 1992) [63] và (Neubert &
Shreve, 1995) [58]. Năm 1998, Jakobson [49] bàn về Những khía cạnh ngôn ngữ
trong dịch thuật và James [50] Phân tích lỗi trong khi học và sử dụng ngoại ngữ.
Từ đầu thế kỉ XXI cho đến nay, lỗi dịch thuật được nghiên cứu đa dạng và
phong phú hơn trong các công trình của Harry Aveling (2002) [46], Na (2005)
[57] hay Gyse Hansen (2010) [45] nhằm khắc phục được khả năng dịch thuật của
người cũng như của máy.
0.3.3 Nghiên cứu về dịch tự động
Đầu thế kỷ XVII, Leibniz và Descartes đã nghĩ đến dịch tự động, nhưng
không có ứng dụng thực tế. Đến thập niên 50 của thế kỉ XX, dịch tự động mới
chính thức được ghi nhận [89].
Năm 1937, Pyotr Troyanskii đã đề ra ba giai đoạn dịch tự động (lúc này gọi là
mechanical translation). Giai đoạn 1, chỉ cần soạn thảo ngôn ngữ nguồn rồi phân
tích hợp lý những từ theo dạng cơ bản và chức năng cú pháp. Giai đoạn 2, máy sẽ
chuyển các dạng từ và các cú pháp trên thành chuỗi tương đương trong ngôn ngữ
đích. Giai đoạn cuối, một phần mềm soạn thảo của ngôn ngữ đích được dùng để
chuyển đổi (đầu ra) sang dạng bình thường của ngôn ngữ đích.
5
Năm 1949, Weaver [81] đề ra một bản ghi nhớ mang ý tưởng dịch tự động vào
các phương pháp viết mã, phân tích thống kê, lý thuyết thông tin Shannon và
khám phá đặc trưng ngôn ngữ phổ quát. Ngoài ra, nhu cầu dịch thuật ngày càng
nhiều, phương pháp dịch thủ công không thể đáp ứng, từ đó, ý tưởng về dịch tự
động ra đời.
Đến năm 1953, Yehoshua Bar-Hillel [30] đề xuất những vấn đề liên quan đến
cú pháp, soạn thảo văn bản dưới hình thức kiểm soát ngôn ngữ.
Lĩnh vực dịch tự động ngày càng được giới thiệu chi tiết như phân tích các vấn
đề về cú pháp,v.v. [40], [43], [47]. Năm 1964, chính phủ Hoa Kỳ đã thành lập
một ủy ban dịch tự động lấy tên là ALPAC (Automatic Language Processing
Advisory Committee) để đánh giá và định hướng về dịch tự động. Tiếp theo,
hàng loạt giải pháp tự động hóa cho ngôn ngữ, phương cách dịch tự động từng
câu ra đời [32].
Năm 1966, ALPAC tổng kết rằng sau hơn 10 năm nghiên cứu lĩnh vực dịch tự
động vẫn không có những tiến bộ đáng kể. Báo cáo này gây bất lợi cho việc
nghiên cứu dịch tự động và hệ quả là số tiền chi cho nghiên cứu giảm mạnh [89].
Vào cuối thập niên 1980, khi máy vi tính có tốc độ xử lý cao hơn đồng thời lại
rẻ hơn thì người ta mới bắt đầu quan tâm hơn đến mô hình thống kê vốn đòi hỏi
khả năng xử lý dữ liệu cực lớn mà trước đó không thể thực hiện được vì các
nguyên nhân kỹ thuật cũng như kinh tế [89].
Đến thế kỉ 21, Popovic và Burchardt, 2007 [64] cho rằng việc dịch tự động có
thể được cải tiến bằng cách sử dụng thống kê để khử nhập nhằng ngữ nghĩa của
từ.
Hiện nay, tại Việt Nam, có một số nhóm nghiên cứu dịch tự động có liên quan
đến tiếng Việt, chủ yếu là dịch tự động Anh-Việt bằng phần mềm EVTRAN với
các phiên bản cải tiến được sử dụng rộng rãi ở Việt Nam [85], [86] như
EVTRAN-1997, EVTRAN 2.0, 3.0 và 4.0.
0.3.4 Nghiên cứu về lỗi khi dịch tự động
Từ thập niên 90 của thế kỉ XX cho đến nay, có nhiều công trình kinh điển
giúp cho các nhà ngôn ngữ học nghiên cứu sâu hơn về lỗi, hiểu rõ hơn về những
6
nét tương đồng và dị biệt của các loại hình ngôn ngữ. Nổi bật nhất là công trình
phân loại lỗi cho việc đánh giá dịch tự động (Flanagan, 1994) [42], Phân tích lỗi
và tiếng quốc tế (Ellis, 1997) [41].
Khi nghiên cứu về lỗi trong dịch tự động, đầu thế kỉ 21 có những công
trình giá trị như Phân tích lỗi trong dịch tự động thống kê và tiêu chuẩn đánh giá
xác định lỗi trong dịch tự động thống kê dựa vào ngôn ngữ học (Vilar, Jia Xu,
D’Haro và Ney, 2006 [78], 2010 [79]). Những nghiên cứu này cũng là nền tảng
cho nghiên cứu lỗi về dịch tự động.
0.4 Đối tượng và phạm vi nghiên cứu
0.4.1 Đối tượng nghiên cứu
Đối tượng nghiên cứu trong luận án là những lỗi dịch tự động Anh – Việt
của phần mềm Google Translate (GT) khi dịch các hợp đồng kinh tế.
GT là dịch tự động thống kê (xem định nghĩa ở mục 1.3.1.4.4 chương 1)
0.4.2 Phạm vi nghiên cứu
Phạm vi nghiên cứu là các lỗi chính tả, lỗi từ vựng và lỗi ngữ pháp. Trong
phạm vi nghiên cứu của luận án chúng tôi không khảo sát lỗi liên kết văn bản do
phần mềm Google Translate hiện đang dịch từng câu, chưa xét đến liên kết văn
bản.
0.5 Phương pháp nghiên cứu và nguồn ngữ liệu
0.5.1 Phương pháp nghiên cứu
-
Phương pháp so sánh đối chiếu: việc so sánh đối chiếu được thực hiện trên
bình diện ngữ nghĩa, bình diện cú pháp (thường là ngữ và câu) và bình diện
ngữ âm (lỗi chính tả). Đồng thời kết hợp với phương pháp miêu tả để xác
định vị trí của lỗi trong câu tiếng Việt khi dịch tự động ngữ liệu hợp đồng
kinh tế từ Anh sang Việt, từ đó, khái quát tiêu chí phân loại lỗi ngôn ngữ
trong dịch tự động.
-
Phương pháp định lượng: sử dụng các số liệu, ngữ liệu thu thập chủ yếu là
những văn bản về hợp đồng kinh tế Anh-Việt (ngữ liệu thô), sau đó đưa vào
7
dịch tự động để khảo sát các loại lỗi ngôn ngữ khi dịch từ tiếng Anh sang
tiếng Việt. Tiếp theo đó, thủ pháp thống kê được sử dụng để xác định một
số thông số cần thiết trong quá trình xây dựng và khai thác ngữ liệu để tìm
ra số lượng lỗi sai khi dịch tự động hợp đồng kinh tế Anh - Việt.
Ngoài các phương pháp nghiên cứu ngôn ngữ học kể trên chúng tôi thực
hiện thêm thủ pháp xử lý ngữ liệu như sau:
-
Thủ pháp xử lý ngữ liệu bao gồm: thu thập tài liệu hợp đồng kinh tế; chuẩn
hóa ngữ liệu bằng cách nhờ chuyên gia máy tính viết phần mềm định dạng
theo dạng thức (format) đưa vào dịch tự động; xử lý ngữ liệu như viết phần
mềm xóa trùng và định dạng theo đúng dạng thức để đưa vào công cụ
BLAST; gán nhãn cũng chính là lúc định dạng được các loại lỗi đặc trưng
trong dịch tự động.
Trong phương pháp nghiên cứu này, về xử lý ngữ liệu, chúng tôi dùng hai
công cụ hỗ trợ phân tích lỗi là phần mềm BLAST và phần mềm BLAST-VCL
được giới thiệu dưới đây:
0.5.2 Phần mềm BLAST
BLAST (viết tắt của the Bilingual Annotator/ Annotation/ Analysis Support
Tool) là công cụ giúp người xử lý và phân tích lỗi các tài liệu song ngữ, đặc biệt
là những lỗi thuộc về dịch tự động do Stymne [74] công bố năm 2011.
Sau đây là những ưu điểm và khuyết điểm khi sử dụng phần mềm BLAST
để phân tích lỗi dịch tự động Anh-Việt:
-
Ưu điểm: BLAST là phần mềm mang tính cập nhật cao giúp xây dựng tiêu
chí phân loại lỗi cho mô hình dịch thống kê Anh-Việt nói chung và dịch tự
động bằng phần mềm Google Translate nói riêng. Tiêu chí từ phần mềm
BLAST có thể giải quyết những khó khăn tồn đọng từ nhiều năm khi dịch
máy hay dịch tự động mắc phải.
-
Khuyết điểm: BLAST chỉ hỗ trợ ý tưởng lập tiêu chí phân loại lỗi thông
thường cho nhiều ngôn ngữ trên thế giới nhưng chưa phân định được lỗi
theo tiêu chí ngôn ngữ học như lỗi chính tả, lỗi từ vựng và lỗi ngữ pháp hay
lỗi hệ thống và lỗi ngẫu nhiên theo tiêu chí tin học.
8
0.5.3 Phần mềm BLAST - VCL
Do hạn chế của phần mềm BLAST trong việc nhận dạng lỗi trật tự từ nên
chúng tôi đề xuất ý tưởng với nhóm nghiên cứu xử lý tiếng Việt của Trường Đại
học Khoa học tự nhiên, thành phố Hồ Chí Minh đã xây dựng phần mềm BLASTVCL (Vietnamese Computational Linguistics) nhằm bổ sung cho tiêu chí phân
loại lỗi trật tự từ thuộc lỗi ngữ pháp.
BLAST-VCL có chức năng nhận dạng lỗi trật tự từ trong tiếng Anh theo
các lỗi sau đây: lỗi trật tự từ thuộc cấu trúc chủ động hoặc cấu trúc bị động, lỗi
trật tự từ giữa tính từ - danh từ, trạng từ - tính từ, mạo từ - danh từ, lỗi trật tự từ
thuộc liên từ, danh từ - danh từ, danh từ - sở hữu cách - danh từ, số - danh từ, giới
từ - danh từ, chủ từ - động từ, động từ - trạng từ, động từ - túc từ và động từ động từ.
0.5.4 Nguồn ngữ liệu
Do vấn đề bảo mật thông tin trong kinh doanh nên việc thu thập ngữ liệu
của chúng tôi chỉ dừng lại ở 50 mẫu hợp đồng kinh tế Anh-Việt do học viên lớp
CEO 48 tại trường doanh nhân PACE cung cấp. Trong điều kiện đó, chúng tôi
không thể có được nguồn ngữ liệu mang tính cập nhật và bao quát hết các loại
văn bản ở nhiều độ khó khác nhau. Ngoài ra, do hợp đồng là thể loại mang tính
quy chuẩn về ngôn ngữ diễn đạt nên trong lĩnh vực dịch thuật chúng tôi quan tâm
nhiều về phương diện này thay vì phương diện nội dung và độ khó của văn bản.
Khảo sát lỗi liên quan đến nội dung và độ khó cần có những công trình nối tiếp
trên cơ sở khảo sát lỗi về phương diện đạt ngôn ngữ ở mặt hình thức, đặc biệt là
đối với dịch tự động.
Sau đây là nguồn ngữ liệu làm cơ sở cho việc nghiên cứu trong luận án:
•
Mẫu văn bản và hợp đồng thương mại Anh-Việt (Model of business
documents) gồm 310 trang được xuất bản năm 2001 tại nhà xuất bản Trẻ.
Sau khi văn bản được tiền xử lý thì còn lại 516 cặp câu để khảo sát [16].
9
•
Hướng dẫn soạn thảo hợp đồng kinh tế bằng tiếng Anh gồm 250 trang được
xuất bản tại nhà xuất bản Tổng hợp thành phố Hồ Chí Minh năm 2005.
Tương tự như trên, sau khi văn bản được tiền xử lý thì chỉ còn lại 137 cặp
câu để khảo sát [28].
•
Mẫu hợp đồng thương mại quốc tế (International business contract form)
bao gồm 269 trang được nhà xuất bản Lao động xuất bản năm 2005. Sau
khi văn bản được tiền xử lý thì còn lại 367 cặp câu để khảo sát [25].
•
Các văn bản pháp luật về hợp đồng lao động, hợp đồng kinh tế, giải quyết
các tranh chấp lao động và tranh chấp kinh tế (Legal documents on labour
and economic contracts, settlement of labour and economic disputes) gồm
733 trang được nhà xuất bản Chính trị quốc gia xuất bản năm 1997. Dữ liệu
toàn văn được đánh máy lại và chia ra thành 2.947 cặp câu Anh-Việt chủ
yếu về hợp đồng kinh tế (bởi vì các văn bản pháp luật cũng như hợp đồng
lao động chưa được khảo sát trong luận án này). Sau đó, chúng tôi sử dụng
phần mềm do công ty Kim Từ Điển viết riêng cho chương trình này nhằm
lược bỏ những câu trùng thì thu được 2.068 cặp câu để khảo sát [29].
•
50 hợp đồng kinh tế Anh-Việt do các học viên của lớp CEO 48 tại trường
doanh nhân PACE cung cấp năm 2008 để phục vụ cho việc tìm kiếm thuật
ngữ hợp đồng kinh tế [19]. Sau khi văn bản được tiền xử lý thì còn lại 305
cặp câu để khảo sát.
0.6 Ý nghĩa khoa học và ý nghĩa thực tiễn
Về lý luận, phân tích đối chiếu lỗi ngôn ngữ thuộc loại hình hòa kết (tiếng
Anh) và loại hình đơn lập (tiếng Việt) trong dịch tự động là nguồn tư liệu tham
khảo về các tiêu chí phân loại lỗi chính tả, lỗi từ vựng và lỗi ngữ pháp đối với thể
loại văn bản hợp đồng kinh tế khi dịch tự động và sẽ là tiền đề nâng cấp chương
trình dịch tự động Anh-Việt và Việt-Anh.
Về thực tiễn, kết quả khảo sát giúp nâng cao chất lượng dịch tự động, làm
cho nội dung dịch sát với nội dung văn bản gốc. Hiện nay, các công trình dịch tự
động còn có ứng dụng rất tốt trong việc giảng dạy ngôn ngữ. Một trong các
phương pháp đào tạo cử nhân biên phiên dịch hiện nay là cho sinh viên phân tích
- Xem thêm -