Đăng ký Đăng nhập
Trang chủ Những lỗi ngôn ngữ của phần mềm google translate khi dịch tự động anh việt các...

Tài liệu Những lỗi ngôn ngữ của phần mềm google translate khi dịch tự động anh việt các hợp đồng kinh tế

.PDF
147
1
95

Mô tả:

i LỜI CAM ĐOAN Tôi xin cam đoan luận án này là công trình nghiên cứu khoa học của tôi. Các kết quả của luận án là trung thực và chưa từng được ai khác công bố trong bất kỳ công trình nào khác. TP.HCM, ngày 25 tháng 03 năm 2017 Người thực hiện Trần Lê Tâm Linh ii LỜI CẢM ƠN Lời đầu tiên, tác giả xin được bày tỏ lòng tri ân sâu sắc đối với Thầy hướng dẫn: PGS. TS Đinh Điền, người đã trực tiếp hướng dẫn và luôn chỉ bảo cho tác giả từ những bước đầu ban đầu khó khăn, động viên tác giả về mọi mặt để tác giả có thể hoàn thành được luận án. Tác giả cũng xin được bày tỏ lòng biết ơn chân thành đối với các thầy cô tại Trường Đại học Khoa học Xã hội và Nhân văn, TP.HCM vì đã truyền đạt cho tác giả những kiến thức quý báu để tác giả có thể phát triển được đề tài của luận án. Tác giả cũng xin được cảm ơn lãnh đạo trường Đại học Khoa học Xã hội và Nhân văn, Thành phố Hồ Chí Minh và lãnh đạo trường Đại học Khoa học Tự nhiên, Thành phố Hồ Chí Minh vì đã tạo mọi điều kiện thuận lợi cho tác giả trong quá trình học tập. Và cũng xin gửi lời cảm ơn trân trọng đến các anh chị em đồng nghiệp, bạn bè và những người thân trong gia đình vì đã luôn động viên và giúp đỡ tác giả thực hiện luận án. Cuối cùng, tác giả cũng xin chân thành cảm ơn tất cả các bạn hữu lớp CEO-48 vì đã giúp đỡ tác giả trong việc thu thập nguồn ngữ liệu cho luận án này. iii MỤC LỤC MỞ ĐẦU .....................................................................................................................1  0.1  Lý do nghiên cứu .........................................................................................1  0.2  Mục tiêu và nhiệm vụ nghiên cứu ...............................................................1  0.3  Lịch sử vấn đề ..............................................................................................2  0.3.1  Nghiên cứu về lỗi .........................................................................................2  0.3.2  Nghiên cứu về lỗi dịch thuật ........................................................................3  0.3.3  Nghiên cứu về dịch tự động .........................................................................4  0.3.4  Nghiên cứu về lỗi khi dịch tự động .............................................................5  0.4  Đối tượng và phạm vi nghiên cứu ...............................................................6  0.4.1  Đối tượng nghiên cứu ..................................................................................6  0.4.2  Phạm vi nghiên cứu .....................................................................................6  0.5  Phương pháp nghiên cứu và nguồn ngữ liệu ...............................................6  0.5.1  Phương pháp nghiên cứu .............................................................................6  0.5.2  Phần mềm BLAST .......................................................................................7  0.5.3  Phần mềm BLAST - VCL ...........................................................................8  0.5.4  Nguồn ngữ liệu ............................................................................................8  0.6  Ý nghĩa khoa học và ý nghĩa thực tiễn ........................................................9  0.7  Bố cục của luận án .....................................................................................10  CHƯƠNG 1. CƠ SỞ LÝ THUYẾT .........................................................................11  1.1  Khái niệm lỗi .............................................................................................11  1.1.1  Lỗi ngôn ngữ ..............................................................................................11  1.1.1.1  Khái niệm lỗi chính tả ................................................................................11  1.1.1.2  Khái niệm lỗi từ vựng ................................................................................11  1.1.1.3  Khái niệm lỗi ngữ pháp..............................................................................12  1.1.2  Lỗi kỹ thuật ................................................................................................12  1.1.2.1  Khái niệm lỗi hệ thống...............................................................................12  1.1.2.2  Khái niệm lỗi ngẫu nhiên ...........................................................................12  1.2  Cơ sở lý luận của việc phân tích lỗi dịch thuật ..........................................12  1.2.1  Định nghĩa lỗi dịch thuật và lỗi dịch tự động ............................................13  1.2.1.1  Định nghĩa lỗi dịch thuật ...........................................................................13  iv 1.2.1.2  Định nghĩa lỗi dịch tự động .......................................................................13  1.2.2  Các bước xử lý ngữ liệu trước khi phân tích lỗi ........................................14  1.2.2.1  Thu thập ngữ liệu .......................................................................................14  1.2.2.2  Chuẩn hóa ngữ liệu ....................................................................................14  1.2.2.3  Xử lý ngữ liệu ............................................................................................15  1.2.3  Phân tích lỗi dịch tự động Anh-Việt ..........................................................19  1.2.3.1  Nhận dạng lỗi dịch tự động........................................................................19  1.2.3.2  Phân tích lỗi dịch tự động ..........................................................................19  1.3  Những lỗi ngôn ngữ khi dịch tự động Anh-Việt các hợp đồng kinh tế .....21  1.3.1  Đặc điểm của dịch tự động ........................................................................21  1.3.1.1  Khái niệm về dịch tự động .........................................................................21  1.3.1.2  Những thuận lợi và bất lợi trong dịch tự động ..........................................21  1.3.1.3  Các cách tiếp cận đối với dịch tự động chưa ứng dụng thống kê ..............22  1.3.1.4  Dịch tự động thống kê (SMT)....................................................................26  1.3.2  Đặc điểm về loại hình của tiếng Việt và tiếng Anh ...................................28  1.3.2.1  Đặc điểm của tiếng Việt.............................................................................28  1.3.2.2  Đặc điểm của tiếng Anh.............................................................................29  1.3.3  Hợp đồng kinh tế .......................................................................................30  1.3.3.1  Khái niệm hợp đồng kinh tế.......................................................................30  1.3.3.2  Các loại hợp đồng kinh tế ..........................................................................30  1.3.4  Nhận diện và phân loại lỗi ngôn ngữ khi dịch tự động..............................32  1.3.4.1  Lỗi chính tả khi dịch tự động hợp đồng kinh tế Anh-Việt ........................32  1.3.4.2  Lỗi từ vựng khi dịch tự động hợp đồng kinh tế Anh-Việt .........................36  1.3.4.3  Lỗi ngữ pháp khi dịch tự động hợp đồng kinh tế Anh-Việt ......................38  1.3.4.4  Lỗi hệ thống khi dịch tự động hợp đồng kinh tế Anh-Việt .......................41  1.3.4.5  Lỗi ngẫu nhiên khi dịch tự động hợp đồng kinh tế Anh-Việt....................43  CHƯƠNG 2. PHÂN TÍCH LỖI CHÍNH TẢ VÀ LỖI TỪ VỰNG..........................46  2.1  Lỗi chính tả ................................................................................................46  2.1.1  Lỗi dịch sai chữ số - loại I .........................................................................46  2.1.2  Lỗi dịch sai chữ số - loại II ........................................................................47  2.1.3  Lỗi dịch sai dấu câu - loại I........................................................................48  v 2.1.4  Lỗi dịch sai dấu câu - loại II ......................................................................49  2.1.5  Lỗi thành phần của cấu trúc âm tiết - loại II ..............................................49  2.1.6  Lỗi giữ nguyên từ thuộc ngôn ngữ nguồn - loại I ......................................50  2.1.7  Lỗi giữ nguyên từ thuộc ngôn ngữ nguồn - loại II ....................................51  2.1.8  Lỗi viết hoa - loại I ....................................................................................52  2.1.9  Lỗi viết hoa - loại II ...................................................................................53  2.1.10  Lỗi viết tắt – loại I......................................................................................54  2.1.11  Lỗi viết tắt – loại II ....................................................................................54  2.1.12  Các lỗi chính tả khác- loại II ......................................................................55  2.2  Lỗi từ vựng.................................................................................................58  2.2.1  Lỗi nhập nhằng - loại I ...............................................................................58  2.2.2  Lỗi nhập nhằng - loại II .............................................................................59  2.2.3  Lỗi hiểu sai thành ngữ- loại II ...................................................................60  2.2.4  Lỗi hiểu sai nghĩa thuật ngữ - loại I ...........................................................61  2.2.5  Lỗi hiểu sai nghĩa thuật ngữ - loại II .........................................................62  2.3  Lỗi kỹ thuật ................................................................................................66  2.3.1  Lỗi chính tả và lỗi từ vựng thuộc lỗi hệ thống...........................................67  2.3.2  Lỗi chính tả và lỗi từ vựng thuộc lỗi ngẫu nhiên .......................................71  2.3.3  Lỗi hệ thống và lỗi ngẫu nhiên thông qua khoảng cách Levenshtein........73  2.3.3.1  Kết quả lỗi hệ thống thông qua khoảng cách Levenshtein ........................74  2.3.3.2  Kết quả lỗi ngẫu nhiên thông qua khoảng cách Levenshtein ....................76  TIỂU KẾT .................................................................................................................80  CHƯƠNG 3. PHÂN TÍCH LỖI NGỮ PHÁP ..........................................................81  3.1  Lỗi trật tự từ ...............................................................................................81  3.1.1  Lỗi trật tự từ theo tiêu chí BLAST.............................................................81  3.1.2  Lỗi trật tự từ theo tiêu chí BLAST-VCL ...................................................84  3.1.2.1  Lỗi trật tự từ thuộc cấu trúc chủ động hoặc cấu trúc bị động ....................86  3.1.2.2  Lỗi trật tự từ giữa tính từ - danh từ ............................................................88  3.1.2.3  Lỗi trật tự từ giữa trạng từ - tính từ trong tiếng Anh .................................89  3.1.2.4  Lỗi trật tự từ giữa mạo từ - danh từ trong tiếng Anh .................................89  3.1.2.5  Lỗi trật tự từ thuộc liên từ ..........................................................................91  vi 3.1.2.6  Lỗi trật tự từ giữa danh từ - danh từ ..........................................................91  3.1.2.7  Lỗi trật tự từ giữa danh từ - sở hữu cách - danh từ ....................................92  3.1.2.8  Lỗi trật tự từ giữa số - danh từ ...................................................................93  3.1.2.9  Lỗi trật tự từ giữa giới từ - danh từ ............................................................94  3.1.2.10  Lỗi trật tự từ giữa chủ từ - động từ ............................................................95  3.1.2.11  Lỗi trật tự từ giữa động từ - trạng từ trong tiếng Anh ...............................96  3.1.2.12  Lỗi trật tự từ giữa động từ - túc từ .............................................................96  3.1.2.13  Lỗi trật tự từ giữa động từ - động từ ..........................................................97  3.2  Lỗi dịch sai từ công cụ - loại II ..................................................................99  3.3  Lỗi dịch sai khi hòa hợp giữa chủ từ và động từ - loại II ........................101  3.4  Lỗi thừa từ................................................................................................102  3.4.1  Lỗi thừa từ - loại I ....................................................................................102  3.4.1.1  Lỗi thừa từ nội dung - loại I .....................................................................102  3.4.1.2  Lỗi thừa từ ngữ pháp - loại I ....................................................................103  3.4.1.3  Lỗi dịch thừa từ so với ngôn ngữ nguồn - loại I ......................................103  3.4.2  Lỗi thừa từ - loại II...................................................................................104  3.4.2.1  Lỗi thừa từ nội dung - loại II ...................................................................104  3.4.2.2  Lỗi thừa từ ngữ pháp - loại II...................................................................105  3.4.2.3  Lỗi dịch thừa từ so với ngôn ngữ nguồn - loại II.....................................106  3.5  Lỗi thiếu từ ...............................................................................................107  3.5.1  Lỗi thiếu từ - loại I ...................................................................................107  3.5.1.1  Lỗi thiếu từ nội dung - loại I ....................................................................107  3.5.1.2  Lỗi thiếu từ ngữ pháp - loại I ...................................................................108  3.5.2  Lỗi thiếu từ - loại II ..................................................................................108  3.5.2.1  Lỗi thiếu từ nội dung - loại II ..................................................................109  3.5.2.2  Lỗi thiếu từ ngữ pháp - loại II ..................................................................110  3.6  Lỗi kỹ thuật ..............................................................................................113  3.6.1  Lỗi ngữ pháp thuộc lỗi hệ thống ..............................................................113  3.6.2  Lỗi ngữ pháp thuộc lỗi ngẫu nhiên ..........................................................116  TIỂU KẾT ...............................................................................................................119  KẾT LUẬN .............................................................................................................121  vii DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CÓ LIÊN QUAN ĐẾN LUẬN ÁN CỦA TÁC GIẢ ................................................................................................126  TÀI LIỆU THAM KHẢO .......................................................................................128  viii DANH SÁCH BẢNG Bảng 1. 1 Minh họa lỗi hệ thống thông qua khoảng cách Levenshtein................42 Bảng 2. 1 Lỗi dịch sai chữ số - loại I ....................................................................47 Bảng 2. 2 Lỗi dịch sai chữ số - loại II ..................................................................47 Bảng 2. 3 Lỗi dịch sai dấu câu - loại I ..................................................................48 Bảng 2. 4 Lỗi dịch sai dấu câu - loại II.................................................................49 Bảng 2. 5 Các loại lỗi hình thái khác ....................................................................50 Bảng 2. 6 Lỗi giữ nguyên từ thuộc ngôn ngữ nguồn - loại I ................................50 Bảng 2. 7 Lỗi giữ nguyên từ thuộc ngôn ngữ nguồn - loại II ...............................51 Bảng 2. 8 Lỗi viết hoa – loại I ..............................................................................52 Bảng 2. 9 Lỗi viết hoa – loại II .............................................................................53 Bảng 2. 10 Lỗi viết hoa – loại II ...........................................................................54 Bảng 2. 11 Lỗi viết hoa – loại II ...........................................................................54 Bảng 2. 12 Các lỗi chính tả khác- loại II ..............................................................55 Bảng 2. 13 Lỗi nhập nhằng - loại I .......................................................................58 Bảng 2. 14 Lỗi nhập nhằng - loại II ......................................................................59 Bảng 2. 15 Lỗi hiểu sai thành ngữ ........................................................................60 Bảng 2. 16 Lỗi hiểu sai nghĩa thuật ngữ - loại I ...................................................61 Bảng 2. 17 Lỗi hiểu sai nghĩa thuật ngữ - loại II ..................................................62 Bảng 2. 18 Minh họa lỗi hệ thống có L1 = 0 ........................................................74 Bảng 2. 19 Minh họa lỗi ngẫu nhiên - năm 2014 dịch tốt hơn năm 2012 ............77 Bảng 2. 20 Minh họa lỗi ngẫu nhiên - năm 2012 dịch tốt hơn năm 2014 ............78 Bảng 3. 1 Lỗi trật tự từ thuộc cấu trúc chủ động hoặc cấu trúc bị động ..............87 Bảng 3. 2 Lỗi trật tự từ giữa tính từ - danh từ ......................................................88 Bảng 3. 3 Lỗi trật tự từ giữa trạng từ - tính từ trong tiếng Anh............................89 Bảng 3. 4 Lỗi trật tự từ giữa mạo từ - danh từ ......................................................90 Bảng 3. 5 Lỗi trật tự từ thuộc liên từ ....................................................................91 Bảng 3. 6 Lỗi trật tự từ giữa danh từ - danh từ .....................................................92 Bảng 3. 7 Lỗi trật tự từ giữa danh từ - sở hữu cách- danh từ ...............................92 Bảng 3. 8 Lỗi trật tự từ giữa số - danh từ .............................................................93 Bảng 3. 9 Lỗi trật tự từ giữa giới từ - danh từ ......................................................94 ix Bảng 3. 10 Lỗi trật tự từ giữa chủ từ - động từ .....................................................95 Bảng 3. 11 Lỗi trật tự từ giữa động từ - trạng từ ..................................................96 Bảng 3. 12 Lỗi trật tự từ giữa động từ - túc từ......................................................96 Bảng 3. 13 Lỗi trật tự từ giữa động từ - động từ ..................................................97 Bảng 3. 14 Lỗi dịch sai từ công cụ -loại II .........................................................100 Bảng 3. 15 Lỗi phù ứng ......................................................................................101 Bảng 3. 16 Lỗi thừa từ nội dung - loại I .............................................................102 Bảng 3. 17 Lỗi thừa từ ngữ pháp - loại I ............................................................103 Bảng 3. 18 Lỗi dịch thừa từ so với ngôn ngữ nguồn - loại I ..............................104 Bảng 3. 19 Lỗi thừa từ nội dung - loại II ............................................................104 Bảng 3. 20 Lỗi thừa từ ngữ pháp - loại II ...........................................................106 Bảng 3. 21 Lỗi dịch thừa từ so với ngôn ngữ nguồn - loại II .............................106 Bảng 3. 22 Lỗi thiếu từ nội dung - loại I ............................................................107 Bảng 3. 23 Lỗi thiếu từ ngữ pháp - loại I ...........................................................108 Bảng 3. 24 Lỗi thiếu từ nội dung - loại II ...........................................................109 Bảng 3. 25 Lỗi thiếu từ ngữ pháp - loại II ..........................................................110 x DANH SÁCH HÌNH Hình 1. 1 Giới thiệu tiền xử lý ngữ liệu................................................................15 Hình 1. 2 Minh họa công cụ BLAST ....................................................................16 Hình 1. 3 Minh họa các bước xử lý dữ liệu ..........................................................17 Hình 1. 4 Mô hình phân tích lỗi BLAST-VCL.....................................................18 Hình 2. 1 Lỗi chính tả ..........................................................................................57 Hình 2. 2 Tỉ lệ phần trăm lỗi chính tả ...................................................................58 Hình 2. 3 Lỗi thuật ngữ .........................................................................................63 Hình 2. 4 Minh họa lỗi hiểu sai nghĩa thuật ngữ - loại II .....................................64 Hình 2. 5 Lỗi từ vựng ..........................................................................................65 Hình 2. 6 Tỉ lệ phần trăm lỗi từ vựng ...................................................................66 Hình 2. 7 Lỗi chính tả và lỗi từ vựng thuộc lỗi hệ thống .....................................68 Hình 2. 8 Tỷ lệ phần trăm lỗi chính tả và lỗi từ vựng thuộc lỗi hệ thống ...........69 Hình 2. 9 Lỗi chính tả và lỗi từ vựng thuộc lỗi ngẫu nhiên ..................................72 Hình 2. 10 Tỷ lệ phần trăm lỗi chính tả và lỗi từ vựng thuộc lỗi ngẫu nhiên ......72 Hình 2. 11 Số cặp câu (a) và tỷ lệ phần trăm cặp câu (b) mang lỗi hệ thống và lỗi ngẫu nhiên .........................................................................................73 Hình 2. 12 Tỉ lệ phần trăm lỗi hệ thống và lỗi ngẫu nhiên trong 3 ngữ liệu ........74 Hình 3. 1 Lỗi trật tự từ theo tiêu chí BLAST ......................................................81 Hình 3. 2 Số lượng câu chứa lỗi trật tự từ ............................................................83 Hình 3. 3 Mô hình phân tích lỗi BLAST-VCL.....................................................85 Hình 3. 4 Lỗi trật tự từ theo tiêu chí BLAST-VCL ..............................................98 Hình 3. 5 Tỉ lệ phần trăm lỗi trật tự từ theo tiêu chí BLAST-VCL ......................99 Hình 3. 6 Kết quả lỗi ngữ pháp...........................................................................111 Hình 3. 7 Tỉ lệ phần trăm lỗi ngữ pháp...............................................................112 Hình 3. 8 Lỗi ngữ pháp theoBLAST - thuộc lỗi hệ thống ..................................114 Hình 3. 9 tỷ lệ phần trăm lỗi ngữ pháp theo BLAST - thuộc lỗi hệ thống .........115 Hình 3. 10 Lỗi ngữ pháp thuộc lỗi ngẫu nhiên ..................................................117 Hình 3. 11 Tỷ lệ phần trăm lỗi ngữ pháp thuộc lỗi ngẫu nhiên ..........................118 xi BẢNG CHỮ VIẾT TẮT BLAST : the Bilingual Annotator/Annotation/Analysis Support Tool CKT : Cung Kim Tiến CT : Chính tả DTC : Dịch thủ công DTĐ : Dịch tự động GT : Google Translate HT : Hệ thống LEGAL : Legal documents on labour and economic contracts, settlement of labour and economic disputes NL : Ngữ liệu NN : Ngẫu nhiên NNN : Ngôn ngữ nguồn NP : Ngữ pháp NTY : Nguyễn Thành Yến SMT : Statistic Machine Translation (Dịch tự động thống kê ) TLTL : Trần Lê Tâm Linh TV : Từ vựng VCL : Vietnamese Computational Linguistics XH-MK : Xuân Huy – Minh Khiết 1 MỞ ĐẦU 0.1 Lý do nghiên cứu Dịch tự động là lĩnh vực đã được quan tâm nghiên cứu từ nhiều thập kỷ qua. Gần đây, lĩnh vực này đã đạt nhiều kết quả đáng kể và được ứng dụng trong nhiều mặt của đời sống. Trong xu hướng phát triển và hội nhập kinh tế với khu vực và thế giới hiện nay, nhu cầu dịch các hợp đồng kinh tế ngày càng tăng, đặc biệt là các hợp đồng Anh-Việt và việc dịch thuật theo cách truyền thống không thể đáp ứng kịp. Do đó, công việc dịch tự động các hợp đồng kinh tế trở nên cấp thiết. Như chúng ta đã biết, dịch tự động không thể dịch chính xác như người mà còn mắc nhiều lỗi. Vì thế, những lỗi ngôn ngữ khi dịch tự động Anh-Việt các hợp đồng kinh tế là một chủ đề cần được quan tâm. Trên thực tế, việc xây dựng các chương trình dịch tự động ngôn ngữ tự nhiên đã được đặt ra từ rất lâu, nhưng thành công của các hệ dịch tự động chỉ giới hạn trong các cặp ngôn ngữ tương đối gần gũi về mặt cấu trúc ngữ pháp cũng như từ vựng, ví dụ như dịch tự động từ văn bản tiếng Anh sang tiếng Pháp, tiếng Anh sang tiếng Nga, v.v.. Những cặp ngôn ngữ thuộc loại hình khác nhau như cặp Anh-Việt (hòa kết - đơn lập) thì kết quả dịch tự động hiện còn hạn chế. Việc phân tích khắc phục các lỗi trong dịch tự động là vấn đề liên ngành giữa ngôn ngữ học và tin học. Trong vấn đề này, sau khi các nhà ngôn ngữ học tìm ra nguyên nhân mắc lỗi, các chuyên gia tin học sẽ xử lý lỗi bằng cách xây dựng các phần mềm, cải tiến các mô hình và thuật toán. 0.2 Mục tiêu và nhiệm vụ nghiên cứu Mục tiêu của luận án là lập ra tiêu chí phân loại lỗi ngôn ngữ khi dịch tự động hợp đồng kinh tế Anh-Việt. Luận án đứng trên quan điểm ngôn ngữ học để khảo sát các loại lỗi ngôn ngữ, chủ yếu là lỗi chính tả, lỗi từ vựng và lỗi ngữ pháp khi dịch tự động hợp đồng kinh tế Anh-Việt để tìm ra quy luật phát sinh lỗi. Các kết quả nghiên cứu này sẽ làm cơ sở cho ngành tin học cài đặt các thuật toán khắc phục lỗi. Luận án sẽ tập trung vào việc phân loại các lỗi và tìm ra quy luật phát sinh lỗi. 2 Nhiệm vụ cụ thể của luận án là: • Nghiên cứu các vấn đề mang tính lý thuyết về lỗi ngôn ngữ của phần mềm Google Translate khi dịch tự động Anh-Việt các hợp đồng kinh tế. • Thiết lập các tiêu chí phân loại lỗi khi dịch tự động từ tiếng Anh sang tiếng Việt với sự hỗ trợ của phần mềm BLAST (the Bilingual Annotator/ Annotation / Analysis Support Tool), công cụ phân tích và xử lý lỗi. • Phân tích các loại lỗi ngôn ngữ chủ yếu trong văn bản hợp đồng kinh tế bao gồm lỗi chính tả, lỗi từ vựng và lỗi ngữ pháp. • Thống kê, phân loại và mô tả những điểm khác biệt và tương đồng của các loại lỗi được khảo sát theo những thời điểm khác nhau nhằm tìm ra những loại lỗi hệ thống và những lỗi ngẫu nhiên. 0.3 Lịch sử vấn đề 0.3.1 Nghiên cứu về lỗi Vào thập niên 70 của thế kỉ XX, hàng loạt công trình về nghiên cứu miêu tả về lỗi như: năm 1971 Richards [65] [66] công bố hai công trình liên quan đến Cách tiếp cận không tương phản đối với việc phân tích lỗi và chiến lược cho ngôn ngữ thứ hai. Schachter (1974) [69] Nhận xét lỗi trong quá trình phân tích lỗi. Năm 1975, Burt [34] Phân tích lỗi trong lớp học EFL dành cho người lớn. Steel (1976) [73] công bố nghiên cứu Sự biến đổi trật tự từ: nghiên cứu loại hình ngôn ngữ. Năm 1977, nhóm các tác giả Schachter và Murcia đã phân tích Những trở ngại trong việc phân tích lỗi [70]. Cuối thập niên, có công trình Phân tích lỗi và giảng dạy phép ghép từ (Kroll và Schafer, 1978) [55]. Trong những năm 80 của thế kỉ XX, việc nghiên cứu lỗi đã bắt đầu có tính lý thuyết nhiều: Williams (1981) [82] công bố Hiện tượng học về lỗi, Corder (1981) [39] Phân tích lỗi và tính liên ngành của ngôn ngữ học. Sau đó, Selinker, 1984 [71] công bố công trình Phân tích lỗi trong ngôn ngữ trung gian. Năm 1986, Taylor viết Lỗi và cách giải thích lỗi [76]. 3 Ở Việt Nam, đề tài về lỗi được nhiều nhà nghiên cứu ngành ngôn ngữ học quan tâm như: Khảo sát lỗi tiếng Việt của người nước ngoài và những vấn đề liên quan (Nguyễn Thiện Nam, 2001) [20], Từ câu sai đến câu hay (Nguyễn Đức Dân, 2015) [6]. Ngoài ra, khi khảo sát lỗi trên bình diện cú pháp, lỗi trật tự từ được quan tâm một cách đáng kể. Chẳng hạn như, Lý thuyết trật tự từ trong cú pháp (Lý Toàn Thắng, 2002) [23] là công trình hữu ích có thể giúp cho việc khảo sát lỗi trật tự từ trong tiếng Việt thuận lợi hơn. Nguyễn Thị Quỳnh Hoa (2004) [12] Khảo sát cấu trúc - ngữ nghĩa của hiện tượng đảo ngữ trong tiếng Anh và tiếng Việt. Trần Thị Minh Phượng (2005) [22] khảo sát Những lỗi thường gặp về trật tự từ ở người Việt học tiếng Anh. Đinh Điền (2006) [9] So sánh trật tự từ của định ngữ giữa tiếng Anh và tiếng Việt. Phạm Thị Tuyết Hương (2009) [15] nghiên cứu Trật tự từ câu đơn tiếng Anh trên bình diện kết học, nghĩa học, dụng học (có so sánh đối chiếu với tiếng Việt). Các loại lỗi khác có trong các công trình của nhóm tác giả như: Lỗi ngữ pháp và cách khắc phục (Cao Xuân Hạo, Lý Tùng Hiếu, Nguyễn Kiên Trường, Võ Xuân Trang, Trần Thị Tuyết Mai, 2009) [11], Lỗi từ vựng và cách khắc phục (Hồ Lê, Trần Thị Ngọc Lang và Tô Đình Nghĩa, 2009) [19] và Lỗi chính tả và cách khắc phục (Lê Trung Hoa, 2009) [13]. Ngoài ra còn có những nghiên cứu về lỗi ngôn ngữ phổ biến như Lỗi ngữ pháp tiếng Anh thường gặp của người Việt Nam (Đỗ Minh Hùng, 2007) [14], Lỗi ngôn ngữ của người nước ngoài học tiếng Việt (Nguyễn Linh Chi, 2009) [2] Các công trình đã liệt kê trên nêu ra các tiêu chí ngôn ngữ học nhưng chúng chưa đủ để áp dụng cho dịch tự động. Trong dịch tự động các tiêu chí cần được nêu ra cụ thể hơn để hỗ trợ cho việc lập trình. Luận án này sẽ góp phần bổ sung vào những “khoảng trống” đó. 0.3.2 Nghiên cứu về lỗi dịch thuật Khi bàn về những lỗi thường gặp trong quá trình dịch thuật vào thập niên 1960, công trình của Nida (1964) đã có giá trị nhất định khi nghiên cứu của ông Hướng tới khoa học dịch thuật [62], trong tác phẩm này ông đặc biệt quan tâm 4 đến Những nguyên tắc và những tiến trình liên quan đến dịch kinh thánh. Năm 1965, Catford [35] có công trình Lý thuyết ngôn ngữ về dịch thuật. Như đã nêu trong phần 2.1, thập niên 1970 có nhiều thành tựu về miêu tả lỗi dẫn đến những công trình tiếp nối cho thấy Nhiều vấn đề xảy ra trong lý thuyết và phương pháp dịch thuật của Newmark (1979) [60]. Trong những năm 80 của thế kỉ XX, lỗi dịch thuật được nhìn nhận qua lăng kính khoa học như: Khoa học hóa những vấn đề về dịch thuật và những phương pháp dịch thuật (Wilss, 1982) [83], Vấn đề trong đánh giá lỗi dịch thuật (Kupsch-Losereit, 1985) hay Những cách tiếp cận đối với dịch thuật (Newman, 1988) [59] và Newmark, 1988) [61]. Đến những năm 1990, nghiên cứu lỗi dịch thuật tập trung vào sửa lỗi hay cải tiến phương pháp dịch thuật. Có những công trình nêu Nguyên nhân mắc lỗi và cách sửa lỗi (Julian Edge, 1990) [52], Ứng dụng lý thuyết dịch (Bell, 1991) [31], Phân tích văn bản khi huấn luyện dịch thuật (Nord, 1992) [63] và (Neubert & Shreve, 1995) [58]. Năm 1998, Jakobson [49] bàn về Những khía cạnh ngôn ngữ trong dịch thuật và James [50] Phân tích lỗi trong khi học và sử dụng ngoại ngữ. Từ đầu thế kỉ XXI cho đến nay, lỗi dịch thuật được nghiên cứu đa dạng và phong phú hơn trong các công trình của Harry Aveling (2002) [46], Na (2005) [57] hay Gyse Hansen (2010) [45] nhằm khắc phục được khả năng dịch thuật của người cũng như của máy. 0.3.3 Nghiên cứu về dịch tự động Đầu thế kỷ XVII, Leibniz và Descartes đã nghĩ đến dịch tự động, nhưng không có ứng dụng thực tế. Đến thập niên 50 của thế kỉ XX, dịch tự động mới chính thức được ghi nhận [89]. Năm 1937, Pyotr Troyanskii đã đề ra ba giai đoạn dịch tự động (lúc này gọi là mechanical translation). Giai đoạn 1, chỉ cần soạn thảo ngôn ngữ nguồn rồi phân tích hợp lý những từ theo dạng cơ bản và chức năng cú pháp. Giai đoạn 2, máy sẽ chuyển các dạng từ và các cú pháp trên thành chuỗi tương đương trong ngôn ngữ đích. Giai đoạn cuối, một phần mềm soạn thảo của ngôn ngữ đích được dùng để chuyển đổi (đầu ra) sang dạng bình thường của ngôn ngữ đích. 5 Năm 1949, Weaver [81] đề ra một bản ghi nhớ mang ý tưởng dịch tự động vào các phương pháp viết mã, phân tích thống kê, lý thuyết thông tin Shannon và khám phá đặc trưng ngôn ngữ phổ quát. Ngoài ra, nhu cầu dịch thuật ngày càng nhiều, phương pháp dịch thủ công không thể đáp ứng, từ đó, ý tưởng về dịch tự động ra đời. Đến năm 1953, Yehoshua Bar-Hillel [30] đề xuất những vấn đề liên quan đến cú pháp, soạn thảo văn bản dưới hình thức kiểm soát ngôn ngữ. Lĩnh vực dịch tự động ngày càng được giới thiệu chi tiết như phân tích các vấn đề về cú pháp,v.v. [40], [43], [47]. Năm 1964, chính phủ Hoa Kỳ đã thành lập một ủy ban dịch tự động lấy tên là ALPAC (Automatic Language Processing Advisory Committee) để đánh giá và định hướng về dịch tự động. Tiếp theo, hàng loạt giải pháp tự động hóa cho ngôn ngữ, phương cách dịch tự động từng câu ra đời [32]. Năm 1966, ALPAC tổng kết rằng sau hơn 10 năm nghiên cứu lĩnh vực dịch tự động vẫn không có những tiến bộ đáng kể. Báo cáo này gây bất lợi cho việc nghiên cứu dịch tự động và hệ quả là số tiền chi cho nghiên cứu giảm mạnh [89]. Vào cuối thập niên 1980, khi máy vi tính có tốc độ xử lý cao hơn đồng thời lại rẻ hơn thì người ta mới bắt đầu quan tâm hơn đến mô hình thống kê vốn đòi hỏi khả năng xử lý dữ liệu cực lớn mà trước đó không thể thực hiện được vì các nguyên nhân kỹ thuật cũng như kinh tế [89]. Đến thế kỉ 21, Popovic và Burchardt, 2007 [64] cho rằng việc dịch tự động có thể được cải tiến bằng cách sử dụng thống kê để khử nhập nhằng ngữ nghĩa của từ. Hiện nay, tại Việt Nam, có một số nhóm nghiên cứu dịch tự động có liên quan đến tiếng Việt, chủ yếu là dịch tự động Anh-Việt bằng phần mềm EVTRAN với các phiên bản cải tiến được sử dụng rộng rãi ở Việt Nam [85], [86] như EVTRAN-1997, EVTRAN 2.0, 3.0 và 4.0. 0.3.4 Nghiên cứu về lỗi khi dịch tự động Từ thập niên 90 của thế kỉ XX cho đến nay, có nhiều công trình kinh điển giúp cho các nhà ngôn ngữ học nghiên cứu sâu hơn về lỗi, hiểu rõ hơn về những 6 nét tương đồng và dị biệt của các loại hình ngôn ngữ. Nổi bật nhất là công trình phân loại lỗi cho việc đánh giá dịch tự động (Flanagan, 1994) [42], Phân tích lỗi và tiếng quốc tế (Ellis, 1997) [41]. Khi nghiên cứu về lỗi trong dịch tự động, đầu thế kỉ 21 có những công trình giá trị như Phân tích lỗi trong dịch tự động thống kê và tiêu chuẩn đánh giá xác định lỗi trong dịch tự động thống kê dựa vào ngôn ngữ học (Vilar, Jia Xu, D’Haro và Ney, 2006 [78], 2010 [79]). Những nghiên cứu này cũng là nền tảng cho nghiên cứu lỗi về dịch tự động. 0.4 Đối tượng và phạm vi nghiên cứu 0.4.1 Đối tượng nghiên cứu Đối tượng nghiên cứu trong luận án là những lỗi dịch tự động Anh – Việt của phần mềm Google Translate (GT) khi dịch các hợp đồng kinh tế. GT là dịch tự động thống kê (xem định nghĩa ở mục 1.3.1.4.4 chương 1) 0.4.2 Phạm vi nghiên cứu Phạm vi nghiên cứu là các lỗi chính tả, lỗi từ vựng và lỗi ngữ pháp. Trong phạm vi nghiên cứu của luận án chúng tôi không khảo sát lỗi liên kết văn bản do phần mềm Google Translate hiện đang dịch từng câu, chưa xét đến liên kết văn bản. 0.5 Phương pháp nghiên cứu và nguồn ngữ liệu 0.5.1 Phương pháp nghiên cứu - Phương pháp so sánh đối chiếu: việc so sánh đối chiếu được thực hiện trên bình diện ngữ nghĩa, bình diện cú pháp (thường là ngữ và câu) và bình diện ngữ âm (lỗi chính tả). Đồng thời kết hợp với phương pháp miêu tả để xác định vị trí của lỗi trong câu tiếng Việt khi dịch tự động ngữ liệu hợp đồng kinh tế từ Anh sang Việt, từ đó, khái quát tiêu chí phân loại lỗi ngôn ngữ trong dịch tự động. - Phương pháp định lượng: sử dụng các số liệu, ngữ liệu thu thập chủ yếu là những văn bản về hợp đồng kinh tế Anh-Việt (ngữ liệu thô), sau đó đưa vào 7 dịch tự động để khảo sát các loại lỗi ngôn ngữ khi dịch từ tiếng Anh sang tiếng Việt. Tiếp theo đó, thủ pháp thống kê được sử dụng để xác định một số thông số cần thiết trong quá trình xây dựng và khai thác ngữ liệu để tìm ra số lượng lỗi sai khi dịch tự động hợp đồng kinh tế Anh - Việt. Ngoài các phương pháp nghiên cứu ngôn ngữ học kể trên chúng tôi thực hiện thêm thủ pháp xử lý ngữ liệu như sau: - Thủ pháp xử lý ngữ liệu bao gồm: thu thập tài liệu hợp đồng kinh tế; chuẩn hóa ngữ liệu bằng cách nhờ chuyên gia máy tính viết phần mềm định dạng theo dạng thức (format) đưa vào dịch tự động; xử lý ngữ liệu như viết phần mềm xóa trùng và định dạng theo đúng dạng thức để đưa vào công cụ BLAST; gán nhãn cũng chính là lúc định dạng được các loại lỗi đặc trưng trong dịch tự động. Trong phương pháp nghiên cứu này, về xử lý ngữ liệu, chúng tôi dùng hai công cụ hỗ trợ phân tích lỗi là phần mềm BLAST và phần mềm BLAST-VCL được giới thiệu dưới đây: 0.5.2 Phần mềm BLAST BLAST (viết tắt của the Bilingual Annotator/ Annotation/ Analysis Support Tool) là công cụ giúp người xử lý và phân tích lỗi các tài liệu song ngữ, đặc biệt là những lỗi thuộc về dịch tự động do Stymne [74] công bố năm 2011. Sau đây là những ưu điểm và khuyết điểm khi sử dụng phần mềm BLAST để phân tích lỗi dịch tự động Anh-Việt: - Ưu điểm: BLAST là phần mềm mang tính cập nhật cao giúp xây dựng tiêu chí phân loại lỗi cho mô hình dịch thống kê Anh-Việt nói chung và dịch tự động bằng phần mềm Google Translate nói riêng. Tiêu chí từ phần mềm BLAST có thể giải quyết những khó khăn tồn đọng từ nhiều năm khi dịch máy hay dịch tự động mắc phải. - Khuyết điểm: BLAST chỉ hỗ trợ ý tưởng lập tiêu chí phân loại lỗi thông thường cho nhiều ngôn ngữ trên thế giới nhưng chưa phân định được lỗi theo tiêu chí ngôn ngữ học như lỗi chính tả, lỗi từ vựng và lỗi ngữ pháp hay lỗi hệ thống và lỗi ngẫu nhiên theo tiêu chí tin học. 8 0.5.3 Phần mềm BLAST - VCL Do hạn chế của phần mềm BLAST trong việc nhận dạng lỗi trật tự từ nên chúng tôi đề xuất ý tưởng với nhóm nghiên cứu xử lý tiếng Việt của Trường Đại học Khoa học tự nhiên, thành phố Hồ Chí Minh đã xây dựng phần mềm BLASTVCL (Vietnamese Computational Linguistics) nhằm bổ sung cho tiêu chí phân loại lỗi trật tự từ thuộc lỗi ngữ pháp. BLAST-VCL có chức năng nhận dạng lỗi trật tự từ trong tiếng Anh theo các lỗi sau đây: lỗi trật tự từ thuộc cấu trúc chủ động hoặc cấu trúc bị động, lỗi trật tự từ giữa tính từ - danh từ, trạng từ - tính từ, mạo từ - danh từ, lỗi trật tự từ thuộc liên từ, danh từ - danh từ, danh từ - sở hữu cách - danh từ, số - danh từ, giới từ - danh từ, chủ từ - động từ, động từ - trạng từ, động từ - túc từ và động từ động từ. 0.5.4 Nguồn ngữ liệu Do vấn đề bảo mật thông tin trong kinh doanh nên việc thu thập ngữ liệu của chúng tôi chỉ dừng lại ở 50 mẫu hợp đồng kinh tế Anh-Việt do học viên lớp CEO 48 tại trường doanh nhân PACE cung cấp. Trong điều kiện đó, chúng tôi không thể có được nguồn ngữ liệu mang tính cập nhật và bao quát hết các loại văn bản ở nhiều độ khó khác nhau. Ngoài ra, do hợp đồng là thể loại mang tính quy chuẩn về ngôn ngữ diễn đạt nên trong lĩnh vực dịch thuật chúng tôi quan tâm nhiều về phương diện này thay vì phương diện nội dung và độ khó của văn bản. Khảo sát lỗi liên quan đến nội dung và độ khó cần có những công trình nối tiếp trên cơ sở khảo sát lỗi về phương diện đạt ngôn ngữ ở mặt hình thức, đặc biệt là đối với dịch tự động. Sau đây là nguồn ngữ liệu làm cơ sở cho việc nghiên cứu trong luận án: • Mẫu văn bản và hợp đồng thương mại Anh-Việt (Model of business documents) gồm 310 trang được xuất bản năm 2001 tại nhà xuất bản Trẻ. Sau khi văn bản được tiền xử lý thì còn lại 516 cặp câu để khảo sát [16]. 9 • Hướng dẫn soạn thảo hợp đồng kinh tế bằng tiếng Anh gồm 250 trang được xuất bản tại nhà xuất bản Tổng hợp thành phố Hồ Chí Minh năm 2005. Tương tự như trên, sau khi văn bản được tiền xử lý thì chỉ còn lại 137 cặp câu để khảo sát [28]. • Mẫu hợp đồng thương mại quốc tế (International business contract form) bao gồm 269 trang được nhà xuất bản Lao động xuất bản năm 2005. Sau khi văn bản được tiền xử lý thì còn lại 367 cặp câu để khảo sát [25]. • Các văn bản pháp luật về hợp đồng lao động, hợp đồng kinh tế, giải quyết các tranh chấp lao động và tranh chấp kinh tế (Legal documents on labour and economic contracts, settlement of labour and economic disputes) gồm 733 trang được nhà xuất bản Chính trị quốc gia xuất bản năm 1997. Dữ liệu toàn văn được đánh máy lại và chia ra thành 2.947 cặp câu Anh-Việt chủ yếu về hợp đồng kinh tế (bởi vì các văn bản pháp luật cũng như hợp đồng lao động chưa được khảo sát trong luận án này). Sau đó, chúng tôi sử dụng phần mềm do công ty Kim Từ Điển viết riêng cho chương trình này nhằm lược bỏ những câu trùng thì thu được 2.068 cặp câu để khảo sát [29]. • 50 hợp đồng kinh tế Anh-Việt do các học viên của lớp CEO 48 tại trường doanh nhân PACE cung cấp năm 2008 để phục vụ cho việc tìm kiếm thuật ngữ hợp đồng kinh tế [19]. Sau khi văn bản được tiền xử lý thì còn lại 305 cặp câu để khảo sát. 0.6 Ý nghĩa khoa học và ý nghĩa thực tiễn Về lý luận, phân tích đối chiếu lỗi ngôn ngữ thuộc loại hình hòa kết (tiếng Anh) và loại hình đơn lập (tiếng Việt) trong dịch tự động là nguồn tư liệu tham khảo về các tiêu chí phân loại lỗi chính tả, lỗi từ vựng và lỗi ngữ pháp đối với thể loại văn bản hợp đồng kinh tế khi dịch tự động và sẽ là tiền đề nâng cấp chương trình dịch tự động Anh-Việt và Việt-Anh. Về thực tiễn, kết quả khảo sát giúp nâng cao chất lượng dịch tự động, làm cho nội dung dịch sát với nội dung văn bản gốc. Hiện nay, các công trình dịch tự động còn có ứng dụng rất tốt trong việc giảng dạy ngôn ngữ. Một trong các phương pháp đào tạo cử nhân biên phiên dịch hiện nay là cho sinh viên phân tích
- Xem thêm -

Tài liệu liên quan

Tài liệu xem nhiều nhất