Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Công nghệ thông tin Cải tiến chất lượng dịch máy thống kê anh – việt dựa vào đảo trật tự từ theo cây...

Tài liệu Cải tiến chất lượng dịch máy thống kê anh – việt dựa vào đảo trật tự từ theo cây cú pháp phụ thuộc

.PDF
146
159
107

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ——————— TRẦN HỒNG VIỆT CẢI TIẾN CHẤT LƯỢNG DỊCH MÁY THỐNG KÊ ANH-VIỆT DỰA VÀO ĐẢO TRẬT TỰ TỪ THEO CÂY CÚ PHÁP PHỤ THUỘC LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Hà Nội - 2019 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ——————— TRẦN HỒNG VIỆT CẢI TIẾN CHẤT LƯỢNG DỊCH MÁY THỐNG KÊ ANH-VIỆT DỰA VÀO ĐẢO TRẬT TỰ TỪ THEO CÂY CÚ PHÁP PHỤ THUỘC Chuyên ngành: Khoa học máy tính Mã số: 9 48 01 01 01 LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. TS. Nguyễn Văn Vinh 2. PGS.TS. Nguyễn Lê Minh Hà Nội - 2019 Lời cam đoan Tôi xin cam đoan luận án này là kết quả nghiên cứu của tôi, được thực hiện dưới sự hướng dẫn của TS. Nguyễn Văn Vinh và PGS.TS. Nguyễn Lê Minh. Các nội dung trích dẫn từ các nghiên cứu của các tác giả khác trình bày trong luận án này được ghi rõ nguồn trong phần tài liệu tham khảo. Trần Hồng Việt TÓM TẮT Đảo trật tự từ là một trong các vấn đề quan trọng của dịch máy liên quan đến việc làm thế nào để sinh ra thứ tự các từ (cụm từ) chính xác trong ngôn ngữ đích. Trong hệ dịch máy thống kê dựa trên cụm từ (Phrase-Based Statistical Machine Translation - PBSMT)(Koehn và cộng sự, 2003; Och và Ney, 2004) [59, 89], việc đảo cụm từ vẫn còn đơn giản và chất lượng chưa cao. Bên cạnh đó, do các ngôn ngữ có nhiều đặc điểm khác nhau (đặc biệt sự khác nhau về thứ tự từ trong các ngôn ngữ) dẫn tới không thể mô hình hóa chính xác trong quá trình dịch [89]. Nhiều hướng nghiên cứu giải quyết vấn đề sắp xếp lại trật tự từ bên trong hệ thống dịch máy thống kê dựa trên cụm từ. Một số nghiên cứu theo hướng tiếp cận tiền xử lý cho vấn đề sắp xếp lại trật tự từ cho kết quả tốt, đảm bảo cân bằng giữa chất lượng dịch và thời gian giải mã qua thực hiện tiền xử lý quá trình sắp xếp lại. Với ưu điểm của cấu trúc cây cú pháp phụ thuộc: kết nối tất cả các từ trong một câu với khả năng nắm bắt phụ thuộc giữa các từ xa nhau với các cấu trúc phụ thuộc địa phương cũng như sự tương ứng chặt chẽ với ngữ nghĩa, luận án tập trung nghiên cứu đề tài: "Cải tiến chất lượng dịch máy thống kê Anh-Việt dựa vào đảo trật tự từ theo cây cú pháp phụ thuộc". Luận án tập trung giải quyết các tồn tại đã nêu thông qua bài toán: sắp xếp lại các từ của câu cần dịch trong ngôn ngữ nguồn theo thứ tự gần nhất có thể với câu được dịch trong ngôn ngữ đích. Các đề xuất này thực hiện như bước tiền xử lý sử dụng cây cú pháp phụ thuộc đối với ngôn ngữ nguồn để đưa vào hệ dịch thống kê dựa trên cụm từ nhằm cải tiến chất lượng dịch máy. Kết quả dịch từ tiếng Anh sang tiếng Việt với bộ dữ liệu IWSLT 2015 trên hệ thống của chúng tôi tốt hơn hai hệ thống dịch phổ biến nhất hiện nay là NMT và PBSMT. Đóng góp của luận án cụ thể như sau: 2 • Thứ nhất, luận án đề xuất các luật đảo trật tự từ thủ công từ việc lựa chọn các đặc trưng về ngôn ngữ trên cây cú pháp phụ thuộc. Từ đó áp dụng phương pháp đảo trật tự từ để nâng cao chất lượng hệ thống dịch máy Anh-Việt. • Thứ hai, luận án đề xuất phương pháp xây dựng luật đảo trật tự từ tự động. Chúng tôi coi việc xây dựng luật đảo trật tự từ như vấn đề học máy trong việc dự đoán chính xác vị trí các thành phần của luật để đoán thứ tự đúng các câu trong ngôn ngữ nguồn tương ứng với thứ tự câu ở ngôn ngữ đích. Với hai đề xuất gồm: – Khai thác các đặc trưng về ngôn ngữ và đề xuất phương pháp sử dụng các bộ phân lớp để giải quyết bài toán đảo trật tự từ. Cụ thể là xác định thứ tự đúng của các phân lớp quan hệ giữa cụm cha-con trên cây phân tích phụ thuộc biểu diễn câu đầu vào. – Bằng việc khai thác quan hệ các cặp từ trên cây phân tích phụ thuộc và ưu điểm của việc biểu diễn dưới dạng word embedding, luận án đề xuất phương pháp sử dụng mạng nơ-ron để giải quyết bài toán đảo trật tự từ câu nguồn theo thứ tự từ câu đích trước khi đưa vào hệ dịch để nâng cao chất lượng dịch. • Thứ ba, luận án đưa ra phân tích ảnh hưởng của các lỗi phân tích cú pháp đến chất lượng dịch qua việc áp dụng các luật đảo trật tự từ đối với câu nguồn. Các phân tích này mang lại lợi ích cho việc cải tiến các phương pháp đảo trật tự từ dựa trên cú pháp và phát triển việc phân tích cú pháp phụ thuộc, đặc biệt với ngôn ngữ tiếng Việt. Từ khóa: dịch máy, dịch máy thống kê, tiền xử lý cú pháp, cú pháp phụ thuộc, dịch máy thống kê dựa trên cụm từ. 3 Mục lục Lời cảm ơn 8 Danh mục các chữ viết tắt 9 Danh sách hình vẽ 10 Danh sách bảng 13 Lời mở đầu 16 1 Tổng quan các vấn đề liên quan luận án 22 1.1 Tổng quan về dịch máy . . . . . . . . . . . . . . . . . . . . . . . . 22 1.2 Dịch máy thống kê . . . . . . . . . . . . . . . . . . . . . . . . . . 25 1.2.1 Cơ sở toán học . . . . . . . . . . . . . . . . . . . . . . . . 25 1.2.2 Cấu trúc hệ thống dịch máy . . . . . . . . . . . . . . . . . 27 1.3 Dịch máy mạng nơ-ron . . . . . . . . . . . . . . . . . . . . . . . . 29 1.4 Phân tích cú pháp phụ thuộc . . . . . . . . . . . . . . . . . . . . 31 1.5 Vấn đề đảo trật tự từ trong dịch máy . . . . . . . . . . . . . . . 35 1.5.1 Sự khác nhau về thứ tự từ giữa các ngôn ngữ . . . . . . . 35 1.5.2 Đảo trật tự từ trong dịch máy . . . . . . . . . . . . . . . 36 1.6 Bài toán đảo trật tự từ trong mô hình dịch máy dựa trên cụm từ 37 1.6.1 Mô hình dịch máy dựa trên cụm từ . . . . . . . . . . . . 37 1.6.2 Bài toán đảo trật từ tự dựa trên tiền xử lý . . . . . . . . 39 4 1.7 1.8 Các nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . . . 43 1.7.1 Sử dụng các luật thủ công cho vấn đề tiền xử lý . . . . . 44 1.7.2 Sử dụng các luật tự động cho vấn đề tiền xử lý . . . . . . 45 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 2 Phương pháp dựa vào luật thủ công cho bài toán đảo trật tự từ trong dịch máy thống kê 2.1 48 Phương pháp tiền xử lý cho bài toán đảo trật tự từ trong dịch máy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 2.2 Các nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . . . 50 2.3 Tiền xử lý cú pháp phụ thuộc cho dịch máy thống kê . . . . . . 52 2.3.1 Phân tích hiện tượng ngôn ngữ và vấn đề sắp xếp lại . . 52 2.3.2 Luật chuyển đổi trật tự từ . . . . . . . . . . . . . . . . . . 55 2.3.3 Tập các luật đảo trật tự từ thủ công . . . . . . . . . . . . 57 2.3.4 Tập dữ liệu và cài đặt thực nghiệm . . . . . . . . . . . . . 59 2.3.5 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . 62 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 2.4 3 Phương pháp sử dụng luật trích xuất tự động bằng các bộ phân lớp quan hệ 65 3.1 Tiền xử lý dựa trên phân lớp cho dịch máy dựa trên cụm từ . . 65 3.1.1 Vấn đề tiền xử lý dựa trên phân lớp . . . . . . . . . . . . 66 3.1.2 Đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 3.1.3 Mô hình phân lớp . . . . . . . . . . . . . . . . . . . . . . . 70 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 3.2.1 Tập dữ liệu và cấu hình thực nghiệm . . . . . . . . . . . . 73 3.2.2 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . 74 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 3.2 3.3 5 4 Phương pháp sử dụng mạng nơ-ron kết hợp các thông tin ngữ cảnh 79 4.1 Thông tin ngữ cảnh từ word embedding . . . . . . . . . . . . . . 79 4.2 Mô hình đảo dựa trên mạng nơ-ron sử dụng cây cú pháp phụ 4.3 thuộc cho dịch máy thống kê . . . . . . . . . . . . . . . . . . . . . 81 4.2.1 Đặc trưng cho phân lớp và huấn luyện mô hình . . . . . 82 4.2.2 Khung làm việc cho đảo trật tự từ . . . . . . . . . . . . . 87 Thực nghiệm về phương pháp sử dụng mạng nơ-ron kết hợp thông tin ngữ cảnh . . . . . . . . . . . . . . . . . . . . . . . . . . 90 4.4 Phân tích và thảo luận . . . . . . . . . . . . . . . . . . . . . . . . 93 4.5 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 5 Ảnh hưởng của cây cú pháp phụ thuộc đến chất lượng dịch máy Anh-Việt 96 5.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 5.2 Phân tích cú pháp phụ thuộc . . . . . . . . . . . . . . . . . . . . 97 5.2.1 Bài toán phân tích cú pháp phụ thuộc . . . . . . . . . . . 98 5.2.2 Định dạng dữ liệu theo chuẩn CoNLL . . . . . . . . . . . 98 5.2.3 Sử dụng tập nhãn cho cú pháp phụ thuộc . . . . . . . . . 100 5.3 Ảnh hưởng của lỗi phân tích cú pháp phụ thuộc tới chất lượng dịch máy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 5.3.1 Phương pháp phân tích lỗi . . . . . . . . . . . . . . . . . . 102 5.3.2 Đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 5.3.3 Phân tích nguyên nhân gây lỗi đảo trật tự từ . . . . . . . 108 5.4 Đánh giá kết quả dịch và độ chính xác cây cú pháp phụ thuộc . 110 5.5 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 Kết luận 114 6 Danh mục công trình khoa học của tác giả liên quan đến luận án117 Tài liệu tham khảo 119 7 LỜI CẢM ƠN Tôi xin gửi lời cảm ơn sâu sắc đến TS. Nguyễn Văn Vinh và PGS.TS. Nguyễn Lê Minh, hai Thầy đã trực tiếp hướng dẫn, chỉ bảo tận tình, luôn hỗ trợ và tạo những điều kiện tốt nhất cho tôi trong quá trình học tập và nghiên cứu. Tôi xin gửi lời cảm ơn đến các Thầy/Cô giáo ở Khoa Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, đặc biệt là các Thầy/Cô giáo ở Bộ môn Khoa học máy tính, những người đã trực tiếp giảng dạy và giúp đỡ tôi trong quá trình học tập và nghiên cứu ở trường. Tôi xin gửi cảm ơn đến GS.TS. Nguyễn Thanh Thủy, PGS. TS. Lê Sỹ Vinh, PGS.TS. Nguyễn Phương Thái, PGS.TS. Phan Xuân Hiếu, TS. Trần Quốc Long, TS. Bùi Ngọc Thăng (Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội), PGS.TS. Lê Thanh Hương (Trường Đại học Bách khoa Hà Nội), TS. Nguyễn Thị Minh Huyền (Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội), TS. Ngô Xuân Bách (Học viện Công nghệ Bưu chính Viễn thông), TS. Nguyễn Việt Anh (Viện Công nghệ thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam) các Thầy/Cô đã có những góp ý chỉnh sửa để tôi hoàn thiện luận án. Tôi xin gửi lời cảm ơn đến tất cả anh, chị, em và bạn bè đồng nghiệp ở Bộ môn Khoa học máy tính (Khoa Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội) đã giúp đỡ tôi trong thời gian làm nghiên cứu sinh. Cuối cùng, tôi xin gửi lời cảm ơn đến tất cả các thành viên trong gia đình đã luôn ủng hộ, chia sẻ, động viên và khích lệ tôi học tập, nghiên cứu. 8 Danh mục các chữ viết tắt MT Machine Translation (Dịch máy) NLP Natural Language Processing (Xử lý ngôn ngữ tự nhiên) POS-tags Part Of Speech tags (Nhãn từ loại) SMT Statistical Machine Translation (Dịch máy thống kê) PBSMT Phrase-Based Statistical Machine Translation (Dịch máy dựa trên cụm từ) NMT Neural Machine Translation (Dịch máy mạng nơ-ron) BLEU BiLingual Evaluation Understudy (Đánh giá độ hiểu ngữ liệu) SVM Support Vector Machine (Máy véc-tơ hỗ trợ) ME Maximum Entropy (Độ hỗn loạn cực đại) WEKA Waikato Environment for Knowledge Analysis (Môi trường Waikato cho phân tích tri thức) 9 Danh sách hình vẽ 1.1 Sơ đồ hình tháp thể hiện các hệ thống dịch máy khác nhau. . . 23 1.2 Kiến trúc cơ bản của hệ thống dịch máy thống kê . . . . . . . . 27 1.3 Các bước xây dựng hệ thống dịch máy thống kê dựa trên cụm từ 28 1.4 Hệ thống dịch máy mạng nơ-ron . . . . . . . . . . . . . . . . . . 30 1.5 Biểu diễn đồ thị cây phân tích phụ thuộc với các nhãn quan hệ. 33 1.6 Biểu diễn dạng cây với dữ liệu phụ thuộc định dạng CoNLL. . . 33 1.7 Ví dụ về mô hình dịch máy dựa trên cụm từ cho dịch từ ngôn ngữ tiếng Pháp sang tiếng Anh. . . . . . . . . . . . . . . . . . . . 37 1.8 Kiến trúc của mô hình dịch dựa trên cụm từ . . . . . . . . . . . 38 1.9 Ví dụ về việc chuyển đổi các gióng hàng từ với việc đảo trật tự từ. 40 1.10 Các bước thực hiện trong hệ thống áp dụng phương pháp tiền xử lý. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 1.11 Kiến trúc hệ thống trong luận án. . . . . . . . . . . . . . . . . . . 43 2.1 Ví dụ về tiền xử lý cho cặp ngôn ngữ Anh-Việt. . . . . . . . . . 49 2.2 Ví dụ về POS tags và phân tích cú pháp phụ thuộc cho tiếng Anh. 50 2.3 Ví dụ về POS tags và phân tích cú pháp phụ thuộc cho tiếng Việt. 51 2.4 Ví dụ về phân tích cú pháp phụ thuộc cho câu tiếng Anh sử 2.5 dụng công cụ phân tích của Stanford. . . . . . . . . . . . . . . . 51 Một số ví dụ về đặc trưng ngôn ngữ tiếng Việt. . . . . . . . . . . 53 10 2.6 Ví dụ về hiện tượng ngôn ngữ trong cụm danh từ với amod và det. Trong ví dụ này, danh từ “computer” được đảo với tính từ “personal” 2.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ví dụ về hiện tượng ngôn ngữ trong cụm tính từ với advmod và det . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.8 55 Ví dụ cây phân tích tiếng Việt với thông tin từ loại POS tags, các nhãn phụ thuộc và gióng hàng từ. . . . . . . . . . . . . . . . 2.9 54 55 Ví dụ áp dụng luật đảo trật tự từ thủ công trong việc sắp xếp lại thứ tự từ trong câu. . . . . . . . . . . . . . . . . . . . . . . . . 57 2.10 Một phần khảo sát về vị trí từ loại và các nhãn trong việc sắp xếp lại thứ tự từ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 2.11 Thuật toán sinh luật đảo trật tự từ sử dụng Pos-tags và nhãn phụ thuộc. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 2.12 Các luật thủ công cho việc đảo trật tự từ tiếng Anh sang tiếng Việt sử dụng tiền xử lý trên cây cú pháp phụ thuộc. . . . . . . . 61 3.1 Ví dụ về mô hình học máy dựa trên phân lớp. . . . . . . . . . . 66 3.2 Một ví dụ về quan hệ giữa các cụm trên cây phân tích phụ thuộc. 67 3.3 Cây phân tích phụ thuộc tiếng Anh. . . . . . . . . . . . . . . . . 3.4 Thuật toán trích xuất tự động các luật sử dụng cây cú pháp phụ thuộc các câu nguồn và cặp gióng hàng từ . . . . . . . . . . . . . 3.5 4.1 72 Thống kê về quan hệ giữa nút cha với nút con trên ngữ liệu song ngữ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.7 72 Thuật toán sắp xếp lại câu nguồn sử dụng các luật trích xuất tự động. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6 68 76 Thống kê về quan hệ giữa nút cha với hai nút con trên ngữ liệu song ngữ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 Một ví dụ về về biểu diễn word embedding . . . . . . . . . . . . 80 11 4.2 Ví dụ về mô hình phân lớp quan hệ. . . . . . . . . . . . . . . . . 4.3 Mô hình đảo cho dịch máy thống kê Anh-Việt sử dụng mạng 82 nơ-ron với cây phân tích phụ thuộc . . . . . . . . . . . . . . . . . 83 4.4 Các đặc trưng cho quan hệ head-child trong mô hình phân lớp . 84 4.5 Các đặc trưng cho quan hệ sibling trong mô hình phân lớp . . . 85 4.6 Khung làm việc cho quá trình tiền xử lý câu nguồn từ dữ liệu song ngữ Anh-Việt. . . . . . . . . . . . . . . . . . . . . . . . . . . 86 4.7 Thuật toán xây dựng mô hình huấn luyện cho mạng. . . . . . . 88 4.8 Thuật toán sắp xếp lại để xây dựng đảo trật tự từ câu nguồn. . 89 4.9 Quá trình sắp xếp lại sau khi áp dụng phương pháp phân lớp. . 90 5.1 Mô hình bài toán tổng quát về phân tích cú pháp phụ thuộc . . 98 5.2 So sánh tập nhãn phụ thuộc giữa tiếng Việt và tiếng Anh. . . . 103 5.3 Mô tả phương pháp phân tích lỗi. . . . . . . . . . . . . . . . . . . 104 5.4 Kết quả đánh giá dựa trên độ đo Kendall’s tau . . . . . . . . . . 107 5.5 Bảng thống kê độ chính xác phân tích cú pháp phụ thuộc tiếng Việt sử dụng công cụ phân tích cú pháp phụ thuộc JPTDP. . . 109 5.6 Ví dụ về lỗi từ loại khi so sánh dữ liệu thống kê giữa cây được sinh ra với cây được sinh từ dữ liệu chuẩn. . . . . . . . . . . . . 110 5.7 Ví dụ về lỗi do xác định sai loại phụ thuộc nút gốc khi so sánh dữ liệu thống kê giữa cây được sinh ra với cây được sinh từ dữ liệu chuẩn. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 5.8 Ảnh hưởng của cây cú pháp phụ thuộc đến chất lượng hệ dịch trên kho ngữ liệu song ngữ Anh-Việt. . . . . . . . . . . . . . . . . 112 5.9 Thống kê các ngôn ngữ SVO (chủ ngữ, động từ, tân ngữ) . . . . 134 5.10 Thống kê các ngôn ngữ với từ loại Tính từ, Danh từ . . . . . . . 135 5.11 Thống kê các ngôn ngữ với cụm từ bổ nghĩa, cụm danh từ . . . 136 5.12 Thống kê các ngôn ngữ với Danh từ, mệnh đề quan hệ . . . . . 136 12 5.13 Phép phi chiếu trong ngôn ngữ Latinh . . . . . . . . . . . . . . . 137 5.14 Dịch từ ngôn ngữ tiếng Đức sang ngôn ngữ tiếng Anh . . . . . . 137 5.15 Dịch từ ngôn ngữ tiếng Trung sang ngôn ngữ tiếng Anh . . . . . 138 5.16 Dịch từ ngôn ngữ tiếng Hàn sang ngôn ngữ tiếng Anh . . . . . . 139 5.17 Dịch từ ngôn ngữ tiếng Ả rập sang ngôn ngữ tiếng Anh . . . . . 140 5.18 Mô tả các luật sắp xếp lại . . . . . . . . . . . . . . . . . . . . . . 141 13 Danh sách bảng 2.1 Phân tích cú pháp phụ thuộc cho câu tiếng Việt biểu diễn dưới dạng chuẩn CoNLL. . . . . . . . . . . . . . . . . . . . . . . . . . . 52 2.2 Thống kê ngữ liệu song ngữ Anh-Việt . . . . . . . . . . . . . . . 62 2.3 Thực nghiệm sử dụng các luật thủ công cho kho ngữ liệu song ngữ Anh-Việt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 3.1 Ví dụ về các luật và đảo trật tự từ trong câu nguồn. . . . . . . . 69 3.2 Tập đặc trưng được sử dụng trong dữ liệu huấn luyện từ kho ngữ liệu song ngữ Anh – Việt . . . . . . . . . . . . . . . . . . . . 3.3 71 Thống kê số luật tự động trích xuất theo phương pháp sử dụng bộ phân lớp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 3.4 Kích cỡ bảng cụm từ . . . . . . . . . . . . . . . . . . . . . . . . . 76 3.5 Đánh giá kết quả trên hệ thống dịch máy Anh- Việt . . . . . . . 78 4.1 Hệ thống thực nghiệm trên kho ngữ liệu song ngữ Anh-Việt . . 92 4.2 Đánh giá hệ thống cho chiều dịch Anh- Việt . . . . . . . . . . . . 93 5.1 Các trường dữ liệu theo định dạng của CoNLL cho ngôn ngữ tiếng Việt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 99 Biểu diễn theo định dạng chuẩn CoNLL cho câu đầu vào tiếng Việt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 5.3 Nhãn cụm từ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 5.4 Nhãn mệnh đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 14 5.5 Nhãn chức năng cú pháp . . . . . . . . . . . . . . . . . . . . . . . 143 5.6 Nhóm các nhãn đa ngôn ngữ . . . . . . . . . . . . . . . . . . . . . 144 15 Mở đầu 1. Tính cấp thiết của luận án Dịch máy là một trong những vấn đề khó và lâu đời nhất trong trí tuệ nhân tạo. Đã có nhiều nỗ lực để giải quyết vấn đề này từ những giai đoạn đầu tiên khi sử dụng máy tính. Dù dịch máy có lịch sử lâu đời, việc dịch tự động toàn bộ văn bản với chất lượng cao vẫn còn là thách thức. Các vấn đề dịch thuật có liên quan đến nhiều ngôn ngữ và các vấn đề văn hóa trở nên khó khăn. Dịch máy dựa trên cách tiếp cận thống kê và gần đây dịch máy mạng nơ-ron đang là một hướng phát triển tiềm năng bởi những ưu điểm so với các cách tiếp cận khác. Nhiều sản phẩm thương mại được sử dụng rộng rãi trên thế giới (hệ dịch của Google1 , M icrosof t2 . . .). Các mô hình dịch máy được sử dụng nhiều nhất là dịch máy thống kê dựa trên cụm từ (PBSMT) (Koehn và cộng sự, 2003; Och và Ney, 2004) [59, 89] và dịch máy nơ-ron (Neural MT) (Bahdanau và cộng sự, 2014; Sutskever và cộng sự, 2014; Cho và cộng sự, 2014) [4, 20, 98]. Trong thập kỷ qua, bên cạnh dịch máy dựa trên cụm từ với các ưu điểm dịch đầy đủ, dễ can thiệp xử lý gỡ lỗi trong quá trình dịch, gần đây dịch máy mạng nơ-ron đã cho thấy tiềm năng lớn và trong nhiều trường hợp đã vượt qua dịch máy dựa trên cụm từ (Bentivogli và cộng sự, 2016; Junczys-Dowmunt và cộng sự, 2016; Chung và cộng sự, 2016; Shterionov và cộng sự, 2017) [9, 21, 48, 94]. Các ưu điểm của dịch máy nơ-ron là: dịch trôi chảy hơn, sát nghĩa hơn. Tuy nhiên, nhiều trường hợp dịch không đầy đủ, hiện tượng không rõ từ (unkown word) nhiều, quá trình dịch như hộp đen lên khó can thiệp xử lý và gỡ lỗi. Những vấn đề của dịch máy mạng nơ-ron được chỉ ra trong các nghiên cứu gần đây như (Zheng và cộng sự, 2018; Ott và cộng sự, 2018; Koehn và cộng sự, 2017) [58, 91, 112]. 1 2 https://translate.google.com http://www.microsofttranslator.com 16 Tương tự như dịch máy thống kê dựa trên cụm từ, dịch máy dựa trên mạng nơ-ron là mô hình dịch máy theo hướng dữ liệu, phụ thuộc vào dữ liệu song ngữ được sử dụng để huấn luyện. Chất lượng dịch của một hệ thống liên quan đến số lượng và chất lượng của tập dữ liệu huấn luyện. Dịch máy thống kê dựa trên cụm từ và đặc biệt vấn đề đảo trật tự từ vẫn thể hiện các ưu điểm trong các trường hợp các ngôn ngữ với nguồn tài nguyên hạn chế (Koehn và cộng sự, 2017) [58], các câu ngắn3 . Trong dự án về dịch máy cho các ngôn ngữ hạn chế về tài nguyên năm 2018, Philip Koehn và nhóm nghiên cứu4 đã giành được khoản tài trợ 10,7 triệu đô la để dịch các ngôn ngữ có nguồn tài nguyên hạn chế, đã đề cập: "Thách thức lớn nhất đối với chúng ta là việc có ít dữ liệu. Điều này đòi hỏi cần nhiều và rất nhiều dữ liệu". Với những ngôn ngữ này, hệ dịch dựa trên mạng nơ-ron chưa thể hiện được các ưu điểm so với dịch máy thống kê dựa trên cụm từ. Các ưu điểm của dịch thống kê dựa trên cụm từ vẫn là hướng nghiên cứu được quan tâm để kết hợp với điểm mạnh trong dịch máy mạng nơ-ron. Vấn đề quan trọng của dịch máy liên quan đến việc làm thế nào để sinh ra thứ tự các từ (cụm từ) chính xác trong ngôn ngữ đích. Trong dịch máy thống kê dựa trên cụm từ (PBSMT), việc đảo cụm từ vẫn còn đơn giản và chất lượng chưa cao. Bên cạnh đó, do các ngôn ngữ có nhiều đặc điểm khác nhau (đặc biệt sự khác nhau về thứ tự từ trong các ngôn ngữ, ví dụ: Anh - Việt) dẫn tới không thể mô hình hóa chính xác trong quá trình dịch [89]. Điều này dẫn đến có nhiều hướng quan tâm nghiên cứu để giải quyết vấn đề đảo trật tự từ bên trong hệ thống dịch máy thống kê dựa vào cụm đang là thách thức đối với các nhà nghiên cứu về dịch máy trong nhiều năm qua. Các nghiên cứu theo hướng tiếp cận tiền xử lý quá trình sắp xếp lại [108], [33], [65] một cách hiệu 3 https://yandex.com/company/blog/one-model-is-better-than-two-yu-yandex-translate- launches-a-hybrid-machine-translation-system/ 4 http://www.baltimoresun.com/news/breaking/bs-md-hopkins-language-grant-20171011story.html 17 quả (cải thiện so với các hệ thống dịch máy dựa trên cụm và phân cấp), chất lượng được đánh giá khả quan trong các mô hình sắp xếp lại. Sử dụng phương pháp tiền xử lý có ưu điểm là giữ được điểm mạnh của hệ thống dịch máy dựa trên cụm từ, giảm thiểu thời gian giải mã, cũng như giữ điểm mạnh của dịch máy theo cú pháp trong bài toán đảo trật tự từ. Hiện nay, đã có nghiên cứu về hệ thống dịch máy thống kê dựa trên cụm từ cho cặp ngôn ngữ Anh-Việt. Tuy nhiên, nghiên cứu về dịch máy thống kê dựa trên cụm từ sử dụng tiền xử lý với cây cú pháp phụ thuộc chưa nhiều. Bên cạnh đó, cú pháp phụ thuộc có ưu điểm trong việc thể hiện quan hệ phụ thuộc từ, tốc độ nhanh, phù hợp với vấn đề sắp xếp lại trật tự từ (một trong những vấn đề quan trọng trong bài toán dịch). Những vấn đề thách thức đặt ra: - Các nghiên cứu chủ yếu áp dụng cho chiều dịch Anh-Việt, chưa có chiều dịch Việt-Anh. - Một số nghiên cứu đã áp dụng đảo trật tự từ dựa trên cây cú pháp phụ thuộc cho chiều Anh-Việt. Tuy nhiên những nghiên cứu này chủ yếu dùng các luật bằng tay, chưa áp dụng các luật tự động trong bài toán dịch. - Có ít nghiên cứu sử dụng tiền xử lý dựa vào cây cú pháp phụ thuộc cho chiều Việt-Anh và tồn tại nhiều hạn chế cần cải tiến để nâng cao chất lượng. Để giải quyết thách thức trên nhằm cải tiến chất lượng dịch máy thống kê, nhiều nỗ lực nghiên cứu theo hướng sử dụng cây phân tích cú pháp phụ thuộc vào dịch thống kê đã được áp dụng. Chính điều này đã gợi ý và thúc đẩy chúng tôi lựa chọn nghiên cứu đề tài: "Cải tiến chất lượng dịch máy thống kê Anh-Việt dựa vào đảo trật tự từ theo cây cú pháp phụ thuộc". 2. Mục tiêu của luận án • Nghiên cứu đề xuất các phương pháp giải quyết bài toán đảo cụm từ 18
- Xem thêm -

Tài liệu liên quan