Đăng ký Đăng nhập
Trang chủ Nghiên cứu một số công cụ phục vụ cho việc phát triển hệ thống hỗ trợ dịch trung...

Tài liệu Nghiên cứu một số công cụ phục vụ cho việc phát triển hệ thống hỗ trợ dịch trung việt

.PDF
67
3
131

Mô tả:

.. ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT VÀ TRUYỀN THÔNG Ngô Hữu Huy NGHIÊN CỨU MỘT SỐ CÔNG CỤ PHỤC VỤ CHO VIỆC PHÁT TRIỂN HỆ THỐNG HỖ TRỢ DỊCH TRUNG - VIỆT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên - 2012 1Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT VÀ TRUYỀN THÔNG Ngô Hữu Huy NGHIÊN CỨU MỘT SỐ CÔNG CỤ PHỤC VỤ CHO VIỆC PHÁT TRIỂN HỆ THỐNG HỖ TRỢ DỊCH TRUNG - VIỆT Chuyên ngành : Khoa học máy tính Mã số : 60.48.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC TS Nguyễn Ái Việt Thái Nguyên - 2012 2Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn i LỜI CAM ĐOAN Tôi xin cam đoan luận văn là kết quả của sự tìm hiểu, nghiên cứu các tài liệu một cách nghiêm túc dười sự hường dẫn của TS Nguyễn Ái Việt. Nội dung của luận văn được phát triển từ ý tưởng, sự sáng tạo của bản thân và kết quả hoàn toàn trung thực. Học viên Ngô Hữu Huy 3Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ii MỤC LỤC LỜI CAM ĐOAN ........................................................................................................ i MỤC LỤC .................................................................................................................. ii DANH SÁCH CÁC HÌNH ......................................................................................... v MỞ ĐẦU ................................................................................................................... vi CHƯƠNG 1. TỔNG QUAN VỀ DỊCH MÁY ........................................................... 1 1.1. Định nghĩa dịch máy ..................................................................................... 1 1.2. Vai trò của dịch máy ..................................................................................... 2 1.3. Lịch sử của dịch máy .................................................................................... 3 1.3.1. Giai đoạn 1930 - 1940 ............................................................................ 3 1.3.2. Giai đoạn 1940 - 1970 ............................................................................ 4 1.3.3. Giai đoạn 1970 – 1990 ........................................................................... 5 1.3.4. Giai đoạn 1990 - hiện nay ...................................................................... 6 1.4. Phân loại dịch máy ........................................................................................ 7 1.5. Phạm vi của luận văn .................................................................................... 8 1.6. Kết chương .................................................................................................... 8 CHƯƠNG 2. CÁC PHƯƠNG PHÁP DỊCH MÁY ................................................... 9 2.1. Các chiến lược dịch cơ bản ........................................................................... 9 2.1.1. Dịch trực tiếp (Direct MT) ..................................................................... 9 2.1.2. Dịch chuyển đổi cú pháp (Syntactic-transfer MT) ............................... 10 2.1.3. Dịch qua ngôn ngữ trung gian (Interlingual MT) ................................ 11 2.1.4. Dịch chuyển đổi cú pháp + phân giải ngữ nghĩa .................................. 13 2.2. Các cách tiếp cận của dịch máy hiện nay.................................................... 14 2.2.1. Dịch máy dựa trên luật (RBMT: Rule-Based MT) .............................. 14 4Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iii 2.2.2. Dịch máy dựa trên thống kê (SMT: Statistics-Based MT)................... 18 2.2.3. Dịch máy dựa trên cơ sở tri thức (KBMT: Knowlegde-Based MT) .... 20 2.2.4. Dịch máy dựa trên ví dụ (EBMT: Example-Based MT) ...................... 21 2.2.5. Dịch máy dựa trên ngữ liệu (CBMT: Corpus-Based MT) ................... 21 2.2.6. Các cách tiếp cận lai (hybrid MTs) ...................................................... 22 2.3. Nhận xét các chiến lược và các cách tiếp cận ............................................. 23 2.3.1. Nhận xét về các chiến lược .................................................................. 23 2.3.2. Nhận xét về các cách tiếp cận .............................................................. 25 2.4. Kết chương .................................................................................................. 26 CHƯƠNG 3. CÁC ĐẶC TRƯNG CỦA DỊCH TRUNG (HÁN) – VIỆT ............... 27 3.1. Ngữ nghĩa đất nước học trong hai ngôn ngữ Hán-Việt............................... 27 3.1.1. Văn hóa dân tộc và nội hàm ngữ nghĩa đất nước học .......................... 27 3.1.2. Thông tin ngữ nghĩa đất nước học trong từ vựng ................................ 28 3.2. Đặc điểm tương đồng và khác biệt của ngôn ngữ Trung (Hán)-Việt ......... 31 3.2.1. Đặc điểm tương đồng và khác biệt về mặt ngữ âm .............................. 31 3.2.2. Đặc điểm tương đồng và khác biệt về mặt văn tự ................................ 36 3.2.3. Đặc điểm tương đồng và khác biệt về mặt từ vựng ............................. 36 3.2.4. Đặc điểm tương đồng và khác biệt về mặt ngữ pháp ........................... 37 3.2.5. Đặc điểm tương đồng và khác biệt về mặt tu từ .................................. 38 3.3. Nguyên nhân sự tương đồng và khác biệt ngữ nghĩa đất nước học giữa hai ngôn ngữ Hán và Việt ........................................................................................... 38 3.3.1. Phong tục tập quán dân tộc................................................................... 39 3.3.2. Bối cảnh văn hoá lịch sử ...................................................................... 40 3.3.3. Tín ngưỡng tôn giáo ............................................................................. 41 3.3.4. Hoàn cảnh địa lý ................................................................................... 42 5Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iv 3.4. Kết chương .................................................................................................. 43 CHƯƠNG 4. XÂY DỰNG KHỐI LIỆU VÀ ĐÁNH GIÁ ...................................... 45 MỘT SỐ CÔNG CỤ XỬ LÝ TIẾNG TRUNG ....................................................... 45 4.1. Xây dựng kho ngữ liệu Trung-Việt (Corpus Trung-Việt) .......................... 45 4.1.1. Khái niệm về Corpus ............................................................................ 45 4.1.2. Quy trình xây dựng Corpus .................................................................. 46 4.1.3. Xây dựng Corpus Trung Việt ............................................................... 48 4.2. Đánh giá một số công cụ xử lý tiếng Trung ................................................ 50 4.2.1. Công cụ phân tích cú pháp (Parser) ..................................................... 50 4.2.2. POS Tagger (Part-Of-Speech Tagger) ................................................. 53 4.3. Kết chương .................................................................................................. 54 KẾT LUẬN .............................................................................................................. 55 TÀI LIỆU THAM KHẢO ........................................................................................ 56 6Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn v DANH SÁCH CÁC HÌNH Hình 1.1. Quá trình xử lý tài liệu dịch máy ................................................................ 1 Hình 2.1. Mô hình dịch trực tiếp .............................................................................. 10 Hình 2.2. Mô hình dịch kiểu chuyển đổi cú pháp..................................................... 10 Hình 2.3. Chuyển đổi cây cú pháp ngôn ngữ nguồn sang cây của ngôn ngữ đích ... 11 Hình 2.4. Mô hình dịch liên ngôn ngữ...................................................................... 12 Hình 2.5. Các chiến lược dịch trong máy dịch ......................................................... 13 Hình 2.6. Mức độ phân tích, chuyển đổi và tổng hợp trong các chiến lược dịch..... 14 Hình 2.7. Kết quả phân tích cú pháp câu “I see the man in the car” ........................ 17 Hình 2.8. Kết quả phân tích cú pháp câu “I saw the man in a day” ......................... 17 Hình 4.1. Bộ gõ tiếng Trung Sougou pinyin ............................................................ 48 Hình 4.2. Giao diện phần mềm Text & Word joiner ................................................ 49 Hình 4.3. Giao diện phần mềm Stanford-parser ....................................................... 50 Hình 4.4. Chọn file đầu vào ...................................................................................... 51 Hình 4.5. Chọn parser ............................................................................................... 51 Hình 4.6. Kết quả phân tích cú pháp ........................................................................ 52 Hình 4.7. Giao diện phần mềm Stanford postagger ................................................. 53 Hình 4.8. Nhập dữ liệu đầu vào ................................................................................ 54 Hình 4.9. Kết quả thu được khi gán thẻ .................................................................... 54 7Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn vi MỞ ĐẦU Chế tạo ra một loại máy có khả năng dịch tự động để giúp cho con người vượt qua rào cản ngôn ngữ là một mơ ước của loài người đã có từ thế kỷ XVII, rất lâu trước khi máy tính điện tử ra đời. Khi khoa học công nghệ phát triển mạnh, yêu cầu nắm bắt thông tin về kỹ thuật nhanh và chính xác trở nên cần thiết. Chẳng bao lâu sau khi máy tính điện tử đầu tiên ra đời, bên cạnh những ứng dụng tính toán trong lĩnh vực toán học và vật lý, con người nghĩ ngay đến việc sử dụng “não bộ của máy tính” cho những ứng dụng thực tiễn, trong đó có vấn đề dịch máy. Lần đầu tiên, việc sử dụng máy tính điện tử để dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác được đề cập đến trong những cuộc thảo luận giữa Andrew D. Booth và Warren Weaver vào năm 1946. Vượt qua nhiều trở ngại về lý thuyết và công nghệ, Booth đã cho ra mắt “hệ dịch dựa trên từ điển” đầu tiên tại hội nghị của MIT vào năm 1952 [4] [15] [16]. Trong sự phát triển nhanh chóng của mạng máy tính và công nghệ truyền thông, con người ngày càng có điều kiện tiếp xúc với nguồn tri thức rất phong phú ở nhiều dạng khác nhau (chữ viết, hình ảnh, âm thanh, .v.v.), được thể hiện ở nhiều ngôn ngữ khác nhau. Nhu cầu đọc hiểu và trao đổi thông tin trở nên cần thiết hơn bao giờ, thế nhưng, nhu cầu này đã gặp phải một rào cản - sự khác biệt về mặt ngôn ngữ. Và, ngôn ngữ, tự hân nó đã vốn rất phức tạp. Con người đã tìm cách vượt qua rào cản ngôn ngữ theo nhiều cách khác nhau, từ việc xây dựng các bộ từ điển song ngữ, các nghiên cứu về dịch thuật liên ngữ, phương pháp học ngoại ngữ nhanh chóng, cho đến cảviệc tạo ra một ngôn ngữ chung cho loài người - quốc tế ngữ Esperanto. Vào thời điểm sức mạnh của máy tính đã được khẳng định, bài toán sử dụng máy tính để chuyển đổi tri thức được viết bằng ngôn ngữ này sang một ngôn ngữ khác được đặt ra. Trong khoảng 50 năm, có rất nhiều phương pháp dịch máy đã được giới thiệu và triển khai. Hiện nay, đã có nhiều hệ dịch tự động được thương mại hóa ở dạng các chương trình máy tính hoặc các dịch vụ web. 8Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn vii Sự nhìn nhận về vấn đề dịch máy (Machine Translation) đã nhiều lần thay đổi trong hơn năm mươi năm qua, từ chỗ hình dung rằng dịch thuật là công việc đơn giản, máy sẽ dịch mọi loại văn bản không kém gì con người, như một bộ máy vạn năng, cho đến chỗ khẳng định rằng dịch máy tự động, chất lượng cao là hoàn toàn không khả thi. Ngày hôm nay, hầu hết các chuyên gia về dịch máy đều có chung quan điểm rằng máy tính chỉ có thể biên dịch văn bản chất lượng chấp nhận được trong một lĩnh vực chuyên môn hẹp, hoặc chỉ có thể hỗ trợ dịch thô để đọc hiểu. Phương pháp dịch máy dựa hoàn toàn vào kho ngữ liệu như Dịch máy dựa trên Thống kê (Statistical Machine Translation) hay Dịch máy dựa trên mẫu ví dụ (Example-based Machine Translation) được xem là chỉ có ích để dịch với chất lượng tương đối thấp cho mọi loại văn bản [4] [15] [16]. Hiện nay số người nói tiếng Trung trên thế giới là nhiều nhất. Tiếng Trung Quốc chiếm một vị trí quan trọng trên trường quốc tế, đồng thời nó có ảnh hưởng rất lớn đến sự phát triển của nền văn hóa và kinh tế trên toàn thế giới. Với mong muốn học hỏi, tôi mạnh dạn chọn đề tài “Nghiên cứu một số công cụ phục vụ cho việc phát triển hệ thống hỗ trợ dịch Trung-Việt” cho luận văn của mình. Luận văn được trình bày trong 4 chương, khái quát như sau: Chương 1: Tổng quan Chương 2: Các phương pháp dịch máy Chương 3: Các đặc trưng của dịch Trung (Hán)-Việt Chương 4: Xây dựng khối liệu và đánh giá một số công cụ xử lý tiếng Trung 9Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 1 CHƯƠNG 1. TỔNG QUAN VỀ DỊCH MÁY 1.1. Định nghĩa dịch máy Khái niệm dịch máy đã được nhiều tác giả trong lĩnh vực xử lý ngôn ngữ tự nhiên định nghĩa, tuy có một vài điểm khác biệt nhưng, hầu hết đều tương đương với định nghĩa sau: Một hệ dịch máy (Machine Translation System) là một hệ thống sử dụng máy tính để chuyển đổi văn bản được viết trong ngôn ngữ tự nhiên này thành bản dịch tương đương trong ngôn ngữ khác [15] [16]. Ngôn ngữ của văn bản cần dịch còn gọi là ngôn ngữ nguồn, ngôn ngữ của bản dịch được gọi là ngôn ngữ đích. Sơ đồ sau thể hiện vị trí của hệ dịch máy trong tiến trình dịch tài liệu. Hình 1.1. Quá trình xử lý tài liệu dịch máy Đầu vào của một hệ dịch máy thường là một văn bản viết trong ngôn ngữ nguồn. Quá trinh dịch có thể chia thành hai giai đoạn: Đầu tiên, văn bản được phân 10Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 2 tích thành các thành phần; Sau đó được dịch thành văn bản ở dạng ngôn ngữ đích. Kết quả dịch có thể được con người hiệu đính để trở thành bản dịch tốt. Như vậy trong một quá trình dịch, con người có thể tác động vào các bước xử lý với mục đích làm cho kết quả dịch tốt hơn. 1.2. Vai trò của dịch máy Xa xưa, con người đã có mơ ước về một “thực thể” giúp con người có thể hiểu mọi thứ tiếng khác. Ngày nay, nhu cầu trao đổi thông tin giữa các quốc gia, các nền văn hóa, giữa mỗi con người, .v.v. càng làm cho việc dịch trở nên quan trọng. Để giải quyết vấn đề dịch thuật, một đội ngũ những người phiên dịch, dịch giả được hình thành và duy trì - để chuyển các lời nói, văn bản từ ngôn ngữ này sang ngôn ngữ khác. Công việc dịch sử dụng con người là công việc có tính thủ công, chất lượng cao nhưng năng suất thấp và giá thành cao. Mỗi cách dịch – cách dịch dùng người dịch và dịch bằng máy – đều có vai trò riêng của nó. Dịch máy đã chứng tỏ nó có hiệu quả so với chi phí bỏ ra (rẻ hơn đáng kể) khi cần dịch khối lượng lớn hoặc dịch nhanh những tài liệu chuyên môn (kỹ thuật), cũng như trong nhiều tình huống khác (có nhiều từ lặp đi lặp lại). Trái lại, khi cần dịch những văn bản không có nhiều từ lặp lại và sử dụng ngôn ngữ tinh vi và rất phức tạp (ví dụ như văn học và luật), và thậm chí cả khi cần dịch những văn bản với những chủ đề đặc biệt, thì vẫn không có gì có thể thay thế được người dịch [7]. Dịch máy cũng có thể phục vụ việc tìm kiếm và dịch những từ chính hoặc cung cấp một bản dịch thô của các bản tóm tắt bản gốc (đôi khi có thể gọi là “những ý chính”). Nói chung, chỗ đứng của dịch máy là ở bước khởi đầu của quá trình dịch, là một phương tiện để tiến tới mục đích chứ bản thân nó khó có thể là sản phẩm cuối cùng. Dịch với sự trợ giúp của máy tính là một tiến bộ lớn trong thời gian gần đây trong qua trình phối hợp giữa máy dịch và người dịch. Phần lớn những người dịch sử dụng các công cụ tham chiếu như từ điển và từ điển đồng nghĩa trên mạng. 11Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 3 Dịch với sự trợ giúp của máy tính còn tiến xa hơn, bằng cách kết hợp dùng phần mềm có những khả năng ví dụ như tự động ghi và lưu lại một số cấu trúc ngữ pháp hoặc cách sắp xếp từ nhất định (công cụ này đặc biệt hữu dụng để đảm bảo sự nhất quán khi dịch các thuật ngữ chuyên môn) trong cả ngôn ngữ gốc và ngôn ngữ dịch, và gợi ý cho người dịch khi họ gặp lại những từ hay cấu trúc ngữ pháp này trong văn bản [7]. Tóm lại, với sự phát triển mạnh mẽ của khoa học công nghệ, khối lượng thông tin trao đổi của con người ngày càng nhiều. Trong nhiều trường hợp có thể có, con người không cần đến chất lượng dịch cao như sử dụng người phiên dịch mà chỉ cần có một bản dịch nháp có chất lượng không quá thấp nhưng không phải chờ đợi lâu. Với trường hợp cụ thể này, một hệ dịch máy chất lượng bình thường đáp ứng tốt hơn một người phiên dịch giỏi. Do vậy, nhu cầu cần có các hệ dịch máy là tất yếu. Nếu xây dựng hệ dịch máy thành công, đây sẽ là công cụ giúp con người tiếp cận với kho tri thức viết bằng các ngôn ngữ khác. 1.3. Lịch sử của dịch máy Ngành dịch máy đã có quá trình phát triển trên 50 năm, tuy có những giai đoạn hầu như không phát triển nhưng dịch máy vẫn là một trong những chuyên ngành phát triển của khoa học máy tính với nhiều kết quả về lý thuyết và ứng dụng thực tế. Có thể chia sự phát triển của ngành dịch máy thành ba thời kỳ, kể từ năm 1949 với những ý tưởng sơ khai về một hệ dịch máy cho đến hiện nay (2006) với sự ra đời của nhiều trình dịch máy tương đối hoàn thiện, đã có ứng dụng vào cuộc sống. 1.3.1. Giai đoạn 1930 - 1940 Mơ ước về việc có thể hiểu ngôn ngữ của dân tộc khác của con người đã có từ rất lâu, từ thế kỷ 17 nhiều nhà nghiên cứu đã có những nỗ lực đầu tiên trong việc xây dựng một cách biểu diễn chung cho tất cả các ngôn ngữ. Năm 1933, đã có hai phát minh được cấp bằng sáng chế liên quan đến việc xây dựng các thiết bị dịch 12Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 4 ngôn ngữ. George Artsrouni một người Pháp gốc Armenia đã thiết kế một thiết bị lưu trữ có thể tìm kiếm nhanh chóng các cặp từ - giải nghĩa của hai cặp ngôn ngữ bất kỳ. Cũng trong năm đó, một người Nga tên là Petr Smirnov-Troyanskii đã thiết kế một thiết bị dịch máy gồm 3 công đoạn: Phân tích câu nguồn, chuyển đổi từ ngữ và sinh câu đích. Thiết kế của Troyanskii tuy chưa bao giờ trở thành hiện thực nhưng nó là ý tưởng cơ bản cho nhiều loại máy dịch được thiết kế sau này. 1.3.2. Giai đoạn 1940 - 1970 Vào cuối những năm 1940, khi máy tính đã được phát minh và ứng dụng thành công vào việc giải mật mã, nhiều người đã nghĩ đến khả năng ứng dụng máy tính vào việc phiên dịch với quan điểm coi việc dịch từ một ngôn ngữ bất kỳ sang tiếng Anh tương tự như việc giải mã một văn bản tiếng Anh được viết bằng một loại mật mã nào đó. Khái niệm dịch máy (machine translation) được Warren Weaver đề ra vào năm 1949. Những chương trình dịch tự động đầu tiên đơn giản chỉ sử dụng phương pháp dịch từ sang từ (word-for-word translation) đã cho những kết quả rất giới hạn vì từ ngữ có nghĩa khác nhau trong những ngữ cảnh khác nhau. Năm 1954, công ty IBM và trường đại học tổng hợp Georgetown hợp tác xây dựng một chương trình dịch tự động Nga-Anh nhưng kết quả rất hạn chế. Với khả năng giới hạn của máy tính trong những năm 1950-1960 và việc nghiên cứu lý thuyết xử lý ngôn ngữ tự nhiên còn chập chững, các kết quả thu được trong lĩnh vực dịch tự động thời kỳ này không đạt được kết quả khả quan. Trong báo cáo của mình viết năm 1960, Bar-Hillel cho rằng không có hệ thống dịch tự động nào có thể dịch một cách trọn vẹn nếu nó không biết được kiến thức về thế giới xung quanh và thông tin về ngữ cảnh hiện tại. Ví dụ mà Bar-Hillel đưa ra là câu tiếng Anh “The pen is in the box and the box is in the pen” và khẳng định không có hệ dịch nào có thể chỉ dựa vào từ điển mà phân biệt được nghĩa của từ “pen” thứ nhất (có nghĩa là “cái bút”) và từ “pen” thứ hai (có nghĩa là “cái cũi”). Năm 1966, tại Mỹ, Hội đồng Cố vấn Xử lý Ngôn ngữ Tự động (Automatic Language Processing Advisory Committee – ALPAC) đã soạn một báo cáo nhận 13Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 5 định rằng không thể xây dựng một hệ thống dịch tự động có hiệu quả. Lập luận rằng: "... việc dịch ngôn ngữ không những chỉ cần những kiến thức về ngôn ngữ mà còn phải những kiến thức ngoài ngôn ngữ (extra-linguistic)…". Sau báo cáo này, các chính phủ đã không còn trợ cấp cho các chương trình nghiên cứu về Dịch Máy nữa và các chương trình này cũng chấm dứt. Nên giai đoạn này còn được biết với tên giai đoạn trước ALPAC (Automatic Language Processing Advisory Committee) Việc nghiên cứu và phát triển dịch máy bước vào một thời kỳ yên ắng chỉ với một vài hoạt động của các cá nhân và tổ chức nhỏ bên ngoài nước Mỹ. Tuy nhiên các đầu tư cho dịch máy trong lĩnh vực quân sự vẫn được tiếp tục như hệ thống dịch Nga-Anh của không lực Mỹ (hệ Mark II, phát triển từ năm 1964). 1.3.3. Giai đoạn 1970 – 1990 Giai đoạn phục hồi của dịch máy. Vào đầu những năm 1970, sau một số thành công trong nghiên cứu về lý thuyết xử lý ngôn ngữ tự nhiên và sức mạnh của máy tính cũng tăng lên đáng kể (với sự ra đời của mạch tích hợp), nhiều trung tâm nghiên cứu bắt đầu quay lại đầu tư vào dịch máy. Năm 1973, Yorick Wilks giới thiệu một hệ thống dịch tự động Anh-Pháp cho kết quả khá tốt (một người chỉ biết tiếng Pháp có thể đọc và hiểu được kết quả dịch không cần tham khảo bản gốc tiếng Anh). Để đạt được thành quả này, hệ thống của Wilks đã sử dụng các tri thức có tính “khái niệm” (concepts) trong việc dịch thuật. Ví dụ: Từ “drink” không đơn thuần là động từ “uống”, trong hệ thống của Wilks, từ “drink” gồm những khái niệm như “động từ có tính hoạt động” (activity verb), “có liên hệ đến những chất lỏng”,... Những tri thức như vậy giúp cho hệ thống của Wilks biết được mối liên hệ giữa các từ trong câu và từ đó xác định được nghĩa chính xác hơn, phù hợp với ngữ cảnh hơn. Thành công của Wilks là chất xúc tác cho việc phục hồi lại những nghiên cứu về dịch máy, một loại các đề án dịch tự động của rất nhiều tổ chức và quốc gia được triển khai, ví dụ như: 14Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 6 - Hai hệ thống của Liên Xô cũ, đều được bắt đầu năm 1976, đó là hệ thống AMPAR dịch từ tiếng Anh sang tiếng Nga và hệ thống NERPA dịch từ tiếng Đức sang tiếng Nga. - Hệ thống TAUM-METEO (1977) của đại học Montréal – Canada chuyên dịch tin tức khí tượng từ tiếng Anh sang tiếng Pháp. - Dự án EUROTRA (1982) của Cộng Đồng Châu Âu với mục đích dịch từ một ngôn ngữ này sang ngôn ngữ khác trong khối, chương trình hỗ trợ các thứ tiếng: Anh, Pháp, Đức, Ý, Hà Lan, Đan Mạch và Hy Lạp. - Hệ thống METAL (1985) của Linguistic Research Center, đại học Texas, dịch từ tiếng Đức sang tiếng Anh. - Chương trình máy tính thế hệ 5 (The Fifth Generation) của chính phủ Nhật Bản, một trong các mục tiêu của chương trình này là một hệ thống dịch tự động xuôi ngược Anh-Nhật, Nhật-Anh. 1.3.4. Giai đoạn 1990 - hiện nay Đầu những năm 1990, với sự phát triển mạnh mẽ của Internet, nhu cầu trao đổi thông tin bùng nổ, cộng với sự tích lũy kiến thức về mặt ngôn ngữ, sức mạnh của máy tính tăng lên hàng ngày và nhiều thành tựu mới về mặt lý thuyết, việc phát triển các hệ thống dịch tự động trở nên rất cần thiết. Dịch máy đã bước sang một giai đoạn phát triển mới, đạt được nhiều thành tựu đáng khích lệ. Các phương pháp dịch tiên tiến áp dụng các kỹ thuật khai phá tri thức từ kho dữ liệu, điều mà trước kia chưa thể thực hiện được do khả năng hạn chế của máy tính, đã thay đổi hoàn toàn các phương pháp dịch truyền thống và đem lại một chất lượng mới cho các hệ thống dịch. Ngày nay, chất lượng của nhiều hệ thống dịch đã ở mức chấp nhận được và một số các ứng dụng dịch tự động đã đi vào cuộc sống trong một số lĩnh vực hẹp. Theo ước tính của John Hutchins, vào năm 2001, có khoảng 1000 phần mềm dịch tự động các ngôn ngữ được bán trên thị trường. Tiêu biểu nhất trong thời điểm hiện nay là các server dịch tự động trên Internet; chẳng hạn dịch vụ Babel Fish: Dịch từ 9 ngôn ngữ thông dụng sang tiếng Anh (gồm tiếng Trung, tiếng 15Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 7 Nhật, tiếng Hàn, tiếng Đức, tiếng Ý, tiếng Tây Ban Nha, tiếng Pháp, tiếng Bồ Đào Nha và tiếng Nga) hoặc dịch vụ WorldLingo: Dịch tự động giữa 11 ngôn ngữ khác nhau (gồm tiếng Anh, tiếng Trung, tiếng Nhật, tiếng Hàn, tiếng Đức, tiếng Ý, tiếng Tây Ban Nha, tiếng Pháp, tiếng Bồ Đào Nha, tiếng Nga và tiếng Hy Lạp), các server này cung cấp dịch vụ dịch từng câu hoặc cả một trang web mà người dùng yêu cầu từ ngôn ngữ này sang ngôn ngữ khác, để làm được điều này tất nhiên tốc độ của các hệ thống dịch phải rất cao và chất lượng dịch cũng phải ở mức tương đối tốt. Nhắm tới thị trường về công nghệ tri thức, nhiều tập đoàn ở Mỹ và Châu Âu đã đầu tư rất lớn vào các dự án về xử lý ngôn ngữ tự nhiên, nhận dạng và mô phỏng. Tiêu biểu có dự án của công ty Microsoft cộng tác với trường đại học tổng hợp Stanford cho việc nhận dạng chữ viết, nhận dạng tiếng nói, dịch tự động, tóm tắt nội dung,... mới có một vài ứng dụng trên máy cầm tay PocketPC hoặc tích hợp vào bộ Office. Được ứng dụng phổ biến hơn có các kết quả của các phòng thí nghiệm của công ty IBM đã được ứng dụng vào các hệ thống lái xe thông minh, hệ thống đặt vé máy bay nội địa tự động,... Về phía Châu Âu, có các sản phẩm của công ty Lernout & Hauspie (sau này là Mendez) với các hệ nhận dạng tiếng nói, mô phỏng tiếng nói, dịch máy, … [4], [15], [16]. Tại Việt Nam, ngoài chương trình dịch tự động Anh-Việt EVTran 3.0 của tác giả Lê Khánh Hùng, còn có một số các chương trình khác nhưng mới chỉ đang được thử nghiệm trong phạm vi hẹp chứ chưa được đưa ra thị trường. Các chương trình dịch tự động được nghiên cứu tại Việt Nam chủ yếu hướng vào việc dịch tự động Anh-Việt do có sẵn khá nhiều kết quả nghiên cứu về tiếng Anh, dịch từ tiếng Anh sang ngôn ngữ khác để có thể áp dụng vào chương trình [8]. 1.4. Phân loại dịch máy Có nhiều quan điểm phân loại dịch máy khác nhau, chẳng hạn: Phân loại theo mục đích hệ dịch, phân loại theo kỹ thuật dịch, … Với tiêu chí phân loại dịch máy theo mục đích hệ dịch, Hutchins và Somers chia các hệ dịch máy thành ba loại: 16Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 8 - Máy trợ dịch (Machine-Aided Human Translation): Là các hệ thống giúp con người dịch, người dịch là chính. Ví dụ: Bộ kiểm tra chính tả, kiểm tra ngữ pháp, từ điển, … - Máy dịch có trợ giúp của người (Human-Aided Machine Translation): Là các hệ thống dịch với sự trợ giúp của con người, máy dịch là chính, nhiệm vụ của con người là trợ giúp máy để nâng cao chất lượng dịch (chẳng hạn chọn cho máy chuyên ngành thích hợp với tài liệu cần dịch để máy có thể có những lựa chọn nghĩa chính xác hơn), sau đó con người sẽ hiệu đính để tạo được bản dịch cuối cùng có chất lượng cao. - Máy dịch hoàn toàn tự động (Fully-automated Machine Translation): Là các hệ thống dịch hoàn toàn tự động, không hề có bàn tay con người từ khi bắt đầu xử lý cho đến khi ra bản dịch. Hệ thống này cũng là mơ ước và là mục đích sau cùng của những người xây dựng hệ thống dịch. Hiện nay, các hệ thống dịch hoàn toàn tự động đã có mặt trong một số lĩnh vực hẹp, khi mà chất lượng của bản dịch không phải là yêu cầu quan trọng nhất [15], [16]. 1.5. Phạm vi của luận văn Luân văn là “Nghiên cứu một số công cụ phục vụ cho việc phát triển hệ thống hỗ trợ dịch Trung-Việt”. Đây là một chủ đề rộng, vì vậy luận văn tập trung vào một số công cụ quan trọng, cụ thể như: - Xây dựng corpus Trung-Việt. - Tìm hiểu công cụ phân tích cú pháp (Parser). - Tìm hiểu POS Tagger (Part-Of-Speech Tagger). 1.6. Kết chương Ứng dụng thử nghiệm nào – cũng cần dựa trên một nền tảng lý thuyết khoa học và chắc chắn, trong chương 2, luận văn sẽ khảo cứu căn bản lý thuyết về dịch máy, trong đó đặt trọng tâm vào các phương pháp dịch máy. 17Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 9 CHƯƠNG 2. CÁC PHƯƠNG PHÁP DỊCH MÁY 2.1. Các chiến lược dịch cơ bản Nếu xét theo cách thức chuyển ngữ khi dịch một ngôn ngữ nguồn sang một ngôn ngữ đích, người ta thường chia thành 2 dạng chính sau: dạng chuyển ngữ trực tiếp (direct) và dạng chuyển ngữ gián tiếp (indirect). Trong dạng gián tiếp, thì tùy theo mức độ và môi trường trung gian, người ta chia thành 2 dạng nhỏ sau: gián tiếp qua cấu trúc cú pháp câu (syntax-based) hay gián tiếp qua ngôn ngữ trung gian (interlingua-based). Giữa 2 dạng nhỏ nói trên, cũng còn tồn tại một dạng nhỏ thứ 3 với mức độ gián tiếp ở giữa 2 mức độ trên, đó là: gián tiếp qua cấu trúc cú pháp câu và phân giải ngữ nghĩa nông (shallow-semantic analysis). Tóm lại, ta có thể phân các chiến lược dịch trong dịch máy thành 4 dạng như sau [14]: 2.1.1. Dịch trực tiếp (Direct MT) Theo chiến lược này, hệ sẽ dịch bằng cách thay thế một cách đơn giản và máy móc những từ/ngữ trong ngôn ngữ nguồn (Source Language) bằng những từ/ngữ trong ngôn ngữ đích (Target Language). Đặc điểm của chiến lược dịch này là đơn giản, nhanh (thời gian tỉ lệ với độ dài của câu: O(n)), không cần phân tích cú pháp sâu, thích hợp cho những văn bản có khối lượng từ vựng nhỏ và số dạng câu giới hạn. Hoạt động tương đối tốt khi dịch giữa các ngôn ngữ cùng loại hình, có sự tương ứng 1-1 về từ vựng, ngữ pháp, … nhưng chúng gặp phải khó khăn khi dịch cặp ngôn ngữ khác nhau về loại hình, như: tiếng Anh (loại hình biến cách) và tiếng Việt (loại hình đơn lập) chẳng hạn. Mô hình dịch của chiến lược này như hình 2.1 dưới: 18Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 10 Hình 2.1. Mô hình dịch trực tiếp 2.1.2. Dịch chuyển đổi cú pháp (Syntactic-transfer MT) Theo chiến lược này, hệ thống sẽ dịch bằng cách phân tích (hình thái và cú pháp) câu của ngôn ngữ nguồn và sau đó áp dụng những luật ngôn ngữ và từ vựng (gọi là những qui luật chuyển đổi) để ánh xạ thông tin văn phạm từ ngôn ngữ nguồn sang ngôn ngữ đích. Hình 2.2. Mô hình dịch kiểu chuyển đổi cú pháp 19Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 11 Đê nhận biết cấu trúc của câu nhập vào, những hệ thống chuyển đổi dùng những phần mềm gọi là những bộ phân tích cú pháp (parser). Bộ phân tích cú pháp sẽ sử dụng giải thuật để phân tích dựa trên một bộ văn phạm ngôn ngữ nào đó hoặc thống kê từ ngữ liệu (đã gán nhãn ngữ pháp). Có rất nhiều giải thuật phân tích và trong đó giải thuật Earley [19] và giải thuật Tomita [22] là hiệu quả và phổ biến hơn cả. Tương tự, cũng có rất nhiều văn phạm để phân tích, như: TG [19], LG [132], TAG [92], … nhưng hầu hết đưa đến kết quả cây phân tích cú pháp giống như nhau. Sau khi tạo ra cây cú pháp, hệ thống dùng những qui luật chuyển đổi để chuyển sang cây cú pháp của ngôn ngữ đích (xét đến sự thay đổi vị trí của từ trong ngôn ngữ đích) và nó tạo ra kết xuất như trong Hình 2.3. Ví dụ: trong tiếng Việt thì tính từ đứng sau danh từ mà nó bổ nghĩa, còn trong tiếng Anh thì ngược lại. Với cách dịch này, chúng ta không thể giải quyết các trường hợp nhập nhằng ngữ nghĩa của những từ có cấu trúc nhưng khác nghĩa nhau. Ví dụ: ta không thể xác định được nghĩa của từ “bank” trong câu “I enter the bank” là “ngân hàng” hay “bờ sông”, “dãy”, … Hình 2.3. Chuyển đổi cây cú pháp ngôn ngữ nguồn sang cây của ngôn ngữ đích 2.1.3. Dịch qua ngôn ngữ trung gian (Interlingual MT) Theo chiến lược này, hệ sẽ dịch qua ngôn ngữ trung gian gọi là liên ngôn ngữ (interlingua) như Hình 2.4 dưới đây: 20Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
- Xem thêm -

Tài liệu liên quan