Tài liệu Xây dựng mô hình ánh xạ cấu trúc cụm động từ tiếng anh sang tiếng việt tương ứng

.PDF

120

thanhphoquetoi Báo vi phạm

Tải xuống 120

Mô tả:

ĐẠI HỌC QUỐC GIA TP. HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA ---------------- CỘNG HOÀ XÃ HỘI CHỦ NGHIÃ VIỆT NAM Độc Lập - Tự Do - Hạnh Phúc ---oOo--- Tp. HCM, ngày 30 tháng 11 năm 2008 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ và tên học viên : Huỳnh Thị Ngọc Thuý Giới tính : Nam/ Nữ Ngày, tháng, năm sinh : 20/07/1982 Nơi sinh : Trà Vinh Chuyên ngành : Khoa học Máy tính Khoá : 2006 1- TÊN ĐỀ TÀI : Xây dựng mô hình ánh xạ cấu trúc cụm động từ tiếng Anh sang tiếng Việt tương ứng. 2- NHIỆM VỤ LUẬN VĂN : - Nghiên cứu văn phạm tiếng Anh trong phạm vi động từ và trợ động từ. Nghiên cứu văn phạm tiếng Việt trong phạm vi động từ và các thành tố phụ phía trước của động từ. Nghiên cứu các phương pháp ánh xạ cấu trúc cú pháp động từ tiếng Anh sang tiếng Việt, chú ý những nét tương đồng và khác biệt giữa hai cấu trúc. Xây dựng tập luật ánh xạ từ cấu trúc của động từ tiếng Anh sang tiếng Việt. - Viết chương trình để dịch động từ tiếng Anh sang tiếng Việt. 3- NGÀY GIAO NHIỆM VỤ : 15/06/2008 4- NGÀY HOÀN THÀNH NHIỆM VỤ : 30/11/2008 5- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN : PGS.TS Phan Thị Tươi Nội dung và đề cương Luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành thông qua. CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN (Họ tên và chữ ký) QUẢN LÝ CHUYÊN NGÀNH (Họ tên và chữ ký) PGS.TS Phan Thị Tươi CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán bộ hướng dẫn khoa học : PGS.TS. Phan Thị Tươi Cán bộ chấm nhận xét 1 : TS. Nguyễn Xuân Dũng Cán bộ chấm nhận xét 2 : TS. Quản Thành Thơ Luận văn thạc sĩ được bảo vệ tại HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày 26 tháng 02 năm 2009 i Lời cảm ơn Tôi xin chân thành cảm ơn PGS.TS. Phan Thị Tươi, cô đã tận tình hướng dẫn, chỉ bảo tôi trong suốt quá trình hoàn thành luận văn này. Xin chân thành cảm ơn sự tận tình dạy dỗ của quý thầy cô trường Đại học Bách Khoa thành phố Hồ Chí Minh, nhất là quý thầy cô trong khoa Khoa học và kỹ thuật máy tính. Xin cảm ơn các bạn cùng lớp, gia đình, những người đã giúp đỡ, động viên tôi rất nhiều trong quá trình hoàn thành luận văn này. ii Tóm tắt Dịch máy dựa trên kho ngữ liệu (Corpus-Based Machine Translation_CBMT) là mô hình dịch máy chiếm ưu thế trong thập kỉ vừa qua. Trong các hệ thống CBMT có sự tồn tại của kho ngữ liệu song ngữ song song (bilingual parallel corpus) gồm các chuỗi văn bản ở ngôn ngữ nguồn (source language) cùng với các chuỗi văn bản tương ứng ở ngôn ngữ đích (target language). Một trong hai hướng chính của CBMT là dịch máy dựa trên ví dụ (Example-Based Machine Translation_ EBMT). Hệ thống EBMT dùng kỹ thuật so trùng các chuỗi trong văn bản đầu vào với các chuỗi ngôn ngữ nguồn trong kho ngữ liệu, rút trích các chuỗi ngôn ngữ đích tương ứng và kết hợp các chuỗi ngôn ngữ đích này lại để cho ra kết quả là văn bản đầu ra. Đơn vị cơ bản của các đoạn văn bản trong kho ngữ liệu là chuỗi từ (cụm từ – phrase hoặc đoạn – fragment). Mức cụm từ được chọn để lưu trữ khi xây dựng kho ngữ liệu thay vì mức câu hay mức từ là do độ chính xác khi dịch ở mức cụm từ cao hơn mức từ và khả năng lưu trữ cũng như sưu tập ở mức cụm từ khả thi hơn mức câu. Trong luận văn này, chúng tôi xây dựng tập luật ánh xạ cấu trúc từ cụm động từ tiếng Anh sang tiếng Việt tương ứng, tập luật này là một cơ sở để xây dựng kho ngữ liệu cụm động từ song ngữ Anh-Việt. Các luật ánh xạ được chúng tôi rút ra từ quá trình khảo sát cấu trúc cụm động từ tiếng Anh, tiếng Việt, các qui luật văn phạm của động từ tiếng Anh và dùng phương pháp chiếu thông qua kết quả đối sánh từ. iii Abstract Corpus-Base Machine Translation (CBMT) has been the dominant model of machine translation in the last decade. In CBMT, there is existence of bilingual parallel corpus comprises of texts in source language together with correlative texts in target language. Example-Based Machine Translation (EBMT) is one of the two main trends of CBMT. The basic techniques for EBMT are the matching of the input strings again source strings in the corpus, the extraction of corresponding target language strings and the recombination the strings as output result. The basic unit in the corpus is sequence of words (phrase or fragment). To constructing the corpus, examples at phrase-level are chosen for storage instead of word-level or sentence-level. It can explain that the translating at phrase-level is more exact than at word-level and the capacity as well as the gathering of examples in phrase-level is more possible than in sentence level. In this thesis, we construct a mapping rule set of verb phrase structure from English to Vietnamese, this set is a foundation for constructing English-Vietnamese verb-phrase bilingual parallel corpus. The rules were shaped as the results of the studying processes in English verb phrase structure, Vietnamese verb phrase structure, English grammar and applying “projection across word-alignment” method. iv MỤC LỤC Lời cảm ơn ......................................................................................................i Tóm tắt ...........................................................................................................ii Abstract .........................................................................................................iii Mục lục ..........................................................................................................iv Danh mục hình .............................................................................................vi Danh mục bảng biểu ...................................................................................vii Chương 1. Tổng quan ................................................................................... 1 Chương 2. Các Nghiên Cứu Liên Quan...................................................... 5 Chương 3. Cơ Sở Lý Thuyết ........................................................................ 9 3.1 Trợ động từ và động từ chính trong cấu trúc cụm động từ tiếng Anh . 10 3.1.1 Cấu trúc chung và các biến thể của cụm động từ tiếng Anh........................ 10 3.1.2 Các thành tố phụ phía trước .......................................................................... 11 3.1.3 Trung tâm của cụm động từ tiếng Anh.......................................................... 14 3.2 Phần phụ trước và động từ chính của cụm động từ tiếng Việt .............. 15 3.2.1 Nhận xét mở đầu về cụm động từ tiếng Việt ................................................. 15 3.2.2 Các thành tố phụ phía trước .......................................................................... 16 3.2.3 Trung tâm của cụm động từ tiếng Việt .......................................................... 20 3.2.4 Các phạm trù ngữ pháp và trật tự.................................................................. 21 Chương 4. Tập luật ánh xạ Anh-Việt........................................................ 23 4.1 Mô hình chuyển đổi cấu trúc “trợ động từ và động từ chính” tiếng Anh sang cấu trúc tiếng Việt tương ứng................................................................. 23 4.2 Tập luật ánh xạ Anh-Việt .......................................................................... 26 v 4.2.1 Các khái niệm ................................................................................................. 26 4.2.2 Diễn tả sự cho phép (permission): can, could, may ...................................... 28 4.2.3 Diễn tả sự suy đoán về khả năng xảy ra (possibility): can, could, may, might ................................................................................................................................. .32 4.2.4 Diễn tả khả năng thực hiện (ability): can và be able .................................... 35 4.2.5 Diễn tả bổn phận (obligation): ought to, should, must, need ....................... 38 4.2.6 Diễn tả sự suy diễn (deduction) và giả định (assumption): must, have, will và should ....................................................................................................................... 41 4.2.7 Dare, need và used to ...................................................................................... 45 4.2.8 “Be, have, do” với vai trò là trợ động từ ........................................................ 47 4.2.9 Diễn đạt ý tương lai ........................................................................................ 55 Chương 5. Hiện thực và đánh giá .............................................................. 63 5.1 Hiện thực ..................................................................................................... 63 5.1.1 Tiền xử lý......................................................................................................... 64 5.1.2 Ánh xạ cụm động từ tiếng Anh sang tiếng Việt ............................................ 65 5.1.3 Giải quyết nhập nhằng ................................................................................... 66 5.2 Đánh giá độ chính xác của chương trình ................................................. 68 Chương 6. Kết luận ..................................................................................... 72 6.1 Đóng góp của luận văn ............................................................................... 72 6.2 Hướng phát triển ........................................................................................ 73 Tài Liệu Tham Khảo................................................................................... 74 Phụ lục A. GATE_công cụ rút trích cụm từ và gán nhãn từ loại cho câu tiếng Anh ..................................................................................................... 77 Phụ lục B. Bảng thống kê tập luật ánh xạ theo từng ý nghĩa Phụ lục C. Bảng thống kê tập luật ánh xạ theo từng trợ động từ vi Danh mục hình Hình 4.1 Cây cú pháp của câu “The boy will be playing the football”…………..24 Hình 4.2 Ánh xạ cấu trúc cú pháp của câu ở hình 3.1 sang cấu trúc cú pháp tiếng Việt tương ứng …………………………………………………………………….24 Hình 4.3 Minh hoạ phép chiếu đối sánh từ ………………………………………25 Hình 5.1 Mô hình ánh xạ cấu trúc cụm động từ tiếng Anh sang tiếng Việt……...64 Hình 5.2 Mô hình biểu diễn ý nghĩa của CAN dưới dạng tập mờ……………......67 vii Danh mục bảng biểu Bảng 5.1 Kết quả đánh giá trên tập câu song ngữ huấn luyện rút ra từ tài liệu “Ngữ pháp tiếng Anh thực hành- A Practical English Grammar”………………………..69 Bảng 5.2 Kết quả đánh giá trên tập câu rút ra từ tài liệu“The semantics of the modal auxiliaries” ..………………………………………………………………..69 Bảng 5.3 Ví dụ cặp câu song ngữ Anh-Việt và kết quả đầu ra tương ứng khi chạy chương trình ……………………………………………………………………….69 Bảng 5.4 Kết quả đánh giá trên tập câu song ngữ huấn luyện ..………………….71 Bảng 5.5 Kết quả đánh giá trên tập câu trong tài liệu “The semantics of the modal auxiliaries” ……………...........................................................................................71 1 Chương 1 : Tổng quan Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) là lĩnh vực nghiên cứu rất quan trọng, động cơ thúc đNy nhiều nhà khoa học máy tính quan tâm đến lĩnh vực này chính là khả năng xử lý ngôn ngữ tự nhiên sẽ cách mạng hoá cách thức máy tính được sử dụng. Bởi vì phần lớn tri thức của con người được ghi lại dưới dạng ngôn ngữ, máy tính nếu có khả năng hiểu được ngôn ngữ tự nhiên sẽ tiếp cận được toàn bộ nguồn thông tin này. Thêm vào đó, máy tính dùng những giao diện diễn đạt bằng ngôn ngữ tự nhiên sẽ cho phép mọi người, kể cả những người không chuyên, tiếp cận dễ dàng các hệ thống phức tạp. Dịch máy (machine translation - MT) là một trong nhiều ứng dụng của lĩnh vực xử lý ngôn ngữ tự nhiên, mục đích của dịch máy là làm cho máy tính có thể chuyển văn bản hay giọng nói từ một ngôn ngữ tự nhiên này sang một ngôn ngữ tự nhiên khác mà vẫn giữ nguyên ngữ nghĩa và sự trong sáng của nó. Trong thập kỉ vừa qua, các mô hình dịch máy dựa trên kho ngữ liệu (copus-based hoặc data-driven) có ưu thế vượt trội, điều này tương phản sâu sắc với các mô hình ở những năm 1980 và các thập kỉ trước, đó là mô hình dịch máy dựa trên luật (rule-based) [9]. Trong các hệ thống dịch máy dựa trên kho ngữ liệu (Corpus-Based Machine Translation – CBMT) có sự tồn tại của kho ngữ liệu song ngữ song song (bilingual parallel corpus) gồm các đoạn (segments) văn bản ở ngôn ngữ nguồn cùng với các đoạn văn bản tương ứng ở ngôn ngữ đích, kích thước của các đoạn khác nhau tuỳ từng hệ thống, nhưng tiêu biểu là ở mức câu (sentence). Kho ngữ liệu này được sử dụng cho mục đích tra cứu, tham khảo để thu được các tri thức cần thiết cho mỗi lần dịch mới. Trong mô hình CBMT lại phân ra làm hai hướng phân biệt: dịch máy thống kê (Statistical Machine Translation – SMT) và dịch máy dựa trên ví dụ 2 (Example-Based Machine Translation – EBMT). SMT chủ yếu dựa trên tần số xuất hiện của từ (word frequency) và sự kết hợp các từ (word combinations) còn EBMT dựa trên sự rút trích và kết hợp các cụm từ (hoặc các đoạn ngắn hơn mức cụm từ) [9]. Một hệ thống dịch máy được gọi là một hệ thống EBMT nếu nó dùng những đoạn (chuỗi từ chứ không phải từng từ riêng rẽ) văn bản ngôn ngữ nguồn được rút ra từ kho ngữ liệu chứa các ví dụ mẫu để tạo nên các văn bản ngôn ngữ đích với cùng một nghĩa. Đơn vị cơ bản của EBMT là chuỗi từ (cụm từ – phrase hoặc đoạn – fragment); và các kỹ thuật cơ bản là tìm kiếm các chuỗi ngôn ngữ nguồn trong kho ngữ liệu phù hợp với các chuỗi trong văn bản đầu vào, rút trích các chuỗi ngôn ngữ đích tương ứng và kết hợp lại các chuỗi ngôn ngữ đích này cho ra kết quả là câu ở ngôn ngữ đích có thể chấp nhận được. Vì EBMT là mô hình dịch máy dựa trên kho ngữ liệu, nên điều cần thiết đầu tiên là việc xây dựng kho ngữ liệu song ngữ song song. Kho ngữ liệu có thể được xây dựng dựa vào các nguồn dữ liệu sẵn có như các trang World Wide Web (được trình bày bằng hai hoặc nhiều hơn hai ngôn ngữ). Ngoài ra kho ngữ liệu của hệ thống EBMT có thể do chính đội ngũ phát triển xây dựng, hoặc được trích lọc kỹ càng từ nguồn dữ liệu trong thực tế. Cách làm thứ nhất có khuyết điểm là nếu lấy trực tiếp từ nguồn dữ liệu to lớn bên ngoài thì sẽ bao gồm những ví dụ (examples) trùng lắp lên nhau, điều này có thể dẫn đến việc cùng một ví dụ ở ngôn ngữ nguồn lại tương ứng với hơn một ví dụ ở ngôn ngữ đích [14]. Đối với cách làm thứ hai, người ta đã sưu tập kho ngữ liệu song ngữ ở mức cụm từ thay vì mức câu hay mức từ. Người ta chọn mức cụm từ là do độ chính xác khi dịch dựa trên mức cụm từ cao hơn mức từ và khả năng lưu trữ cũng như sưu tập ở mức cụm từ khả thi hơn ở mức câu (vì chúng ta không thể lưu trữ hết tất cả các câu song ngữ trong quá khứ, hiện tại và tương lai) [5]. Để xây dựng kho ngữ liệu dựa trên cụm từ thì vấn đề cần quan tâm là việc nhận dạng và rút trích cụm từ (cụm danh từ, cụm động từ,…) trong văn bản song ngữ song song. Vấn đề này đã được nhiều tác giả trên thế giới quan tâm nghiên cứu trên 3 nhiều ngôn ngữ khác nhau, ví dụ đối với tiếng Anh đã có công cụ GATE để nhận diện và rút trích cụm từ. Còn trong tiếng Việt, các nghiên cứu trong lĩnh vực này vẫn còn khá ít ỏi, chủ yếu tập trung ở các trường Đại học Khoa học tự nhiên , Đại học Bách Khoa; ví dụ như công trình của tác giả Nguyễn Chí Hiếu [5] về nhận biết và rút trích cụm danh từ tiếng Việt. Như vậy cụm từ tiếng Việt vẫn còn nhiều vấn đề mở cần được nghiên cứu, đặc biệt là cụm động từ vẫn chưa được nhiều người quan tâm. Thế nhưng một cản trở cơ bản của tiếng Việt (cũng như hơn 200 ngôn ngữ khác trên thế giới) khi muốn phát triển các ứng dụng về xử lý ngôn ngữ tự nhiên đó là vấn đề thiếu vắng nguồn ngữ liệu có chú thích. Để vượt qua cản trở đó, người ta có thể dựa vào kho ngữ liệu sẵn có và các công cụ xử lý ngôn ngữ của một ngôn ngữ giàu tài nguyên như tiếng Anh. Ý tưởng này xuất phát từ công trình nghiên cứu của Yarowsky[18], trong đó tác giả đề xuất cách tiếp cận dùng phương pháp chiếu (projection) dựa trên kết quả đối sánh từ (word-alignment) để xác định cụm danh từ cơ sở, áp dụng cho cặp Anh-Pháp. Trong đề tài này, chúng tôi sẽ dựa trên những nét cơ bản về đối sánh từ của Yarowsky, tức là việc “xây dựng tập luật ánh xạ cấu trúc từ cụm động từ tiếng Anh sang tiếng Việt tương ứng” sẽ dựa trên tiếp cận chiếu qua kết quả đối sánh từ AnhViệt. Kết quả là từ cụm động từ tiếng Anh (ngôn ngữ nguồn) thông qua luật ánh xạ có thể đưa ra được cấu trúc cụm động từ tiếng Việt (ngôn ngữ đích) tương ứng. Dựa vào tập luật ánh xạ này, từ một câu đơn tiếng Anh có chứa trợ động từ, ta có thể suy ra được cụm động từ tiếng Việt có ý nghĩa tương đương với cụm động từ trong câu tiếng Anh, góp phần trong việc tạo ra kho ngữ liệu cụm động từ song ngữ Anh-Việt. Tuy nhiên, trong cụm động từ có thể chứa cả cụm danh từ, cụm giới từ, trạng từ, … , nếu xét cả cụm động từ thì khối lượng công việc rất lớn. Cho nên trong luận văn này chúng tôi chỉ giới hạn ở mức “xây dựng tập luật ánh xạ từ cấu trúc trợ động từ và động từ chính tiếng Anh sang cấu trúc tiếng Việt tương ứng” hơn nữa, chúng tôi cũng không xem xét dạng câu hỏi (interrogative) và dạng bị động (passive). Trong phần này, chúng tôi tạm gọi cấu trúc trợ động từ và động từ chính tiếng Anh và cấu trúc phụ từ và động từ chính tiếng Việt lần lượt là động từ tiếng Anh và 4 động từ tiếng Việt. Qua quá trình nghiên cứu, phân tích và tổng hợp chúng tôi đã đưa ra được những mối tương quan giữa động từ tiếng Anh và động từ tiếng Việt từ đó tạo ra tập luật ánh xạ song ngữ từ động từ tiếng Anh sang động từ tiếng Việt trên cơ sở phương pháp chiếu đối sánh từ. Trên nền tảng của tập luật ánh xạ, chúng tôi xây dựng một chương trình ánh xạ cấu trúc từ động từ tiếng Anh sang tiếng Việt với đầu vào là câu đơn tiếng Anh và đầu ra sẽ là động từ tiếng Việt có ý nghĩa tương đương với động từ tiếng Anh trong câu đầu vào. Tập luật ánh xạ này sẽ là cơ sở để xây dựng kho ngữ liệu song ngữ của cặp cụm động từ Anh-Việt trợ giúp cho những nghiên cứu liên quan trong lĩnh vực xử lý ngôn ngữ tự nhiên. 5 Chương 2 : Các nghiên cứu liên quan Để xây dựng kho ngữ liệu song ngữ cho cụm từ, có thể có nhiều cách khác nhau như dựa trên tập ngữ liệu các câu song ngữ, hoặc có thể dựa trên một ngôn ngữ giàu tài nguyên (ví dụ tiếng Anh), từ đó thông qua các mô hình dịch cụm từ để thu được cụm từ ở ngôn ngữ đích (ví dụ tiếng Việt). Ta xem xét các nghiên cứu với hướng tiếp cận dựa trên ngôn ngữ [10],[11], [12], [16], [17]. Các nghiên cứu này chủ yếu dựa trên các yếu tố ngôn ngữ như các luật ánh xạ cấu trúc, các mối quan hệ phụ thuộc giữa các cụm từ, … để thu được tri thức song ngữ. Trong [17], các tác giả mô tả hệ thống và phương pháp tìm cấu trúc tương ứng từ cặp cấu trúc phụ thuộc của cặp câu nguồn và câu đích. Hệ thống này đầu tiên là tìm từ tương ứng, sau đó mới tìm cụm từ tương ứng trên cơ sở các từ tương ứng. Đầu vào của phương pháp là cặp câu đã được phân tích. Phương pháp này gồm hai bước chính như sau: B1 : Tìm các cặp từ tương ứng, nghĩa là sự tương ứng giữa các nút trên cây phân tích cú pháp nguồn và đích. B2 : Tìm các cặp cụm từ tương ứng dựa trên các cặp từ tương ứng đã tìm được ở bước B1, nghĩa là tìm một tập các cặp cụm từ tương ứng sao cho chúng bao phủ hết các thành phần của cây phân tích cú pháp. Ở bước B1, việc tìm các từ tương ứng dựa trên cơ sở dịch từ điển và giải quyết nhập nhằng bằng cách thiết lập từ dự tuyển tương ứng và chọn từ tương ứng thích hợp bằng cách tính khoảng cách ngữ nghĩa từ các cặp từ tương ứng dự tuyển đến một cặp từ tương ứng đã được giải quyết nhập nhằng. Tuy nhiên yếu điểm của phương pháp là ngưỡng độ đo sẽ không chuNn, khi áp dụng cho các cặp ngôn ngữ khác nhau (xa nhau về ngữ hệ). 6 Trong giải thuật tìm cụm từ tương ứng, các tác giả đưa ra các khái niệm về cây giới hạn, cụm đóng và cụm mở, với các điểm neo là các từ tương ứng; cụm đóng là cụm mà các nút lá của cụm nguồn đều có điểm neo trong cụm đích; cụm mở là cụm còn ít nhất một nút lá không có điểm neo trên cụm đích. Ý tưởng của giải thuật như sau : 1) Đầu tiên, tìm các cặp cụm từ tương ứng sao cho không có nút nào khác ngoài nút đầu và nút cuối là điểm neo. 2) Kết hợp các cặp cụm mở tương ứng có chung nút mở để tạo thành cụm đóng. 3) Kết hợp các cặp cụm tương ứng có chung nút mà không phải điểm neo. 4) Tìm các đường đi mở. Nếu nút gốc của đường đi là điểm neo thì trộn đường đi vào trong cặp cụm tương ứng chứa nút gốc đó. Ngược lại, tạo một cặp cụm tương ứng mới bằng cách kết hợp các đường đi có nút gốc đó. Tuy nhiên cụm từ của họ không phải là cụm đúng như nghĩa của ngôn ngữ học, và dữ liệu kiểm tra tương đối nhỏ để đánh giá (130 cặp câu). Trong một nghiên cứu khác của các tác giả Hwang Y. S., Paik K. H. và, Saraki Y. [10], một phương pháp mới được đề xuất để thu được tri thức song ngữ, bằng cách khai thác mối quan hệ phụ thuộc giữa cụm từ trong câu. Sau quá trình đối sánh, có thể thu được các mối quan hệ phụ thuộc giữa các cụm từ trong câu đích dựa vào mối quan hệ trong câu nguồn, nghĩa là câu đích sẽ đồng nhất cú pháp với câu nguồn mà không cần dùng đến công cụ phân tích cú pháp cho câu đích. Các tác giả đã tiến hành nghiên cứu trên cặp câu Nhật-Hàn. Đầu vào của hệ thống là một cặp câu gồm một câu đã được phân tích cú pháp có những thông tin phụ thuộc đi kèm và một câu đã được gán nhãn từ loại. Quá trình đối sánh sẽ được thực hiện ở cả mức cụm từ và từ, và gồm có ba bước chính như sau: 1) Đối sánh từ dựa trên từ điển song ngữ. Ở bước này, hệ thống sẽ cố gắng dịch các từ dựa trên từ điển. Các biến thể khác nhau, các hình thái khác nhau của từ, các danh từ riêng, … cũng được xem xét. Để giải quyết nhập nhằng, các tác giả đã sử dụng mộ số ràng buộc ngôn ngữ như : vị trí của 7 một từ tương ứng sẽ chỉ nằm trong một kích thước cửa sổ cho trước vì trật tự từ trong hai ngôn ngữ là như nhau; một từ loại sau khi đối sánh sẽ vẫn giữ nguyên chức năng của nó. 2) Đối sánh cụm từ bằng phương pháp thống kê với các ràng buộc là kết quả đối sánh từ ở bước 1) và dưạ trên đường biên của cụm từ trong ngôn ngữ nguồn. Ở bước này, các tác giả đã sử dụng các luật đối sánh dựa trên cấu trúc cụm danh từ nguồn, sự tương tự về cấu trúc giữa hai ngôn ngữ cũng như các đối sánh tương ứng có được ở bước 1). Tuy nhiên, các luật đơn giản chỉ giải quyết được những trường hợp hai câu nguồn và đích có cấu trúc tương tự nhau. Để giải quyết vấn đề trên, các tác giả đã sử dụng mô hình thống kê cho việc đối sánh cụm từ. 3) Đối sánh từ bằng phương pháp thống kê. Sau khi các cụm từ tương ứng đã được đối sánh, các từ trong các cụm từ đó sẽ được tiếp tục đối sánh để cho kết quả cuối cùng. Với việc rút trích tri thức song ngữ, đầu tiên họ thu về các kết quả phân tích cú pháp song ngữ bằng cách chia sẻ những mối quan hệ phụ thuộc giữa từng cặp câu được đối sánh mức từ và mức cụm từ. Kế đó họ duyệt đệ quy các kết quả phân tích cú pháp đó để tiếp nhận những tri thức song ngữ khác nhau và áp dụng phương pháp lọc qua từng bước để thu được những thông tin có giá trị. Khác với các phương pháp thông thường, đối sánh dựa trên cây phân cấp cú pháp, các tác giả trong [16] đưa ra phương pháp gọi là phương pháp phân nhóm từ song ngữ, dựa trên hướng tiếp cận đối sánh các nhóm từ của ngôn ngữ nguồn và ngôn ngữ đích. Mô hình của các tác giả gồm có ba thành phần : hai mô hình phân nhóm từ của hai ngôn ngữ nguồn và đích và sự ràng buộc của nhóm từ tương ứng trong hai ngôn ngữ. Sự ràng buộc yêu cầu nhóm từ trong một ngôn ngữ chỉ tương ứng nhiều nhất với một nhóm từ của một ngôn ngữ khác. Để thỏa mãn ràng buộc này trong cài đặt, các nhóm từ có lúc bị chia thành các đơn vị nhỏ hơn. Ví dụ cụm từ “the first man” có thể bị chia làm hai cụm là “the first” và “man”. Cụ thể, mô hình phân nhóm từ bao gồm các bước chính như sau : 8 1) Đối sánh từ giữa hai câu trong ngôn ngữ nguồn và ngôn ngữ đích 2) Phân nhóm từ trong câu ngôn ngữ nguồn 3) Phân nhóm từ trong câu ngôn ngữ đích Trong đó, bước 2) và 3) phải tuân theo nguyên tắc ràng buộc giữa các nhóm từ song ngữ. Ở giai đoạn phân nhóm từ, họ sử dụng mô hình “inter-chunk” và “intrachunk”, để xác định nhóm từ của cả hai ngôn ngữ Anh-Trung. Phương pháp đánh giá nhóm từ trên các chiều dài khác nhau, từ 1 đến 7 và kết quả tốt nhất với chiều dài cụm từ là 4. Tuy nhiên bất lợi của phương pháp là các nhóm từ này không phải là nhóm từ do các nhà ngôn ngữ học định nghĩa và khi chiều dài câu cũng như trật tự từ trong câu không đồng nhất thì độ chính xác sẽ bị giảm. Trong [11], các tác giả đưa ra hai hướng tiếp cận cho vấn đề rút trích tự động cụm danh từ song ngữ Anh-Việt từ kho ngữ liệu song ngữ. Cách tiếp cận thứ nhất tập trung vào việc giải quyết vấn đề đối sánh rỗng và vấn đề đối sánh chồng chéo, bằng cách biến đổi cấu trúc cú pháp của câu trong ngôn ngữ nguồn sang dạng cấu trúc cú pháp tương ứng của câu trong ngôn ngữ đích, công việc này được tiến hành trong giai đoạn tiền xử lý. Cách tiếp cận thứ hai cung cấp một mô hình dịch máy dựa trên phương pháp thống kê. Ý tưởng của cách tiếp cận thứ hai là đối với các cụm danh từ trong câu chỉ để lại những từ tiêu biểu cho cụm danh từ, và loại bỏ những từ không tiêu biểu. Và mỗi cụm danh từ cơ sở lúc này sẽ được hợp nhất lại như một từ đại diện (representative word). Kế đó dùng công cụ GIZA++ để tiến hành việc đối sánh từ trên các cặp câu mà trong đó các cụm danh từ đã được chuyển thành các từ đại diện. Cách tiếp cận này thu được độ chính xác 88.2% và độ hồi quy 82.3% khi tiến hành trên bộ ngữ liệu vàng (golden standard data). 9 Chương 3 : Cơ sở lý thuyết về động từ tiếng Anh, tiếng Việt. Động từ là từ loại được dùng để chỉ các dạng của vận động như: - Chỉ hành động: drink (uống), listen (nghe), play (chơi), eat (ăn), throw (ném)… - Chỉ tiến trình: change (thay đổi), grow (phát triển), widen (mở rộng), deteriorate (tồi tệ đi),… - Chỉ cảm giác: ache (đau), feel (cảm thấy), hurt (đau)… - Chỉ sự kiện quá độ: arrive (đến), die (chết), fall(ngã), land (hạ cánh), leave (dời đi),… - Chỉ trạng thái: believe (tin tưởng), intend (dự định), know (biết), remember (nhớ), think (nghĩ), understand (hiểu), apply to (áp dụng cho), belong to (thuộc về), require (yêu cầu),… Cụm động từ là một tổ hợp từ tự do có quan hệ chính phụ giữa thành tố chính với thành tố phụ, có động từ làm thành tố chính (trung tâm), có các đặc điểm sau: - Cụm động từ cấu trúc theo nguyên tắc bao gồm một thành tố chính (trung tâm) do động từ đảm nhiệm và các thành tố phụ đứng trước hoặc đứng sau trung tâm. - Quan hệ giữa trung tâm và các thành tố phụ là quan hệ chính phụ trên nguyên tắc trung tâm không thể bị lược bỏ [4], [6]. 10 3.1 Trợ động từ và động từ chính trong cấu trúc cụm động từ tiếng Anh 3.1.1 Cấu trúc chung và các biến thể của cụm động từ tiếng Anh Các thành tố phụ ở phần đầu cụm động từ tiếng Anh bao giờ cũng là các trợ động từ (auxiliary verb) mà trợ động từ tình thái (modal verb) nếu có bao giờ cũng đứng ở vị trí đầu tiên. Các thành tố phía sau có thể là danh từ, tính từ, động từ không chia, số từ, trạng từ, cụm giới từ hoặc mệnh đề. • Ở dạng đầy đủ nhất, cụm động từ bao gồm 3 phần: Các thành tố phụ phía trước + trung tâm + các thành tố phụ phía sau của cụm động từ, được mô tả ở sơ đồ dưới đây: Cụm động từ Thành tố phụ phía trước Trung tâm Thành tố phụ phía sau (You) can do anything. (You) must have had enough of them… • Ở dạng không đầy đủ, cụm động từ tiếng Anh cũng có thể xuất hiện dưới dạng một thành phần (phần trung tâm) hoặc hai thành phần: - Dạng đơn giản nhất: chỉ có phần trung tâm Trung tâm (The sun) - rises. Thành tố phụ phía trước + trung tâm 11 Thành tố phụ phía trước (He) is Trung tâm punished. - Trung tâm + thành tố phụ phía sau Trung tâm (She) laughs Thành tố phụ phía sau at me. 3.1.2 Các thành tố phụ phía trước 1/ Trợ động từ và trật tự Trợ động từ (auxiliary verb) trong tiếng Anh gồm có ba trợ động từ chính “be, have, do”, mười trợ động từ tình thái (modal verb) “can, could, may, might, must, ought to, shall, should, will, would” và các trợ động từ bán khiếm khuyết (semimodal verb) “dare, need, used to”. Ngoài việc dùng để thành lập các thì (tense), trợ động từ khác với động từ chính (động từ mang ý nghĩa từ vựng _ lexical verb) ở chỗ chúng có thể xuất hiện với 4 cấu trúc ngữ pháp sau: phủ định, nghi vấn, mã (code) và khẳng định nhấn mạnh. (i) Phủ định: chỉ có trợ động từ mới có dạng phủ định, tức là đứng trước thành tố phủ định “not” theo trật tự: Trợ động từ (Aux) + not + động từ chính (V) Ví dụ: She is not studying. Hầu hết các trợ động từ trong tiếng Anh đều có dạng phủ định rút gọn và trong trường hợp đó trợ động từ + từ phủ định “not” được xem như một từ. Ví dụ: She isn’t (ii) studying. Nghi vấn: chỉ có trợ động từ mới có thể xuất hiện trước chủ ngữ (S) để tạo thành câu nghi vấn:

- Xem thêm -

Tài liệu Xây dựng mô hình ánh xạ cấu trúc cụm động từ tiếng anh sang tiếng việt tương ứng

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất