ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
----------------
CỘNG HOÀ XÃ HỘI CHỦ NGHIÃ VIỆT NAM
Độc Lập - Tự Do - Hạnh Phúc
---oOo---
Tp. HCM, ngày 30 tháng 11 năm 2008
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên : Huỳnh Thị Ngọc Thuý
Giới tính : Nam/ Nữ
Ngày, tháng, năm sinh : 20/07/1982
Nơi sinh : Trà Vinh
Chuyên ngành : Khoa học Máy tính
Khoá : 2006
1- TÊN ĐỀ TÀI :
Xây dựng mô hình ánh xạ cấu trúc cụm động từ tiếng Anh sang tiếng
Việt tương ứng.
2- NHIỆM VỤ LUẬN VĂN :
-
Nghiên cứu văn phạm tiếng Anh trong phạm vi động từ và trợ động từ.
Nghiên cứu văn phạm tiếng Việt trong phạm vi động từ và các thành tố
phụ phía trước của động từ.
Nghiên cứu các phương pháp ánh xạ cấu trúc cú pháp động từ tiếng Anh
sang tiếng Việt, chú ý những nét tương đồng và khác biệt giữa hai cấu trúc.
Xây dựng tập luật ánh xạ từ cấu trúc của động từ tiếng Anh sang tiếng
Việt.
-
Viết chương trình để dịch động từ tiếng Anh sang tiếng Việt.
3- NGÀY GIAO NHIỆM VỤ : 15/06/2008
4- NGÀY HOÀN THÀNH NHIỆM VỤ : 30/11/2008
5- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN : PGS.TS Phan Thị Tươi
Nội dung và đề cương Luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành thông
qua.
CÁN BỘ HƯỚNG DẪN
CHỦ NHIỆM BỘ MÔN
(Họ tên và chữ ký)
QUẢN LÝ CHUYÊN NGÀNH
(Họ tên và chữ ký)
PGS.TS Phan Thị Tươi
CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
Cán bộ hướng dẫn khoa học : PGS.TS. Phan Thị Tươi
Cán bộ chấm nhận xét 1 : TS. Nguyễn Xuân Dũng
Cán bộ chấm nhận xét 2 : TS. Quản Thành Thơ
Luận văn thạc sĩ được bảo vệ tại
HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ
TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày 26 tháng 02 năm 2009
i
Lời cảm ơn
Tôi xin chân thành cảm ơn PGS.TS. Phan Thị Tươi, cô đã tận tình hướng dẫn,
chỉ bảo tôi trong suốt quá trình hoàn thành luận văn này.
Xin chân thành cảm ơn sự tận tình dạy dỗ của quý thầy cô trường Đại học Bách
Khoa thành phố Hồ Chí Minh, nhất là quý thầy cô trong khoa Khoa học và kỹ thuật
máy tính.
Xin cảm ơn các bạn cùng lớp, gia đình, những người đã giúp đỡ, động viên tôi
rất nhiều trong quá trình hoàn thành luận văn này.
ii
Tóm tắt
Dịch máy dựa trên kho ngữ liệu (Corpus-Based Machine Translation_CBMT)
là mô hình dịch máy chiếm ưu thế trong thập kỉ vừa qua. Trong các hệ thống
CBMT có sự tồn tại của kho ngữ liệu song ngữ song song (bilingual parallel corpus)
gồm các chuỗi văn bản ở ngôn ngữ nguồn (source language) cùng với các chuỗi văn
bản tương ứng ở ngôn ngữ đích (target language). Một trong hai hướng chính của
CBMT là dịch máy dựa trên ví dụ (Example-Based Machine Translation_ EBMT).
Hệ thống EBMT dùng kỹ thuật so trùng các chuỗi trong văn bản đầu vào với các
chuỗi ngôn ngữ nguồn trong kho ngữ liệu, rút trích các chuỗi ngôn ngữ đích tương
ứng và kết hợp các chuỗi ngôn ngữ đích này lại để cho ra kết quả là văn bản đầu ra.
Đơn vị cơ bản của các đoạn văn bản trong kho ngữ liệu là chuỗi từ (cụm từ –
phrase hoặc đoạn – fragment). Mức cụm từ được chọn để lưu trữ khi xây dựng kho
ngữ liệu thay vì mức câu hay mức từ là do độ chính xác khi dịch ở mức cụm từ cao
hơn mức từ và khả năng lưu trữ cũng như sưu tập ở mức cụm từ khả thi hơn mức
câu. Trong luận văn này, chúng tôi xây dựng tập luật ánh xạ cấu trúc từ cụm động
từ tiếng Anh sang tiếng Việt tương ứng, tập luật này là một cơ sở để xây dựng kho
ngữ liệu cụm động từ song ngữ Anh-Việt. Các luật ánh xạ được chúng tôi rút ra từ
quá trình khảo sát cấu trúc cụm động từ tiếng Anh, tiếng Việt, các qui luật văn
phạm của động từ tiếng Anh và dùng phương pháp chiếu thông qua kết quả đối sánh
từ.
iii
Abstract
Corpus-Base Machine Translation (CBMT) has been the dominant model of
machine translation in the last decade. In CBMT, there is existence of bilingual
parallel corpus comprises of texts in source language together with correlative texts
in target language. Example-Based Machine Translation (EBMT) is one of the two
main trends of CBMT. The basic techniques for EBMT are the matching of the
input strings again source strings in the corpus, the extraction of corresponding
target language strings and the recombination the strings as output result.
The basic unit in the corpus is sequence of words (phrase or fragment). To
constructing the corpus, examples at phrase-level are chosen for storage instead of
word-level or sentence-level. It can explain that the translating at phrase-level is
more exact than at word-level and the capacity as well as the gathering of examples
in phrase-level is more possible than in sentence level. In this thesis, we construct a
mapping rule set of verb phrase structure from English to Vietnamese, this set is a
foundation for constructing English-Vietnamese verb-phrase bilingual parallel
corpus. The rules were shaped as the results of the studying processes in English
verb phrase structure, Vietnamese verb phrase structure, English grammar and
applying “projection across word-alignment” method.
iv
MỤC LỤC
Lời cảm ơn ......................................................................................................i
Tóm tắt ...........................................................................................................ii
Abstract .........................................................................................................iii
Mục lục ..........................................................................................................iv
Danh mục hình .............................................................................................vi
Danh mục bảng biểu ...................................................................................vii
Chương 1. Tổng quan ................................................................................... 1
Chương 2. Các Nghiên Cứu Liên Quan...................................................... 5
Chương 3. Cơ Sở Lý Thuyết ........................................................................ 9
3.1 Trợ động từ và động từ chính trong cấu trúc cụm động từ tiếng Anh . 10
3.1.1 Cấu trúc chung và các biến thể của cụm động từ tiếng Anh........................ 10
3.1.2 Các thành tố phụ phía trước .......................................................................... 11
3.1.3 Trung tâm của cụm động từ tiếng Anh.......................................................... 14
3.2 Phần phụ trước và động từ chính của cụm động từ tiếng Việt .............. 15
3.2.1 Nhận xét mở đầu về cụm động từ tiếng Việt ................................................. 15
3.2.2 Các thành tố phụ phía trước .......................................................................... 16
3.2.3 Trung tâm của cụm động từ tiếng Việt .......................................................... 20
3.2.4 Các phạm trù ngữ pháp và trật tự.................................................................. 21
Chương 4. Tập luật ánh xạ Anh-Việt........................................................ 23
4.1 Mô hình chuyển đổi cấu trúc “trợ động từ và động từ chính” tiếng Anh
sang cấu trúc tiếng Việt tương ứng................................................................. 23
4.2 Tập luật ánh xạ Anh-Việt .......................................................................... 26
v
4.2.1 Các khái niệm ................................................................................................. 26
4.2.2 Diễn tả sự cho phép (permission): can, could, may ...................................... 28
4.2.3 Diễn tả sự suy đoán về khả năng xảy ra (possibility): can, could, may, might
................................................................................................................................. .32
4.2.4 Diễn tả khả năng thực hiện (ability): can và be able .................................... 35
4.2.5 Diễn tả bổn phận (obligation): ought to, should, must, need ....................... 38
4.2.6 Diễn tả sự suy diễn (deduction) và giả định (assumption): must, have, will và
should ....................................................................................................................... 41
4.2.7 Dare, need và used to ...................................................................................... 45
4.2.8 “Be, have, do” với vai trò là trợ động từ ........................................................ 47
4.2.9 Diễn đạt ý tương lai ........................................................................................ 55
Chương 5. Hiện thực và đánh giá .............................................................. 63
5.1 Hiện thực ..................................................................................................... 63
5.1.1 Tiền xử lý......................................................................................................... 64
5.1.2 Ánh xạ cụm động từ tiếng Anh sang tiếng Việt ............................................ 65
5.1.3 Giải quyết nhập nhằng ................................................................................... 66
5.2 Đánh giá độ chính xác của chương trình ................................................. 68
Chương 6. Kết luận ..................................................................................... 72
6.1 Đóng góp của luận văn ............................................................................... 72
6.2 Hướng phát triển ........................................................................................ 73
Tài Liệu Tham Khảo................................................................................... 74
Phụ lục A. GATE_công cụ rút trích cụm từ và gán nhãn từ loại cho câu
tiếng Anh ..................................................................................................... 77
Phụ lục B. Bảng thống kê tập luật ánh xạ theo từng ý nghĩa
Phụ lục C. Bảng thống kê tập luật ánh xạ theo từng trợ động từ
vi
Danh mục hình
Hình 4.1 Cây cú pháp của câu “The boy will be playing the football”…………..24
Hình 4.2 Ánh xạ cấu trúc cú pháp của câu ở hình 3.1 sang cấu trúc cú pháp tiếng
Việt tương ứng …………………………………………………………………….24
Hình 4.3 Minh hoạ phép chiếu đối sánh từ ………………………………………25
Hình 5.1 Mô hình ánh xạ cấu trúc cụm động từ tiếng Anh sang tiếng Việt……...64
Hình 5.2 Mô hình biểu diễn ý nghĩa của CAN dưới dạng tập mờ……………......67
vii
Danh mục bảng biểu
Bảng 5.1 Kết quả đánh giá trên tập câu song ngữ huấn luyện rút ra từ tài liệu “Ngữ
pháp tiếng Anh thực hành- A Practical English Grammar”………………………..69
Bảng 5.2
Kết quả đánh giá trên tập câu rút ra từ tài liệu“The semantics of the
modal auxiliaries” ..………………………………………………………………..69
Bảng 5.3 Ví dụ cặp câu song ngữ Anh-Việt và kết quả đầu ra tương
ứng khi chạy
chương trình ……………………………………………………………………….69
Bảng 5.4 Kết quả đánh giá trên tập câu song ngữ huấn luyện ..………………….71
Bảng 5.5 Kết quả đánh giá trên tập câu trong tài liệu “The semantics of the modal
auxiliaries” ……………...........................................................................................71
1
Chương 1 :
Tổng quan
Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) là lĩnh vực
nghiên cứu rất quan trọng, động cơ thúc đNy nhiều nhà khoa học máy tính quan tâm
đến lĩnh vực này chính là khả năng xử lý ngôn ngữ tự nhiên sẽ cách mạng hoá cách
thức máy tính được sử dụng. Bởi vì phần lớn tri thức của con người được ghi lại
dưới dạng ngôn ngữ, máy tính nếu có khả năng hiểu được ngôn ngữ tự nhiên sẽ tiếp
cận được toàn bộ nguồn thông tin này. Thêm vào đó, máy tính dùng những giao
diện diễn đạt bằng ngôn ngữ tự nhiên sẽ cho phép mọi người, kể cả những người
không chuyên, tiếp cận dễ dàng các hệ thống phức tạp.
Dịch máy (machine translation - MT) là một trong nhiều ứng dụng của lĩnh vực
xử lý ngôn ngữ tự nhiên, mục đích của dịch máy là làm cho máy tính có thể chuyển
văn bản hay giọng nói từ một ngôn ngữ tự nhiên này sang một ngôn ngữ tự nhiên
khác mà vẫn giữ nguyên ngữ nghĩa và sự trong sáng của nó. Trong thập kỉ vừa qua,
các mô hình dịch máy dựa trên kho ngữ liệu (copus-based hoặc data-driven) có ưu
thế vượt trội, điều này tương phản sâu sắc với các mô hình ở những năm 1980 và
các thập kỉ trước, đó là mô hình dịch máy dựa trên luật (rule-based) [9].
Trong các hệ thống dịch máy dựa trên kho ngữ liệu (Corpus-Based Machine
Translation – CBMT) có sự tồn tại của kho ngữ liệu song ngữ song song (bilingual
parallel corpus) gồm các đoạn (segments) văn bản ở ngôn ngữ nguồn cùng với các
đoạn văn bản tương ứng ở ngôn ngữ đích, kích thước của các đoạn khác nhau tuỳ
từng hệ thống, nhưng tiêu biểu là ở mức câu (sentence). Kho ngữ liệu này được sử
dụng cho mục đích tra cứu, tham khảo để thu được các tri thức cần thiết cho mỗi lần
dịch mới. Trong mô hình CBMT lại phân ra làm hai hướng phân biệt: dịch máy
thống kê (Statistical Machine Translation – SMT) và dịch máy dựa trên ví dụ
2
(Example-Based Machine Translation – EBMT). SMT chủ yếu dựa trên tần số xuất
hiện của từ (word frequency) và sự kết hợp các từ (word combinations) còn EBMT
dựa trên sự rút trích và kết hợp các cụm từ (hoặc các đoạn ngắn hơn mức cụm từ)
[9].
Một hệ thống dịch máy được gọi là một hệ thống EBMT nếu nó dùng những
đoạn (chuỗi từ chứ không phải từng từ riêng rẽ) văn bản ngôn ngữ nguồn được rút
ra từ kho ngữ liệu chứa các ví dụ mẫu để tạo nên các văn bản ngôn ngữ đích với
cùng một nghĩa. Đơn vị cơ bản của EBMT là chuỗi từ (cụm từ – phrase hoặc đoạn –
fragment); và các kỹ thuật cơ bản là tìm kiếm các chuỗi ngôn ngữ nguồn trong kho
ngữ liệu phù hợp với các chuỗi trong văn bản đầu vào, rút trích các chuỗi ngôn ngữ
đích tương ứng và kết hợp lại các chuỗi ngôn ngữ đích này cho ra kết quả là câu ở
ngôn ngữ đích có thể chấp nhận được.
Vì EBMT là mô hình dịch máy dựa trên kho ngữ liệu, nên điều cần thiết đầu
tiên là việc xây dựng kho ngữ liệu song ngữ song song. Kho ngữ liệu có thể được
xây dựng dựa vào các nguồn dữ liệu sẵn có như các trang World Wide Web (được
trình bày bằng hai hoặc nhiều hơn hai ngôn ngữ). Ngoài ra kho ngữ liệu của hệ
thống EBMT có thể do chính đội ngũ phát triển xây dựng, hoặc được trích lọc kỹ
càng từ nguồn dữ liệu trong thực tế. Cách làm thứ nhất có khuyết điểm là nếu lấy
trực tiếp từ nguồn dữ liệu to lớn bên ngoài thì sẽ bao gồm những ví dụ (examples)
trùng lắp lên nhau, điều này có thể dẫn đến việc cùng một ví dụ ở ngôn ngữ nguồn
lại tương ứng với hơn một ví dụ ở ngôn ngữ đích [14]. Đối với cách làm thứ hai,
người ta đã sưu tập kho ngữ liệu song ngữ ở mức cụm từ thay vì mức câu hay mức
từ. Người ta chọn mức cụm từ là do độ chính xác khi dịch dựa trên mức cụm từ cao
hơn mức từ và khả năng lưu trữ cũng như sưu tập ở mức cụm từ khả thi hơn ở mức
câu (vì chúng ta không thể lưu trữ hết tất cả các câu song ngữ trong quá khứ, hiện
tại và tương lai) [5].
Để xây dựng kho ngữ liệu dựa trên cụm từ thì vấn đề cần quan tâm là việc nhận
dạng và rút trích cụm từ (cụm danh từ, cụm động từ,…) trong văn bản song ngữ
song song. Vấn đề này đã được nhiều tác giả trên thế giới quan tâm nghiên cứu trên
3
nhiều ngôn ngữ khác nhau, ví dụ đối với tiếng Anh đã có công cụ GATE để nhận
diện và rút trích cụm từ. Còn trong tiếng Việt, các nghiên cứu trong lĩnh vực này
vẫn còn khá ít ỏi, chủ yếu tập trung ở các trường Đại học Khoa học tự nhiên , Đại
học Bách Khoa; ví dụ như công trình của tác giả Nguyễn Chí Hiếu [5] về nhận biết
và rút trích cụm danh từ tiếng Việt. Như vậy cụm từ tiếng Việt vẫn còn nhiều vấn
đề mở cần được nghiên cứu, đặc biệt là cụm động từ vẫn chưa được nhiều người
quan tâm. Thế nhưng một cản trở cơ bản của tiếng Việt (cũng như hơn 200 ngôn
ngữ khác trên thế giới) khi muốn phát triển các ứng dụng về xử lý ngôn ngữ tự
nhiên đó là vấn đề thiếu vắng nguồn ngữ liệu có chú thích. Để vượt qua cản trở đó,
người ta có thể dựa vào kho ngữ liệu sẵn có và các công cụ xử lý ngôn ngữ của một
ngôn ngữ giàu tài nguyên như tiếng Anh. Ý tưởng này xuất phát từ công trình
nghiên cứu của Yarowsky[18], trong đó tác giả đề xuất cách tiếp cận dùng phương
pháp chiếu (projection) dựa trên kết quả đối sánh từ (word-alignment) để xác định
cụm danh từ cơ sở, áp dụng cho cặp Anh-Pháp.
Trong đề tài này, chúng tôi sẽ dựa trên những nét cơ bản về đối sánh từ của
Yarowsky, tức là việc “xây dựng tập luật ánh xạ cấu trúc từ cụm động từ tiếng Anh
sang tiếng Việt tương ứng” sẽ dựa trên tiếp cận chiếu qua kết quả đối sánh từ AnhViệt. Kết quả là từ cụm động từ tiếng Anh (ngôn ngữ nguồn) thông qua luật ánh xạ
có thể đưa ra được cấu trúc cụm động từ tiếng Việt (ngôn ngữ đích) tương ứng. Dựa
vào tập luật ánh xạ này, từ một câu đơn tiếng Anh có chứa trợ động từ, ta có thể suy
ra được cụm động từ tiếng Việt có ý nghĩa tương đương với cụm động từ trong câu
tiếng Anh, góp phần trong việc tạo ra kho ngữ liệu cụm động từ song ngữ Anh-Việt.
Tuy nhiên, trong cụm động từ có thể chứa cả cụm danh từ, cụm giới từ, trạng
từ, … , nếu xét cả cụm động từ thì khối lượng công việc rất lớn. Cho nên trong luận
văn này chúng tôi chỉ giới hạn ở mức “xây dựng tập luật ánh xạ từ cấu trúc trợ động
từ và động từ chính tiếng Anh sang cấu trúc tiếng Việt tương ứng” hơn nữa, chúng
tôi cũng không xem xét dạng câu hỏi (interrogative) và dạng bị động (passive).
Trong phần này, chúng tôi tạm gọi cấu trúc trợ động từ và động từ chính tiếng
Anh và cấu trúc phụ từ và động từ chính tiếng Việt lần lượt là động từ tiếng Anh và
4
động từ tiếng Việt. Qua quá trình nghiên cứu, phân tích và tổng hợp chúng tôi đã
đưa ra được những mối tương quan giữa động từ tiếng Anh và động từ tiếng Việt từ
đó tạo ra tập luật ánh xạ song ngữ từ động từ tiếng Anh sang động từ tiếng Việt trên
cơ sở phương pháp chiếu đối sánh từ.
Trên nền tảng của tập luật ánh xạ, chúng tôi xây dựng một chương trình ánh xạ
cấu trúc từ động từ tiếng Anh sang tiếng Việt với đầu vào là câu đơn tiếng Anh và
đầu ra sẽ là động từ tiếng Việt có ý nghĩa tương đương với động từ tiếng Anh trong
câu đầu vào.
Tập luật ánh xạ này sẽ là cơ sở để xây dựng kho ngữ liệu song ngữ của cặp cụm
động từ Anh-Việt trợ giúp cho những nghiên cứu liên quan trong lĩnh vực xử lý
ngôn ngữ tự nhiên.
5
Chương 2 :
Các nghiên cứu liên quan
Để xây dựng kho ngữ liệu song ngữ cho cụm từ, có thể có nhiều cách khác
nhau như dựa trên tập ngữ liệu các câu song ngữ, hoặc có thể dựa trên một ngôn
ngữ giàu tài nguyên (ví dụ tiếng Anh), từ đó thông qua các mô hình dịch cụm từ để
thu được cụm từ ở ngôn ngữ đích (ví dụ tiếng Việt). Ta xem xét các nghiên cứu với
hướng tiếp cận dựa trên ngôn ngữ [10],[11], [12], [16], [17]. Các nghiên cứu này
chủ yếu dựa trên các yếu tố ngôn ngữ như các luật ánh xạ cấu trúc, các mối quan hệ
phụ thuộc giữa các cụm từ, … để thu được tri thức song ngữ.
Trong [17], các tác giả mô tả hệ thống và phương pháp tìm cấu trúc tương ứng
từ cặp cấu trúc phụ thuộc của cặp câu nguồn và câu đích. Hệ thống này đầu tiên là
tìm từ tương ứng, sau đó mới tìm cụm từ tương ứng trên cơ sở các từ tương ứng.
Đầu vào của phương pháp là cặp câu đã được phân tích. Phương pháp này gồm hai
bước chính như sau:
B1 : Tìm các cặp từ tương ứng, nghĩa là sự tương ứng giữa các nút trên cây
phân tích cú pháp nguồn và đích.
B2 : Tìm các cặp cụm từ tương ứng dựa trên các cặp từ tương ứng đã tìm
được ở bước B1, nghĩa là tìm một tập các cặp cụm từ tương ứng sao cho
chúng bao phủ hết các thành phần của cây phân tích cú pháp.
Ở bước B1, việc tìm các từ tương ứng dựa trên cơ sở dịch từ điển và giải quyết
nhập nhằng bằng cách thiết lập từ dự tuyển tương ứng và chọn từ tương ứng thích
hợp bằng cách tính khoảng cách ngữ nghĩa từ các cặp từ tương ứng dự tuyển đến
một cặp từ tương ứng đã được giải quyết nhập nhằng. Tuy nhiên yếu điểm của
phương pháp là ngưỡng độ đo sẽ không chuNn, khi áp dụng cho các cặp ngôn ngữ
khác nhau (xa nhau về ngữ hệ).
6
Trong giải thuật tìm cụm từ tương ứng, các tác giả đưa ra các khái niệm về cây
giới hạn, cụm đóng và cụm mở, với các điểm neo là các từ tương ứng; cụm đóng là
cụm mà các nút lá của cụm nguồn đều có điểm neo trong cụm đích; cụm mở là cụm
còn ít nhất một nút lá không có điểm neo trên cụm đích. Ý tưởng của giải thuật như
sau :
1) Đầu tiên, tìm các cặp cụm từ tương ứng sao cho không có nút nào khác
ngoài nút đầu và nút cuối là điểm neo.
2) Kết hợp các cặp cụm mở tương ứng có chung nút mở để tạo thành cụm
đóng.
3) Kết hợp các cặp cụm tương ứng có chung nút mà không phải điểm neo.
4) Tìm các đường đi mở. Nếu nút gốc của đường đi là điểm neo thì trộn
đường đi vào trong cặp cụm tương ứng chứa nút gốc đó. Ngược lại, tạo một
cặp cụm tương ứng mới bằng cách kết hợp các đường đi có nút gốc đó.
Tuy nhiên cụm từ của họ không phải là cụm đúng như nghĩa của ngôn ngữ
học, và dữ liệu kiểm tra tương đối nhỏ để đánh giá (130 cặp câu).
Trong một nghiên cứu khác của các tác giả Hwang Y. S., Paik K. H. và,
Saraki Y. [10], một phương pháp mới được đề xuất để thu được tri thức song ngữ,
bằng cách khai thác mối quan hệ phụ thuộc giữa cụm từ trong câu. Sau quá trình đối
sánh, có thể thu được các mối quan hệ phụ thuộc giữa các cụm từ trong câu đích
dựa vào mối quan hệ trong câu nguồn, nghĩa là câu đích sẽ đồng nhất cú pháp với
câu nguồn mà không cần dùng đến công cụ phân tích cú pháp cho câu đích.
Các tác giả đã tiến hành nghiên cứu trên cặp câu Nhật-Hàn. Đầu vào của hệ
thống là một cặp câu gồm một câu đã được phân tích cú pháp có những thông tin
phụ thuộc đi kèm và một câu đã được gán nhãn từ loại. Quá trình đối sánh sẽ được
thực hiện ở cả mức cụm từ và từ, và gồm có ba bước chính như sau:
1) Đối sánh từ dựa trên từ điển song ngữ. Ở bước này, hệ thống sẽ cố gắng
dịch các từ dựa trên từ điển. Các biến thể khác nhau, các hình thái khác
nhau của từ, các danh từ riêng, … cũng được xem xét. Để giải quyết nhập
nhằng, các tác giả đã sử dụng mộ số ràng buộc ngôn ngữ như : vị trí của
7
một từ tương ứng sẽ chỉ nằm trong một kích thước cửa sổ cho trước vì
trật tự từ trong hai ngôn ngữ là như nhau; một từ loại sau khi đối sánh sẽ
vẫn giữ nguyên chức năng của nó.
2) Đối sánh cụm từ bằng phương pháp thống kê với các ràng buộc là kết quả
đối sánh từ ở bước 1) và dưạ trên đường biên của cụm từ trong ngôn ngữ
nguồn. Ở bước này, các tác giả đã sử dụng các luật đối sánh dựa trên cấu
trúc cụm danh từ nguồn, sự tương tự về cấu trúc giữa hai ngôn ngữ cũng
như các đối sánh tương ứng có được ở bước 1). Tuy nhiên, các luật đơn
giản chỉ giải quyết được những trường hợp hai câu nguồn và đích có cấu
trúc tương tự nhau. Để giải quyết vấn đề trên, các tác giả đã sử dụng mô
hình thống kê cho việc đối sánh cụm từ.
3) Đối sánh từ bằng phương pháp thống kê. Sau khi các cụm từ tương ứng
đã được đối sánh, các từ trong các cụm từ đó sẽ được tiếp tục đối sánh để
cho kết quả cuối cùng.
Với việc rút trích tri thức song ngữ, đầu tiên họ thu về các kết quả phân tích cú
pháp song ngữ bằng cách chia sẻ những mối quan hệ phụ thuộc giữa từng cặp câu
được đối sánh mức từ và mức cụm từ. Kế đó họ duyệt đệ quy các kết quả phân tích
cú pháp đó để tiếp nhận những tri thức song ngữ khác nhau và áp dụng phương
pháp lọc qua từng bước để thu được những thông tin có giá trị.
Khác với các phương pháp thông thường, đối sánh dựa trên cây phân cấp cú
pháp, các tác giả trong [16] đưa ra phương pháp gọi là phương pháp phân nhóm từ
song ngữ, dựa trên hướng tiếp cận đối sánh các nhóm từ của ngôn ngữ nguồn và
ngôn ngữ đích. Mô hình của các tác giả gồm có ba thành phần : hai mô hình phân
nhóm từ của hai ngôn ngữ nguồn và đích và sự ràng buộc của nhóm từ tương ứng
trong hai ngôn ngữ. Sự ràng buộc yêu cầu nhóm từ trong một ngôn ngữ chỉ tương
ứng nhiều nhất với một nhóm từ của một ngôn ngữ khác. Để thỏa mãn ràng buộc
này trong cài đặt, các nhóm từ có lúc bị chia thành các đơn vị nhỏ hơn. Ví dụ cụm
từ “the first man” có thể bị chia làm hai cụm là “the first” và “man”. Cụ thể, mô
hình phân nhóm từ bao gồm các bước chính như sau :
8
1) Đối sánh từ giữa hai câu trong ngôn ngữ nguồn và ngôn ngữ đích
2) Phân nhóm từ trong câu ngôn ngữ nguồn
3) Phân nhóm từ trong câu ngôn ngữ đích
Trong đó, bước 2) và 3) phải tuân theo nguyên tắc ràng buộc giữa các nhóm từ
song ngữ.
Ở giai đoạn phân nhóm từ, họ sử dụng mô hình “inter-chunk” và “intrachunk”, để xác định nhóm từ của cả hai ngôn ngữ Anh-Trung. Phương pháp đánh
giá nhóm từ trên các chiều dài khác nhau, từ 1 đến 7 và kết quả tốt nhất với chiều
dài cụm từ là 4. Tuy nhiên bất lợi của phương pháp là các nhóm từ này không phải
là nhóm từ do các nhà ngôn ngữ học định nghĩa và khi chiều dài câu cũng như trật
tự từ trong câu không đồng nhất thì độ chính xác sẽ bị giảm.
Trong [11], các tác giả đưa ra hai hướng tiếp cận cho vấn đề rút trích tự động
cụm danh từ song ngữ Anh-Việt từ kho ngữ liệu song ngữ. Cách tiếp cận thứ nhất
tập trung vào việc giải quyết vấn đề đối sánh rỗng và vấn đề đối sánh chồng chéo,
bằng cách biến đổi cấu trúc cú pháp của câu trong ngôn ngữ nguồn sang dạng cấu
trúc cú pháp tương ứng của câu trong ngôn ngữ đích, công việc này được tiến hành
trong giai đoạn tiền xử lý.
Cách tiếp cận thứ hai cung cấp một mô hình dịch máy dựa trên phương pháp
thống kê. Ý tưởng của cách tiếp cận thứ hai là đối với các cụm danh từ trong câu chỉ
để lại những từ tiêu biểu cho cụm danh từ, và loại bỏ những từ không tiêu biểu. Và
mỗi cụm danh từ cơ sở lúc này sẽ được hợp nhất lại như một từ đại diện
(representative word). Kế đó dùng công cụ GIZA++ để tiến hành việc đối sánh từ
trên các cặp câu mà trong đó các cụm danh từ đã được chuyển thành các từ đại diện.
Cách tiếp cận này thu được độ chính xác 88.2% và độ hồi quy 82.3% khi tiến hành
trên bộ ngữ liệu vàng (golden standard data).
9
Chương 3 :
Cơ sở lý thuyết về động từ tiếng Anh, tiếng
Việt.
Động từ là từ loại được dùng để chỉ các dạng của vận động như:
- Chỉ hành động: drink (uống), listen (nghe), play (chơi), eat (ăn), throw
(ném)…
- Chỉ tiến trình: change (thay đổi), grow (phát triển), widen (mở rộng),
deteriorate (tồi tệ đi),…
- Chỉ cảm giác: ache (đau), feel (cảm thấy), hurt (đau)…
- Chỉ sự kiện quá độ: arrive (đến), die (chết), fall(ngã), land (hạ cánh), leave
(dời đi),…
- Chỉ trạng thái: believe (tin tưởng), intend (dự định), know (biết), remember
(nhớ), think (nghĩ), understand (hiểu), apply to (áp dụng cho), belong to (thuộc về),
require (yêu cầu),…
Cụm động từ là một tổ hợp từ tự do có quan hệ chính phụ giữa thành tố chính
với thành tố phụ, có động từ làm thành tố chính (trung tâm), có các đặc điểm sau:
- Cụm động từ cấu trúc theo nguyên tắc bao gồm một thành tố chính (trung
tâm) do động từ đảm nhiệm và các thành tố phụ đứng trước hoặc đứng sau trung
tâm.
- Quan hệ giữa trung tâm và các thành tố phụ là quan hệ chính phụ trên nguyên
tắc trung tâm không thể bị lược bỏ [4], [6].
10
3.1
Trợ động từ và động từ chính trong cấu trúc cụm
động từ tiếng Anh
3.1.1 Cấu trúc chung và các biến thể của cụm động từ tiếng Anh
Các thành tố phụ ở phần đầu cụm động từ tiếng Anh bao giờ cũng là các trợ
động từ (auxiliary verb) mà trợ động từ tình thái (modal verb) nếu có bao giờ cũng
đứng ở vị trí đầu tiên. Các thành tố phía sau có thể là danh từ, tính từ, động từ
không chia, số từ, trạng từ, cụm giới từ hoặc mệnh đề.
•
Ở dạng đầy đủ nhất, cụm động từ bao gồm 3 phần:
Các thành tố phụ phía trước + trung tâm + các thành tố phụ phía sau của cụm
động từ, được mô tả ở sơ đồ dưới đây:
Cụm động từ
Thành tố phụ phía trước
Trung tâm
Thành tố phụ phía sau
(You)
can
do
anything.
(You)
must have
had
enough of them…
•
Ở dạng không đầy đủ, cụm động từ tiếng Anh cũng có thể xuất hiện dưới
dạng một thành phần (phần trung tâm) hoặc hai thành phần:
- Dạng đơn giản nhất: chỉ có phần trung tâm
Trung tâm
(The sun)
-
rises.
Thành tố phụ phía trước + trung tâm
11
Thành tố phụ phía trước
(He)
is
Trung tâm
punished.
- Trung tâm + thành tố phụ phía sau
Trung tâm
(She)
laughs
Thành tố phụ phía sau
at me.
3.1.2 Các thành tố phụ phía trước
1/ Trợ động từ và trật tự
Trợ động từ (auxiliary verb) trong tiếng Anh gồm có ba trợ động từ chính “be,
have, do”, mười trợ động từ tình thái (modal verb) “can, could, may, might, must,
ought to, shall, should, will, would” và các trợ động từ bán khiếm khuyết (semimodal verb) “dare, need, used to”.
Ngoài việc dùng để thành lập các thì (tense), trợ động từ khác với động từ chính
(động từ mang ý nghĩa từ vựng _ lexical verb) ở chỗ chúng có thể xuất hiện với 4
cấu trúc ngữ pháp sau: phủ định, nghi vấn, mã (code) và khẳng định nhấn mạnh.
(i)
Phủ định: chỉ có trợ động từ mới có dạng phủ định, tức là đứng trước thành
tố phủ định “not” theo trật tự:
Trợ động từ (Aux) + not + động từ chính (V)
Ví dụ:
She is
not studying.
Hầu hết các trợ động từ trong tiếng Anh đều có dạng phủ định rút gọn và trong
trường hợp đó trợ động từ + từ phủ định “not” được xem như một từ.
Ví dụ:
She isn’t
(ii)
studying.
Nghi vấn: chỉ có trợ động từ mới có thể xuất hiện trước chủ ngữ (S) để tạo
thành câu nghi vấn:
- Xem thêm -