Đăng ký Đăng nhập
Trang chủ Mô hình khai thác đặc tính ngôn ngữ đích nhằm xác định các cụm danh từ cơ sở tươ...

Tài liệu Mô hình khai thác đặc tính ngôn ngữ đích nhằm xác định các cụm danh từ cơ sở tương ứng anh việt

.PDF
251
129
89

Mô tả:

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM ---------oOo--------- Nguyễn Chí Hiếu MÔ HÌNH KHAI THÁC ĐẶC TÍNH NGÔN NGỮ ĐÍCH NHẰM XÁC ĐỊNH CÁC CỤM DANH TỪ CƠ SỞ TƯƠNG ỨNG ANH-VIỆT LUẬN ÁN TIẾN SĨ KỸ THUẬT TP. HCM - Năm 2008 ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM ---------oOo--------- Nguyễn Chí Hiếu MÔ HÌNH KHAI THÁC ĐẶC TÍNH NGÔN NGỮ ĐÍCH NHẰM XÁC ĐỊNH CÁC CỤM DANH TỪ CƠ SỞ TƯƠNG ỨNG ANH-VIỆT Chuyên ngành : Khoa học máy tính Mã số: 60.48.01.01 LUẬN ÁN TIẾN SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC 1. PGS-TS. PHAN THỊ TƯƠI 2. TS. NGUYỄN XUÂN DŨNG TP. HCM - Năm 2008 i Lời cam đoan Tôi xin cam đoan luận án này là công trình nghiên cứu khoa học của tôi. Các kết quả của luận án là trung thực và chưa từng được ai khác công bố trong bất kỳ công trình nào khác. Tp. Hồ Chí Minh, ngày 27 tháng 12 năm 2007 Người thực hiện NCS. Nguyễn Chí Hiếu ii LỜI CẢM ƠN Lời đầu tiên, tôi xin được bày tỏ lòng biết ơn sâu sắc tới PGS-TS. Phan Thị Tươi, TS. Nguyễn Xuân Dũng – Cô và Thầy đã trực tiếp hướng dẫn, động viên tôi trong suốt quá trình thực hiện luận án này. Chân thành cảm ơn quý Thầy Cô trường Đại học Bách khoa – Đại học Quốc gia TP. HCM, đặc biệt là các Thầy Cô ở bộ môn Phần mềm ứng dụng của Khoa Công nghệ Thông tin đã cung cấp cho tôi những tài liệu cần thiết và cho tôi những lời khuyên bổ ích để hoàn thành luận án này. Tôi cũng xin được bày tỏ lòng biết ơn chân thành của mình tới Hiệu trưởng, Ban giám Hiệu, và các đồng nghiệp của tôi ở Khoa Công nghệ Thông tin trường Đại học Công nghiệp TP. HCM, những người đã luôn tạo điều kiện thuận lợi, giúp đỡ tinh thần và vật chất cho tôi trong việc thực hiện luận án. Luận án của tôi cũng khó có thể hoàn thành nếu không có sự hỗ trợ từ gia đình, bạn bè, và đặc biệt là nhóm NLP – Đại học Bách khoa TP. HCM, những người đã trực tiếp đóng góp những ý kiến thiết thực cho thành công của nghiên cứu. Cuối cùng, tôi xin cảm ơn các bạn sinh viên lớp ĐHTH1- Trường Đại học Công nghiệp TP. HCM đã trực tiếp hỗ trợ tôi trong việc xây dựng kho ngữ liệu song ngữ và đánh giá kết quả thực nghiệm. Cảm ơn Trung tâm Nghiên cứu Ngôn ngữ Viện Khoa học xã hội đã giúp tôi trong việc chỉnh lý bộ dữ liệu chuẩn để hỗ trợ cho việc đánh giá kết quả của luận án. TP.HCM, ngày 27-12-2007 Người thực hiện NCS. Nguyễn Chí Hiếu iii MỤC LỤC Lời cam đoan ..........................................................................................................................i LỜI CẢM ƠN........................................................................................................................ii MỤC LỤC ............................................................................................................................iii DANH MỤC CÁC TỪ VIẾT TẮT .......................................................................................v DANH MỤC CÁC HÌNH...................................................................................................viii DANH MỤC CÁC BẢNG ....................................................................................................x Chương 1 MỞ ĐẦU ...........................................................................................................1 1.1 Động cơ nghiên cứu....................................................................................................1 1.2 Mục tiêu, hướng nghiên cứu và nhiệm vụ nghiên cứu ...............................................3 1.3 Phạm vi nghiên cứu và các bài toán chính..................................................................4 1.4 Đóng góp của luận án .................................................................................................5 1.5 Cấu trúc của luận án....................................................................................................8 Chương 2 CƠ SỞ LÝ THUYẾT ........................................................................................9 2.1 Các định nghĩa và phát biểu hình thức......................................................................10 2.2 Cụm danh từ..............................................................................................................15 2.2.1 Cấu trúc của cụm danh từ tiếng Việt ..............................................................15 2.2.2 Cấu trúc của cụm danh từ tiếng Anh ..............................................................28 2.2.3 Sự tương đồng và khác biệt giữa cụm danh từ tiếng Anh và tiếng Việt.........33 2.3 Các phương pháp đối sánh từ ...................................................................................41 2.3.1 Xác định bài toán ............................................................................................42 2.3.2 Các mô hình đối sánh......................................................................................43 2.3.3 Mô hình đối sánh thống kê .............................................................................46 2.3.4 Phương pháp từ điển .......................................................................................51 2.4 Nguồn tài nguyên dùng trong luận án.......................................................................54 2.4.1 Gate.................................................................................................................54 2.4.2 Giza++ ............................................................................................................55 2.4.3 Penn Treebank ................................................................................................56 2.4.4 Phân đoạn từ tiếng Việt ..................................................................................56 2.4.5 Tiêu chí nhận diện từ ......................................................................................57 Chương 3 CHUYỂN ĐỔI CÂY CÚ PHÁP ANH VIỆT..................................................59 3.1 Mở đầu ......................................................................................................................60 3.2 Lý do thực hiện bài toán chuyển đổi trật tự từ..........................................................71 3.3 Mô hình chuyển đổi trật tự từ ...................................................................................74 3.4 Kết quả thử nghiệm và đánh giá ...............................................................................91 3.4.1 Dữ liệu đánh giá..............................................................................................92 3.4.2 Tiêu chuẩn đánh giá........................................................................................93 iv 3.4.3 Kết quả đánh giá .............................................................................................95 Chương 4 MÔ HÌNH THỐNG KÊ KHAI THÁC ĐẶC TÍNH NGÔN NGỮ ĐÍCH.......98 4.1 Mở đầu ......................................................................................................................98 4.2 Mô hình thống kê khai thác đặc tính ngôn ngữ đích...............................................101 4.3 Đánh giá kết quả .....................................................................................................111 4.3.1 Ngữ liệu huấn luyện và đánh giá ..................................................................112 4.3.2 Kết quả thực nghiệm.....................................................................................116 Chương 5 MÔ HÌNH TỪ ĐIỂN KHAI THÁC ĐẶC TÍNH NGÔN NGỮ ĐÍCH.........121 5.1 Mở đầu ....................................................................................................................121 5.2 Mô hình đối sánh điểm neo.....................................................................................123 5.2.1 Dẫn nhập .......................................................................................................123 5.2.2 Các mô hình thực nghiệm .............................................................................127 5.2.3 Bài toán chồng chéo và xung đột..................................................................145 5.3 Kết quả thực nghiệm...............................................................................................153 Chương 6 CÁC NGHIÊN CỨU LIÊN QUAN...............................................................158 6.1 Các phương pháp phân đoạn câu ............................................................................158 6.1.1 Các phương pháp tạo văn phạm bằng tay .....................................................158 6.1.2 Các phương pháp máy học ...........................................................................159 6.2 Rút trích cụm danh từ song ngữ..............................................................................161 Chương 7 KẾT LUẬN....................................................................................................166 7.1 Các kết quả đạt được...............................................................................................166 7.2 Hướng phát triển .....................................................................................................168 7.3 Lời kết.....................................................................................................................168 DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ..................................................................171 TÀI LIỆU THAM KHẢO .................................................................................................173 PHỤ LỤC A DỮ LIỆU ĐÁNH GIÁ...........................................................................187 PHỤ LỤC B LUẬT SINH RÚT TRÍCH TỪ PENN TREEBANK ............................193 PHỤ LỤC C CHẠY GIZA++ .....................................................................................207 PHỤ LỤC D BẢNG MÃ HÓA TIẾNG VIỆT SANG MÃ ASCII .............................209 PHỤ LỤC E CÁC TỪ PHÂN LỚP TRONG TIẾNG VIỆT.......................................210 PHỤ LỤC F BẢNG MÃ TỪ LOẠI DÙNG TRONG LUẬN ÁN ..............................219 PHỤ LỤC G ĐỊNH NGHĨA MỘT SỐ KHÁI NIỆM .................................................221 PHỤ LỤC H CÁC PHƯƠNG PHÁP HỌC MÁY ......................................................223 PHỤ LỤC I TÍNH NHẬP NHẰNG ...........................................................................226 PHỤ LỤC J ĐỘ PHỨC TẠP GIẢI THUẬT..............................................................229 v DANH MỤC CÁC TỪ VIẾT TẮT STT Từ viết tắt Diễn giải tiếng Anh Diễn giải tiếng Việt 1 AER Alignment Error Lỗi đối sánh 2 AI Artificial Intelligence Trí tuệ nhân tạo 3 ANN Artificial Neural Networks Mạng Neural nhân tạo 4 APAP Anchor Point Alignment & Projection 5 APAP-LCC Anchor Point Alignment & Chiếu qua đối sánh điểm neo Projection – Language khai thác đặc tính ngôn ngữ Characteristic Combination đích 6 APAP-STT Anchor Point Alignment & Projection – Syntax Tree Transfer Chiếu qua đối sánh điểm neo khai thác đặc tính trật tự từ 7 APAP-WS Anchor Point Alignment & Projection – Word Segmentation Chiếu qua đối sánh điểm neo khai thác đặc tính phân đoạn từ 8 BaseNP Base-Noun Phrase Cụm danh từ cơ sở 9 BLEU Bilingual evaluation Phương pháp để đánh giá tự động cho Dịch máy. Understudy. Chiếu qua đối sánh điểm neo 10 CoNLL Conference on Computational Natural Language Learning 11 CLIR Cross-language information Truy hồi thông tin xuyên retrieval ngôn ngữ 12 DictAlign Dictionary Alignment Đối sánh từ điển 13 DL Decision List Danh sách quyết định 14 DP Decision Pylon Tháp quyết định 15 EBMT Example Based Machine Translation Dịch máy trên cơ sở ví dụ Hội nghị về ngôn ngữ học tính toán vi 16 EBT Example Based Transfer Chuyển đổi trên cơ sở ví dụ 17 EM Expected Maximal kỳ vọng cực đại 18 FNPC Finding Noun Phrase Corresponding Tìm cụm danh từ tương ứng 19 GATE General Architecture for Text Engineering Kiến trúc tổng quát cho kỹ thuật văn bản 20 HMM Hidden Markov Models Mô hình Markov ẩn 21 IE Information Extraction Rút trích thông tin 22 IR Information Retrieval Truy hồi thông tin 23 KANT Knowledge-Based Natural Dịch ngôn ngữ tự nhiên trên Language Translation cơ sở tri thức 24 MBL Memory-based learning Học trên cơ sở bộ nhớ 25 MT Machine Translation Dịch máy 26 ME Maximal Entropy Entropy cực đại 27 NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên 28 NFA Nondeterministic Finite Automata Automat hữu hạn không đơn định 29 NP Noun Phrase Cụm danh từ 30 POS Part–Of-Speech Mã từ loại 31 QA Question & Answer Hỏi và trả lời 32 RBMT Rule Base Machine Translation Dịch máy dựa vào luật sinh 33 SMT Statistical Machine Translation Dịch máy thống kê 34 SQL Structured Query Language Ngôn ngữ hỏi có cấu trúc 35 SR Speech Recognition Nhận dạng giọng nói 36 SVM Support vector machine Máy véc tơ hỗ trợ vii 37 TA Treebank Approach Tiếp cận Treebank 38 TA+LR Treebank Approach + Local Repair Treebank + hiệu chỉnh cục bộ 39 TBL Transformation Based Learning Học trên cơ sở chuyển đổi 40 WA Word Alignment Đối sánh từ 41 WAP Word Alignment & Projection Chiếu qua đối sánh từ WAP-LCC Word Alignment & Chiếu qua đối sánh từ khai Projection –Language Characteristic Combination thác đặc tính ngôn ngữ đích WAP-STT Word Alignment & Projection – Syntax Tree Transfer Chiếu qua đối sánh từ khai thác đặc tính trật tự từ WAP-WS Word Alignment & Projection – Word Segmentation Chiếu qua đối sánh từ khai thác đặc tính phân đoạn từ 42 43 44 viii DANH MỤC CÁC HÌNH Hình 2.1 Giải thuật đối sánh từ trên cơ sở từ điển...........................................................52 Hình 2.2 Giải thuật đối sánh từ trên cơ sở từ điển phân lớp từ........................................54 Hình 3.1 Ví dụ về các loại đối sánh.................................................................................71 Hình 3.2 Vấn đề chồng chéo và xung đột trong phép chiếu............................................72 Hình 3.3 Chuyển đổi trật tự từ để xác định đúng điểm neo.............................................73 Hình 3.4 Một ví dụ về cụm danh từ cơ sở .......................................................................76 Hình 3.5 Giải thuật tìm từ trung tâm................................................................................76 Hình 3.6 Giải thuật nhận biết liên từ trong thành phần Y5..............................................80 Hình 3.7 Giải thuật phân tách các thành phần phụ trước.................................................81 Hình 3.8 Mô hình chuyển đổi trật tự từ tiếng Anh theo tiếng Việt..................................83 Hình 3.9 Giải thuật chuyển đổi trật tự từ tiếng Anh theo tiếng Việt ...............................85 Hình 4.1 Ví dụ về đối sánh của mô hình WAP..............................................................102 Hình 4.2 Mô hình WAP.................................................................................................102 Hình 4.3 Giải thuật WAP...............................................................................................103 Hình 4.4 Ví dụ về đối sánh của mô hình WAP-WS ......................................................104 Hình 4.5 Giải thuật WAP-WS ........................................................................................104 Hình 4.6 Mô hình WAP-WS..........................................................................................105 Hình 4.7 Ví dụ về đối sánh của mô hình WAP-STT .....................................................106 Hình 4.8 Giải thuật WAP-STT ......................................................................................106 Hình 4.8 Mô hình WAP-STT ........................................................................................107 Hình 4.10 Ví dụ về đối sánh của mô hình WAP-LCC ....................................................108 Hình 4.12 Mô hình WAP-LCC........................................................................................109 Hình 4.13 Giải thuật nhận biết cụm danh từ cơ sở tiếng Việt .........................................110 Hình 5.1 Ví dụ về đối sánh điểm neo ............................................................................124 Hình 5.2 Ví dụ về xác định cụm danh từ tương ứng Anh-Việt .....................................125 Hình 5.3 Giải thuật nhận biết cụm danh từ cơ sở tiếng Việt .........................................126 Hình 5.4 Mô hình APAP................................................................................................128 Hình 5.5 Mô hình APAP-WS ........................................................................................129 Hình 5.6 Mô hình APAP-STT .......................................................................................130 Hình 5.7 Mô hình APAP-LCC ......................................................................................131 ix Hình 5.8 Mô đun đối sánh điểm neo.............................................................................132 Hình 5.9 Giải thuật tính hệ số tương đồng từ kho ngữ liệu song ngữ ..........................139 Hình 5.10 Giải thuật chọn điểm neo theo hệ số tương đồng ...........................................140 Hình 5.11 Giải thuật tìm cụm danh từ cơ sở tiếng Việt theo từ đặc trưng ......................143 Hình 5.12 Giải thuật đối sánh điểm neo ..........................................................................144 Hình 5.13 Vấn đề đối sánh rỗng, chồng chéo và xung đột ..............................................145 Hình 5.14 Xung đột ngoài cụm danh từ cơ sở dạng 1 .....................................................147 Hình 5.15 Xung đột ngoài cụm danh từ cơ sở dạng 2 .....................................................147 Hình 5.16 Xung đột ngoài cụm danh từ cơ sở dạng 3 .....................................................147 Hình 5.17 Xung đột trong cùng cụm danh từ cơ sở dạng 4.............................................147 Hình 5.18 Giải thuật giải quyết chồng chéo và xung đột ................................................148 Hình 5.19 Các tổ hợp của cụm danh từ cơ sở đã chuyển đổi trật tự................................149 Hình 5.20 Giải thuật giải quyết nhập nhằng tính từ.........................................................151 x DANH MỤC CÁC BẢNG Bảng 2.1 Một ví dụ về cặp cụm danh từ cơ sở song ngữ Anh-Việt.................................13 Bảng 2.2 Một số ví dụ về từ phân lớp khi dịch Anh-Việt ...............................................17 Bảng 2.3 Một số ví dụ về vị trí của từ đo lường và từ phân lớp......................................18 Bảng 2.4 Ví dụ về sự khác nhau giữa từ phân lớp và đo lường.......................................18 Bảng 2.5 Sự khác nhau về nghĩa khi sử dụng từ phân lớp và từ đo lường ......................18 Bảng 2.6 Các khả năng kết hợp của danh từ đếm được...................................................19 Bảng 2.7 Tổng hợp các từ chỉ tổng lượng .......................................................................22 Bảng 2.8 Phân tích một cụm danh từ tiếng Việt ..............................................................26 Bảng 2.9 Các biến thể trong cụm danh từ tiếng Việt.......................................................27 Bảng 2.10 Cấu trúc cơ bản của cụm danh từ .....................................................................28 Bảng 2.11 Phân loại các nhóm tính từ ...............................................................................29 Bảng 2.12 Trật tự từ trong cấu trúc cụm danh từ tiếng Anh..............................................30 Bảng 2.13 Các biến thể trong cụm danh từ tiếng Anh.......................................................32 Bảng 2.14 Cấu trúc của cụm danh từ tiếng Anh, tiếng Việt ..............................................34 Bảng 2.15 Cấu trúc cụm danh từ tiếng Anh theo John Eastwood .....................................36 Bảng 2.16 Cấu trúc cụm danh từ tiếng Anh theo Vũ Ngọc Tú..........................................36 Bảng 2.17 Cấu trúc bảy thành phần trong cụm danh từ tiếng Việt....................................37 Bảng 2.18 Bảng so sánh các lược đồ huấn luyện ..............................................................55 Bảng 3.1 Cấu trúc của cụm danh từ tiếng Anh và tiếng Việt ..........................................65 Bảng 3.2 Bảng so sánh các thành phần trong cụm danh từ .............................................66 Bảng 3.3 Luật sinh rút trích từ Penn Treebank................................................................67 Bảng 3.4 Các dạng luật rút ra từ đối sánh từ của ví dụ 3.6..............................................69 Bảng 3.5 Các luật sinh dự tuyển của cụm danh từ cơ sở tiếng Việt ................................90 Bảng 3.6 Kết quả phân tích cụm danh từ tiếng Anh........................................................95 Bảng 3.7 Kết quả chuyển đổi trật tự từ và xác định điểm neo.........................................96 Bảng 4.1 Thời gian thực hiện và khối lượng của một số Treebank.................................99 Bảng 4.2 Một số ngữ liệu song ngữ...............................................................................113 Bảng 4.3 Kết quả nguồn ngữ liệu song ngữ sưu tập được.............................................114 Bảng 4.4 Thống kê chiều dài câu của các ngữ liệu sưu tập ...........................................115 Bảng 4.5 Một ví dụ về kết quả đối sánh từ bằng Giza++ ..............................................116 xi Bảng 4.6 Kết quả đối sánh từ Anh-Việt trong mô hình WAP .......................................117 Bảng 4.7 Kết quả đối sánh từ Anh-Việt trong mô hình WAP-WS................................118 Bảng 4.8 Kết quả đối sánh từ Anh-Việt trong mô hình WAP-STT...............................118 Bảng 4.9 Kết quả đối sánh từ Anh-Việt trong mô hình WAP-LCC ..............................119 Bảng 4.10 Bảng so sánh kết quả đối sánh và nhận biết cụm danh từ cơ sở ....................120 Bảng 5.1 Ví dụ về sự xuất hiện nhiều lần của từ trong câu tiếng Anh ..........................134 Bảng 5.2 Kết quả khảo sát ảnh hưởng của ngưỡng δ ....................................................136 Bảng 5.3 Collocation(today) huấn luyện từ ngữ liệu song ngữ .....................................140 Bảng 5.4 Các khả năng tìm điểm neo tương ứng bằng từ đặc trưng và luật..................141 Bảng 5.5 Kết quả phối hợp các tầng trong mô hình đối sánh điểm neo ........................145 Bảng 5.6 Ví dụ về điểm neo thuộc thành phần d có nhiều tính từ.................................150 Bảng 5.7 Thống kê các luật có bổ ngữ nhiều tính từ .....................................................152 Bảng 5.8 Phân rã luật sinh thành các thành tố ...............................................................152 Bảng 5.9 Bộ ngữ liệu mẫu .............................................................................................153 Bảng 5.10 Kết quả đánh giá cụm danh từ cơ sở tương ứng trên bộ ngữ liệu mẫu ..........153 Bảng 5.11 Bộ ngữ liệu kiểm tra .......................................................................................154 Bảng 5.12 Kết quả đánh giá cụm danh từ cơ sở tương ứng trên bộ ngữ liệu kiểm tra ....155 Bảng 5.13 Kết quả rút trích cụm danh từ cơ sở của một số tác giả .................................157 Bảng 6.1 Bảng so sánh kết quả nhận biết cụm danh từ cơ sở tiếng Anh.......................160 1 Chương 1 MỞ ĐẦU 1.1 Động cơ nghiên cứu Xử lý ngôn ngữ tự nhiên (Natural language processing) là lĩnh vực nghiên cứu nhằm giúp cho các hệ thống máy tính hiểu và xử lý ngôn ngữ của con người. Trong những năm gần đây, rất nhiều ứng dụng trong xử lý ngôn ngữ tự nhiên như rút trích thông tin, truy hồi thông tin xuyên ngôn ngữ, tóm lược văn bản, hỏi đáp và dịch máy tự động phát triển mạnh mẽ đem lại nhiều lợi ích thiết thực. Trong các ứng dụng kể trên, cụm danh từ cơ sở đóng một vai trò quan trọng. Vì thế, việc rút trích tự động cụm danh từ cơ sở đơn ngữ cũng như song ngữ từ ngữ liệu được nhiều nhà khoa học quan tâm nghiên cứu, ví dụ như Kupiec [75], Le [76], Wantanabe [131], Yarowsky [139], Riloff [112], Wang [129] và Hwang [68]. Tuy nhiên, việc nhận biết và rút trích cụm danh từ tiếng Việt nói riêng và cụm danh từ cơ sở song ngữ Anh-Việt nói chung vẫn còn là bài toán mở. Bốn vấn đề được liệt kê dưới đây làm rõ nhận định này. Thứ nhất là vấn đề nghiên cứu về rút trích cụm danh từ cơ sở song ngữ AnhViệt. Trong những năm gần đây, cụm danh từ tiếng Việt đã được nhiều nhà ngôn ngữ học nghiên cứu và cho kết quả khả quan về mặt lý luận. Luận án tiến sĩ của Dương Thanh Bình [03], Tuong Hung Nguyen [22], Vũ Ngọc Tú [23] đã cho thấy tầm quan trọng của cụm danh từ trong tiếng Việt. Tuy vậy, cho đến nay việc nghiên cứu tỉ mỉ về xác định và rút trích tự động cụm danh từ song ngữ nói chung và cụm danh từ cơ sở song ngữ nói riêng, vẫn là vấn đề mở. Vì thế, việc nghiên cứu này là 2 cần thiết. Thứ hai là vấn đề xây dựng hệ thống rút trích cụm danh từ cơ sở song ngữ Anh-Việt từ ngữ liệu song ngữ. Ở Việt nam, ngôn ngữ học tính toán mới được phát triển vài chục năm trở lại đây, tuy đã đạt được một số thành công nhất định song việc rút trích và nhận biết thông tin, đặc biệt là cụm danh từ cơ sở tiếng Việt và cụm danh từ cơ sở song ngữ Anh-Việt vẫn còn nhiều thách thức. Thách thức càng trở nên lớn hơn khi chúng ta thiếu các công cụ xử lý ngôn ngữ cho tiếng Việt, như các công cụ phân tích hình thái, gán nhãn từ loại, phân đoạn câu, phân tích cú pháp... Do vậy vấn đề này cần được nghiên cứu. Thứ ba là trong bối cảnh của tiếng Việt, cũng giống như hơn 200 ngôn ngữ khác trên thế giới, muốn phát triển nhanh các ứng dụng về xử lý ngôn ngữ tự nhiên lại phải đối mặt với vấn đề thiếu vắng nguồn tài nguyên, như các ngữ liệu đơn ngữ và song ngữ…, nhưng việc xây dựng nguồn tài nguyên này không dễ và cũng không rẻ. Một tiếp cận để khắc phục mặt hạn chế về nguồn tài nguyên là tiếp cận chiếu thông qua ngôn ngữ giàu tài nguyên như tiếng Anh, được Yarowsky [138] đề xuất, nhưng với tiếp cận này vẫn còn có nhiều thách thức. Đó là vấn đề đối sánh rỗng, vấn đề chồng chéo và xung đột, như Yarowsky đã trình bày trong nghiên cứu với cặp ngôn ngữ Anh-Pháp. Vấn đề đối sánh rỗng, chồng chéo và xung đột cũng là thách thức cơ bản cho cặp ngôn ngữ Anh-Việt khi sử dụng tiếp cận chiếu thông qua kết quả đối sánh từ tiếng Anh và tiếng Việt để xác định cụm danh từ cơ sở Anh-Việt tương ứng. Vì vậy, việc nghiên cứu để vượt qua những thách thức này là cần thiết. Cuối cùng, xét về mặt thực tiễn việc thu thập các cụm danh từ cơ sở song ngữ chuẩn làm dữ liệu cho các ứng dụng về xử lý ngôn ngữ tự nhiên, như dịch máy, truy hồi thông tin xuyên ngôn ngữ, xây dựng từ điển, nhận dạng tiếng nói, .v.v. trong đó, cụm danh từ cơ sở đơn ngữ và song ngữ đóng vai trò quan trọng. Vì vậy, việc xác định và rút trích cụm danh từ cơ sở Anh-Việt tương ứng cần được nghiên cứu. Những vấn đề nêu trên chính là động cơ thúc đẩy chúng tôi chọn đề tài “Mô hình khai thác đặc tính ngôn ngữ đích nhằm xác định các cụm danh từ cơ sở tương ứng Anh-Việt”. 3 1.2 Mục tiêu, hướng nghiên cứu và nhiệm vụ nghiên cứu Chúng tôi đặt ra mục tiêu nghiên cứu chính của luận án là nhận biết cụm danh từ cơ sở tiếng Việt qua cặp câu song ngữ Anh-Việt. Trên kết quả nhận biết này, chúng tôi rút trích các cụm danh từ cơ sở tương ứng Anh-Việt. Xét về mặt lý luận, có nhiều phương pháp và mô hình khác nhau để nhận biết và rút trích cụm danh từ cơ sở tiếng Việt. Mỗi phương pháp và mô hình khác nhau có thể có những bước thực hiện khác nhau. Nhưng tổng thể hiện nay, có hai hướng tiếp cận để nhận biết cụm danh từ cơ sở. Hướng thứ nhất là tiếp cận đơn ngữ. Với hướng tiếp cận này, người ta tiến hành theo hai nhóm phương pháp chính là các phương pháp tạo văn phạm bằng tay và các phương pháp máy học. Cả hai nhóm phương pháp này khi áp dụng vào tiếng Việt, còn nhiều vấn đề cần giải quyết như vấn đề gán mã từ loại cho tiếng Việt, xây dựng Treebank tiếng Việt, tạo luật sinh cho văn phạm tiếng Việt .v.v. Theo báo cáo của Nguyễn Thị Minh Huyền trong tài liệu [17] việc gán từ loại cho tiếng Việt mới đạt khoảng 85%. Nâng cao kết quả gán từ loại cũng là một vấn đề đang được nghiên cứu. Xây dựng Treebank tiếng Việt lại là một vấn đề khác nằm ngoài luận án này. Hướng tiếp cận thứ hai là tiếp cận song ngữ. Tiếp cận này có hai phương pháp chính là thống kê qua phân tích cú pháp của cả hai ngôn ngữ (nguồn và đích) và chiếu thông qua kết quả phân tích của ngôn ngữ nguồn để thu được kết quả trên ngôn ngữ đích. Tiếng Việt có thể dựa vào tiếng Anh để giải quyết bài toán nghiên cứu thông qua việc chiếu qua kết quả đối sánh từ như nghiên cứu của Yarowsky [138] cho cặp Anh-Pháp và Hwa [67] cho cặp Anh Trung. Như vậy, bài toán nhận biết cụm danh từ cơ sở tương ứng Anh-Việt sẽ được chúng tôi chọn theo tiếp cận chiếu qua kết quả đối sánh từ. Với đối sánh từ, về tổng thể có hai phương pháp chính là phương pháp đối sánh từ dựa trên thống kê (Brown et.al [38]) và đối sánh từ dựa trên từ điển (Ker và Chang [70]). Luận án thực hiện trên cả hai phương pháp này như được trình bày trong phần đóng góp của luận án (mục 1.4). Nhiệm vụ chính của luận án cần thực hiện như sau: 4 - Nghiên cứu về đối sánh sự tương đồng và khác biệt trong cụm danh từ cơ sở giữa tiếng Anh và tiếng Việt, để tìm ra quy luật chuyển đổi trật tự từ trong cụm danh từ cơ sở tiếng Anh theo trật tự từ của cụm danh từ cơ sở tiếng Việt. Xây dựng mô hình chuyển đổi trật tự từ trong cụm danh từ cơ sở tiếng Anh theo cấu trúc cụm danh từ tiếng Việt. - Nghiên cứu để rút trích các luật sinh của cụm danh từ cơ sở tiếng Anh từ ngữ liệu Penn Treebank và thống kê tần suất xuất hiện của nó để xây dựng bộ ngữ liệu mẫu để đánh giá các giải thuật trong chương 3. Kết hợp với kết quả đối sánh, chuyển đổi trật tự từ của cụm danh từ tiếng Anh để xây dựng tập luật sinh dự tuyển cho cụm danh từ cơ sở tiếng Việt. - Nghiên cứu các mô hình đối sánh từ - Nghiên cứu và đề xuất những giải pháp khắc phục các vấn đề đối sánh rỗng, vấn đề chồng chéo và xung đột - Xây dựng và hiện thực các mô hình nhận biết cụm danh từ cơ sở tương ứng Anh-Việt - Xây dựng kho ngữ liệu song ngữ đã được đối sánh ở mức câu để thực nghiệm. Xây dựng các bộ ngữ liệu mẫu để đánh giá các giải thuật và các mô hình đề xuất. 1.3 Phạm vi nghiên cứu và các bài toán chính Nghiên cứu của luận án tập trung vào cụm danh từ cơ sở, một tập con của cụm danh từ, phù hợp với mục tiêu của luận án là xác định các cụm danh từ cơ sở tương ứng Anh-Việt. Việc giới hạn nghiên cứu ở mức cụm danh từ cơ sở suất phát từ những lý do chính sau: Thứ nhất cụm danh từ nói chung rất phức tạp, các nghiên cứu hiện nay trong xử lý ngôn ngữ tự nhiên tiếng Anh cũng chỉ giới hạn ở mức cụm danh từ cơ sở (BaseNP). Cụm danh từ cơ sở là cụm danh từ không đệ quy, không chứa các cụm giới từ (prepositional phrases) hoặc mệnh đề (clauses) [106]. Thứ hai là tiếp cận của luận án theo phương pháp chiếu thông qua kết quả đối sánh từ và ngôn ngữ nguồn được chọn là tiếng Anh sẵn có các công cụ với mã nguồn mở. Các 5 nghiên cứu của các nhà ngôn ngữ học như Tuong Hung Nguyen [22], Vũ Ngọc Tú [23] cho thấy cấu trúc cụm danh từ cơ sở tiếng Anh và tiếng Việt có nhiều điểm tương đồng và một chút khác biệt (stopWord trong tiếng Anh, từ phân lớp trong tiếng Việt, trật tự từ…). Các điểm khác biệt giữa chúng có thể hình thức hóa được như trình bày trong chương 3 của luận án. Luận án thực nghiệm có giới hạn trên một số ngữ liệu song ngữ như: tin học, từ điển bách khoa dành cho thanh thiếu niên, bộ luật lao động, các trang Web song ngữ của đại sứ quán Mỹ [147], [148], và Úc [79]. Các cặp câu song ngữ trong nghiên cứu của luận án chỉ giới hạn ở những cặp có cách dịch là 1-1, nghĩa là một câu tiếng Anh được dịch thành một câu tiếng Việt, không có đảo ngữ khi dịch từ câu tiếng Anh sang câu tiếng Việt. Từ nhiệm vụ nghiên cứu kể trên, luận án cần giải quyết các bài toán chính sau đây: - Bài toán chuyển đổi cây cú pháp Anh-Việt mức cụm từ. - Cho ngữ liệu song ngữ Anh-Việt đã đối sánh mức câu, câu tiếng Anh đã được gán nhãn từ loại và đã xác định được các cụm danh từ cơ sở, câu tiếng Việt đã được phân đoạn từ (tùy thuộc vào mô hình thực nghiệm mà việc phân đoạn từ có được sử dụng hay không). Từ đó, chúng tôi có thể nhận biết được cụm danh từ cơ sở tiếng Việt và rút trích được các cặp cụm danh từ cơ sở tương ứng Anh-Việt. - Cho luật sinh của cụm danh từ cơ sở tiếng Anh và cặp câu song ngữ AnhViệt. Chúng tôi xây dựng giải thuật để tạo tự động luật sinh cụm danh từ cơ sở tiếng Việt thông qua quá trình chuyển đổi cây cú pháp mức cụm danh từ cơ sở và sử dụng các từ đặc trưng trong tiếng Việt. - Giải quyết vấn đề đối sánh rỗng, vấn đề chồng chéo và xung đột trong quá trình nhận biết cụm danh từ cơ sở tiếng Việt. 1.4 Đóng góp của luận án Trong quá trình thực hiện luận án, chúng tôi đã có một số đóng góp về mặt khoa học và thực tiễn như sau. 6 • Đóng góp về mặt khoa học Luận án đã đưa ra ý tưởng “Khai thác đặc tính ngôn ngữ đích vào bài toán xác định các cụm danh từ cơ sở tương ứng Anh-Việt”. Trong luận án này, chúng tôi khai thác hai đặc tính của ngôn ngữ tiếng Việt là phân đoạn từ và trật tự từ vào bài toán nhận biết cụm danh từ cơ sở tiếng Việt. Ngoài hai đặc tính kể trên, yếu tố từ đặc trưng của tiếng Việt cũng được đề xuất sử dụng trong bài toán này. Từ ý tưởng “khai thác đặc tính ngôn ngữ đích” kể trên, luận án có ba đóng góp chính sau đây: - Đóng góp thứ nhất là đề xuất và hiện thực kỹ thuật “chuyển đổi cây cú pháp Anh-Việt”. Do khác biệt về loại hình ngôn ngữ, trật tự từ trong cụm danh từ cơ sở tiếng Việt và tiếng Anh cơ bản là khác nhau (như phân tích trong chương 3). Yếu tố trật tự từ là một đặc tính của ngôn ngữ. Để khai thác đặc tính ngôn ngữ này, chúng tôi đề xuất kỹ thuật “chuyển đổi cây cú pháp Anh-Việt” (được trình bày trong chương 3). Kỹ thuật “chuyển đổi cây cú pháp Anh-Việt” là mô đun quan trọng trong các mô hình đề xuất của luận án. Ngoài ra, kỹ thuật chuyển đổi cây cú pháp còn giúp cho việc xây dựng tập luật sinh dự tuyển để giải quyết bài toán “dữ liệu thưa”1, bài toán “chồng chéo và xung đột” cũng như bài toán “học luật chuyển đổi từ ngữ liệu song ngữ”. Điểm khác biệt chính giữa mô hình đề xuất của luận án với các mô hình hiện có là ở chỗ, mô hình của luận án khai thác đặc tính trật tự từ trong tiếng Việt. Đặc tính trật tự từ này dựa trên cơ sở nghiên cứu của các nhà ngôn ngữ học. Các mô hình khác như của tác giả Đinh Điền [7], Nguyễn Phương Thái [19] và Katharina Probst [103] dựa trên nền tảng xác suất thống kê. 1. “Dữ liệu thưa” là dữ liệu không được thiết lập hoặc tần suất xuất hiện quá nhỏ để thiết lập xác suất của nó. Trong luận án “dữ liệu thưa” xuất hiện ở hai loại hình: Với mô hình đối sánh từ bằng phương pháp từ điển, “dữ liệu thưa” được hiểu là trường hợp mà nghĩa tiếng Việt của từ tiếng Anh chưa được thiết lập trong từ điển song ngữ Anh-Việt. Với mô hình thống kê, “dữ liệu thưa” được hiểu là những trường hợp mà tần suất xuất hiện của từ quá nhỏ để thiết lập giá trị xác suất của nó và chúng có giá trị xác suất bằng 0. Cụm từ “dữ liệu thưa” được dịch từ cụm từ “sparse-data” [p.198, 29]. 7 - Đóng góp thứ hai của luận án là đề xuất “mô hình thống kê khai thác đặc tính ngôn ngữ đích”. Điểm khác biệt chính giữa mô hình của luận án với các mô hình đối sánh thống kê hiện có là, với mô hình HMM (Och và Ney [97]) người ta chỉ dự đoán khoảng cách giữa các vị trí từ trong ngôn ngữ nguồn, với mô hình 4 (Brown [38]) người ta chỉ dự đoán các từ trong ngôn ngữ đích. - Trong luận án này, chúng tôi khai thác đặc tính ngôn ngữ đích như phân đoạn từ, đối sánh trật tự từ trong cấu trúc cụm danh từ và các từ đặc trưng của ngôn ngữ đích. Với đặc tính phân đoạn từ và đặc tính trật tự từ, luận án tiến hành khai thác các đặc tính này ở bước tiền xử lý. Sau đó mới thực hiện đối sánh từ trên mô hình thống kê thông qua mã nguồn mở Giza++ [98]. Với các từ đặc trưng của tiếng Việt (ví dụ như các từ phân lớp), luận án sử dụng ở bước hậu xử lý. Nghĩa là sau khi có kết quả đối sánh từ bằng Giza++, chúng tôi sẽ chiếu để thu được cụm danh từ tiếng Việt tương ứng với cụm danh từ cơ sở tiếng Anh. Ở giai đoạn này, chúng tôi sử dụng một số luật mở rộng cụm danh từ tiếng Việt (trình bày trong chương 4). - Đóng góp thứ ba của luận án là đề xuất “mô hình từ điển khai thác đặc tính ngôn ngữ đích”. Điểm khác biệt chính giữa mô hình của luận án với các mô hình từ điển hiện có là: với mô hình từ điển truyền thống người ta đo độ không đối sánh đúng (dislocation) bằng thực nghiệm (Ker và Chang [70] như trình bày trong mục 2.3.4). Luận án của chúng tôi khai thác đặc tính ngôn ngữ đích như phân đoạn từ, đối sánh trật tự từ trong cấu trúc cụm danh từ và các từ đặc trưng của ngôn ngữ đích. Ngoài ra luận án còn xây dựng một ngưỡng δ bằng thực nghiệm để giới hạn không gian tìm kiếm. Thêm vào đó, trên cơ sở kết quả của mô hình chuyển đổi cây cú pháp, luận án đề xuất “mô hình đối sánh điểm neo” cho bài toán nhận biết cụm danh từ cơ sở tiếng Việt trong cặp câu song ngữ. Mô hình chiếu trên kết quả đối sánh từ truyền thống thực hiện đối sánh cho tất cả các từ trong câu, nên làm nảy sinh vấn đề đối sánh rỗng, vấn đề chồng chéo và xung đột, như các thực nghiệm trên mô hình thống kê của Yarowsky [138], Hwa [67], đối sánh lỗi hoặc đối sánh rỗng trên mô hình từ điển của Đ.Điền [9]. Mô hình đối sánh điểm neo cho phép giảm thiểu vấn đề đối sánh rỗng. Mô hình này có các giải pháp khắc phục được vấn
- Xem thêm -

Tài liệu liên quan

Tài liệu xem nhiều nhất