Tài liệu Tích hợp thông tin hình thái từ vào hệ dịch máy thống kê anh việt

.PDF

130

tranphuong Báo vi phạm

Tải xuống 130

Mô tả:

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN NGUYỄN THỊ NGỌC MAI TÍCH HỢP THÔNG TIN HÌNH THÁI TỪ VÀO HỆ DỊCH MÁY THỐNG KÊ ANH - VIỆT LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH Thành phố Hồ Chí Minh - 2010 MỤC LỤC MỤC LỤC ...................................................................................................................1 DANH SÁCH CÁC BẢNG ........................................................................................4 DANH SÁCH CÁC HÌNH .........................................................................................5 CHƢƠNG 1: GIỚI THIỆU .........................................................................................6 1.1. Đặt vấn đề ......................................................................................................6 1.2. Hƣớng tiếp cận của đề tài ..............................................................................8 1.3. Nội dung của luận văn ...................................................................................9 CHƢƠNG 2: TỔNG QUAN .....................................................................................11 2.1. Dịch máy thống kê .......................................................................................11 2.1.1. Dịch máy thống kê dựa trên từ .............................................................11 2.1.2. Mô hình dịch máy thống kê dựa trên ngữ .............................................19 2.1.3. Mô hình dịch thống kê factored (Factored SMT) .................................26 2.1.4. Mô hình dịch máy thống kê dựa trên cú pháp ......................................29 2.2. Các tiêu chuẩn đánh giá chất lƣợng dịch .....................................................31 2.2.1. BLEU (Bilingual Evaluation Understudy) ...........................................32 2.2.2. NIST......................................................................................................32 2.2.3. TER (Translation Error Rate) ...............................................................32 CHƢƠNG 3: .............................................................................................................33 CÁC HƢỚNG TÍCH HỢP TRI THỨC NGÔN NGỮ VÀO DỊCH MÁY THỐNG KÊ..............................................................................................................................33 3.1. Sử dụng tri thức ngôn ngữ để tiền xử lý ......................................................33 3.1.1. Dùng thông tin cú pháp .........................................................................34 Trang 1 3.1.2. Sử dụng thông tin từ loại ......................................................................36 3.1.3. Sử dụng luật biến đổi hình thái từ.........................................................37 3.2. Tích hợp tri thức vào hệ thống dịch máy.....................................................39 3.2.1. Tích hợp thông tin hình thái vào mô hình dịch.....................................39 3.2.2. Tích hợp thông tin cú pháp vào mô hình dịch ......................................40 3.2.3. Tích hợp vào mô hình ngôn ngữ ...........................................................41 CHƢƠNG 4: MÔ HÌNH CỦA ĐỀ TÀI ...................................................................42 4.1. Tích hợp thông tin hình thái từ tiếng Anh ...................................................43 4.1.1. Thông tin từ loại ...................................................................................43 4.1.2. Thông tin biến cách của từ ....................................................................44 4.1.3. Sử dụng luật chuyển đổi trật tự .............................................................45 4.2. Thêm thông tin hình thái từ tiếng Việt ........................................................50 4.2.1. Thông tin ranh giới từ ...........................................................................50 4.2.2. Thông tin từ loại ...................................................................................51 4.3. Thêm thông tin hình thái từ cho tiếng Anh và tiếng Việt ............................52 CHƢƠNG 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ .....................................................54 5.1. Ngữ liệu .......................................................................................................54 5.2. Các công cụ .................................................................................................55 5.3. Thí nghiệm ...................................................................................................55 5.3.1. 4.4. Tích hợp thông tin hình thái từ trong câu tiếng Anh ............................55 Tóm tắt kết quả thí nghiệm ..........................................................................74 CHƢƠNG 6: KẾT LUẬN ........................................................................................76 TÀI LIỆU THAM KHẢO .........................................................................................78 PHỤ LỤC ..................................................................................................................82 Trang 2 A. Đối chiếu hình thái từ Anh – Việt (biến cách) ................................................82 B. Kết quả dịch của một số mô hình....................................................................82 Trang 3 DANH SÁCH CÁC BẢNG Bảng 2.1. Bảng biểu diễn gióng hàng từ dạng bảng ................................................. 15 Bảng 5.1 Thông tin về ngữ liệu ................................................................................. 59 Bảng 5.2. Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Anh ................................................................................................................................... 60 Bảng 5.3. Kết quả dịch của các hệ chuyển đổi trật tự từ........................................... 63 Bảng 5.4. Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Việt ................................................................................................................................... 64 Bảng 5.5. Số liên kết gióng hàng từ trong các mô hình ............................................ 65 Bảng 5.6 Kết quả dịch của hệ dịch tích hợp từ loại tiếng Việt ................................. 68 Bảng 5.7. Kết quả dịch của các hệ tích hợp thông tin hình thái từ vào câu tiếng Anh và tiếng Việt .............................................................................................................. 71 Trang 4 DANH SÁCH CÁC HÌNH Hình 2.1. Mô hình dịch máy thống kê ...................................................................... 12 Hình 2.2. Biểu diễn gióng hàng từ dạng liên kết ...................................................... 14 Hình 2.3. Hình minh hoạ quá trình cải tiến gióng hàng từ ....................................... 19 Hình 2.4. Ví dụ về dịch thống kê dựa trên ngữ ......................................................... 20 Hình 2.5. Mô hình dịch factored SMT ...................................................................... 27 Hình 4.1. Mô hình chung của luận văn ..................................................................... 43 Hình 4.2. Mô hình ngôn ngữ từ vựng ....................................................................... 49 Hình 4.3. Mô hình ngôn ngữ từ loại.......................................................................... 49 Hình 4.4. Mô hình factored SMT tích hợp từ loại .................................................... 50 Hình 4.5. Mô hình factored SMT tích hợp nguyên mẫu và từ loại ........................... 51 Hình 4.5. Mô hình factored SMT tích hợp các thông tin hình thái từ ...................... 51 Trang 5 CHƢƠNG 1: GIỚI THIỆU 1.1. Đặt vấn đề Dịch máy hay còn gọi là dịch tự động đã và đang đƣợc con ngƣời quan tâm hiện nay. Các nhà nghiên cứu đƣa tri thức nhằm khai thác sức mạnh xử lý tính toán của máy tính và tạo ra ứng dụng phục vụ con ngƣời trong thời đại công nghệ thông tin phát triển. Khi việc giao tiếp và việc nắm bắt thông tin nhanh chóng sẽ tạo nên nhiều cơ hội cho con ngƣời đi đến thành công, chƣơng trình dịch tự động sẽ là công cụ giúp họ vƣợt qua rào cản ngôn ngữ, giúp họ chuyển đổi ngôn ngữ nhanh và tiết kiệm công sức. Dịch máy là một lĩnh vực rất thú vị, thu hút sự quan tâm của rất nhiều nhóm nghiên cứu trên thế giới. Tuy nhiên, bản thân từng ngôn ngữ đã rất phức tạp, thƣờng hay có nhập nhằng. Mặc khác, giữa các ngôn ngữ luôn có sự khác biệt, từ từ vựng đến các cấu trúc để tạo thành câu. Việc xây dựng một hệ dịch máy có khả năng hiểu ngữ cảnh, khử nhập nhằng và dịch đƣợc gần với con ngƣời vẫn đang là một thách thức lớn. Đối với tiếng Việt, hiện nay có rất nhiều nhóm đầu tƣ vào các hệ dịch theo nhiều hƣớng tiếp cận khác nhau: - Nhóm nghiên cứu của PGS. TS. Đinh Điền (Đại học Khoa học Tự nhiên- Đại học Quốc gia Thành phố Hồ Chí Minh): Dự án nghiên cứu của nhóm dựa trên việc học luật chuyển đổi từ ngữ liệu song ngữ. - Nhóm nghiên cứu của PGS. TS. Phan Thị Tƣơi (Đại học Bách Khoa Thành phố Hồ Chí Minh): Nhóm sử dụng phƣơng pháp phân tích cú pháp có xác suất để dịch văn bản Anh-Việt và Việt-Anh. - Nhóm nghiên cứu của TS. Lê Khánh Hùng Softex (Phòng Công nghệ Phần Mềm - Viện Ứng dụng công nghệ - Bộ Khoa học và Công nghệ Việt Nam): hệ dịch đã đƣợc đƣa vào sử dụng trong thực tế và thƣơng mại hoá sản phẩm (http://vdict.com). EVTRAN là một hệ dịch máy hoàn toàn dựa vào luật, sử Trang 6 dụng các luật đƣợc xây dựng bằng tay để dịch văn bản từ Anh sang Việt. Từ năm 2006, bản EVTRAN 3.0 (đƣợc gọi là Ev-Shuttle) có thể dịch đƣợc văn bản hai chiều Anh-Việt và Việt-Anh. Do hệ dịch dựa trên luật nên kết quả của hệ dịch phụ thuộc nhiều vào câu đầu vào có phù hợp với các luật đã đƣợc thiết lập hay không. - Nhóm dự án ERIM của Đại học Bách Khoa Đà Nẵng kết hợp với GETA – ĐHBK Grenoble, thử nghiệm dịch Anh-Việt, Pháp-Việt của Đoàn Nguyên Hải (http://www.latl.unige.ch/vietnamese/) tại LATL. - Google Transle (www.translate.google.com): Hỗ trợ hơn 50 ngôn ngữ bao gồm cả tiếng Việt. Sử dụng phƣơng pháp dịch máy thống kê dựa trên kho ngữ liệu song ngữ. Tốc độ dịch nhanh và có tính năng tƣơng tác với ngƣời dùng nhằm tăng chất lƣợng dịch cho các lần sau. - Dịch máy trên Xalo.vn (www.dich.xalo.vn): đƣa ra dịch vụ dịch trực tuyến một chiều từ Anh sang Việt, do công ty Cổ phần Công nghệ Tinh Vân tự phát triển, hỗ trợ dịch theo từng lĩnh vực, đồng thời cho phép ngƣời dùng chỉnh sửa, góp ý về nội dung dịch nhằm nâng cao chất lƣợng dịch. - Lạc Việt (công ty từng phát triển và đƣa ra bộ từ điển Lạc Việt www.vietgle.vn/tratu/dich-tu-dong): chỉ hỗ trợ dịch từ Anh sang Việt có thêm phần dịch chuyên ngành (tin học, toán học, y học và kế toán) và hỗ trợ dịch tốt hơn bởi ngƣời dùng. Do xây dựng trên các mô hình khác nhau, các hệ thống cho ra chất lƣợng dịch khác nhau, tuỳ thuộc vào dạng câu đầu vào. Các hệ thống dựa trên luật do sử dụng tri thức ngôn ngữ nhƣ thông tin cú pháp, ngữ nghĩa nên dịch khá hiệu quả. Tuy nhiên, máy tính khó có thể phân tích cú pháp chính xác cho những câu có ngữ nghĩa phức tạp. Mặc khác, việc xây dựng tập luật cú pháp và luật chuyển đổi có thể bao quát đƣợc mọi trƣờng hợp rất khó khăn, đòi hỏi ngƣời thực hiện phải có kiến thức sâu về ngôn ngữ. Ngƣợc lại, hệ dịch máy thống kê (Statistical Machine Translation – SMT) lại hoàn toàn dựa trên các kết quả thống kê từ kho ngữ liệu song ngữ. Kết quả trung gian của Trang 7 hệ dịch này là các bảng thống kê về từ, ngữ và các qui luật chuyển đổi mà không cần đến tri thức ngôn ngữ. Với phƣơng pháp này, ngữ liệu càng lớn và có chất lƣợng tốt thì hệ dịch sẽ càng hiệu quả. Ƣu điểm của hệ dịch này là do chỉ thuần tuý thống kê nên độc lập về ngôn ngữ, có thể áp dụng đƣợc trên bất kì cặp ngôn ngữ nào. Mặc khác, chúng ta có thể tiền xử lý trên dữ liệu đầu vào, miễn là thực hiện biến đổi đồng nhất trong cả quá trình huấn luyện và dịch. Ngoài ra, những ngƣời cũng có thể theo dõi hoặc can thiệp vào quá trình dịch thông qua các bảng thống kê trung gian. Chính vì những đặc điểm này mà mô hình dịch máy thống kê có tiềm năng rất lớn trong ứng dụng dịch máy. Rất nhiều nhóm nghiên cứu đang tập trung khai thác và phát triển hệ dịch máy trên mô hình này. Do đó, chúng tôi hƣớng đến phát triển một hệ dịch sử dụng đồng thời tri thức thống kê từ kho ngữ liệu song ngữ và tri thức về phân tích ngôn ngữ. Luận văn sẽ tập trung khảo sát việc tích hợp thông tin hình thái từ vào dịch máy thống kê và phát triển một hệ thống dịch máy thống kê Anh - Việt sử dụng các tri thức ngôn ngữ này. 1.2. Hƣớng tiếp cận của đề tài Đề tài sẽ tập trung vào khảo sát các hƣớng tích hợp trực tiếp tri thức ngôn ngữ vào trong hệ dịch máy thống kê dựa trên ngữ. Khảo sát các tri thức ngôn ngữ trong dịch máy thống kê Anh - Việt. Các tri thức đƣợc tập trung khảo sát bao gồm hình thái từ, từ loại và các cách kết hợp các thông tin này và tìm hiểu ảnh hƣởng của các thông tin này lên hệ dịch. Tiếng Anh và tiếng Việt rất khác biệt về loại hình ngôn ngữ. Tiếng Việt là ngôn ngữ đơn lập, quan hệ ngữ pháp chỉ đƣợc diễn đạt bằng trật tự trƣớc sau của từ và bằng các hƣ từ. Trong tiếng Việt, từ không có hiện tƣợng biến hình, đơn vị cơ bản là hình tiết: đây là một đơn vị có nghĩa, có vỏ ngữ âm thƣờng trùng với âm tiết, có khả năng vừa dùng nhƣ từ vừa dùng nhƣ hình vị. Ở loại hình này, ngƣời ta thƣờng hay nói đến vấn đề khó xác định ranh giới từ, vấn đề khó phân biệt các yếu tố hƣ với yếu tố thực cũng nhƣ vấn đề mặt cấu tạo từ ít phát triển. Trong khi tiếng Anh là Trang 8 ngôn ngữ hoà kết, từ tiếng Anh chính là những từ chính tả phân biệt bởi khoảng trắng. Từ vựng tiếng Anh có hai đặc điểm là biến cách và dẫn xuất. Biến cách là dạng mà trong đó có một hình vị ràng buộc kết hợp vào một từ để thể hiện những ý nghĩa ngữ pháp nhƣ: thì (tense), số (number), cách (case), v.v… Dẫn xuất là dạng từ mới đƣợc hình thành trên cơ sở từ gốc kết hợp với các phụ tố nhằm thể hiện những ý nghĩa từ vựng, nhƣ: lặp lại (re-), chống (anti-), ngƣời/vật thực hiện (-er/-or), ... Phụ tố của dẫn xuất bao gồm các hậu tố và tiền tố. Nhiều nghiên cứu đã tiếp cận theo hƣớng tập trung vào giải quyết sự khác biệt về trật tự từ giữa tiếng Anh và tiếng Việt nhƣ nghiên cứu của nhóm Nguyễn Phƣơng Thái [32], nhóm nghiên cứu của nhóm Nguyễn Thị Hồng Nhung [24], Duy Vũ [3] và đạt đƣợc một số kết quả khả quan. Tuy nhiên, sự khác nhau về hình thái từ giữa tiếng Anh và tiếng Việt vẫn chƣa đƣợc quan tâm. Do đó, đề tài sẽ tiếp cận theo hƣớng tích hợp tri thức ngôn ngữ vào hệ thống dịch máy thống kê Anh - Việt ở mức độ hình thái từ. Từ tiếng Anh sẽ đƣợc đƣa về nguyên mẫu, tách các phụ tố và gán nhãn từ loại, từ tiếng Việt sẽ đƣợc phân đoạn từ và gán nhãn từ loại. Đề tài cũng sẽ phân tích các từ loại có ảnh hƣởng tích cực đến chất lƣợng dịch của hệ thống. 1.3. Nội dung của luận văn Phần còn lại của luận văn sẽ bao gồm các chƣơng sau: Chƣơng 2 – TỔNG QUAN: Chƣơng này sẽ trình bày hƣớng tiếp cận dịch máy thống kê dựa trên ngữ, các thành phần cấu thành hệ thống dịch máy thống kê này. Chƣơng 3 – CÁC HƢỚNG TÍCH HỢP TRI THỨC NGÔN NGỮ VÀO DỊCH MÁY THỐNG KÊ: Chƣơng này sẽ khảo sát các hƣớng tiếp cận để đƣa tri thức ngôn ngữ vào trong hệ máy thống kê, phân tích ƣu khuyết điểm của các hƣớng tiếp cận này. Trang 9 Chƣơng 4 – MÔ HÌNH CỦA ĐỀ TÀI: Chƣơng này sẽ mô tả mô hình đƣợc sử dụng trong đề tài, các tri thức đƣợc đƣa vào hệ thống dịch máy thống kê Anh - Việt dựa trên ngữ và lí do lựa chọn các tri thức này. Chƣơng 5 – THỰC NGHIỆM VÀ ĐÁNH GIÁ: Chƣơng này sẽ mô tả chi tiết về các thí nghiệm đã thực hiện để đánh giá hiệu quả hƣớng tiếp cận của đề tài, đồng thời so sánh các tri thức ngôn ngữ khác nhau ảnh hƣởng nhƣ thế nào trong dịch máy thống kê Anh - Việt. Chƣơng 6 – KẾT LUẬN: nêu lên những kết quả mà luận văn đã đạt đƣợc và hƣớng phát triển trong tƣơng lai. TÀI LIỆU THAM KHẢO VÀ PHỤ LỤC: trình bày các thông tin khác có liên quan và đƣợc sử dụng trong đề tài. CÔNG TRÌNH ĐÃ CÔNG BỐ: liệt kê các bài báo khoa học, các công trình đã đƣợc công bố trong quá trình thực hiện đề tài. Trang 10 CHƢƠNG 2: TỔNG QUAN 2.1. Dịch máy thống kê Dịch máy thống kê (Statistical Machine Translation - SMT) đƣợc nghiên cứu từ những năm 1980 trong dự án Candide của IBM. Phƣơng pháp đƣợc IBM sử dụng là dịch máy thống kê dựa trên từ (word based SMT), phƣơng pháp này dịch từ một từ thuộc ngôn ngữ nguồn sang một hoặc nhiều từ thuộc ngôn ngữ đích và cho phép thêm, xoá các từ trên câu đích. Sau này, nhiều nhóm nghiên cứu đã đạt đƣợc kết quả dịch tốt hơn nhờ phƣơng pháp dịch máy thông kê dựa trên ngữ (phrase based SMT). Phƣơng pháp này đƣợc đặt nền móng từ mô hình mẫu gióng hàng (alignment template model) của [10], mô hình này có thể chuyển đổi thành một hệ thống dịch máy thống kê dựa trên ngữ. Nhiều nhóm nghiên cứu sử dụng kết quả của dịch dựa trên ngữ để tích hợp vào hệ thống của mình, chẳng hạn [34] đã thành công khi sử dụng cách dịch dựa trên ngữ trong mô hình dịch máy dựa trên cú pháp (syntax-based) của mình. Hầu hết các hệ thống dịch máy thống kê hiện nay đều sử dụng cách dịch dựa trên ngữ, một số hệ thống dịch máy nổi tiếng trong số này là CMU, IBM, ISI và Google. Các hệ thống dịch máy dựa trên ngữ đạt đƣợc những kết quả vƣợt trội trong các hội nghị đánh giá chất lƣợng dịch máy thời gian gần đây (DARPA TIDES Machine Translation Evaluation). Ngoài phƣơng pháp thống kê còn nhiều phƣơng pháp khác đƣợc sử dụng trong dịch máy. Đa số các hệ thống dịch thƣơng mại sử dụng các luật chuyển đổi và các bộ từ vựng phong phú. Cho tới gần đây, các nghiên cứu về dịch máy thƣờng tập trung vào các hệ thống dựa trên tri thức (knowledge based) sử dụng interlingua làm ngôn ngữ trung gian trong quá trình dịch. 2.1.1. Dịch máy thống kê dựa trên từ Mô hình dịch máy thống kê dựa trên từ [25] đƣợc đƣa ra bởi Brown vào năm 1990. Mô hình này giả sử rằng câu 𝑒 ở ngôn ngữ nguồn có câu dịch là câu 𝑣 ở ngôn ngữ Trang 11 đích. Một câu e có thể dịch sang đƣợc nhiều câu v. Trong dịch thống kê, ta chọn câu v có khả năng là câu dịch của e là nhiều nhất. Với mỗi cặp câu 𝑣 𝑒 ta gọi 𝑝 𝑣 𝑒 là xác suất mà 𝑒 có thể dịch thành 𝑣. Mục đích của dịch máy thống kê là tìm câu 𝑣 có xác suất 𝑝 𝑣 𝑒 là cao nhất. Tuy nhiên, việc tính xác suất 𝑝 𝑣 𝑒 không khả thi vì câu đích đƣợc tạo ra bởi chuỗi các từ vựng của ngôn ngữ đích, có thể chuỗi này không phải là câu đúng ngữ pháp. Do đó, công thức Bayes đƣợc dùng để triển khai cho xác suất 𝑝 𝑣 𝑒 : 𝑝 𝑣𝑒 = 𝑝 𝑣 .𝑝 𝑒 𝑣 𝑝 𝑒 (2.1) Vì câu tiếng Anh e không đổi nên 𝑝(𝑒) sẽ không ảnh hƣởng đến việc chọn câu 𝑒, ta có thể bỏ qua 𝑝(𝑒). Khi đó, câu dịch 𝑣 đƣợc chọn sẽ là câu có 𝑝 𝑣 . 𝑝 𝑒 𝑣 lớn nhất. 𝑣 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑣 𝑝 𝑣 𝑒 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑣 𝑝 𝑣 . 𝑝 𝑒 𝑣 (2.2) Hệ dịch máy thống kê gồm 3 phần: - Mô hình ngôn ngữ 𝑝(𝑣) (language model): Phản ánh độ trôi chảy của câu dịch. Các câu v đúng ngữ pháp và gần với cách nói tự nhiên trong ngôn ngữ đích sẽ có giá trị xác suất 𝑝(𝑣) cao hơn. Mô hình này đƣợc huấn luyện dựa trên ngữ liệu đơn ngữ. - Mô hình dịch 𝑝(𝑣) (translation model): Đƣa ra sự tƣơng ứng giữa các từ, ngữ trong các cặp ngôn ngữ. Với câu e cho trƣớc, câu dịch v nào có xác suất 𝑝(𝑣) cao hơn thì sẽ là câu dịch hợp lý hơn. Mô hình này đƣợc huấn luyện dựa trên các cặp câu song ngữ. - Bộ giải mã (Decoder): Tích hợp giữa mô hình dịch và mô hình ngôn ngữ để thực hiện quá trình dịch. Trang 12 Ngữ liệu song ngữ Ngữ liệu đơn ngữ Thống kê Thống kê Mô hình dịch Mô hình ngôn ngữ Quá trình giải mã Câu nguồn Câu đích Hình 2.1. Mô hình dịch máy thống kê 2.1.1.1. Mô hình ngôn ngữ Mô hình ngôn ngữ giúp hệ dịch xác định độ chính xác của trật tự từ (có thể cả ngữ pháp) trong câu đƣợc phát sinh. Từ chuỗi từ đƣợc phát sinh ra, hệ dịch tính tần suất dãy các từ này cùng xuất hiện trong ngôn ngữ đích. Thông tin này sẽ đƣợc dùng trong quá trình giải mã để tìm ra câu dịch hay nhất. Các hệ thống hiện nay thƣờng tính toán sử dụng mô hình ngôn ngữ n-gram, cụ thể là trigram. Mô hình ngôn ngữ n-gram tính xác suất xuất hiện của một từ dựa trên 𝑛 − 1 từ đứng trƣớc nó trong câu. Cho câu 𝑠 gồm chuỗi các từ 𝑤1 , 𝑤2 , … 𝑤𝑛 , ta tính các xác suất trong mô hình ngôn ngữ nhƣ sau: Xác suất unigram: 𝑝 𝑤1 = 𝑆ố 𝑙ầ𝑛 𝑥𝑢ấ𝑡 𝑕𝑖ệ𝑛 𝑡ừ 𝑤1 𝑇ổ𝑛𝑔 𝑠ố 𝑡ừ (2.3) Xác suất bigram: 𝑝 𝑤1 |𝑤2 = 𝑆ố 𝑙ầ𝑛 𝑥𝑢ấ𝑡 𝑕𝑖ệ𝑛 𝑐ụ𝑚 𝑤1 𝑤2 𝑆ố 𝑙ầ𝑛 𝑥𝑢ấ𝑡 𝑕𝑖ệ𝑛 𝑡ừ 𝑤1 (2.4) Trang 13 Xác suất trigram: 𝑝 𝑤3 |𝑤1 𝑤2 = 𝑆ố 𝑙ầ𝑛 𝑥𝑢ấ𝑡 𝑕𝑖ệ𝑛 𝑐ụ𝑚 𝑤1 𝑤2 𝑤3 𝑆ố 𝑙ầ𝑛 𝑥𝑢ấ𝑡 𝑕𝑖ệ𝑛 𝑐ụ𝑚 𝑤1 𝑤2 (2.5) Xác suất xuất hiện của câu 𝑠 đƣợc tính bằng tích của tất cả các xác suất xuất hiện của từng từ có trong câu 𝑠. Dƣới đây là ví dụ về cách tính xác suất xuất hiện của câu “I like bungee jumping off high bridges” theo mô hình ngôn ngữ trigram. 𝑝 𝐼 𝑙𝑖𝑘𝑒 𝑏𝑢𝑛𝑔𝑒𝑒 𝑗𝑢𝑚𝑝𝑖𝑛𝑔 𝑜𝑓𝑓 𝑕𝑖𝑔𝑕 𝑏𝑟𝑖𝑑𝑔𝑒𝑠 = 𝑝 𝐼 < 𝑠 >< 𝑠 > × 𝑝 𝑙𝑖𝑘𝑒 𝐼 < 𝑠 > × 𝑝 𝑏𝑢𝑛𝑔𝑒𝑒 𝐼 𝑙𝑖𝑘𝑒 × 𝑝 𝑗𝑢𝑚𝑝𝑖𝑛𝑔 𝑙𝑖𝑘𝑒 𝑏𝑢𝑛𝑔𝑒𝑒 × 𝑝 𝑜𝑓𝑓 𝑏𝑢𝑛𝑔𝑒𝑒 𝑗𝑢𝑚𝑝𝑖𝑛𝑔 × 𝑝 𝑕𝑖𝑔𝑕 𝑗𝑢𝑚𝑝𝑖𝑛𝑔 𝑜𝑓𝑓 × 𝑝 𝑏𝑟𝑖𝑑𝑔𝑒𝑠 𝑜𝑓𝑓 𝑕𝑖𝑔𝑕 × 𝑝( |𝑕𝑖𝑔𝑕 𝑏𝑟𝑖𝑑𝑔𝑒𝑠) × 𝑝( |𝑏𝑟𝑖𝑑𝑔𝑒𝑠 ) Trong thực tế, ngữ liệu thƣờng bị phân tán, nếu từ không tồn tại trong ngữ liệu thì xác suất xuất hiện của nó sẽ bằng 0. Điều này dẫn đến xác suất của chuỗi từ đƣợc tính bằng tích các xác suất của từng từ sẽ bằng 0. Để tránh xác suất 0, công thức tính xác suất xuất hiện của từ đƣợc điều chỉnh nhƣ sau: 0.8 × 𝑝 𝑤3 𝑤1 𝑤2 + 0.15 × 𝑝 𝑤3 𝑤2 + 0.049 × 𝑝 𝑤3 + 0.001 Ngoài mô hình ngôn ngữ n-gram, còn có một số mô hình ngôn ngữ khác nhƣ: mô hình ngôn ngữ web n-gram và mô hình ngôn ngữ cú pháp. 2.1.1.2. Gióng hàng từ Để ƣớc lƣợng các tham số trong mô hình dịch, bảng dịch ngữ đƣợc tạo ra dựa trên gióng hàng từ. Gióng hàng là tạo liên kết giữa các cặp từ (ngữ) tƣơng ứng bằng cách đánh dấu vị trí của những từ ở câu nguồn vào từ (ngữ) ở câu đích. Ví dụ, gióng hàng từ giữa cặp câu song ngữ: She takes a small green box. Cô ấy lấy một chiếc hộp nhỏ màu xanh. Trang 14 đƣợc biểu diễn nhƣ sau: She takes Cô ấy lấy a một small green chiếc hộp nhỏ box . màu xanh . Hình 2.2. Biểu diễn gióng hàng từ dạng liên kết Một cách khác để biểu diễn gióng hàng từ là sử dụng bảng nhƣ bảng 2.1. Bảng 2.1. Bảng biểu diễn gióng hàng từ dạng bảng She takes a small green box . Cô ấy lấy một chiếc hộp nhỏ màu xanh . Mô hình gióng hàng từ IBM (Brown, 1993) mặc dù đƣợc đƣa ra từ rất lâu nhƣng hiện nay vẫn đƣợc xem là mô hình tiên tiến nhất hiện nay. Mô hình này giả sử rằng các liên kết từ giữa cặp câu luôn tồn tại, nhƣng chƣa xác định đƣợc vị trí của các liên kết đó. Giả sử ta có cặp câu song ngữ, câu tiếng Anh 𝑒 có 𝑚 từ và câu tiếng Việt 𝑣 có 𝑛 từ: 𝑒 = 𝑒1 , 𝑒2 , … 𝑒𝑚 𝑣 = 𝑣1 , 𝑣2 , … 𝑣𝑛 Trang 15 Gọi gióng hàng từ 𝑎𝑗 : 𝑗 → 𝑖 liên kết từ tiếng Anh thứ 𝑗 sang từ tiếng Việt thứ 𝑖 và 𝑎 là tập các liên kết từ tất cả các từ trong câu e 𝑎 = 𝑎1 , 𝑎, … 𝑎𝑚 Từ xác suất gióng hàng từ, ta có thể tính đƣợc xác suất dịch theo công thức: 𝑝 𝑣𝑒 = 𝑝 𝑎, 𝑒 𝑣 𝑎 (2.6) Xác suất gióng hàng từ giữa các từ trong cặp câu, 𝑝 𝑎, 𝑒 𝑣 đƣợc tính nhƣ sau: 𝑚 𝑝 𝑎, 𝑒 𝑣 = 𝑡 𝑒𝑗 𝑣𝑖 𝑗 =1 (2.7) Trong đó, 𝑡 𝑒𝑗 𝑣𝑖 đƣợc tính dựa trên các gióng hàng từ (ngữ) trong ngữ liệu song ngữ. Tuy nhiên, để tạo ra ngữ liệu gióng hàng từ (ngữ) đòi hỏi rất nhiều công sức cho việc gán nhãn. Do đó, thật toán Expectation Maximization (EM) đã đƣợc [24] đề xuất để ƣớc lƣợng các gióng hàng từ (ngữ) này. Ý tƣởng của thuật toán EM nhƣ sau: Đầu tiên, với mọi cặp câu song ngữ có trong ngữ liệu, ta giả định tất cả các từ trong câu nguồn đều có gióng hàng từ với tất cả các từ trong câu đích, các xác suất gióng hàng từ đƣợc khởi tạo giá trị ban đầu nhƣ nhau. … … my house nhà của tôi … … small house nhà nhỏ … … my mobile … điện_thoại của tôi … Sau đó, qua mỗi lần lặp, các cặp từ thƣờng gióng hàng với nhau nhất sẽ đƣợc xác định. Trang 16 Liên kết giữa “my” và “của tôi” đƣợc xác định: … … my house nhà của tôi … … small house nhà nhỏ … … my mobile … điện_thoại của tôi … Liên kết “house” và “nhà” đƣợc xác định: … … my house nhà của tôi … … small house nhà nhỏ … … my mobile … điện_thoại của tôi … Các liên kết khác đƣợc xác định: … … my house nhà của tôi … … small house nhà nhỏ … … my mobile … điện_thoại của tôi … Kết quả gióng hàng từ cuối cùng: … … my house nhà của tôi … … small house nhà nhỏ … … my mobile … điện_thoại của tôi … Cuối cùng, các xác suất gióng hàng từ sẽ hội tụ, giá trị không thay đổi nhiều. Khi đó ta đƣợc cả hai thông tin là thông tin về gióng hàng từ và giá trị xác suất tƣơng ứng. Sử dụng thuật toán EM, Stephan Vogel đề ra các mô hình IBM có tên gọi lần lƣợt là IBM1, IBM2, IBM3, IBM4, IBM5 và Franz-Joseph Och đề ra mô hình 6 để tạo ra gióng hàng từ trên các cặp câu song ngữ. Trang 17 Hiện tại, công cụ phổ biến nhất để gióng hàng từ là GIZA++. Công cụ này đƣợc xây dựng dựa trên các mô hình IBM. Tuy nhiên, công cụ này có hạn chế là chỉ cho phép gióng hàng một từ thuộc ngôn ngữ nguồn với một hoặc nhiều từ thuộc ngôn ngữ đích. [10] đề xuất cách tiếp cận dựa trên heuristic để cải tiến kết quả gióng hàng từ có đƣợc từ GIZA++. Tất cả các điểm nằm trong vùng giao của hai gióng hàng từ sẽ đƣợc giữ lại và vùng gióng hàng từ đƣợc mở rộng tối đa không vƣợt quá vùng giao của hai gióng hàng từ. Đầu tiên, ngữ liệu song ngữ đƣợc gióng hàng từ cả hai phía, từ ngôn ngữ nguồn sang ngôn ngữ đích và từ ngôn ngữ đích sang ngôn ngữ nguồn. Quá trình này tạo ra hai gióng hàng từ. Nếu lấy phần giao hai gióng hàng từ này, chúng ta sẽ có gióng hàng từ với độ chính xác cao (high-precision). Ngƣợc lại, nếu lấy phần hợp của hai gióng hàng từ, chúng ta sẽ có gióng hàng từ với độ bao phủ (high-recall) cao. Hình 2.2 minh họa quá trình này. Trong hình, các điểm nằm trong vùng giao có màu đen, các điểm mở rộng có màu xám. Trang 18 Hình 2.3. Hình minh hoạ quá trình cải tiến gióng hàng từ 2.1.1.3. Quá trình giải mã (decoding) Nhiệm vụ của của quá trình này là tìm câu dịch thích hợp nhất khi biết câu nguồn. - Chia câu nguồn thành nhiều từ hoặc cụm từ. - Tra trong bảng ngữ để tìm các ngữ dịch tƣơng ứng. - Kết hợp các ngữ tìm đƣợc lại thành câu và chọn những câu có xác suất mô hình dịch nhân với xác suất mô hình ngôn ngữ lớn nhất. 2.1.2. Mô hình dịch máy thống kê dựa trên ngữ Hệ dịch thống kê dựa trên từ có khuyết điểm là không lấy đƣợc thông tin ngữ cảnh mà chỉ dựa trên các phân tích thống kê về từ. Mô hình dịch máy thống kê dựa trên ngữ cải tiến hơn ở chỗ thay vì xử lý trên từ thì xử lý trên ngữ. Điều này cho phép hệ thống có thể dịch các cụm từ tránh đƣợc dịch word-by-word. Trang 19

- Xem thêm -

Tài liệu Tích hợp thông tin hình thái từ vào hệ dịch máy thống kê anh việt

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất