Tài liệu Tối ưu bảng cụm từ để cải tiến dịch máy thống kê

.PDF

165

129

uploadxemtailieu Báo vi phạm

Tải xuống 129

Mô tả:

i ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ------- ------- KIỀU CÔNG CHÍNH TỐI ƢU BẢNG CỤM TỪ ĐỂ CẢI TIẾN DỊCH MÁY THỐNG KÊ LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên - 2015 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ii MỤC LỤC MỞ ĐẦU .............................................................................................................. 1 CHƢƠNG I: DỊCH MÁY THỐNG KÊ TRÊN CƠ SỞ CỤM TỪ ................. 3 1.1 Ngôn ngữ tự nhiên ..................................................................................... 3 1.2 Dịch máy..................................................................................................... 3 1.3 Dịch máy thống kê dựa vào cụm từ ......................................................... 4 1.3.1 Cơ sở của phương pháp dịch máy thống kê ...................................... 5 1.3.2 Gióng hàng từ, gióng hàng thống kê ................................................. 6 1.3.3 Dịch máy thống kê dựa trên cơ sở cụm từ. ........................................ 8 1.3.4 Mục đích của việc dịch máy thống kê trên cơ sở cụm từ. ............... 11 1.3.5 Đảo cụm từ trong dịch máy thống kê ............................................... 13 1.3.6 Bảng cụm từ trong dịch máy thống kê ............................................. 13 1.4 Mô hình ngôn ngữ ................................................................................... 14 CHƢƠNG II: PHƢƠNG PHÁP TỐI ƢU BẢNG CỤM TỪ......................... 16 2.1 Quy trình sinh bảng cụm từ ................................................................... 16 2.2 Phƣơng pháp tối ƣu bảng cụm từ .......................................................... 19 2.2.1 Chỉ số cụm từ nguồn ......................................................................... 19 2.2.2 Lưu trữ cụm từ mục tiêu................................................................... 20 2.2.3 Nén ngữ liệu song ngữ...................................................................... 22 2.2.4 Nén bảng cụm từ ............................................................................... 27 2.2.5 Mã hóa cụm từ .................................................................................. 31 2.2.6 Giải mã cụm từ .................................................................................. 33 CHƢƠNG III: ĐÁNH GIÁ THỰC NGHIỆM BẰNG HỆ DỊCH MÁY THỐNG KÊ MOSES ........................................................................................ 36 3.1 Môi trƣờng triển khai ............................................................................. 36 3.2 Xây dựng chƣơng trình dịch và thực hiện nén bảng cụm từ. ............. 36 3.2.1 Chuẩn hóa dữ liệu............................................................................. 36 3.2.2 Xây dựng mô hình ngôn ngữ, mô hình dịch ................................... 37 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn iii 3.2.3 Nén bảng cụm từ ............................................................................... 37 3.2.4 Đánh giá kết quả dịch ....................................................................... 38 3.3 Thực nghiệm và đánh giá kết quả dịch tiếng Anh sang tiếng Việt..... 39 3.3.1 Thực nghiệm dịch với câu đơn giản. ............................................... 43 3.3.2 Thực nghiệm dịch 1 đoạn văn bản từ tiếng Anh-Tiếng Việt .......... 44 3.3.3 Đánh giá kết quả dữ liệu huấn luyện bảng cụm từ......................... 44 3.3.4 Đánh giá kết quả theo cỡ dữ liệu huấn luyện ................................. 46 3.3.5 Đánh giá kết quả theo thời gian tải bảng cụm từ ............................ 47 PHỤ LỤC ........................................................................................................... 50 1. Kết quả dịch máy đối với câu đơn giản. .................................................... 50 2. Kết quả dịch máy đối với bộ dữ liệu. ......................................................... 51 3. Một số công cụ tiền xử lý thường được hay sử dụng trong hệ dịch. ....... 52 Tài liệu tham khảo ............................................................................................ 54 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn iv DANH MỤC HÌNH Hình 1.1: Sơ đồ của hệ dịch bằng phương pháp thống kê................................ 5 Hình 1.2: Gióng hàng với những từ tiếng anh độc lập ..................................... 7 Hình 1.3: Gióng hàng với những từ tiếng việt độc lập ..................................... 7 Hình 1.4: Gióng hàng tổng quát ....................................................................... 7 Hình 1.5: Mô hình dịch từ Tiếng Anh- Tiếng Việt. ........................................... 9 Hình 1.6: Mô tả việc giải mã .......................................................................... 12 Hình 2.1: Sơ đồ đơn giản hóa bảng cụm từ .................................................... 19 Hình 2.2: Mô tả quá trình tạo cây Huffman ................................................... 26 Hình 3.1: Dịch câu đơn giản với bảng cụm từ gốc ......................................... 51 Hình 3.2: Dịch câu đơn giản với bảng cụm tối ưu ......................................... 51 Hình 3.3: Điểm Bleu bộ dữ liệu bảng cụm từ gốc .......................................... 52 Hình 3.4: Điểm Bleu bộ dữ liệu bảng cụm từ tối ưu....................................... 52 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn v DANH MỤC BẢNG Bảng 2.1 : Một số phần tử trong bảng cụm từ ................................................ 18 Bảng 2.2: Bảng mã hóa huffman .................................................................... 27 Bảng 2.3: Bảng tùy chọn mã Simple 9 ............................................................ 28 Bảng 3.1: Ngữ liệu tiếng việt. ......................................................................... 40 Bảng 3.2: Ngữ liệu tiếng anh. ......................................................................... 40 Bảng 3.5: Dữ liệu đầu vào .............................................................................. 42 Bảng 3.3: So sánh kết quả dịch máy với một câu đơn. ................................... 43 Bảng 3.4: So sánh hai phương pháp dịch với đầu vào là một văn bản .......... 44 Bảng 3.5: So sánh dữ liệu bảng cụm từ gốc và bảng cụm sau khi nén .......... 45 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn vi DANH MỤC BIỂU ĐỒ Biểu đồ 3.1: Biểu đồ so sánh 1…………………………………………………. 45 Biểu đồ 3.2: Biểu đồ so sánh 2. …………………………………………………46 Biểu đồ 3.3: Biểu đồ so sánh 3 ……………………………………………………48 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn vii DANH SÁCH CÁC TỪ VIẾT TẮT Viết tắt Đầy đủ PB-SMT Cụm từ base Statistical Machine Translation SMT Statistical Machine Translation PR-Enc Cụm từ Rank Encoding Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 1 MỞ ĐẦU Hiện nay trên thế giới có khoảng 5650 ngôn ngữ khác nhau, với một số lượng ngôn ngữ lớn như vậy đã gây ra rất nhiều khó khăn trong việc trao đổi thông tin, trong giao tiếp, đồng thời ngăn cản sự phát triển của thương mại và mậu dịch quốc tế. Mặt khác, với việc bùng nổ Internet như hiện nay, có một khối lượng văn bản khổng lồ trên Internet mà phần lớn là bằng tiếng Anh. Do tính đa dạng của nó mà việc hiểu các văn bản này hoàn toàn không dễ chút nào. Do đó việc có một hệ dịch tự động Anh-Việt là hết sức cần thiết. Với những khó khăn như vậy người ta đã phải dùng đến một đội ngũ phiên dịch khổng lồ, để dịch các văn bản, tài liệu, lời nói từ tiếng nước này sang tiếng nước khác. Những công việc đó mang tính chất thủ công, nặng nhọc trong khi khối lượng văn bản cần dịch ngày càng nhiều. Để khắc phục những nhược điểm trên hiện nay có rất nhiều những hệ thống tự động dịch miễn phí trên mạng như: systran, google translate, vietgle, vdict... Những hệ thống này cho phép dịch tự động các văn bản với một cặp ngôn ngữ chọn trước (ví dụ dịch từ tiếng Anh sang tiếng Việt) [1]. Điều ấy cho thấy sự phát triển của dịch máy càng ngày càng tiến gần hơn đến ngôn ngữ tự nhiên của con người. Ngay từ khi xuất hiện chiếc máy tính điện tử đầu tiên người ta đã tiến hành nghiên cứu về dịch máy. Công việc đưa ra mô hình tự động cho việc dịch đã và đang được phát triển, mặc dù chưa giải quyết được triệt để lớp ngôn ngữ tự nhiên. Nhưng sự ra đời của chúng đã khẳng định được ích lợi to lớn về mặt chiến luợc và kinh tế, đồng thời các vấn đề liên quan đến dịch máy cũng là những chủ đề quan trọng của ngành khoa học máy tính, bởi chúng liên quan đến vấn đề xử lí ngôn ngữ tự nhiên, một trong những vấn đề có ý nghĩa nhất mà trí tuệ nhân tạo có khả năng giải quyết. Người ta tin rằng việc xử lí ngôn ngữ tự nhiên trong đó có dịch máy sẽ là giải pháp cho việc mở rộng cánh cửa đối thoại người-máy, lúc đó con người không phải tiếp xúc với Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 2 máy qua những dòng lệnh cứng nhắc nữa mà có thể giao tiếp một cách trực tiếp với máy. Với sự phát triển mạnh mẽ của dịch máy tự động thì dịch máy thống kê (Statistical Machine Translation) đã chứng tỏ là một hướng tiếp cận đầy tiềm năng bởi ưu điểm vượt trội so với các phương pháp dịch máy dựa trên cú pháp truyền thống. Kết quả thực tế của hệ thống dịch máy thống kê tốt hơn, ngôn ngữ dịch càng ngày càng gần với ngôn ngữ của người, giúp con người trao đổi thông tin dễ dàng hơn, tốc độ nhanh hơn và cùng với nhiều ngôn ngữ hơn. Hiện nay, phương pháp dịch thống kê dựa trên cụm từ là phương pháp cho kết quả dịch tốt nhất. Để dịch hiệu quả thì bảng cụm từ phải lớn chính vì vậy việc lưu trữ và tìm kiếm trong bảng cụm từ là rất quan trọng. Chính vì thế, luận văn này tôi lựa chọn và thực hiện đề tài “Tối ƣu bảng cụm từ để cái tiến dịch máy thống kê”. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 3 CHƢƠNG I: DỊCH MÁY THỐNG KÊ TRÊN CƠ SỞ CỤM TỪ Hiện nay dịch máy thông kê dựa trên cơ sở cụm từ là một trong những hướng phát triển đang được rất nhiều người quan tâm. Dịch máy thống kê dựa trên cụm từ nhằm mục đích dịch một văn bản từ ngôn ngữ nguồn sang ngôn ngữ đích dựa vào bảng ngữ cụm từ sau khi thực hiện việc gióng hàng từ, gióng hàng thống kê, đảo cụm từ… kết hợp với mô hình ngôn ngữ. 1.1 Ngôn ngữ tự nhiên Ngôn ngữ tự nhiên là những ngôn ngữ được con người sử dụng trong các giao tiếp hàng ngày nghe, nói, đọc, viết. Mặc dù con người có thể dễ dàng hiểu và học các ngôn ngữ tự nhiên, việc làm cho máy hiểu được ngôn ngữ tự nhiên không phải là chuyện dễ dàng. Sở dĩ có khó khăn là do ngôn ngữ tự nhiên có các bộ luật, cấu trúc ngữ pháp phong phú hơn nhiều các ngôn ngữ máy tính, hơn nữa để hiểu đúng nội dung các giao tiếp, văn bản trong ngôn ngữ tự nhiên cần phải nắm được ngữ cảnh của nội dung đó. Do vậy, để có thể xây dựng được một bộ ngữ pháp, từ vựng hoàn chỉnh, chính xác để máy có thể hiểu ngôn ngữ tự nhiên là một việc rất tốn công sức và đòi hỏi người thực hiện phải có hiểu biết sâu về ngôn ngữ học. Do đó cần phải tìm ra một phương pháp dịch tư động tối ưu để làm giảm công sức trong vấn đề về dịch ngôn ngữ nói chung. 1.2 Dịch máy Dịch tự động hay còn gọi là dịch máy là một trong những ứng dụng quan trọng của xử lý ngôn ngữ tự nhiên, là sự kết hợp của ngôn ngữ, dịch thuật và khoa học máy tính. Như tên gọi dịch tự động là việc thực hiện dịch một ngôn ngữ đầu vào (ngôn ngữ này gọi là ngôn ngữ nguồn) sang một hoặc nhiều ngôn ngữ khác (gọi là ngôn ngữ đích) bằng các công cụ, phần mềm trên máy tính đã được lập trình sẵn mà không cần có sự can thiệp của con người. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 4 Do được lập trình sẵn bằng công cụ, thuật toán trên máy tính nên hầu hết việc dịch tự động đều mang tính sát nghĩa, hoặc mang tính tương đối. Ngày nay người ta đã phát triển nhiều phương pháp để tối ưu hóa khả năng dịch của máy tính. Dịch máy có hai hướng tiếp cận chính đó là: Hướng luật (Rules-based ): dịch dựa vào các luật viết tay. Các luật này dựa trên từ vựng hoặc cú pháp của ngôn ngữ. Ưu điểm của phương pháp này là có thể giải quyết được một số trường hợp dịch nhưng lại mất nhiều công sức và tính khả chuyển không cao. Thống kê (Statistical) [2]: tạo ra bản sử dụng phương pháp thống kê dựa trên bản dịch song ngữ. 1.3 Dịch máy thống kê dựa vào cụm từ Dịch máy thống kê: Là một phương pháp dịch máy trong đó các bản dịch được tạo ra trên cơ sở các mô hình thống kê có các tham số được bắt nguồn từ việc phân tích các cặp câu song ngữ. Các phương pháp tiếp cận thống kê tương phản với các phương pháp tiếp cận dựa trên luật trong dịch máy cũng như với dịch máy dựa trên ví dụ. Thay vì xây dựng các từ điển, các quy luật chuyển đổi bằng tay, hệ dịch này tự động xây dựng các từ điển, các quy luật dựa trên kết quả thống kê có được từ kho ngữ liệu. Chính vì vậy dịch máy thống kê có tính khả chuyển cao và áp dụng được cho bất cứ cặp ngôn ngữ nào. Ý tưởng đầu tiên của dịch máy thống kê đã được giới thiệu bởi Warren Weaver [2] vào năm 1949, bao gồm cả những ý tưởng của việc áp dụng lý thuyết thông tin của Claude Shannon. Dịch máy thống kê được tái giới thiệu vào năm 1991 bởi các nhà nghiên cứu làm việc tại Trung tâm nghiên cứu Thomas J.Watson của IBM và đã góp phần đáng kể trong sự hồi Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 5 sinh việc quan tâm đến dịch máy trong những năm gần đây. Ngày nay nó là phương pháp dịch máy được nghiên cứu nhiều nhất. 1.3.1 Cơ sở của phương pháp dịch máy thống kê Mục tiêu là dịch một văn bản từ ngôn ngữ nguồn sang ngôn ngữ đích. Chúng ta có câu văn bản trong ngôn ngữ nguồn (“Tiếng Anh”) e1I  e1 ,...,ei , mà được dịch thành câu văn bản trong ngôn ngữ đích (“Tiếng Việt”) v1J  v1 ,...,v j , . Trong tất cả các câu có thể có trong văn bản đích, chúng ta chọn câu sao cho: V1J  arg max p(v1J | e1I ) (1.1) Kiến trúc tổng quát của một mô hình dịch thống kê thể hiện trên hình 1.1 Câu nguồn Tiền xử lý Bộ giải mã (tìm kiếm): V1J  arg max p(v1J | e1I ) Mô hình ngôn ngữ Mô hình gióng hàng Mô hình từ vựng Hậu xử lý …. Câu đích Hình 1.1: Sơ đồ của hệ dịch bằng phương pháp thống kê Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 6 1.3.2 Gióng hàng từ, gióng hàng thống kê Gióng hàng xác định ánh xạ i →j = ai: Từ vị trí i của câu nguồn tương ứng với vị trí j = ai của câu đích[1]. Việc tìm kiếm được thực hiện dựa vào cực đại biểu thức sau:   j I I j   V  arg m ax  pr (v1 ). pr (e1 , a1 / v1 )  j I v1   a1   (1.2) Do đó, không gian tìm kiếm bao gồm tập tất cả các câu ngôn ngữ đích có thể có v1J và tất cả gióng hàng có thể có a1I. Chúng ta nói rằng cặp xâu kí tự mà xâu này được dịch từ xâu kia từ ngôn ngữ này sang ngôn ngữ khác là cặp xâu dịch. Chúng ta có thể kí hiệu cặp xâu dịch (I like a blue book|Tôi thích quyển sách màu xanh) mà nó biểu diễn là xâu “I like a blue book” (tiếng Anh) được dịch thành “Tôi thích quyển sách màu xanh” (tiếng Việt). Brow và cộng sự [6] đã chỉ ra ý tưởng về việc gióng hàng giữa cặp xâu kí tự dịch như là một sự tương ứng giữa các từ của xâu tiếng Anh với các từ của xâu tiếng Pháp. Điều này ta có thể thấy hoàn toàn tương tự như trong cặp xâu dịch Anh - Việt. Mỗi đương như vậy ta gọi là 1 kết nối. Gióng hàng được biểu diễn bằng đồ thị như hình 1 bằng cách vẽ các đường nối giữa một số từ tiếng Anh và một số từ tiếng Việt. Ví dụ: Trong hình 1.2, ta có 5 kết nối: (I(1) like(2) a(3) blue(4) book(5)|Tôi(1) thích(2) quyển(3) sách(4) màu xanh(5)). Việc kết nối này có thể là: - một từ tiếng Anh tương ứng với 1 từ tiếng Việt (hình 1.2) - một từ tiếng Anh tương ứng nhiều từ tiếng Việt (hình 1.3) - nhiều từ tiếng Anh tương ứng nhiều từ tiếng Việt (hình 1.4) Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 7 Chúng ta kí hiệu tập gióng hàng của (v/e) là A(e,v). Nếu e có độ dài là I và v có độ dài là J, ta sẽ có I*J liên kết khác nhau giữa J từ tiếng Việt và từ tiếng Anh. Khi đó, số gióng hàng từ cặp câu (v,e) là 2 IJ. Nghĩa là số tập con của A(e,v) = 2IJ I like Tôi a thích blue sách quyển book màu xanh Hình 1.2: Gióng hàng với những từ tiếng anh độc lập I take on Tôi extra work làm việc thêm in order to để kiếm get money tiền Hình 1.3: Gióng hàng với những từ tiếng việt độc lập I feel Tôi under the cảm thấy weather không khỏe Hình 1.4: Gióng hàng tổng quát Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 8 Một cách tổng quát, mô hình gióng hàng thống kê phụ thuộc vào tập tham số chưa biết θ mà được học từ dữ liệu huấn luyện. Để biểu diễn sự phụ thuộc của mô hình vào tập các tham số, ta có công thức: Pr(e,a | v) = pθ(e,a | v) (1.2) Tính sáng tạo trong mô hình thống kê là phải phát triển các mô hình cụ thể mà nắm bắt các thuộc tính có liên quan của lĩnh vực vấn đề được xem xét. Trong trường hợp của chúng ta, mô hình gióng hàng thống kê phải mô tả mối quan hệ giữa xâu ngôn ngữ nguồn và xâu ngôn ngữ đích tương xứng. Để huấn luyện tập tham số θ, chúng ta có sẵn corpus song ngữ bao gồm S cặp câu {(es,vs) :s = 1, …, S}. Với mỗi cặp câu (es,vs), biến gióng hàng được kí hiệu là a. Tập tham số θ được xác định dựa vào cách tiếp cận hợp lý cực đại trong corpus huấn luyện song ngữ: s θˆ = arg arg   p (e,a | v)  s 1 a  (1.3) Trong dịch thống kê, chúng ta cố gắng mô hình hóa xác suất dịch Pr(e/v) mà chúng mô tả mối quan hệ giữa câu ngôn ngữ nguồn e và câu ngôn ngữ đích v. Có rất nhiều cách để dịch từ cùng một câu tiếng Anh sang cùng một câu Tiếng Việt. Với mỗi gióng hàng cho ta tương ứng một cách dịch. Vì vậy, ta có công thức quan hệ giữa mô hình dịch và mô hình gióng hàng: P(e | v) =  P(e,a | v) (1.4) a trong đó a là một gióng hàng của cặp (e,v). 1.3.3 Dịch máy thống kê dựa trên cơ sở cụm từ. Cụm từ (cụm từ) là một nhóm từ kết hợp với nhau tạo thành nghĩa những không đầy đủ. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 9 Nhóm nghiên cứu về dịch máy thống kê ở trường Johns Hopkins đã dựng lên EGYPT [7], một công cụ dịch máy thống kê mã nguồn mở. Trong đó có GIZA++, một công cụ training cho mô hình IBM 1-5, được sử dụng để tạo bảng ánh xạ từ-từ cho nhiều mô hình dịch theo phương pháp bảng cụm từ. Dịch máy thống kê trên cơ sở cụm từ [5] có mục đích là để giảm bớt các hạn chế của dịch máy thống kê trên cơ sở từ bằng cách dịch cụm từ, trong đó độ dài cụm từ nguồn và cụm từ đích có thể khác nhau. Các cụm từ trong kỹ thuật này thường không theo nghĩa ngôn ngữ học mà là các cụm từ được tìm thấy bằng cách sử dụng phương pháp thống kê để trích rút từ các cặp câu. Việc sử dụng các cụm từ theo nghĩa ngôn ngữ học (tức là dựa trên cú pháp) làm giảm chất lượng của dịch máy bằng phương pháp này. Câu nguồn e: “She is a teacher” Ngữ liệu đơn ngữ Tiền xử lý Bộ giải mã (tìm kiếm): Mô hình ngôn ngữ:P(v) ^ V  arg max p(v | e)* p(v) Mô hình dịch:P(e|v) Hậu xử lý Ngữ liệu song ngữ Câu đích v: “Cô ấy là giáo viên” Hình 1.5: Mô hình dịch từ Tiếng Anh- Tiếng Việt. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 10 Mô hình dịch dựa trên cụm từ thường không thực hiện đúng theo trình tự của phương pháp dựa trên cơ sở từ, mà sử dụng khuôn dạng của bản ghi tuyến tính. Các thành phần như là mô hình ngôn ngữ, mô hình dịch cụm từ, mô hình dịch từ vựng hoặc mô hình đảo cụm đều được sử dụng một cách thích hợp. Khuôn dạng này cho phép tích hợp các tính năng bổ sung như số lượng các từ được tạo ra hoặc số các bản dịch cụm từ được sử dụng. Trong dịch dựa trên cụm [3], một chuỗi các từ liên tiếp (cụm) được dịch sang ngôn ngữ đích, với độ dài cụm ngôn ngữ nguồn và đích có thể khác nhau. Câu vào được chia thành một số cụm, từng cụm một được dịch sang ngôn ngữ đích, và sau đó các cụm được đảo trật tự theo một cách nào đó rồi ghép với nhau. Cuối cùng ta thu được câu dịch trong ngôn ngữ đích. Giả sử ta gọi ngôn ngữ nguồn là f và ngôn ngữ đích là e, chúng ta sẽ cố gắng tối đa hóa xác suất Pr(f|e ) với mong muốn có được bản dịch tốt nhất. Thực tế là tồn tại rất nhiều bản dịch đúng cho cùng một câu, mục đích của ta là tìm ra câu ngôn ngữ e phù hợp nhất khi cho trước câu ngôn ngữ nguồn f. Dịch dựa vào cụm sử dụng mô hình kênh nhiễu, áp dụng công thức Bayes ta có: arg maxe Pr(e|f)= arg maxe Pr(f|e )Pr(e )/Pr( f) (1.5) Do Pr(f) là không đổi đối với e, vấn đề trở thành việc tìm câu e nhằm tối đa hóa Pr(f |e)Pr(e). Việc xây dựng mô hình ngôn ngữ cần sử dụng một ngữ liệu đơn ngữ lớn, trong khi đó mô hình dịch lại cần đến ngữ liệu song ngữ tốt. Bộ giải mã được sử dụng để chia câu nguồn thành các cụm và sinh ra các khả năng dịch có thể cho mỗi cụm nhờ sự trợ giúp của bảng cụm (phrasetable). Để sinh ra được câu dịch, câu nguồn được chia thành I cụm liên tiếp f1I. Chúng ta giả sử rằng phân phối xác suất là như nhau đối với các cụm này. Mỗi cụm fi trong f1I được dịch thành cụm tương ứng trong ngôn ngữ đích ei. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 11 Các cụm trong ngôn ngữ đích có thể đảo ví trí cho nhau. Quá trình dịch cụm được mô hình hóa bởi phân phối xác suất p(fi|ei). Mô hình đảo cụm thường được mô hình hóa bởi một khoảng cách cơ sở. Đảo cụm thường bị giới hạn bởi sự dịch chuyển số lượng tối đa các từ. Các mô hình đảo cụm thường tuân theo ngữ pháp của ngôn ngữ đích (ví dụ như Tiếng Anh – Tiếng Việt, Với Tiếng Anh thì tính từ nằm trước danh từ, nhưng tiếng Việt thì ngược lại). 1.3.4 Mục đích của việc dịch máy thống kê trên cơ sở cụm từ. Mục đích chính của việc sử dụng cụm từ trong dịch máy thống kê là để giảm bớt hạn chế của việc dịch máy thống kê trên cơ sở từ [5]. Thông thường với một ngôn ngữ nhất định 1 từ có thể có nhiều nghĩa trong những văn cảnh khác nhau. Việc dịch máy dựa vào dịch từng từ một và sau đó ghép tổ hợp của chúng với nhau thường dẫn đến những kết quả không tốt và phải xử lý một tổ hợp kết quả khá lớn. Ví dụ : Xét một câu đơn có n từ: AnAn-1….A2A1 Với mỗi từ An, An-1…A1 sẽ có tương ứng Xn, Xn-1, Xn-2… X1 nghĩa Do vậy với việc dịch trên cơ sở từ thì số ngôn ngữ đích tối đa có thể có sẽ là: (1.6) (chưa sử dụng các thuật toán tối ưu và nén với từ) Việc sử dụng cụm từ trong dịch máy sẽ làm tăng độ chính xác của dịch máy đồng thời làm giảm đáng kể thời gian dịch của máy. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 12 Ví dụ: He did not go home Anh_ta làm không đi nhà Nó thực_hiện không phải trở thành chỗ ở Đàn_ông không_đúng đã nó làm về quê_hương trở_thành quê_hương đã anh_ta đi_về đã_không làm_không_đúng Mở rộng không gian giả thuyết: He Did Not Go Home Hình 1.6: Mô tả việc giải mã Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 13 1.3.5 Đảo cụm từ trong dịch máy thống kê Đơn vị dịch: Cụm từ, là một chuỗi các từ liên tiếp bất kỳ She is a Cô ấy là một good Teacher Giáo viên Giỏi - Mỗi cụm tiếng Việt vj ứng với một cụm tiếng Anh ei - (ei|vj): xác suất dịch cụm từ Các cụm từ có thể bị dịch chuyển: + d(starti-endi-1-1): xác suất chuyển dịch + starti: vị trí đầu tiên của cụm từ tiếng Anh ứng với vi + endi-1: vị trí cuối của cụm từ tiếng Anh ứng với vi-1  Xác suất p(e|v) : i p (e | v)    (ei | vi ) d ( starti  end i 1  1) (1.7) i 1 1.3.6 Bảng cụm từ trong dịch máy thống kê Đối với dịch máy thống kê trên cơ sở cụm từ, ta cũng cần phải có một bộ ngữ liệu liên quan đến các cụm từ. Chính vì vậy bảng cụm từ đã được xây dựng. Bảng cụm từ được sử dụng trong dịch máy thống kê dựa trên cụm từ là rất lớn. Kích thước của chúng là một hệ quả trực tiếp của cách tiếp cận bảng cụm từ trong dịch máy thống kê sao cho sự tiên đoán trước có thể truy cập được một cách hiệu quả. Việc tính toán trước sẽ làm tăng lên tổ hợp của cụm từ và cụm từ dư thừa cho bất kỳ cụm từ nào và tất cả các cụm từ con (Subphrase) có thể có được trong bảng cụm từ. Bảng cụm từ được lưu trữ một cách rõ ràng hiện nay là đại diện được sử dụng rộng rãi nhiều nhất các mô hình dịch trong PB-SMT. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

- Xem thêm -

Tài liệu Tối ưu bảng cụm từ để cải tiến dịch máy thống kê

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất