Tài liệu Gióng hàng văn bản song ngữ Anh -Việt Luận văn ThS. Công nghệ thông tin

.PDF

263

nguyetha Báo vi phạm

Tải xuống 77

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Duy Cường GIÓNG HÀNG VĂN BẢN SONG NGỮ ANH – VIỆT LUẬN VĂN TỐT NGHIỆP CAO HỌC HỆ CHÍNH QUY Ngành: Khoa học máy tính [DATE] [COMPANY NAME] [Company address] HÀ NỘI - 2015 1 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Duy Cường GIÓNG HÀNG VĂN BẢN SONG NGỮ ANH – VIỆT LUẬN VĂN TỐT NGHIỆP CAO HỌC HỆ CHÍNH QUY Ngành: Khoa học máy tính Cán bộ hướng dẫn: PGS.TS Lê Anh Cường HÀ NỘI - 2015 2 LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các công trình khác như đã ghi rõ trong luận văn, các công việc trình bày trong luận văn này là do chính tôi thực hiện và chưa có phần nội dung nào của luận văn này được nộp để lấy một bằng cấp ở trường này hoặc trường khác. Hà Nội, ngày 30 tháng 4 năm 2015 Nguyễn Duy Cường 3 LỜI CẢM ƠN Tôi xin gởi lời cảm ơn chân thànhnhất đến PGS. TS. Lê Anh Cường, ngườiđã tận tình hướng dẫn, giúp đỡ tôi trong suốt quá trình thực hiện luận văn và tạo điều kiện để tôi có thể hoàn thành luận văn này. Xin cảm ơn gia đình và những người bạn đã dành cho tôi tình thương yêu và sự hỗ trợ tốt nhất. 4 TÓM TẮT LUẬN VĂN Ngữ liệu song ngữ được chia thành nhiều mức văn bản khác nhau bao gồm: bài văn, đoạn văn, câu, và từ. Dịch máy thống kê – là một phương pháp dịch máy – sử dụng cặp câu song ngữ như là dữ liệu đầu vào để tính ra xác suất dịch của từ. Tuy nhiên, hệ thống ngữ liệu song ngữ còn tương đối nhỏ, mặc dù đã có nhiều nghiên cứu tập trung vào việc trích xuất cặp câu song ngữ từ ngồn web. Dù vậy, để có được nguồn ngữ liệu song ngữ có độ chính xác cao sẽ là bài toán khó vì internet chứa rất nhiều nhiễu (câu dịch thường không sát nghĩa hoặc bị lược bỏ một phần). Trong khi đó, có một nguồn ngữ liệu tốt là sách điện tử với số lượng lớn không kém và được dịch cẩn thận hơn nhiều lại chưa được khai thác triệt để. Tương tự như ngữ liệu song ngữ, bài toán gióng hàng song ngữ cũng được chia theo mức văn bản tương ứng, một trong số đó là bài toán gióng hàng đoạn văn. Nhiệm vụ của gióng hàng đoạn là tìm các đoạn tương ứng là dịch của nhau trong hai văn bản thuộc hai ngôn ngữ khác nhau. Trước đây, đã có nhiều hướng tiếp cận khác nhau để giải quyết bài toán này, nhưng đều đi theo hai xu hướng chính. Một là sử dụng mô hình xác suất, dựa trên cơ sở là có sự tương quan về kích thước của các câu trong văn bản nguồn với câu trong văn bản đích. Tuy nhiên, trong quá trình dịch thuật do cấu trúc của hai văn bản khác nhau nên sẽ dẫn tới trường hợp: một văn bản nguồn được dịch thành nhiều phần trong văn bản đích và ngược lại. Khi đó, phương pháp xác suất sẽ gặp nhiều hạn chế. Phương pháp thứ hai lại dựa vào ngôn ngữ, thông thường là từ điển để tìm cặp từ, câu tương ứng. Nhưng lại gặp phải vấn đề về sự nhập nhằng của ngữ nghĩa, đặc biệt trong các lĩnh vực khác nhau. Ở đây, luận văn sẽ theo hướng tiếp cận thứ hai, đồng thời kết hợp với hệ thống dịch máy (SMT) áp dụng cho bài toán gióng hàng đoạn. Bằng việc phân tích các đặc điểm chỉ có ở đoạn văn, luận văn đã đưa ra mô hình thích hợp nhất cho bài toán. Sau đó, thiết lập một độ đo khác phù hợp hơn cho việc xác định độ tương tự giữa các đoạn văn trong cặp văn bản dịch. Từ đặc thù là bài toán tìm giải pháp tối ưu nhất, luận văn đã lựa chọn giải thuật quy hoạch động để tìm kiếm. Để đánh giá thuật toán, tác giả sẽ tiến hành thực nghiệm gióng hàng đoạn trước, sau đó gióng hàng câu rồi so sánh với thuật toán cơ bản (Gale – Church) và thuật toán mới gần đây là Champollion trong gióng hàng câu. 5 Mục lục CHƯƠNG 1 – TổNG QUAN ...................................................................................... 7 1.1. 1.2. 1.3. 1.4. 1.5. GIớI THIệU Về DịCH MÁY................................................................................ 7 BÀI TOÁN GIÓNG HÀNG VĂN BảN SONG NGữ CHO SMT ................................. 8 MụC TIÊU CủA LUậN VĂN............................................................................... 9 PHạM VI CủA LUậN VĂN ................................................................................. 9 KếT CấU CủA LUậN VĂN ............................................................................... 10 CHƯƠNG 2 – DịCH MÁY THốNG KÊ .................................................................. 11 2.1. DịCH MÁY THốNG KÊ................................................................................... 12 2.2. 2.3. 2.4. 2.5. 2.6. 2.7. 2.8. Các thành phần của hệ dịch máy........................................................... 14 Mô hình dịch.......................................................................................... 15 Bộ giải mã .............................................................................................. 20 Mô hình ngôn ngữ ................................................................................. 21 Đánh giá chất lượng dịch ...................................................................... 23 Đặc điểm của phương pháp dịch thống kê ............................................ 25 Chu kì phát triển của hệ thống dịch thống kê........................................ 25 CHƯƠNG 3 – BÀI TOÁN GIÓNG HÀNG VĂN BảN SONG NGữ ....................... 27 3.1. CÁC Bộ NGữ LIệU SONG NGữ LớN .................................................................. 27 3.1.1. Khối Châu Âu ........................................................................................ 27 3.1.2. Khối Đông Nam Á ................................................................................. 28 3.2. CÁC PHƯƠNG PHÁP GIÓNG HÀNG HIệN TạI .................................................. 29 3.2.1. Theo độ dài ............................................................................................ 29 3.2.2. Hướng tiếp cận dựa vào ngữ nghĩa ....................................................... 29 3.2.3. Kết hợp độ dài và ngữ nghĩa .................................................................. 30 3.3. VấN Đề SAI THứ Tự VÀ THIếU CÂU TRONG GIÓNG HÀNG................................ 31 3.4. GIÓNG HÀNG VĂN BảN SONG NGữ ................................................................ 32 3.4.1. Phương pháp tiếp cận dựa trên âm tiết.................................................. 32 3.4.2. Phương pháp tiếp cận dựa trên từ điển ................................................. 33 3.4.3. Phương pháp tiếp cận thống kê ............................................................. 34 CHƯƠNG 4 – GIÓNG HÀNG ĐOạN VĂN ............................................................ 35 4.1. BÀI TOÁN GIÓNG HÀNG ĐOạN VĂN .............................................................. 35 4.2. THUậT TOÁN QUY HOạCH ĐộNG ................................................................... 39 4.2.1. Giải thuật Needleman -Wunsch ............................................................. 41 4.2.2. Giải thuật Smith – Waterman ................................................................ 44 4.3. Độ ĐO KHOảNG CÁCH .................................................................................. 47 6 4.3.1. Độ đo cơ bản .......................................................................................... 47 4.3.2. Độ đo đề xuất ......................................................................................... 48 4.4. THUậT TOÁN Đề XUấT .................................................................................. 49 CHƯƠNG 5 – THựC NGHIệM ................................................................................ 51 5.1. CHUẩN Bị..................................................................................................... 51 5.1.1. Chuẩn bị dữ liệu .................................................................................... 51 5.1.2. Xác định tham số ................................................................................... 52 5.2. KếT QUả ...................................................................................................... 53 5.3. SO SÁNH VớI THUậT TOÁN CHAMPOLLION .................................................. 55 5.4. ÁP DụNG VÀ ĐÁNH GIÁ TRÊN Hệ DịCH MÁY MOSES ...................................... 56 5.5. ĐÁNH GIÁ ................................................................................................... 57 TÀI LIỆU THAM KHẢO ........................................................................................ 59 7 Chương 1 – Tổng quan 1.1. Giới thiệu về dịch máy Trong vài năm trở lại đây, cùng với sự phát triển mạnh mẽ của khoa học kỹ thuật, xử lý ngôn ngữ tự nhiên đã có nhiều bước phát triển mạnh mẽ, một loạt các hệ thống hỗ trợ ngôn ngữ ra đời góp phần rút gắn khoảng cách về mặt ngôn ngữ giữa các nền văn hóa trên thế giới. Cho đến nay, với sự xuất hiện các hệ thống dịch tự động miễn phí trên mạng như: Google translate, bing translation, systran, vietgle… đã cho thấy sự phát triển của dịch máy ngày càng tiến gần tới ngôn ngữ tự nhiên hơn. Cùng với sự phát triển của dịch máy, vào những năm gần đây, mô hình dịch máy thống kê đã và đangthu hút được rất nhiều sự quan tâm của các nhà khoa học. Hơn nữa, kết quả thực tế của hệ thống dịch này rất tốt. Ngôn ngữ của máy dịch càng ngày càng gần với ngôn ngữ của người. Ngoài ra cùng với hệ thống dịch máy thống kê, các sản phẩm ứng dụng ngày càng giúp con người trao đổi thông tin dễ dàng hơn, tốc độ nhanh hơn và hỗ trợ nhiều ngôn ngữ hơn. Mặc dù phương pháp dịch thống kêcó thể dựa trên nhiều cơ sở khác nhau như: dựa trên cơ sở từ, cơ sở cụm từ hay dựa trên cơ sở cú pháp thì cũng đều cần một nguồn dữ liệu học. Và đặc biệt là khi dữ liệu học càng nhiều bao nhiêu thì kết quả dịch càng tốt bấy nhiều. Đây là một lợi thế lớn cho các hệ thống dịch máy dành cho tiếng Việt, khi mà khối lượng văn bản tiếng Anh và tiếng Việt ngày càng lớn trong thời kỳ Việt Nam hội nhập sâu rộng với quốc tế như hiện nay. Xuất phát từ những yêu cầu cấp thiết đó, một phân hệ quan trọng hiện đang được các nhà khoa học chú ý phát triển trong dịch máy thống kê đó là việc xây dựng tập hợp ngữ liệu song ngữ chuẩn.Thuật ngữ “ngữ liệu” được tạm dịch từ thuật ngữ tiếng Anh“corpus”, có nghĩa là “kho dữ liệu, kho sưu tập tài liệu,..” (theo Từ điển Anh-Việt, ĐHNgoại ngữ, NXB GD-2000 trang 368). “Ngữliệu” ở đây có thể xem là những “dữ liệu, cứ liệu của ngôn ngữ”, tức là những chứng cứ thực tế sử dụng ngôn ngữ. Ngữ liệu song ngữ (dịch từ tiếng Anh là: bilingual corpus, hay parallel text, hay bitext) là ngữ liệu tồn tại dưới hai ngôn ngữ và chúng là bản dịch của nhau. Trước khi có nhu cầu từ dịch máy thống kê thì văn bản song ngữ cũng đã tồn tại với phạm vi ứng dụng rất rộng rãi thuộc nhiều lĩnh vực khác nhau,đặc biệt giúp ích cho việcnâng cao kỹ năng đọc và dịch. Tính sẵn có của một số lượng lớn các mẫu câu 8 với bản dịch song song của nó không chỉ có thể cải thiện các kỹ năng đọc, mà còn có thể giúp nâng cao hàm ý trong các bản dịch. Ngoài ra, có thể dựa vào các văn bản song ngữ để tìm kiếm các cụm từ tương đương về mặt ngữ nghĩa hay tương đương về cấu trúc ngữ pháp của bản dịch ứng với bản nguồn. 1.2. Bài toán gióng hàng văn bản song ngữ cho SMT Trong dịch máy theo phương pháp thống kê (Statistical Machine Translation), tra cứu xuyên ngôn ngữ (Cross-Lingual Information Retrieval), nghiên cứu so sánh đối chiếu các điểm tương đồng và dị biệt giữa ngôn ngữ tiếng Anh và tiếng Việt (English – Vietnamese contrastive linguistics), chúng ta không thể nghiên cứu trên lý thuyết, hay trên những câu do chúng ta nghĩ ra, mà phải nghiên cứu trên những câu có thật trong thực tế sử dụng. Điều này đòi hỏi chúng ta phải có các chứng cứ của ngôn ngữ, các ví dụ từ thực tế đã được nhiều người sử dụng và được xem là ngôn ngữ chuẩn [Tony McEnery, Andrew Wilson (1996) ]. Tính hữu ích của tập ngữ liệu song ngữ đã dẫn đến một số dự án quy mô lớn nhằm xây dựng một kho dữ liệu chung cho nhiều ngôn ngữ. Tuy nhiên, các bộ ngữ liệu song ngữ hiện nay vẫn còn hạn chế về số lượng cũng như sự đa dạng của ngôn ngữ. Từ nhu cầu cấp thiết đó, một nhánh nghiên cứu mới đang phát triển gần đây đó là: xây dựng các hệ thống học máy có thể tự động xây dựng tập ngữ liệu song ngữ từ nguồn dữ liệu thô (bài toán gióng hàng văn bản). Gióng hàng văn bản song ngữ là việc sắp xếp từ, cụm từ hoặc câu trong ngôn ngữ ngồn vớibản dịch tương đương ở ngôn ngữ khác. Các tập văn bản thường được gióng hàngở mức cụm từ hoặc mức câu. Bài toán gióng hàng song ngữ không có khả năng giải bằng các phương pháp đơn thuần, vì trong khi dịch rất hiếm khi cómột câu dịch hoàn hảo của câu tương ứng trong văn bản nguồn. Một câu rất ngắn có thể dịch ra rất dài để đảm bảo đủ ý của câu, hoặc một câu nguồn có thể được dịch thành hai hoặc nhiều câutrong ngôn ngữ đích và ngược lại. Cá biệt, có thể có trường hợp một câu hoặc thậm chí một đoạn có thể bị bỏ quahoàn toàn. Nhiều phương pháp đã được đề xuất để giải quyết bài toán gióng hàng văn bản cho ngôn ngữ châu Âu, sẽ được thảo luận trong chương sau. Tuy nhiên, hầu hết các phương pháp gióng hàng đó đều áp dụng ở mức từ, câu là chủ yếu. Ngược lại, có rất ít công trình nghiên cứu áp dụng cho các ngôn ngữ thuộc khu vực Đông Nam Á. Không giống như tiếng Anhvà các ngôn ngữ châu Âu khác, hầu hết 9 các ngôn ngữ Đông Nam Á thường không phân rã ở cấp độ từ, vàcấu trúc ngữ pháp khác biệt hẳn so với hệ thống chữ viết Latin. Kết quả là,các thuật toán tiêu chuẩn và triển khai thực hiện cho gióng hàng văn bản thường không đạt được kết quả tốt như mong đợi. Riêng đối với ngôn ngữ Tiếng Việt, chưa có nhiều nhà khoa học tập trung nghiên cứuđể tìm ra giải pháp thay thế cũng như đo lường, đánh giá hiệu suất gióng hàng văn bản ngôn ngữ Tiếng Việt nói riêng và ngôn ngữ Đông Nam Á nói chung. 1.3. Mục tiêu của luận văn Hiện tại, có nhiều phương pháp đã được chứng minh và đánh giá hiệu quả cho bài toán gióng hàng văn bảnvói nhóm ngôn ngữ khối châu Âu bao gồmthuật toán Gale – Church [1], Vanilla Aligner [13]), Brown,… sẽ được thảo luận trong chương kế tiếp. Trong luận văn này, sẽ chỉ đi sâu nghiên cứu rồi đưa ra mộtđề xuất về giải pháp gióng hàng áp dụng cho sách văn học dịch của Việt Nam, dựa trên các phương pháp gióng hàng đoạn trước để giới hạn không gian tìm kiếm cho gióng hàng câu. Sau đó sẽ sử dụng các cặp câu đã được gióng hàng để đưa vào huấn luyện trong hệ dịch máy.Luận văn cũng sẽtrình bầy các bước chuẩn bị, các kỹ thuật tiền xử lý cho quá trình chuẩn bị dữ liệu trước khi thực hiện áp dụng giải thuật đề xuất. Mục tiêu là: • Khảo sát các đặc trưng của tập dữ liệu là sách văn học dịch. • • • • Mô hình hóa bài toán gióng hàng đoạn văn. Đề xuất phương pháp gióng hàng văn bản. Cài đặt và đánh giá hiệu suất của phương pháp dựa trên chiều dài. Đánh giá, so sánh thuật toán đề xuất. • Áp dụng vào bài toán gióng hàng câu tự động để sinh ra tập ngữ liệu học cho dịch máy thống kê. 1.4. Phạm vi của luận văn Luận văn sẽ tập trung giải quyết các vấn đề sau: • Thảo luận về bài toán gióng hàng văn bản, các vấn đề và một số giải thuật • hiện tại áp dụng cho nhóm ngôn ngữ Châu Âu. Khảo sát các đặc trưng của bài toán gióng hàng đoạn văn, từ đó đề xuất mô hình cho bài toán gióng hàng đoạn văn. Khảo sát thuật toán quy hoạch động, từ đó kết hợp với độ đo độ tương tự • trong gióng hàng đoạn văn. Tiến hành thực nghiệm đánh giá kết quả. • 10 1.5. Kết cấu của luận văn Luận văn sẽ được tổ chức như sau: Chương 2: luận văn sẽ trình bầy sơ qua về hệ thống dịch máy, bao gồm các thành phần của dịch máy, cách đánh giá bản dịch, và một số lợi ích của hệ dịch máy. Chương 3: sẽ giới thiệu về các hệ thống dữ liệu lớn đang có trên thế giới. Tiếp đó, luận văn trình bầy sơ lược một số hướng tiếp cận cơ bản với bài toán gióng hàng văn bản. Cuối chương nêu ra một số đặc trưng và những vấn đề cần phải giải quyết của bài toán gióng hàng văn bản. Chương 4: giới thiệu sơ qua về thuật toán quy hoạch động sẽ được áp dụng vào bài toán để tìm lời giải tối ưu. Tiếp tục đi sâu phân tích đặc trưng bài toán gióng hàng đoạn văn. Từ đó, đưa ra mô hình thích hợp cho bài toán gióng hàng đoạn văn dựa trên các đặc trưng của bài toán. Sau đó đưa ra một độ đo thích hợp để tính tương độ tự giữa hai đoạn văn song ngữ, kết hợp với thuật toán quy hoạch động để tìm tập các cách gióng hàng hợp lý nhất. Chương 5: trình bầy về thực nghiệm, bao gồm các bước xây dựng tập dữ liệu phục vụ quá trình thử nghiệm hiệu suất, đánh giá kết quả của phương pháp mới đề xuất. Phần cuối là áp dụng bộ dữ liệu lấy được vào hệ dịch máy. 11 Chương 2 –Dịch máy thống kê Theo số liệu thống kê, hiện nay trên thế giới có hơn 5000 ngôn ngữ khác nhau, với một số lượng ngôn ngữ lớn như vậy đã gây ra rất nhiều khó khăn trong việc trao đổi thông tin.Nhằm khắc phục nhược điểm trên,các nhà khoa học đã nghĩ đến việc thiết kế một mô hình tự động trong công việc dịch, do đó ngay từ khi xuất hiện chiếc máy tính điện tử đầu tiên người ta đã tiến hành nghiên cứu về dịch máy. Dịch máy (Machine Translation – MT) là một hướng phát triển có lịch sử lâu đời từ thập kỷ 50 và được phát triển mạnh mẽ từ thập kỷ 80 cho đến nay. Hiện tại, trên thế giới có rất nhiều hệ dịch máy thương mại nổi tiếng trên thế giới như Systrans, Kant,… hay những hệ dịch máy mở tiêu biểu là hệ dịch của Google, Bing,… hỗ trợ hàng chục cặp ngôn ngữ phổ biến như Anh – Pháp, Anh – Trung, Anh – Nhật, Hoa – Nhật,… Người ta tin rằng việc xử lí ngôn ngữ tự nhiên trong đó có dịch máy sẽ là giải pháp cho việc mở rộng cánh cửa đối thoại người-máy, lúc đó con người không phải tiếp xúc với máy qua những dòng lệnh cứng nhắc nữa mà có thể giao tiếp một cách trực tiếp với máy. Hình 2.1: Các cách tiếp cận cổ điển cho hệ dịch máy 12 Các cách tiếp cận cổ điển cho hệ dịch máy: dịch trực tiếp (direct), dịch dựa trên luật chuyển đổi (transfer), dịch liên ngữ (interlingua) dịch dựa vào thống, và hiện nay tiếp cận dịch dựa vào thống kê (statistical MT). Phương pháp dịch dựa trên luật chuyển đổi và dịch liên ngữ chủ yếu dựa vào cú pháp, đã có thời gian phát triển khá dài và vẫn còn được sử dụng phổ biến trong nhiều hệ dịch thương mại. Các hệ dịch máy loại này đã đạt được kết quả khá tốt với những cặp ngôn ngữ tương đồng nhau về cú pháp như Anh – Pháp, Anh – Tây Ban Nha,… nhưng còn gặp nhiều hạn chế đối với các cặp ngôn ngữ có cú pháp khác nhau như Anh – Trung, Anh – Nhật,… Ở Việt Nam, dịch Anh – Việt, Việt – Anh cũng vấp phải những khó khăn tương tự do sự khác biệt về mặt cấu trúc ngữ pháp và tính nhập nhằng của ngữ nghĩa. hệ thống dịch Anh – Việt dựa trên luật chuyển đổi được thương mại hóa đầu tiên ở Việt Nam là EVTran. Hiện nay, nhiều nghiên cứu với mong muốn tăng chất lượng dịch vẫn đang được thực hiện thích nghi với đặc điểm của các cặp ngôn ngữ khác nhau. 2.1. Dịch máy thống kê Dịch máy bằng phương pháp thống kê (Statistical Machine Translation) đã chứng tỏ là một hướng tiếp cận đầy đầy tiềm năng bởi những ưu điểm vượt trội so với các phương pháp dịch máy dựa trên cú pháp truyền thống qua nhiều thử nghiệm về dịch máy. Thay vì xây dựng các từ điển, các luật chuyển đổi bằng tay, hệ dịch này tự động xây dựng các từ điển, các quy luật dựa trên kết quả thống kê có được từ dữ liệu. Chính vì vậy, dịch máy dựa vào thống kê có tính khả chuyển cao, có khả năng áp dụng được cho cặp ngôn ngữ bất kỳ. Hệ thống SMT được đề xuất lần đầu tiên bởi Brown năm 1990 sử dụng mô hình kênh nhiễu và đã phát triển áp đảo trong ngành MT nhiều năm trở lại đây. Trong phương pháp dịch trực tiếp, từng từ được dịch từ ngôn ngữ nguồn sang ngôn ngữ đích. Trong dịch dựa trên luật chuyển đổi, đầu tiên chúng ta cần phải phân tích cú pháp của câu vào, rồi áp dụng các luật chuyển đổi để biến đổi cấu trúc câu này ở ngôn ngữ nguồn sang cấu trúc của ngôn ngữ đích; cuối cùng ta mới dịch ra câu hoàn chỉnh. Đối với dịch liên ngữ, câu vào được phân tích thành một dạng biểu diễn trừu tượng hóa về ngữ nghĩa, được gọi là “interlingua”, sau đó ta tìm cách xây dựng câu đích phù hợp nhất với “interlingua” này. Dịch máy thống kê có cách tiếp cận hoàn toàn khác, khả năng dịch có được là dựa trên các mô hình thống kê được huấn luyện từ 13 các ngữ liệu song ngữ. Kiếến trúc chung của một hệ thống SMT đượcc th thể hiện trong hình 2.2. Hình 2.2: Ki Kiến trúc một hệ thống SMT Mô hình củaa Brown (hay còn gọi g là mô hình IBM) biểu diễn n quá trình ddịch bằng một mô hình kênh nhiễu u (noisy channel model) bao gồm g ba thành phần: n: m một mô hình dịch (translation ranslation model), có nhiệm nhi vụ liên hệ các từ, cụm từ tương ứng ng ccủa các ngôn ngữ khác nhau; mộtt mô hình ngôn ngữ ng (LM), đại diện cho ngôn ngữ đích; m một bộ giải mã (decoder), kết hợp p mô hình dịch d và mô hình ngôn ngữ để thực hiện n nhiệm nhi vụ dịch. Thường thì LM đượcc gán trọng tr số cao hơn các thành phầnn khác trong hệ h thống dịch, bởi vì ngữ liệu u đơn ngữ ng dùng để huấn luyện LM lớn hơn nhiềuu ng ngữ liệu song ngữ, do đó có độ tin cậy lớ ớn hơn. Ta thấy rằng việc tăng kích cỡ củủa LM cải thiện điểm BLEU – tiêu chuẩn n phổ ph biến để đánh giá chất lượng dịch ch máy. Hình 2.2, cho thấy sự cải thiện chất lượng ng dịch d khi tăng kích cỡ LM. Trong mô hình đầu u tiên của c Brown, mô hình dịch dựa trên kiểuu ttừ-thành-từ và chỉ cho phép ánh xạ một từ ừ trong ngôn ngữ nguồn đến một từ trong ngôn ngữ ng đích. Nhưng trong thực tế, ánh xạạ này có thể là một-một, một-nhiều, nhiều-nhi nhiều hoặc mộtkhông. Thế nên nhiều u nhà nghiên cứu c đã cải tiến chất lượng củaa SMT bằng b cách sử dụng dịch dựa trên cụm m (phrase-based (phrase translation). 14 Hình 2.3: Tăng T kích thước LM sẽ cải thiện điểm m BLEU 2.2. Các thành phần n của c hệ dịch máy Cho trướcc câu ngôn ng ngữ nguồn , mục tiêu của mô hình dịch ch máy là tìm ra câu của ngôn ngữ đích sao cho xác suất su ( | ) là cao nhất. Có nhiều cách tiếp cận n để đ tính được xác suất ( | ),, tuy nhiên cách ti tiếp cận trực quan nhất là áp dụng ng công th thức Bayes: ( | )= ( ) ( | ) ( ) Trong đó ( | ) là xác suất su câu ngôn ngữ nguồn là bản dịch củaa câu ngôn ng ngữ đích, còn ( ) là xác suấtt xuất xu hiện câu hợp chính là việc tìm kiếm ∗ trong ngôn ngữ. Việcc tìm ki kiếm câu ∗ ∗ phù ∗ làm cho giá tri ( ) ( | ) là lớn nhất. t. Đểmô hình dịch ch là chính xác, thì công việc vi tiếp theo là phảii tìm ra ttất cả các câu ∗ có thể có trong ngôn ngữ ữ đích từ câu ngôn ngữ nguồn . Thực hiệnn công vi việc tìm kiếm hiệu quả chính là nhiệệm vụ của bộ giải mã (decoder). Như vậy, mộ ột mô hình dịch máy bao gồm 3 thành phần: n:  Mô hình ngôn ngữ:: Tính toán được đư xác suất của câu ngôn ngữ ữ nguồn. Thành phần n này chính là mô hình ngôn ngữ ng đã được mô tả ở chương 1 ccủa luận văn  Mô hình dịch: ch: Cho bi biết xác suất của câu ngôn ngữ nguồnn là bbản dịch từ câu ngôn ngữ đích.  Bộ giải mã: Tìm kiếếm tất cả các câu ngôn ngữ đích e có thể có ttừ câu ngôn ngữ nguồn f. 15 Hình 2.4: Mô hình dịch máy thống kê từ tiếng Anh sang tiếng Việt 2.3. Mô hình dịch Mô hình dịch có 3 hướng tiếp cận chính:  Mô hình dịch dựa trên từ (word-based)  Mô hình dịch dựa trên cụm từ (phrase-based)  Mô hình dịch dựa trên cú pháp (syntax-based) Cả 3 hướng tiếp cận trên đều dựa trên một tư tưởng. Đó là sự tương ứng giữa hai câu (alignment). 2.3.1. Sự gióng hàng (alignment) Tất cả các mô hình dịch thống kê đều dựa trên sự tương ứng của từ. Sự tương ứng của từ ở đây chính là một ánh xạ giữa một hay nhiều từ của ngôn ngữ nguồn với một hay nhiều từ của ngôn ngữ đích trong tập hợp các câu văn bản song ngữ. Theo nguyên tắc, chúng ta có thể có mối liên hệ tùy ý giữa các từ của ngôn ngữ nguồn với các từ của ngôn ngữ đích. Tuy nhiên, để cho đơn giản, mô hình dịch máy dựa trên từ (word-based) đưa ra một giả định: mỗi từ của ngôn ngữ đích chỉ tương ứng với một từ của ngôn ngữ nguồn. Nếu áp dụng giả định này, chúng ta có thể biểu diễn một sự tương ứng từ bằng chỉ số của các từ trong ngôn ngữ nguồn tương ứng với từ trong ngôn ngữ đích. Như trong ví dụ ở hình 2.5 dưới đây có thể biểu diễn một tương ứng từ giữa tiếng Pháp và tiếng Anh bởi một dãy các chỉ số như sau: A = 1,2, 3, 4, 5, 6. 16 Hình 2.5: Sự tương ứng một – một giữa câu tiếng Anh và câu tiếng Pháp Trong thực tế, có rất nhiều từ ở ngôn ngữ đích không tương ứng với từ nào trong ngôn ngữ nguồn. Để cho tổng quát, ta thêm một từ vô giá trị (null) vào đầu câu ngôn ngữ nguồn và những từ ở ngôn ngữ đích không tương ứng với từ nào sẽ được ánh xạ với từ vô giá trị đó. Hình 2.6 ở dưới thể hiện một tương ứng từ giữa hai câu tiếng Anh và tiếng Tây Ban Nha khi cho thêm từ vô giá trị vào đầu câu tiếng Anh. Hình 2.6: Sự tương ứng giữa câu tiếng Anh với câu tiếng Tây Ban Nha khi cho thêm từ vô giá trị (null) vào đầu câu tiếng Anh Trong khi mô hình dịch dựa trên từ (word-based) chỉ giải quyết trường hợp một từ của ngôn ngữ đích chỉ tương ứng bởi một từ của ngôn ngữ nguồn, thì mô hình dịch dựa trên cụm từ (pharse-based) có thể giải quyết cả hai trường hợp còn lại là: một từ của ngôn ngữ này tương ứng với nhiều từ của ngôn ngữ kia và nhiều từ của ngôn ngữ này tương ứng với nhiều từ của ngôn ngữ kia. Hình 2.7 và 2.8 ở dưới minh họa các tương ứng nói trên. Hình 2.7: Sự tương ứng một – nhiều giữa câu tiếng Anh với câu tiếng Pháp 17 Hình 2.8: Sự tương ứng nhiều - nhiều giữa câu tiếng Anh với câu tiếng Pháp 2.3.2. Mô hình dịch dựa trên từ (Word-based) Mô hình dịch dựa trên từ là thế hệ đầu tiên của mô hình dịch máy thống kê và được nghiên cứu và phát triển bởi IBM. Như đã trình bày ở phần trước, mô hình dịch này dựa trên sự tương ứng của các từ theo tương ứng một một (một từ của ngôn ngữ này chỉ tương ứng với một từ của ngôn ngữ kia và ngược lại). Cụ thể hơn, giả sử câu ngôn ngữ nguồn là … … và câu ngôn ngữ đích là , khi đó mỗi từ chỉ tương ứng với 1 và chỉ 1 từ trong câu ngôn ngữ nguồn hoặc là không tương ứng với từ nào. Do đó, một sự tương ứng giữa các từ của câu ngôn ngữ nguồn và câu ngôn ngữ đích có thể biểu diễn bằng một dãy số: { , trong ngôn ngữ nguồn tương ứng với từ ,…, } trong đó của ngôn ngữ đích( đến l). Với mô hình IBM thứ nhất, giả định rằng mỗi biến là chỉ số của từ nhận các giá trị từ 1 là độc lập, khi đó tương ứng tối ưu nhất chính là: = arg max ( )∗ ( | ) Như vậy, theo mô hình IBM thứ nhất, chúng ta có thể tính xác suất ( | ) theo công thức sau: ( | )= ( )∗ ( | ) Tuy nhiên trên thực tế, mô hình IBM thứ nhất này có chất lượng dịch không cao. Ở các mô hình IBM tiếp theo, người ta cải tiến các công thức và đưa ra những tương ứng, cũng như tính lại xác suất ( | ) một cách tốt hơn. Tuy nhiên, do tiếp cận theo hướng tương ứng một một giữa các từ, nên mô hình dịch dựa trên từ nóichung và các mô hình dịch IBM nói riêng đã không còn phổ biến. Hiện nay, các mô hình dịch theo hướng cụm từ được sử dụng rộng rãi và dần trở nên phổ biến hơn. 18 2.3.3. Mô hình dịch dựa a trên cụm c từ (Phrase-based) Hình 2.9: Minh họa h dịch máy thống kê dựa vào cụm từ Trong dịch dựaa trên ccụm, một chuỗi các từ liên tiếp (cụm) đượcc dịch d sang ngôn ngữ đích, với độ dài cụm m ngôn ngữ ng nguồn và đích có thể khác nhau. Hình 2.9 minh họa phương pháp dịch cụm: m: câu vào được đư chia thành một số cụm; từng ng cụm c một được dịch sang ngôn ngữ đích; và sau đó các cụm c được đảo trật tự theo mộtt cách nào đó rồi r ghép với nhau. Cuốii cùng ta thu được đư câu dịch trong ngôn ngữ đích. Giả sử ta gọi ngôn ngữ ữ nguồn là đa hóa xác suất và ngôn ngữ đích là , chúng ta sẽ s cố gắng tối ( | ) vớ ới mong muốn có được bản dịch tốt nhất. t. Th Thực tế là tồn tại rất nhiều bản dịch ch đúng cho cùng một m câu, mục đích củaa ta là tìm ra câu ngôn ng ngữ phù hợp nhất khi cho trướcc câu ngôn ngữ ng nguồn . Dịch dựa vào cụụm sử dụng mô hình kênh nhiễu, áp dụng ng công thức th Bayes ta có: arg max ( | ) ( ) arg max ( | ) = ( ) Do ( ) là không đổii đối đ với , vấn đề trở thành việc tìm câu nhằm nh tối đa hóa ( \ ) ( ). Việc xây dựng ng mô hình ngôn ngữ ng cần sử dụng một ngữ liệệu đơn ngữ lớn, trong khi đó mô hình dịch ch lại l cần đến ngữ liệu song ngữ tốt. Bộ giảii mã được sử dụng để chia câu nguồn n thành các cụm c và sinh ra các khả năng dịch có thể cho m mỗi cụm nhờ sự trợ giúp của bảng cụm m (phrase table). Để sinh ra đượcc câu dịch, d câu nguồn được chia thành cụm m liên ti tiếp ta giả sử rằng phân phốii xác suất su là như nhau đối với các cụm m này. Mỗi M cụm . Chúng trong được dịch thành cụm m tương ứng trong ngôn ngữ đích . Các cụm m trong ngôn ngữ ng đích có thể đảo o ví trí cho nhau. Quá trình dịch d cụm đượcc mô hình hóa bbởi phân phối xác suất ∅( | ). 19 Việc đảo ví trí (reodering) của các cụm đầu ra được mô hình bởi phân phối xác suất ( − ), trong đó đại diện cho vị trí bắt đầu của cụm trong câu nguồn được dịch thành cụm thứ trong câu đích, và là ký hiệu chỉ vị trí kết thúc của cụm trong câu nguồn được dịch thành cụm ( − 1) trong câu đích. Ở đây chúng ta sử dụng mô hình đảo cụm rất đơn giản như sau: ( − )= | | với giá trị thích hợp cho tham số . Để xác định độ dài thích hợp của câu dịch, chúng ta đưa thêm vào thừa số khi sinh ra câu trong ngôn ngữ đích. Thừa số này sẽ được tối ưu qua quá trình tìm kiếm câu dịch tối ưu. Thừa số này càng lớn hơn 1 thì độ dài của câu trong ngôn ngữ đích càng dài. Nói tóm lại, câu dịch tốt nhất được sinh ra từ câu nguồn là: = arg max ( | ) = arg max ( | ) ( ) ( ) ở đây ( | ) được phân tích thành: ( | )= ( | ) ( − ) 2.3.4. Mô hình dịch dựa trên cú pháp (Syntax-based) Cả 2 mô hình dịch dựa trên từ và cụm từ đều chỉ quan tâm đến sự tương ứng và ngữ nghĩa của từng từ trong câu ngôn ngữ nguồn và đích mà không quan tâm tới ngữ pháp, hình thái của cả hai câu. Mô hình dịch dựa trên cú pháp không chỉ quan tâm tới ngữ nghĩa của từng từ mà còn chú trọng tới cú pháp của câu. Với mô hình dịch này, một câu ngôn ngữ nguồn sẽ được phân tích thành cây cú pháp. Cây cú pháp này sẽ được sắp xếp lại để phù hợp với cú pháp của câu ngôn ngữ đích. Sau đó, một số từ mới có thể được chèn vào cây hiện tại cho phù hợp hơn với cú pháp của ngôn ngữ đích. Cuối cùng, các từ trong cây cú pháp của câu ngôn ngữ nguồn sẽ được dịch sang ngôn ngữ đích và ta thu được câu ngôn ngữ đích từ cây cú pháp trên. Hình 2.10 dưới đây mô tả các bước làm việc của một mô hình dịch dựa trên cú pháp từ tiếng Anh sang tiếng Nhật.

- Xem thêm -

Tài liệu Gióng hàng văn bản song ngữ Anh -Việt Luận văn ThS. Công nghệ thông tin

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất