Tài liệu Tóm tắt luận văn thạc sĩ kỹ thuật nghiên cứu một số phương pháp tổng hợp tiếng nói

.PDF

25355

hoangtuavartar Báo vi phạm

Tải xuống 73

Mô tả:

ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC KỸ THUẬT CÔNG NGHIỆP -------------- NGUYỄN ĐỨC THỌ NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP TỔNG HỢP TIẾNG NÓI LUẬN VĂN THẠC SĨ KỸ THUẬT ĐIỆN TỬ THÁI NGUYÊN 2013 BẢNG TÓM TẮT LUẬN VĂN CAO HỌC Ngành : Kỹ thuật điện tử - Khóa 13 1. Tên luân văn NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP TỔNG HỢP TIẾNG NÓI 2. Ngƣời thực hiện: KS.Nguyễn Đức Thọ 3. Thông tin liên quan Email: [email protected] Điện thoại di động: 0982108055 4. Tóm tắt nội dung: CHƢƠNG 1: TỔNG QUAN VÊ TỔNG HỢP TIẾNG NÓI 1.1.Giới thiệu về tổng hợp tiếng nói 1.1.1.khái niệm về tổng hợp tiếng nói Tổng hợp tiếng nói là việc tạo ra tiếng nói con ngƣời từ đầu vào là văn bản hay các mã hóa ngữ âm. Hệ thống tổng hợp tiếng nói cho phép chuyển đổi nội dung văn bản của một ngôn ngữ nhất định trong thực tế thành tiếng nói tƣơng ứng. Tổng hợp tiếng nói là một phần trong bài toán xử lý ngôn ngữ tự nhiên - bao gồm cả nhận dạng và tổng hợp tiếng nói. Một hệ thống tổng hợp tiếng nói từ văn bản chuyển đổi ngôn ngữ viết sang tín hiệu tiếng nói. Chất lƣợng của một bộ tổng hợp tiếng nói đƣợc đánh giá bằng mức độ giống nhau của nó với giọng nói con ngƣời. Ứng dụng của Hệ thống tổng hợp tiếng nói từ văn bản ngày càng trở nên phổ biến, chúng ta có thể thấy hệ thống này trong các hệ thống, thiết bị sử dụng tƣơng tác ngƣời máy bằng tiếng nói (robot thông minh, hệ thống dẫn đƣờng, hệ thống khai thác thông tin), hệ thống hỗ trợ cho ngƣời khiếm thị, ngƣời khuyết tật mất khả năng nói. Nhiều hệ điều hành đã bao gồm cả bộ tổng hợp tiếng nói từ đầu thập niên 1980. 1.1.2.Mô hình của một bộ tổng hợp tiếng nói -1- Hình 1.1:Mô hình hệ thống TTS 1.1.2.1. Thành phần xử lý ngôn ngữ tự nhiên Hình 1.2: Thành phần xử lý ngôn ngữ tự nhiên trong hệ tổng hợp tiếng nói. * Phân tích văn bản Phân tích văn bản là một thành phần ngôn ngữ độc lập trong hệ thống tổng -2- hợp. Mục đích của bƣớc phân tích văn bản là diễn giải đƣợc văn bản đầu vào thành một chuỗi văn bản để máy có thể hiểu và đọc đúng theo phiên đó. Quá trình này bao gồm ba bƣớc chính: - Tiền xử lý: Mô đun tiền xử lý tổ chức các câu đầu vào thành dãy các từ. Nó xác định các số, các từ viết tắt, tên riêng, thành ngữ và biến đổi chúng thành dạng văn bản đầy đủ khi cần đến. - Phân tích hình thái: nhiệm vụ cung cấp mọi khả năng loại từ của một từ riêng lẻ dựa vào các cách phát âm cơ bản. - Phân tích ngữ cảnh: xét các từ trong ngữ cảnh và từ loại đi với chúng trong từng ngữ cảnh đó. Quá trình này phải xem xét các từ trong ngữ cảnh để phiên âm phù hợp nhất với ngữ cảnh trong câu. Xử lý các khả năng xuất hiện sự nhập nhằng về mặt ngữ nghĩa của từ hiện tại và các từ lân cận với nó. * Chuyển ký tự thành âm thanh Mô đun này xác định phiên âm âm vị của văn bản đầu vào. Trong phần này có hai kiểu mô đun phổ biến nhất là mô đun dựa trên từ điển và mô đun dựa trên luật. * Sinh ngôn điệu Thuật ngữ ngôn điệu liên quan đến tính chất nào đó của tín hiệu tiếng nói mà liên quan đến thay đổi pitch, độ to nhỏ, độ dài âm tiết. 1.1.2.2. Thành phần xử tín hiệu số Nói chung, mô đun xử lý tín hiệu số chọn các âm vị và thông tin ngôn điệu từ đầu ra của mô đun xử lý ngôn ngữ tự nhiên và đƣa chúng thành các tín hiệu tiếng nói. Có hai kỹ thuật chính sử dụng trong mô đun xử lý tín hiệu số: tổng hợp theo luật hoặc tổng hợp ghép dựa trên ghép nối. * Tổng hợp dựa trên luật -3- Theo Dutoit thì tổng hợp dựa trên luật gồm dãy các luật mô tả ảnh hƣởng của các âm vị lên một âm vị khác và hầu nhƣ nó rất phù hợp với các nhà ngữ âm học, chúng liên quan đến việc tích lũy kinh nghiệm, cách tiếp cận có khả năng tạo ra máy phiên âm âm vị theo luật. * Tổng hợp ghép nối 1.2. Lịch sử phát triển và ứng dụng tổng hợp tiếng nói Tạo ra tiếng nói bằng máy là một ƣớc mơ của loài ngƣời và là mục tiêu thách thức các nhà khoa học trên thế giới nhiều thế kỉ qua. Máy nói đầu tiên do Wolfgang Von Kempelen chế tạo năm 1791 mô phỏng bộ máy phát âm của ngƣời đã có thể phát ra đƣợc một vài âm tố. Ở đầu thế kỉ này vào năm 1939, máy VODER của nhà khoa học Dudley, phòng thí nghiệm AT&T BELL LABS đã thành công trong việc mô hình hoá cộng hƣởng của ống thanh bằng linh kiện điện tử. Hệ thống điều khiển nhân công 10 bộ cộng hƣởng bằng các phóm và chiết áp đã có thể tạo ra một số câu nói có thể nghe đƣợc. Từ giữa những năm 1950 trở lại đây, sự ra đời của máy tính điện tử đã cho phép tạo ra một cách có hệ thống các tham số để điều khiển bộ tổng hợp tiếng nói. Cùng với sự phát triển nhƣ vũ bão của khoa học và công nghệ thập kỉ 80, 90, kỹ thuật tổng hợp tiếng nói đã có những bƣớc phát triển rất quan trọng có sự đóng góp rất lớn của máy tính và xử lý tín hiệu số. Các ứng dụng này tập trung ở các lĩnh vực sau: • Học ngoại ngữ • Trợ giúp người tàn tật • Truyền thông tin bằng âm thanh • Trong lưu trữ và khai thác dữ liệu • Trong viễn thông -4- CHƢƠNG 2: CÁC PHƢƠNG PHÁP TỔNG HỢP TIẾNG NÓI 2.1 Phƣơng pháp tổng hợp theo cấu âm. Tổng hợp theo cấu âm sử dụng mô hình phỏng sinh học. Trong mô hình này, tiếng nói đƣợc đặc trƣng không chỉ bằng tín hiệu âm thanh mà cả bằng vị trí của các cơ quan cấu âm, sự tham gia của khoang mũi, áp suất không khí trong phổi, lực căng của dây thanh. Nó bao gồm hoạt động tƣơng tác phi tuyến giữa nguồn kích (chấn động dây thanh hoặc hỗn loạn không khí) và trở kháng đầu vào thay đổi theo thời gian của ống thanh. Phƣơng pháp này còn đƣợc gọi là tổng hợp theo mô hình hệ thống. 2.2 Phƣơng pháp tổng hợp theo formant. ● Luật nhằm làm trơn các formant đích. ● Luật để chuyển đổi các hàm thời giam thành dạng sóng thanh. 2.3 Phƣơng pháp Tổng hợp ghép nối 2.4 Phƣơng pháp tổng hợp theo ghép chuỗi. -5- CHƢƠNG 3 CHUẨN HOÁ VĂN BẢN VÀ THUẬT TOÁN PHÂN TÍCH VĂN BẢN 3.1 Tổng quan Chuẩn hóa văn bản giúp cho bộ tổng hợp tiếng nói có khả năng hiểu đƣợc cấu trúc và thành phần văn bản cũng nhƣ đƣợc hƣớng dẫn về cách đọc văn bản. Các yếu tố nhập nhằng trong văn bản là khó khăn chính cho việc chuẩn hóa.Chƣơng 3 sẽ đƣa ra giải pháp để giải quyết các vấn đề của bài toán chuẩn hóa văn bản trong tiếng Việt. 3.2.Các vấn đề đối với bài toán Chuẩn hóa văn bản tiếng Việt 3.2.1 Bài toán chuẩn hóa văn bản tiếng Anh Hình 3-1 Mô hình chuẩn hóa văn bản cơ bản cho tiếng Anh Lỗi! Không tìm thấy nguồn tham chiếu.. Theo mô hình này, văn bản đầu vào đƣợc đƣa qua một bộ phân tách từ là Tokenizer. Tokenizer sử dụng dấu cách để phân biệt các token. Sau đó văn bản lúc -6- này là các token đã đƣợc phân tách sẽ đƣợc đƣa qua bộ Splitter để chia các token phức ra thành các token nhỏ hơn. Khi các token đã đƣợc phân tách hoàn toàn. 3.2.2 Đặc điểm văn bản tiếng Việt Tuy rất hiệu quả cho tiếng Anh, mô hình chuẩn hóa văn bản tiếng Anh chƣa áp dụng ngay đƣợc cho tiếng Việt vì một số khác biệt giữa tiếng Anh và tiếng Việt đã trình bày ở chƣơng 1 là cấu tạo từ, bản chất ngôn ngữ khác nhau, sự nhập nhằng cao và sự không có quy chuẩn thống nhất trong văn bản tiếng Việt, cộng với cách viết tắt khác nhau của tiếng Việt và tiếng Anh. Nhƣng trình tự và thành phần các môđun trong mô hình này có thể đƣợc tham khảo và sửa đổi để ứng dụng phù hợp cho tiếng Việt, vừa giải quyết đƣợc các vấn đề chung của bài toán chuẩn hóa văn bản, vừa đáp ứng đƣợc những yêu cầu riêng trong tiếng Việt. 3.2.3.Sự tổ chức không có quy chuẩn của một token Trong văn bản tiếng Việt có nhiều trƣờng hợp một tổ hợp chữ (hay một token) biểu diễn một ngữ nghĩa lại bị viết tách rời nhau. Ví dụ nhƣ trong các loại số điện thoại “090 434 3443”, trong số đếm “100 000”, cũng có một số token do lỗi trình bày bị viết tách nhau ra nhƣ “ngày 1/ 5”… Do đó không thể áp dụng việc dùng dấu cách để xác định các token ngay đƣợc. Những trƣờng hợp nhƣ trên cần phải đƣợc nhóm lại thành một token theo cách “0904343443” hoặc “090.434.3443” 3.2.3.1 Sự phức tạp của NSW Trong văn bản tiếng Việt có những trƣờng hợp phải tách một token ra để có thể đọc lên đƣợc bằng các luật phiên âm hay so khớp từ điển. Đó là thời gian (có thể là 12h00 hoặc 12:00 hoặc 12 giờ 00), tiền tệ (975$ hoặc $975, 1.000.000vnd), đơn vị đo (1m75 hoặc 1.75m, 1.5kg, 1m2…), ta gọi những trƣờng hợp phải tách ra nhƣ thế trong tiếng Việt là NSW phức. Dù hình thái các NSW loại này có khác và ít phong phú hơn tiếng Việt, trong mô hình chuẩn hóa văn bản tiếng Anh có mô-đun Split Token. Nhiệm vụ của mô-đun này là chia các token vốn là sự kết hợp của nhiều thành phần ra thành các thành phần nhỏ hơn gọi là subtoken để có thể phiên -7- âm các thành phần của nó, khi bản thân token đó đã đƣợc nhận ra nhƣng chƣa thể phiên âm đƣợc. Đó là các trƣờng hợp chỉ thời gian (12:00-3:00), tiền tệ ($975K$1,595,000) hay các loại đơn vị khác. Vì vậy trong mô hình chuẩn hóa tiếng Việt cần có công đoạn nhận dạng, đánh dấu và phân tách các NSW phức này. 3.2.3.2 Xử lý các NSW khác nhau NSW trong văn bản rất đa dạng. Mỗi loại NSW lại có cách xử lý khác nhau. Có phân loại đúng các NSW thì mới đƣa ra đƣợc cách đọc đúng cho văn bản. Lấy ví dụ trong tiếng Việt, nếu token “8/3” thuộc loại ngày tháng, nó sẽ đƣợc đọc là “mồng tám tháng ba”, nhƣng nếu thuộc loại phân số, nó sẽ đƣợc đọc là “tám phầm ba”, nếu thuộc loại tỷ lệ, nó sẽ đọc là “tám trên ba”. Tiếng Anh cũng có sự nhập nhằng tƣơng tự. Vì vậy việc phân loại đúng đƣợc các NSW để xử lý về sau là vấn đề rất quan trọng trong bài toán chuẩn hóa văn bản các ngôn ngữ. Mô hình chuẩn hóa của tiếng Anh dùng mô-đun Classifier để phân loại cho các NSW mà bỏ qua việc xác định các NSW. Trong bộ chuẩn hóa văn bản tiếng Việt, bƣớc xác định NSW sẽ đƣợc bổ xung vào trƣớc khi phân loại chúng. 3.2.3.3 Vấn đề phân loại NSW Việc phân loại cho NSW cần dựa trên các thuộc tính của nó. NSW có một số thuộc tính độc lập đƣợc thể hiện ở bản thân nó, đó là độ dài token, thành phần token có hay không chứa các loại số, dấu và chữ cái, có hay không có nguyên âm, có chữ viết hoa không, có đƣợc viết hoa toàn bộ hay không. Những thuộc tính này cũng đƣợc áp dụng để xét cho một khung nhìn bao gồm 2 token liền trƣớc và 2 token liền sau token đang xét (tri-gram). NSW còn có một số thuộc tính phụ thuộc nhƣ tính ngữ cảnh, loại của token dạng chữ thay đổi giữa các miền thông tin khác nhau, khi đó ta cần tìm các thuộc tính dựa trên miền thông tin đó. Những thuộc tính này sẽ quyết định việc phân loại chi tiết cho những NSW loại chữ. Ở mục 2.3 sau đây ta sẽ đƣa ra một hệ thống phân loại chi tiết cho các NSW -8- 3.2.3.4.Vấn đề mở rộng NSW Trong bƣớc Tag Expander xác định cách đọc thì việc xác định cách đọc cho từ viết tắt khá phức tạp và chứa nhập nhằng cần dùng tới mô hình ngôn ngữ, các trƣờng hợp còn lại xác định cách đọc dựa vào luật mở rộng. Vì cùng một từ viết tắt nhƣng nó viết tắt cho các từ khác nhau, cho nên cần phải chú ý giải quyết vấn đề này. Để thuận tiện cho việc xử lý, bộ chuẩn hóa văn bản tiếng Việt sẽ tách công đoạn này thành một bƣớc riêng. Tổng hợp lại từ các phân tích trên có thể dẫn đến một mô hình chuẩn hóa phù hợp cho văn bản tiếng Việt nhƣ sẽ trình bày ở mục 2.3 sau đây. 3.3.Giải pháp đề xuất Giải pháp cho bài toán chuẩn hóa văn bản tiếng Việt phải giải quyết đƣợc những vấn đề chung của bài toán chuẩn hóa văn bản nói chung và những vấn đề đặc thù trong tiếng Việt. Đó là phải xử lý đƣợc những trƣờng hợp không thể áp dụng luật phiên âm để đƣa ra thông tin về ngữ âm. Cụ thể là thao tác với các loại NSW là số (số điện thoại, số đếm, phân số, địa chỉ, thời gian … ), các từ viết tắt, các từ đọc nhƣ một dãy kí tự (WTO, NATO, TP, TS…), các từ mƣợn (karaoke, auto, version…), các từ phức nhƣ 1m75, các kí tự Hi Lạp, các địa chỉ mail và địa chỉ URL… 3.3.1.Phân loại các từ chƣa chuẩn hóa cho tiếng Việt - Nhóm số đƣợc bao gồm những token có chứa ký tự là số. Nó bao gồm các loại nhỏ hơn là: - NTIM cho việc biểu diễn giờ (“9:30” hay “9.30” hay “9h30” tƣơng ứng với “chín giờ ba mƣơi phút”) - NDAT chỉ ngày tháng năm đầy đủ (“17/3/1987”, “17/03/1987”, “17/03/87” tƣơng ứng với “ngày mƣời bảy tháng ba năm một nghìn chin trăm tám mƣơi bảy/một chin tám bảy/tám bảy”) - NDAY chỉ ngày và tháng (“17/03” hay “17/3” tƣơng ứng với “ngày mƣời bảy tháng -9- ba”) - NMON chỉ tháng và năm (“03/87” hay “3/87” tƣơng ứng với “tháng ba năm tám mƣơi bảy”) - NNUM là số số học (“200.000” hay “200 000” tƣơng ứng với “hai trăm nghìn”) - NTEL cho số điện thoại (“38.68.39.39”, “38 683 939” tƣơng ứng với “ba tám (nghỉ) sáu tám (nghỉ) ba chin (nghỉ) ba chin”) - NCODE cho dãy số chỉ kí hiệu (“mã số 999” tƣơng ứng là “mã số chin chin chin”). - NSCR cho tỉ số (“tỉ số 2-3” tƣơng ứng là “tỉ số hai (nghỉ) ba”) -NRNG cho số chỉ miền giá trị (“từ 2-3 ngày” đọc thành “từ hai đến ba ngày”). - NPER cho số phần trăm (“30-40%” đƣợc đọc là “ba mƣơi đến bốn mƣơi phần trăm”). - NFRC cho phân số (“34/5” tƣơng ứng với “ba mƣơi tƣ phần năm”) - NCOM cho những trƣờng hợp tổ hợp số phức tạp, hay những biểu thức (2x2x3 đọc là “hai nhân hai nhân ba”). - NSIG cho những đơn vị thông dụng (“m2” đọc là “mét vuông”, “nm” đọc là “na nô mét”, “Nm” đọc là “niu tơn mét”). Nhóm thứ hai là nhóm chữ cho những trƣờng hợp nhƣ sau: - LWRD cho các token không thể áp dụng đƣợc luật phiên âm. Đó là trƣờng hợp của danh từ nƣớc ngoài hay các từ viết tắt gốc nƣớc ngoài mà có thể đọc lên nhƣ một từ (ghép) (“NATO” khi chuẩn hóa sẽ đọc là “na tô”). - LSEQ cho những token đọc lên nhƣ một dãy các chữ cái (“ODA” đọc là “O dê a”). - LABB cho những token là từ viết tắt và cần phải tìm dạng đầy đủ của chúng - 10 - (“PV” mở rộng và đọc thành “phóng viên”). 3.3.2.Tổ chức gán thẻ cho NSW Các NSW sẽ đƣợc bổ xung thông tin dƣới dạng thẻ XML. Mỗi một bản tin sẽ đƣợc đánh dấu bằng thẻ “Information”, mỗi NSW sẽ đƣợc đánh dấu bằng thẻ “W”, thuộc tính của NSW gồm có loại NSW trong attribute “NSW” và thuộc tính là từ đầy đủ của NSW trong attribute “FULL” của thẻ W, các NSW phức hợp đƣợc chia nhỏ ra sẽ đƣợc đánh dấu bằng thẻ “SPLIT”. Ở đây sẽ đƣa ra một ví dụ để có hình dung về cách tổ chức thông tin này. Ví dụ văn bản đầu vào là câu: ”Các hoạt động mít tinh ngày NGVN 20/11 sẽ diễn ra tại sân nhà C2, lúc 8h30. Trong số khách mời có giáo sƣ Micheal (ĐH Harvard)” Kết quả sau khi đƣợc xử lý chuẩn hóa và gán thẻ: Các hoạt động mít tinh ngày NGVN 20/11 sẽ diễn ra tại sân nhà C 2 , lúc 8h30 . . Trong số khách mời có giáo sư Micheal - 11 - ( ĐH Harvard ) Văn bản đầu vào Chuẩn phân tách  Tách các token  Tách câu  Tách NSW phức Phát hiện NSW  So khớp với các từ điển Phân loại NSW     Phân nhóm Phân loại nhóm số Phân loại nhóm chữ Phân loại nhóm khác Mở rộng cách đọc  Khôi phục từ viết tắt  Mở rộng cho các NSW Văn bản đã chuẩn hóa Hình 3-2 Mô hình chuẩn hóa văn bản tiếng Việt - 12 - 3.3.3.Chuẩn phân tách Văn bản đầu vào trƣớc hết đƣợc xử lý bằng biểu thức chính quy để nhận ra và đánh dấu các tổ hợp thuộc nhóm số, URLE bởi các nhóm này sẽ đƣợc xử lý riêng. Tiếp đó các dấu trắng thừa trong văn bản đƣợc loại bỏ, thêm dấu trắng vào trƣớc và sau các dấu câu, các khoảng trắng trong một tổ hợp số đƣợc thay bởi dấu chấm “.” để tiện cho việc xử lý về sau.Các câu trong văn bản đƣợc phân tách và đánh dấu, phục vụ cho việc khai thác ngữ cảnh và đƣa ra nhịp điệu đọc phù hợp cho tiếng nói tổng hợp.Việc phân tách các câu sử dụng bộ phân tách câu tiếng Việt. 3.3.4.Phát hiện NSW Đầu tiên dùng từ điển số Hi Lạp để kiểm tra định dạng của token. Sau đó sử dụng mô hình ngôn ngữ để quyết định xem token phát hiện đƣợc có phải là số Hi Lạp không, nếu phải thì đánh dấu NSW là GREE. Tiếp đó các token đƣợc tìm kiếm trong một từ điển các âm tiết tiếng Việt có thể đọc đƣợc, nếu không thấy trong từ điển và không tìm thấy trong tập các dấu trong câu đồng thời không áp dụng đƣợc luật phiên âm thì đánh dấu là NSW. 3.3.5.Phân loại NSW Các NSW nhóm số, nhóm chữ, nhóm khác đƣợc phân nhóm đơn giản bởi các luật nhận ra định dạng của chúng trong biểu thức chính quy. Các NSW nhóm số thì dùng biểu thức chính quy phát hiện số, các NSW nhóm khác dùng biểu thức chính quy phát hiện dấu, các NSW nhóm chữ dùng biểu thức chính quy phát hiện chữ loại trừ dấu và số. Chi tiết các biểu thức chính quy xem ở chƣơng 3. Sau khi đƣợc phân nhóm, các NSW ở mỗi nhóm lại đƣợc phân loại ra nhỏ hơn, việc xử lý mở rộng cho NSW dựa trên các loại nhỏ của NSW này. 3.4.Các kỹ thuật và giải thuật Biểu thức chính quy có những cú pháp nhất định phải tuân theo và một tập các tập hợp đã đƣợc định nghĩa sẵn.Các tập định nghĩa sẵn này khác nhau cho - 13 - những dạng mãy khác nhau của văn bản. Kỹ thuật biểu thức chính quy đƣợc hỗ trợ trong nhiều ngôn ngữ lập trình nhƣ PHP, .NET, Java, Pearl... 3.4.1.Tổng quan về cây quyết định Tuổi ? <=30 >40 31…40 Sinh viên? không khôn g Điểm số? có có có Xuất sắc khôn g Hình 3-3 Minh họa về cây quyết định - 14 - Trung bình có 3.4.2.Các bƣớc xây dựng cây quyết định. 3.4.2.2.Độ đo thuộc tính Bảng 3-2 Bảng giá trị thuộc tính 3.4.2.3.Rút luật phân lớp từ cây quyết định  Mỗi một đƣờng dẫn từ gốc đến lá trong cây tạo thành một luật.  Mỗi cặp giá trị thuộc tính trên một đƣờng dẫn tạo nên một sự liên.  Nút lá giữ quyết định phân lớp dự đoán.  Các luật tạo đƣợc dễ hiểu hơn các cây. - 15 - 3.4.2.4.Hiện tƣợng “quá vừa” (overfitting) dữ liệu huấn luyện Hình 3-4 Chọn thuộc tính temperature đầu tiên. - Để cây quyết định có thể tổng quát hơn, phân loại đúng đƣợc cho các trƣờng hợp chƣa gặp. Có nhiều giải pháp đã đƣợc đƣa ra nhƣ cắt tỉa lại cây quyết định sau khi học, hoặc cắt tỉa các luật sau khi chuyển cây về dạng luật. Thuật toán C4.5 là thế hệ sau của ID3 với mục đích giải quyết những tồn tại của ID3, thỏa mãn những yêu cầu đặt ra sẽ đƣợc sử dụng. 3.4.2.5.Xử lí quá vừa dữ liệ u - Dạng luật: if A and B and C… then class X. Không thỏa mãn điều kiện chuyển về lớp mặc định. Xây dựng luật: 4 bƣớc: - Mỗi đƣờng đi từ gốc đến lá là một luật mẫu. Đơn giản luật mẫu bằng cách bỏ dần điều kiện mà không ảnh hƣởng tới độ chính xác của luật. - 16 - 3.4.2.6.Áp dụ ng cây quyế t đ ị nh - Mô hình ngôn ngữ bắt đầu ý tƣởng tính xác suất xuất hiện một cụm từ S gồm m từ wi trong một văn bản (ở đây hiểu từ theo cách viết ngƣời Anh, tức là một token đƣợc phân tách bởi dấu cách). 3.4.3.Mô hình ngôn ngữ chữ cái (Letter Language Modeling) Mô hình ngôn ngữ chữ cái dựa trên những ý tƣởng về mô hình ngôn ngữ nhƣng co hẹp phạm vi. Trong mô hình ngôn ngữ tính xác suất xuất hiện một cụm từ thì mô hình ngôn ngữ chữ cái tính xác suất xuất hiện một từ (từ đƣợc hiểu theo cách gọi của ngƣời Anh, trong bài này đƣợc hiểu là một token đƣợc phân cách bởi dấu cách). 3.4.4.Kỹ thuật làm trơn mô hình Kneser-Ney cải tiến Các tác giả ở trƣờng đại học Harvard bằng thực nghiệm đã kết luận rằng phƣơng pháp làm trơn mô hình ngôn ngữ Kneser-Ney cho kết quả tối ƣu nhất. Theo phƣơng pháp này, 3 tham số D1, D2, D3+ sẽ đƣợc lựa chọn để làm trọng số cho 3 mô hình monogram, digram và trigram: 3.5.Kết chƣơng Trong chƣơng 3 trình bày về giải pháp cho bài toán chuẩn hóa văn bản tiếng Việt. Quy trình chuẩn hóa đƣợc chia làm bốn bƣớc chuẩn phân tách, phát hiện NSW, phân loại NSW và mở rộng cách đọc. Chƣơng tiếp theo sẽ cài đặt thử nghiêm modul chuẩn hóa văn bản cho tiếng Việt - 17 - CHƢƠNG 4 CÀI ĐẶT THỬ NGHIỆM MODUL CHUẨN HÓA VĂN BẢN CHO TIẾNG VIỆT 4.1 Cài đặt và thử nghiệm 4.1.1. Cài đặt - Chƣơng trình đƣợc cài đặt trên mội trƣờng Windows sử dụng ngôn ngữ lập trình, bộ công cụ lập trình và các thƣ viện sau: o Ngôn ngữ lập trình Java o Bộ công cụ lập trình Netbeans IDE o Thƣ viện VietTalk: Sản phẩm TTS của Viện Công nghệ thông tin o Thƣ viện Jsoup: lấy nội dung text từ trang web bất kì. Chƣơng trình sử dụng hệ thống TTS iSOLAR hoặc thƣ viện VietTalk để đọc nội dung của các trang báo điện tử. 4. 1.2.Thử nghiệm chƣơng trình 4.1.2.1.Phương pháp đánh giá kế t quả Hình 4-3 Minh họa các độ đo - 18 - 4.1.2.2.Bộ dữ liệu thử nghiệm Training Bao gồm 400 bài lấy từ wikipedia 703980 Số từ 69425 Số NSWs 9,86% Tỷ lệ NSWs Tỉ lệ NSWs trong tập traing Phân bố của các chủ đề trong tập training (2) Testing Tập test 1: 2000 câu rút ra từ tập training đƣợc gán nhãn bằng tay Tập test 2: 2000 câu lấy từ trang tinngan.vn của Viettel đƣợc gán nhãn bằng tay Phân phối của NSWs trong tập test Nhóm Phân phối Phân phối trong tập test 1 trong tập test 2 NUMBERS 27% 40,5% LETTERS 65% 58,3% OTHERS 8% 1,2% Phân bố của NSWs trong tập test Bảng 4-2 Phân bố cụ thể của các loại thuộc kiểu NUMBERS 4.2.Kết quả thử nghiệm Kết quả thử nghiệm là độ chính xác của việc gán nhãn đƣợc đánh giá dựa trên công thức sau Accuracy of a subcategory = Độ chính xác trong Bảng 4-3 Phân bố của NSWs trong tập OTHERS nhóm LETTERS Đánh giá kết quả Precision 98,55% Recall 96,13% Đánh giá theo các độ - 19 - F-score 97,32%

- Xem thêm -

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất