Tài liệu Tổng hợp tiếng việt với các chất giọng khác nhau và có biểu lộ cảm xúc

.PDF

110

542

142

dangvantuan Báo vi phạm

Tải xuống 142

Mô tả:

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Lê Xuân Thành TỔNG HỢP TIẾNG VIỆT VỚI CÁC CHẤT GIỌNG KHÁC NHAU VÀ CÓ BIỂU LỘ CẢM XÚC Ngành: Khoa học máy tính Mã số: 9480101 LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TINH NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. PGS.TS. Đặng Văn Chuyết 2. PGS.TS. Trịnh Văn Loan Hà Nội - 2018 LỜI CAM ĐOAN Tôi xin cam đoan tất cả các nội dung trong luận án “Tổng hợp tiếng Việt với các chất giọng khác nhau và có biểu lộ cảm xúc” là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả trong luận án là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào. Việc tham khảo các nguồn tài liệu đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định. Hà Nội, ngày 03 tháng 07 năm 2018 TẬP THỂ HƯỚNG DẪN KHOA HỌC TÁC GIẢ LUẬN ÁN PGS.TS. Đặng Văn Chuyết Lê Xuân Thành PGS.TS. Trịnh Văn Loan 2 LỜI CẢM ƠN Tôi xin bày tỏ lòng biết ơn tới Trường Đại học Bách khoa Hà Nội, Viện Đào tạo Sau đại học, Viện Công nghệ Thông tin và Truyền thông, Bộ môn Kỹ thuật Máy tính, Bộ môn Khoa học Máy tính đã tạo điều kiện thuận lợi cho tôi trong quá trình làm việc, học tập và nghiên cứu tại Trường. Tôi muốn gửi lời cảm ơn đặc biệt tới tập thể hướng dẫn trực tiếp là PGS.TS. Trịnh Văn Loan và PGS.TS. Đặng Văn Chuyết. Hai thầy đã luôn tận tình giúp đỡ, đưa ra những lời khuyên, những định hướng khoa học rất quý báu để tôi có thể triển khai và hoàn thành công việc nghiên cứu của mình. Xin chân thành cảm ơn các thầy cô, các đồng nghiệp trong Bộ môn Kỹ thuật Máy tính, Viện Công nghệ Thông tin và Truyền thông, Trường Đại học Bách khoa Hà Nội nơi tôi làm việc, học tập và thực hiện đề tài nghiên cứu đã nhiệt tình giúp đỡ và động viên tôi trong suốt quá trình nghiên cứu. Với tấm lòng biết ơn đến các thầy cô, các nhà khoa học, các đồng nghiệp và bạn bè thân hữu đã động viên và giúp đỡ tôi trong quá trình nghiên cứu. Cuối cùng tôi muốn bày tỏ lòng biết ơn sâu sắc tới gia đình, nơi nuôi dưỡng và là nguồn động lực để tôi vượt mọi trở ngại khó khăn để hoàn thành luận án này. Lê Xuân Thành 3 MỤC LỤC LỜI CAM ĐOAN ..................................................................................................... 2 LỜI CẢM ƠN ........................................................................................................... 3 MỤC LỤC ................................................................................................................. 4 DANH MỤC CÁC TỪ VIẾT TẮT ......................................................................... 7 MỤC LỤC CÁC BẢNG ......................................................................................... 10 MỤC LỤC HÌNH ẢNH.......................................................................................... 12 MỞ ĐẦU .................................................................................................................. 14 1. TỔNG QUAN NGHIÊN CỨU VỀ TỔNG HỢP TIẾNG NÓI VÀ TỔNG HỢP TIẾNG NÓI CÓ CẢM XÚC ................................................................................. 18 1.1. Tình hình nghiên cứu trên thế giới về tổng hợp tiếng nói ............................. 18 1.1.1. Tổng hợp bằng ghép nối ......................................................................... 19 1.1.2. Tổng hợp bằng mô hình .......................................................................... 21 1.2. Các nghiên cứu về tổng hợp tiếng nói trong nước hiện nay .......................... 23 1.2.1. Tổng hợp bằng phương pháp ghép nối ................................................... 24 1.2.2. Tổng hợp dựa trên mô hình ..................................................................... 24 1.3. Các nghiên cứu về tổng hợp tiếng nói có cảm xúc trên thế giới ................... 25 1.3.1. Tổng quan................................................................................................ 25 1.3.2. Các tham số ảnh hưởng đến cảm xúc trong tiếng nói ............................. 25 1.4. Các nghiên cứu về tiếng nói có cảm xúc trong tiếng Việt ............................. 27 1.5. Kết chương 1 .................................................................................................. 28 2. XÂY DỰNG BỘ NGỮ LIỆU TỔNG HỢP TIẾNG VIỆT CÓ CẢM XÚC .. 31 2.1. Xây dựng bộ ngữ liệu tổng hợp tiếng Việt nói chất lượng tốt ....................... 31 2.1.1. Đặc điểm cơ bản của ngữ âm tiếng Việt ................................................. 31 2.1.2. Hệ thống âm vị và cấu trúc âm tiết tiếng Việt ........................................ 32 2.1.3. Hệ thống thanh điệu ................................................................................ 35 2.1.4. Hệ thống âm đầu ..................................................................................... 36 2.1.5. Hệ thống âm đệm .................................................................................... 37 4 2.1.6. Hệ thống âm chính .................................................................................. 38 2.1.7. Hệ thống âm cuối .................................................................................... 39 2.1.8. Xây dựng bộ ngữ liệu tiếng Việt nói chất lượng tốt ............................... 40 2.1.9. Xây dựng danh sách các âm tiết trong bộ ngữ liệu ................................. 42 2.1.10. Kịch bản thu ......................................................................................... 42 2.1.11. Thu âm .................................................................................................. 43 2.2. Xây dựng bộ ngữ liệu cảm xúc tiếng Việt ..................................................... 44 2.2.1. Mục đích xây dựng bộ ngữ liệu cảm xúc tiếng Việt ............................... 44 2.2.2. Các tham số về cảm xúc trong tiếng nói ................................................. 44 2.2.3. Phương pháp xây dựng ngữ liệu cảm xúc tiếng Việt .............................. 46 2.2.4. Phân tích và đánh giá một số tham số về cảm xúc trong tiếng Việt nói . 48 2.2.5. Đánh giá bộ ngữ liệu cảm xúc tiếng Việt................................................ 59 2.3. Kết chương 2 .................................................................................................. 59 3. TỔNG HỢP TIẾNG VIỆT CÓ BIỂU LỘ CẢM XÚC ................................... 61 3.1. Tổng hợp tiếng Việt chất lượng tốt ................................................................ 61 3.1.1. Xây dựng bộ ngữ liệu cho tổng hợp tiếng Việt chất lượng tốt................ 61 3.1.2. Tổng hợp tiếng Việt chất lượng tốt bằng phương pháp ghép nối ........... 61 3.1.3. Phương pháp đánh giá chủ quan MOS ................................................... 70 3.1.4. Thử nghiệm tổng hợp một số câu nói bằng bộ tổng hợp tiếng Việt chất lượng tốt ............................................................................................................ 71 3.2. Tổng hợp tiếng Việt có cảm xúc .................................................................... 76 3.2.1. Mô hình Fujisaki ..................................................................................... 77 3.2.2. Tổng hợp tiếng Việt nói có cảm xúc sử dụng mô hình Fujisaki ............. 80 3.2.3. Đánh giá bằng phương pháp chủ quan chất lượng các câu tổng hợp tiếng Việt có cảm xúc ................................................................................................. 86 3.2.4. Đánh giá bằng phương pháp khách quan chất lượng các câu tổng hợp tiếng Việt có cảm xúc ................................................................................................. 89 3.3. Kết chương 3 .................................................................................................. 91 KẾT LUẬN VÀ KIẾN NGHỊ ................................................................................ 93 5 CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ .................................................................... 96 TÀI LIỆU THAM KHẢO...................................................................................... 97 PHỤ LỤC A – DANH SÁCH CÁC ÂM CẦN THU .......................................... 107 6 DANH MỤC CÁC TỪ VIẾT TẮT Chữ viết tắt Chữ viết đầy đủ Giải thích Accent Trọng âm ANOVA Analysis of variance Phân tích phương sai BKEmon Bach khoa Emotion Bộ ngữ liệu cảm xúc tiếng Việt được nghiên cứu sinh xây dựng DRM Distinctive Region Model Mô hình phần riêng biệt Thời hạn phát âm (là độ dài của tín hiệu một âm) Duration EEG ElectroEncephaloGram) Tín hiệu điện não F0 Fundamental frequency Tần số cơ bản GMM Gaussian Mixture Model Mô hình hỗn hợp Gauss HLDA Heteroscedastic Linear Discriminant Analysis Phân tích phân biệt tuyến tính không đồng nhất HMM Hidden Markov Model Mô hình Markov ẩn HTK Hidden Markov Model Toolkit Bộ công cụ mô hình Markov ẩn HTS HMM-based Speech Synthesis System Hệ tổng hợp tiếng nói bằng mô hình HMM LDA Linear Discriminant Analysis Phân tích phân biệt tuyến tính LDC Linguistic Data Consortium Hội đoàn dữ liệu ngôn ngữ LLR Log Likelihood Ratio Log tỉ lệ khả hiện LPC Linear Prediction Coding Mã hóa tiên đoán tuyến tính 7 MBROLA Multi-Band Resynthesis OverLap Add Bộ tổng hợp tiếng nói bằng phương pháp ghép nối MFCC Mel Frequency Cepstral Coefficients Các hệ số Cepstral theo thang đo tần số Mel MICA International Research Institute Multimedia, Information, Communication and Applications Viện nghiên cứu Quốc tế về Truyền thông, Thông tin, Đa phương tiện và Ứng dụng MOS Mean Opinion Score Điểm trung bình số ý kiến NIST National Institute of Standards and Technology Viện Tiêu chuẩn và Công nghệ Quốc gia của Mỹ NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên Pitch Cao độ Pitch contour Đường bao cao độ PCA Principal Component Analysis Phân tích các thành phần chính Phrase Cụm từ PSOLA Pitch Synchronous Overlap Kỹ thuật cộng chồng đồng bộ cao and Add độ SMO Sequential Minimal Optimization Tối ưu hóa cực tiểu lần lượt Segmental Đoạn tính Suprasegmental Siêu đoạn tính SVM Máy véc-tơ hỗ trợ Support Vector Machines 8 Thanh điệu Tone TTS Văn bản thành tiếng nói Text-to-Speech Tukey’s test WER Kiểm định T Word Error Rate Tỷ lệ lỗi từ 9 MỤC LỤC CÁC BẢNG Bảng 2.1. Hệ thống phụ âm và cách đọc .................................................................. 33 Bảng 2.2. Hệ thống nguyên âm tiếng Việt ............................................................... 34 Bảng 2.3. Cấu trúc âm tiết tiếng Việt ....................................................................... 35 Bảng 2.4. Phân loại thanh điệu tiếng Việt ................................................................ 36 Bảng 2.5. Hệ thống âm đầu tiếng Việt ..................................................................... 36 Bảng 2.6. Bảng mô tả hệ thống phụ âm đầu của tiếng Việt ..................................... 37 Bảng 2.7. Hệ thống âm chính tiếng Việt .................................................................. 38 Bảng 2.8. Hệ thống nguyên âm chính với 13 nguyên âm đơn, 3 nguyên âm đôi .... 38 Bảng 2.9. Hệ thống âm cuối tiếng Việt .................................................................... 39 Bảng 2.10. Hệ thống âm cuối tiếng Việt theo cách phát âm .................................... 40 Bảng 2.11. Cách tổ chức đơn vị âm đầu và đơn vị âm cuối ..................................... 42 Bảng 2.12. Giá trị F và P-value của phân tích phương sai ANOVA cho các giọng nam và nữ với tần số cơ bản 𝐹0 trung bình và năng lượng trung bình ................... 51 Bảng 2.13. Kết quả phân tích kiểm định T về 𝐹0 cho giọng của người nói T.T.H và Đ.K. .................................................................................................................. 52 Bảng 2.14. Kết quả phân tích kiểm định T về năng lượng trung bình cho giọng của Đ.K. (nam) và T.T.H. (nữ) ............................................................................... 54 Bảng 2.15. Giá trị F và P-value của phân tích phương sai ANOVA cho các giọng nam và nữ với 𝐹0 trung bình và năng lượng trung bình ......................................... 57 Bảng 2.16. Kết quả phân tích kiểm định T về 𝐹0 trung bình và năng lượng trung bình cho giọng của các giọng nam........................................................................... 57 Bảng 2.17. Kết quả phân tích kiểm định T về 𝐹0 trung bình và năng lượng trung bình cho giọng của các giọng nữ ............................................................................. 58 Bảng 3.1. Bảng điểm đánh giá theo thang MOS ...................................................... 70 Bảng 3.2. Các câu thử nghiệm tổng hợp giọng trần thuật (cảm xúc bình thường) bằng bộ tổng hợp tiếng Việt chất lượng tốt .............................................................. 71 Bảng 3.3. Kết quả đánh giá của 14 người nghe ........................................................ 72 Bảng 3.4. Bộ tham số điều chỉnh thời hạn phát âm câu "Ông nói gì thế tôi không hiểu" .......................................................................................................................... 82 10 Bảng 3.5. Bộ tham số điều chỉnh cường độ của câu "Ông nói gì thế tôi không hiểu" .......................................................................................................................... 83 Bảng 3.6. Bộ tham số điều chỉnh 𝐹0 của câu "Ông nói gì thế tôi không hiểu" cho cảm xúc tức .............................................................................................................. 84 Bảng 3.7. Ma trận nhầm lẫn giọng nữ cho câu "Ông nói gì thế tôi không hiểu" ..... 86 Bảng 3.8. Ma trận nhầm lẫn giọng nam cho câu "Ông nói gì thế tôi không hiểu" .. 87 Bảng 3.9. Ma trận nhầm lẫn tổng hợp cả giọng nam và giọng nữ cho 14 câu ......... 87 Bảng 3.10. Ma trận nhầm lẫn cho giọng nam cho cả 4 cảm xúc cho 14 câu ........... 87 Bảng 3.11. Ma trận nhầm lẫn cho giọng nữ cho cả 4 cảm xúc cho 14 câu .............. 87 Bảng 3.12. Kết quả đánh giá cảm xúc cho giọng nam của tất cả các câu ................ 88 Bảng 3.13. Kết quả đánh giá cảm xúc cho giọng nữ của tất cả các câu ................... 88 Bảng 3.14. Kết quả đánh giá cảm xúc cho cả hai giọng ở tất cả các câu ................. 88 11 MỤC LỤC HÌNH ẢNH Hình 1.1. Sơ đồ hệ thống tổng hợp tiếng nói [4] ...................................................... 18 Hình 1.2. Mô hình tổng hợp tiếng Việt của bộ tổng hợp VnSpeech [26] ................ 24 Hình 2.1. Minh họa các thanh điệu tiếng Việt.......................................................... 35 Hình 2.2. Cách thức tổ chức lưu trữ các đơn vị âm sau khi thu và xử lý ................. 41 Hình 2.3. Slide kịch bản thu âm ............................................................................... 43 Hình 2.4. Tín hiệu các âm đã thu.............................................................................. 43 Hình 2.5. Phần mềm dùng để thu âm bộ ngữ liệu cảm xúc tiếng Việt - BKEmo .... 47 Hình 2.6. Tín hiệu của câu mã số 4302 sau khi được cắt bỏ khoảng lặng ............... 48 Hình 2.7. Phân bố F trong phân tích phương sai ANOVA ...................................... 49 Hình 2.8. Đồ thị box-plot phân bố của các giá trị 𝐹0 trung bình theo 4 cảm xúc của nghệ sĩ Đ.K. (bên trái) và H.P. (bên phải) ....................................................... 50 Hình 2.9. Đồ thị box-plot phân bố các giá trị 𝐹0 trung bình theo 4 cảm xúc của người nói T.T.H. (phải) và B.H.G. (trái) .................................................................... 53 Hình 2.10. Đồ thị box-plot phân bố của các giá trị năng lượng trung bình theo 4 cảm xúc của người nói Đ.K. (trái: giọng nam) và T.T.H. (phải: giọng nữ) ............ 53 Hình 2.11. Đồ thị phân bố các giá trị 𝐹0 trung bình so với năng lượng trung bình theo 4 cảm xúc của giọng nam (trái) và giọng nữ (phải) ......................................... 55 Hình 2.12. Đồ thị box-plot phân bố của các giá trị 𝐹0 trung bình theo 4 cảm xúc của giọng nam (trái) và giọng nữ (phải) ................................................................. 56 Hình 2.13. Đồ thị box-plot phân bố các giá trị năng lượng trung bình theo 4 cảm xúc, giọng nam (trái) và giọng nữ (phải) ................................................................. 56 Hình 3.1. Phần mềm xác định điểm cắt và tần số 𝑭𝟎 tại điểm ghép nối tự xây dựng .......................................................................................................................... 62 Hình 3.2. Lưu đồ bộ tổng hợp tiếng Việt bằng phương pháp ghép nối ................... 63 Hình 3.3. Tín hiệu của âm đầu "ba": ........................................................................ 65 Hình 3.4. Tín hiệu của phần âm cuối /àng/: ............................................................. 66 Hình 3.5. Tín hiệu của âm tiết "bàng" khi chưa xử lý điểm ghép nối ...................... 66 Hình 3.6. Tín hiệu của âm tiết "bàng" khi chưa xử lý điểm ghép nối ...................... 67 Hình 3.7. Tín hiệu của âm tiết "bàng" sau khi cân bằng biên độ và cân bằng 𝑭𝟎: .. 67 12 Hình 3.8. Sơ đồ khối quá trình làm trơn phổ ............................................................ 68 Hình 3.9. Tín hiệu âm đầu trước khi làm trơn phổ ................................................... 69 Hình 3.10. Tín hiệu của âm tiết "bàng" sau khi được cân bằng phổ: ....................... 69 Hình 3.11. Đường bao phổ của âm đầu và một phần âm cuối tại điểm ghép nối trước và sau khi làm trơn bằng LPC ......................................................................... 70 Hình 3.12. Câu “Cảnh vật chung quanh tôi đều thay đổi” ....................................... 73 Hình 3.13. Câu “Nhìn chúng tôi với cặp mắt hiền từ và cảm động”........................ 73 Hình 3.14. Câu “Cũng may, đã có tiếng dạ rang của phụ huynh đáp lại”................ 73 Hình 3.15. Câu “Một cậu đứng đầu ôm mặt khóc” .................................................. 74 Hình 3.16. Câu “Một mùi hương lạ xông lên trong lớp” ......................................... 74 Hình 3.17. Câu “Để thầy, mẹ được vui lòng, các em phải cố gắng học” ................. 74 Hình 3.18. Câu “Các em đã nghe chưa” ................................................................... 75 Hình 3.19. Câu “Mấy cậu học trò lớp ba cũng đua nhau quay đầu nhìn ra” ............ 75 Hình 3.20. Câu “Không thể nào quên được những cảm giác trong sáng ấy” .......... 75 Hình 3.21. Câu “Một buổi mai đầy sương thu và gió lạnh” ..................................... 76 Hình 3.22. Mô hình Larynx [113] ............................................................................ 77 Hình 3.23. Mô hình Fujisaki cho ngôn ngữ có trọng âm [115] ................................ 78 Hình 3.24. Mô hình Fujisaki áp dụng cho tổng hợp tiếng Việt có thanh điệu [112] 78 Hình 3.25. Lưu đồ thuật giải tổng hợp tiếng Việt có cảm xúc ................................. 80 Hình 3.26. Tín hiệu câu "ông nói gì thế tôi không hiểu" với cảm xúc bình thường 82 Hình 3.27. Tín hiệu câu "Ông nói gì thế tôi không hiểu" sau khi được điều chỉnh cường độ và thời hạn phát âm cho cảm xúc tức .............................................. 84 Hình 3.28. Giao diện công cụ sử dụng mô hình Fujisaki để điều chỉnh 𝐹0 cho cảm xúc tức của câu "Ông nói gì thế tôi không hiểu" ............................................. 85 Hình 3.29. Tín hiệu câu "Ông nói gì thế tôi không hiểu" sau khi được tổng hợp ở cảm xúc tức .............................................................................................................. 85 Hình 3.30. Độ lệch phổ giữa câu tự nhiên và câu tổng hợp cho giọng nam ............ 90 Hình 3.31. Độ lệch phổ giữa câu tự nhiên và câu tổng hợp cho giọng nữ ............... 91 13 MỞ ĐẦU 1. Lý do lựa chọn đề tài Ngày nay, với sự phát triển mạnh mẽ của máy tính, các ứng dụng của máy tính trong mọi lĩnh vực của cuộc sống đã tạo nên nhiều yêu cầu nhằm đơn giản hoá quá trình sử dụng, tăng hiệu quả khai thác máy tính và các ứng dụng trên máy tính. Trong đó, xử lý tiếng nói nói chung và tổng hợp tiếng nói nói riêng là một vấn đề đã và đang được quan tâm nghiên cứu, phát triển ứng dụng để nâng cao hiệu quả sử dụng của máy tính nhằm phục vụ con người trong cuộc sống. Trên thế giới đã có nhiều nghiên cứu về vấn đề này và đã đạt được nhiều thành công. Nhiều sản phẩm hữu ích từ các kết quả nghiên cứu đã được ứng dụng trong thực tế. Xử lý ngôn ngữ tiếng Việt nói chung và tổng hợp tiếng Việt nói nói riêng là những vấn đề chỉ có thể làm tốt được bởi chính người Việt. Hiện nay, đã có rất nhiều công trình nghiên cứu về tổng hợp tiếng Việt giọng trần thuật cho kết quả tốt và cùng đã có một số sản phẩm tổng hợp tiếng Việt như VietVoice, vnVoice, VieTTS, VOS hay VnSpeech do người Việt và một số người Việt Nam ở nước ngoài làm ra và đã có những kết quả tốt. Tổng hợp cảm xúc trong tiếng nói không phải là vấn đề mới mẻ, nhiều ngôn ngữ đã có những nghiên cứu về vấn đề này. Các kết quả này nếu được ứng dụng vào các hoạt động của cuộc sống như: trợ lý ảo trên điện thoại, robot giúp việc, các hệ thống nhà thông minh sẽ giúp các hệ thống có thêm nhiều thông tin để phục vụ tốt hơn các yêu cầu của con người. Hiện nay, các nghiên cứu về tổng hợp hay nhận dạng tiếng Việt có cảm xúc chưa nhiều, các kết quả đã công bố thường là các nghiên cứu nhỏ lẻ, trên các bộ ngữ liệu có số lượng ít [123], thường chỉ vài giọng và thường mới chỉ đánh giá so sánh với giọng của nước khác [114] chứ chưa có nghiên cứu một cách hệ thống về tổng hợp tiếng Việt có cảm xúc. Từ các lý do trên, nghiên cứu sinh lựa chọn đề tài nghiên cứu “Tổng hợp tiếng Việt với các chất giọng khác nhau và có biểu lộ cảm xúc” nhằm nghiên cứu sâu hơn về vấn đề tổng hợp tiếng Việt với mục tiêu là hướng tới hệ tổng hợp tiếng Việt chất lượng tốt với các chất giọng khác nhau và có biểu lộ xúc cảm. Đây là vấn đề vẫn còn mới mẻ và có tính thời sự đối với tiếng Việt và có tiềm năng ứng dụng cao, đáp ứng nhu cầu phát tiển của các ứng dụng cả trên phần cứng và phần mềm như: lồng tiếng phim, ứng dụng vào trợ lý ảo, nhà thông minh…. 2. Mục tiêu và nội dung của đề tài Mục tiêu nghiên cứu của luận án là xây dựng được bộ ngữ liệu về cảm xúc cho tiếng Việt nói trong đó bước đầu lựa chọn 4 cảm xúc cơ bản là: vui, buồn, bình thường và 14 tức. Sau đó, tiến hành phân tích đánh giá ảnh hưởng của các tham số đến việc biểu lộ cảm xúc trong tiếng Việt. Trên cơ sở các kết quả đạt được, đề xuất xây dựng mô hình tổng hợp tiếng Việt có cảm xúc và thử nghiệm tích hợp cảm xúc vào tiếng Việt tổng hợp. 3. Nhiệm vụ nghiên cứu của luận án Để đạt được mục tiêu đã đề ra, luận án cần hoàn thành 3 nhiệm vụ sau: <1>. Xây dựng bộ ngữ liệu cảm xúc cho tiếng Việt và phân tích, đánh giá ảnh hưởng của các tham số đến cảm xúc trong tiếng Việt. Tìm ra quy luật thay đổi của các tham số tương ứng với các cảm xúc. <2>. Đề xuất được mô hình có thể tổng hợp tiếng Việt nói với yêu cầu chất lượng thanh điệu được đặt lên hàng đầu và tổng hợp được nhiều chất giọng khác nhau. <3>. Bước đầu thử nghiệm mô hình tổng hợp tiếng Việt có cảm xúc. 4. Đối tượng và phạm vi nghiên cứu của luận án Đề tài luận án là tổng hợp tiếng Việt với các chất giọng khác nhau và có biểu lộ cảm xúc. Trong khuôn khổ của đề tài và nhiệm vụ đã đặt ra, nghiên cứu sinh xác định đối tượng và phạm vi nghiên cứu cho từng nhiệm vụ cụ thể như sau: - Với nhiệm vụ 1: Cảm xúc trong tiếng nói rất đa dạng, trong đó mỗi cảm xúc lại có rất nhiều cảm xúc chi tiết (cách thể hiện khác nhau của cảm xúc đó). Trong khuôn khổ nghiên cứu của luận án, nghiên cứu sinh tập trung vào 4 cảm xúc cơ bản là bình thường (trung tính), vui, buồn và tức. Bộ ngữ liệu sẽ được xây dựng dựa trên 4 cảm xúc này. Phần phân tích sẽ tập trung phân tích ảnh hưởng của các tham số cơ bản của tín hiệu tiếng Việt nói. - Với nhiệm vụ 2: Nghiên cứu sinh tập trung nghiên cứu cách thức xây dựng bộ tổng hợp trong đó yếu tố tổng hợp thanh điệu được đặt lên hàng đầu, bộ ngữ liệu cũng được thiết kế để tạo nên bộ tổng hợp có số lượng từ vựng không hạn chế với ngữ liệu ít nhất. Một nghiên cứu nữa của phần này là mô hình này có thể tổng hợp được bất cứ giọng nào miễn là còn thu âm được ngữ liệu của giọng đó và dung lượng ngữ liệu là thấp nhất có thể. - Với nhiệm vụ 3: Bước đầu thử nghiệm mô hình tổng hợp tiếng Việt có cảm xúc tập trung vào 4 cảm xúc đã được phân tích và tìm ra quy luật ở nhiệm vụ 1. 5. Ý nghĩa khoa học thực tiễn của luận án Nội dung nghiên cứu của luận án, kết quả đạt được sẽ là đóng góp đáng kể vào lĩnh vực nghiên cứu tổng hợp tiếng Việt có cảm xúc. Các nghiên cứu về cảm xúc trong 15 tiếng Việt về mặt tín hiệu hiện nay còn ít, do vậy hướng nghiên cứu của luận án sẽ giúp mở rộng phạm vi nghiên cứu cũng như gia tăng thêm khả năng ứng dụng vào các sản phẩm phục vụ đời sống xã hội. Bộ ngữ liệu được xây dựng trong phạm vi luận án sẽ là một trong số ít các bộ ngữ liệu đầu tiên, đáp ứng về mặt số lượng, dung lượng cho các nghiên cứu về cảm xúc tiếng Việt sau này. Các kết quả phân tích về ảnh hưởng của tham số đến các cảm xúc trong phạm vi của luận án sẽ là các kinh nghiệm bước đầu cho các nghiên cứu về các cảm xúc khác trong tương lai. 6. Phương pháp nghiên cứu của luận án Luận án kết hợp song song giữa phương pháp nghiên cứu lý thuyết và phương pháp nghiên cứu thực nghiệm. Về lý thuyết: luận án nghiên cứu tổng quan về cảm xúc trong tiếng nói, tìm hiểu các nghiên cứu về cảm xúc trong các ngôn ngữ khác, các đặc trưng của tiếng Việt, nghiên cứu các mô hình tổng hợp tiếng nói và tiếng nói có cảm xúc dựa trên các tài liệu, công trình khoa học đã được công bố, sách báo, giáo trình liên quan. Về thực nghiệm: luận án xây dựng bộ ngữ liệu cảm xúc tiếng Việt mới phục vụ cho nghiên cứu cảm xúc trong tiếng Việt và tổng hợp tiếng Việt có cảm xúc. Luận án cũng sử dụng các công cụ phân tích, thống kê, đánh giá tham số; các bộ tổng hợp tiếng nói mã nguồn mở kết hợp lập trình phần mềm thu âm; xử lý và đánh giá dữ liệu; thực hiện các nghiên cứu, thử nghiệm các mô hình tổng hợp tiếng Việt có cảm xúc. 7. Kết quả nghiên cứu, đóng góp của luận án Kết quả nghiên cứu và đóng góp của luận án tập trung chủ yếu vào các nội dung chính sau: <1>. Xây dựng bộ ngữ liệu cảm xúc cho tiếng Việt và phân tích, đánh giá ảnh hưởng của các tham số đến cảm xúc trong tiếng Việt, tìm ra quy luật thay đổi của các tham số tương ứng với các cảm xúc. <2>. Đề xuất được mô hình có thể tổng hợp tiếng Việt với yêu cầu chất lượng thanh điệu được đặt lên hàng đầu và tổng hợp được nhiều chất giọng khác nhau. <3>. Đề xuất được mô hình thử nghiệm tổng hợp tiếng Việt có cảm xúc. 8. Nội dung luận án Luận án được trình bày thành 3 chương có nội dung như sau: Chương 1: Tổng quan nghiên cứu về tổng hợp tiếng nói và tổng hợp tiếng nói có cảm xúc. Chương này trình bày tình hình nghiên cứu trong nước và quốc tế về tổng hợp tiếng nói nói chung và tổng hợp có cảm xúc nói riêng trong đó có tiếng Việt. Chương 16 1 cũng trình bày các kết quả nghiên cứu về ảnh hưởng của một số tham số đến tiếng nói tổng hợp và tiếng nói tổng hợp có cảm xúc. Trong chương này cũng làm rõ các vấn đề cần nghiên cứu và giải quyết trong luận án. Chương 2: Xây dựng bộ ngữ liệu tiếng Việt có cảm xúc. Chương này trình bày 2 nội dung lớn. Nội dung thứ nhất là xây dựng bộ ngữ liệu cảm xúc tiếng Việt và phân tích đánh giá ảnh hưởng của các tham số 𝐹0, năng lượng, cường độ và thời hạn… đến 4 cảm xúc cơ bản vui, buồn, bình thường, tức trong tiếng Việt. Nội dung thứ hai là xây dựng bộ ngữ liệu cho bộ tổng hợp tiếng Việt chất lượng tốt để chuẩn bị cho bộ tổng hợp tiếng Việt có cảm xúc. Chương 3: Tổng hợp tiếng Việt có biểu lộ cảm xúc. Chương này trình bày 2 mô hình tổng hợp tiếng Việt nói. Mô hình đầu tiên là mô hình tổng hợp tiếng Việt cho phép tổng hợp được tiếng Việt nói với yêu cầu chất lượng tổng hợp thanh điệu được đặt lên hàng đầu và có thể tổng hợp được các giọng khác nhau. Mô hình thứ hai là mô hình thử nghiệm bộ tổng hợp tiếng Việt có cảm xúc bằng phương pháp ghép nối. Phần Kết luận trình bày tổng hợp kết quả nghiên cứu đã đạt được, hướng mở rộng nghiên cứu và các đóng góp của luận án. 17 CHƯƠNG 1 1. TỔNG QUAN NGHIÊN CỨU VỀ TỔNG HỢP TIẾNG NÓI VÀ TỔNG HỢP TIẾNG NÓI CÓ CẢM XÚC 1.1. Tình hình nghiên cứu trên thế giới về tổng hợp tiếng nói Các nghiên cứu về tổng hợp tiếng nói đã được thực hiện khá sớm, từ thế kỷ 18 đã có những ghi nhận về nghiên cứu và chế tạo ra các cỗ máy có khả năng tổng hợp, tạo ra tiếng nói [60]. Cùng với sự phát triển của khoa học công nghệ, ngày nay, vấn đề xử lý tiếng nói nói chung và tổng hợp tiếng nói nói riêng đã được đưa vào xử lý trên máy tính. Với sự hỗ trợ mạnh mẽ của nền tảng công nghệ, với các thuật giải, công nghệ mới đã cho phép nghiên cứu về lĩnh vực này tiến đi xa hơn. Hiện nay, các sản phẩm tổng hợp tiếng nói đã được ứng dụng rộng rãi trong nhiều lĩnh vực của cuộc sống. Hình 1.1. Sơ đồ hệ thống tổng hợp tiếng nói [61] Mặc dù đã có thể đưa vào ứng dụng trong thực tế nhưng chất lượng, khả năng của các hệ thống tổng hợp có được đến nay vẫn còn những hạn chế nhận định. Có thể tốt 18 ở một số ngôn ngữ nhất định, chưa tạo ra được tiếng nói tự nhiên, vấn đề biểu cảm,… do vậy các nghiên cứu về tổng hợp tiếng nói đến nay vẫn đang được tiếp tục với mục tiêu nâng cao chất lượng tổng hợp, tiếng nói tạo ra gần với tiếng nói tự nhiên hơn và giải quyết vấn đề tổng hợp tiếng nói cho từng ngôn ngữ. Hình 1.1 là sơ đồ tổng quát của một hệ thống tổng hợp tiếng nói từ văn bản. Đầu vào của hệ thống là văn bản và đầu ra là tiếng nói tổng hợp ứng với văn bản đó. Như vậy, đầu tiên cần phân tích văn bản để đưa ra các từ và câu cần tổng hợp. Mặt khác, khâu phân tích văn bản cũng cho biết thanh điệu và ngữ điệu cần thiết phải được tổng hợp. Từ đó, bộ tổng hợp tiếng nói sẽ có các tham số thích hợp để tổng hợp được tiếng nói theo yêu cầu. Khi đánh giá chất lượng tiếng nói tổng hợp thường sử dụng hai phương pháp khách quan và chủ quan. Phương pháp khách quan là đo đạc và so sánh về mặt tín hiệu, tham số của tiếng nói tổng hợp và tiếng nói tự nhiên để đánh giá mức độ tự nhiên của tiếng nói tổng hợp. Phương pháp chủ quan là sử dụng người nghe để đánh giá mức độ dễ nghe, dễ hiểu của tiếng nói tổng hợp. Hai yêu cầu về mức độ tự nhiên và mức độ dễ nghe của tiếng nói tổng hợp là quan trọng nhất [12]. Các hệ thống tổng hợp đều có mục tiêu là đảm bảo được 2 yêu cầu này. Từ các trình bày về tổng hợp tiếng nói trong [22] có thể thấy hai hướng nghiên cứu lớn về tổng hợp tiếng nói hiện nay là tổng hợp bằng ghép nối và tổng hợp dựa trên mô hình. 1.1.1. Tổng hợp bằng ghép nối Tổng hợp bằng ghép nối là phương pháp lựa chọn trong bộ ngữ liệu các thành phần tín hiệu cần thiết và ghép nối với nhau tạo nên từ, câu hay đoạn tiếng nói [53] của một giọng nói đã được ghi âm trước đó. Tiếng nói tổng hợp bằng phương pháp này có ưu điểm là tạo ra giọng nói tương đối tự nhiên vì được ghép từ các thành phần gốc chính là tiếng nói tự nhiên đã được ghi âm. Tuy nhiên, phương pháp này có nhược điểm là trong quá trình thu âm ngữ liệu, giọng nói được ghi âm không có sự đồng nhất giữa các lần phát âm (tiếng to nhỏ khác nhau, tần số và năng lượng khác nhau…), hay giữa các lần ghi khác nhau, giữa những người nói khác nhau. Do vậy, khi ghép nối để tạo thành tiếng nói tổng hợp thường có sự xuất hiện của các âm xát không mong muốn, ảnh hưởng đến chất lượng tiếng nói tổng hợp. Câu hay đoạn tiếng nói được tạo nên có thể không được trơn tru và khó thể hiện được ngữ điệu, cảm xúc. Có ba kiểu tổng hợp ghép nối gồm tổng hợp chọn đơn vị, tổng hợp âm kép và tổng hợp theo miền cụ thể. 1.1.1.1. Tổng hợp chọn đơn vị Công nghệ này dùng một ngữ liệu lớn các giọng nói ghi âm sẵn. Tùy vào kịch bản thiết kế và công nghệ sử dụng để ghép nối mà các đoạn ghi âm được xây dựng bao 19 gồm các thành phần như: các từ đơn lẻ, các âm tiết hay các nhóm từ và câu… Các thành phần này được tổ chức, lưu trữ bằng các bảng hoặc tập tin ngữ liệu chứa thông tin, thông số của chúng để dễ dàng lựa chọn, tra cứu khi tổng hợp. Khi tổng hợp, tiếng nói được tạo ra bằng cách xác định các thành phần phù hợp nhất từ bộ ngữ liệu. Vì vậy phương pháp này được gọi là tổng hợp chọn đơn vị được thực hiện dựa vào các tham số LPCC, DLPCC, LP-residual và cao độ của âm [68]. Kỹ thuật tổng hợp chọn đơn vị có thể tạo ra tiếng nói có độ tự nhiên cao do sử dụng thành phần tiếng nói đã thu âm sẵn, chỉ xử lý tín hiệu tại điểm ghép nối để loại bỏ các âm xát do sự khác biệt giữa các thành phần ghép nối chứ không can thiệp vào tham số cả từ hay cả câu. Với phương pháp này, để tiếng nói tổng hợp có thể đạt độ tự nhiên cao, bộ ngữ liệu thường có dung lượng rất lớn vì chứa rất nhiều các đơn vị với các kịch bản và tình huống khác nhau để lựa chọn. Các bộ ngữ liệu này có thể lên tới vài GB bộ nhớ cho mỗi giọng. Trong nghiên cứu của [62], bộ ngữ liệu Each Arctic được xây dựng với 1150 đoạn ghi âm, mỗi đoạn có độ dài từ 1 đến 4 giây, được thu âm cùng với dữ liệu điện não EGG. Mặc dù vậy, các thuật giải lựa chọn đã được biết dùng để chọn các đoạn kết xuất ra nhiều khi không sát với kết quả tổng hợp mong đợi [122]. Gần đây, các nhà nghiên cứu đã đề xuất nhiều phương pháp tự động khác nhau để phát hiện các phân đoạn không tự nhiên trong hệ thống tổng hợp bằng ghép từ. Các tác giả William Yang Wang và Kallirroi Georgila [115] đề xuất sử dụng một tập lớn các tham số như mô hình ngôn ngữ, ngôn điệu, tần số TF-IDF (Delta Term Frequency Inverse Document Frequency) và sử dụng 3 phương án để thực hiện bao gồm dùng Support Vector Machines (SVMs), Random Forests, và Conditional Random Fields (CRFs). Cũng có một số nghiên cứu nhằm cải tiến chất lượng tiếng nói tổng hợp như nhóm tác giả Heng Lu sử dụng SVM và LLR [117], hay kết quả tổng hợp tiếng Malay [69] của nhóm tác giả Yee Chea Lim sử dụng thuật toán di truyền GA (Genetic Algorithm) để xác định các đơn vị âm khi ghép nối, các tham số được sử dụng để quyết định được trích từ bộ tham số MFCC và khoảng cách Euclidean. 1.1.1.2. Tổng hợp âm kép Tổng hợp âm kép là phương pháp tổng hợp sử dụng một bộ ngữ liệu giọng nói chứa tất cả các âm kép của một ngôn ngữ. Ưu điểm của bộ tổng hợp này là bộ ngữ liệu có dung lượng nhỏ do chỉ sử dụng một trường hợp của âm kép được chứa trong bộ ngữ liệu cho mọi kịch bản tổng hợp và có thể tổng hợp ra tất cả các từ trong ngôn ngữ đó bằng bộ ngữ liệu này. Với phương pháp này, tiếng nói tổng hợp được tạo ra bằng cách xếp chồng các đơn vị âm bằng kỹ thuật xử lý tín hiệu số như mã tiên đoán tuyến tính PSOLA [24] hay MBROLA [16]. Có thể kể đến dự án phần mềm MBROLA 2.0 20

- Xem thêm -

Tài liệu Tổng hợp tiếng việt với các chất giọng khác nhau và có biểu lộ cảm xúc

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất