BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
Lê Xuân Thành
TỔNG HỢP TIẾNG VIỆT VỚI CÁC CHẤT GIỌNG KHÁC NHAU
VÀ CÓ BIỂU LỘ CẢM XÚC
Ngành: Khoa học máy tính
Mã số: 9480101
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TINH
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TS. Đặng Văn Chuyết
2. PGS.TS. Trịnh Văn Loan
Hà Nội - 2018
LỜI CAM ĐOAN
Tôi xin cam đoan tất cả các nội dung trong luận án “Tổng hợp tiếng Việt với các chất
giọng khác nhau và có biểu lộ cảm xúc” là công trình nghiên cứu của riêng tôi. Các
số liệu, kết quả trong luận án là trung thực và chưa từng được ai công bố trong bất kỳ
công trình nào. Việc tham khảo các nguồn tài liệu đã được thực hiện trích dẫn và ghi
nguồn tài liệu tham khảo đúng quy định.
Hà Nội, ngày 03 tháng 07 năm 2018
TẬP THỂ HƯỚNG DẪN KHOA HỌC
TÁC GIẢ LUẬN ÁN
PGS.TS. Đặng Văn Chuyết
Lê Xuân Thành
PGS.TS. Trịnh Văn Loan
2
LỜI CẢM ƠN
Tôi xin bày tỏ lòng biết ơn tới Trường Đại học Bách khoa Hà Nội, Viện Đào tạo Sau
đại học, Viện Công nghệ Thông tin và Truyền thông, Bộ môn Kỹ thuật Máy tính, Bộ
môn Khoa học Máy tính đã tạo điều kiện thuận lợi cho tôi trong quá trình làm việc,
học tập và nghiên cứu tại Trường.
Tôi muốn gửi lời cảm ơn đặc biệt tới tập thể hướng dẫn trực tiếp là PGS.TS. Trịnh
Văn Loan và PGS.TS. Đặng Văn Chuyết. Hai thầy đã luôn tận tình giúp đỡ, đưa ra
những lời khuyên, những định hướng khoa học rất quý báu để tôi có thể triển khai và
hoàn thành công việc nghiên cứu của mình.
Xin chân thành cảm ơn các thầy cô, các đồng nghiệp trong Bộ môn Kỹ thuật Máy
tính, Viện Công nghệ Thông tin và Truyền thông, Trường Đại học Bách khoa Hà Nội
nơi tôi làm việc, học tập và thực hiện đề tài nghiên cứu đã nhiệt tình giúp đỡ và động
viên tôi trong suốt quá trình nghiên cứu.
Với tấm lòng biết ơn đến các thầy cô, các nhà khoa học, các đồng nghiệp và bạn bè
thân hữu đã động viên và giúp đỡ tôi trong quá trình nghiên cứu.
Cuối cùng tôi muốn bày tỏ lòng biết ơn sâu sắc tới gia đình, nơi nuôi dưỡng và là
nguồn động lực để tôi vượt mọi trở ngại khó khăn để hoàn thành luận án này.
Lê Xuân Thành
3
MỤC LỤC
LỜI CAM ĐOAN ..................................................................................................... 2
LỜI CẢM ƠN ........................................................................................................... 3
MỤC LỤC ................................................................................................................. 4
DANH MỤC CÁC TỪ VIẾT TẮT ......................................................................... 7
MỤC LỤC CÁC BẢNG ......................................................................................... 10
MỤC LỤC HÌNH ẢNH.......................................................................................... 12
MỞ ĐẦU .................................................................................................................. 14
1. TỔNG QUAN NGHIÊN CỨU VỀ TỔNG HỢP TIẾNG NÓI VÀ TỔNG HỢP
TIẾNG NÓI CÓ CẢM XÚC ................................................................................. 18
1.1. Tình hình nghiên cứu trên thế giới về tổng hợp tiếng nói ............................. 18
1.1.1. Tổng hợp bằng ghép nối ......................................................................... 19
1.1.2. Tổng hợp bằng mô hình .......................................................................... 21
1.2. Các nghiên cứu về tổng hợp tiếng nói trong nước hiện nay .......................... 23
1.2.1. Tổng hợp bằng phương pháp ghép nối ................................................... 24
1.2.2. Tổng hợp dựa trên mô hình ..................................................................... 24
1.3. Các nghiên cứu về tổng hợp tiếng nói có cảm xúc trên thế giới ................... 25
1.3.1. Tổng quan................................................................................................ 25
1.3.2. Các tham số ảnh hưởng đến cảm xúc trong tiếng nói ............................. 25
1.4. Các nghiên cứu về tiếng nói có cảm xúc trong tiếng Việt ............................. 27
1.5. Kết chương 1 .................................................................................................. 28
2. XÂY DỰNG BỘ NGỮ LIỆU TỔNG HỢP TIẾNG VIỆT CÓ CẢM XÚC .. 31
2.1. Xây dựng bộ ngữ liệu tổng hợp tiếng Việt nói chất lượng tốt ....................... 31
2.1.1. Đặc điểm cơ bản của ngữ âm tiếng Việt ................................................. 31
2.1.2. Hệ thống âm vị và cấu trúc âm tiết tiếng Việt ........................................ 32
2.1.3. Hệ thống thanh điệu ................................................................................ 35
2.1.4. Hệ thống âm đầu ..................................................................................... 36
2.1.5. Hệ thống âm đệm .................................................................................... 37
4
2.1.6. Hệ thống âm chính .................................................................................. 38
2.1.7. Hệ thống âm cuối .................................................................................... 39
2.1.8. Xây dựng bộ ngữ liệu tiếng Việt nói chất lượng tốt ............................... 40
2.1.9. Xây dựng danh sách các âm tiết trong bộ ngữ liệu ................................. 42
2.1.10. Kịch bản thu ......................................................................................... 42
2.1.11. Thu âm .................................................................................................. 43
2.2. Xây dựng bộ ngữ liệu cảm xúc tiếng Việt ..................................................... 44
2.2.1. Mục đích xây dựng bộ ngữ liệu cảm xúc tiếng Việt ............................... 44
2.2.2. Các tham số về cảm xúc trong tiếng nói ................................................. 44
2.2.3. Phương pháp xây dựng ngữ liệu cảm xúc tiếng Việt .............................. 46
2.2.4. Phân tích và đánh giá một số tham số về cảm xúc trong tiếng Việt nói . 48
2.2.5. Đánh giá bộ ngữ liệu cảm xúc tiếng Việt................................................ 59
2.3. Kết chương 2 .................................................................................................. 59
3. TỔNG HỢP TIẾNG VIỆT CÓ BIỂU LỘ CẢM XÚC ................................... 61
3.1. Tổng hợp tiếng Việt chất lượng tốt ................................................................ 61
3.1.1. Xây dựng bộ ngữ liệu cho tổng hợp tiếng Việt chất lượng tốt................ 61
3.1.2. Tổng hợp tiếng Việt chất lượng tốt bằng phương pháp ghép nối ........... 61
3.1.3. Phương pháp đánh giá chủ quan MOS ................................................... 70
3.1.4. Thử nghiệm tổng hợp một số câu nói bằng bộ tổng hợp tiếng Việt chất
lượng tốt ............................................................................................................ 71
3.2. Tổng hợp tiếng Việt có cảm xúc .................................................................... 76
3.2.1. Mô hình Fujisaki ..................................................................................... 77
3.2.2. Tổng hợp tiếng Việt nói có cảm xúc sử dụng mô hình Fujisaki ............. 80
3.2.3. Đánh giá bằng phương pháp chủ quan chất lượng các câu tổng hợp tiếng
Việt có cảm xúc ................................................................................................. 86
3.2.4. Đánh giá bằng phương pháp khách quan chất lượng các câu tổng hợp tiếng
Việt có cảm xúc ................................................................................................. 89
3.3. Kết chương 3 .................................................................................................. 91
KẾT LUẬN VÀ KIẾN NGHỊ ................................................................................ 93
5
CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ .................................................................... 96
TÀI LIỆU THAM KHẢO...................................................................................... 97
PHỤ LỤC A – DANH SÁCH CÁC ÂM CẦN THU .......................................... 107
6
DANH MỤC CÁC TỪ VIẾT TẮT
Chữ viết tắt
Chữ viết đầy đủ
Giải thích
Accent
Trọng âm
ANOVA
Analysis of variance
Phân tích phương sai
BKEmon
Bach khoa Emotion
Bộ ngữ liệu cảm xúc tiếng Việt
được nghiên cứu sinh xây dựng
DRM
Distinctive Region Model
Mô hình phần riêng biệt
Thời hạn phát âm (là độ dài của
tín hiệu một âm)
Duration
EEG
ElectroEncephaloGram)
Tín hiệu điện não
F0
Fundamental frequency
Tần số cơ bản
GMM
Gaussian Mixture Model
Mô hình hỗn hợp Gauss
HLDA
Heteroscedastic Linear
Discriminant Analysis
Phân tích phân biệt tuyến tính
không đồng nhất
HMM
Hidden Markov Model
Mô hình Markov ẩn
HTK
Hidden Markov Model
Toolkit
Bộ công cụ mô hình Markov ẩn
HTS
HMM-based Speech
Synthesis System
Hệ tổng hợp tiếng nói bằng mô
hình HMM
LDA
Linear Discriminant
Analysis
Phân tích phân biệt tuyến tính
LDC
Linguistic Data
Consortium
Hội đoàn dữ liệu ngôn ngữ
LLR
Log Likelihood Ratio
Log tỉ lệ khả hiện
LPC
Linear Prediction Coding
Mã hóa tiên đoán tuyến tính
7
MBROLA
Multi-Band Resynthesis
OverLap Add
Bộ tổng hợp tiếng nói bằng
phương pháp ghép nối
MFCC
Mel Frequency Cepstral
Coefficients
Các hệ số Cepstral theo thang đo
tần số Mel
MICA
International Research
Institute Multimedia,
Information,
Communication and
Applications
Viện nghiên cứu Quốc tế về
Truyền thông, Thông tin, Đa
phương tiện và Ứng dụng
MOS
Mean Opinion Score
Điểm trung bình số ý kiến
NIST
National Institute of
Standards and Technology
Viện Tiêu chuẩn và Công nghệ
Quốc gia của Mỹ
NLP
Natural Language
Processing
Xử lý ngôn ngữ tự nhiên
Pitch
Cao độ
Pitch contour
Đường bao cao độ
PCA
Principal Component
Analysis
Phân tích các thành phần chính
Phrase
Cụm từ
PSOLA
Pitch Synchronous Overlap Kỹ thuật cộng chồng đồng bộ cao
and Add
độ
SMO
Sequential Minimal
Optimization
Tối ưu hóa cực tiểu lần lượt
Segmental
Đoạn tính
Suprasegmental
Siêu đoạn tính
SVM
Máy véc-tơ hỗ trợ
Support Vector Machines
8
Thanh điệu
Tone
TTS
Văn bản thành tiếng nói
Text-to-Speech
Tukey’s test
WER
Kiểm định T
Word Error Rate
Tỷ lệ lỗi từ
9
MỤC LỤC CÁC BẢNG
Bảng 2.1. Hệ thống phụ âm và cách đọc .................................................................. 33
Bảng 2.2. Hệ thống nguyên âm tiếng Việt ............................................................... 34
Bảng 2.3. Cấu trúc âm tiết tiếng Việt ....................................................................... 35
Bảng 2.4. Phân loại thanh điệu tiếng Việt ................................................................ 36
Bảng 2.5. Hệ thống âm đầu tiếng Việt ..................................................................... 36
Bảng 2.6. Bảng mô tả hệ thống phụ âm đầu của tiếng Việt ..................................... 37
Bảng 2.7. Hệ thống âm chính tiếng Việt .................................................................. 38
Bảng 2.8. Hệ thống nguyên âm chính với 13 nguyên âm đơn, 3 nguyên âm đôi .... 38
Bảng 2.9. Hệ thống âm cuối tiếng Việt .................................................................... 39
Bảng 2.10. Hệ thống âm cuối tiếng Việt theo cách phát âm .................................... 40
Bảng 2.11. Cách tổ chức đơn vị âm đầu và đơn vị âm cuối ..................................... 42
Bảng 2.12. Giá trị F và P-value của phân tích phương sai ANOVA cho các giọng nam
và nữ với tần số cơ bản 𝐹0 trung bình và năng lượng trung bình ................... 51
Bảng 2.13. Kết quả phân tích kiểm định T về 𝐹0 cho giọng của người nói T.T.H và
Đ.K. .................................................................................................................. 52
Bảng 2.14. Kết quả phân tích kiểm định T về năng lượng trung bình cho giọng của
Đ.K. (nam) và T.T.H. (nữ) ............................................................................... 54
Bảng 2.15. Giá trị F và P-value của phân tích phương sai ANOVA cho các giọng nam
và nữ với 𝐹0 trung bình và năng lượng trung bình ......................................... 57
Bảng 2.16. Kết quả phân tích kiểm định T về 𝐹0 trung bình và năng lượng trung bình
cho giọng của các giọng nam........................................................................... 57
Bảng 2.17. Kết quả phân tích kiểm định T về 𝐹0 trung bình và năng lượng trung bình
cho giọng của các giọng nữ ............................................................................. 58
Bảng 3.1. Bảng điểm đánh giá theo thang MOS ...................................................... 70
Bảng 3.2. Các câu thử nghiệm tổng hợp giọng trần thuật (cảm xúc bình thường) bằng
bộ tổng hợp tiếng Việt chất lượng tốt .............................................................. 71
Bảng 3.3. Kết quả đánh giá của 14 người nghe ........................................................ 72
Bảng 3.4. Bộ tham số điều chỉnh thời hạn phát âm câu "Ông nói gì thế tôi không hiểu"
.......................................................................................................................... 82
10
Bảng 3.5. Bộ tham số điều chỉnh cường độ của câu "Ông nói gì thế tôi không hiểu"
.......................................................................................................................... 83
Bảng 3.6. Bộ tham số điều chỉnh 𝐹0 của câu "Ông nói gì thế tôi không hiểu" cho cảm
xúc tức .............................................................................................................. 84
Bảng 3.7. Ma trận nhầm lẫn giọng nữ cho câu "Ông nói gì thế tôi không hiểu" ..... 86
Bảng 3.8. Ma trận nhầm lẫn giọng nam cho câu "Ông nói gì thế tôi không hiểu" .. 87
Bảng 3.9. Ma trận nhầm lẫn tổng hợp cả giọng nam và giọng nữ cho 14 câu ......... 87
Bảng 3.10. Ma trận nhầm lẫn cho giọng nam cho cả 4 cảm xúc cho 14 câu ........... 87
Bảng 3.11. Ma trận nhầm lẫn cho giọng nữ cho cả 4 cảm xúc cho 14 câu .............. 87
Bảng 3.12. Kết quả đánh giá cảm xúc cho giọng nam của tất cả các câu ................ 88
Bảng 3.13. Kết quả đánh giá cảm xúc cho giọng nữ của tất cả các câu ................... 88
Bảng 3.14. Kết quả đánh giá cảm xúc cho cả hai giọng ở tất cả các câu ................. 88
11
MỤC LỤC HÌNH ẢNH
Hình 1.1. Sơ đồ hệ thống tổng hợp tiếng nói [4] ...................................................... 18
Hình 1.2. Mô hình tổng hợp tiếng Việt của bộ tổng hợp VnSpeech [26] ................ 24
Hình 2.1. Minh họa các thanh điệu tiếng Việt.......................................................... 35
Hình 2.2. Cách thức tổ chức lưu trữ các đơn vị âm sau khi thu và xử lý ................. 41
Hình 2.3. Slide kịch bản thu âm ............................................................................... 43
Hình 2.4. Tín hiệu các âm đã thu.............................................................................. 43
Hình 2.5. Phần mềm dùng để thu âm bộ ngữ liệu cảm xúc tiếng Việt - BKEmo .... 47
Hình 2.6. Tín hiệu của câu mã số 4302 sau khi được cắt bỏ khoảng lặng ............... 48
Hình 2.7. Phân bố F trong phân tích phương sai ANOVA ...................................... 49
Hình 2.8. Đồ thị box-plot phân bố của các giá trị 𝐹0 trung bình theo 4 cảm xúc của
nghệ sĩ Đ.K. (bên trái) và H.P. (bên phải) ....................................................... 50
Hình 2.9. Đồ thị box-plot phân bố các giá trị 𝐹0 trung bình theo 4 cảm xúc của người
nói T.T.H. (phải) và B.H.G. (trái) .................................................................... 53
Hình 2.10. Đồ thị box-plot phân bố của các giá trị năng lượng trung bình theo 4 cảm
xúc của người nói Đ.K. (trái: giọng nam) và T.T.H. (phải: giọng nữ) ............ 53
Hình 2.11. Đồ thị phân bố các giá trị 𝐹0 trung bình so với năng lượng trung bình theo
4 cảm xúc của giọng nam (trái) và giọng nữ (phải) ......................................... 55
Hình 2.12. Đồ thị box-plot phân bố của các giá trị 𝐹0 trung bình theo 4 cảm xúc của
giọng nam (trái) và giọng nữ (phải) ................................................................. 56
Hình 2.13. Đồ thị box-plot phân bố các giá trị năng lượng trung bình theo 4 cảm xúc,
giọng nam (trái) và giọng nữ (phải) ................................................................. 56
Hình 3.1. Phần mềm xác định điểm cắt và tần số 𝑭𝟎 tại điểm ghép nối tự xây dựng
.......................................................................................................................... 62
Hình 3.2. Lưu đồ bộ tổng hợp tiếng Việt bằng phương pháp ghép nối ................... 63
Hình 3.3. Tín hiệu của âm đầu "ba": ........................................................................ 65
Hình 3.4. Tín hiệu của phần âm cuối /àng/: ............................................................. 66
Hình 3.5. Tín hiệu của âm tiết "bàng" khi chưa xử lý điểm ghép nối ...................... 66
Hình 3.6. Tín hiệu của âm tiết "bàng" khi chưa xử lý điểm ghép nối ...................... 67
Hình 3.7. Tín hiệu của âm tiết "bàng" sau khi cân bằng biên độ và cân bằng 𝑭𝟎: .. 67
12
Hình 3.8. Sơ đồ khối quá trình làm trơn phổ ............................................................ 68
Hình 3.9. Tín hiệu âm đầu trước khi làm trơn phổ ................................................... 69
Hình 3.10. Tín hiệu của âm tiết "bàng" sau khi được cân bằng phổ: ....................... 69
Hình 3.11. Đường bao phổ của âm đầu và một phần âm cuối tại điểm ghép nối trước
và sau khi làm trơn bằng LPC ......................................................................... 70
Hình 3.12. Câu “Cảnh vật chung quanh tôi đều thay đổi” ....................................... 73
Hình 3.13. Câu “Nhìn chúng tôi với cặp mắt hiền từ và cảm động”........................ 73
Hình 3.14. Câu “Cũng may, đã có tiếng dạ rang của phụ huynh đáp lại”................ 73
Hình 3.15. Câu “Một cậu đứng đầu ôm mặt khóc” .................................................. 74
Hình 3.16. Câu “Một mùi hương lạ xông lên trong lớp” ......................................... 74
Hình 3.17. Câu “Để thầy, mẹ được vui lòng, các em phải cố gắng học” ................. 74
Hình 3.18. Câu “Các em đã nghe chưa” ................................................................... 75
Hình 3.19. Câu “Mấy cậu học trò lớp ba cũng đua nhau quay đầu nhìn ra” ............ 75
Hình 3.20. Câu “Không thể nào quên được những cảm giác trong sáng ấy” .......... 75
Hình 3.21. Câu “Một buổi mai đầy sương thu và gió lạnh” ..................................... 76
Hình 3.22. Mô hình Larynx [113] ............................................................................ 77
Hình 3.23. Mô hình Fujisaki cho ngôn ngữ có trọng âm [115] ................................ 78
Hình 3.24. Mô hình Fujisaki áp dụng cho tổng hợp tiếng Việt có thanh điệu [112] 78
Hình 3.25. Lưu đồ thuật giải tổng hợp tiếng Việt có cảm xúc ................................. 80
Hình 3.26. Tín hiệu câu "ông nói gì thế tôi không hiểu" với cảm xúc bình thường 82
Hình 3.27. Tín hiệu câu "Ông nói gì thế tôi không hiểu" sau khi được điều chỉnh
cường độ và thời hạn phát âm cho cảm xúc tức .............................................. 84
Hình 3.28. Giao diện công cụ sử dụng mô hình Fujisaki để điều chỉnh 𝐹0 cho cảm
xúc tức của câu "Ông nói gì thế tôi không hiểu" ............................................. 85
Hình 3.29. Tín hiệu câu "Ông nói gì thế tôi không hiểu" sau khi được tổng hợp ở cảm
xúc tức .............................................................................................................. 85
Hình 3.30. Độ lệch phổ giữa câu tự nhiên và câu tổng hợp cho giọng nam ............ 90
Hình 3.31. Độ lệch phổ giữa câu tự nhiên và câu tổng hợp cho giọng nữ ............... 91
13
MỞ ĐẦU
1. Lý do lựa chọn đề tài
Ngày nay, với sự phát triển mạnh mẽ của máy tính, các ứng dụng của máy tính trong
mọi lĩnh vực của cuộc sống đã tạo nên nhiều yêu cầu nhằm đơn giản hoá quá trình sử
dụng, tăng hiệu quả khai thác máy tính và các ứng dụng trên máy tính. Trong đó, xử
lý tiếng nói nói chung và tổng hợp tiếng nói nói riêng là một vấn đề đã và đang được
quan tâm nghiên cứu, phát triển ứng dụng để nâng cao hiệu quả sử dụng của máy tính
nhằm phục vụ con người trong cuộc sống. Trên thế giới đã có nhiều nghiên cứu về
vấn đề này và đã đạt được nhiều thành công. Nhiều sản phẩm hữu ích từ các kết quả
nghiên cứu đã được ứng dụng trong thực tế.
Xử lý ngôn ngữ tiếng Việt nói chung và tổng hợp tiếng Việt nói nói riêng là những
vấn đề chỉ có thể làm tốt được bởi chính người Việt. Hiện nay, đã có rất nhiều công
trình nghiên cứu về tổng hợp tiếng Việt giọng trần thuật cho kết quả tốt và cùng đã
có một số sản phẩm tổng hợp tiếng Việt như VietVoice, vnVoice, VieTTS, VOS hay
VnSpeech do người Việt và một số người Việt Nam ở nước ngoài làm ra và đã có
những kết quả tốt.
Tổng hợp cảm xúc trong tiếng nói không phải là vấn đề mới mẻ, nhiều ngôn ngữ đã
có những nghiên cứu về vấn đề này. Các kết quả này nếu được ứng dụng vào các hoạt
động của cuộc sống như: trợ lý ảo trên điện thoại, robot giúp việc, các hệ thống nhà
thông minh sẽ giúp các hệ thống có thêm nhiều thông tin để phục vụ tốt hơn các yêu
cầu của con người. Hiện nay, các nghiên cứu về tổng hợp hay nhận dạng tiếng Việt
có cảm xúc chưa nhiều, các kết quả đã công bố thường là các nghiên cứu nhỏ lẻ, trên
các bộ ngữ liệu có số lượng ít [123], thường chỉ vài giọng và thường mới chỉ đánh
giá so sánh với giọng của nước khác [114] chứ chưa có nghiên cứu một cách hệ thống
về tổng hợp tiếng Việt có cảm xúc.
Từ các lý do trên, nghiên cứu sinh lựa chọn đề tài nghiên cứu “Tổng hợp tiếng Việt
với các chất giọng khác nhau và có biểu lộ cảm xúc” nhằm nghiên cứu sâu hơn về
vấn đề tổng hợp tiếng Việt với mục tiêu là hướng tới hệ tổng hợp tiếng Việt chất
lượng tốt với các chất giọng khác nhau và có biểu lộ xúc cảm. Đây là vấn đề vẫn còn
mới mẻ và có tính thời sự đối với tiếng Việt và có tiềm năng ứng dụng cao, đáp ứng
nhu cầu phát tiển của các ứng dụng cả trên phần cứng và phần mềm như: lồng tiếng
phim, ứng dụng vào trợ lý ảo, nhà thông minh….
2. Mục tiêu và nội dung của đề tài
Mục tiêu nghiên cứu của luận án là xây dựng được bộ ngữ liệu về cảm xúc cho tiếng
Việt nói trong đó bước đầu lựa chọn 4 cảm xúc cơ bản là: vui, buồn, bình thường và
14
tức. Sau đó, tiến hành phân tích đánh giá ảnh hưởng của các tham số đến việc biểu lộ
cảm xúc trong tiếng Việt. Trên cơ sở các kết quả đạt được, đề xuất xây dựng mô hình
tổng hợp tiếng Việt có cảm xúc và thử nghiệm tích hợp cảm xúc vào tiếng Việt tổng
hợp.
3. Nhiệm vụ nghiên cứu của luận án
Để đạt được mục tiêu đã đề ra, luận án cần hoàn thành 3 nhiệm vụ sau:
<1>. Xây dựng bộ ngữ liệu cảm xúc cho tiếng Việt và phân tích, đánh giá ảnh hưởng
của các tham số đến cảm xúc trong tiếng Việt. Tìm ra quy luật thay đổi của các tham
số tương ứng với các cảm xúc.
<2>. Đề xuất được mô hình có thể tổng hợp tiếng Việt nói với yêu cầu chất lượng
thanh điệu được đặt lên hàng đầu và tổng hợp được nhiều chất giọng khác nhau.
<3>. Bước đầu thử nghiệm mô hình tổng hợp tiếng Việt có cảm xúc.
4. Đối tượng và phạm vi nghiên cứu của luận án
Đề tài luận án là tổng hợp tiếng Việt với các chất giọng khác nhau và có biểu lộ cảm
xúc. Trong khuôn khổ của đề tài và nhiệm vụ đã đặt ra, nghiên cứu sinh xác định đối
tượng và phạm vi nghiên cứu cho từng nhiệm vụ cụ thể như sau:
- Với nhiệm vụ 1: Cảm xúc trong tiếng nói rất đa dạng, trong đó mỗi cảm xúc lại có
rất nhiều cảm xúc chi tiết (cách thể hiện khác nhau của cảm xúc đó). Trong khuôn
khổ nghiên cứu của luận án, nghiên cứu sinh tập trung vào 4 cảm xúc cơ bản là bình
thường (trung tính), vui, buồn và tức. Bộ ngữ liệu sẽ được xây dựng dựa trên 4 cảm
xúc này. Phần phân tích sẽ tập trung phân tích ảnh hưởng của các tham số cơ bản của
tín hiệu tiếng Việt nói.
- Với nhiệm vụ 2: Nghiên cứu sinh tập trung nghiên cứu cách thức xây dựng bộ tổng
hợp trong đó yếu tố tổng hợp thanh điệu được đặt lên hàng đầu, bộ ngữ liệu cũng
được thiết kế để tạo nên bộ tổng hợp có số lượng từ vựng không hạn chế với ngữ liệu
ít nhất. Một nghiên cứu nữa của phần này là mô hình này có thể tổng hợp được bất
cứ giọng nào miễn là còn thu âm được ngữ liệu của giọng đó và dung lượng ngữ liệu
là thấp nhất có thể.
- Với nhiệm vụ 3: Bước đầu thử nghiệm mô hình tổng hợp tiếng Việt có cảm xúc tập
trung vào 4 cảm xúc đã được phân tích và tìm ra quy luật ở nhiệm vụ 1.
5. Ý nghĩa khoa học thực tiễn của luận án
Nội dung nghiên cứu của luận án, kết quả đạt được sẽ là đóng góp đáng kể vào lĩnh
vực nghiên cứu tổng hợp tiếng Việt có cảm xúc. Các nghiên cứu về cảm xúc trong
15
tiếng Việt về mặt tín hiệu hiện nay còn ít, do vậy hướng nghiên cứu của luận án sẽ
giúp mở rộng phạm vi nghiên cứu cũng như gia tăng thêm khả năng ứng dụng vào
các sản phẩm phục vụ đời sống xã hội.
Bộ ngữ liệu được xây dựng trong phạm vi luận án sẽ là một trong số ít các bộ ngữ
liệu đầu tiên, đáp ứng về mặt số lượng, dung lượng cho các nghiên cứu về cảm xúc
tiếng Việt sau này. Các kết quả phân tích về ảnh hưởng của tham số đến các cảm xúc
trong phạm vi của luận án sẽ là các kinh nghiệm bước đầu cho các nghiên cứu về các
cảm xúc khác trong tương lai.
6. Phương pháp nghiên cứu của luận án
Luận án kết hợp song song giữa phương pháp nghiên cứu lý thuyết và phương pháp
nghiên cứu thực nghiệm.
Về lý thuyết: luận án nghiên cứu tổng quan về cảm xúc trong tiếng nói, tìm hiểu các
nghiên cứu về cảm xúc trong các ngôn ngữ khác, các đặc trưng của tiếng Việt, nghiên
cứu các mô hình tổng hợp tiếng nói và tiếng nói có cảm xúc dựa trên các tài liệu, công
trình khoa học đã được công bố, sách báo, giáo trình liên quan.
Về thực nghiệm: luận án xây dựng bộ ngữ liệu cảm xúc tiếng Việt mới phục vụ cho
nghiên cứu cảm xúc trong tiếng Việt và tổng hợp tiếng Việt có cảm xúc. Luận án
cũng sử dụng các công cụ phân tích, thống kê, đánh giá tham số; các bộ tổng hợp
tiếng nói mã nguồn mở kết hợp lập trình phần mềm thu âm; xử lý và đánh giá dữ liệu;
thực hiện các nghiên cứu, thử nghiệm các mô hình tổng hợp tiếng Việt có cảm xúc.
7. Kết quả nghiên cứu, đóng góp của luận án
Kết quả nghiên cứu và đóng góp của luận án tập trung chủ yếu vào các nội dung chính
sau:
<1>. Xây dựng bộ ngữ liệu cảm xúc cho tiếng Việt và phân tích, đánh giá ảnh hưởng
của các tham số đến cảm xúc trong tiếng Việt, tìm ra quy luật thay đổi của các tham
số tương ứng với các cảm xúc.
<2>. Đề xuất được mô hình có thể tổng hợp tiếng Việt với yêu cầu chất lượng thanh
điệu được đặt lên hàng đầu và tổng hợp được nhiều chất giọng khác nhau.
<3>. Đề xuất được mô hình thử nghiệm tổng hợp tiếng Việt có cảm xúc.
8. Nội dung luận án
Luận án được trình bày thành 3 chương có nội dung như sau:
Chương 1: Tổng quan nghiên cứu về tổng hợp tiếng nói và tổng hợp tiếng nói có cảm
xúc. Chương này trình bày tình hình nghiên cứu trong nước và quốc tế về tổng hợp
tiếng nói nói chung và tổng hợp có cảm xúc nói riêng trong đó có tiếng Việt. Chương
16
1 cũng trình bày các kết quả nghiên cứu về ảnh hưởng của một số tham số đến tiếng
nói tổng hợp và tiếng nói tổng hợp có cảm xúc. Trong chương này cũng làm rõ các
vấn đề cần nghiên cứu và giải quyết trong luận án.
Chương 2: Xây dựng bộ ngữ liệu tiếng Việt có cảm xúc. Chương này trình bày 2 nội
dung lớn. Nội dung thứ nhất là xây dựng bộ ngữ liệu cảm xúc tiếng Việt và phân tích
đánh giá ảnh hưởng của các tham số 𝐹0, năng lượng, cường độ và thời hạn… đến 4
cảm xúc cơ bản vui, buồn, bình thường, tức trong tiếng Việt. Nội dung thứ hai là xây
dựng bộ ngữ liệu cho bộ tổng hợp tiếng Việt chất lượng tốt để chuẩn bị cho bộ tổng
hợp tiếng Việt có cảm xúc.
Chương 3: Tổng hợp tiếng Việt có biểu lộ cảm xúc. Chương này trình bày 2 mô hình
tổng hợp tiếng Việt nói. Mô hình đầu tiên là mô hình tổng hợp tiếng Việt cho phép
tổng hợp được tiếng Việt nói với yêu cầu chất lượng tổng hợp thanh điệu được đặt
lên hàng đầu và có thể tổng hợp được các giọng khác nhau. Mô hình thứ hai là mô
hình thử nghiệm bộ tổng hợp tiếng Việt có cảm xúc bằng phương pháp ghép nối.
Phần Kết luận trình bày tổng hợp kết quả nghiên cứu đã đạt được, hướng mở rộng
nghiên cứu và các đóng góp của luận án.
17
CHƯƠNG 1
1. TỔNG QUAN NGHIÊN CỨU VỀ TỔNG HỢP TIẾNG NÓI VÀ TỔNG
HỢP TIẾNG NÓI CÓ CẢM XÚC
1.1.
Tình hình nghiên cứu trên thế giới về tổng hợp tiếng nói
Các nghiên cứu về tổng hợp tiếng nói đã được thực hiện khá sớm, từ thế kỷ 18 đã có
những ghi nhận về nghiên cứu và chế tạo ra các cỗ máy có khả năng tổng hợp, tạo ra
tiếng nói [60].
Cùng với sự phát triển của khoa học công nghệ, ngày nay, vấn đề xử lý tiếng nói nói
chung và tổng hợp tiếng nói nói riêng đã được đưa vào xử lý trên máy tính. Với sự
hỗ trợ mạnh mẽ của nền tảng công nghệ, với các thuật giải, công nghệ mới đã cho
phép nghiên cứu về lĩnh vực này tiến đi xa hơn. Hiện nay, các sản phẩm tổng hợp
tiếng nói đã được ứng dụng rộng rãi trong nhiều lĩnh vực của cuộc sống.
Hình 1.1. Sơ đồ hệ thống tổng hợp tiếng nói [61]
Mặc dù đã có thể đưa vào ứng dụng trong thực tế nhưng chất lượng, khả năng của
các hệ thống tổng hợp có được đến nay vẫn còn những hạn chế nhận định. Có thể tốt
18
ở một số ngôn ngữ nhất định, chưa tạo ra được tiếng nói tự nhiên, vấn đề biểu cảm,…
do vậy các nghiên cứu về tổng hợp tiếng nói đến nay vẫn đang được tiếp tục với mục
tiêu nâng cao chất lượng tổng hợp, tiếng nói tạo ra gần với tiếng nói tự nhiên hơn và
giải quyết vấn đề tổng hợp tiếng nói cho từng ngôn ngữ. Hình 1.1 là sơ đồ tổng quát
của một hệ thống tổng hợp tiếng nói từ văn bản. Đầu vào của hệ thống là văn bản và
đầu ra là tiếng nói tổng hợp ứng với văn bản đó. Như vậy, đầu tiên cần phân tích văn
bản để đưa ra các từ và câu cần tổng hợp. Mặt khác, khâu phân tích văn bản cũng cho
biết thanh điệu và ngữ điệu cần thiết phải được tổng hợp. Từ đó, bộ tổng hợp tiếng
nói sẽ có các tham số thích hợp để tổng hợp được tiếng nói theo yêu cầu.
Khi đánh giá chất lượng tiếng nói tổng hợp thường sử dụng hai phương pháp khách
quan và chủ quan. Phương pháp khách quan là đo đạc và so sánh về mặt tín hiệu,
tham số của tiếng nói tổng hợp và tiếng nói tự nhiên để đánh giá mức độ tự nhiên của
tiếng nói tổng hợp. Phương pháp chủ quan là sử dụng người nghe để đánh giá mức
độ dễ nghe, dễ hiểu của tiếng nói tổng hợp. Hai yêu cầu về mức độ tự nhiên và mức
độ dễ nghe của tiếng nói tổng hợp là quan trọng nhất [12]. Các hệ thống tổng hợp đều
có mục tiêu là đảm bảo được 2 yêu cầu này. Từ các trình bày về tổng hợp tiếng nói
trong [22] có thể thấy hai hướng nghiên cứu lớn về tổng hợp tiếng nói hiện nay là
tổng hợp bằng ghép nối và tổng hợp dựa trên mô hình.
1.1.1. Tổng hợp bằng ghép nối
Tổng hợp bằng ghép nối là phương pháp lựa chọn trong bộ ngữ liệu các thành phần
tín hiệu cần thiết và ghép nối với nhau tạo nên từ, câu hay đoạn tiếng nói [53] của
một giọng nói đã được ghi âm trước đó. Tiếng nói tổng hợp bằng phương pháp này
có ưu điểm là tạo ra giọng nói tương đối tự nhiên vì được ghép từ các thành phần gốc
chính là tiếng nói tự nhiên đã được ghi âm. Tuy nhiên, phương pháp này có nhược
điểm là trong quá trình thu âm ngữ liệu, giọng nói được ghi âm không có sự đồng
nhất giữa các lần phát âm (tiếng to nhỏ khác nhau, tần số và năng lượng khác nhau…),
hay giữa các lần ghi khác nhau, giữa những người nói khác nhau. Do vậy, khi ghép
nối để tạo thành tiếng nói tổng hợp thường có sự xuất hiện của các âm xát không
mong muốn, ảnh hưởng đến chất lượng tiếng nói tổng hợp. Câu hay đoạn tiếng nói
được tạo nên có thể không được trơn tru và khó thể hiện được ngữ điệu, cảm xúc. Có
ba kiểu tổng hợp ghép nối gồm tổng hợp chọn đơn vị, tổng hợp âm kép và tổng hợp
theo miền cụ thể.
1.1.1.1. Tổng hợp chọn đơn vị
Công nghệ này dùng một ngữ liệu lớn các giọng nói ghi âm sẵn. Tùy vào kịch bản
thiết kế và công nghệ sử dụng để ghép nối mà các đoạn ghi âm được xây dựng bao
19
gồm các thành phần như: các từ đơn lẻ, các âm tiết hay các nhóm từ và câu… Các
thành phần này được tổ chức, lưu trữ bằng các bảng hoặc tập tin ngữ liệu chứa thông
tin, thông số của chúng để dễ dàng lựa chọn, tra cứu khi tổng hợp. Khi tổng hợp, tiếng
nói được tạo ra bằng cách xác định các thành phần phù hợp nhất từ bộ ngữ liệu. Vì
vậy phương pháp này được gọi là tổng hợp chọn đơn vị được thực hiện dựa vào các
tham số LPCC, DLPCC, LP-residual và cao độ của âm [68].
Kỹ thuật tổng hợp chọn đơn vị có thể tạo ra tiếng nói có độ tự nhiên cao do sử dụng
thành phần tiếng nói đã thu âm sẵn, chỉ xử lý tín hiệu tại điểm ghép nối để loại bỏ các
âm xát do sự khác biệt giữa các thành phần ghép nối chứ không can thiệp vào tham
số cả từ hay cả câu. Với phương pháp này, để tiếng nói tổng hợp có thể đạt độ tự
nhiên cao, bộ ngữ liệu thường có dung lượng rất lớn vì chứa rất nhiều các đơn vị với
các kịch bản và tình huống khác nhau để lựa chọn. Các bộ ngữ liệu này có thể lên tới
vài GB bộ nhớ cho mỗi giọng. Trong nghiên cứu của [62], bộ ngữ liệu Each Arctic
được xây dựng với 1150 đoạn ghi âm, mỗi đoạn có độ dài từ 1 đến 4 giây, được thu
âm cùng với dữ liệu điện não EGG. Mặc dù vậy, các thuật giải lựa chọn đã được biết
dùng để chọn các đoạn kết xuất ra nhiều khi không sát với kết quả tổng hợp mong
đợi [122]. Gần đây, các nhà nghiên cứu đã đề xuất nhiều phương pháp tự động khác
nhau để phát hiện các phân đoạn không tự nhiên trong hệ thống tổng hợp bằng ghép
từ. Các tác giả William Yang Wang và Kallirroi Georgila [115] đề xuất sử dụng một
tập lớn các tham số như mô hình ngôn ngữ, ngôn điệu, tần số TF-IDF (Delta Term
Frequency Inverse Document Frequency) và sử dụng 3 phương án để thực hiện bao
gồm dùng Support Vector Machines (SVMs), Random Forests, và Conditional
Random Fields (CRFs). Cũng có một số nghiên cứu nhằm cải tiến chất lượng tiếng
nói tổng hợp như nhóm tác giả Heng Lu sử dụng SVM và LLR [117], hay kết quả
tổng hợp tiếng Malay [69] của nhóm tác giả Yee Chea Lim sử dụng thuật toán di
truyền GA (Genetic Algorithm) để xác định các đơn vị âm khi ghép nối, các tham số
được sử dụng để quyết định được trích từ bộ tham số MFCC và khoảng cách
Euclidean.
1.1.1.2. Tổng hợp âm kép
Tổng hợp âm kép là phương pháp tổng hợp sử dụng một bộ ngữ liệu giọng nói chứa
tất cả các âm kép của một ngôn ngữ. Ưu điểm của bộ tổng hợp này là bộ ngữ liệu có
dung lượng nhỏ do chỉ sử dụng một trường hợp của âm kép được chứa trong bộ ngữ
liệu cho mọi kịch bản tổng hợp và có thể tổng hợp ra tất cả các từ trong ngôn ngữ đó
bằng bộ ngữ liệu này. Với phương pháp này, tiếng nói tổng hợp được tạo ra bằng
cách xếp chồng các đơn vị âm bằng kỹ thuật xử lý tín hiệu số như mã tiên đoán tuyến
tính PSOLA [24] hay MBROLA [16]. Có thể kể đến dự án phần mềm MBROLA 2.0
20
- Xem thêm -