Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Tổng hợp tiếng việt với các chất giọng khác nhau và có biểu lộ cảm xúc tt...

Tài liệu Tổng hợp tiếng việt với các chất giọng khác nhau và có biểu lộ cảm xúc tt

.PDF
24
249
92

Mô tả:

MỞ ĐẦU 1. Lý do lựa chọn đề tài Ngày nay, với sự phát triển mạnh mẽ của máy tính, các ứng dụng của máy tính trong mọi lĩnh vực của cuộc sống đã tạo nên nhiều yêu cầu nhằm đơn giản hoá quá trình sử dụng, tăng hiệu quả khai thác máy tính và các ứng dụng trên máy tính. Trong đó, xử lý tiếng nói nói chung và tổng hợp tiếng nói nói riêng là một vấn đề đã và đang được quan tâm nghiên cứu, phát triển ứng dụng để nâng cao hiệu quả sử dụng của máy tính nhằm phục vụ con người trong cuộc sống. Trên thế giới đã có nhiều nghiên cứu về vấn đề này và đã đạt được nhiều thành công. Nhiều sản phẩm hữu ích từ các kết quả nghiên cứu đã được ứng dụng trong thực tế. Xử lý ngôn ngữ tiếng Việt nói chung và tổng hợp tiếng Việt nói nói riêng là những vấn đề chỉ có thể làm tốt được bởi chính người Việt. Hiện nay, đã có rất nhiều công trình nghiên cứu về tổng hợp tiếng Việt giọng trần thuật cho kết quả tốt và cùng đã có một số sản phẩm tổng hợp tiếng Việt như VietVoice, vnVoice, VieTTS, VOS hay VnSpeech do người Việt và một số người Việt Nam ở nước ngoài làm ra và đã có những kết quả tốt. Tổng hợp cảm xúc trong tiếng nói không phải là vấn đề mới mẻ, nhiều ngôn ngữ đã có những nghiên cứu về vấn đề này. Các kết quả này nếu được ứng dụng vào các hoạt động của cuộc sống như: trợ lý ảo trên điện thoại, robot giúp việc, các hệ thống nhà thông minh sẽ giúp các hệ thống có thêm nhiều thông tin để phục vụ tốt hơn các yêu cầu của con người. Hiện nay, các nghiên cứu về tổng hợp hay nhận dạng tiếng Việt có cảm xúc chưa nhiều, các kết quả đã công bố thường là các nghiên cứu nhỏ lẻ, trên các bộ ngữ liệu có số lượng ít [1], thường chỉ vài giọng và thường mới chỉ đánh giá so sánh với giọng của nước khác [2] chứ chưa có nghiên cứu một cách hệ thống về tổng hợp tiếng Việt có cảm xúc. Từ các lý do trên, nghiên cứu sinh lựa chọn đề tài nghiên cứu “Tổng hợp tiếng Việt với các chất giọng khác nhau và có biểu lộ cảm xúc” nhằm nghiên cứu sâu hơn về vấn đề tổng hợp tiếng Việt với mục tiêu là hướng tới hệ tổng hợp tiếng Việt chất lượng tốt với các chất giọng khác nhau và có biểu lộ xúc cảm. Đây là vấn đề vẫn còn mới mẻ và có tính thời sự đối với tiếng Việt và có tiềm năng ứng dụng cao, đáp ứng nhu cầu phát tiển của các ứng dụng cả trên phần cứng và phần mềm như: lồng tiếng 1 phim, ứng dụng vào trợ lý ảo, nhà thông minh…. 2. Mục tiêu và nội dung của đề tài Mục tiêu nghiên cứu của luận án là xây dựng được bộ ngữ liệu về cảm xúc cho tiếng Việt nói trong đó bước đầu lựa chọn 4 cảm xúc cơ bản là: vui, buồn, bình thường và tức. Sau đó, tiến hành phân tích đánh giá ảnh hưởng của các tham số đến việc biểu lộ cảm xúc trong tiếng Việt. Trên cơ sở các kết quả đạt được, đề xuất xây dựng mô hình tổng hợp tiếng Việt có cảm xúc và thử nghiệm tích hợp cảm xúc vào tiếng Việt tổng hợp. 3. Nhiệm vụ nghiên cứu của luận án Để đạt được mục tiêu đã đề ra, luận án cần hoàn thành 3 nhiệm vụ sau: <1>. Xây dựng bộ ngữ liệu cảm xúc cho tiếng Việt và phân tích, đánh giá ảnh hưởng của các tham số đến cảm xúc trong tiếng Việt. Tìm ra quy luật thay đổi của các tham số tương ứng với các cảm xúc. <2>. Đề xuất được mô hình có thể tổng hợp tiếng Việt nói với yêu cầu chất lượng thanh điệu được đặt lên hàng đầu và tổng hợp được nhiều chất giọng khác nhau. <3>. Bước đầu thử nghiệm mô hình tổng hợp tiếng Việt có cảm xúc. 4. Đối tượng và phạm vi nghiên cứu của luận án Đề tài luận án là tổng hợp tiếng Việt với các chất giọng khác nhau và có biểu lộ cảm xúc. Trong khuôn khổ của đề tài và nhiệm vụ đã đặt ra, nghiên cứu sinh xác định đối tượng và phạm vi nghiên cứu cho từng nhiệm vụ cụ thể như sau: - Với nhiệm vụ 1: Cảm xúc trong tiếng nói rất đa dạng, trong đó mỗi cảm xúc lại có rất nhiều cảm xúc chi tiết (cách thể hiện khác nhau của cảm xúc đó). Trong khuôn khổ nghiên cứu của luận án, nghiên cứu sinh tập trung vào 4 cảm xúc cơ bản là bình thường (trung tính), vui, buồn và tức. Bộ ngữ liệu sẽ được xây dựng dựa trên 4 cảm xúc này. Phần phân tích sẽ tập trung phân tích ảnh hưởng của các tham số cơ bản của tín hiệu tiếng Việt nói. - Với nhiệm vụ 2: Nghiên cứu sinh tập trung nghiên cứu cách thức xây dựng bộ tổng hợp trong đó yếu tố tổng hợp thanh điệu được đặt lên hàng đầu, bộ ngữ liệu cũng được thiết kế để tạo nên bộ tổng hợp có số lượng từ vựng không hạn chế với ngữ liệu ít nhất. Một nghiên cứu nữa của phần này là mô hình này có thể tổng hợp được bất cứ giọng nào miễn là 2 còn thu âm được ngữ liệu của giọng đó và dung lượng ngữ liệu là thấp nhất có thể. - Với nhiệm vụ 3: Bước đầu thử nghiệm mô hình tổng hợp tiếng Việt có cảm xúc tập trung vào 4 cảm xúc đã được phân tích và tìm ra quy luật ở nhiệm vụ 1. 5. Ý nghĩa khoa học thực tiễn của luận án Nội dung nghiên cứu của luận án, kết quả đạt được sẽ là đóng góp đáng kể vào lĩnh vực nghiên cứu tổng hợp tiếng Việt có cảm xúc. Các nghiên cứu về cảm xúc trong tiếng Việt về mặt tín hiệu hiện nay còn ít, do vậy hướng nghiên cứu của luận án sẽ giúp mở rộng phạm vi nghiên cứu cũng như gia tăng thêm khả năng ứng dụng vào các sản phẩm phục vụ đời sống xã hội. Bộ ngữ liệu được xây dựng trong phạm vi luận án sẽ là một trong số ít các bộ ngữ liệu đầu tiên, đáp ứng về mặt số lượng, dung lượng cho các nghiên cứu về cảm xúc tiếng Việt sau này. Các kết quả phân tích về ảnh hưởng của tham số đến các cảm xúc trong phạm vi của luận án sẽ là các kinh nghiệm bước đầu cho các nghiên cứu về các cảm xúc khác trong tương lai. 6. Phương pháp nghiên cứu của luận án Luận án kết hợp song song giữa phương pháp nghiên cứu lý thuyết và phương pháp nghiên cứu thực nghiệm. Về lý thuyết: luận án nghiên cứu tổng quan về cảm xúc trong tiếng nói, tìm hiểu các nghiên cứu về cảm xúc trong các ngôn ngữ khác, các đặc trưng của tiếng Việt, nghiên cứu các mô hình tổng hợp tiếng nói và tiếng nói có cảm xúc dựa trên các tài liệu, công trình khoa học đã được công bố, sách báo, giáo trình liên quan. Về thực nghiệm: luận án xây dựng bộ ngữ liệu cảm xúc tiếng Việt mới phục vụ cho nghiên cứu cảm xúc trong tiếng Việt và tổng hợp tiếng Việt có cảm xúc. Luận án cũng sử dụng các công cụ phân tích, thống kê, đánh giá tham số; các bộ tổng hợp tiếng nói mã nguồn mở kết hợp lập trình phần mềm thu âm; xử lý và đánh giá dữ liệu; thực hiện các nghiên cứu, thử nghiệm các mô hình tổng hợp tiếng Việt có cảm xúc. 7. Kết quả nghiên cứu, đóng góp của luận án Kết quả nghiên cứu và đóng góp của luận án tập trung chủ yếu vào các nội dung chính sau: 3 <1>. Xây dựng bộ ngữ liệu cảm xúc cho tiếng Việt và phân tích, đánh giá ảnh hưởng của các tham số đến cảm xúc trong tiếng Việt, tìm ra quy luật thay đổi của các tham số tương ứng với các cảm xúc. <2>. Đề xuất được mô hình có thể tổng hợp tiếng Việt với yêu cầu chất lượng thanh điệu được đặt lên hàng đầu và tổng hợp được nhiều chất giọng khác nhau. <3>. Đề xuất được mô hình thử nghiệm tổng hợp tiếng Việt có cảm xúc. 8. Nội dung luận án Luận án được trình bày thành 3 chương có nội dung như sau: Chương 1: Tổng quan nghiên cứu về tổng hợp tiếng nói và tổng hợp tiếng nói có cảm xúc. Chương này trình bày tình hình nghiên cứu trong nước và quốc tế về tổng hợp tiếng nói nói chung và tổng hợp có cảm xúc nói riêng trong đó có tiếng Việt. Chương này cũng trình bày các kết quả nghiên cứu về ảnh hưởng của một số tham số đến tiếng nói tổng hợp và tiếng nói tổng hợp có cảm xúc. Chương 1 cũng làm rõ các vấn đề cần nghiên cứu và giải quyết trong luận án. Chương 2: Xây dựng bộ ngữ liệu tiếng Việt có cảm xúc. Chương này trình bày 2 nội dung lớn. Nội dung thứ nhất là xây dựng bộ ngữ liệu cảm xúc tiếng Việt và phân tích đánh giá ảnh hưởng của các tham số F0, năng lượng, cường độ và thời hạn… đến 4 cảm xúc cơ bản vui, buồn, bình thường, tức giận trong tiếng Việt. Nội dung thứ 2 là xây dựng bộ ngữ liệu cho bộ tổng hợp tiếng Việt chất lượng tốt để chuẩn bị cho bộ tổng hợp tiếng Việt có cảm xúc. Chương 3: Tổng hợp tiếng Việt có biểu lộ cảm xúc. Chương này trình bày 2 mô hình tổng hợp tiếng Việt nói. Mô hình đầu tiên là mô hình tổng hợp tiếng Việt cho phép tổng hợp được tiếng Việt nói với yêu cầu chất lượng tổng hợp thanh điệu được đặt lên hàng đầu và có thể tổng hợp được các giọng khác nhau. Mô hình thứ hai là mô hình thử nghiệm bộ tổng hợp tiếng Việt có cảm xúc bằng phương pháp ghép nối. Phần Kết luận trình bày tổng hợp kết quả nghiên cứu đã đạt được, hướng mở rộng nghiên cứu và các đóng góp của luận án. 1. TỔNG QUAN NGHIÊN CỨU VỀ TỔNG HỢP TIẾNG NÓI VÀ TỔNG HỢP TIẾNG NÓI CÓ CẢM XÚC 1.1. Tình hình nghiên cứu trên thế giới về tổng hợp tiếng nói 1.1.1. Tổng hợp bằng ghép nối 4 1.1.2. Tổng hợp bằng cộng hưởng tần số 1.1.3. Tổng hợp mô phỏng phát âm 1.1.4. Tổng hợp dựa trên HMM 1.2. Các nghiên cứu về tổng hợp tiếng nói trong nước hiện nay 1.2.1. Tổng hợp bằng phương pháp ghép nối 1.2.2. Tổng hợp bằng tần số formant 1.2.3. Tổng hợp dựa trên HMM 1.3. Các nghiên cứu về tổng hợp tiếng nói có cảm xúc trên thế giới 1.3.1. Tổng quan 1.3.2. Các tham số ảnh hưởng đến cảm xúc trong tiếng nói 1.4. Các nghiên cứu về tiếng nói có cảm xúc trong tiếng Việt Hiện nay, các nghiên cứu về tiếng nói có cảm xúc trong tiếng Việt với giọng trần thuật (bình thường) đã có nhiều kết quả tốt. Trong khi đó, các nghiên cứu về phương diện cảm xúc trong tổng hợp hay nhận dạng tiếng Việt chưa nhiều. Một số nghiên cứu về cảm xúc tiếng Việt đã được công bố thường được thực hiện trên ngữ liệu đa thể thức, kết hợp video biểu hiện khuôn mặt, cử chỉ và tiếng nói với ứng dụng chủ yếu để tổng hợp tiếng Việt. Chẳng hạn nghiên cứu trong [62], [63] đã thử nghiệm mô hình hóa ngôn điệu tiếng Việt với ngữ liệu đa thể thức nhằm tổng hợp tiếng Việt biểu cảm. Các tác giả của [64] đã đề xuất mô hình biến đổi tiếng Việt nói để tạo biểu cảm trong kênh tiếng nói cho nhân vật ảo nói tiếng Việt. Trong nghiên cứu này, ngữ liệu có cảm xúc bao gồm các phát âm tiếng Việt của một nam nghệ sĩ và một nữ nghệ sĩ phát âm 19 câu ở năm trạng thái cơ bản: tự nhiên, vui, buồn, hơi giận, rất giận. Đối với nhận dạng cảm xúc tiếng Việt, nghiên cứu [65] đã sử dụng SVM để phân lớp với đầu vào là tín hiệu điện não (EEG). Kết quả cho thấy có thể nhận dạng được trên thời gian thực 5 trạng thái cảm xúc cơ bản với độ chính xác trung bình là 70,5%. Một số tác giả Trung Quốc [2], [1] có kết hợp với sinh viên Việt Nam xây dựng ngữ liệu cảm xúc tiếng Việt theo cách đóng kịch biểu lộ cảm xúc. Người nói là các sinh viên Việt Nam, trong nghiên cứu [2] có 2 nam, 2 nữ, còn trong [1] có 6 người nói với 6 cảm xúc vui, bình thường, buồn, ngạc nhiên, tức, sợ hãi. Các tác giả ban đầu đã xây dựng ngữ liệu với ý định nghiên cứu chéo ngôn ngữ Việt Nam và Trung Quốc 1.5. Kết chương 1 5 Trong các phương pháp tổng hợp tiếng nói phổ biến hiện nay, có rất nhiều hệ tổng hợp có thể tạo ra tiếng nói gần với giọng tự nhiên bằng phương pháp ghép nối [1], [2], [3], [4], [5] hoặc tổng hợp bằng tham số [6], [7], [8] đều có thể tạo ra giọng nói tổng hợp chất lượng tốt [9] cho giọng trần thuật. Trong đó, tiếng nói tổng hợp từ các tham số bằng bộ tổng hợp HTS của nhóm Yamagishi [10] có chất lượng chưa tốt bằng tổng hợp tiếng nói bằng ghép nối lựa chọn âm vị của nhóm Kraiskos [9]. Mỗi phương pháp trên đều có ưu và khuyết điểm khi được nghiên cứu để tạo ra tiếng nói có cảm xúc. Ví dụ phương pháp tổng hợp bằng ghép nối lựa chọn đơn vị cần một số lượng rất lớn dữ liệu tiếng nói cho từng cảm xúc [11], [12], [13], [14], các phương pháp này khó triển khai do rất tốn kém khi xây dựng ngữ liệu để phân tích cũng như tổng hợp. Một số nhóm nghiên cứu tìm cách kết hợp ngữ điệu hoặc cách thức phát âm đối với phương pháp tổng hợp lựa chọn đơn vị như nhóm của Hamza và các cộng sự [15], [14], [16], trong đó các quy luật về cảm xúc được tổng hợp và đánh giá trong công bố của Marc Schröder [17] về điều chỉnh và thời hạn phát âm (duration time). Tuy nhiên, phương pháp này không có hiệu quả với tất cả các trường hợp vì còn tùy thuộc vào mục tiêu, chi phí đề ra của các dự án tổng hợp cũng như yêu cầu, cảm nhận từ người nghe đối với hệ thống tổng hợp [18]. Ngoài ra, vì sự đa dạng của các cảm xúc mang tính phân nhánh (ví dụ trong cảm xúc buồn có các cảm xúc buồn rười rượi, buồn bã, buồn mênh mang, hơi buồn…) nên không phải lúc nào cũng có dữ liệu để đáp ứng và vì thế có thể cần sự can thiệp điều chỉnh tín hiệu dẫn đến suy giảm chất lượng tiếng nói tổng hợp. Một yêu cầu nữa là sự chính xác của các nhãn được xắp xếp theo thời gian của các âm kép hoặc bán âm kép. Trong tổng hợp tiếng nói có cảm xúc, việc đánh nhãn chính xác rất quan trọng khi xử lý gán nhãn tự động [19]. Hạn chế của bộ tổng hợp bằng mô hình là phổ và ngữ điệu của tiếng nói tạo bởi HMM quá mượt mà và thiếu đi nhiều chi tiết so với phổ và ngữ điệu của tiếng nói tự nhiên do sử dụng các giá trị trung bình của các tham số thống kê được. Các biến thiên có vai trò rất quan trọng trong việc thể hiện cảm xúc, ngoài ra người nghe cũng có xu hướng đòi hỏi cao hơn với tiếng nói tổng hợp và rất nhạy cảm trong việc phát hiện các nhược điểm của giọng nói tổng hợp [20]. Tuy vậy, tổng hợp bằng mô hình thống kê cũng có những ưu điểm hơn so với tổng hợp chọn đơn vị: 6 các tham số thống kê được sử dụng và điều chỉnh trong cùng một nền tảng (các bộ tổng hợp…), rất đơn giản để thay đổi các tham số về cách phát âm hoặc cảm xúc bằng cách sử dụng hàm nội suy của HMM [21], hồi quy các vector cảm xúc [22], hoặc sử dụng các kỹ thuật thích nghi của HMM [23], Phương pháp tổng hợp bằng HMM sử dụng ít dữ liệu hơn so với tổng hợp chọn đơn vị, thêm vào nữa sự linh hoạt khi biến đổi các tham số giúp chuyển đổi giọng hoặc cảm xúc tốt hơn. Một điểm mạnh nữa là các nhãn cảm xúc sắp xếp theo thời gian chỉ dùng đề khởi tạo các tham số trên HMM nên phương án này đòi hỏi độ chính xác ít hơn nhiều so với tổng hợp chọn đơn vị. Sau các nghiên cứu trên, nghiên cứu sinh nhận thấy rằng để tổng hợp được tiếng Việt có cảm xúc, yêu cầu quan trọng đầu tiên là tiếng Việt tổng hợp phải đảm bảo được chất lượng thanh điệu càng gần giọng tự nhiên càng tốt. Trong hai hướng tổng hợp tiếng nói có cảm xúc đã trình bày ở trên, tổng hợp bằng ghép nối trong đó giữ nguyên các thanh điệu tự nhiên có ưu điểm là giữ được chất lượng tự nhiên tốt do các đơn vị âm dùng để tổng hợp chính là các giọng nói tự nhiên. Mặt khác, phương pháp này cho phép tổng hợp được các chất giọng khác nhau với dung lượng ngữ liệu giảm nhỏ. Từ ưu điểm đó, luận án lựa chọn đi theo hướng tổng hợp tiếng Việt có cảm xúc bằng phương pháp ghép nối. Để hoàn thành đươc hướng nghiên cứu này luận án phải hoàn thành ba mục tiêu chính: - Mục tiêu đầu tiên là xây dựng được bộ ngữ liệu tiếng Việt có cảm xúc dùng để phân tích, đánh giá ảnh hưởng của các tham số của tiếng Việt đến cảm xúc. Từ đó tìm ra quy luật biến thiên của các tham số này để dùng trong tổng hợp tiếng Việt có cảm xúc. - Mục tiêu thứ hai là xây dựng được mô hình tổng hợp tiếng Việt giọng trần thuật trong đó yêu cầu về chất lượng thanh điệu được đặt lên hàng đầu., tiếng nói tổng hợp phải gần giọng tự nhiên nhất có thể. Bộ tổng hợp này cũng phải có khả năng tổng hợp được nhiều chất giọng khác nhau: nam, nữ, già, trẻ, lứa tuổi khác nhau. - Mục tiêu cuối cùng là đề xuất được mô hình thử nghiệm bộ tổng hợp tiếng Việt có cảm xúc dựa trên phương pháp ghép nối. 7 2. XÂY DỰNG BỘ NGỮ LIỆU TỔNG HỢP TIẾNG VIỆT CÓ CẢM XÚC 2.1. Xây dựng bộ ngữ liệu tổng hợp tiếng Việt chất lượng tốt Một trong những nội dung quan trọng của luận án là xây dựng được bộ tổng hợp tiếng Việt chất lượng tốt, đảm bảo tiếng nói tổng hợp có thanh điệu tự nhiên sau đó mới điều chỉnh tham số để có tiếng nói tổng hợp có cảm xúc. Bộ ngữ liệu này được xây dựng để phục vụ cho bộ tổng hợp tiếng Việt nói chất lượng tốt cũng như bộ tổng hợp tiếng Việt có cảm xúc sau đó. Theo nghiên cứu của nghiên cứu sinh về tổng hợp tiếng Việt, chất lượng tiếng nói tổng hơp phụ thuộc phần lớn vào chất lượng của các âm trong bộ ngữ liệu và chất lượng của tổng hợp thanh điệu. Việc xây dựng bộ ngữ liệu cũng được thiết kế với yêu cầu chất lượng thanh điệu được đưa lên hàng đầu, đảm bảo giữ được tính tự nhiên của thanh điệu để có thể tổng hợp được giọng trần thuật tự nhiên nhất (cảm xúc bình thường). Sau đó nghiên cứu sinh mới điều chỉnh các tham số trong quá trình tổng hợp để tạo ra tiếng nói có cảm xúc khác từ cảm xúc bình thường. Để có cơ sở xây dựng bộ ngữ liệu tiếng Việt phù hợp, sau đây luận án sẽ trình bày những nét đặc trưng cơ bản nhất của ngữ âm tiếng Việt. 2.1.1. Đặc điểm cơ bản của ngữ âm tiếng Việt 2.1.2. Hệ thống âm vị và cấu trúc âm tiết tiếng Việt Ở dạng đầy đủ, mỗi âm tiết tiếng Việt gồm 5 thành phần: âm đầu, âm đệm, âm chính, âm cuối và thanh điệu. Trong đó, thành phần thanh điệu được bao trùm lên tất cả các âm [88], [89]. Trong số 4 âm, ngoại trừ âm đầu phần còn lại của âm tiết bao gồm âm đệm, âm chính và âm cuối được ghép lại với nhau tạo thành vần. Với người chưa biết chữ sẽ không cảm nhận được cấu tạo của phần vần. Vào lớp 1, các em học sinh sẽ được học cách phân tích, tổng hợp các âm đệm, âm chính, âm cuối để tạo thành vần (hay còn gọi là ''đánh vần") sau đó kết hợp với âm đầu và thanh điệu để tạo thành âm tiết. Cấu trúc của âm tiết tiếng Việt được mô tả như trong Bảng 2.3 [88]. 8 2.1.3. Hệ thống thanh điệu 2.1.4. Hệ thống âm đầu 2.1.5. Hệ thống âm đệm 2.1.6. Hệ thống âm chính 2.1.7. Hệ thống âm cuối 2.1.8. Xây dựng bộ ngữ liệu tiếng Việt nói chất lượng tốt Một trong các nhiệm vụ chính của luận án là xây dựng một bộ tổng hợp tiếng Việt với mục tiêu yếu tố thanh điệu là quan trọng nhất, chiếm vị trí hàng đầu. Bộ tổng hợp này là cơ sở để thực hiện hai nhiệm vụ của luận án là: có thể tổng hợp được tiếng Việt với nhiều chất giọng khác nhau và là nền tảng để xây dựng bộ tổng hợp tiếng Việt có cảm xúc. Phương pháp được lựa chọn là tổng hợp ghép nối chọn đơn vị. Bộ ngữ liệu này để phục vụ cho bộ tổng hợp đã nêu. Khi xây dựng bộ tổng hợp, luận án đặt ra 2 vấn đề lớn cần giải quyết: - Xử lý điểm ghép nối: Một trong những yêu cầu quan trọng của tổng hợp bằng phương pháp ghép nối là xử lý điểm ghép nối để loại trừ các âm xé, rít do sự không đồng bộ về các tham số như F0, năng lượng, biên độ của các thành phần tại điểm ghép nối. Ví dụ, nếu theo cấu trúc âm tiết tiếng Việt [89], từ "nhuyễn" sẽ được tổng hợp từ các đơn vị âm đầu /ng/, âm đệm /u/, âm chính /yê/, âm cuối /n/ và thanh điệu /~/. Điều này dẫn đến cần xử lý nhiều điểm ghép nối và một thanh điệu, khá phức tạp và khó đảm bảo yếu tố tự nhiên. - Chất lượng của thanh điệu: điểm quan trọng nhất với tổng hợp tiếng Việt có cảm xúc là đảm bảo được thanh điệu một cách tự nhiên do thanh điệu bị ảnh hưởng bởi các âm ở điểm ghép nối. Để giải quyết 2 vấn đề nêu trên, chúng tôi đề xuất một giải pháp hoàn toàn mới như sau: - Để giải quyết vấn đề đầu tiên, chúng tôi chia một âm tiết bất kỳ trong tiếng Việt thành hai phần được gọi là đơn vị âm đầu và đơn vị âm cuối. Trong đó, thành phần của đơn vị âm đầu sẽ chứa thành phần chính là âm đầu (Bảng 2.5, Bảng 2.6) ngoài ra còn có thể chứa thêm thành phần âm đệm, Đơn vị âm cuối chứa thành phần chính là âm chính trong bảng cấu trúc âm tiết tiếng Việt (Bảng 2.7) và các thành phần còn lại của âm tiết. Cách làm này đảm bảo mỗi âm tiết chỉ cần xử lý một điểm ghép nối duy nhất. Ví dụ từ "tán" sẽ được chia thành "ta" và "án". 9 - Để giải quyết vấn đề thứ 2 luận án đề xuất phương án thanh điệu được thu sẵn trong các đơn vị âm. Trong đó, đơn vị âm đầu sẽ chứa thành phần thanh ngang còn đơn vị âm cuối sẽ chứa đầy đủ cả 6 thanh điệu. Điều này giúp các từ tổng hợp có thanh điệu tự nhiên do sử dụng thanh điệu thu trước chứ không phải xử lý. Ví dụ: đơn vị âm đầu: "ta", "ba", "ca"..; đơn vị âm cuối: "áng", "àng", "ang", "ạng", "ãng"... 2.1.9. Xây dựng danh sách các âm tiết trong bộ ngữ liệu Việc lập danh sách đầy đủ các âm tiết chứa các đơn vị âm cần thu được dựa vào cấu trúc âm tiết tiếng Việt và quy luật chia âm tiết đã nói ở phần 2.1.8 (chi tiết xem phụ lục A). Luận án sử dụng phương pháp tổ hợp nhằm vét cạn tất cả các trường hợp có thể có đối với các âm tiết tiếng Việt. Sau khi tổ hợp, cần tiến hành loại bỏ các tổ hợp không được sử dụng trong tiếng Việt để lọc ra một danh sách các âm cần thu bằng phương pháp thủ công. Các âm tiết được ghi âm dựa trên số lượng các đơn vị âm đầu và đơn vị âm cuối đã được xác định. - Xây dựng đơn vị âm đầu: Dùng phương pháp tổ hợp các phụ âm đầu với nguyên âm chính (có thể có cả các âm đệm) mang thanh ngang ta thu được 324 tổ hợp. Dựa vào cấu trúc âm tiết tiếng Việt để loại bỏ các tổ hợp không có trong tiếng Việt ta thu được 294 tổ hợp. Ví dụ về các tổ hợp bị loại bỏ: quơ, khư, châ… - Xây dựng đơn vị âm cuối: Dùng phương pháp tổ hợp như trên, tổ hợp âm đệm, âm chính, âm cuối rồi tiến hành loại bỏ các tổ hợp không dùng trong tiếng Việt sẽ có 721 tổ hợp cuối cùng cần phải thu. Ví dụ một số âm vị bị loại bỏ: àt, ảt… Tổng số tổ hợp được xây dựng là 1015 tổ hợp. 2.1.10. Kịch bản thu Khi đã có danh sách đầy đủ các âm tiết cần thiết, việc xây dựng kịch bản thu nhằm đảm bảo các đơn vị âm được thu cho kết quả tốt nhất. Có 1015 tổ hợp cần thu được thu trực tiếp bằng cách đọc từng tổ hợp một. Mỗi tổ hợp được đọc cách nhau thời gian đủ ngắn để có thể tách 10 được các tổ hợp đó (chẳng hạn 3s), các tổ hợp cần đọc sẽ hiện ra trên màn hình và tự chuyển 2.1.11. Thu âm Bước đầu, tiến hành ghi âm cho bốn giọng: một giọng nam, một giọng nữ và hai giọng trẻ em. Tín hiệu thu được lấy mẫu ở tần số 16000Hz và 16 bit cho một mẫu. Thời gian thu mỗi bộ 1015 âm tiết liên tục là 50,75 phút (tính cả thời gian nghỉ giữa các âm tiết). Tổng dung lượng của 1015 âm tiết là 98 MB cho mỗi giọng (bao gồm cả khoảng nghỉ và các thành phần khác). Đây là bộ ngữ liệu chúng tôi xây dựng để phục vụ cho mục đích nghiên cứu. Với các ứng dụng thực tế, nếu tách lấy đơn vị âm đầu hoặc đơn vị âm cuối dùng cho tổng hợp, phần còn lại sẽ được cắt bỏ. Khi đó dung lượng sẽ giảm chỉ còn khoảng 23,5 MB. Theo kết quả tính toán, tỷ số trung bình tín hiệu trên nhiễu của bộ ngữ liệu đã được xây dựng là 38 dB. Đây là kết quả tốt chấp nhận được. 2.2. Xây dựng bộ ngữ liệu cảm xúc tiếng Việt 2.2.1. Mục đích xây dựng bộ ngữ liệu cảm xúc tiếng Việt 2.2.2. Các tham số về cảm xúc trong tiếng nói 2.2.3. Phương pháp xây dựng bộ ngữ liệu cảm xúc tiếng Việt Để xây dựng ngữ liệu cảm xúc, có thể thực hiện theo các phương pháp như: ghi âm trực tiếp các đối thoại tự nhiên, xây dựng kịch bản sao cho các đối thoại được các nhận vật tùy biến cảm xúc theo tình huống, ghi âm trực tiếp giọng các nghệ sĩ diễn đạt các nội dung theo yêu cầu biểu đạt cảm xúc cho trước. Trong số các phương pháp này, phương pháp ghi âm giọng các nghệ sĩ biểu đạt cảm xúc cho trước là phương pháp cho phép xây dựng được ngữ liệu thuận lợi hơn theo thiết kế định sẵn [103], dễ đạt được số lớn ngữ liệu đồng nhất, từ đó thuận tiện cho việc phân tích xác định tham số đặc trưng một cách tin cậy. Vì vậy, phương pháp này đã được chúng tôi lựa chọn để xây dựng bộ ngữ liệu cảm xúc tiếng Việt - BKEmo. Với mục tiêu chính là phân tích tập trung vào bốn cảm xúc cơ bản vui, buồn, tức và bình thường, kịch bản thu âm được xây dựng phù hợp và yêu cầu người nói thể hiện tập trung vào bốn loại cảm xúc này một cách tốt nhất. Kịch bản thu âm được xây dựng gồm 55 câu theo các tiêu chí sau: Nội dung gồm các câu cảm thán biểu lộ được cả 4 cảm xúc khi nói, các câu bình thường không có các từ ngữ cảm thán, biểu cảm mặt cảm xúc. 11 Với các câu không có từ ngữ cảm thán (ví dụ: “Vườn hoa trước nhà”, “Trường Đại học Bách khoa Hà Nội”…) người nói sẽ tập trung được vào việc biểu lộ cảm xúc mà không bị ảnh hưởng bởi nội dung của câu nói. Với loại câu có cảm thán (ví dụ: “Thật á”, “Có lương rồi”….) sẽ giúp phân tích được nhiều tham số cảm xúc và các tham số phụ ảnh hưởng đến cảm xúc đó; Kịch bản có các tổ hợp từ (ví dụ: “ôi chúa ơi”) và các câu câu ngắn (ví dụ: “Vườn hoa trước nhà”), câu dài (ví dụ: “À anh dám ăn nói với bố thế à”) nhằm mục đích phân tích được ảnh hưởng của các tham số trên một từ riêng lẻ hay trên cả câu; Kịch bản thu có sự xuất hiện của các câu với độ dài từ ngắn đến dài: hai âm tiết (ví dụ: "Thật á"), 3 âm tiết (ví dụ: "Có lương rồi"), 4 âm tiết (ví dụ: "Sắp đến tết rồi"), 5 âm tiết (ví dụ: "Chán quá đi cậu ạ")…để phân tích ảnh hưởng của các tham số như thời gian phát âm, trường độ… đến cảm xúc trong tiếng Việt. Kịch bản thu được thiết kế với các câu được lặp đi lặp lại 4 lần cho mỗi cảm xúc để có đủ dữ liệu khi chia tập huấn luyện và tập test cho các nghiên cứu về nhận dạng cảm xúc trong tiếng Việt. Kịch bản cố gắng lựa chọn các câu sao cho có càng nhiều âm tiết cơ bản của tiếng Việt càng tốt để có thể tìm hiểu được cách điều chỉnh các tham số lên các âm tiết, các từ khi tổng hợp tiếng Việt có cảm xúc. Kịch bản thu cũng được thiết kế với ngữ cảnh để các diễn viên biểu lộ cảm xúc một cách rõ rệt nhất, theo các phương thức thể hiện tương đồng nhất. Ví dụ: với câu "Sắp đến tết rồi" khi thể hiện với cảm xúc vui thì theo ngữ cảnh vui vì tết gần về, khi thể hiện cảm xúc buồn thì với kịch bản tết nhưng xa nhà, không về được. Điều này giúp cách thể hiện cảm xúc trong bộ ngữ liệu được thống nhất, đầy đủ ngữ liệu cho phân tích tham số ảnh hưởng đến cảm xúc trong tiếng Việt khi sử dụng trong tổng hợp và phù hợp với việc phân các nhóm ngữ liệu trong nghiên cứu trong nhận dạng cảm xúc tiếng Việt. 2.2.4. Phân tích và đánh giá một số tham số về cảm xúc trong tiếng Việt nói 2.2.3.1. Phân tích phương sai ANOVA và kiểm định T 2.2.3.2. Phân tích sự biến thiên F0 giữa các cảm xúc Theo kinh nghiệm chủ quan, bốn nghệ sĩ rất nổi tiếng gồm hai nghệ sĩ 12 nam Đ.K (50 tuổi), H.P (40 tuổi) và hai nghệ sĩ nữ T.T.H (34 tuổi), B.H.G. (38 tuổi) đã được lựa chọn để đánh giá. Các nghệ sĩ này cũng trong số 56 nghệ sĩ tham gia thu âm. Mỗi cảm xúc được từng nghệ sĩ thể hiện trong 55 câu, 4 lần (220 file dữ liệu cho từng cảm xúc). Hình 2.8 mô tả đồ thị box-plot phân bố của các giá trị F0 trung bình theo 4 cảm xúc. Hình 2.8 là đồ thị box-plot thống kê sự phân bố F0 cho các cảm xúc buồn, bình thường, vui và tức của hai nghệ sĩ Nam. Phần hộp hình chữ nhật trong đồ thị là phần tập trung 50% dữ liệu, phần đoạn thẳng ở hai đầu chữ nhật cho thấy sự phân tán của phần dữ liệu còn lại. Hình 2.8 cho thấy tần số cơ bản F0 trung bình cho cảm xúc buồn là thấp nhất, tiếp theo là cảm xúc bình thường. Cảm xúc tức và cảm xúc vui có lớn hơn so với cảm xúc buồn và cảm xúc bình thường. Cảm xúc tức có giá trị trung bình lớn nhất. Đây chính là giả thuyết ban đầu về ảnh hưởng của F0 đến các cặp cảm xúc như trong Bảng 2.12. Bảng 2.12, trong phần các giá trị của trung bình, số liệu cho thấy giá trị P-value rất nhỏ, như vậy giả thuyết bị loại bỏ với tất cả các mức ý nghĩa quan trọng. Khi giả thuyết bị loại bỏ tức là xuất hiện ít nhất một cặp giá trị khác so với cặp giá trị của giả thuyết , Để đánh giá sự khác biệt giữa các 13 giá trị trung bình của các cảm xúc khác nhau, kiểm định T với mức ý nghĩa 95% đã được sử dụng. Kết quả đánh giá được cho ở Bảng 2.13. Phần dữ liệu trung bình của nghệ sĩ Đ.K trên Bảng 2.13 cho thấy có sự khác biệt về giá trị trung bình giữa tất cả các cặp cảm xúc với nhau ngoại trừ cặp giữa cảm xúc buồn và cảm xúc bình thường (P-value = 0,9). Điều này cũng phù hợp với Hình 2.8. trong đó độ chênh lệch của cảm xúc buồn và bình thường rất thấp (giọng nghệ sỹ H.P) hoặc gần như bằng nhau (giọng nghệ sĩ Đ.K). Trong khi đó, cảm xúc tức và cảm xúc buồn có độ chênh lệch cao nhất, khoảng tin cậy cho sự sai lệch là (92,9 Hz, 107,9 Hz). Cũng như với giọng nam, cảm xúc tức và cảm xúc vui của giọng nữ cũng có lớn hơn so với cảm xúc buồn và cảm xúc bình thường. Tuy nhiên với giọng nữ, cảm xúc vui lại có lớn hơn so với cảm xúc tức.. Trong các cặp cảm xúc thì độ lệch của cặp cảm xúc buồn và bình thường là ít nhất còn độ lệch của cặp cảm xúc vui và cảm xúc buồn có độ chênh lệch cao nhất, khoảng tin cậy cho sự sai lệch là (174,4 Hz, 185,5 Hz). 2.2.3.3. Phân tích sự biến thiên năng lượng giữa các cảm xúc Giá trị năng lượng được tính trung bình trên từng câu nói, được thể hiện bằng đồ thị box-plot và được kiểm định bằng phương pháp phân tích 14 phương sai ANOVA và kiểm định T. Đồ thị box-plot phân bố năng lượng cho 4 cảm xúc vui, buồn, tức và bình thường của giọng nam – nghệ sĩ Đ.K. và giọng nữ, nghệ sĩ T.T.H. thể hiện trong Hình 2.10. Hình 2.10 cho thấy với giọng nam vẫn có sự phân biệt rõ rệt về mặt năng lượng giữa các cảm xúc vui/tức so với các cảm xúc bình thường/buồn. Kết quả phân tích ANOVA trong Bảng 2.12 cho thấy vẫn có sự khác biệt về mặt năng lượng trung bình giữa các cảm xúc này. Tuy nhiên, dải biến thiên của năng lượng của từng cảm xúc khá rộng. Do đó, không thể hiện được sự tách biệt giữa các cảm xúc như trong trường hợp tần số cơ bản . Kiểm định T với mức ý nghĩa 95% được sử dụng để đánh giá sự khác biệt giữa các giá trị năng lượng trung bình của các cảm xúc khác nhau. Kết quả được cho ở Bảng 2.14. Bảng 2.14 cho thấy có sự khác biệt về giá trị năng lượng trung bình giữa tất cả các cảm xúc với nhau ngoại trừ giữa cảm xúc buồn và cảm xúc bình thường (P-value = 0,22) và giữa cảm xúc vui và cảm xúc tức (Pvalue = 0,47). Điều này cũng phù hợp với Hình 2.10 và nhận định ở trên. Cảm xúc vui và cảm xúc bình thường có độ chênh lệch năng lượng cao nhất, khoảng tin cậy cho sự sai lệch là (5,34 dB, 8,09 dB). Từ Hình 2.10 cũng có thể thấy với nữ giới, các cảm xúc không được thể hiện rõ ràng qua giá trị năng lượng trung bình. Chẳng hạn, cảm xúc bình thường lại có năng lượng trung bình cao hơn so với cảm xúc vui. Phân tích ANOVA (Bảng 2.12) vẫn cho thấy có thể phân biệt giữa các cảm xúc với nhau dựa trên giá trị năng lượng. Từ Bảng 2.14 ta thấy có sự khác biệt về giá trị năng lượng trung bình giữa tất cả các cảm xúc với nhau ngoại trừ giữa cảm xúc tức và cảm xúc bình thường (P-value = 0,99). Điều này cũng phù hợp với Hình 2.10. 15 Cảm xúc buồn và cảm xúc tức có độ chênh lệch năng lượng cao nhất, khoảng tin cậy cho sự sai lệch là (7,45 dB, 9,42 dB). Trung bình mỗi cảm xúc cho mỗi giới tính có khoảng 500 câu được đánh giá với 5 người nói cho mỗi giới tính được lấy ngẫu nhiên. Người nghe được yêu cầu nghe các câu có cảm xúc và chọn đó là cảm xúc gì sau khi nghe. Các câu được chọn đúng cảm xúc sẽ được thống kê và sử dụng phân tích phương sai ANOVA và kiểm định T đánh giá 2 tham số và năng lượng tương tự như phần trên. 2.2.3.4. Phương pháp cảm nhận thực tế Từ Hình 2.11 có thể nhận thấy các cảm xúc có sự tập trung tốt tại một vùng nhất định: năng lượng là bộ tham số rất tốt để phân biệt giữa cảm xúc buồn và cảm xúc bình thường, giữa cảm xúc vui và cảm xúc tức. 16 Ngoài ra cũng có sự phân biệt rất rõ về tần số buồn/bình thường so với cảm xúc vui/tức. giữa cảm xúc Kết quả trong Bảng 2.16 cho thấy có sự phân biệt rất rõ rệt về giữa các cảm xúc cho cả giọng nam (P-value 0). trung bình giữa cảm xúc tức-buồn cao nhất với khoảng tin cậy (105,5Hz, 113,4Hz). Như vậy, lựa chọn mẫu theo đánh giá cảm nhận cho kết quả phân biệt cảm xúc chính xác hơn so lựa chọn mẫu theo kinh nghiệm chủ quan. Tuy nhiên, với năng lượng thì vẫn có những giá trị P-value đáng kể (ví dụ 0,0242), như vậy sẽ không thể phân biệt được 2 cảm xúc này với mức ý nghĩa 0,01. 17 Với giọng nữ, kết quả ở Bảng 2.17 cho thấy không có sự phân biệt rõ rệt về trung bình giữa cảm xúc buồn và cảm xúc bình thường (P-value = 0,22). trung bình giữa cảm xúc vui và buồn cao nhất với độ tin cậy (125,2Hz, 133,1Hz). 2.2.5. Đánh giá bộ ngữ liệu cảm xúc tiếng Việt Trong công bố này, khi sử dụng bộ 384 tham số tỉ lệ nhận dạng đúng cao nhất là 98,17% với bộ phân lóp lBk và thấp nhất là 80,64% lớp bộ phân lớp Trees J48. Còn khi sử dụng bộ 48 tham số chỉ liên quan đến F0, năng lượng…, tỉ lệ nhận dạng đúng trung bình cao nhất là 82,59% với lBk và thấp nhất là 75,25% với bộ phân lớp Trees J48. Nhìn chung tỉ lệ nhận dạng khá cao, phản ánh được độ tin cậy của bộ ngữ liệu BKEmo đã được xây dựng. 2.3. Kết chương Trong chương 2, luận án đã trình bày phương pháp xây dựng bộ ngữ liệu phục vụ cho tổng hợp tiếng Việt chất lượng tốt. Có thể thấy rằng, việc xây dựng bộ ngữ liệu theo phương pháp này tạo điều kiện thuận lợi để thực hiện bộ tổng hợp tiếng Việt giọng địa phương và bất kỳ giọng cá nhân nào mà ta muốn tổng hợp với lượng ngữ liệu cần thu rất ít. Ngoài ra, ngữ liệu đã được xây dựng vẫn có thể sử dụng tốt cho các ứng dụng tổng hợp khác, đặc biệt là tổng hợp tiếng Việt bằng phương pháp ghép nối Chương này cũng đã mô tả phương pháp xây dựng ngữ liệu cho bộ tổng hợp tiếng Việt chất lượng tốt, đảm bảo được chất lượng tiếng nói sau khi tổng hợp giữ nguyên được thanh điệu cho tiếng nói tự nhiên nhất. Tiếp theo, luận án sẽ sử dụng bộ ngữ liệu này cho bộ tổng hợp tiếng Việt có cảm xúc để tổng hợp giọng trần thuật (cảm xúc bình thường) và các cảm xúc cơ bản buồn, tức, vui. Chương 2 cũng đã mô tả phương pháp xây dựng bộ ngữ liệu có cảm xúc cho tiếng Việt. Chương này cũng trình bày các tham số cơ bản của các cảm xúc, phương pháp xây dựng ngữ liệu cảm xúc cho tiếng Việt, và việc sử dụng phân tích phương sai ANOVA, kiểm định T để đánh giá sự biến thiên , năng lượng trung bình giữa các cảm xúc. Kết quả phân tích cho thấy tần số cơ bản là một tham số đáng tin cậy để phân biệt giữa các cảm xúc. Năng lượng cũng là một tham số hiệu quả về phân biệt cảm xúc, phản ánh rõ nét trên giọng nam hơn so với trên giọng nữ. 18 Chương 2 cũng trình bày kết quả đánh giá bộ ngữ liệu cảm xúc tiếng Việt – BKEmo – kết quả đánh giá cho thấy bộ ngữ liệu đủ tin cậy để tiến hành các nghiên cứu về ảnh hưởng của các tham số đến cảm xúc trong tiếng Việt. Việc đánh giá bộ ngữ liệu bằng các bộ tham số lBk, SMO, Trees J48 đạt kết quả khá cao (cao nhất 98,17%) cho thấy chất lượng tin cậy cao của bộ ngữ liệu. 3. TỔNG HỢP TIẾNG VIỆT CÓ BIỂU LỘ CẢM XÚC 3.1. Tổng hợp tiếng Việt chất lượng tốt 3.1.1. Xây dựng bộ ngữ liệu cho tổng hợp tiếng Việt chất lượng tốt 3.1.2. Tổng hợp tiếng Việt chất lượng tốt bằng phương pháp ghép nối 3.1.2.1. Tổng hợp bằng phương pháp ghép nối Quá trình tổng hợp tiếng Việt bằng phương pháp ghép nối được thực hiện theo Hình 3.2. Văn bản đầu vào sẽ được tách từ và gán nhãn theo quy luật được trình bày ở phần xây dựng bộ ngữ liệu. Tiếp theo, để tổng hợp một âm, đầu tiên cần xác định 2 đơn vị âm (gồm đơn vị âm đầu và đơn vị âm cuối) để ghép nối. Điểm ghép nối cần được chọn thuộc vùng ổn định nguyên âm của âm sẽ tổng hợp. Ví dụ, để tổng hợp âm “tàn”, 19 đơn vị âm đầu sẽ là “ta”, đơn vị âm cuối là “àn”. Các đơn vị âm đầu và đơn vị âm cuối của bộ tổng hợp đã được lựa chọn trong quá trình xây dựng bộ ngữ liệu tiếng Việt chất lượng tốt. Vì vậy, trong bộ ngữ liệu đã có sẵn các đơn vị âm này cùng với vị trí của điểm ghép nối. Bộ tổng hợp thực hiện ghép nối các đơn vị âm và thực hiện các thuật giải cân bằng làm trơn tham số tại điểm ghép nối. 3.1.2.2. Các đề xuất cân bằng tham số tại vị trí ghép nối. Tổng hợp tiếng nói bằng phương pháp ghép nối từ các đơn vị âm không đồng nhất là vấn đề đã được thực hiện từ rất sớm. Các tham số cơ bản tại phần ghép nối ảnh hưởng đến chất lượng tiếng nói tổng hợp là: biên độ, tần số cơ bản và phổ (hay các formant). 3.1.3. Phương pháp đánh giá chủ quan MOS 3.1.4. Thử nghiệm tổng hợp một số câu nói bằng bộ tổng hợp tiếng nói chất lượng tốt 3.1.4.1. Đánh giá chủ quan chất lượng 10 câu nói tổng hợp Kết quả ở Bảng 3.2 cho thấy phần lớn các câu đều có chất lượng ở mức khá, một số câu có chất lượng chưa tốt như câu 2, câu 3, câu 8 do một số âm tiết như "nhìn" được tổng hợp chưa tốt, hoặc độ ngắt quãng lớn giữa các từ khi phát âm, các từ không đồng tông khi được tổng hợp làm người nghe chưa hài lòng. Các câu còn lại đều được đánh giá ở mức tốt, riêng câu 4 được chọn trên mức tốt. Kết quả này là chấp nhận được. 3.1.4.2. Đánh giá khách quan chất lượng 10 câu nói tổng hợp Từ dạng sóng và biến thiên của các câu tổng hợp, luận án đánh giá được tính đúng đắn của công nghệ khi dạng sóng và biến thiên của các từ và câu rất mượt, không có các đoạn gãy khúc hoặc đột biến. Điều này cho thấy tín hiệu tổng hợp có hình dạng tương tự tín hiệu tự nhiên. 20
- Xem thêm -

Tài liệu liên quan