Tài liệu Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã ma trận không âm

.PDF

hungba1170093 Báo vi phạm

Tải xuống 83

Mô tả:

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG TRẦN ÍCH ĐẠI NGHIÊN CỨU PHƯƠNG PHÁP BIẾN ĐỔI CẢM XÚC NGƯỜI NÓI TRONG TIẾNG NÓI DÙNG KỸ THUẬT PHÂN RÃ MA TRẬN KHÔNG ÂM LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN, 2019 Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG TRẦN ÍCH ĐẠI NGHIÊN CỨU PHƯƠNG PHÁP BIẾN ĐỔI CẢM XÚC NGƯỜI NÓI TRONG TIẾNG NÓI DÙNG KỸ THUẬT PHÂN RÃ MA TRẬN KHÔNG ÂM Chuyên ngành: Khoa học máy tính Mã số: 8 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: PGS. TS. PHÙNG TRUNG NGHĨA THÁI NGUYÊN, 2019 Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn i LỜI CẢM ƠN Lời đầu tiên, em xin chân thành cám ơn PGS.TS. Phùng Trung Nghĩa, người đã trực tiếp hướng dẫn em hoàn thành luận văn. Với những lời chỉ dẫn, những tài liệu, sự tận tình hướng dẫn và những lời động viên của thầy đã giúp em vượt qua nhiều khó khăn trong quá trình thực hiện luận văn này. Em cũng xin cám ơn quý thầy cô giảng dạy chương trình cao học "Khoa hoc máy tính” đã truyền dạy những kiến thức quý báu, những kiến thức này rất hữu ích và giúp em nhiều khi thực hiện nghiên cứu. Cuối cùng, em xin gửi lời cám ơn tới gia đình và bạn bè đã luôn ủng hộ động viên giúp đỡ em trong suốt những năm học vừa qua. Em xin chân thành cám ơn! Thái Nguyên, ngày tháng năm 2019 Học viên Trần Ích Đại Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn ii LỜI CAM ĐOAN Em xin cam đoan: Luận văn này là công trình nghiên cứu thực sự của cá nhân, được thực hiện dưới sự hướng dẫn khoa học của PGS. TS. Phùng Trung Nghĩa Các số liệu, những kết luận nghiên cứu được trình bày trong luận văn này trung thực và chưa từng được công bố dưới bất cứ hình thức nào. Em xin chịu trách nhiệm về nghiên cứu của mình. Học viên Trần Ích Đại Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn iii MỤC LỤC TRANG PHỤ BÌA LỜI CẢM ƠN ................................................................................................... i LỜI CAM ĐOAN ............................................................................................ ii MỤC LỤC ....................................................................................................... iii DANH MỤC BẢNG ........................................................................................ v DANH MỤC HÌNH ........................................................................................ vi MỞ ĐẦU .......................................................................................................... 1 1. Đặt vấn đề ................................................................................................. 1 2. Đối tượng và phạm vi nghiên cứu............................................................. 2 3. Hướng nghiên cứu của luận văn ............................................................... 3 4. Những nội dung nghiên cứu chính ............................................................ 3 5. Phương pháp nghiên cứu........................................................................... 4 6. Ý nghĩa khoa học của luận văn: ................................................................ 4 CHƯƠNG 1...................................................................................................... 5 TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ BIẾN ĐỔI THÔNG TIN CẢM XÚC NGƯỜI NÓI TRONG TIẾNG NÓI .......................................... 5 1.1. Thông tin tiếng nói ............................................................................. 5 1.2. Tín hiệu tiếng nói ............................................................................... 5 1.3. Quá trình tạo tiếng nói ....................................................................... 7 1.4. Cơ quan thính giác ........................................................................... 10 1.5. Xử lý tiếng nói.................................................................................. 12 1.6. Thông tin cảm xúc người nói trong tiếng nói .................................. 13 1.7. Biến đổi cảm xúc người nói trong tiếng nói và ứng dụng ............... 16 1.7.1. Phương pháp biến đổi thay đổi tham số trực tiếp ................. 17 1.7.2. Biến đổi cảm xúc người nói dựa vào thay thế khung ........... 20 1.7.3. Biến đổi thông tin người nói bằng TD-GMM ...................... 21 Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn iv 1.7.4. Biến đổi thông tin người nói bằng HTD [9] ......................... 23 CHƯƠNG 2.................................................................................................... 30 BIẾN ĐỔI CẢM XÚC NGƯỜI NÓI BẰNG KỸ THUẬT PHÂN RÃ MA TRẬN KHÔNG ÂM NMF ........................................................................... 30 2.1. Kỹ thuật phân rã ma trận không âm NMF ....................................... 30 2.1.1. Tổng quan.............................................................................. 30 2.1.2. Lịch sử ................................................................................... 30 2.1.3. Nền tảng ................................................................................ 30 2.1.4. Tính chất phân cụm ............................................................... 32 2.1.5. Các kỹ thuật phân rã ma trận không âm ............................... 33 2.2. Ứng dụng kỹ thuật phân rã ma trận không âm NMF trong biến đổi tiếng nói [10] ........................................................................................... 39 CHƯƠNG 3.................................................................................................... 41 ĐÁNH GIÁ THỰC NGHIỆM CÁC PHƯƠNG PHÁP BIẾN ĐỔI CẢM XÚC NGƯỜI NÓI TRONG TIẾNG NÓI .................................................. 41 3.1. Ngữ âm tiếng Việt ............................................................................ 41 3.2. Cơ sở dữ liệu tiếng nói tiếng Việt .................................................... 43 3.3. Tổng hợp tiếng nói tiếng Việt .......................................................... 46 3.4. Lựa chọn cơ sở dữ liệu ..................................................................... 47 3.5. Thực nghiệm các phương pháp ........................................................ 47 3.6. Đánh giá các phương pháp ............................................................... 47 3.6.1. Tiêu chí và kết quả đánh giá khách quan .............................. 47 3.6.2. Tiêu chí và kết quả đánh giá khách quan .............................. 48 KẾT LUẬN .................................................................................................... 51 TÀI LIỆU THAM KHẢO ............................................................................ 52 Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn v DANH MỤC BẢNG Bảng 3.1: Cấu trúc âm tiết tiếng Việt.............................................................. 43 Bảng 3.2: Sáu thanh điệu tiếng Việt ............................................................... 43 Bảng 3.3: Khoảng cách MCD ......................................................................... 49 Bảng 3.4: Độ sai lệch F0 ................................................................................. 49 Bảng 3.5:Kết quả đánh giá chủ quan ABX giữa các phương pháp TD-GMM (1); HTD (2); và NMF (3) ............................................................................... 49 Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn vi DANH MỤC HÌNH Hình 1.1: Dạng sóng tiếng nói một câu tiếng Việt ........................................... 6 Hình 1.2: Tiếng nói hữu thanh .......................................................................... 6 Hình 1.3: Bộ phận cung cấp làn hơi .................................................................. 7 Hình 1.4: Dây thanh âm .................................................................................... 7 Hình 1.5: Cấu trúc cơ quan phát âm ................................................................. 8 Hình 1.6: Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm.......... 9 Hình 1.7: Mô hình hóa cơ quan phát âm ........................................................... 9 Hình 1.8: Biểu diễn mô hình hóa cơ quan phát âm đầy đủ bằng máy tính ...... 9 Hình 1.9: Mô hình cơ quan thính giác ............................................................ 10 Hình 1.10: Thang tần số Bark ......................................................................... 11 Hình 1.11: Ngưỡng nghe ................................................................................ 11 Hình 1.12: Mặt nạ thời gian (che âm thanh liền trước và liền sau) ................ 11 Hình 1.13: Mặt nạ tần số (che âm thanh có tần số khác nhau phát cùng thời điểm) ......................................................................................................................... 12 Hình 1.14: Một số ứng dụng của xử lý tiếng nói ............................................ 13 Hình 1.15: Hệ thống nhận dạng cảm xúc người nói – một trong các ứng dụng xử lý thông tin người nói ................................................................................. 13 Hình 1.16: Người nói khác nhau có cơ quan phát âm và cách phát âm khác nhau dẫn tới tiếng nói khác nhau khi nói với các cảm xúc khác nhau .......... 14 Hình 1.17: Đặc trưng phổ formant đặc trưng cho cơ quan phát âm ............... 15 Hình 1.18: Tính toán vector đặc trưng ............................................................ 16 Hình 1.19: Mô hình học máy thống kê GMM được sử dụng để mô hình hóa người nói ......................................................................................................... 17 Hình 1.20: Phân tích phổ, F0 và tái tạo bằng STRAIGHT ............................. 18 Hình 1.21: Thuật toán điều chỉnh trực tiếp tham số tiếng nói ........................ 19 Hình1.22: Lựa chọn khung đích phù hợp và thay thế khung nguồn............... 21 Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn vii Hình1.23.Phương pháp biến đổi TD-GMM. ................................................... 23 Hình 1.24. Mô hình biến đổi giọng người nói HTD ....................................... 24 Hình 1.25. Ví dụ phân tích / tái tạo tiếng nói bằng MRTD với N khung và K điểm sự kiện .................................................................................................... 26 Hình 2.1. NMF tuần tự .................................................................................... 36 Hình 2.2. Xây dựng từ điển nguồn và đích cho mỗi câu tiếng nói trong pha huấn luyện ................................................................................................................ 40 Hình 2.3.Pha chuyển đổi ................................................................................. 40 Hình 3.1: Đường F0 sáu thanh điệu tiếng Việt theo, dấu ? ở thanh ngã chỉ ra rằng đường F0 của thanh ngã không thống nhất giữa các mẫu ở vùng giữa. . 42 Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn viii DANH MỤC CHỮ VIẾT TẮT VÀ KÝ HIỆU Ký tự Ý nghĩa F0 Tần số giao động cơ bản AMDF Hàm hiệu biên độ trung bình LP Phương pháp dự đoán tuyến tính PCM Kỹ thuật điều chế xung mã MAV Dữ liệu âm thanh không nén LSF Tham số phổ đường ABX Thang điểm đánh giá theo cặp GMM Mô hình Gaussian hỗn hợp P Chỉ số hiệu năng MOS Thang điểm đánh giá chủ quan trung bình MCD Khoảng cách phổ Mel RMSE Lối trung bình phương HMM Mô hình thống kê HTT Thay thế mẫu và ghép nối Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn 1 MỞ ĐẦU 1. Đặt vấn đề Tiếng nói là phương tiện giao tiếp cơ bản của con người. Tín hiệu tiếng nói mang nhiều thông tin, như thông tin ngôn ngữ, thông tin định danh người nói, thông tin về cảm xúc người nói,… Hầu hết các hệ thống xử lý tiếng nói tập trung vào xử lý các thông tin ngôn ngữ để đảm bảo tiếng nói sau xử lý có thể hiểu được [1]. Tuy nhiên để các ứng dụng xử lý tiếng nói trong máy tính có thể được áp dụng rộng rãi trong thực tế, tính tự nhiên của tiếng nói được xử lý cũng cần được quan tâm và cũng đã được quan tâm nghiên cứu trong thời gian gần đây [2]. Để đảm bảo tiếng nói sau xử lý (như tiếng nói được tổng hợp nhân tạo) được tự nhiên, một trong những vấn đề quan trọng cần đảm bảo là thông tin về cảm xúc người nói [310]. Các hệ thống tổng hợp tiếng nói nhân tạo thường chỉ có thể tổng hợp ra tiếng nói của một số giọng nói đã được thu sẵn (với cảm xúc trung tính) và huấn luyện trước cho máy tính. Trong nhiều ứng dụng truyền thông đa phương tiện hiện đại, việc biến đổi cảm xúc người nói trong tín hiệu tiếng nói có vai trò quan trọng. Một số ví dụ điển hình như: - Trong các hệ thống đọc truyện online cần “phát thanh viên ảo” nói với giọng có cảm xúc tự nhiên nhất [4]. - Trong các clips quảng cáo, âm nhạc cần biến đổi giọng nói, giọng hát của diễn viên theo các cảm xúc cụ thể khác nhau như cao hơn, trầm hơn, giống với cảm xúc của nhân vật hơn,… [4] - Đặc biệt, nếu bỏ qua các thông tin phi ngôn ngữ như thông tin người nói, cảm xúc nói khi mã hóa tiếng nói bằng phương pháp kết hợp sử dụng các hệ thống nhận dạng và tổng hợp tiếng nói ở đầu cuối, tiếng nói có thể được truyền như văn bản với tốc độ bit cực thấp [10]. Khi đó sẽ sử dụng hiệu quả tối Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn 2 đa hạ tầng truyền thông, ngay cả trong điều kiện tài nguyên rất hạn chế. Tuy nhiên để tiếng nói mã hóa theo phương pháp này có thể được sử dụng hiệu quả trong thực tiễn, các thông tin phi ngôn ngữ như thông tin người nói, cảm xúc nói cần phải được bổ sung ở đầu ra. Nói cách khác, thông tin tiếng nói đã mã hóa cần phải được biến đổi theo người nói và cảm xúc cụ thể. Kỹ thuật phân rã ma trận không âm là một kỹ thuật xử lý tín hiệu trên miền thời gian hiệu quả, đã được áp dụng trong nhiều hệ thống xử lý tiếng nói và gần đây nhất đã được áp dụng thành công trong các hệ thống biến đổi cảm xúc người nói. Trên thế giới đã có nhiều nghiên cứu về biến đổi cảm xúc trong tiếng nói [3-10]. Tại Việt Nam cũng có một số nghiên cứu ban đầu về cảm xúc người nói trong tiếng nói nhưng vẫn chưa có nhiều các nghiên cứu đánh giá một cách tổng hợp vấn đề biến đổi cảm xúc người nói trong tiếng nói cũng như ứng dụng của kỹ thuật phân rã ma trận không âm trong biến đổi cảm xúc người nói. Vì vậy, luận văn này nghiên cứu một số phương pháp biến đổi cảm xúc người nói trong tiếng nói, trong đó tập trung vào phương pháp sử dụng kỹ thuật phân rã ma trận không âm, đánh giá thực nghiệm các phương pháp, và đưa ra những khuyến nghị. 2. Đối tượng và phạm vi nghiên cứu Đối tượng nghiên cứu của luận văn là các phương pháp biến đổi cảm xúc người nói trong tiếng nói. Đây là đối tượng nghiên cứu được nhiều nhà nghiên cứu trên thế giới quan tâm trong thời gian gần đây. Phạm vi của luận văn bao gồm nghiên cứu tổng quan về tín hiệu tiếng nói và cảm xúc người nói trong tiếng nói, một số phương pháp biến đổi cảm xúc người nói trong tiếng nói, bao gồm thay đổi tham số trực tiếp [5], phương pháp thay thế khung tiếng nói HTD [9], phương pháp TD-GMM [9], và đặc biệt tập trung vào các phương pháp sử dụng kỹ thuật phân rã ma trận không Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn 3 âm NMF [8-10]. Luận văn cũng nghiên cứu đánh giá thực nghiệm các phương pháp để đưa ra các khuyến nghị. 3. Hướng nghiên cứu của luận văn Hướng nghiên cứu của luận văn là nghiên cứu về cảm xúc người nói trong tiếng nói và các kỹ thuật biến đổi tiếng nói theo thời gian. Trong đó, luận văn tập trung nghiên cứu các vấn đề lý thuyết về cảm xúc người nói, và phương pháp xử lý, biến đổi tín hiệu tiếng nói, kỹ thuật phân rã ma trận không âm và ứng dụng trong biến đổi cảm xúc người nói. Luận văn cũng nghiên cứu đánh giá thực nghiệm một số phương pháp biến đổi cảm xúc người nói trong tiếng nói. 4. Những nội dung nghiên cứu chính Chương 1. Tổng quan về cảm xúc trong tiếng nói và vấn đề biến đổi cảm xúc trong tiếng nói. - Giới thiệu tổng quan về cảm xúc trong tiếng nói, vấn đề biến đổi cảm xúc trong tiếng nói. - Một số phương pháp biến đổi cảm xúc nói truyền thống như: + Phương pháp thay đổi tham số trực tiếp [5]: Trình bày về các tham số đặc trưng cơ bản của tiếng nói, phương pháp phân tích tiếng nói thành tham số và tái tạo tiếng nói từ tham số, phương pháp thay đổi trực tiếp tham số tiếng nói để biến đổi thông tin cảm xúc nói. + Phương pháp thay thế khung tiếng nói HTT [6]: Trình bày về hệ thống tổng hợp, biến đổi tiếng nói theo ghép nối, phương pháp biến đổi tiếng nói dùng kỹ thuật thay thế khung dựa trên kỹ thuật ghép nối. + Phương pháp thay thế khung tiếng nói TD-GMM [9]: Trình bày về hệ thống tổng hợp, biến đổi tiếng nói sử dụng kết hợp kỹ thuật phân rã tiếng nói theo thời gian TD và mô hình GMM. Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn 4 + Phương pháp thay thế khung tiếng nói HTD [9]: Trình bày về hệ thống tổng hợp, biến đổi tiếng nói sử dụng kết hợp kỹ thuật HTT và TD. Chương 2. Kỹ thuật phân rã ma trận không âm và ứng dụng trong biến đổi cảm xúc trong tiếng nói. - Trình bày cơ sở lý thuyết về kỹ thuật phân rã ma trận không âm. - Trình bày phương pháp biến đổi cảm xúc của người nói trong tiếng nói dùng kỹ thuật phân rã ma trận không âm [10]. Chương 3. Đánh giá thực nghiệm một số phương pháp biến đổi cảm xúc trong tiếng nói. - Cơ sở dữ liệu tiếng nói có cảm xúc. - Cài đặt một số phương pháp biến đổi cảm xúc trong tiếng nói trên MATLAB: Phương pháp thay thế khung tiếng nói HTD, TD-GMM [9]; phương pháp dùng kỹ thuật phân rã ma trận không âm [10]. - Đánh giá khách quan và chủ quan các phương pháp. 5. Phương pháp nghiên cứu Phương pháp nghiên cứu của luận văn là nghiên cứu các lý thuyết đã có trên thế giới để phân tích, đánh giá về các phương pháp biến đổi cảm xúc trong tiếng nói. Dựa trên các cơ sở lý thuyết và các phân tích, đánh giá, luận văn cũng sẽ nghiên cứu thực nghiệm một số phương pháp biến đổi cảm xúc trong tiếng nói. 6. Ý nghĩa khoa học của luận văn: Như đã trình bày trong phần 1, nghiên cứu về cảm xúc trong tiếng nói và các kỹ thuật biến đổi cảm xúc trong tiếng nói có vai trò quan trọng trong các hệ thống truyền thông đa phương tiện hiện đại. Đây không phải vấn đề nghiên cứu mới trên thế giới nhưng còn khá mới mẻ ở Việt Nam. Đặc biệt, nghiên cứu về ứng dụng của kỹ thuật phân rã ma trận không âm trong bài toán biến đổi cảm xúc trong tiếng nói chưa được nghiên cứu nhiều ở Việt Nam. Do vậy vấn đề nghiên cứu trong luận văn có ý nghĩa khoa học và thực tiễn. Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn 5 CHƯƠNG 1 TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ BIẾN ĐỔI THÔNG TIN CẢM XÚC NGƯỜI NÓI TRONG TIẾNG NÓI 1.1. Thông tin tiếng nói Tiếng nói là dạng thông tin tự nhiên và phổ biến nhất đối với con người. Từ khi lịch sử con người hình thành, con người đã biết sử dụng tiếng nói làm phương tiện giao tiếp chính, trải qua hàng triệu năm trong quá trình tiến hóa và phát triển của loài người, tiếng nói vẫn luôn giữ vai trò là phương tiện giao tiếp cơ bản nhất. Do tiếng nói là phương tiện giao tiếp cơ bản của con người, nó cũng là loại hình thông tin cơ bản và phổ biến nhất trong các hệ thống viễn thông từ trước đến nay. Kể từ khi máy tính và các ứng dụng của máy tính được nghiên cứu và ứng dụng rộng rãi, người ta cố gắng để máy tính không chỉ có thể xử lý nhanh, nhiều mà quan trọng hơn nó đủ thông minh để thay thế con người. Một trong các tiêu chí quan trọng để đánh giá độ thông minh của máy tính chính là khả năng hiểu được ngôn ngữ tự nhiên của con người trong đó có tiếng nói. Tuy nhiên, tiếng nói mang nhiều thông tin, ngoài thông tin ngôn ngữ còn cả các thông tin phi ngôn ngữ như thông tin về người nói, thông tin về sắc thái tình cảm khi nói… 1.2. Tín hiệu tiếng nói Âm thanh là các dao động cơ học lan truyền trong vật chất như các sóng. Âm thanh, giống như nhiều sóng, được đặc trưng bởi tần số, bước sóng, chu kỳ, biên độ và vận tốc lan truyền (tốc độ âm thanh). Đối với thính giác của người, âm thanh thường là sự dao động, trong dải tần số từ khoảng 20 Hz - 20 kHz, của các phân tử không khí, và lan truyền trong không khí, va đập vào màng nhĩ, làm rung màng nhĩ và kích thích bộ não. Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn 6 Tiếng nói là loại âm thanh phổ biến nhất trong truyền thông. Dải tần tiếng nói trong khoảng 300 Hz - 3400 Hz. Tiếng nói bao gồm hai dạng hữu thanh và vô thanh. Âm hữu thanh có đặc tính tuần hoàn còn âm vô thanh tương tự nhiễu. Hình 1.1: Dạng sóng tiếng nói một câu tiếng Việt Hình 1.2: Tiếng nói hữu thanh Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn 7 1.3. Quá trình tạo tiếng nói a. Bộ phận cung cấp làn hơi: Bao gồm hai lá phổi, được sự tác động của các cơ ngực, sườn, cơ hoành cách mô, cơ bụng. Làn hơi đưa lên quyết định cường độ của âm thanh. Hình 1.3: Bộ phận cung cấp làn hơi Bộ phận phát thanh vocal cord là thanh đới (dây thanh âm) nằm trong thanh quản: Do áp lực của làn hơi từ phổi đưa lên, thanh đới - với những độ căng khác nhau và hình dạng khác nhau - mở ra và đóng lại nhanh chậm khác nhau, cắt làn hơi thành những sóng âm có tần số khác nhau, tạo thành những âm thanh có cao độ khác nhau. Thanh đới ở phụ nữ và trẻ em ngắn và mỏng hơn ở đàn ông, nên giọng nữ và trẻ em cao hơn giọng đàn ông. Hình 1.4: Dây thanh âm Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn 8 b. Bộ phận dẫn âm: Gồm chủ yếu là cuống họng (yết hầu) thông với đường miệng hoặc đường mũi. Các chấn động âm thanh do thanh đới tạo ra, được bộ phận dẫn âm gom lại và dẫn ra ngoài theo hai hướng miệng hoặc mũi. Cuống họng và miệng chủ yếu đóng vai trò truyền âm. c. Bộ phận phát âm: Là miệng với các hoạt động của môi, răng, lưỡi, hàm dưới, vòm miệng. Chúng ta nhận ra được lời nói, tiếng hát có nghĩa là nhờ vào hoạt động của các cơ năng trên. Khi nói đến khẩu hình là nói đến hình thể, hình dáng, cả bên ngoài lẫn bên trong của miệng do hoạt động phối hợp của môi, lưỡi, hàm dưới, vòm mềm tạo ra khi phát âm. Mở khẩu hình không đúng cách sẽ ảnh hưởng không chỉ đến chất lượng âm thanh, mà nhất là ảnh hưởng đến việc rõ lời, phát âm đúng. Bộ phận phát âm đóng vai trò như một hộp cộng hưởng âm thanh. Nhờ sự biến đổi của bộ phận phát âm mà âm thanh được cộng hưởng, triệt tiêu ở các tần số khác nhau dẫn tới âm thanh được phát ra nghe khác nhau. Hình 1.5: Cấu trúc cơ quan phát âm Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn 9 Hình 1.6: Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm d. Biễu diễn bộ phận phát âm: Có thể biểu diễn cơ quan phát âm bằng một mô hình gần đúng gồm các hình trụ có độ dài bằng nhau nhưng có đường kính khác nhau.Trong quá trình phát âm người ta thấy rằng hình dáng cơ quan phát âm thay đổi rất chậm , do đó trong một khoảng thời gian ngắn (trong một âm vị) có thể xem như sự thay đổi là không đáng kể, nhưng chúng sẽ thay đổi rất lớn từ âm vị này sang âm vị khác. Hình 1.7: Mô hình hóa cơ quan phát âm Hình 1.8: Biểu diễn mô hình hóa cơ quan phát âm đầy đủ bằng máy tính Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn 10 1.4. Cơ quan thính giác Để cảm thụ được tiếng nói, con người sử dụng cơ quan thính giác. Cơ quan thính giác con người có thể cảm thụ được các tần số âm thanh trong khoảng 15 Hz - 20.000 Hz. Âm thanh với tần số cao hơn được gọi là siêu âm, thấp hơn là hạ âm. Hình 1.9: Mô hình cơ quan thính giác Người nghe có thể phát hiện sự thay đổi độ ồn âm thanh khi tín hiệu bị thay đổi khoảng 1dB (biên độ thay đổi 12%). Mặc dù dải nghe của con người thông thường từ 20Hz đến 20kHz, độ nhạy âm lớn nhất từ 1kHz đến 4kHz. Khả năng xác định hướng nguồn âm tốt nhưng xác định khoảng cách đến nguồn âm kém. Con người nghe âm thanh theo 24 băng cơ bản, tương ứng với thang tần số Bark như trong hình 1.10. Trong mỗi băng con, con người không cảm nhận được sự khác biệt. Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn

- Xem thêm -

Tài liệu Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã ma trận không âm

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất