Tài liệu Xác định tần số cơ bản của tín hiệu tiếng nói dùng hàm tự tương quan

.PDF

thanhphoquetoi Báo vi phạm

Tải xuống 81

Mô tả:

LỜI CẢM ƠN Sau thời gian học tập và rèn luyện, bằng sự biết ơn và kính trọng, tôi xin gửi lời cảm ơn chân thành đến Ban Giám hiệu, các phòng, khoa thuộc Trường đại học Đà nẵng và các Phó Giáo sư, Tiến sĩ đã nhiệt tình hướng dẫn, giảng dạy và tạo mọi điều kiện thuận lợi giúp đỡ tôi trong suốt quá trình học tập, nghiên cứu và hoàn thiện đề tài nghiên cứu khoa học này. Đặc biệt, tôi xin bày tỏ lòng biết ơn sâu sắc tới TS Ninh Khánh Duy, người Thầy trực tiếp và cũng là người đã luôn tận tình hướng dẫn, chỉ bảo, giúp đỡ và động viên tôi trong suốt quá trình nghiên cứu và hoàn thành đề tài nghiên cứu này. Xin chân thành cảm ơn gia đình, bạn bè cùng đồng nghiệp đã luôn khích lệ và giúp đỡ tôi trong quá trình học tập và nghiên cứu khoa học. Người thực hiện luận văn Trần Văn Tâm ii TÓM TẮT LUẬN VĂN XÁC ĐỊNH TẦN SỐ CƠ BẢN CỦA TÍN HIỆU TIẾNG NÓI DÙNG HÀM TỰ TƯƠNG QUAN Học viên: Trần Văn Tâm Chuyên ngành: Khoa học máy tính Mã số: Khoá: K35 Trường Đại học Bách khoa – ĐHĐN Tóm tắt – Xử lý tiếng nói là lĩnh vực nghiên cứu tiếng nói của con người và được chuyển thành dạng tín hiệu để xử lý trong khoa học máy tính. Trong luận văn, tôi nghiên cứu phương pháp tính tần số cơ bản (hay F0), một trong những đặc trưng quan trọng của tín hiệu tiếng nói. Việc xác định tần số cơ bản của tín hiệu tiếng nói được ứng dụng trong các lĩnh vực như tổng hợp tiếng nói và nhận dạng tiếng nói. Để tìm được tần số cơ bản của tín hiệu tiếng nói, tôi sử dụng hàm tự tương quan vì tính đơn giản và hiệu quả của thuật toán này. Tuy nhiên, kết quả đường F0 tính được từ hàm tự tương quan trong hầu hết trường hợp là không được trơn. Do đó, tôi đã kết hợp tính tần số cơ bản bởi hàm tự tương quan với phương pháp lọc trung vị. Đồng thời tôi tiến hành khảo sát thực nghiệm để xác định được các tham số tối ưu của các thuật toán. Đánh giá độ chính xác so với phương pháp đo F0 thủ công cho thấy việc tính tần số cơ bản của tín hiệu tiếng nói bởi hàm tự tương quan có kết quả đáng tin cậy. Với các kết quả nghiên cứu thu được, việc tính tần số cơ bản của tín hiệu tiếng nói bởi hàm tự tương quan sẽ là cơ sở để tiến hành các nghiên cứu khác trong lĩnh vực xử lý tiếng nói. Từ khoá – dò tìm tần số cơ bản; hàm tự tương quan; lọc (làm trơn) trung vị; tín hiệu tiếng nói; miền thời gian; tính chu kỳ pitch. DETERMINING THE FUNDAMENTAL FREQUENCY OF SPEECH SIGNAL USE AUTOCORRELATION FUNCTION Abstract - Speech processing is the field of human voice research and being converted into a signal form for processing in computer science. In the thesis, I focus on basic frequency calculation method (or F0), one of the most important features the voice signal. The determination of the basic frequency of the voice signal is Applied in specializations such as voice synthesis and voice recognition. To find the basic frequency of the voice signal, I use autocorrelation function because of simplicity and efficiency of this algorithm. However, F0 road results by autocorrelation function In most cases not smooth. Therefore, I combine autocorrelation function with median smoothing. At the same time, I conducted empirical survey to determine the optimal parameters of the algorithms. Evaluating accuracy compared to F0 method manual measurement shows that the calculation of the basic frequency of the voice signal by the autocorrelation function has reliable results. With the research obtained results ,the basic frequency of the voice signal by the autocorrelation function shall be the basis for conducting other studies in the field of Voice processing. Key words – fundamental frequency detection; autocorrelation function; median filtering/smoothing; speech signal; time domain; pitch period estimation. iii MỤC LỤC LỜI CAM ĐOAN .......................................................................................................i LỜI CẢM ƠN ........................................................................................................... ii TÓM TẮT LUẬN VĂN .......................................................................................... iii DANH MỤC HÌNH VẼ ......................................................................................... vii DANH MỤC BẢNG BIỂU ......................................................................................ix MỞ ĐẦU ....................................................................................................................1 1. Lý do chọn đề tài ...............................................................................................1 2. Mục đích và ý nghĩa đề tài................................................................................2 a. Mục đích .........................................................................................................2 b. Ý nghĩa khoa học và thực tiễn của đề tài ......................................................2 3. Mục tiêu và nhiệm vụ........................................................................................2 a. Mục tiêu ..........................................................................................................2 b. Nhiệm vụ .........................................................................................................2 4. Đối tượng và phạm vi nghiên cứu ....................................................................3 a. Đối tượng nghiên cứu ....................................................................................3 b. Phạm vi nghiên cứu .......................................................................................3 5. Phương pháp nghiên cứu..................................................................................3 a. Phương pháp lý thuyết ...................................................................................3 b. Phương pháp thực nghiệm ............................................................................3 6. Kết luận ..............................................................................................................3 a. Kết quả của đề tài ...........................................................................................3 b. Hướng phát triển của đề tài ...........................................................................3 7. Bố cục của luận văn...........................................................................................3 CHƯƠNG 1: TỔNG QUAN VỀ XỬ LÝ TÍN HIỆU TIẾNG NÓI ......................5 1.1. Mở đầu ............................................................................................................5 1.2. Khái niệm về tín hiệu tiếng nói .....................................................................5 1.2.1. Biểu diễn trên miền thời gian ..................................................................6 1.2.2. Biểu diễn trên miền tần số .......................................................................7 1.3. Các đặc tính cơ bản của tín hiệu tiếng nói ...................................................8 1.3.1. Âm sắc .......................................................................................................8 iv 1.3.2. Cường độ ..................................................................................................9 1.3.3. Trường độ ...............................................................................................10 1.3.4. Âm hữu thanh ........................................................................................11 1.3.5. Âm vô thanh ...........................................................................................11 1.4. Xử lý ngắn hạn (short-time processing) .....................................................11 1.5. Tần số cơ bản (F0) ........................................................................................13 1.5.1. F0 là gì ....................................................................................................13 1.5.2. Tầm quan trọng của F0 trong xử lý tiếng nói ......................................14 1.5.3. Các lý do khiến việc tìm F0 khó khăn ...................................................15 1.6. Tổng kết chương ...........................................................................................16 CHƯƠNG 2: TÍNH TẦN SỐ CƠ BẢN DÙNG HÀM TỰ TƯƠNG QUAN .....17 2.1. Mở đầu ..........................................................................................................17 2.2. Hàm tự tương quan và ứng dụng để tính F0 .............................................17 2.3. Thuật toán tính F0 .......................................................................................20 2.4. Các tham số quan trọng của thuật toán .....................................................23 2.4.1. Độ dài khung tín hiệu ............................................................................23 2.4.2. Ngưỡng xác định hữu thanh/vô thanh .................................................23 2.5. Lọc trung vị ...................................................................................................25 2.5.1. Cơ sở lý thuyết ........................................................................................25 2.5.2. Thuật toán lọc trung vị ..........................................................................26 2.5.3. Kích thước bộ lọc ...................................................................................27 2.6. Tổng kết chương ...........................................................................................27 CHƯƠNG 3: TRIỂN KHAI VÀ ĐÁNH GIÁ THUẬT TOÁN ...........................28 3.1. Mở đầu ..........................................................................................................28 3.2. Môi trường phát triển ..................................................................................28 3.3. Dữ liệu thử nghiệm.......................................................................................29 3.4. Demo ứng dụng ............................................................................................29 3.5. Khảo sát giá trị kích thước bộ lọc trung vị ................................................32 3.6. Khảo sát ngưỡng xác định hữu thanh/vô thanh ........................................35 3.7. So sánh cài đặt hàm tự tương quan tự làm với hàm của Matlab ............42 3.8. So sánh thuật toán tính F0 tự động với cách đo F0 thủ công...................44 v 3.8.1. Cách đo F0 thủ công ..............................................................................44 3.8.2. Kết quả đối với giọng nam .....................................................................46 3.8.3. Kết quả đối với giọng nữ ........................................................................50 3.9. Tổng kết chương ...........................................................................................53 KẾT LUẬN ..............................................................................................................54 1. Những việc đã hoàn thành ..............................................................................54 2. Các kết luận .....................................................................................................54 3. Hạn chế và hướng phát triển..........................................................................55 TÀI LIỆU THAM KHẢO ......................................................................................56 vi DANH MỤC HÌNH VẼ Số hiệu Tên hình vẽ hình vẽ 1.1 Dạng sóng theo thời gian Tín hiệu của cùng một âm do một người nói thu ở hai thời điểm khác 1.2 nhau 1.3 Phổ hai chiều 1.4 Phổ ba chiều 1.5 Âm sắc của một người nữ khi phát nguyên âm /a/ 1.6 Âm sắc của một người nam khi phát nguyên âm /a/ 1.7 Đồ thị biểu diễn sóng tín hiệu của nguyên âm /a/ của một người nói 1.8 Đồ thị biểu diễn sóng tín hiệu của phụ âm /h/ của một người nói Nguyên âm /a/ được thu ở hai thời điểm khác nhau của cùng một 1.9 người nói 1.10 Âm /a/ của một người nữ 1.11 Âm /a/ của một người nam 1.12 Chia tín hiệu thành các khung cửa sổ Tần số cơ bản đo ở nguyên âm /a/ của một người nam là 166.6 Hz 1.13 ứng với chu kỳ cơ bản là 0.006 giây Tần số cơ bản đo ở nguyên âm /a/ của một người nữ là 333.3 Hz ứng 1.14 với chu kỳ cơ bản là 0.003 giây 1.15 Đường F0 của các thanh điệu tiếng Việt Đường F0 (trên) và tín hiệu (dưới) của câu nói “Các bạn trẻ nhất định 1.16 có nhiều cơ hội” của một giọng nữ 2.1 Một đoạn tín hiệu tuần hoàn trên miền thời gian 2.2 Hàm tự tương quan của đoạn tín hiệu tuần hoàn trong Hình 2.1 2.3 Tín hiệu (trên) và hàm tự tương quan (dưới) của một âm hữu thanh 2.4 Tín hiệu (trên) và hàm tự tương quan (dưới) của một âm vô thanh 2.5 Thuật toán tìm F0 dùng hàm tự tương quan Ví dụ về một khung tín hiệu có độ dài 662 mẫu (tương đương 15 ms 2.6 với tần số lẫy mẫu 44100 Hz). 2.7 Ví dụ minh hoạ tín hiệu và kết quả tính F0 của nó. Tín hiệu của âm vô thanh bị xác định nhầm thành âm hữu thanh, dẫn 2.8 đến xác định được F0 = 191,2 Hz tại 0,16 giây vii Trang 6 7 8 8 9 9 9 10 10 10 11 12 14 14 15 15 17 18 19 20 21 22 23 24 2.9 2.10 2.11 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.11 3.12 3.13 3.14 3.15 3.16 3.17 3.18 3.19 Tín hiệu của âm hữu thanh bị xác định nhầm thành âm vô thanh và không xác định được giá trị F0 nào Sơ đồ khối thuật toán lọc trung vị Đường F0 trước (hình trên) và sau khi lọc trung vị (hình dưới) Tín hiệu nguyên âm /a/ của một người nam Tín hiệu nguyên âm /a/ của một người nữ Giao diện chính của chương trình Hiển thị sóng âm của tín hiệu tiếng nói Kết quả tính F0 bằng hàm tự tương quan tự cài đặt và lọc trung vị Kết quả tính F0 bằng hàm tự tương quan của Matlab và lọc trung vị Chức năng xem khung tín hiệu và hàm tự tương quan của khung Kết quả tính F0 của người nam thứ nhất theo các ngưỡng khác nhau Kết quả tính F0 của người nam thứ hai theo các ngưỡng khác nhau Kết quả tính F0 của người nam thứ ba theo các ngưỡng khác nhau Kết quả tính F0 của người nữ thứ nhất theo các ngưỡng khác nhau Kết quả tính F0 của người nữ thứ hai theo các ngưỡng khác nhau Kết quả tính F0 của người nữ thứ ba theo các ngưỡng khác nhau Chuyển đổi độ chính xác khi đo trong phần mềm Sonic Visualiser Phóng to đoạn tín hiệu trong phần mềm Sonic Visualiser Đo chu kỳ cơ bản của tín hiệu bằng phần mềm Sonic Visualiser Kết quả đo F0 của tín hiệu âm /o/ với độ dài khung 20 ms của người nam thứ ba Một khung tín hiệu bị lỗi cao độ ảo và hàm tự tương quan của nó Một khung tín hiệu không bị lỗi cao độ ảo và hàm tự tương quan của nó viii 24 24 26 27 29 29 30 30 31 31 32 37 38 39 40 41 42 45 45 46 48 48 DANH MỤC BẢNG BIỂU Số hiệu bảng 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.11 3.12 3.13 3.14 3.15 3.16 3.17 3.18 3.19 3.20 3.21 3.22 3.23 3.24 3.25 3.26 3.27 3.28 3.29 Tên bảng Khảo sát kích thước bộ lọc trung vị với một người nam ở khung tín hiệu 15 ms Khảo sát kích thước bộ lọc trung vị với một người nữ ở khung tín hiệu 15 ms Khảo sát kích thước bộ lọc trung vị với một người nam ở khung tín hiệu 20 ms Khảo sát kích thước bộ lọc trung vị với một người nữ ở khung tín hiệu 20 ms Khảo sát kích thước bộ lọc trung vị với một người nam ở khung tín hiệu 30 ms Khảo sát kích thước bộ lọc trung vị với một người nữ ở khung tín hiệu 30 ms Kết quả tính F0 (Hz) với độ dài khung 15 ms của một người nam Kết quả tính F0 (Hz) với độ dài khung 20 ms của một người nam Kết quả tính F0 (Hz) với độ dài khung 30 ms của một người nam Kết quả tính F0 (Hz) với độ dài khung 15 ms của một người nữ Kết quả tính F0 (Hz) với độ dài khung 20 ms của một người nữ Kết quả tính F0 (Hz) với độ dài khung 30 ms của một người nữ Kết quả đo F0 với độ dài khung 15 ms của người nam thứ nhất Kết quả đo F0 với độ dài khung 15 ms của người nam thứ hai Kết quả đo F0 với độ dài khung 15 ms của người nam thứ ba Kết quả đo F0 với độ dài khung 20 ms của người nam thứ nhất Kết quả đo F0 với độ dài khung 20 ms của người nam thứ hai Kết quả đo F0 với độ dài khung 20 ms của người nam thứ ba Kết quả đo F0 với độ dài khung 30 ms của người nam thứ nhất Kết quả đo F0 với độ dài khung 30 ms của người nam thứ hai Kết quả đo F0 với độ dài khung 30 ms của người nam thứ ba Kết quả đo F0 với độ dài khung 15 ms của người nữ thứ nhất Kết quả đo F0 với độ dài khung 15 ms của người nữ thứ hai Kết quả đo F0 với độ dài khung 15 ms của người nữ thứ ba Kết quả đo F0 với độ dài khung 20 ms của người nữ thứ nhất Kết quả đo F0 với độ dài khung 20 ms của người nữ thứ hai Kết quả đo F0 với độ dài khung 20 ms của người nữ thứ ba Kết quả đo F0 với độ dài khung 30 ms của người nữ thứ nhất Kết quả đo F0 với độ dài khung 30 ms của người nữ thứ hai ix Trang 32 33 33 34 34 34 43 43 43 43 44 44 46 47 47 47 48 48 50 50 50 51 51 51 51 52 52 52 53 3.30 Kết quả đo F0 với độ dài khung 30 ms của người nữ thứ ba x 53 MỞ ĐẦU 1. Lý do chọn đề tài Trong lịch sử phát triển của xã hội loài người, tiếng nói là một công cụ không thể thiếu. Tiếng nói giúp cho sự giao tiếp giữa con người và con người trở nên linh hoạt hơn, dễ hiểu nhau hơn. Tiếng nói chính là phương tiện để phân biệt con người với các loài động vật khác. Nhờ có tiếng nói, con người mới có xã hội, mới có sự phát triển đi lên qua nhiều hình thái xã hội Trong lịch sử phát triển, chúng ta có nhiều hoạt động nghiên cứu liên quan đến tiếng nói nhằm để phục vụ lợi ích, nâng cao đời sống. Qua quá trình hoạt động nghiên cứu, chúng ta có đã có nhiều thành tựu trong lĩnh vực nghiên cứu tiếng nói. Và một trong những thành tựu quan trọng nhất của nghiên cứu tiếng nói đó là sự ra đời của điện thoại, khi mà âm thanh không còn bị giới hạn bởi khoảng cách vật lý để chúng ta có thể truyền đạt thông tin cho nhau. Trải qua nhiều thế kỷ, các thành quả về nghiên cứu tiếng nói ngày càng trở nên quan trọng hơn với đời sống của chúng, và là một phần không thể thiếu trong cuộc sống hàng ngày. Trong thời đại ngày nay, khi mà Công nghệ thông tin đang ngày càng góp phần quan trọng trong việc phục vụ lợi ích, nâng cao đời sống của chúng ta, việc áp dụng và mô phỏng tiếng nói cũng dần đóng vai trò quan trọng hơn. Nghiên cứu và mô phỏng tiếng nói cùng với trí tuệ nhân tạo đã và đang tạo thành xu thế và nghiên cứu chủ yếu trong giai đoạn này. Đặc biệt, khi công nghệ thông tin đang trở thành cốt lõi trong Cách mạng công nghiệp 4.0, việc nghiên cứu và mô phỏng tiếng nói dần trở nên quan trọng hơn, nhằm đưa máy móc gần với con người hơn trong việc giao tiếp giữa con người với con người, giữa máy móc với con người. Một trong những tham số quan trọng trong lĩnh vực áp dụng và mô phỏng tiếng nói đó là tần số cơ bản F0. F0 là tần số cơ bản của tín hiệu tiếng nói (đơn vị Herz).Về âm học tần số cơ bản chính là F0 tốc độ rung của dây thanh (vocal cord) của bộ máy phát âm của con người [1]. Về cảm nhận âm thanh, F0 tương quan với cao độ (độ trầm bổng) của lời nói (F0 càng cao thì giọng nói càng bổng). F0 rất quan trọng để nắm bắt và xử lý tiếng nói cho các nghiên cứu sâu hơn. Nghiên cứu và hiểu rõ được tần số cơ bản F0 có thể là cơ sở cho các nghiên cứu ứng dụng khác. Trong lĩnh vực phân tích tiếng nói, tính F0 được ứng dụng trong việc đo cao độ trung bình của một người, biểu diễn ngữ điệu của lời nói dựa trên tín hiệu thu được. Trong tổng hợp tiếng nói, việc tính F0 là cơ sở để máy tính tái tạo tiếng nói có đặc tính ngữ điệu giống với tiếng nói tự nhiên. Trong nhận dạng tiếng nói, việc tính tần số cơ bản F0 giúp tăng tỷ lệ nhận dạng đúng nếu kết hợp thêm đặc trưng ngữ điệu. Ngoài ra, bài toán tính F0 có nhiều ứng dụng khác như: máy móc nhận diện giọng nói của con người để 1 thực hiện lệnh, máy móc nhận diện được thái độ trong tiếng nói để xác định tâm trạng của con người,... Để xác định được tần số cơ bản F0 của tiếng nói thì được chia thành hai nhóm: các thuật toán trên miền thời gian (time domain) và các thuật toán trên miền tần số (frequency domain) [4]. Trong phạm vi của luận văn, tôi nghiên cứu thuật toán trên miền thời gian, sử dụng hàm tự tương quan (autocorelation) [2][4], đồng thời kết hợp với thuật toán lọc trung vị để làm trơn kết quả F0 thu được. Qua đó đánh giá thuật toán trên với cách tính thủ công để tìm F0. 2. Mục đích và ý nghĩa đề tài a. Mục đích Mục đích nghiên cứu đề tài: - Nghiên cứu và cài đặt thuật toán tính tần số cơ bản F0 của tín hiệu tiếng nói trên miền thời gian dùng hàm tự tương quan. - Phân tích ưu nhược điểm của thuật toán tự tương quan tính F0 trên miền thời gian. - Khảo sát tác dụng của lọc trung vị nhằm làm trơn kết quả tính F0 tự động. - So sánh và đánh giá giữa hai phương pháp tính F0: dùng hàm tự tương quan, và thủ công. b. Ý nghĩa khoa học và thực tiễn của đề tài - Đóng góp phương pháp tính tần số cơ bản F0 trong lĩnh vực xử lý tín hiệu tiếng nói. Đưa ra kết quả khi áp dụng trong thực tế đối với hàm xác định tần số cơ bản F0, là cơ sở cho các nghiên cứu, đánh giá để tính tần số cơ bản F0 sau này. 3. Mục tiêu và nhiệm vụ a. Mục tiêu Mục tiêu chính của đề tài là nghiên cứu phương pháp tính tần số cơ bản F0 dựa trên hàm tự tương quan, lọc trung vị, và phân tích ưu nhược điểm của các thuật toán. b. Nhiệm vụ Để đạt được mục tiêu, nhiệm vụ đặt ra của đề tài là: Nghiên cứu lý thuyết liên quan đến tần số cơ bản F0. - Nghiên cứu lý thuyết hàm tự tương quan. - Thực hiện phân tích, đánh giá kết quả tính F0, kết hợp với làm trơn kết quả qua thuật toán lọc trung vị. 2 4. Đối tượng và phạm vi nghiên cứu a. Đối tượng nghiên cứu Đối tượng nghiên cứu của đề tài là tín hiệu tiếng nói và các thuật toán xử lý tín hiệu tiếng nói. b. Phạm vi nghiên cứu Phạm vi nghiên cứu của đề tài là các thuật toán tính F0 của tín hiệu tiếng nói trên miền thời gian. 5. Phương pháp nghiên cứu a. Phương pháp lý thuyết - Thu thập và nghiên cứu các tài liệu liên quan đến đề tài. b. Phương pháp thực nghiệm Nghiên cứu và khai thác các công cụ, phần mềm hỗ trợ. - So sánh, thử nghiệm, đánh giá kết quả tính F0 dựa trên phương pháp tính tần số cơ bản dùng hàm tự tương quan kết hợp với lọc trung vị làm trơn kết quả. - So sánh, đánh giá kết quả của thuật toán dùng tự tương quan tính tần số cơ bản F0 với cách đo thủ công. 6. Kết luận a. Kết quả của đề tài - Nghiên cứu và tính được tần số cơ bản F0 dựa trên thuật toán dùng tự tương quan. Đánh giá sai số của thuật toán dùng hàm tự tương quan tính F0 tự động dựa trên kết quả đo tần số cơ bản F0 thủ công. b. Hướng phát triển của đề tài - Nghiên cứu giải pháp để cải thiện độ chính xác của các thuật toán tính tần số cơ bản F0 trên miền thời gian. Đề xuất, cải tiến để thực hiện tính F0 theo thời gian thực. 7. Bố cục của luận văn Dự kiến luận văn được trình bày bao gồm các phần chính như sau: MỞ ĐẦU Nêu bối cảnh nghiên cứu, lý do chọn đề tài và mục tiêu nghiên cứu. CHƯƠNG I: TỔNG QUAN VỀ XỬ LÝ TÍN HIỆU TIẾNG NÓI 3 Trong chương này trình bày các khái niệm cơ bản của tiếng nói, quá trình hình thành tiếng nói và các đặc tính cơ bản của tín hiệu tiếng nói. CHƯƠNG II: THUẬT TOÁN TÌM F0 CỦA TÍN HIỆU TIẾNG NÓI Trong chương này trình bày lý thuyết về hàm tự tương quan. Ngoài ra, do đề tài có sử dụng thuật toán lọc trung vị để làm trơn kết quả nên thuật toán này cũng được nêu trong chương này. CHƯƠNG III: TRIỂN KHAI VÀ ĐÁNH GIÁ CÁC THUẬT TOÁN Để áp dụng được các thuật toán trên Matlab, trong chương này trình bày công cụ Matlab và các hàm liên quan đến xử lý tín hiệu tiếng nói [5][6]. Trong chương này thực hiện áp dụng hai hàm tự tương quan tự triển khai, hàm tự tương quan của công cụ Matlab để tính F0. Đồng thời, kết hợp với thuật toán lọc trung vị để làm trơn kết quả. Trong chương này cũng đưa ra so sánh giữa các phương pháp, so sánh với các kết quả tính F0 thủ công và đánh giá từ đó rút ra được ưu nhược điểm của hàm tự tương quan trong việc tính tần số cơ bản F0. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN PHỤ LỤC TÀI LIỆU THAM KHẢO 4 CHƯƠNG 1: TỔNG QUAN VỀ XỬ LÝ TÍN HIỆU TIẾNG NÓI 1.1. Mở đầu Trong giao tiếp của con người, tiếng nói như là một phương tiện giao tiếp cơ bản và nhanh nhất để biểu đạt ý của người muốn truyền đạt. Xã hội chúng ta phát triển cũng là nhờ có tiếng nói để có thể truyền đạt ý kiến, mong muốn giữa người với người. Để hỗ trợ cho việc giao tiếp bằng tiếng nói, con người có thể dùng các cử chỉ, điệu bộ của chân tay làm cho các ý muốn truyền đạt nhanh hơn đến người muốn truyền đạt. Vì là giao tiếp trực tiếp nên tiếng nói là phương thức truyền đạt nhanh nhất giữa những người muốn giao tiếp với nhau. Sở dĩ như vậy, ngoài tiếng nói còn có chữ viết để con người có thể giao tiếp với nhau. Tuy nhiên, chữ viết là phương thức truyền đạt gián tiếp nên sẽ chậm hơn phương thức truyền đạt là tiếng nói. Với sự phát triển của công nghệ, để có sự giao tiếp trở nên linh hoạt hơn, tiếng nói như là một công cụ hỗ trợ mạnh mẽ để thúc đẩy việc biểu diễn tiếng nói trong khoa học máy tính. Tiếng nói được sử dụng như là một dữ liệu được lưu trữ trong máy tính, qua đó có thể truyền đạt thông qua mạng truyền thông để phục vụ nhiều mục đích khác nhau để phục vụ lợi ích trong đời sống của con người. Trong các hệ thống xử lý tiếng nói, cần chú ý đến hai điểm: sự nguyên vẹn của nội dung thông điệp trong tín hiệu tiếng nói; biểu diễn tín hiệu tiếng nói phải tiện lợi cho việc truyền tải, lưu trữ hoặc trong một dạng linh động để có thể chuyển đổi thành tín hiệu tiếng nói mà không giảm nội dung của thông điệp [4]. 1.2. Khái niệm về tín hiệu tiếng nói Con người có năm giác quan để cảm nhận và nhận thức thế giới xung quanh. Trong quá trình phát triển của xã hội loài người, con người dùng năm giác quan này để nhận thức, thu thập kiến thức và tác động trở lại tự nhiên qua đó nâng cao đời sống của con người. Một trong những giác quan quan trọng trong sự phát triển của xã hội con người đó là thính giác. Nhờ có thính giác mà con người có thể nghe được âm thanh, con người có thể giao tiếp được với nhau qua âm thanh. Về bản chất, âm thanh từ lời nói, âm thanh trong thế giới tự nhiên đều là những sóng âm lan truyền trong môi trường. Khi chúng ta nói dây thanh trong hầu bị chấn động, tạo nên những sóng âm, sóng truyền trong không khí đến màng nhĩ – một màng mỏng rất nhạy cảm của tai ta – làm cho màng nhĩ cũng dao động, các dây thần kinh của màng nhĩ sẽ nhận được cảm giác âm khi tần số dao động của sóng đạt đến một độ lớn nhất định. Tai con người chỉ cảm thụ được những dao động có tần số từ khoảng 16 Hz đến khoảng 20000 Hz. Những dao động trong miền tần số này gọi là dao động âm hay âm thanh, và các sóng tương ứng gọi là sóng âm. Những sóng có tần số nhỏ hơn 16 Hz gọi là sóng hạ âm, những sóng có tần số lớn hơn 20000 Hz gọi là sóng siêu âm, con người không cảm nhận được (ví dụ loài dơi có thể nghe được tiếng siêu âm) [1]. 5 Tất cả các sóng âm đều được lan truyền trong môi tường, từ môi trường không khí, môi trường rắn, môi trường lỏng. Trong xử lý tín hiệu tiếng nói, tín hiệu tiếng nói có hai cách để biểu diễn: biểu diễn tín hiệu trên miền thời gian và biểu diễn tín hiệu trên miền tần số. 1.2.1. Biểu diễn trên miền thời gian Hình 1.1 – Dạng sóng theo thời gian Âm thanh dưới dạng sóng được lưu trữ theo định dạng thông dụng trong máy tính là file .wav với các tần số lấy mẫu thường gặp là: 8000 Hz, 10000 Hz, 11025 Hz, 16000 Hz, 22050 Hz, 32000 Hz, 44100 Hz,…; độ phân giải hay còn gọi là số bít/mẫu là 8 hoặc 16 bít và số kênh là 1 (Mono) hoặc 2 (Stereo). Tuỳ theo thiết bị, thời điểm, người phát âm thì dữ liệu âm thanh được số hoá, biểu diễn lại trong máy tính sẽ khác nhau. 6 Hình 1.2 – Tín hiệu của cùng một âm do một người nói thu ở hai thời điểm khác nhau 1.2.2. Biểu diễn trên miền tần số Một trong những đại lượng đặc trưng để biểu diễn tín hiệu tiếng nói trên miền tần số đó là phổ. Phổ trong tín hiệu tiếng nói là biểu diễn của sự phụ thuộc của biên độ vào thời gian và tần số, là hình ảnh biểu diễn của tín hiệu tiếng nói theo trục của tần số. 1.2.2.1. Biến đổi Fourier Biến đổi Fourier trong xử lý tín hiệu tiếng nói là phép biến đổi tín hiệu tiếng nói theo miền thời gian sang miền tần số. Biến đổi Fourier có nhiều dạng: - Biến đổi Fourier liên tục là một toán tử tuyến tính chuyển một hàm tích phân này sang một hàm tích phân khác. Trong xử lý tín hiệu, biến đổi Fourier liên tục được áp dụng trên phổ và theo các thành phần trong phổ. - Biến đổi Fourier rời rạc là phép biến đổi cho các tín hiệu thời gian rời rạc. Biến đổi này thương được áp dụng trong việc phân tích phổ, lọc tín hiệu. 1.2.2.2. Phổ hai chiều Phổ hai chiều là phổ trong đó chứa thông tin tín hiệu tiếng nói và được biểu diễn trên hai đại lượng là tần số và biên độ phổ. 7 Hình 1.3 – Phổ hai chiều 1.2.2.3. Phổ ba chiều Phổ ba chiều là phổ trong đó tín hiệu tiếng nói được biểu diễn trên ba đại lượng: thời gian, tần số, và biên độ phổ. Hình 1.4 – Phổ ba chiều Nếu màu của tín hiệu càng đậm thì biên độ phổ (hay năng lượng của tín hiệu) càng cao. 1.3. Các đặc tính cơ bản của tín hiệu tiếng nói Tiếng nói được tạo ra từ độ rung của dây thanh âm trong thanh quản thông qua khí quản và hoạt động của tuyến âm. Như vậy, tiếng nói chính là âm thanh. Tiếng nói có chu kỳ dao động, có tần số âm thanh. 1.3.1. Âm sắc Âm sắc là một trong bốn đặc tính cơ bản của âm thanh cũng như tín hiệu tiếng nói. Âm sắc giúp ta phân biệt được tiếng nói của từng âm và của mỗi người được cảm nhận khác nhau như thế nào. Âm sắc liên quan mật thiết đến phổ của tín hiệu. 8 Hình dưới đây minh hoạ âm sắc (dưới dạng phổ 3 chiều) ứng với nữ giới và nam giới khi phát cùng một âm. Hình 1.5 – Âm sắc của một người nữ khi phát nguyên âm /a/ Hình 1.6 -Âm sắc của một người nam khi phát nguyên âm /a/ 1.3.2. Cường độ Cường độ là độ to hay nhỏ của âm thanh nói ra. Cường độ càng lớn thì âm thanh truyền càng xa trong môi trường truyền. Cường độ âm là số năng lượng mà sóng âm truyền đi trong một thời gian nhất định trên đơn vị diện tích cố định và vuông góc với phương truyền âm. Trong tiếng nói, cường độ của nguyên âm thường lớn cường độ của phụ âm. Trên đồ thị biểu diễn sóng tín hiệu (waveform), cường độ âm thanh tỉ lệ thuận với giá trị tuyệt đối của biên độ tín hiệu. Hình 1.7 – Đồ thị biểu diễn sóng tín hiệu của nguyên âm /a/ của một người nói 9 Hình 1.8 – Đồ thị biểu diễn sóng tín hiệu của phụ âm /h/ của một người nói 1.3.3. Trường độ Trường độ hay còn được biết là độ dài của âm phát ra phụ thuộc vào sự chấn động lâu hay nhanh của phần tử môi trường truyền đi. Trường độ của mỗi người khác nhau và mỗi thời điểm cũng khác nhau. Hình 1.9 – Nguyên âm /a/ được thu ở hai thời điểm khác nhau của cùng một người nói Hình 1.10 – Âm /a/ của một người nữ 10 Hình 1.11 – Âm /a/ của một người nam 1.3.4. Âm hữu thanh Âm hữu thanh (voiced speech) là âm phát ra có thanh, ví dụ như các nguyên âm /a/, /e/, /i/, /o/, /u/ hoặc các phụ âm như /m/, /n/, /l/. Thực ra âm hữu thanh được tạo ra là do việc không khí qua thanh môn (thanh môn tạo ra sự khép mở của dây thanh dưới sự điều khiển của hai sụn chóp) với một độ căng của dây thanh sao cho chúng tạo nên dao động. Trong xử lý tín hiệu tiếng nói, âm hữu thanh gồm các khung tín hiệu tuần hoàn nên có thể tính được tần số cơ bản F0. 1.3.5. Âm vô thanh Âm vô thanh (voiced speech) là âm khi tạo ra tiếng thì dây thanh không rung hoặc rung đôi chút tạo ra giọng như giọng thở, ví dụ như /t/, /p/ hay /k/. Trong xử lý tín hiệu tiếng nói, âm vô thanh không có ích khi tính tần số cơ bản. Vì âm vô thanh không có khung tín hiệu tuần hoàn. Tần số cơ bản ở âm vô thanh là không xác định. 1.4. Xử lý ngắn hạn (short-time processing) Tín hiệu tiếng nói có một tính chất quan trọng là các đặc tính của nó thay đổi tương đối chậm theo thời gian. Thông thường, các đặc tính của tín hiệu ổn định trong khoảng thời gian từ 10 ms đến 30 ms. Do đó, người ta thường chia tín hiệu cần xử lý thành các khung tín hiệu liên tiếp nhau, mỗi khung có độ dài từ 10 ms đến 30 ms. Sau đó, ta tiến hành xử lý trên mỗi khung tín hiệu này. Các khung tín hiệu này được gọi là các khung phân tích, các khung này có thể trùng nhau (overlap) một phần để đảm bảo các đặc tính của tín hiệu biến đổi trơn tru giữa 2 khung liên tiếp. Việc chia khung này sẽ được lặp lại từ đầu đến cuối trên tín hiệu cần xử lý. Kết quả của việc xử lý trên mỗi khung có thể chỉ gồm một giá trị số (ví dụ như giá trị năng lượng hoặc giá trị F0), có thể gồm nhiều giá trị số (ví dụ như các hệ số phổ). 11

- Xem thêm -

Tài liệu Xác định tần số cơ bản của tín hiệu tiếng nói dùng hàm tự tương quan

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất