Đăng ký Đăng nhập
Trang chủ Nghiên cứu phương pháp khôi phục tiếng nói truyền trong xương...

Tài liệu Nghiên cứu phương pháp khôi phục tiếng nói truyền trong xương

.PDF
65
3
85

Mô tả:

.. ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG NGUYỄN THỊ KIM DUNG NGHIÊN CỨU PHƯƠNG PHÁP KHÔI PHỤC TIẾNG NÓI TRUYỀN TRONG XƯƠNG LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN - 2016 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG NGUYỄN THỊ KIM DUNG NGHIÊN CỨU PHƯƠNG PHÁP KHÔI PHỤC TIẾNG NÓI TRUYỀN TRONG XƯƠNG Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: TS. PHÙNG TRUNG NGHĨA THÁI NGUYÊN - 2016 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn i LỜI CẢM ƠN Lời đầu tiên em xin chân thành cảm ơn TS Phùng Trung Nghĩa đã dành nhiều tâm huyết, kinh nghiệm của thầy để chỉ dẫn, định hướng nghiên cứu cũng như luôn luôn góp ý cho em để hoàn thành luận văn này. Em chân thành cảm ơn toàn thể các thầy cô đã ân cần dạy dỗ, chỉ bảo, truyền đạt cho chúng em những kiến thức quý báu trong suốt quá trình học. Cuối cùng em cũng xin gửi lời cảm ơn tới gia đình, những người đã luôn động viên và tạo mọi điều kiện cho em học tập và nghiên cứu thật tốt. Và gửi lời cảm ơn tới những người bạn đã giúp đỡ em trong quá trình học tập cũng như hoàn thành đề tài luận văn. Em xin chân thành cảm ơn! Thái Nguyên, ngày tháng năm 2016 Học viên Nguyễn Thị Kim Dung Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ii LỜI CAM ĐOAN Tôi xin cam đoan đề tài nghiên cứu của tôi hoàn toàn do tôi tự làm dưới sự hướng dẫn của thầy giáo TS Phùng Trung Nghĩa. Những kết quả tìm hiểu và nghiên cứu trình bày trong luận văn là hoàn toàn trung thực và chưa từng đươ ̣c công bố trong bấ t cứ công trình nào. Nếu xảy ra bất cứ điều gì không đúng như những lời cam đoan trên, tôi xin chịu hoàn toàn trách nhiệm trước Nhà trường. Thái Nguyên, ngày tháng năm 2016 Tác giả Nguyễn Thị Kim Dung Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn iii MỤC LỤC LỜI CẢM ƠN ................................................................................................... i LỜI CAM ĐOAN ............................................................................................. ii DANH MỤC BẢNG ........................................................................................ iv DANH MỤC HÌNH .......................................................................................... v DANH MỤC CHỮ VIẾT TẮT VÀ KÝ HIỆU ............................................... vi LỜI NÓI ĐẦU .................................................................................................. 1 1. Lý do chọn đề tài ........................................................................................... 1 2. Đối tượng và phạm vi nghiên cứu ................................................................. 2 3. Hướng nghiên cứu của luận văn ................................................................... 3 4. Những nội dung nghiên cứu chính ................................................................ 3 5. Phương pháp nghiên cứu ............................................................................... 3 6. Ý nghĩa khoa học của luận văn ..................................................................... 3 CHƯƠNG I. TỔNG QUAN VỀ TIẾNG NÓI TRUYỀN TRONG KHÔNG KHÍ VÀ TIẾNG NÓI TRUYỀN TRONG XƯƠNG ........................................ 4 1.1. Tổng quan về tiếng nói ............................................................................... 4 1.1.1. Nguồn gốc và phân loại tiếng nói. ...................................................... 4 1.1.2. Quá trình tạo tiếng nói ........................................................................ 5 1.2. Các đặc điểm của tiếng nói tiếng việt ........................................................ 8 1.2.1. Đă ̣c tin ́ h âm ho ̣c của tiế ng nói............................................................. 8 1.2.2. Các đă ̣c tính khác .............................................................................. 10 1.2.3. Đă ̣c điể m của thanh điệu tiế ng Viêṭ .................................................. 12 1.2.4. Ngữ điệu của tiếng nói trong Tiếng Việt .......................................... 13 1.3. Tiếng nói truyền trong xương (BC- Bone Conducted) ............................ 16 1.4. Khôi phục tiếng nói truyền trong xương .................................................. 18 1.4.1. Phương pháp phổ chéo ...................................................................... 19 1.4.2. Phương pháp biến đổi Fourier........................................................... 21 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn iv CHƯƠNG 2: MÔ HÌNH KHÔI PHỤC MÙ TIẾNG NÓI TRUYỀN TRONG XƯƠNG ......................................................................................... 23 2.1. Giới thiệu về xử lý mù ............................................................................. 23 2.2. Phương pháp khôi phục dùng mô hình dự đoán tuyến tính (LP) ............. 24 2.2.1. Khái niệm mô hình LP ...................................................................... 24 2.2.2. Phân tích và tổng hợp LP .................................................................. 28 2.2.3. Phương pháp khôi phục..................................................................... 29 2.3. Các phương pháp khôi phục mù LP ......................................................... 30 2.3.1. Hệ số LSF .......................................................................................... 30 2.3.3. Mô hình Gaussian hỗn hợp (Gaussian Mixture Model – GMM) ..... 36 2.3.4. Hệ số dự đoán.................................................................................... 38 2.3.5. Khôi phục mù LP-GMM ................................................................... 39 CHƯƠNG 3: CÀI ĐẶT THỰC NGHIỆM VÀ ĐÁNH GIÁ CÁC PHƯƠNG PHÁP KHÔI PHỤC TIẾNG NÓI TRUYỀN TRONG XƯƠNG ..................... 42 3.1. Cơ sở dữ liệu tiếng nói AC/BC tiếng Việt ............................................... 42 3.1.1. Môi trường và thiết bị ....................................................................... 43 3.1.2. Danh sách từ tiếng Việt ..................................................................... 45 3.2. Cài đặt các phương pháp .......................................................................... 46 3.3. Đánh giá kết quả thực nghiệm ................................................................. 48 3.3.1. Phương pháp đánh giá chủ quan ....................................................... 48 3.3.2. Phương pháp đánh giá khách quan ................................................... 50 3.3.3. Kết quả đánh giá thực nghiệm .......................................................... 50 3.4. Nhận xét chung về kết quả ....................................................................... 51 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ...................................................... 52 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn iv DANH MỤC CHỮ VIẾT TẮT VÀ KÝ HIỆU Từ viết tắt Tiếng anh Nghĩa tiếng việt ASR Automatic speech recognition Nhận dạng tiếng nói tự động AC Air conducted speech Tiếng nói truyền trong không khí BC Bone conducted speech Tiếng nói truyền trong xương LP Linear Prediction Dự đoán tuyến tính GMM Gausian Mixture Models Mô hình hỗn hợp Gaussian F0 Fundamental Frequency Tần số dao động cơ bản ZT Z Transform Phép biến đổi Z LPC Linear predictive coding Mã hóa dự đoán tuyến tính LSF Line spectral frequency Tần số đường phổ MOS Mean Opinion Scores Đánh giá theo quan điểm người nghe FFT Fast Fourier Transform Phép biến đổi Fourier nhanh RNN Recurrent nerual network Mạng nơron hồi quy SRN Simple recurrent network Mạng hồi quy đơn giản WAV Waveform Audio Dữ liệu âm thanh không nén HMM Hidden Markor Model Mô hình Mackor ẩn Autoregressive Tự hồi quy LP coefficient distance Khoảng cách hệ số LP AR LCD Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn iv DANH MỤC BẢNG Bảng 1.1: Giá trị tần số cơ bản tương ứng với giới tính và độ tuổi ................ 11 Bảng 3.1. Thông tin cơ sở dữ liệu tiếng nói AC/BC....................................... 42 Bảng 3.2. Danh sách các thiết bị ..................................................................... 43 Bảng 3.3. Mô tả các điểm đặt mic .................................................................... 44 Bảng 3.4. TEMPCO Microphone thông số kỹ thuật. ........................................ 44 Bảng 3.5. Mô tả mức điểm đánh giá ............................................................... 49 Bảng 3.6. Kết quả đánh giá bằng phương pháp LCD của 100 mẫu tín hiệu .. 50 Bảng 3.7. Kết quả đánh giá bằng phương pháp MOS .................................... 51 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn vi DANH MỤC HÌNH Hình 1. Sơ đồ thu âm tiếng nói truyền trong xương (tiếng nói BC) ở Mic B, C tại các vị trí 1, 2, 3, 4, 5 và tiếng nói truyền trong không khí (tiếng nói AC) ở Mic A. .............................................................................. 1 Hình 1.1. Mô phỏng quá trình truyền tiếng nói trong không khí ...................... 5 Hình 1.2. Bộ máy phát âm của con người........................................................ 5 Hình 1.3.Mô tả dây thanh âm ............................................................................ 6 Hình 1.4. Phổ tín hiệu của các giai đoạn ........................................................... 7 Hình 1.5. Mô hình nguồn lọc tạo tiếng nói ....................................................... 8 Hình 1.6. Sự thay đổ i của F0 khi các thanh đi với chữ “Chi” ........................ 13 Hình 1.7. Mô hình nguồn lọc của tiếng nói truyền trong không khí và tiếng nói truyền trong xương. .................................................................. 17 Hình 1.8. Định nghĩa các hàm: (a) sóng tín hiệu, (b) miền thời gian, và(c) đường bao công suất. ...................................................................... 19 Hình 1.9. Mối quan hệ của tiếng nói truyền trong không khí và tiếng nói truyền trong xương trong mô hình khôi phục ................................. 20 Hình 1.10. (a) Biến đổi từ tiếng nói truyền trong không khí ra tiếng nói truyền trong xương, và (b) từ tiếng nói truyền trong xương ra tiếng nói truyền trong không khí. ................................................................... 21 Hình 2.1. Mô hình tổng hợp tiếng nói bằng phương pháp LP ........................ 25 Hình 2.2. Tỷ lệ dư lượng AC/BC, (a) tiếng nói AC, (b) tiếng nói BC, (c) tương quan dư lượng (gx(n), gy (n)), (d) tỷ lệ dư lượng Gy (z)/Gx(z). ..............28 Hình 2.3. Hàm chuyển đổi của mô hình LP .................................................... 29 Hình 2.4. Sơ đồ khối (a) Mô hình khôi phục không mù ................................. 32 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn vii Hình 2.5. Mô hình SRN .................................................................................. 34 Hình 2.6. Hàm mật độ Gauss .......................................................................... 36 Hình 2.7. Mô hình GMM ................................................................................ 37 Hình 2.8. Hàm mật độ của GMM có 3 phân phối Gauss ................................ 38 Hình 3.1. Môi trường ghi âmtiếng nói AC/BC ............................................... 43 Hình 3.2. TEMPCO micro thu âm tiếng nói truyền trong xương ................... 45 Hình 3.3. Huấn luyện mô hình GMM cho tham số phổ LSF ......................... 46 Hình 3.4. Chuyển đổi mô hình GMM cho tham số phổ LSF ......................... 47 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 1 LỜI NÓI ĐẦU 1. Lý do chọn đề tài Chất lượng và độ nghe hiểu của tiếng nói bị suy giảm nghiêm trọng trong môi trường nhiễu nặng. Các nghiên cứu về tiếng nói cho thấy bản thân người nói vẫn có thể nghe được tiếng nói của mình trong môi trường nhiễu nặng [4]. Điều này được lí giải do tiếng nói không chỉ được truyền từ miệng đến tai qua môi trường không khí mà còn được truyền bên trong xương mặt và tiếng nói truyền trong xương ít bị ảnh hưởng bởi môi trường bên ngoài [4]. Xuất phát từ thực tế này, một số nhà nghiên cứu đã đề xuất việc sử dụng tiếng nói truyền trong xương (bone-conducted / BC speech) thay cho tiếng nói truyền trong không khí (air-conducted / AC speech) [4-9]. Nói cách khác, micro thu âm sẽ đặt ở một số điểm trên khuôn mặt thay vì đặt trực tiếp ở miệng như mô tả trong Hình 1. Việc thu âm tiếng nói truyền trong xương để truyền trong môi trường nhiễu nặng đã được chứng minh bằng thực nghiệm là ít bị ảnh hưởng bởi môi trường truyền hơn truyền trực tiếp tiếng nói truyền trong không khí và có thể được sử dụng để truyền tiếng nói trong các môi trường đặc biệt như trong công nghiệp, quân sự hay dưới nước,… [4-5]. Hình 1. Sơ đồ thu âm tiếng nói truyền trong xương (tiếng nói BC) ở Mic B, C tại các vị trí 1, 2, 3, 4, 5 và tiếng nói truyền trong không khí (tiếng nói AC) ở Mic A. Vấn đề là mặc dù tiếng nói BC ít bị ảnh hưởng bởi môi trường truyền hơn tiếng nói AC, bản thân chất lượng tiếng nói BC lại thấp hơn tiếng nói Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 2 AC tại điểm thu âm ở đầu phát do việc mất thông tin gây ra bởi quá trình truyền trong xương [6]. Chính vì vậy việc khôi phục tiếng nói BC trở về tiếng nói AC ở đầu thu là một vấn đề quan trọng được nhiều nhà nghiên cứu quan tâm [6-9]. Có nhiều phương pháp khôi phục tiếng nói AC từ tiếng nói BC đã được đề xuất như phương pháp dùng phổ chéo (Cross-spectrum) [5], phương pháp dùng biến đổi Fourier [6]. Tuy nhiên các phương pháp này yêu cầu có tiếng nói AC tham chiếu tại đầu thu để biến đổi tiếng nói BC thành AC. Nói cách khác, đây là các phương pháp không mù (non-blind). Hiển nhiên phạm vi áp dụng của các phương pháp này là rất hạn chế. Trong nghiên cứu [7], [8], [9], phương pháp khôi phục tiếng nói BC mù (không cần có tín hiệu tham chiếu tại đầu thu) sử dụng mô hình dự đoán tuyến tính LP được đề xuất như phương pháp khôi phục mù LP-SRN hay LP-GMM. Các phương pháp này cũng đã được so sánh thực nghiệm trên cơ sở dữ liệu tiếng nói tiếng Nhật [9]. Trong nghiên cứu này sẽ tập trung nghiên cứu về phương pháp khôi phục mù tiếng nói BC sử dụng mô hình LP-GMM và so sánh thực nghiệm trên cơ sở dữ liệu tiếng nói tiếng Việt để có được đánh giá đầy đủ hơn về phương pháp này và sự phù hợp của phương pháp với tiếng nói tiếng Việt. 2. Đối tượng và phạm vi nghiên cứu Đối tượng nghiên cứu của luận văn là tiếng nói và các phương pháp khôi phục tiếng nói. Phạm vi của luận văn bao gồm nghiên cứu tổng quan về tiếng nói AC, BC, các phương pháp khôi phục không mù và mù, và tập trung vào nghiên cứu thực nghiệm đánh giá về hiệu quả của phương pháp khôi phục không mù phổ chéo, Fourier, và phương pháp mù dùng mô hình LP-GMM [9] đối với cơ sở dữ liệu tiếng nói BC tiếng Việt. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 3 3. Hướng nghiên cứu của luận văn Hướng nghiên cứu của luận văn là nghiên cứu về vấn đề xử lý nhiễu cho tín hiệu tiếng nói bằng giải pháp dùng tiếng nói BC. Trong đó, luận văn tập trung nghiên cứu phương pháp khôi phục mù dùng mô hình LP-GMM [9]. 4. Những nội dung nghiên cứu chính - Tổng quan về tiếng nói AC/BC. - Ảnh hưởng của nhiễu đối với tiếng nói AC/BC. - Khôi phục tiếng nói AC từ BC. - Mô hình LP. - Phương pháp khôi phục mù dùng mô hình LP-GMM. - Mô tả bài toán khôi phục BC thành AC trên CSDL tiếng Việt để áp dụng cho các hệ thống sử dụng tiếng nói BC. - Kết quả đánh giá khách quan và chủ quan đối với phương pháp phổ chéo, Fourier, và phương pháp dùng mô hình LP-GMM. - Đánh giá kết luận và đưa ra kiến nghị. 5. Phương pháp nghiên cứu Phương pháp nghiên cứu của luận văn là nghiên cứu các lý thuyết đã có trên thế giới [4-9] để phân tích, đánh giá về phương pháp khôi phục mù tiếng nói BC thành tiếng nói AC. Dựa trên các cơ sở lý thuyết và các phân tích, đánh giá, luận văn cũng sẽ nghiên cứu thực nghiệm để xác định phương pháp tối ưu với tiếng Việt. 6. Ý nghĩa khoa học của luận văn Như đã trình bày trong phần 1, nghiên cứu khôi phục tiếng nói BC thành tiếng nói AC có vai trò quan trọng, đặc biệt trong các hệ thống truyền thông tiếng nói trong quân sự, công nghiệp hay các môi trường đặc biệt như dưới nước. Đây là hướng nghiên cứu còn khá mới mẻ ở Việt Nam. Do vậy vấn đề nghiên cứu trong luận văn có ý nghĩa khoa học và thực tiễn. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 4 CHƯƠNG I. TỔNG QUAN VỀ TIẾNG NÓI TRUYỀN TRONG KHÔNG KHÍ VÀ TIẾNG NÓI TRUYỀN TRONG XƯƠNG 1.1. Tổng quan về tiếng nói 1.1.1. Nguồn gốc và phân loại tiếng nói. Tiếng nói là phương tiện giao tiếp chính trong đàm thoại. Nếu phân tích quá trình giao tiếp qua nhiều lớp thì lớp thứ nhất chính là âm thanh và lớp cuối cùng là tiếng nói diễn tả ý nghĩa muốn nói. Âm thanh của lời nói cũng như âm thanh trong thế giới tự nhiên xung quanh ta về bản chất đều là những sóng âm được lan truyền trong một môi trường nhất định (thường là không khí). Khi chúng ta nói dây thanh trong hầu bị trấn động tạo nên những sóng âm, sóng truyền trong không khí đến màng nhĩ – một màng rất mỏng rất nhạy cảm của tai làm cho màng nhĩ cũng dao động, các dây thần kinh của màng nhĩ sẽ nhận được cảm giác âm khi tần số giao động của sóng đạt đến một độ lớn nhất định. Tai con người chỉ cảm thụ được những dao động có tần số từ khoảng 20Hz đến khoảng 20000Hz. Những dao động trong miền tần số này gọi là dao động âm hay âm thanh, và các sóng tương ứng gọi là sóng âm. Những sóng có tần số nhỏ hơn 20Hz gọi là sóng hạ âm, những sóng có tần số lớn hơn 20000Hz gọi là sóng siêu âm những sóng này con người không cảm nhận được. Sóng âm, sóng siêu âm và hạ âm không chỉ truyền trong không khí mà còn có thể lan truyền tốt ở những môi trường rắn, lỏng. Do đó cũng được sử dụng nhiều trong các thiết bị máy móc hiện nay. Câu nói, mỗi câu gồm nhiều từ, mỗi từ lại có thể có 1 hay nhiều âm tiết. Ở tiếng Việt, số âm tiết được sử dụng vào khoảng 6700. Khi chúng ta phát ra một tiếng thì có rất nhiều bộ phận như lưỡi, thanh môn, môi, họng, thanh quản,… kết hợp với nhau để tạo thành âm thanh. Âm thanh phát ra được lan truyền trong không khí để đến tai người nhận. Vì âm thanh phát ra từ sự kết hợp của rất nhiều bộ phận, do đó âm thanh ở mỗi lần nói khác nhau thì hầu Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 5 như là khác nhau dẫn đến khó khăn khi muốn phân chia tiếng nói theo những đặc tính riêng. Hình 1.1. Mô phỏng quá trình truyền tiếng nói trong không khí 1.1.2. Quá trình tạo tiếng nói a. Bộ máy phát âm Hình 1.2. Bộ máy phát âm của con người Bộ máy phát âm bao gồm các thành phần riêng rẽ như phổi, khí quản, thanh quản, và các đường dẫn miệng, mũi. Trong đó: - Tuyến âm là ống không đều bắt đầu từ môi, kết thúc bởi dây thanh. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 6 - Ống dẫn âm là một ống không đồng dạng bắt đầu từ môi, kết thúc bởi dây thanh hoặc thanh quản. Ống có độ dài khoảng 17cm đối với người bình thường. - Khoang mũi cũng là ống không đồng dạng thuộc vùng cố định bắt đầu từ mũi, kết thúc tại vòm miệng, đối với người bình thường khoang mũi có độ dài 12 cm. - Khoang miệng là các nếp da chuyển động có thể điều khiển sự ghép âm thanh giữa khoang miệng và khoang mũi. - Thanh quản chứa hai dây thanh có thể dao động tạo ra sự cộng hưởng cần thiết để tạo ra âm thanh. Hình 1.3.Mô tả dây thanh âm b. Cơ chế phát âm Hình 1.2 mô tả bộ máy phát âm của con người. Năng lượng nguồn nằm ở thanh môn, tuyến âm sẽ được kích thích bởi năng lượng nguồn tại thanh môn. Tiếng nói được tạo ra sóng âm học do kích thích từ thanh môn phát ra đẩy không khí có trong phổi lên tạo thành dòng khí va chạm vào hai dây thanh trong tuyến âm. Hai dây thanh dao động sẽ tạo ra cộng hưởng, dao động âm sẽ được lan truyền theo tuyến âm (tính từ tuyến âm đến khoang miệng) và sau khi đi qua khoang mũi, môi sẽ tạo ra tiếng nói. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 7 Trong quá trình phát âm, nếu là âm mũi thì vòm miệng hạ thấp và dòng khí chỉ đi qua đường mũi, nếu là âm thường thì vòm miệng mở, đường mũi khép lại và dòng khí đi theo khoang miệng ra môi. Trong quá trình tạo âm thanh không phải là âm mũi, vòm miệng mở, khoang mũi đóng lại, dòng khí sẽ chỉ đi qua khoang miệng. Khi phát âm mũi, vòm miệng hạ thấp và dòng khí sẽ chỉ đi qua khoang mũi. Nói cách khác: - Tần số rung của dây âm thanh xác định cao độ của tiếng nói - Vị trí/ hình dạng của môi, lưỡi và mũi xác định âm sắc. - Độ nén từ phổi xác định âm lượng của tiếng nói. Chúng ta có thể nghĩ quá trình tạo tiếng nói của người như mô hình lọc nguồn nơi mà nguồn là luồng không khí được tạo ra bởi các dây âm thanh và bộ lọc bao gồm khoang yết hầu, mũi, miệng. Hình dưới đây cho thấy phổ tín hiệu của mỗi giai đoạn. Hình 1.4. Phổ tín hiệu của các giai đoạn Nói chung, rung động đều đặn của dây thanh âm sẽ tạo ra âm thanh bán tuần hoàn, mặt khác nếu luồng không khí không đều sẽ tạo ra âm vô thanh. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 8 Chúng ta cũng có thể sử dụng sơ đồ khối để biểu diễn mô hình nguồn lọc tạo tiếng nói: Hình 1.5. Mô hình nguồn lọc tạo tiếng nói 1.2. Các đặc điểm của tiếng nói tiếng việt 1.2.1. Đă ̣c tính âm ho ̣c của tiế ng nói a. Âm hữu thanh Âm hữu thanh được tạo ra từ các dây thanh bị căng đồng thời và chúng rung động ở chế độ dãn khi không khí tăng lên làm thanh môn mở ra và sau đó thanh môn xẹp xuống do không khí chạy qua. Do sự cộng hưởng của dây thanh, sóng âm tạo ra có dạng tuần hoàn hoặc gần như tuần hoàn. Phổ của âm hữu thanh có nhiều thành phần tại giá trị bội số của tần số cộng hưởng, còn gọi là tần số cơ bản. b. Âm vô thanh Khi tạo ra âm vô thanh dây thanh không cộng hưởng. Âm vô thanh có hai loại cơ bản là âm xát và âm tắc. Âm xát (ví dụ như âm s) được tạo ra khi có sự co thắt tại vài điểm trong tuyến âm. Không khí khi đi qua điểm co thắt sẽ chuyển thành chuyển động hỗn loạn tạo nên kích thích giống như nhiễu ngẫu nhiên. Thông thường điểm Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 9 co thắt xảy ra gần miệng nên sự cộng hưởng của tuyến âm ảnh hưởng rất ít đến đặc tính của âm xát được tạo ra. Âm tắc (ví dụ như âm p) được tạo ra khi tuyến âm đóng tại một số điểm làm cho áp suất không khí tăng lên và sau đó được giải phóng đột ngột. Sự giải phóng đột ngột này tạo ra kích thích nhất thời của tuyến âm. Sự kích thích này có thể xảy ra với sự cộng hưởng hoặc không cộng hưởng của dây thanh tương ứng với âm tắc hữu thanh hoặc vô thanh. c. Âm vi ̣ Tín hiệu tiếng nói là tín hiệu tương tự biểu diễn cho thông tin về mặt ngôn ngữ và được mô tả bởi các âm vị khác nhau. Như vậy, âm vị là đơn vị nhỏ nhất của ngôn ngữ. Tuỳ theo từng ngôn ngữ cụ thể mà số lượng các âm vị nhiều hay ít (thông thường số lượng các âm vị vào khoảng 20 – 30). Các âm vị được chia thành hai loại: nguyên âm và phụ âm. + Nguyên âm Nguyên âm là âm hữu thanh được tạo ra bằng sự cộng hưởng của dây thanh khi dòng khí được thanh môn đẩy lên. Khoang miệng được tạo lập thành nhiều hình dạng nhất định tạo thành các nguyên âm khác nhau. Số lượng các nguyên âm phụ thuộc vào từng ngôn ngữ nhất định. + Phụ âm Phụ âm được tạo ra bởi các dòng khí hỗn loạn được phát ra gần những điểm co thắt của đường dẫn âm thanh do cách phát âm tạo thành. Phụ âm có đặc tính hữu thanh hay vô thanh tuỳ thuộc vào việc dây thanh có dao động để tạo nên cộng hưởng không. Dòng không khí tại chỗ đóng của vòm miệng tạo ra phụ âm tắc. Phụ âm xát được phát ra từ chỗ co thắt lớn nhất. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 10 1.2.2. Các đă ̣c tính khác a. Tỷ suấ t thời gian Trong khi nói chuyện, khoảng thời gian nói và khoảng thời gian nghỉ xen kẽ nhau. Tỷ lệ % thời gian nói trên tổng số thời gian nói và nghỉ được gọi là tỷ suất thời gian. Giá trị này biến đổi tuỳ thuộc vào tốc độ nói và từ đó ta có thể phân loại thành nói nhanh, nói chậm hay nói bình thường. b. Hàm năng lượng ngắ n ha ̣n Hàm năng lượng thời gian ngắn của tiếng nói được tính bằng cách chia tín hiệu tiếng nói thành nhiều khung, mỗi khung chứa N mẫu. Các khung này được đưa qua một cửa sổ có dạng hàm như sau: Hàm năng lượng ngắn tại mẫu thứ m được tính theo công thức sau: Thông thường có ba dạng cửa sổ được sử dụng đó là cửa sổ Hamming, cửa sổ Hanning và cửa sổ chữ nhật. Hàm năng lượng thời gian ngắn của âm hữu thanh thường lớn hơn so với âm vô thanh. c. Tầ n số cơ bản Dạng sóng của tiếng nói gồm hai phần: Phần gần giống nhiễu (trong đó biên độ biến đổi ngẫu nhiên) và phần có tính chu kỳ (trong đó tín hiệu lặp lại gần như tuần hoàn). Phần tín hiệu có tính chu kỳ chứa các thành phần tần số có dạng điều hòa. Tần số thấp nhất chính là tần số cơ bản và cũng chính là tần số dao động của dây thanh. Đối với những người nói khác nhau, tần số cơ bản cũng khác nhau. Dưới đây là một số giá trị tần số cơ bản tương ứng với từng giới tính và độ tuổi. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- Xem thêm -

Tài liệu liên quan