..
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG
NGUYỄN THỊ KIM DUNG
NGHIÊN CỨU PHƯƠNG PHÁP KHÔI PHỤC
TIẾNG NÓI TRUYỀN TRONG XƯƠNG
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
THÁI NGUYÊN - 2016
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG
NGUYỄN THỊ KIM DUNG
NGHIÊN CỨU PHƯƠNG PHÁP KHÔI PHỤC
TIẾNG NÓI TRUYỀN TRONG XƯƠNG
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học: TS. PHÙNG TRUNG NGHĨA
THÁI NGUYÊN - 2016
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
i
LỜI CẢM ƠN
Lời đầu tiên em xin chân thành cảm ơn TS Phùng Trung Nghĩa đã dành
nhiều tâm huyết, kinh nghiệm của thầy để chỉ dẫn, định hướng nghiên cứu
cũng như luôn luôn góp ý cho em để hoàn thành luận văn này.
Em chân thành cảm ơn toàn thể các thầy cô đã ân cần dạy dỗ, chỉ bảo,
truyền đạt cho chúng em những kiến thức quý báu trong suốt quá trình học.
Cuối cùng em cũng xin gửi lời cảm ơn tới gia đình, những người đã luôn
động viên và tạo mọi điều kiện cho em học tập và nghiên cứu thật tốt. Và gửi
lời cảm ơn tới những người bạn đã giúp đỡ em trong quá trình học tập cũng
như hoàn thành đề tài luận văn.
Em xin chân thành cảm ơn!
Thái Nguyên, ngày tháng năm 2016
Học viên
Nguyễn Thị Kim Dung
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
ii
LỜI CAM ĐOAN
Tôi xin cam đoan đề tài nghiên cứu của tôi hoàn toàn do tôi tự làm dưới
sự hướng dẫn của thầy giáo TS Phùng Trung Nghĩa. Những kết quả tìm hiểu
và nghiên cứu trình bày trong luận văn là hoàn toàn trung thực và chưa từng
đươ ̣c công bố trong bấ t cứ công trình nào.
Nếu xảy ra bất cứ điều gì không đúng như những lời cam đoan trên, tôi
xin chịu hoàn toàn trách nhiệm trước Nhà trường.
Thái Nguyên, ngày tháng năm 2016
Tác giả
Nguyễn Thị Kim Dung
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
iii
MỤC LỤC
LỜI CẢM ƠN ................................................................................................... i
LỜI CAM ĐOAN ............................................................................................. ii
DANH MỤC BẢNG ........................................................................................ iv
DANH MỤC HÌNH .......................................................................................... v
DANH MỤC CHỮ VIẾT TẮT VÀ KÝ HIỆU ............................................... vi
LỜI NÓI ĐẦU .................................................................................................. 1
1. Lý do chọn đề tài ........................................................................................... 1
2. Đối tượng và phạm vi nghiên cứu ................................................................. 2
3. Hướng nghiên cứu của luận văn ................................................................... 3
4. Những nội dung nghiên cứu chính ................................................................ 3
5. Phương pháp nghiên cứu ............................................................................... 3
6. Ý nghĩa khoa học của luận văn ..................................................................... 3
CHƯƠNG I. TỔNG QUAN VỀ TIẾNG NÓI TRUYỀN TRONG KHÔNG
KHÍ VÀ TIẾNG NÓI TRUYỀN TRONG XƯƠNG ........................................ 4
1.1. Tổng quan về tiếng nói ............................................................................... 4
1.1.1. Nguồn gốc và phân loại tiếng nói. ...................................................... 4
1.1.2. Quá trình tạo tiếng nói ........................................................................ 5
1.2. Các đặc điểm của tiếng nói tiếng việt ........................................................ 8
1.2.1. Đă ̣c tin
́ h âm ho ̣c của tiế ng nói............................................................. 8
1.2.2. Các đă ̣c tính khác .............................................................................. 10
1.2.3. Đă ̣c điể m của thanh điệu tiế ng Viêṭ .................................................. 12
1.2.4. Ngữ điệu của tiếng nói trong Tiếng Việt .......................................... 13
1.3. Tiếng nói truyền trong xương (BC- Bone Conducted) ............................ 16
1.4. Khôi phục tiếng nói truyền trong xương .................................................. 18
1.4.1. Phương pháp phổ chéo ...................................................................... 19
1.4.2. Phương pháp biến đổi Fourier........................................................... 21
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
iv
CHƯƠNG 2: MÔ HÌNH KHÔI PHỤC MÙ TIẾNG NÓI TRUYỀN
TRONG XƯƠNG ......................................................................................... 23
2.1. Giới thiệu về xử lý mù ............................................................................. 23
2.2. Phương pháp khôi phục dùng mô hình dự đoán tuyến tính (LP) ............. 24
2.2.1. Khái niệm mô hình LP ...................................................................... 24
2.2.2. Phân tích và tổng hợp LP .................................................................. 28
2.2.3. Phương pháp khôi phục..................................................................... 29
2.3. Các phương pháp khôi phục mù LP ......................................................... 30
2.3.1. Hệ số LSF .......................................................................................... 30
2.3.3. Mô hình Gaussian hỗn hợp (Gaussian Mixture Model – GMM) ..... 36
2.3.4. Hệ số dự đoán.................................................................................... 38
2.3.5. Khôi phục mù LP-GMM ................................................................... 39
CHƯƠNG 3: CÀI ĐẶT THỰC NGHIỆM VÀ ĐÁNH GIÁ CÁC PHƯƠNG
PHÁP KHÔI PHỤC TIẾNG NÓI TRUYỀN TRONG XƯƠNG ..................... 42
3.1. Cơ sở dữ liệu tiếng nói AC/BC tiếng Việt ............................................... 42
3.1.1. Môi trường và thiết bị ....................................................................... 43
3.1.2. Danh sách từ tiếng Việt ..................................................................... 45
3.2. Cài đặt các phương pháp .......................................................................... 46
3.3. Đánh giá kết quả thực nghiệm ................................................................. 48
3.3.1. Phương pháp đánh giá chủ quan ....................................................... 48
3.3.2. Phương pháp đánh giá khách quan ................................................... 50
3.3.3. Kết quả đánh giá thực nghiệm .......................................................... 50
3.4. Nhận xét chung về kết quả ....................................................................... 51
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ...................................................... 52
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
iv
DANH MỤC CHỮ VIẾT TẮT VÀ KÝ HIỆU
Từ
viết tắt
Tiếng anh
Nghĩa tiếng việt
ASR
Automatic speech recognition Nhận dạng tiếng nói tự động
AC
Air conducted speech
Tiếng nói truyền trong không khí
BC
Bone conducted speech
Tiếng nói truyền trong xương
LP
Linear Prediction
Dự đoán tuyến tính
GMM
Gausian Mixture Models
Mô hình hỗn hợp Gaussian
F0
Fundamental Frequency
Tần số dao động cơ bản
ZT
Z Transform
Phép biến đổi Z
LPC
Linear predictive coding
Mã hóa dự đoán tuyến tính
LSF
Line spectral frequency
Tần số đường phổ
MOS
Mean Opinion Scores
Đánh giá theo quan điểm người nghe
FFT
Fast Fourier Transform
Phép biến đổi Fourier nhanh
RNN
Recurrent nerual network
Mạng nơron hồi quy
SRN
Simple recurrent network
Mạng hồi quy đơn giản
WAV
Waveform Audio
Dữ liệu âm thanh không nén
HMM
Hidden Markor Model
Mô hình Mackor ẩn
Autoregressive
Tự hồi quy
LP coefficient distance
Khoảng cách hệ số LP
AR
LCD
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
iv
DANH MỤC BẢNG
Bảng 1.1: Giá trị tần số cơ bản tương ứng với giới tính và độ tuổi ................ 11
Bảng 3.1. Thông tin cơ sở dữ liệu tiếng nói AC/BC....................................... 42
Bảng 3.2. Danh sách các thiết bị ..................................................................... 43
Bảng 3.3. Mô tả các điểm đặt mic .................................................................... 44
Bảng 3.4. TEMPCO Microphone thông số kỹ thuật. ........................................ 44
Bảng 3.5. Mô tả mức điểm đánh giá ............................................................... 49
Bảng 3.6. Kết quả đánh giá bằng phương pháp LCD của 100 mẫu tín hiệu .. 50
Bảng 3.7. Kết quả đánh giá bằng phương pháp MOS .................................... 51
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
vi
DANH MỤC HÌNH
Hình 1. Sơ đồ thu âm tiếng nói truyền trong xương (tiếng nói BC) ở Mic B, C
tại các vị trí 1, 2, 3, 4, 5 và tiếng nói truyền trong không khí (tiếng
nói AC) ở Mic A. .............................................................................. 1
Hình 1.1. Mô phỏng quá trình truyền tiếng nói trong không khí ...................... 5
Hình 1.2. Bộ máy phát âm của con người........................................................ 5
Hình 1.3.Mô tả dây thanh âm ............................................................................ 6
Hình 1.4. Phổ tín hiệu của các giai đoạn ........................................................... 7
Hình 1.5. Mô hình nguồn lọc tạo tiếng nói ....................................................... 8
Hình 1.6. Sự thay đổ i của F0 khi các thanh đi với chữ “Chi” ........................ 13
Hình 1.7. Mô hình nguồn lọc của tiếng nói truyền trong không khí và tiếng
nói truyền trong xương. .................................................................. 17
Hình 1.8. Định nghĩa các hàm: (a) sóng tín hiệu, (b) miền thời gian, và(c)
đường bao công suất. ...................................................................... 19
Hình 1.9. Mối quan hệ của tiếng nói truyền trong không khí và tiếng nói
truyền trong xương trong mô hình khôi phục ................................. 20
Hình 1.10. (a) Biến đổi từ tiếng nói truyền trong không khí ra tiếng nói truyền
trong xương, và (b) từ tiếng nói truyền trong xương ra tiếng nói
truyền trong không khí. ................................................................... 21
Hình 2.1. Mô hình tổng hợp tiếng nói bằng phương pháp LP ........................ 25
Hình 2.2. Tỷ lệ dư lượng AC/BC, (a) tiếng nói AC, (b) tiếng nói BC, (c) tương
quan dư lượng (gx(n), gy (n)), (d) tỷ lệ dư lượng Gy (z)/Gx(z). ..............28
Hình 2.3. Hàm chuyển đổi của mô hình LP .................................................... 29
Hình 2.4. Sơ đồ khối (a) Mô hình khôi phục không mù ................................. 32
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
vii
Hình 2.5. Mô hình SRN .................................................................................. 34
Hình 2.6. Hàm mật độ Gauss .......................................................................... 36
Hình 2.7. Mô hình GMM ................................................................................ 37
Hình 2.8. Hàm mật độ của GMM có 3 phân phối Gauss ................................ 38
Hình 3.1. Môi trường ghi âmtiếng nói AC/BC ............................................... 43
Hình 3.2. TEMPCO micro thu âm tiếng nói truyền trong xương ................... 45
Hình 3.3. Huấn luyện mô hình GMM cho tham số phổ LSF ......................... 46
Hình 3.4. Chuyển đổi mô hình GMM cho tham số phổ LSF ......................... 47
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
1
LỜI NÓI ĐẦU
1. Lý do chọn đề tài
Chất lượng và độ nghe hiểu của tiếng nói bị suy giảm nghiêm trọng
trong môi trường nhiễu nặng. Các nghiên cứu về tiếng nói cho thấy bản thân
người nói vẫn có thể nghe được tiếng nói của mình trong môi trường nhiễu
nặng [4]. Điều này được lí giải do tiếng nói không chỉ được truyền từ miệng
đến tai qua môi trường không khí mà còn được truyền bên trong xương mặt
và tiếng nói truyền trong xương ít bị ảnh hưởng bởi môi trường bên ngoài [4].
Xuất phát từ thực tế này, một số nhà nghiên cứu đã đề xuất việc sử dụng tiếng
nói truyền trong xương (bone-conducted / BC speech) thay cho tiếng nói
truyền trong không khí (air-conducted / AC speech) [4-9]. Nói cách khác,
micro thu âm sẽ đặt ở một số điểm trên khuôn mặt thay vì đặt trực tiếp ở
miệng như mô tả trong Hình 1. Việc thu âm tiếng nói truyền trong xương để
truyền trong môi trường nhiễu nặng đã được chứng minh bằng thực nghiệm là
ít bị ảnh hưởng bởi môi trường truyền hơn truyền trực tiếp tiếng nói truyền
trong không khí và có thể được sử dụng để truyền tiếng nói trong các môi
trường đặc biệt như trong công nghiệp, quân sự hay dưới nước,… [4-5].
Hình 1. Sơ đồ thu âm tiếng nói truyền trong xương (tiếng nói BC) ở Mic B, C
tại các vị trí 1, 2, 3, 4, 5 và tiếng nói truyền trong không khí (tiếng nói AC) ở
Mic A.
Vấn đề là mặc dù tiếng nói BC ít bị ảnh hưởng bởi môi trường truyền
hơn tiếng nói AC, bản thân chất lượng tiếng nói BC lại thấp hơn tiếng nói
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
2
AC tại điểm thu âm ở đầu phát do việc mất thông tin gây ra bởi quá trình
truyền trong xương [6]. Chính vì vậy việc khôi phục tiếng nói BC trở về
tiếng nói AC ở đầu thu là một vấn đề quan trọng được nhiều nhà nghiên cứu
quan tâm [6-9].
Có nhiều phương pháp khôi phục tiếng nói AC từ tiếng nói BC đã được
đề xuất như phương pháp dùng phổ chéo (Cross-spectrum) [5], phương pháp
dùng biến đổi Fourier [6]. Tuy nhiên các phương pháp này yêu cầu có tiếng
nói AC tham chiếu tại đầu thu để biến đổi tiếng nói BC thành AC. Nói cách
khác, đây là các phương pháp không mù (non-blind). Hiển nhiên phạm vi áp
dụng của các phương pháp này là rất hạn chế.
Trong nghiên cứu [7], [8], [9], phương pháp khôi phục tiếng nói BC mù
(không cần có tín hiệu tham chiếu tại đầu thu) sử dụng mô hình dự đoán tuyến
tính LP được đề xuất như phương pháp khôi phục mù LP-SRN hay LP-GMM.
Các phương pháp này cũng đã được so sánh thực nghiệm trên cơ sở dữ liệu
tiếng nói tiếng Nhật [9]. Trong nghiên cứu này sẽ tập trung nghiên cứu về
phương pháp khôi phục mù tiếng nói BC sử dụng mô hình LP-GMM và so
sánh thực nghiệm trên cơ sở dữ liệu tiếng nói tiếng Việt để có được đánh giá
đầy đủ hơn về phương pháp này và sự phù hợp của phương pháp với tiếng nói
tiếng Việt.
2. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của luận văn là tiếng nói và các phương pháp khôi
phục tiếng nói.
Phạm vi của luận văn bao gồm nghiên cứu tổng quan về tiếng nói AC,
BC, các phương pháp khôi phục không mù và mù, và tập trung vào nghiên
cứu thực nghiệm đánh giá về hiệu quả của phương pháp khôi phục không mù
phổ chéo, Fourier, và phương pháp mù dùng mô hình LP-GMM [9] đối với cơ
sở dữ liệu tiếng nói BC tiếng Việt.
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
3
3. Hướng nghiên cứu của luận văn
Hướng nghiên cứu của luận văn là nghiên cứu về vấn đề xử lý nhiễu cho
tín hiệu tiếng nói bằng giải pháp dùng tiếng nói BC. Trong đó, luận văn tập
trung nghiên cứu phương pháp khôi phục mù dùng mô hình LP-GMM [9].
4. Những nội dung nghiên cứu chính
- Tổng quan về tiếng nói AC/BC.
- Ảnh hưởng của nhiễu đối với tiếng nói AC/BC.
- Khôi phục tiếng nói AC từ BC.
- Mô hình LP.
- Phương pháp khôi phục mù dùng mô hình LP-GMM.
- Mô tả bài toán khôi phục BC thành AC trên CSDL tiếng Việt để áp
dụng cho các hệ thống sử dụng tiếng nói BC.
- Kết quả đánh giá khách quan và chủ quan đối với phương pháp phổ
chéo, Fourier, và phương pháp dùng mô hình LP-GMM.
- Đánh giá kết luận và đưa ra kiến nghị.
5. Phương pháp nghiên cứu
Phương pháp nghiên cứu của luận văn là nghiên cứu các lý thuyết đã có
trên thế giới [4-9] để phân tích, đánh giá về phương pháp khôi phục mù tiếng
nói BC thành tiếng nói AC.
Dựa trên các cơ sở lý thuyết và các phân tích, đánh giá, luận văn cũng sẽ
nghiên cứu thực nghiệm để xác định phương pháp tối ưu với tiếng Việt.
6. Ý nghĩa khoa học của luận văn
Như đã trình bày trong phần 1, nghiên cứu khôi phục tiếng nói BC thành
tiếng nói AC có vai trò quan trọng, đặc biệt trong các hệ thống truyền thông
tiếng nói trong quân sự, công nghiệp hay các môi trường đặc biệt như dưới
nước. Đây là hướng nghiên cứu còn khá mới mẻ ở Việt Nam. Do vậy vấn đề
nghiên cứu trong luận văn có ý nghĩa khoa học và thực tiễn.
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
4
CHƯƠNG I. TỔNG QUAN VỀ TIẾNG NÓI TRUYỀN TRONG
KHÔNG KHÍ VÀ TIẾNG NÓI TRUYỀN TRONG XƯƠNG
1.1. Tổng quan về tiếng nói
1.1.1. Nguồn gốc và phân loại tiếng nói.
Tiếng nói là phương tiện giao tiếp chính trong đàm thoại. Nếu phân tích
quá trình giao tiếp qua nhiều lớp thì lớp thứ nhất chính là âm thanh và lớp
cuối cùng là tiếng nói diễn tả ý nghĩa muốn nói.
Âm thanh của lời nói cũng như âm thanh trong thế giới tự nhiên xung
quanh ta về bản chất đều là những sóng âm được lan truyền trong một môi
trường nhất định (thường là không khí). Khi chúng ta nói dây thanh trong hầu
bị trấn động tạo nên những sóng âm, sóng truyền trong không khí đến màng
nhĩ – một màng rất mỏng rất nhạy cảm của tai làm cho màng nhĩ cũng dao
động, các dây thần kinh của màng nhĩ sẽ nhận được cảm giác âm khi tần số
giao động của sóng đạt đến một độ lớn nhất định. Tai con người chỉ cảm thụ
được những dao động có tần số từ khoảng 20Hz đến khoảng 20000Hz. Những
dao động trong miền tần số này gọi là dao động âm hay âm thanh, và các sóng
tương ứng gọi là sóng âm. Những sóng có tần số nhỏ hơn 20Hz gọi là sóng hạ
âm, những sóng có tần số lớn hơn 20000Hz gọi là sóng siêu âm những sóng
này con người không cảm nhận được. Sóng âm, sóng siêu âm và hạ âm không
chỉ truyền trong không khí mà còn có thể lan truyền tốt ở những môi trường
rắn, lỏng. Do đó cũng được sử dụng nhiều trong các thiết bị máy móc hiện
nay. Câu nói, mỗi câu gồm nhiều từ, mỗi từ lại có thể có 1 hay nhiều âm tiết.
Ở tiếng Việt, số âm tiết được sử dụng vào khoảng 6700. Khi chúng ta phát ra
một tiếng thì có rất nhiều bộ phận như lưỡi, thanh môn, môi, họng, thanh
quản,… kết hợp với nhau để tạo thành âm thanh. Âm thanh phát ra được lan
truyền trong không khí để đến tai người nhận. Vì âm thanh phát ra từ sự kết
hợp của rất nhiều bộ phận, do đó âm thanh ở mỗi lần nói khác nhau thì hầu
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
5
như là khác nhau dẫn đến khó khăn khi muốn phân chia tiếng nói theo những
đặc tính riêng.
Hình 1.1. Mô phỏng quá trình truyền tiếng nói trong không khí
1.1.2. Quá trình tạo tiếng nói
a. Bộ máy phát âm
Hình 1.2. Bộ máy phát âm của con người
Bộ máy phát âm bao gồm các thành phần riêng rẽ như phổi, khí quản,
thanh quản, và các đường dẫn miệng, mũi. Trong đó:
- Tuyến âm là ống không đều bắt đầu từ môi, kết thúc bởi dây thanh.
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
6
- Ống dẫn âm là một ống không đồng dạng bắt đầu từ môi, kết thúc
bởi dây thanh hoặc thanh quản. Ống có độ dài khoảng 17cm đối với người
bình thường.
- Khoang mũi cũng là ống không đồng dạng thuộc vùng cố định bắt đầu
từ mũi, kết thúc tại vòm miệng, đối với người bình thường khoang mũi có độ
dài 12 cm.
- Khoang miệng là các nếp da chuyển động có thể điều khiển sự ghép âm
thanh giữa khoang miệng và khoang mũi.
- Thanh quản chứa hai dây thanh có thể dao động tạo ra sự cộng hưởng
cần thiết để tạo ra âm thanh.
Hình 1.3.Mô tả dây thanh âm
b. Cơ chế phát âm
Hình 1.2 mô tả bộ máy phát âm của con người. Năng lượng nguồn nằm ở
thanh môn, tuyến âm sẽ được kích thích bởi năng lượng nguồn tại thanh môn.
Tiếng nói được tạo ra sóng âm học do kích thích từ thanh môn phát ra đẩy
không khí có trong phổi lên tạo thành dòng khí va chạm vào hai dây thanh
trong tuyến âm. Hai dây thanh dao động sẽ tạo ra cộng hưởng, dao động âm
sẽ được lan truyền theo tuyến âm (tính từ tuyến âm đến khoang miệng) và sau
khi đi qua khoang mũi, môi sẽ tạo ra tiếng nói.
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
7
Trong quá trình phát âm, nếu là âm mũi thì vòm miệng hạ thấp và dòng
khí chỉ đi qua đường mũi, nếu là âm thường thì vòm miệng mở, đường mũi
khép lại và dòng khí đi theo khoang miệng ra môi.
Trong quá trình tạo âm thanh không phải là âm mũi, vòm miệng mở,
khoang mũi đóng lại, dòng khí sẽ chỉ đi qua khoang miệng. Khi phát âm mũi,
vòm miệng hạ thấp và dòng khí sẽ chỉ đi qua khoang mũi.
Nói cách khác:
- Tần số rung của dây âm thanh xác định cao độ của tiếng nói
- Vị trí/ hình dạng của môi, lưỡi và mũi xác định âm sắc.
- Độ nén từ phổi xác định âm lượng của tiếng nói.
Chúng ta có thể nghĩ quá trình tạo tiếng nói của người như mô hình lọc
nguồn nơi mà nguồn là luồng không khí được tạo ra bởi các dây âm thanh và
bộ lọc bao gồm khoang yết hầu, mũi, miệng. Hình dưới đây cho thấy phổ tín
hiệu của mỗi giai đoạn.
Hình 1.4. Phổ tín hiệu của các giai đoạn
Nói chung, rung động đều đặn của dây thanh âm sẽ tạo ra âm thanh bán
tuần hoàn, mặt khác nếu luồng không khí không đều sẽ tạo ra âm vô thanh.
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
8
Chúng ta cũng có thể sử dụng sơ đồ khối để biểu diễn mô hình nguồn lọc
tạo tiếng nói:
Hình 1.5. Mô hình nguồn lọc tạo tiếng nói
1.2. Các đặc điểm của tiếng nói tiếng việt
1.2.1. Đă ̣c tính âm ho ̣c của tiế ng nói
a. Âm hữu thanh
Âm hữu thanh được tạo ra từ các dây thanh bị căng đồng thời và chúng
rung động ở chế độ dãn khi không khí tăng lên làm thanh môn mở ra và sau
đó thanh môn xẹp xuống do không khí chạy qua. Do sự cộng hưởng của dây
thanh, sóng âm tạo ra có dạng tuần hoàn hoặc gần như tuần hoàn. Phổ của âm
hữu thanh có nhiều thành phần tại giá trị bội số của tần số cộng hưởng, còn
gọi là tần số cơ bản.
b. Âm vô thanh
Khi tạo ra âm vô thanh dây thanh không cộng hưởng. Âm vô thanh có
hai loại cơ bản là âm xát và âm tắc.
Âm xát (ví dụ như âm s) được tạo ra khi có sự co thắt tại vài điểm trong
tuyến âm. Không khí khi đi qua điểm co thắt sẽ chuyển thành chuyển động
hỗn loạn tạo nên kích thích giống như nhiễu ngẫu nhiên. Thông thường điểm
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
9
co thắt xảy ra gần miệng nên sự cộng hưởng của tuyến âm ảnh hưởng rất ít
đến đặc tính của âm xát được tạo ra.
Âm tắc (ví dụ như âm p) được tạo ra khi tuyến âm đóng tại một số điểm
làm cho áp suất không khí tăng lên và sau đó được giải phóng đột ngột. Sự
giải phóng đột ngột này tạo ra kích thích nhất thời của tuyến âm. Sự kích
thích này có thể xảy ra với sự cộng hưởng hoặc không cộng hưởng của dây
thanh tương ứng với âm tắc hữu thanh hoặc vô thanh.
c. Âm vi ̣
Tín hiệu tiếng nói là tín hiệu tương tự biểu diễn cho thông tin về mặt
ngôn ngữ và được mô tả bởi các âm vị khác nhau. Như vậy, âm vị là đơn vị
nhỏ nhất của ngôn ngữ. Tuỳ theo từng ngôn ngữ cụ thể mà số lượng các âm vị
nhiều hay ít (thông thường số lượng các âm vị vào khoảng 20 – 30). Các âm
vị được chia thành hai loại: nguyên âm và phụ âm.
+ Nguyên âm
Nguyên âm là âm hữu thanh được tạo ra bằng sự cộng hưởng của dây
thanh khi dòng khí được thanh môn đẩy lên. Khoang miệng được tạo lập
thành nhiều hình dạng nhất định tạo thành các nguyên âm khác nhau. Số
lượng các nguyên âm phụ thuộc vào từng ngôn ngữ nhất định.
+ Phụ âm
Phụ âm được tạo ra bởi các dòng khí hỗn loạn được phát ra gần những
điểm co thắt của đường dẫn âm thanh do cách phát âm tạo thành. Phụ âm có
đặc tính hữu thanh hay vô thanh tuỳ thuộc vào việc dây thanh có dao động để
tạo nên cộng hưởng không. Dòng không khí tại chỗ đóng của vòm miệng tạo
ra phụ âm tắc. Phụ âm xát được phát ra từ chỗ co thắt lớn nhất.
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
10
1.2.2. Các đă ̣c tính khác
a. Tỷ suấ t thời gian
Trong khi nói chuyện, khoảng thời gian nói và khoảng thời gian nghỉ xen
kẽ nhau. Tỷ lệ % thời gian nói trên tổng số thời gian nói và nghỉ được gọi là
tỷ suất thời gian. Giá trị này biến đổi tuỳ thuộc vào tốc độ nói và từ đó ta có
thể phân loại thành nói nhanh, nói chậm hay nói bình thường.
b. Hàm năng lượng ngắ n ha ̣n
Hàm năng lượng thời gian ngắn của tiếng nói được tính bằng cách chia
tín hiệu tiếng nói thành nhiều khung, mỗi khung chứa N mẫu. Các khung này
được đưa qua một cửa sổ có dạng hàm như sau:
Hàm năng lượng ngắn tại mẫu thứ m được tính theo công thức sau:
Thông thường có ba dạng cửa sổ được sử dụng đó là cửa sổ Hamming,
cửa sổ Hanning và cửa sổ chữ nhật. Hàm năng lượng thời gian ngắn của âm
hữu thanh thường lớn hơn so với âm vô thanh.
c. Tầ n số cơ bản
Dạng sóng của tiếng nói gồm hai phần: Phần gần giống nhiễu (trong đó
biên độ biến đổi ngẫu nhiên) và phần có tính chu kỳ (trong đó tín hiệu lặp lại
gần như tuần hoàn). Phần tín hiệu có tính chu kỳ chứa các thành phần tần số
có dạng điều hòa. Tần số thấp nhất chính là tần số cơ bản và cũng chính là tần
số dao động của dây thanh. Đối với những người nói khác nhau, tần số cơ bản
cũng khác nhau. Dưới đây là một số giá trị tần số cơ bản tương ứng với từng
giới tính và độ tuổi.
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
- Xem thêm -