BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
--------------------------------------
NGUYỄN QUANG HƯNG
NGHIÊN CỨU CÁC PHƯƠNG PHÁP MÃ HÓA
VÀ NHẬN TIẾNG NÓI
LUẬN VĂN THẠC SĨ NGÀNH XỬ LÍ THÔNG TIN VÀ
TRUYỀN THÔNG
Hà Nội 2004
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
--------------------------------------
NGUYỄN QUANG HƯNG
NGHIÊN CỨU CÁC PHƯƠNG PHÁP MÃ HÓA
VÀ NHẬN TIẾNG NÓI
LUẬN VĂN THẠC SĨ NGÀNH XỬ LÍ THÔNG TIN VÀ
TRUYỀN THÔNG
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. TRỊNH VĂN LOAN
Hà Nội 2004
Mục lục
Lời nói đầu ........................................................................................................................................ ii
Chương 1: Tổng quan về mã hóa tiếng nói 1 ................................................................................ 1
1.1.
Tín hiệu tiếng nói và mã hóa tín hiệu tiếng nói ............................................................ 1
1.2.
Lịch sử phát triển............................................................................................................ 2
1.3.
Quá trình tạo và thu nhận tiếng nói .............................................................................. 4
1.3.1.
Quá trình tạo tiếng nói ............................................................................................. 5
1.3.2.
Quá trình thu nhận tiếng nói .................................................................................... 6
1.4.
Các đặc tính của tiếng nói .............................................................................................. 8
1.4.1.
Tính chất vật lý của tiếng nói ................................................................................... 8
1.4.2.
Đặc tính âm học ..................................................................................................... 10
1.4.3.
Đặc tính ngữ âm ..................................................................................................... 11
1.4.4.
Ngữ điệu (intonation) ............................................................................................. 12
1.4.5.
Xử lý tín hiệu tiếng nói .......................................................................................... 13
Chương 2: Phương pháp mã hóa dạng sóng................................................................................ 14
2.1.
Mã hóa theo miền thời gian ......................................................................................... 14
2.1.1.
Phương pháp điều chế xung mã (PCM) ................................................................. 14
2.1.2.
Phương pháp điều chế xung mã vi sai DPCM. ...................................................... 17
2.1.3.
2.1.3. Phương pháp điều chế xung mã vi sai thích nghi ADPCM ......................... 19
2.2.
Mã hóa theo miền tần số .............................................................................................. 21
2.2.1.
Mã hóa băng con (Sub-band Coding) .................................................................... 21
2.2.2.
Phương pháp mã hóa biến đổi (Transform Coders) ............................................... 23
Chương 3: Các phương pháp mã hóa nguồn ............................................................................... 27
3.1.
Mã hóa kênh (Channel Vocoder) ................................................................................ 27
3.2.
Mã hóa formant (formant vocoder) ............................................................................ 29
3.3.
Mã hóa đồng hình (Homomorphic Vocoder) ............................................................. 32
3.4.
Mã hóa dự đoán tuyến tính LPC (Linear Predictive Coding) .................................. 34
Chương 4: Mã hóa dự đoán tuyến tính bằng phương pháp phân tích - tổng hợp ................... 40
4.1.
Mô hình phân tích bằng tổng hợp (Analysis by Synthesis) ....................................... 40
4.1.1.
Nguyên lý hoạt động của mô hình AbS ................................................................. 42
4.1.2.
Dự đoán trong khoảng thời gian ngắn (Short term Predictor) ............................... 43
4.1.3.
Dự đoán trong khoảng thời gian dài (Long Term Predictor) ................................. 43
4.1.4.
Bộ lọc tính toán sai số có trọng số ......................................................................... 47
4.2.
Mã hóa bằng phương pháp kích thích đa xung (MPE) ............................................. 48
4.2.1.
Biên độ và vị trí xung............................................................................................. 48
4.2.2.
Thuật toán tối ưu một phần cho phương pháp MPE .............................................. 50
4.3.
Kích thích xung phổ biến (RPE).................................................................................. 52
4.4.
Phương pháp kích thích bảng mã (CELP-Code Excitation Linear Prediction) ..... 53
4.4.1.
Nguyên lý CELP .................................................................................................... 54
4.4.2.
Phương pháp CELP................................................................................................ 55
4.4.3.
Lượng tử hóa véctơ (VQ-Vector Quantization) ..................................................... 58
4.4.4.
Giải thuật LD- CELP (Low-Delay CELP) ............................................................ 60
4.5.
Bộ mã hóa LD-CELP.................................................................................................... 61
4.6.
Bộ giải mã LD-CELP.................................................................................................... 66
Kết luận ........................................................................................................................................... 67
Phụ lục A ......................................................................................................................................... 71
Phụ lục B ......................................................................................................................................... 72
i
danh mục các hình
Hình 1.1. Hệ thống phát âm ............................................................................................................... 5
Hình 1.2. Cấu tạo của tai .................................................................................................................... 7
Hình 1.3. Tín hiệu âm hữu thanh và vô thanh .................................................................................... 9
Hình 2.1. Mã hóa PCM .................................................................................................................... 15
Hình 2.2. Lược đồ luật nén A và luật nén ..................................................................................... 16
Hình 2.3. Mã hóa DPCM sai khác ................................................................................................... 17
Hình 2.4. Sơ đồ hệ thống mã hóa DPCM........................................................................................ 19
Hình 2.5. Sơ đồ hệ thống mã hóa ADPCM .................................................................................... 20
Hình 2.6. Sơ đồ mã hóa băng con (Sub-band) ................................................................................ 23
Hình 2.7. Bộ mã hóa biến đổi .......................................................................................................... 24
Hình 3.1. Bộ mã hóa kênh (Channel Vocoder) ............................................................................... 28
Hình 3.2. Bộ tổng hợp formant nối tiếp .......................................................................................... 31
Hình 3.3. Bộ tổng hợp formant song song ....................................................................................... 31
Hình 3.4. Sơ đồ khối bộ mã hóa đồng hình..................................................................................... 33
Hình 3.5. Bộ lọc dự đoán tuyến tính ................................................................................................ 34
Hình 4.1. Mô hình tổng quát phương pháp mã hóa phân tích bởi tổng hợp AbS .................................... 41
Hình 4.2. Mô hình tổng quát bộ mã hóa AbS LPC .......................................................................... 44
Hình 4.3. Mô hình bộ mã hóa kích thích đa xung MPE ................................................................... 49
Hình 4.4. Mô hình bộ mã hóa kích hoạt bảng mã CELP ................................................................. 56
Hình 4.5. Lượng tử hóa vectơ (VQ) trong không gian hai chiều ..................................................... 59
Hình 4.6. Mã hóa LD-CELP ............................................................................................................ 61
i
danh mục các từ viết tắt
AbS
Analysis by Synthesis
Phõn tớch bởi tổng hợp
ADPCM
Adaptive Differential Pulse
Code Modulation
Điều chế xung mó vi phõn tương thớch
CELP
Codebook Excited Linear Prediction
Dự đoỏn tuyến tớnh kớch thớch từ mó
DPCM
Differential Pulse Code Modulation
Điều chế xung mó vi phõn
LD-CELP
Low-Delay Codebook Excited
Linear Prediction
Dự đoỏn tuyến tớnh kớch thớch từ mó
thời gian trễ thấp
LPC
Linear Predictive Coding
Mó húa dự đoỏn tuyến tớnh
MPE
Multi-Pulse Excitation
Kớch thớch đa xung
PCM
Pulse Code Modulation
Điều chế xung mó
RPE
Regular Pulse Excitation
Kớch thớch xung phổ biến
i
Luận văn thạc sỹ
Lời nói đầu
Công nghệ thông tin và thông tin di động ngày nay có thể coi là
những công cụ hữu ích trong mọi mặt của đời sống, nó đóng một vai trò quan
trọng trong khoa học cũng như sự phát triển chung của xã hội. Vì thế đã có rất
nhiều nghiên cứu nhằm ngày càng hoàn thiện, nâng cao chất lượng cũng như
khả năng của chúng và đã thu được những bước tiến vượt bậc trong những
lĩnh vực trên.
Trong hai thập kỷ trước chúng ta đã chứng kiến những tiến bộ vượt
bậc trong các ứng dụng mã hóa tiếng nói tốc độ thấp mà đáng chú ý nhất là
khả năng của các bộ mã hóa này trong việc tạo ra tiếng nói chất lượng cao với
tốc độ bit thấp. Hàng loạt các giải thuật mã hóa đã ra đời, ứng dụng trong các
hệ thống đòi hỏi mã hóa tiếng nói tốc độ thấp và đã thu được những kết quả
rất khả quan. Trong số đó có rất nhiều giải thuật được áp dụng rộng rãi và trở
thành tiêu chuẩn của CCITT cho các hệ thống thông tin di động và điện thoại
Internet. Nguyên lý của hầu hết các bộ mã hóa đó là biểu diễn tính chất của
phổ tiếng nói, đưa ra dạng sóng tiếng nói phù hợp và tối ưu khả năng giải mã
để tiếng nói tạo ra có chất lượng tốt nhất.
Mục đích của bản luận văn là cung cấp một cái nhìn tổng quan về các
phương pháp mã hóa tiếng nói hiện nay trong đó tập trung vào nghiên cứu,
phân tích các giải thuật mã hóa tiếng nói tốc độ thấp được ứng dụng rộng rãi
trong các hệ thông tin hiện nay. Bản luận văn bắt đầu với chương 1 trình bày
tổng quan về các tính chất của tiếng nói cũng như lịch sử của mã hóa tiếng nói
tốc độ thấp. Sau đó tiếp tục nghiên cứu các phương pháp mã hóa tiếng nói:
mã hóa dạng sóng, mã hóa nguồn, mã hóa lai. Cuối cùng, bản luận văn đưa ra
một sự so sánh về các phương pháp mã hóa trên hai phương diện là chất
lượng tiếng nói và tốc độ bit và các xu hướng nghiên cứu phát triển trong
tương lai.
ii
Luận văn thạc sỹ
Đề tài “Nghiên cứu các phương pháp mã hóa và nén tiếng nói” bao
gồm 4 chương như sau:
Chương 1: Tổng quan về mã hóa tiếng nói. Chương này tìm hiểu về quá trình
tạo tiếng nói, các tính chất của tiếng nói.
Chương 2: Phương pháp mã hóa dạng sóng. Trong chương này nghiên cứu về
các phương pháp mã hóa tiếng nói dựa trên mã hóa dạng sóng như PCM,
DPCM, ADPCM.
Chương 3: Phương pháp mã hóa nguồn. Chương này nghiên cứu các thuật
toán mã hóa tiếng nói tốc độ thấp sử dụng phương pháp mã hóa nguồn như
LPC, Channel, Formant Vocoder.
Chương 4: Phương pháp mã hóa Dự đoán tuyến tính bằng phân tích - tổng
hợp. Trong chương này nghiên cứu về các giải thuật mã hóa tiếng nói bằng
phương pháp phân tích bởi tổng hợp như MPE, RPE, CELP.
Nhân đây tôi xin gửi lời cảm ơn chân thành tới thầy giáo TS.Trịnh Văn
Loan đã tận tình hướng dẫn, cho tôi những kiến thức bổ ích trong suốt quá
trình thực hiện bản luận văn này. Tôi cũng xin chân thành cảm ơn bạn bè của
tôi đã cho tôi những kiến thức quý giá giúp tôi hoàn thành bản luận văn này.
Hà nội, tháng 11/2004
Nguyễn Quang Hưng
iii
Luận văn thạc sỹ
Chương 1: Tổng quan về mã hóa tiếng nói
1
1.1. Tín hiệu tiếng nói và mã hóa tín hiệu tiếng nói
Tiếng nói là một phương thức trao đổi suy nghĩ, một công cụ giao tiếp
bằng hệ thống phát âm không thể thiếu được trong quá trình giao tiếp của con
người. Lời nói là kết quả phức hợp của hành động tự nguyện và có sự phối
hợp của cơ quan hô hấp và nhai. Hành động này diễn ra dưới sự kiểm soát của
cơ quan thần kinh trung ương, bộ phận này thường xuyên nhận được thông tin
phản hồi bằng những tác động ngược của bộ phận thính giác và cảm giác.
Cùng với sự phát triển của công nghệ thông tin và công nghệ viễn
thông, các ứng dụng dựa trên tiếng nói cũng ngày càng được ứng dụng rộng
rãi. Vì vậy việc nghiên cứu và xử lý tín hiệu tiếng nói có ý nghĩa rất lớn trong
đời sống con người. Hiện nay, có hai cách thức truyền tiếng nói: truyền tương
tự và truyền số hóa. Với sự ra đời của công nghệ kỹ thuật số, các tín hiệu dữ
liệu nói chung và tín hiệu tiếng nói nói riêng đã được số hóa và truyền đi một
cách hiệu quả hơn nhiều so với quá trình truyền các tín hiệu tương tự. Các tín
hiệu tương tự truyền đi thường bị méo hoặc nhiễu trong quá trình truyền do
nhạy cảm với nhiễu và dễ bị ảnh hưởng bởi các yếu tố bên ngoài thì tín hiệu
số có thể xử lý làm giảm độ méo và ít bị ảnh hưởng bởi nhiễu trên đường
truyền. Tuy nhiên một điều bất cập là để truyền tín hiệu tiếng nói số hóa cần
độ rộng băng tần lớn hơn nhiều so với truyền một tín hiệu tương tự tương
đương. Mặt khác tiếng nói số hóa chưa nén chiếm một khoảng không gian lưu
trữ rất lớn. Ví dụ, để số hóa tín hiệu tiếng nói dạng tương tự bằng phương
pháp điều chế xung mã PCM cần 64Kbps dữ liệu. Để truyền một tín hiệu số
cần 1 Hz băng thông vô tuyến cho mỗi b/s, như vậy nếu không nén tín hiệu thì
để truyền tiếng nói tương tự 64Kbps PCM cần một kênh truyền với băng
XLTT & TT 2002
1
Luận văn thạc sỹ
thông là 64KHz cho tiếng nói số. Điều này là hoàn toàn không khả thi vì cũng
với tín hiệu tương đương, mã hóa FM chỉ dùng 25-30KHz băng thông. Chính
vì vậy cần phải có những thuật toán nén và mã hóa tiếng nói để tối ưu hóa
việc truyền tiếng nói.
Như vậy có thể định nghĩa, mã hóa tiếng nói thực chất là quá trình làm
giảm tốc độ truyền bit của tín hiệu tiếng nói số nhằm tối ưu hóa việc truyền và
lưu trữ dữ liệu mà vẫn giữ được chất lượng tín hiệu ở mức tốt hoặc chấp nhận
được.
Khả năng của quá trình nén tiếng nói được tập trung vào các kỹ thuật
như tăng cường khả năng truyền thông ở khoảng cách xa và lưu trữ tiếng nói
chất lượng cao. Kỹ thuật nén tiếng nói hiện nay vẫn là một kỹ thuật chủ chốt
trong truyền thông mặc cho những triển vọng về truyền tín hiệu với băng
thông không hạn chế trong môi trường truyền quang bởi do chúng ta vẫn cần
có những kỹ thuật nhằm tận dụng tối đa những môi trường truyền thông với
băng thông hạn chế. Băng thông của tín hiệu được thể hiện thông qua tốc độ
bit mã hóa của nó thì kỹ thuật mã hóa tiếng nói tốc độ bit thấp là một nhân tố
đáp ứng các nhu cầu ngày càng tăng của các dịch vụ truyền thông vô tuyến.
Trong những năm gần đây đã có rất nhiều bước tiến vượt bậc trong việc thực
hiện mã hóa tiếng nói chất lượng cao, tốc độ bit thấp, chi phí rẻ do những tiến
bộ nhanh chóng trong kỹ thuật xử lý tín hiệu số.
1.2. Lịch sử phát triển
Những nghiên cứu về mã hóa tiếng nói đã được bắt đầu từ hơn 60 năm
trước với những nghiên cứu bước đầu của Home Dudley làm tại phòng thí
nghiệm của công ty điện thoại Bell Telephone. Vào thời kỳ này những nghiên
cứu về mã hóa tiếng nói chủ yếu nhằm mục đích sao cho có thể truyền tín
hiệu tiếng nói qua đường cáp điện tín có băng tần thấp. Dudley đã chứng
minh bằng các thực nghiệm của mình về độ dư thừa trong tín hiệu tiếng nói
và đưa ra giải pháp phân tích-tổng hợp đầu tiên cho việc mã hóa tiếng nói. ý
XLTT & TT 2002
2
Luận văn thạc sỹ
tưởng chủ đạo trong bộ mã hóa tiếng nói (vocoder) của Dudley là phân tích
tiếng nói dưới dạng các cao độ (pitch) và phổ (spectrum) sau đó tổng hợp lại
bằng cách kích thích một chuỗi 10 bộ lọc thông dải tương tự (thể hiện cho
thanh quản) với các kích thích tuần hoàn (buzz) hay ngẫu nhiên (hiss) (lần
lượt thể hiện cho âm hữu thanh hay vô thanh). Bộ mã hóa vocoder kênh
truyền nhận được sự quan tâm rất lớn trong suốt Thế chiến thứ 2 bởi tiềm
năng truyền tiếng nói mã hóa một cách hiệu quả của nó. Những bộ mã hóa
tương thích mẫu và mã hóa formant cùng với sự tiến bộ của kỹ thuật tương tự
trong các bộ mã hóa tiếng nói kênh truyền (channel vocoder) là đề tài thảo
luận trong suốt thập kỷ 50 và 60. Trong bộ mã hóa formant đặc tính cộng
hưởng của chuỗi bộ lọc sẽ “bắt” sự di chuyển của các formant. Còn trong bộ
mã hóa tương thích mẫu, nó sẽ so sánh và xác định mẫu phù hợp nhất giữa
phổ tiếng nói thời gian ngắn với tập hợp các mẫu đáp ứng tần số được lưu
giữ, sau đó bằng việc kích thích các bộ lọc kênh kết hợp với mẫu tìm được
tiếng nói sẽ được tạo ra. Về bản chất bộ mã hóa tương thích mẫu là hệ thống
phân tích-tổng hợp đầu tiên sử dụng hoàn toàn sự lượng tử vectơ.
Mặc dù bộ thực hiện mã hóa vocoder ban đầu dựa trên sự biểu diễn
tiếng nói là tín hiệu tương tự nhưng sau đó sự biểu diễn dưới dạng tín hiệu số
đã nhanh chóng thu hút được sự quan tâm lớn do tiềm năng lớn của nó trong
việc mã hóa, truyền và lưu trữ với độ trung thực cao. Thập kỷ 40 đã chứng
kiến rất nhiều thực nghiệm trong việc mã hóa tiếng nói sử dụng điều chế xung
mã (PCM). Điều chế xung mã là phương pháp không phức tạp trong quá trình
xấp xỉ biên độ và thời gian rời rạc của dạng sóng tương tự và cũng không có
bất kỳ một cơ chế nào để loại bỏ dư thừa. Các phương pháp lượng tử hóa đã
mở đầu cho sự tương quan tín hiệu, các phương pháp như Điều chế xung mã
sai khác (DPCM), điều chế Delta (DM) và điều chế DPCM tương thích
(ADPCM) được đề xuất sau đó không lâu và mã hóa tiếng nói sử dụng PCM
tốc độ 64kbits/s và ADPCM tốc độ 32kbits/s đã trở thành tiêu chuẩn của
CCITT.
XLTT & TT 2002
3
Luận văn thạc sỹ
Với khả năng linh hoạt của máy tính số, đã xuất hiện các cuộc thử
nghiệm trong lĩnh vực số hóa tiếng nói với kỹ thuật phức tạp hơn. Các cố
gắng bước đầu chỉ tập trung vào số hóa quá trình thực hiện bộ vocoder. Tuy
nhiên sau đó cũng có rất nhiều hoạt động tập trung vào việc tạo tiếng nói
tuyến tính bằng mã hóa nguồn được Fant phát triển vào cuối thập kỷ 50. Mô
hình này sau đó được phát triển thành hệ thống mã hóa nguồn tiếng nói quen
thuộc như biểu diễn trong hình 3.1. Mô hình này bao gồm một hệ thống thay
đổi tuyến tính chậm theo thời gian (cho thanh quản và thanh môn) được kích
thích bằng chuỗi xung tuần hoàn (cho âm hữu thanh) và ngẫu nhiên (cho âm
vô thanh).
Mô hình mã hóa nguồn sau đó kết hợp với các phương pháp chuỗi thời
gian Autoregressive (AR) mà bộ lọc cho thanh quản là toàn điểm cực và các
thông số của nó đạt được nhờ quá trình phân tích dự đoán tuyến tính, là quá
trình mà các mẫu hiện tại được dự đoán dựa trên việc kết hợp các mẫu trước
đó. Itakura & Saito và Atal & Schroeder là những người tiên phong trong lĩnh
việc áp dụng dự đoán tuyến tính vào tiếng nói. Atal và Hananuer sau đó đã
đưa ra một mô hình phân tích- tổng hợp dựa trên dự đoán tuyến tính. Các khía
cạnh về lý thuyết và thực tiễn của dự đoán tuyến tính sau đó được Markel và
Gray kiểm chứng, vần đề phân tích phổ tiếng nói sử dụng dự đoán tuyến tính
được Makhoul và Wolf đề xuất.
Những sự nổi trội của công nghệ VLSI cùng với những tiến bộ vượt
bậc trong lý thuyết xử lý tín hiệu số trong thập kỷ 60 và 70 đã thúc đẩy các
nhà khoa học sáng tạo và tăng cường các phương pháp trong vấn đề mã hóa
tiếng nói.
1.3. Quá trình tạo và thu nhận tiếng nói
Để hiểu được các nguyên lý của các bộ mã hóa và giải mã tiếng nói,
trước tiên ta hãy xem xét quá trình tạo và thu nhận tiếng nói trong bộ máy
phát âm của con người.
XLTT & TT 2002
4
Luận văn thạc sỹ
1.3.1. Quá trình tạo tiếng nói
Tất cả các âm tiếng nói đều được tạo ra bằng luồng không khí được đẩy
lên từ một bộ phận của cơ quan hô hấp là phổi sau đó đi qua thanh môn và
môi (Một người trưởng thành thanh môn có thể dài xấp xỉ 17cm). Trong quá
trình tạo tiếng nói, phổi đóng vai trò như một nguồn cung cấp khí để đẩy vào
khí quản và đưa lên thanh môn. Hai dây thanh là hai môi nằm đối xứng nhau
ngang thanh quản, hai môi này có thể tạo ra độ mở hình tam giác có diện tích
từ 0 đến 20cm2. Sau đó không khí sẽ được đi qua tuyến âm, tuyến âm là tập
hợp những bộ phận nằm giữa thanh môn và môi như khoang hầu, khoang
miệng và khoang mũi…
Khi phát âm, lồng ngực sẽ được mở rộng và thu hẹp lại để tạo ra luồng
không khí được đẩy lên từ phổi vào khí quản đi qua thanh môn, ở đây không
khí có thể bị thay đổi sau đó tiếp tục được chuyển lên tuyến âm và bức xạ tại
môi. Quá trình tạo tiếng nói như vậy được chia làm hai loại: âm vô thanh và
âm hữu thanh.
Hình 1.1. Hệ thống phát âm
XLTT & TT 2002
5
Luận văn thạc sỹ
Âm vô thanh (unvoiced) được tạo thành khi hai dây thanh mở và luồng
không khí đẩy lên từ phổi đi qua một cách tự do. Trạng thái của dây thanh
trong quá trình này cũng tương đương với trạng thái trong khi thở. Cũng trong
quá trình phát ra âm vô thanh, dây thanh sẽ không rung, không khí chỉ tạo
thành luồng xoáy khi đi qua tuyến âm.
Đối với âm hữu thanh (voiced), không khí được đẩy lên nhờ áp lực phổi
khi đi qua thanh môn sẽ làm dây thanh rung. Tần số rung và tốc độ rung được
xác định thông qua độ dài, độ căng của dây thanh và sức đẩy của luồng không
khí được đẩy lên từ phổi. Tần số rung và tốc độ rung sẽ quyết định độ cao của
giọng nói. Tần số rung này được gọi là tần số đỉnh (pitch frequency), thông
thường tần số đỉnh nằm trong khoảng tần số 50-400Hz. Giọng nói của phụ nữ
và trẻ em thường có có tần số cao hơn của nam giới do dây thanh của họ
thường ngắn hơn.
1.3.2. Quá trình thu nhận tiếng nói
Giác quan thu nhận tiếng nói là thành phần khó hiểu nhất trong hệ
thống giao tiếp bằng tiếng nói của con người. Hiểu biết của con người về quá
trình bộ não làm thế nào để giải mã được những thông tin âm thanh mà nó
nhận được là rất hạn chế. Tuy nhiên chúng ta lại biết rất rõ về bộ phận thu
nhận âm thanh là tai người đóng vai trò như thế nào trong quá trình này. Biểu
đồ sơ lược về cấu tạo của tai được biểu diễn trong hình 1.2.
XLTT & TT 2002
6
Luận văn thạc sỹ
Hình 1.2. Cấu tạo của tai
Tai người được chia làm ba phần chính: tai ngoài, tai giữa và tai trong.
Tai ngoài (outer) bao gồm loa tai (pinna) hay còn gọi là thuỳ tai (ear lobe) và
ống tai ngoài (external auditory canal). Chức năng chính của tai ngoài là thu
nhận âm thanh vào tai và giúp ta định hướng âm thanh, ống tai ngoài có chức
năng hướng âm thanh vào trong tai giữa. Chiều dài của ống tai ngoài xấp xỉ
2.7 cm và có một đầu nằm sát ngay màng nhĩ, do vậy có thể coi đó là một ống
cộng hưởng ở tần số 3055Hz.
Màng nhĩ thực chất là một màng cứng có chiều dày xấp xỉ 0.1mm, có
cạnh mềm dẻo (giống như màng loa). Khi sóng âm đập vào màng nhĩ làm nó
rung lên, sự rung của màng nhĩ này sẽ được truyền đến kết cấu 3-xương trong
tai giữa và từ đây được chuyển tiếp tới tai trong. Cấu trúc xương này được
xem như một bộ chuyển đổi và làm cho tương thích với trở kháng âm của tai
trong với trở kháng của không khí. Các cơ được nối với những xương này
nhằm mục đích triệt tiêu quá trình xung nếu nó quá mạnh và do đó tai trong sẽ
được bảo vệ. Tuy nhiên nó chỉ có thể bảo vệ tai trong đối với những âm thanh
có tần số dưới 2kHz. Vòi Eustachian nối tai giữa với tuyến âm và có chức
năng loại bỏ bất cứ sự sai khác nào về áp suất tĩnh giữa tai giữa và tai ngoài.
Nếu phát hiện thấy bất cứ sai khác nào về áp suất thì vòi Eustachian sẽ mở và
sẽ loại bỏ sự sai lệch này.
Tai trong bao gồm một ống hình bán nguyệt, ốc tai và các đầu dây thần
kinh nghe. Chức năng của ống hình bán nguyệt là điều chỉnh sự cân bằng. ốc
tai bên trong chứa dịch lỏng và dạng hình xoắn ốc (giống vỏ ốc). Bên trong ốc
tai chứa có một màng gọi là màng Basilar. Màng Basilar có chức năng biến
đổi các tín hiệu âm thanh dạng cơ học thành các tín hiệu mà các dây thần kinh
có thể cảm nhận. Các tần số khác nhau sẽ kích thích các thành phần khác
nhau của màng Basilar từ đó thực hiện quá trình phân tích tần số. Do vậy về
cơ bản tai là một bộ phân tích phổ tần số có đáp ứng với cường độ âm của tín
hiệu. Độ phân giải tần số là lớn nhất ở những tần số thấp.
XLTT & TT 2002
7
Luận văn thạc sỹ
Tương tự như bất kỳ một bộ thu nhận tín hiệu nào, tai cũng có ngưỡng
giới hạn về độ cảm nhận. Tai không thể cảm nhận được với các âm thanh quá
nhỏ, đó gọi là ngưỡng nghe. Ngưỡng nghe thay đổi phụ thuộc vào tần số và
có thể tăng lên tại một tần số bất kỳ nếu có những tín hiệu biên độ lớn xuất
hiện gần với những tần số có biên độ nhỏ hơn. Hiện tượng này được gọi là
“masking” và nó được sử dụng rộng rãi trong mã hóa tiếng nói. Như vậy nếu
ta có thể tập trung nhiễu lượng tử xung quanh tín hiệu formant thì người nghe
sẽ không cảm nhận được tín hiệu nhiễu này.
1.4. Các đặc tính của tiếng nói
1.4.1. Tính chất vật lý của tiếng nói
Tín hiệu tiếng nói là một quá trình không dừng và ở điều kiện tối ưu
nhất có thể xem tiếng nói là gần như dừng trong những khoảng thời gian
ngắn, thông thường là 5-20ms. Do vậy các đặc tính phổ và đặc tính thống kê
của tín hiệu tiếng nói được định nghĩa trong những khoảng thời gian ngắn.
Những âm thanh tiếng nói khác nhau được phân biệt bằng tai dựa trên phổ
thời gian ngắn.
Với âm hữu thanh (được tạo thành khi phát âm các nguyên âm), tuyến âm
thực hiện chức năng như một hộp cộng hưởng. Với hầu hết mọi người, tần số
cộng hưởng thường tập trung ở tần số 500Hz và các họa ba lẻ của nó. Quá
trình cộng hưởng này tạo ra các đỉnh rất lớn trong phổ tín hiệu tiếng nói được
gọi là các formant, formant của tiếng nói chứa đựng hầu hết các thông tin có
trong tín hiệu. Cấu trúc formant (đường bao phổ) được hình thành dựa trên sự
tương tác giữa nguồn âm và tuyến âm. Với một tuyến âm thông thường có từ
3 đến 5 formant phân bố ở tần số dưới 5 kHz, trong đó biên độ và vị trí của 3
formant đầu tiên thường nằm dưới tần số 3 kHz. Biên độ và vị trí của 3
formant đầu là rất quan trọng trong việc phân tích và thu nhận tiếng nói. Ta
nhận thấy rằng trong dạng formant ở tần số lớn hơn 4kHz có dạng như tín
XLTT & TT 2002
8
Luận văn thạc sỹ
hiệu nhiễu, phổ tín hiệu cũng dao động trong khoảng rộng và chỉ cho qua
tiếng nói tần số thấp.
a) Âm hữu thanh
b) Âm vô thanh
Hình 1.3. Tín hiệu âm hữu thanh và vô thanh
Tín hiệu âm hữu thanh là dạng tín hiệu giả ngẫu nhiên trong miền thời
gian và có dạng điều hòa trong miền tần số. Dạng tín hiệu tiếng nói trong
miền thời gian và miền tần số được biểu diễn như trong hình 1.3. Ngoài ra,
âm mũi cũng được xếp vào dạng âm hữu thanh, âm mũi được tạo thành khi
khoang miệng đóng lại, vòm miệng mềm hạ thấp xuống để ghép khoang mũi
với tuyến âm tạo nên âm mũi.
Âm vô thanh (phát âm s, f,…) được tạo ra khi tuyến âm được đẩy gần
môi. Ta nhận thấy rằng trong cả hai miền thời gian và tần số, tín hiệu của âm
vô thanh là không tuần hoàn và có dạng như tín hiệu nhiễu. Phổ tín hiệu phân
XLTT & TT 2002
9
Luận văn thạc sỹ
bố đều trong khoảng tần số từ 0-8kHz và có xu hướng bằng phẳng tại tần số
cao. Năng lượng của âm vô thanh thấp hơn so với âm hữu thanh.
1.4.2. Đặc tính âm học
Âm thanh của tiếng nói thực chất là các sóng âm lan truyền trong một
môi trường nhất định (thông thường là không khí). Sóng âm bắt nguồn từ dây
thanh của người nói, khi chúng ta phát âm làm dây thanh rung và tạo nên sóng
âm, sóng âm này sẽ tiếp tục lan truyền trong không khí và đến tai người nghe
rồi đập vào màng nhĩ. Do tiếng nói cũng một loại sóng âm nên chúng có một
số đặc tính âm học của âm thanh như sau:
a, Cao độ (pitch)
Cao độ là độ cao hay thấp của âm thanh được quyết định bởi sự rung
của dây thanh. Dây thanh rung với tần số nhanh sẽ cho ta những âm cao, dây
thanh rung chậm sẽ cho những âm thấp. Đơn vị đo cao độ được dùng ở đây là
Hz để đo số chu kỳ dao động thực hiện được trong một giây, gọi là tần số.
Tần số càng cao thì âm thanh phát ra cũng càng cao. Do cấu tạo dây thanh
khác nhau mà tần số tạo ra phụ thuộc vào giới tính và lứa tuối của người phát
âm (Phụ nữ và trẻ em thường có tần số cao hơn nam giới và người lớn tuổi.
b. Cường độ (volume)
Cường độ là độ mạnh của âm thanh được quyết định bởi sự biến thiên
dao động dây âm thanh. Đơn vị đo cường độ là Decibel (dB). Trong lời nói,
cường độ tương đối giữa các bộ phận là yếu tố cơ bản tạo nên trọng âm
c. Âm sắc (phonetics)
Âm sắc là sắc thái của âm thanh. Trong tự nhiên, hầu hết các âm thanh
tự nhiên cũng như âm thanh của lời nói đều là phức hợp, được tạo thành từ
các âm cơ bản và các họa âm về cao độ và cường độ. Trong đó âm cơ bản là
âm có tần số thấp nhất, họa âm là các âm có tần số bằng bội số lần tần số âm
cơ bản. Âm thanh khi đi qua yết hầu, miệng, mũi sẽ xảy ra hiện tượng cộng
hưởng tại các khoang rỗng này và tùy từng điều kiện mà họa âm nào sẽ được
XLTT & TT 2002
10
Luận văn thạc sỹ
tăng cường. Sự tương quan giữa âm cơ bản và các họa âm mà tạo nên các âm
sắc khác nhau. Sự khác nhau về âm sắc là do sự phân bố vị trí môi, lưỡi, vòm
miệng của từng người. Các âm sắc sẽ tạo ra các nguyên âm khác nhau.
d. Trường độ (length)
Trường độ là độ dài của âm thanh tạo nên sự khác nhau giữa các bộ
phận của lời nói. Nó cũng là một yếu tố tạo nên trọng âm, tạo nên sự khác biệt
giữa nguyên âm này và nguyên âm khác.
1.4.3. Đặc tính ngữ âm
a. Thanh điệu
Thanh điệu là sự thay đổi cao độ giọng nói bởi sự phân biệt các từ khác
nhau trong một âm tiết theo một tần số cơ bản.
Thanh điệu bao gồm hai loại hình
- Thanh điệu âm vực (register tone): là loại chỉ đơn thuần chỉ phân biệt
độ cao theo mức trên thang bậc cao độ, tức là từ đầu đến cuối quá trình phát
âm không hề có sự biến đổi về cao độ, sự phân biệt chỉ là mức cao thấp khác
nhau mà thôi.
- Thanh điệu hình tuyến (contour tone): là thanh điệu có sự phân biệt sự
di chuyển từ cao độ thấp lên cao hoặc từ cao xuống thấp. Chúng được mô tả
là những đường cong lên xuống. Sự biến thiên cao độ theo thời gian được
miêu tả bằng một đường cong biểu diễn đi từ mức cao độ này đến mức cao độ
khác.
Mỗi ngôn ngữ có một hệ thống thanh điệu riêng, thông thường nó sẽ
tạo lên ngữ điệu của ngôn ngữ.
b. Trọng âm
Trọng âm là phương pháp làm nổi bật một đơn vị ngôn ngữ để phân
biệt với một đơn vị ngôn ngữ khác cùng cấp. Trọng âm được thực hiện do tần
số dao động của dây thanh trên các đơn vị ngôn ngữ cùng chức năng. Tuỳ
XLTT & TT 2002
11
Luận văn thạc sỹ
thuộc vào nhân tố thực hiện dao động dây thanh, người ta chia làm ba loại
trọng âm:
- Trọng âm lực tính: là trọng âm được thực hiện bằng sức mạnh của
luồng hơi, âm tiết có trọng âm được phát ra mạnh hơn âm tiết không có trọng
âm.
- Trọng âm nhạc tính: là trọng âm được thực hiện bằng cao độ thông
qua việc tăng cường hoặc suy giảm tần số dao động của dây thanh. Âm tiết có
trọng âm được phát ra cao hơn âm tiết không có trọng âm.
- Trọng âm lượng tính: là trọng âm được thực hiện bằng cường độ âm,
âm tiết có trọng âm được phát ra dài hơn âm tiết không có trọng âm.
Ba nhân tố tạo nên trọng âm có thể phối hợp đồng thời hoặc tuỳ theo
từng ngôn ngữ mà một trong những nhân tố trên được ưu tiên thực hiện.
Trong một số ngôn ngữ, trọng âm được sử dụng để phân biệt ngữ nghĩa.
Trọng âm còn được sử dụng để phân ranh giới lời nói, trong một chuỗi lời nói
căn cứ vào trọng âm ta có thể biết đến đâu là một từ đã kết thúc hoặc đang bắt
đầu.
1.4.4. Ngữ điệu (intonation)
Ngữ điệu là sự biến đổi cao độ trong lời nói xảy ra trong một chuỗi âm
thanh lớn hơn âm tiết. Cũng như thanh điệu, ngữ điệu được thực thực hiện do
tần số dao động của dây thanh nhưng khác nhau là nó xuất hiện trên một ngữ
đoạn hay cả một câu và do đó khác nhau về chức năng. Ngữ điệu đảm bảo các
chức năng trong ngôn ngữ như:
- Chức năng cú pháp để phân biệt câu trần thuật, câu hỏi, câu cảm thán,
vv…
- Chức năng biểu cảm để thể hiện cảm xúc, trạng thái…của người nói.
- Chức năng phân biệt ý nghĩa khác nhau của câu khi câu có cùng một kết cấu
ngữ pháp.
XLTT & TT 2002
12
Luận văn thạc sỹ
1.4.5. Xử lý tín hiệu tiếng nói
Xử lý tín hiệu tiếng nói là xử lý thông tin chứa trong tín hiệu tiếng nói.
Mục đích của quá trình này là truyền tiếng nói hay lưu trữ hoặc tổng hợp hay
nhận dạng tiếng nói. Có rất nhiều nghiên cứu trong lĩnh vực xử lý tiếng nói
nhưng chủ yếu tập trung vào 3 chủ đề chính là: biểu diễn tín hiệu tiếng nói
dưới dạng số, thực hiện xử lý tiếng nói, ứng dụng xử lý tiếng nói. Trong
khuôn khổ của luận văn chỉ đề cập đến vấn đề biểu diễn tín hiệu tiếng nói
dưới dạng số hay còn gọi là mã hóa tiếng nói.
Phương pháp biểu diễn tín hiệu tiếng nói có rất nhiều nhưng chủ yếu
được chia làm hai loại chính: mã hóa dạng sóng và mã hóa các tham số của
tiếng nói. Mã hóa tiếng nói dạng sóng là kiểu mã hóa trực tiếp dạng tín hiệu
sóng của tiếng nói thông qua quá trình lấy mẫu và lượng tử hóa. Mã hóa các
tham số tiếng nói là kiểu mã hóa các thông số đặc trưng của tiếng nói để sau
đó khôi phục lại bằng một mô hình tạo tiếng nói từ các tham số này. Do vậy,
với cùng một dạng tín hiệu tiếng nói, tốc độ bit của phương pháp mã hóa dạng
sóng thường cao hơn nhiều so với tốc độ bit của phương pháp mã hóa tham
số. Tất nhiên tốc độ bit càng thấp càng có lợi cho việc truyền, lưu trữ và xử lý
tín hiệu tiếng nói. Trong các ứng dụng tiếng nói ngày nay, xu hướng là đều sử
dụng các phương pháp mã hóa tiếng nói tốc độ thấp nhưng vẫn đảm bảo được
chất lượng tiếng nói. Do vậy đã có rất nhiều nghiên cứu khác nhau tập trung
vào lĩnh vực này. Dưới đây chúng ta sẽ xem xét các xu hướng nghiên cứu
hiện nay trong mã hóa tiếng nói.
XLTT & TT 2002
13
- Xem thêm -