Tài liệu Nghiên cứu các phương pháp mã hoá và nén tiếng nói

.PDF

147

thanhphoquetoi Báo vi phạm

Tải xuống 147

Mô tả:

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI -------------------------------------- NGUYỄN QUANG HƯNG NGHIÊN CỨU CÁC PHƯƠNG PHÁP MÃ HÓA VÀ NHẬN TIẾNG NÓI LUẬN VĂN THẠC SĨ NGÀNH XỬ LÍ THÔNG TIN VÀ TRUYỀN THÔNG Hà Nội 2004 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI -------------------------------------- NGUYỄN QUANG HƯNG NGHIÊN CỨU CÁC PHƯƠNG PHÁP MÃ HÓA VÀ NHẬN TIẾNG NÓI LUẬN VĂN THẠC SĨ NGÀNH XỬ LÍ THÔNG TIN VÀ TRUYỀN THÔNG NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. TRỊNH VĂN LOAN Hà Nội 2004 Mục lục Lời nói đầu ........................................................................................................................................ ii Chương 1: Tổng quan về mã hóa tiếng nói 1 ................................................................................ 1 1.1. Tín hiệu tiếng nói và mã hóa tín hiệu tiếng nói ............................................................ 1 1.2. Lịch sử phát triển............................................................................................................ 2 1.3. Quá trình tạo và thu nhận tiếng nói .............................................................................. 4 1.3.1. Quá trình tạo tiếng nói ............................................................................................. 5 1.3.2. Quá trình thu nhận tiếng nói .................................................................................... 6 1.4. Các đặc tính của tiếng nói .............................................................................................. 8 1.4.1. Tính chất vật lý của tiếng nói ................................................................................... 8 1.4.2. Đặc tính âm học ..................................................................................................... 10 1.4.3. Đặc tính ngữ âm ..................................................................................................... 11 1.4.4. Ngữ điệu (intonation) ............................................................................................. 12 1.4.5. Xử lý tín hiệu tiếng nói .......................................................................................... 13 Chương 2: Phương pháp mã hóa dạng sóng................................................................................ 14 2.1. Mã hóa theo miền thời gian ......................................................................................... 14 2.1.1. Phương pháp điều chế xung mã (PCM) ................................................................. 14 2.1.2. Phương pháp điều chế xung mã vi sai DPCM. ...................................................... 17 2.1.3. 2.1.3. Phương pháp điều chế xung mã vi sai thích nghi ADPCM ......................... 19 2.2. Mã hóa theo miền tần số .............................................................................................. 21 2.2.1. Mã hóa băng con (Sub-band Coding) .................................................................... 21 2.2.2. Phương pháp mã hóa biến đổi (Transform Coders) ............................................... 23 Chương 3: Các phương pháp mã hóa nguồn ............................................................................... 27 3.1. Mã hóa kênh (Channel Vocoder) ................................................................................ 27 3.2. Mã hóa formant (formant vocoder) ............................................................................ 29 3.3. Mã hóa đồng hình (Homomorphic Vocoder) ............................................................. 32 3.4. Mã hóa dự đoán tuyến tính LPC (Linear Predictive Coding) .................................. 34 Chương 4: Mã hóa dự đoán tuyến tính bằng phương pháp phân tích - tổng hợp ................... 40 4.1. Mô hình phân tích bằng tổng hợp (Analysis by Synthesis) ....................................... 40 4.1.1. Nguyên lý hoạt động của mô hình AbS ................................................................. 42 4.1.2. Dự đoán trong khoảng thời gian ngắn (Short term Predictor) ............................... 43 4.1.3. Dự đoán trong khoảng thời gian dài (Long Term Predictor) ................................. 43 4.1.4. Bộ lọc tính toán sai số có trọng số ......................................................................... 47 4.2. Mã hóa bằng phương pháp kích thích đa xung (MPE) ............................................. 48 4.2.1. Biên độ và vị trí xung............................................................................................. 48 4.2.2. Thuật toán tối ưu một phần cho phương pháp MPE .............................................. 50 4.3. Kích thích xung phổ biến (RPE).................................................................................. 52 4.4. Phương pháp kích thích bảng mã (CELP-Code Excitation Linear Prediction) ..... 53 4.4.1. Nguyên lý CELP .................................................................................................... 54 4.4.2. Phương pháp CELP................................................................................................ 55 4.4.3. Lượng tử hóa véctơ (VQ-Vector Quantization) ..................................................... 58 4.4.4. Giải thuật LD- CELP (Low-Delay CELP) ............................................................ 60 4.5. Bộ mã hóa LD-CELP.................................................................................................... 61 4.6. Bộ giải mã LD-CELP.................................................................................................... 66 Kết luận ........................................................................................................................................... 67 Phụ lục A ......................................................................................................................................... 71 Phụ lục B ......................................................................................................................................... 72 i danh mục các hình Hình 1.1. Hệ thống phát âm ............................................................................................................... 5 Hình 1.2. Cấu tạo của tai .................................................................................................................... 7 Hình 1.3. Tín hiệu âm hữu thanh và vô thanh .................................................................................... 9 Hình 2.1. Mã hóa PCM .................................................................................................................... 15 Hình 2.2. Lược đồ luật nén A và luật nén  ..................................................................................... 16 Hình 2.3. Mã hóa DPCM sai khác ................................................................................................... 17 Hình 2.4. Sơ đồ hệ thống mã hóa DPCM........................................................................................ 19 Hình 2.5. Sơ đồ hệ thống mã hóa ADPCM .................................................................................... 20 Hình 2.6. Sơ đồ mã hóa băng con (Sub-band) ................................................................................ 23 Hình 2.7. Bộ mã hóa biến đổi .......................................................................................................... 24 Hình 3.1. Bộ mã hóa kênh (Channel Vocoder) ............................................................................... 28 Hình 3.2. Bộ tổng hợp formant nối tiếp .......................................................................................... 31 Hình 3.3. Bộ tổng hợp formant song song ....................................................................................... 31 Hình 3.4. Sơ đồ khối bộ mã hóa đồng hình..................................................................................... 33 Hình 3.5. Bộ lọc dự đoán tuyến tính ................................................................................................ 34 Hình 4.1. Mô hình tổng quát phương pháp mã hóa phân tích bởi tổng hợp AbS .................................... 41 Hình 4.2. Mô hình tổng quát bộ mã hóa AbS LPC .......................................................................... 44 Hình 4.3. Mô hình bộ mã hóa kích thích đa xung MPE ................................................................... 49 Hình 4.4. Mô hình bộ mã hóa kích hoạt bảng mã CELP ................................................................. 56 Hình 4.5. Lượng tử hóa vectơ (VQ) trong không gian hai chiều ..................................................... 59 Hình 4.6. Mã hóa LD-CELP ............................................................................................................ 61 i danh mục các từ viết tắt AbS Analysis by Synthesis Phõn tớch bởi tổng hợp ADPCM Adaptive Differential Pulse Code Modulation Điều chế xung mó vi phõn tương thớch CELP Codebook Excited Linear Prediction Dự đoỏn tuyến tớnh kớch thớch từ mó DPCM Differential Pulse Code Modulation Điều chế xung mó vi phõn LD-CELP Low-Delay Codebook Excited Linear Prediction Dự đoỏn tuyến tớnh kớch thớch từ mó thời gian trễ thấp LPC Linear Predictive Coding Mó húa dự đoỏn tuyến tớnh MPE Multi-Pulse Excitation Kớch thớch đa xung PCM Pulse Code Modulation Điều chế xung mó RPE Regular Pulse Excitation Kớch thớch xung phổ biến i Luận văn thạc sỹ Lời nói đầu Công nghệ thông tin và thông tin di động ngày nay có thể coi là những công cụ hữu ích trong mọi mặt của đời sống, nó đóng một vai trò quan trọng trong khoa học cũng như sự phát triển chung của xã hội. Vì thế đã có rất nhiều nghiên cứu nhằm ngày càng hoàn thiện, nâng cao chất lượng cũng như khả năng của chúng và đã thu được những bước tiến vượt bậc trong những lĩnh vực trên. Trong hai thập kỷ trước chúng ta đã chứng kiến những tiến bộ vượt bậc trong các ứng dụng mã hóa tiếng nói tốc độ thấp mà đáng chú ý nhất là khả năng của các bộ mã hóa này trong việc tạo ra tiếng nói chất lượng cao với tốc độ bit thấp. Hàng loạt các giải thuật mã hóa đã ra đời, ứng dụng trong các hệ thống đòi hỏi mã hóa tiếng nói tốc độ thấp và đã thu được những kết quả rất khả quan. Trong số đó có rất nhiều giải thuật được áp dụng rộng rãi và trở thành tiêu chuẩn của CCITT cho các hệ thống thông tin di động và điện thoại Internet. Nguyên lý của hầu hết các bộ mã hóa đó là biểu diễn tính chất của phổ tiếng nói, đưa ra dạng sóng tiếng nói phù hợp và tối ưu khả năng giải mã để tiếng nói tạo ra có chất lượng tốt nhất. Mục đích của bản luận văn là cung cấp một cái nhìn tổng quan về các phương pháp mã hóa tiếng nói hiện nay trong đó tập trung vào nghiên cứu, phân tích các giải thuật mã hóa tiếng nói tốc độ thấp được ứng dụng rộng rãi trong các hệ thông tin hiện nay. Bản luận văn bắt đầu với chương 1 trình bày tổng quan về các tính chất của tiếng nói cũng như lịch sử của mã hóa tiếng nói tốc độ thấp. Sau đó tiếp tục nghiên cứu các phương pháp mã hóa tiếng nói: mã hóa dạng sóng, mã hóa nguồn, mã hóa lai. Cuối cùng, bản luận văn đưa ra một sự so sánh về các phương pháp mã hóa trên hai phương diện là chất lượng tiếng nói và tốc độ bit và các xu hướng nghiên cứu phát triển trong tương lai. ii Luận văn thạc sỹ Đề tài “Nghiên cứu các phương pháp mã hóa và nén tiếng nói” bao gồm 4 chương như sau: Chương 1: Tổng quan về mã hóa tiếng nói. Chương này tìm hiểu về quá trình tạo tiếng nói, các tính chất của tiếng nói. Chương 2: Phương pháp mã hóa dạng sóng. Trong chương này nghiên cứu về các phương pháp mã hóa tiếng nói dựa trên mã hóa dạng sóng như PCM, DPCM, ADPCM. Chương 3: Phương pháp mã hóa nguồn. Chương này nghiên cứu các thuật toán mã hóa tiếng nói tốc độ thấp sử dụng phương pháp mã hóa nguồn như LPC, Channel, Formant Vocoder. Chương 4: Phương pháp mã hóa Dự đoán tuyến tính bằng phân tích - tổng hợp. Trong chương này nghiên cứu về các giải thuật mã hóa tiếng nói bằng phương pháp phân tích bởi tổng hợp như MPE, RPE, CELP. Nhân đây tôi xin gửi lời cảm ơn chân thành tới thầy giáo TS.Trịnh Văn Loan đã tận tình hướng dẫn, cho tôi những kiến thức bổ ích trong suốt quá trình thực hiện bản luận văn này. Tôi cũng xin chân thành cảm ơn bạn bè của tôi đã cho tôi những kiến thức quý giá giúp tôi hoàn thành bản luận văn này. Hà nội, tháng 11/2004 Nguyễn Quang Hưng iii Luận văn thạc sỹ Chương 1: Tổng quan về mã hóa tiếng nói 1 1.1. Tín hiệu tiếng nói và mã hóa tín hiệu tiếng nói Tiếng nói là một phương thức trao đổi suy nghĩ, một công cụ giao tiếp bằng hệ thống phát âm không thể thiếu được trong quá trình giao tiếp của con người. Lời nói là kết quả phức hợp của hành động tự nguyện và có sự phối hợp của cơ quan hô hấp và nhai. Hành động này diễn ra dưới sự kiểm soát của cơ quan thần kinh trung ương, bộ phận này thường xuyên nhận được thông tin phản hồi bằng những tác động ngược của bộ phận thính giác và cảm giác. Cùng với sự phát triển của công nghệ thông tin và công nghệ viễn thông, các ứng dụng dựa trên tiếng nói cũng ngày càng được ứng dụng rộng rãi. Vì vậy việc nghiên cứu và xử lý tín hiệu tiếng nói có ý nghĩa rất lớn trong đời sống con người. Hiện nay, có hai cách thức truyền tiếng nói: truyền tương tự và truyền số hóa. Với sự ra đời của công nghệ kỹ thuật số, các tín hiệu dữ liệu nói chung và tín hiệu tiếng nói nói riêng đã được số hóa và truyền đi một cách hiệu quả hơn nhiều so với quá trình truyền các tín hiệu tương tự. Các tín hiệu tương tự truyền đi thường bị méo hoặc nhiễu trong quá trình truyền do nhạy cảm với nhiễu và dễ bị ảnh hưởng bởi các yếu tố bên ngoài thì tín hiệu số có thể xử lý làm giảm độ méo và ít bị ảnh hưởng bởi nhiễu trên đường truyền. Tuy nhiên một điều bất cập là để truyền tín hiệu tiếng nói số hóa cần độ rộng băng tần lớn hơn nhiều so với truyền một tín hiệu tương tự tương đương. Mặt khác tiếng nói số hóa chưa nén chiếm một khoảng không gian lưu trữ rất lớn. Ví dụ, để số hóa tín hiệu tiếng nói dạng tương tự bằng phương pháp điều chế xung mã PCM cần 64Kbps dữ liệu. Để truyền một tín hiệu số cần 1 Hz băng thông vô tuyến cho mỗi b/s, như vậy nếu không nén tín hiệu thì để truyền tiếng nói tương tự 64Kbps PCM cần một kênh truyền với băng XLTT & TT 2002 1 Luận văn thạc sỹ thông là 64KHz cho tiếng nói số. Điều này là hoàn toàn không khả thi vì cũng với tín hiệu tương đương, mã hóa FM chỉ dùng 25-30KHz băng thông. Chính vì vậy cần phải có những thuật toán nén và mã hóa tiếng nói để tối ưu hóa việc truyền tiếng nói. Như vậy có thể định nghĩa, mã hóa tiếng nói thực chất là quá trình làm giảm tốc độ truyền bit của tín hiệu tiếng nói số nhằm tối ưu hóa việc truyền và lưu trữ dữ liệu mà vẫn giữ được chất lượng tín hiệu ở mức tốt hoặc chấp nhận được. Khả năng của quá trình nén tiếng nói được tập trung vào các kỹ thuật như tăng cường khả năng truyền thông ở khoảng cách xa và lưu trữ tiếng nói chất lượng cao. Kỹ thuật nén tiếng nói hiện nay vẫn là một kỹ thuật chủ chốt trong truyền thông mặc cho những triển vọng về truyền tín hiệu với băng thông không hạn chế trong môi trường truyền quang bởi do chúng ta vẫn cần có những kỹ thuật nhằm tận dụng tối đa những môi trường truyền thông với băng thông hạn chế. Băng thông của tín hiệu được thể hiện thông qua tốc độ bit mã hóa của nó thì kỹ thuật mã hóa tiếng nói tốc độ bit thấp là một nhân tố đáp ứng các nhu cầu ngày càng tăng của các dịch vụ truyền thông vô tuyến. Trong những năm gần đây đã có rất nhiều bước tiến vượt bậc trong việc thực hiện mã hóa tiếng nói chất lượng cao, tốc độ bit thấp, chi phí rẻ do những tiến bộ nhanh chóng trong kỹ thuật xử lý tín hiệu số. 1.2. Lịch sử phát triển Những nghiên cứu về mã hóa tiếng nói đã được bắt đầu từ hơn 60 năm trước với những nghiên cứu bước đầu của Home Dudley làm tại phòng thí nghiệm của công ty điện thoại Bell Telephone. Vào thời kỳ này những nghiên cứu về mã hóa tiếng nói chủ yếu nhằm mục đích sao cho có thể truyền tín hiệu tiếng nói qua đường cáp điện tín có băng tần thấp. Dudley đã chứng minh bằng các thực nghiệm của mình về độ dư thừa trong tín hiệu tiếng nói và đưa ra giải pháp phân tích-tổng hợp đầu tiên cho việc mã hóa tiếng nói. ý XLTT & TT 2002 2 Luận văn thạc sỹ tưởng chủ đạo trong bộ mã hóa tiếng nói (vocoder) của Dudley là phân tích tiếng nói dưới dạng các cao độ (pitch) và phổ (spectrum) sau đó tổng hợp lại bằng cách kích thích một chuỗi 10 bộ lọc thông dải tương tự (thể hiện cho thanh quản) với các kích thích tuần hoàn (buzz) hay ngẫu nhiên (hiss) (lần lượt thể hiện cho âm hữu thanh hay vô thanh). Bộ mã hóa vocoder kênh truyền nhận được sự quan tâm rất lớn trong suốt Thế chiến thứ 2 bởi tiềm năng truyền tiếng nói mã hóa một cách hiệu quả của nó. Những bộ mã hóa tương thích mẫu và mã hóa formant cùng với sự tiến bộ của kỹ thuật tương tự trong các bộ mã hóa tiếng nói kênh truyền (channel vocoder) là đề tài thảo luận trong suốt thập kỷ 50 và 60. Trong bộ mã hóa formant đặc tính cộng hưởng của chuỗi bộ lọc sẽ “bắt” sự di chuyển của các formant. Còn trong bộ mã hóa tương thích mẫu, nó sẽ so sánh và xác định mẫu phù hợp nhất giữa phổ tiếng nói thời gian ngắn với tập hợp các mẫu đáp ứng tần số được lưu giữ, sau đó bằng việc kích thích các bộ lọc kênh kết hợp với mẫu tìm được tiếng nói sẽ được tạo ra. Về bản chất bộ mã hóa tương thích mẫu là hệ thống phân tích-tổng hợp đầu tiên sử dụng hoàn toàn sự lượng tử vectơ. Mặc dù bộ thực hiện mã hóa vocoder ban đầu dựa trên sự biểu diễn tiếng nói là tín hiệu tương tự nhưng sau đó sự biểu diễn dưới dạng tín hiệu số đã nhanh chóng thu hút được sự quan tâm lớn do tiềm năng lớn của nó trong việc mã hóa, truyền và lưu trữ với độ trung thực cao. Thập kỷ 40 đã chứng kiến rất nhiều thực nghiệm trong việc mã hóa tiếng nói sử dụng điều chế xung mã (PCM). Điều chế xung mã là phương pháp không phức tạp trong quá trình xấp xỉ biên độ và thời gian rời rạc của dạng sóng tương tự và cũng không có bất kỳ một cơ chế nào để loại bỏ dư thừa. Các phương pháp lượng tử hóa đã mở đầu cho sự tương quan tín hiệu, các phương pháp như Điều chế xung mã sai khác (DPCM), điều chế Delta (DM) và điều chế DPCM tương thích (ADPCM) được đề xuất sau đó không lâu và mã hóa tiếng nói sử dụng PCM tốc độ 64kbits/s và ADPCM tốc độ 32kbits/s đã trở thành tiêu chuẩn của CCITT. XLTT & TT 2002 3 Luận văn thạc sỹ Với khả năng linh hoạt của máy tính số, đã xuất hiện các cuộc thử nghiệm trong lĩnh vực số hóa tiếng nói với kỹ thuật phức tạp hơn. Các cố gắng bước đầu chỉ tập trung vào số hóa quá trình thực hiện bộ vocoder. Tuy nhiên sau đó cũng có rất nhiều hoạt động tập trung vào việc tạo tiếng nói tuyến tính bằng mã hóa nguồn được Fant phát triển vào cuối thập kỷ 50. Mô hình này sau đó được phát triển thành hệ thống mã hóa nguồn tiếng nói quen thuộc như biểu diễn trong hình 3.1. Mô hình này bao gồm một hệ thống thay đổi tuyến tính chậm theo thời gian (cho thanh quản và thanh môn) được kích thích bằng chuỗi xung tuần hoàn (cho âm hữu thanh) và ngẫu nhiên (cho âm vô thanh). Mô hình mã hóa nguồn sau đó kết hợp với các phương pháp chuỗi thời gian Autoregressive (AR) mà bộ lọc cho thanh quản là toàn điểm cực và các thông số của nó đạt được nhờ quá trình phân tích dự đoán tuyến tính, là quá trình mà các mẫu hiện tại được dự đoán dựa trên việc kết hợp các mẫu trước đó. Itakura & Saito và Atal & Schroeder là những người tiên phong trong lĩnh việc áp dụng dự đoán tuyến tính vào tiếng nói. Atal và Hananuer sau đó đã đưa ra một mô hình phân tích- tổng hợp dựa trên dự đoán tuyến tính. Các khía cạnh về lý thuyết và thực tiễn của dự đoán tuyến tính sau đó được Markel và Gray kiểm chứng, vần đề phân tích phổ tiếng nói sử dụng dự đoán tuyến tính được Makhoul và Wolf đề xuất. Những sự nổi trội của công nghệ VLSI cùng với những tiến bộ vượt bậc trong lý thuyết xử lý tín hiệu số trong thập kỷ 60 và 70 đã thúc đẩy các nhà khoa học sáng tạo và tăng cường các phương pháp trong vấn đề mã hóa tiếng nói. 1.3. Quá trình tạo và thu nhận tiếng nói Để hiểu được các nguyên lý của các bộ mã hóa và giải mã tiếng nói, trước tiên ta hãy xem xét quá trình tạo và thu nhận tiếng nói trong bộ máy phát âm của con người. XLTT & TT 2002 4 Luận văn thạc sỹ 1.3.1. Quá trình tạo tiếng nói Tất cả các âm tiếng nói đều được tạo ra bằng luồng không khí được đẩy lên từ một bộ phận của cơ quan hô hấp là phổi sau đó đi qua thanh môn và môi (Một người trưởng thành thanh môn có thể dài xấp xỉ 17cm). Trong quá trình tạo tiếng nói, phổi đóng vai trò như một nguồn cung cấp khí để đẩy vào khí quản và đưa lên thanh môn. Hai dây thanh là hai môi nằm đối xứng nhau ngang thanh quản, hai môi này có thể tạo ra độ mở hình tam giác có diện tích từ 0 đến 20cm2. Sau đó không khí sẽ được đi qua tuyến âm, tuyến âm là tập hợp những bộ phận nằm giữa thanh môn và môi như khoang hầu, khoang miệng và khoang mũi… Khi phát âm, lồng ngực sẽ được mở rộng và thu hẹp lại để tạo ra luồng không khí được đẩy lên từ phổi vào khí quản đi qua thanh môn, ở đây không khí có thể bị thay đổi sau đó tiếp tục được chuyển lên tuyến âm và bức xạ tại môi. Quá trình tạo tiếng nói như vậy được chia làm hai loại: âm vô thanh và âm hữu thanh. Hình 1.1. Hệ thống phát âm XLTT & TT 2002 5 Luận văn thạc sỹ Âm vô thanh (unvoiced) được tạo thành khi hai dây thanh mở và luồng không khí đẩy lên từ phổi đi qua một cách tự do. Trạng thái của dây thanh trong quá trình này cũng tương đương với trạng thái trong khi thở. Cũng trong quá trình phát ra âm vô thanh, dây thanh sẽ không rung, không khí chỉ tạo thành luồng xoáy khi đi qua tuyến âm. Đối với âm hữu thanh (voiced), không khí được đẩy lên nhờ áp lực phổi khi đi qua thanh môn sẽ làm dây thanh rung. Tần số rung và tốc độ rung được xác định thông qua độ dài, độ căng của dây thanh và sức đẩy của luồng không khí được đẩy lên từ phổi. Tần số rung và tốc độ rung sẽ quyết định độ cao của giọng nói. Tần số rung này được gọi là tần số đỉnh (pitch frequency), thông thường tần số đỉnh nằm trong khoảng tần số 50-400Hz. Giọng nói của phụ nữ và trẻ em thường có có tần số cao hơn của nam giới do dây thanh của họ thường ngắn hơn. 1.3.2. Quá trình thu nhận tiếng nói Giác quan thu nhận tiếng nói là thành phần khó hiểu nhất trong hệ thống giao tiếp bằng tiếng nói của con người. Hiểu biết của con người về quá trình bộ não làm thế nào để giải mã được những thông tin âm thanh mà nó nhận được là rất hạn chế. Tuy nhiên chúng ta lại biết rất rõ về bộ phận thu nhận âm thanh là tai người đóng vai trò như thế nào trong quá trình này. Biểu đồ sơ lược về cấu tạo của tai được biểu diễn trong hình 1.2. XLTT & TT 2002 6 Luận văn thạc sỹ Hình 1.2. Cấu tạo của tai Tai người được chia làm ba phần chính: tai ngoài, tai giữa và tai trong. Tai ngoài (outer) bao gồm loa tai (pinna) hay còn gọi là thuỳ tai (ear lobe) và ống tai ngoài (external auditory canal). Chức năng chính của tai ngoài là thu nhận âm thanh vào tai và giúp ta định hướng âm thanh, ống tai ngoài có chức năng hướng âm thanh vào trong tai giữa. Chiều dài của ống tai ngoài xấp xỉ 2.7 cm và có một đầu nằm sát ngay màng nhĩ, do vậy có thể coi đó là một ống cộng hưởng ở tần số 3055Hz. Màng nhĩ thực chất là một màng cứng có chiều dày xấp xỉ 0.1mm, có cạnh mềm dẻo (giống như màng loa). Khi sóng âm đập vào màng nhĩ làm nó rung lên, sự rung của màng nhĩ này sẽ được truyền đến kết cấu 3-xương trong tai giữa và từ đây được chuyển tiếp tới tai trong. Cấu trúc xương này được xem như một bộ chuyển đổi và làm cho tương thích với trở kháng âm của tai trong với trở kháng của không khí. Các cơ được nối với những xương này nhằm mục đích triệt tiêu quá trình xung nếu nó quá mạnh và do đó tai trong sẽ được bảo vệ. Tuy nhiên nó chỉ có thể bảo vệ tai trong đối với những âm thanh có tần số dưới 2kHz. Vòi Eustachian nối tai giữa với tuyến âm và có chức năng loại bỏ bất cứ sự sai khác nào về áp suất tĩnh giữa tai giữa và tai ngoài. Nếu phát hiện thấy bất cứ sai khác nào về áp suất thì vòi Eustachian sẽ mở và sẽ loại bỏ sự sai lệch này. Tai trong bao gồm một ống hình bán nguyệt, ốc tai và các đầu dây thần kinh nghe. Chức năng của ống hình bán nguyệt là điều chỉnh sự cân bằng. ốc tai bên trong chứa dịch lỏng và dạng hình xoắn ốc (giống vỏ ốc). Bên trong ốc tai chứa có một màng gọi là màng Basilar. Màng Basilar có chức năng biến đổi các tín hiệu âm thanh dạng cơ học thành các tín hiệu mà các dây thần kinh có thể cảm nhận. Các tần số khác nhau sẽ kích thích các thành phần khác nhau của màng Basilar từ đó thực hiện quá trình phân tích tần số. Do vậy về cơ bản tai là một bộ phân tích phổ tần số có đáp ứng với cường độ âm của tín hiệu. Độ phân giải tần số là lớn nhất ở những tần số thấp. XLTT & TT 2002 7 Luận văn thạc sỹ Tương tự như bất kỳ một bộ thu nhận tín hiệu nào, tai cũng có ngưỡng giới hạn về độ cảm nhận. Tai không thể cảm nhận được với các âm thanh quá nhỏ, đó gọi là ngưỡng nghe. Ngưỡng nghe thay đổi phụ thuộc vào tần số và có thể tăng lên tại một tần số bất kỳ nếu có những tín hiệu biên độ lớn xuất hiện gần với những tần số có biên độ nhỏ hơn. Hiện tượng này được gọi là “masking” và nó được sử dụng rộng rãi trong mã hóa tiếng nói. Như vậy nếu ta có thể tập trung nhiễu lượng tử xung quanh tín hiệu formant thì người nghe sẽ không cảm nhận được tín hiệu nhiễu này. 1.4. Các đặc tính của tiếng nói 1.4.1. Tính chất vật lý của tiếng nói Tín hiệu tiếng nói là một quá trình không dừng và ở điều kiện tối ưu nhất có thể xem tiếng nói là gần như dừng trong những khoảng thời gian ngắn, thông thường là 5-20ms. Do vậy các đặc tính phổ và đặc tính thống kê của tín hiệu tiếng nói được định nghĩa trong những khoảng thời gian ngắn. Những âm thanh tiếng nói khác nhau được phân biệt bằng tai dựa trên phổ thời gian ngắn. Với âm hữu thanh (được tạo thành khi phát âm các nguyên âm), tuyến âm thực hiện chức năng như một hộp cộng hưởng. Với hầu hết mọi người, tần số cộng hưởng thường tập trung ở tần số 500Hz và các họa ba lẻ của nó. Quá trình cộng hưởng này tạo ra các đỉnh rất lớn trong phổ tín hiệu tiếng nói được gọi là các formant, formant của tiếng nói chứa đựng hầu hết các thông tin có trong tín hiệu. Cấu trúc formant (đường bao phổ) được hình thành dựa trên sự tương tác giữa nguồn âm và tuyến âm. Với một tuyến âm thông thường có từ 3 đến 5 formant phân bố ở tần số dưới 5 kHz, trong đó biên độ và vị trí của 3 formant đầu tiên thường nằm dưới tần số 3 kHz. Biên độ và vị trí của 3 formant đầu là rất quan trọng trong việc phân tích và thu nhận tiếng nói. Ta nhận thấy rằng trong dạng formant ở tần số lớn hơn 4kHz có dạng như tín XLTT & TT 2002 8 Luận văn thạc sỹ hiệu nhiễu, phổ tín hiệu cũng dao động trong khoảng rộng và chỉ cho qua tiếng nói tần số thấp. a) Âm hữu thanh b) Âm vô thanh Hình 1.3. Tín hiệu âm hữu thanh và vô thanh Tín hiệu âm hữu thanh là dạng tín hiệu giả ngẫu nhiên trong miền thời gian và có dạng điều hòa trong miền tần số. Dạng tín hiệu tiếng nói trong miền thời gian và miền tần số được biểu diễn như trong hình 1.3. Ngoài ra, âm mũi cũng được xếp vào dạng âm hữu thanh, âm mũi được tạo thành khi khoang miệng đóng lại, vòm miệng mềm hạ thấp xuống để ghép khoang mũi với tuyến âm tạo nên âm mũi. Âm vô thanh (phát âm s, f,…) được tạo ra khi tuyến âm được đẩy gần môi. Ta nhận thấy rằng trong cả hai miền thời gian và tần số, tín hiệu của âm vô thanh là không tuần hoàn và có dạng như tín hiệu nhiễu. Phổ tín hiệu phân XLTT & TT 2002 9 Luận văn thạc sỹ bố đều trong khoảng tần số từ 0-8kHz và có xu hướng bằng phẳng tại tần số cao. Năng lượng của âm vô thanh thấp hơn so với âm hữu thanh. 1.4.2. Đặc tính âm học Âm thanh của tiếng nói thực chất là các sóng âm lan truyền trong một môi trường nhất định (thông thường là không khí). Sóng âm bắt nguồn từ dây thanh của người nói, khi chúng ta phát âm làm dây thanh rung và tạo nên sóng âm, sóng âm này sẽ tiếp tục lan truyền trong không khí và đến tai người nghe rồi đập vào màng nhĩ. Do tiếng nói cũng một loại sóng âm nên chúng có một số đặc tính âm học của âm thanh như sau: a, Cao độ (pitch) Cao độ là độ cao hay thấp của âm thanh được quyết định bởi sự rung của dây thanh. Dây thanh rung với tần số nhanh sẽ cho ta những âm cao, dây thanh rung chậm sẽ cho những âm thấp. Đơn vị đo cao độ được dùng ở đây là Hz để đo số chu kỳ dao động thực hiện được trong một giây, gọi là tần số. Tần số càng cao thì âm thanh phát ra cũng càng cao. Do cấu tạo dây thanh khác nhau mà tần số tạo ra phụ thuộc vào giới tính và lứa tuối của người phát âm (Phụ nữ và trẻ em thường có tần số cao hơn nam giới và người lớn tuổi. b. Cường độ (volume) Cường độ là độ mạnh của âm thanh được quyết định bởi sự biến thiên dao động dây âm thanh. Đơn vị đo cường độ là Decibel (dB). Trong lời nói, cường độ tương đối giữa các bộ phận là yếu tố cơ bản tạo nên trọng âm c. Âm sắc (phonetics) Âm sắc là sắc thái của âm thanh. Trong tự nhiên, hầu hết các âm thanh tự nhiên cũng như âm thanh của lời nói đều là phức hợp, được tạo thành từ các âm cơ bản và các họa âm về cao độ và cường độ. Trong đó âm cơ bản là âm có tần số thấp nhất, họa âm là các âm có tần số bằng bội số lần tần số âm cơ bản. Âm thanh khi đi qua yết hầu, miệng, mũi sẽ xảy ra hiện tượng cộng hưởng tại các khoang rỗng này và tùy từng điều kiện mà họa âm nào sẽ được XLTT & TT 2002 10 Luận văn thạc sỹ tăng cường. Sự tương quan giữa âm cơ bản và các họa âm mà tạo nên các âm sắc khác nhau. Sự khác nhau về âm sắc là do sự phân bố vị trí môi, lưỡi, vòm miệng của từng người. Các âm sắc sẽ tạo ra các nguyên âm khác nhau. d. Trường độ (length) Trường độ là độ dài của âm thanh tạo nên sự khác nhau giữa các bộ phận của lời nói. Nó cũng là một yếu tố tạo nên trọng âm, tạo nên sự khác biệt giữa nguyên âm này và nguyên âm khác. 1.4.3. Đặc tính ngữ âm a. Thanh điệu Thanh điệu là sự thay đổi cao độ giọng nói bởi sự phân biệt các từ khác nhau trong một âm tiết theo một tần số cơ bản. Thanh điệu bao gồm hai loại hình - Thanh điệu âm vực (register tone): là loại chỉ đơn thuần chỉ phân biệt độ cao theo mức trên thang bậc cao độ, tức là từ đầu đến cuối quá trình phát âm không hề có sự biến đổi về cao độ, sự phân biệt chỉ là mức cao thấp khác nhau mà thôi. - Thanh điệu hình tuyến (contour tone): là thanh điệu có sự phân biệt sự di chuyển từ cao độ thấp lên cao hoặc từ cao xuống thấp. Chúng được mô tả là những đường cong lên xuống. Sự biến thiên cao độ theo thời gian được miêu tả bằng một đường cong biểu diễn đi từ mức cao độ này đến mức cao độ khác. Mỗi ngôn ngữ có một hệ thống thanh điệu riêng, thông thường nó sẽ tạo lên ngữ điệu của ngôn ngữ. b. Trọng âm Trọng âm là phương pháp làm nổi bật một đơn vị ngôn ngữ để phân biệt với một đơn vị ngôn ngữ khác cùng cấp. Trọng âm được thực hiện do tần số dao động của dây thanh trên các đơn vị ngôn ngữ cùng chức năng. Tuỳ XLTT & TT 2002 11 Luận văn thạc sỹ thuộc vào nhân tố thực hiện dao động dây thanh, người ta chia làm ba loại trọng âm: - Trọng âm lực tính: là trọng âm được thực hiện bằng sức mạnh của luồng hơi, âm tiết có trọng âm được phát ra mạnh hơn âm tiết không có trọng âm. - Trọng âm nhạc tính: là trọng âm được thực hiện bằng cao độ thông qua việc tăng cường hoặc suy giảm tần số dao động của dây thanh. Âm tiết có trọng âm được phát ra cao hơn âm tiết không có trọng âm. - Trọng âm lượng tính: là trọng âm được thực hiện bằng cường độ âm, âm tiết có trọng âm được phát ra dài hơn âm tiết không có trọng âm. Ba nhân tố tạo nên trọng âm có thể phối hợp đồng thời hoặc tuỳ theo từng ngôn ngữ mà một trong những nhân tố trên được ưu tiên thực hiện. Trong một số ngôn ngữ, trọng âm được sử dụng để phân biệt ngữ nghĩa. Trọng âm còn được sử dụng để phân ranh giới lời nói, trong một chuỗi lời nói căn cứ vào trọng âm ta có thể biết đến đâu là một từ đã kết thúc hoặc đang bắt đầu. 1.4.4. Ngữ điệu (intonation) Ngữ điệu là sự biến đổi cao độ trong lời nói xảy ra trong một chuỗi âm thanh lớn hơn âm tiết. Cũng như thanh điệu, ngữ điệu được thực thực hiện do tần số dao động của dây thanh nhưng khác nhau là nó xuất hiện trên một ngữ đoạn hay cả một câu và do đó khác nhau về chức năng. Ngữ điệu đảm bảo các chức năng trong ngôn ngữ như: - Chức năng cú pháp để phân biệt câu trần thuật, câu hỏi, câu cảm thán, vv… - Chức năng biểu cảm để thể hiện cảm xúc, trạng thái…của người nói. - Chức năng phân biệt ý nghĩa khác nhau của câu khi câu có cùng một kết cấu ngữ pháp. XLTT & TT 2002 12 Luận văn thạc sỹ 1.4.5. Xử lý tín hiệu tiếng nói Xử lý tín hiệu tiếng nói là xử lý thông tin chứa trong tín hiệu tiếng nói. Mục đích của quá trình này là truyền tiếng nói hay lưu trữ hoặc tổng hợp hay nhận dạng tiếng nói. Có rất nhiều nghiên cứu trong lĩnh vực xử lý tiếng nói nhưng chủ yếu tập trung vào 3 chủ đề chính là: biểu diễn tín hiệu tiếng nói dưới dạng số, thực hiện xử lý tiếng nói, ứng dụng xử lý tiếng nói. Trong khuôn khổ của luận văn chỉ đề cập đến vấn đề biểu diễn tín hiệu tiếng nói dưới dạng số hay còn gọi là mã hóa tiếng nói. Phương pháp biểu diễn tín hiệu tiếng nói có rất nhiều nhưng chủ yếu được chia làm hai loại chính: mã hóa dạng sóng và mã hóa các tham số của tiếng nói. Mã hóa tiếng nói dạng sóng là kiểu mã hóa trực tiếp dạng tín hiệu sóng của tiếng nói thông qua quá trình lấy mẫu và lượng tử hóa. Mã hóa các tham số tiếng nói là kiểu mã hóa các thông số đặc trưng của tiếng nói để sau đó khôi phục lại bằng một mô hình tạo tiếng nói từ các tham số này. Do vậy, với cùng một dạng tín hiệu tiếng nói, tốc độ bit của phương pháp mã hóa dạng sóng thường cao hơn nhiều so với tốc độ bit của phương pháp mã hóa tham số. Tất nhiên tốc độ bit càng thấp càng có lợi cho việc truyền, lưu trữ và xử lý tín hiệu tiếng nói. Trong các ứng dụng tiếng nói ngày nay, xu hướng là đều sử dụng các phương pháp mã hóa tiếng nói tốc độ thấp nhưng vẫn đảm bảo được chất lượng tiếng nói. Do vậy đã có rất nhiều nghiên cứu khác nhau tập trung vào lĩnh vực này. Dưới đây chúng ta sẽ xem xét các xu hướng nghiên cứu hiện nay trong mã hóa tiếng nói. XLTT & TT 2002 13

- Xem thêm -

Tài liệu Nghiên cứu các phương pháp mã hoá và nén tiếng nói

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất