Đăng ký Đăng nhập
Trang chủ Mã hóa băng con ứng dụng trong xử lý tiếng việt ...

Tài liệu Mã hóa băng con ứng dụng trong xử lý tiếng việt

.PDF
86
223
95

Mô tả:

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI --------------------------------------- Lê Thị Huyền Trang Mà HÓA BĂNG CON ỨNG DỤNG TRONG XỬ LÝ TIẾNG VIỆT LUẬN VĂN THẠC SĨ KỸ THUẬT Chuyên ngành: Kỹ thuật viễn thông Hà Nội - 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI --------------------------------------- Lê Thị Huyền Trang Mà HÓA BĂNG CON ỨNG DỤNG TRONG XỬ LÝ TIẾNG VIỆT LUẬN VĂN THẠC SĨ KỸ THUẬT Chuyên ngành: Kỹ thuật viễn thông NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. NGUYỄN QUỐC TRUNG Hà Nội - 2016 LỜI CAM ĐOAN Tôi xin cam đoan: Những kết quả nghiên cứu, các số liệu, hình vẽ, bảng biểu, kết quả tính toán được trình bày trong luận văn là hoàn toàn trung thực, không vi phạm bất cứ điều gì trong luật sở hữu trí tuệ và pháp luật Việt Nam. TÁC GIẢ LUẬN VĂN Lê Thị Huyền Trang i DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT 1. L Hệ số nội suy của bộ lọc nội suy 2. M Hệ số phân chia của bộ lọc phân chia 3. N Bậc của bộ lọc 4. ni Hệ số phân chia của băng con thứ i 5. f Tần số (đơn vị Hz) 6. ω Tần số góc chuẩn hóa (đơn vị rad) 7. R Tốc độ bit trong SBC 8. e Lỗi khôi phục trong mã hóa băng con 9. ADPCM Adaptive Diferential PCM 10. Amplitude Modulation – In Band On Chuẩn phát thanh số trên AM-IBOC Channel băng tần AM truyền thống 11.ATC Adaptive Transform Coding Mã hóa biến đổi thích nghi 12. BPF Bandpass Filter Bộ lọc thông dải 13. DF Digital Filter Bộ lọc số 14. DM Delta Modulation Điều chế Delta 15. DPCM Differential PCM PCM vi sai 16. DFT Discrete Fourier Transform Biến đổi Fourier rời rạc 17. FFT Fast Fourier Transform Biến đổi Fourier nhanh 18. FIR Finite Impulse Response Đáp ứng xung hữu hạn 19. FM- Frequence Modulation – In Band On Chuẩn phát thanh số trên IBOC Channel băng tần FM truyền thống 20. HPF Highpass Filter Bộ lọc thông cao 21. IIR Infinite Impulse Response Đáp ứng xung vô hạn 22. ISO International Organization for Tổ chức tiêu chuẩn quốc tế PCM vi sai thích nghi Standardization 23. LPF Bộ lọc thông thấp Lowpass Filter ii 24. Motion Picture Experts Group/audio Nhóm chuyên gia hình ảnh chuyển động/âm thanh MPEG/audio 25. PCM Pulse Code Modulation Điều xung mã 26. QMF Quadrature Mirror Filter Bộ lọc gương cầu phương 27. SBC SubBand Coding Mã hóa băng con iii DANH MỤC CÁC BẢNG Trang Bảng 3.1: Bảng giá trị e trong SBC(88444) và SBC(8842), bTB=8bit/mẫu 72 với tiếng nói Tiếng Việt DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Trang Chương 1: Hình 1.1: Bộ phân chia 4 Hình 1.2: Bộ phân chia trong miền Z 4 Hình 1.3: Mạch lọc phân chia 6 Hình 1.4: Bộ nội suy 8 Hình 1.5: Biểu diễn phép nội suy trong miền Z 8 Hình 1.6: Bộ lọc nội suy 10 Hình 1.7: Bộ biến đổi nhịp lấy mẫu 12 Hình 1.8: Bộ biến đổi nhịp lấy mẫu hệ số M/L 12 Hình 1.9: Bộ lọc với hệ số lấy mẫu hữu tỷ 15 Hình 1.10: Sơ đồ bộ lọc biến đổi nhịp lấy mẫu 16 Hình 1.11: Bank lọc số phân tích 18 Hình 1.12: Bank lọc số tổng hợp 19 Hình 1.13: Bank lọc số nhiều nhịp hai kênh QMF 20 Hình 1.14: Đáp ứng biên độ 22 Hình 1.15: Sơ đồ tổng quát của bank lọc số M kênh 25 Hình 1.16: Cấu trúc dạng cây đơn phân giải của bank lọc phân tích 27 Hình 1.17: Cấu trúc dạng cây phân giải đều của bank lọc tổng hợp 28 Hình 1.18: Cấu trúc tương đương dạng cây phân giải đều 28 Hình 1.19: Cấu trúc dạng cây đa phân giải của bank lọc phân tích 29 Hình 1.20: Cấu trúc dạng cây đa phân giải của bank lọc tổng hợp 30 Hình 1.21: Cấu trúc tương đương dạng cây đa phân giải 31 iv Chương 2: Hình 2.1: Mô phỏng quá trình truyền tiếng nói trong không khí 32 Hình 2.2: Tín hiệu và phổ của tín hiệu 37 Hình 2.3: Bộ máy phát âm của con người 39 Hình 2.4: Mô tả dây thanh âm 40 Hình 2.5: Mô hình hệ xử lý biến đổi tín hiệu vào x(n) thành tín hiệu ra y(n) 41 Hình 2.6: Mô hình tạo tiếng nói (Fant – 1960) 44 Hình 2.7: Mô hình tạo tiếng nói 44 Hình 2.8: Biểu diễn tín hiệu tiếng nói 45 Hình 2.9: Chất lượng tiếng nói so với tốc độ bit của các bộ mã hoá 49 Hình 2.10: Mô hình tạo tiếng nói được sử dụng bởi mã hóa nguồn 52 Hình 2.11: Kiến trúc của mã hóa AbS. (a) Mã hóa. (b) Giải mã. 53 Chương 3: Hình 3.1: Sơ đồ mã hóa băng con tổng quát M kênh 55 Hình 3.2: Một đoạn file ghi âm tiếng dân tộc Tày (nam) 58 Hình 3.3: Một đoạn file ghi âm tiếng dân tộc Tày (nữ1) 58 Hình 3.4: Một đoạn file ghi âm tiếng dân tộc Tày (nữ2) 59 Hình 3.5: Biểu diễn formant f0, f1 59 Hình 3.6: Các băng con tương ứng với tổ hợp phân chia [88444] 61 Hình 3.7: Sơ đồ mã hóa băng con 5 kênh 62 Hình 3.8: Phổ tần của tín hiệu vào x(n) 62 Hình 3.9: Phổ tần của 5 tín hiệu băng con tại đầu ra các bộ lọc 63 Hình 3.10: Phổ tần của năm tín hiệu băng con tại đầu ra các bộ phân chia 65 Hình 3.11: Phổ tần của năm tín hiệu băng con tại đầu ra các bộ nội suy 67 Hình 3.12: Đáp ứng tần số của dàn lọc QMF 69 Hình 3.13: So sánh phổ của tín hiệu đầu vào và tín hiệu đã khôi phục 70 Hình 3.14: So sánh tín hiệu đầu vào và tín hiệu ra sau mã hóa băng con 70 Hình 3.15: Phổ của các băng con trong miền tần số 71 v MỤC LỤC Trang Lời cam đoan i Danh mục các ký hiệu, các chữ viết tắt ii Danh mục các bảng iv Danh mục các hình vẽ, đồ thị iv MỞ ĐẦU 1 Chương 1: Lý thuyết mã hóa băng con 3 1.1. Các hệ thống lọc số nhiều nhịp 3 1.1.1. Bộ lọc phân chia 3 1.1.2. Bộ lọc nội suy 8 1.1.3. Bộ lọc biến đổi nhịp lấy mẫu với hệ số hữu tỉ 11 1.2. Bank lọc số QMF 17 1.2.1. Bank lọc số phân tích 18 1.2.2. Bank lọc số tổng hợp 18 1.2.3. Bank lọc hai kênh QMF 19 1.3. Mã hóa băng con của tín hiệu tiếng nói 25 1.3.1. Cấu trúc dạng cây phân giải đều 26 1.3.2. Cấu trúc dạng cây đa phân giải 28 1.4. Kết luận chương 31 Chương 2: Kiến thức cơ bản về tiếng nói 32 2.1. Tiếng nói và đặc điểm của tiếng nói 32 2.1.1. Đặc tính vật lý của âm thanh 33 2.1.1.1. Độ cao (Pitch) 33 2.1.1.2. Cường độ 33 2.1.1.3. Trường độ 34 2.1.1.4. Âm sắc 34 2.1.2. Đặc tính âm học của âm thanh 2.1.2.1. Nguyên âm 34 34 vi 2.1.2.2. Phụ âm 34 2.1.2.3. Tỷ suất thời gian 35 2.1.2.4. Hàm năng lượng thời gian ngắn 35 2.1.2.5. Tần số vượt qua điểm không 36 2.1.2.6. Phát hiện điểm cuối 36 2.1.2.7. Tần số cơ bản 36 2.1.2.8. Formant 37 2.1.3. Phân loại đơn giản dạng sóng tiếng nói 38 2.1.4. Bộ máy phát âm và cơ chế phát âm 39 2.1.4.1. Bộ máy phát âm 39 2.1.4.2. Cơ chế phát âm 39 2.2. Một số kiến thức chung về xử lý tín hiệu rời rạc 40 2.2.1. Mô hình hệ xử lý tín hiệu rời rạc 40 2.2.2. Phép biến đổi Z 42 2.3. Mô hình tạo tiếng nói 43 2.4. Biểu diễn số tiếng nói 45 2.4.1. Xác định tần số lấy mẫu tín hiệu tiếng nói 46 2.4.2. Lượng tử hoá 47 2.4.3. Nén tín hiệu tiếng nói 47 2.5. Mã hóa tiếng nói 48 2.5.1. Giới thiệu 48 2.5.2. Các phương pháp mã hoá tiếng nói 48 2.5.2.1. Mã hoá dạng sóng 49 2.5.2.2. Mã hoá nguồn 52 2.5.2.3. Mã hoá lai 53 2.6. Kết luận chương 54 Chương 3: Ứng dụng mã hóa băng con trong xử lý tiếng Việt 55 3.1. Giới thiệu 55 3.2. Mã hóa băng con trong xử lý tiếng Việt 56 vii 3.2.1. Nguyên lý của mã hóa băng con 56 3.2.2. Điều kiện để tăng hệ số nén tín hiệu tiếng Việt trong SBC 57 3.2.3. Lựa chọn tần số lấy mẫu 60 3.2.4. Số bit trung bình trên một mẫu 60 3.3. Ứng dụng mã hóa băng con [88444] trong xử lý tiếng Việt 61 3.3.1. Bank lọc SBC [88444] 61 3.3.2. Cấp phát bit 68 3.3.3. Ứng dụng bank lọc [88444] 68 3.4. Kết luận chương 73 KẾT LUẬN 74 TÀI LIỆU THAM KHẢO 76 viii MỞ ĐẦU Trong lịch sử phát triển, một trong những tiến bộ quan trọng nhất trong mã hóa âm thanh là việc phát minh ra bộ mã hóa băng con (SubBand Coding – SBC). Ứng dụng đầu tiên của mã hóa băng con trong xử lý âm thanh số theo tiêu chuẩn MPEG/audio. Chuẩn này được ra đời vào năm 1990 bởi ISO/IEC, được ứng dụng rộng rãi trong phát thanh số vô tuyến. Các hệ thống phát thanh số hiện nay trên thế giới đều dùng kỹ thuật mã hóa băng con để nén tín hiệu âm thanh, với tỷ lệ nén rất cao. Mã hóa băng con là một trong những thuật toán mã hóa nén dữ liệu có tổn hao, đã được ứng dụng trong mã hóa âm thanh. Bên cạnh đó, việc phân tích phổ của tín hiệu âm thanh, tiếng nói cho thấy rằng năng lượng phổ tín hiệu thường phân bố không đồng đều trên toàn bộ dải tần số. Năng lượng của phổ tiếng nói chủ yếu tập trung ở tần số thấp, còn ở miền tần số cao năng lượng của phổ âm thanh rất nhỏ. Hiện nay lĩnh vực xử lý tiếng nói đặc biệt là tiếng Việt, trong đó có tiếng Việt chính thống và tiếng các dân tộc đang được rất nhiều các nhà khoa học quan tâm, nhà nước ta đã chi rất nhiều tiền cho các đề tài nghiên cứu tiếng Việt. Vì vậy, việc nghiên cứu SBC trong xử lý tiếng Việt để nén dữ liệu có ý nghĩa rất quan trọng trong việc định hướng cho phát thanh số ở Việt Nam. Do đó, tôi đã chọn đề tài “Mã hóa băng con ứng dụng trong xử lý tiếng Việt”, nhằm góp phần hoàn thiện kiến thức và có thông tin đầy đủ hơn về kỹ thuật mã hóa băng con trong nén tín hiệu tiếng nói. Đề tài được trình bày thành 3 chương: Chương 1: Lý thuyết mã hóa băng con Chương này trình bày các vấn đề cơ bản về kỹ thuật lọc số nhiều nhịp gồm có phép phân chia và phép nội suy, bộ lọc biến đổi nhịp lấy mẫu gồm có bộ lọc phân chia và bộ lọc nội suy từ đó ứng dụng để tạo ra các bank lọc số. Đồng thời nghiên cứu về bank lọc số QMF 2 kênh ứng dụng trong xử lý tiếng nói với cấu trúc dạng cây đơn phân giải và đa phân giải. 1 Chương 2: Kiến thức cơ bản về tiếng nói Chương này trình bày một số đặc điểm cơ bản của tiếng nói gồm có đặc tính vật lý, đặc tính âm học của âm thanh. Đưa ra một số kiến thức chung về xử lý tín hiệu rời rạc, mô hình tạo tiếng nói, cách biểu diễn số tiếng nói cũng như các dạng mã hóa tiếng nói khác nhau. Chương 3: Ứng dụng mã hóa băng con trong xử lý tiếng Việt Chương này trọng tâm đi sâu vào việc phân tích đặc trưng của tiếng nói nói chung và tiếng Việt nói riêng, cụ thể là tiếng dân tộc Tày-Nùng từ đó đưa ra phương án thiết kế bank lọc số SBC có hệ số phân chia [88444] phù hợp. So sánh kết quả của bank lọc này với các bank lọc đang ứng dụng trong phát thanh số hiện nay. 2 CHƯƠNG 1 LÝ THUYẾT Mà HÓA BĂNG CON Mã hoá băng con là quá trình phân chia tín hiệu thành nhiều dải tần số thông qua các bộ lọc thông thấp, thông dải và thông cao. Các dải tần này gọi là các băng con. Sau đó, các băng con này sẽ được lượng tử và mã hoá độc lập nhau, tuỳ thuộc vào tính chất thống kê và mật độ năng lượng của từng dải mà số bit mã hoá khác nhau. 1.1. CÁC HỆ THỐNG LỌC SỐ NHIỀU NHỊP [4] [5] [7] Kỹ thuật lọc số nhiều nhịp ngày càng được ứng dụng nhiều trong lĩnh vực xử lý số tín hiệu, như là nó có thể dùng để tăng tốc độ tính toán trong các bộ lọc số bằng cách giảm số phép nhân thực hiện được trong một giây. Trong quá trình xử lý tín hiệu thì bề rộng của dải tần số có thể thay đổi, như là các phép lọc có thể triệt tiêu các thành phần tần số không mong muốn, khi đó bề rộng dải tần của tín hiệu xử lý sẽ giảm đi, vậy chúng ta có thể giảm tần số lấy mẫu cho phù hợp với bề rộng phổ của tín hiệu do đó chúng ta đã giảm được số phép tính trong bộ lọc số. Do tính chất ưu việt của bộ lọc số nhiều nhịp này mà nó đã được nghiên cứu và ứng dụng nhiều trong kỹ thuật viễn thông, đặc biệt là trong xử lý tín hiệu số: Xử lý tiếng nói, xử lý hình ảnh, các hệ thống antenna, kỹ thuật audio số. Đặt biệt hơn là ứng dụng chính của nó là mã hóa băng con (subband coding) trong xử lý tiếng nói, ta sẽ nghiên cứu ở phần sau. Hệ thống xử lý số nhiều nhịp là hệ thống xử lý số tín hiệu mà tần số (hoặc nhịp) lấy mẫu được thay đổi trong quá trình xử lý. 1.1.1. Bộ lọc phân chia Hệ thống mà giảm tần số lấy mẫu từ FS tới FS' dương) là bộ phân chia. 3 FS / M (M>1, nguyên ØM y Ø M (n) = x(nM) x(n) FS WS TS FS' W 'S TS M: hệ số phân chia Hình 1.1: Bộ phân chia Tần số lấy mẫu FS của tín hiệu rời rạc x(n) sau khi qua bộ phân chia sẽ giảm đi M lần, tức là: FS' FS ;WS M 2PFS ; W 'S Khi đó chu kỳ lấy mẫu TS TS' 2PFS' 2P FS M 1 tăng lên M lần và TS' FS M FS WS M (1.1) 1 do đó FS' (1.2) MTS Tần số lấy mẫu giảm đi M lần sau khi tín hiệu đi qua bộ phân chia theo hệ số M, nên tín hiệu ra y Ø M (n) chỉ lấy giá trị của các tín hiệu vào x(n) ở các mẫu n.M (n, M nguyên dương). Vậy chiều dài của tín hiệu bị co lại M lần: L[x (n)] L[ y Ø M ( n ) ] M Phép phân chia trong miền Z có thể biểu diễn như trong hình 1.1. X(z) ØM Y Ø M (z) Hình 1.2: Bộ phân chia trong miền Z 4 Trong miền biến số độc lập ta có: y Ø M (n) = x(n.M) YØ M (z ) vậy • • Ây  x(n.M ). z (n).Z - n ØM n -• -n (1.3) n -• Mặt khác ta có dãy p(m): 1 M p(m) M -1 M -1 1 M ÂWM-lm l o Âe j 2P lm M Ï1 Ì Ó0 l o víi l n.M víi l cßnl¹i (1.4) Đặt m = n.M  n=m/M thay vào (1.3) ta có: YØM (z ) •  x(m).P(m).z - • m M 1  m -• M m -•  YØ M ( z ) 1 M M -1 Âe j 2P lm M .x(m).z - m M l o Ê M1 - j 2MP l ˆ Á z .e ˜ X  Á ˜ l 0 Ë ¯ M -1 (1.5) Việc biểu diễn phép phân chia trong miền tần số chính là việc tìm mối quan hệ giữa YØ M (e jw ) FT [y Ø M (n )] và X (e jw ) FT [x(n )] Nếu đánh giá YØ M (z ) và X (z ) trên vòng tròn đơn vị của mặt phẳng z thì ta sẽ được mối quan hệ giữa YØ M (e jw ) và X (e jw ) tức là: ÊÁ e Y ØM Ë X ÊÁ e Ë jω ˆ ˜ ¯ jw ˆ ˜ ¯ Y (z) jω ØM z e X (z ) z e jw Vậy ta có mối quan hệ sau: ( ) YØ M e jw w 2P 1 M -1 Ê j M - j M l ˆ Á ˜ . X e .e ˜ M l 0 ÁË ¯ 1 M Ê j w -M2Pl X ÁÁ e  l 0 Ë M -1 ˆ ˜ ˜ ¯ (1.6) Chúng ta thấy rằng, qua phép phân chia kết quả cho thấy tín hiệu x(n) khi đi qua mạch phân chia hệ số M, trong miền tần số sẽ tạo ra M-1 thành phần hư danh, các thành phần hư danh này sẽ gây ra hiện tượng chồng phổ. Nhưng nếu x(n) có dải phổ nằm trong khoảng - p p 1, và nguyên dương) gọi là bộ nội suy. Ta có bộ nội suy như hình 1.4. ≠L y Ø L (n) = x( x(n) FS WS TS n ) L FS' W 'S TS L: Hệ số nội suy Hình 1.4: Bộ nội suy Ta thấy rằng tần số lấy mẫu Fs của tín hiệu rời rạc x(n) sau khi qua bộ nội suy với hệ số L sẽ tăng lên L lần tức: FS' 2pFS , W 'S L.FS , W S 2pFS' hoặc chu kỳ lấy mẫu T S =1/FS sẽ giảm đi L lần TS' 2pLW S (1.7) TS / L vậy nếu tín hiệu vào mạch nội suy là x(nTS), và tín hiệu ra trở thành x(nTS' ) xÁ TS ˜ . Ên ËL ˆ ¯ Do tần số lấy mẫu được tăng lên L lần, nên khi tín hiệu qua mạch nội suy có hệ số L thì chiều dài của tín hiệu bị giãn ra L lần: L[y ≠ L (n )]/ L[x(n )] L Phép nội suy trong miền z: ≠L X(z) Y ≠ L (z) Hình 1.5: Biểu diễn phép nội suy trong miền Z 8 Trong miền biến số độc lập n ta có: Ï Ênˆ Ô xÁ L ˜ voi n 0, ± L, ±2 L ... Ì Ë ¯ Ô 0 voi n còn lai Ó y ≠ L (n ) vậy Y≠ L ( z ) •  n -• y≠ L (n ), z - n • Ênˆ  xÁË L ˜¯.z -n (1.8) n -• Đặt m=n/L  n=m.L ta có: • Y≠ L (z ) Y≠ L ( z )  x(m ).z - ml m -•  x(m).(z ) • L -m m -• X (z L ) Ê 1ˆ Y≠ L ÁÁ z L ˜˜ Ë ¯ (1.9) X (z ) (1.10) Ta đánh giá Y≠ L ( z ) và X(z) trên vòng tròn đơn vị trong mặt phẳng z có quan hệ giữa Y≠ L (e jw ) và X (e jw ) : ( ) Y≠L e ja Y≠L (z ) z e jw ( ) X (z ) (e ) X (e ) Y (e ) X (e ) X e jw Suy ra: Y≠ L jw z e jw j wL jw / L jw ≠L (1.11) Chúng ta thấy rằng phép nội suy đã chèn thêm L-1 mẫu biên độ 0 vào giữa hai mẫu của tín hiệu vào x(n) trong miền biến số n, tương ứng trong miền tần số sẽ tạo ra L-1 ảnh phụ của phổ cơ bản sau khi đã co hẹp lại L lần để nhường chỗ cho L1 ảnh phụ mà không gây hiện tượng chồng phổ. Như vậy phép nội suy ≠ L không làm méo thông tin. Nhưng để nội suy ra các mẫu có biên độ 0 ta phải đặt sau mạch nội suy một mạch lọc có wC p . Trong miền biến số n mạch lọc này làm nhiệm vụ L nội suy ra các mẫu biên độ 0. Còn trong miền tần số nó loại bỏ các ảnh phụ cơ bản. Sơ đồ tổng quát của mạch lọc nội suy được biểu diễn trên hình 1.6. 9 ≠L x(n) y ≠ L (n) h(n) y ≠ LH (n) p L h(n): đáp ứng xung của bộ lọc Bộ lọc thông thấp có wC Hình 1.6: Bộ lọc nội suy Dùng các phần tử toán tử : ≠ LH x(n) y ≠ LH (n) ≠L x(n) y ≠ L (n) ≠H y ≠ LH (n) Trong miền biến số n: ≠L x(n) h(n) y ≠ LH (n) y ≠ L (n) y≠ L (n ) y≠ LH (n ) L[x(n )] Ï Ênˆ Ô xÁ ˜ víi n 0, ± L, ± 2L... Ì ËL¯ Ô víi n cßnl¹i Ó 0 y≠ L (n ) * h(n ) h(n ) y ≠ L (n ) •  y≠L (k ).h(n - k ) k -• Đổi biến r k  k L • Êkˆ  xÁË L ˜¯.h(n - k ) k 0, ± L, ± 2 L k -• r.L , vậy: Y≠ LH (n ) •  x(r ).h(n - rL ) k -• Mạch lọc nội suy trong miền Z: 10 (1.12)
- Xem thêm -

Tài liệu liên quan