Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Phân tích và phát hiện tiếng nói dựa trên đặc tính động phi tuyến...

Tài liệu Phân tích và phát hiện tiếng nói dựa trên đặc tính động phi tuyến

.PDF
134
477
120

Mô tả:

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ĐẶNG THÁI SƠN PHÂN TÍCH VÀ PHÁT HIỆN TIẾNG NÓI DỰA TRÊN ĐẶC TÍNH ĐỘNG PHI TUYẾN LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ HÀ NỘI - 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ĐẶNG THÁI SƠN PHÂN TÍCH VÀ PHÁT HIỆN TIẾNG NÓI DỰA TRÊN ĐẶC TÍNH ĐỘNG PHI TUYẾN LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ Chuyên ngành: Kỹ thuật điện tử Mã số: 62520203 GIẢNG VIÊN HƯỚNG DẪN KHOA HỌC: PGS.TS. HOÀNG MẠNH THẮNG HÀ NỘI - 2017 LỜI CAM ĐOAN Tôi xin cam đoan các kết quả trình bày trong luận án là công trình nghiên cứu của tôi dưới sự hướng dẫn của cán bộ hướng dẫn. Các số liệu, kết quả trình bày trong luận án là hoàn toàn trung thực và chưa được công bố trong bất kỳ công trình nào trước đây. Các kết quả sử dụng tham khảo đã được trích dẫn đầy đủ và theo đúng quy định. Hà nội, ngày 4 tháng 4 năm 2017 Tác giả Đặng Thái Sơn LỜI CÁM ƠN Để hoàn thành được luận án này, tôi xin gửi lời biết ơn sâu sắc đến các Thày cô trong bộ môn Điện tử và Kỹ thuật máy tính, Viện Điện tử–Viễn thông đã hỗ trợ, giúp đỡ và động viên tôi trong suốt quá trình làm luận án tiến sĩ tại Trường Đại học Bách khoa Hà Nội. Tôi gửi lời cám ơn đến người hướng dẫn, PGS. Hoàng Mạnh Thắng, người chỉ bảo và định hướng cho tôi trong quá trình nghiên cứu. Tôi cũng xin gửi lời cám ơn đến PGS. Santo Banerjee về những bàn luận quan trọng cho luận án này. Xin cám ơn rất nhiều Hà Nội, ngày 4 tháng 4 năm 2017 MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT v DANH MỤC HÌNH VẼ vii DANH MỤC BẢNG xi DANH MỤC CÁC KÝ HIỆU xii MỞ ĐẦU 1 Chương 1: Tổng quan về nhận dạng tiếng nói 6 1.1. Giới thiệu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.2. Bối cảnh lịch sử . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.3. Các đặc trưng âm thanh và các loại tín hiệu tiếng nói . . . . . . . . . . . . 8 1.4. Các đặc trưng phức tạp của nhận dạng tiếng nói . . . . . . . . . . . . . . . . 10 1.5. Ảnh hưởng của nhiễu trong nhận dạng tiếng nói . . . . . . . . . . . . . . . . 12 1.6. Phát hiện tiếng nói (VAD) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.7. Nghiên cứu xử lý tín hiệu phi tuyến tính . . . . . . . . . . . . . . . . . . . . . . . . 17 1.8. Nhận dạng tiếng nói tuyến tính và phi tuyến tính . . . . . . . . . . . . . . . 19 1.9. Xác định các điểm kết thúc của tín hiệu tiếng nói . . . . . . . . . . . . . . . 20 1.10. Miền thời gian và miền tần số-thời gian . . . . . . . . . . . . . . . . . . . . . . . . 23 1.11. Mô hình Markov ẩn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 1.12. Kết luận. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 i ii Chương 2: Khảo sát sự phức tạp trong các hệ thống ngẫu nhiên và các tín hiệu tiếng nói 29 2.1. Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.2. Lô tái xuất và các đo lường . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.2.1. Lô tái xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.2.2. Entropy của lô tái xuất có trọng số . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.3. Đánh giá độ phức tạp của tín hiệu tiếng nói ứng dụng lô tái xuất 36 2.3.1. WRP của hệ thống có tác động bởi tín hiệu nhiễu . . . . . . . . . . . 37 2.4. Ứng dụng của phương pháp đồng bộ trong phân tích đặc tính động của tín hiệu tiếng nói . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 2.4.1. Phân tích sai số đồng bộ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 2.4.2. Tái xuất trung bình điều kiện (Mean Conditional Recurrence– MCR) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 2.4.3. Xác định các hệ thống điều khiển–phản hồi bằng điều kiện tái xuất trung bình . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 2.5. Nhận dạng tín hiệu tiếng nói ứng dụng không gian pha tái tạo . . 48 2.5.1. Lợi ích của tính động phi tuyến cho xử lý tín hiệu . . . . . . . . . . . 48 2.6. Thu thập tín hiệu tiếng nói . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 2.7. Kỹ thuật nhận dạng hoạt động tiếng nói . . . . . . . . . . . . . . . . . . . . . . . . 51 2.8. Phân tích tần số và thời gian–tần số . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 2.9. Sự tái tạo không gian pha và các đặc tính động tái xuất phi tuyến của tiếng nói . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 iii 2.10. Ứng dụng của các đặc tính động tái xuất với nhận dạng tín hiệu tiếng nói . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 2.11. Kết luận. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 Chương 3: Đề xuất phương pháp phát hiện tiếng nói 62 3.1. Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 3.1.1. Khái quát chung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 3.1.2. Hệ thống VAD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 3.1.3. Mục tiêu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 3.1.4. Phương pháp đánh giá thuật toán VAD . . . . . . . . . . . . . . . . . . . . . 66 3.2. Các phương pháp VAD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 3.2.1. VAD dựa trên tỉ lệ cắt qua không và năng lượng tín hiệu [7] . 67 3.2.2. VAD dựa trên năng lượng tuyến tính (LED) [119] . . . . . . . . . . . 69 3.2.3. VAD dựa trên năng lượng tuyến tính thích nghi [119] . . . . . . . 70 3.2.4. VAD dựa trên nhận dạng mẫu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 3.2.4.1. Số lượng số lần về không . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 3.2.4.2. Logarit-năng lượng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 3.2.4.3. Hệ số tự tương quan chuẩn hóa. . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 3.2.4.4. Hệ số dự đoán đầu tiên. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 3.2.4.5. Sai số dự đoán chuẩn hóa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 3.2.4.6. Tính toán khoảng cách . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 3.2.4.7. Quá trình thực thi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 3.2.5. VAD dựa vào đo lường thống kê [19, 20]. . . . . . . . . . . . . . . . . . . . . 76 3.3. Phương pháp đánh giá hiệu quả thuật toán VAD. . . . . . . . . . . . . . . . 80 3.3.1. Các tham số mục tiêu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 iv 3.4. Phương pháp thu thập dữ liệu và bộ dữ liệu AURORA [1, 42] . . . 82 3.5. Đề xuất đặc trưng và phương pháp VAD mới . . . . . . . . . . . . . . . . . . . 84 3.5.1. Phương pháp tính với cửa sổ dịch một mẫu . . . . . . . . . . . . . . . . . 85 3.5.2. Phương pháp tính đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 3.5.3. Phương pháp tính đặc trưng Tp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 3.5.4. Phương pháp tính đặc trưng tổng hợp Sp và xác định endpoint . . 87 3.6. Đánh giá phương pháp mới trên các tín hiệu tiếng nói khác nhau 88 3.6.1. Đánh giá trên các tín hiệu tiếng nói khác nhau không có tạp âm . 88 3.6.2. Ứng dụng trên các tín hiệu tiếng nói khác nhau có tạp âm . . 88 3.7. So sánh và đánh giá kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 3.7.1. So sánh với các phương pháp đã có . . . . . . . . . . . . . . . . . . . . . . . . . 96 3.8. Kết luận. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 Kết luận 103 Danh mục các công trình công bố 104 DANH MỤC CÁC TỪ VIẾT TẮT VIẾT TẮT TIẾNG ANH TIẾNG VIỆT AMI Average mutual information Thông tin tương hỗ trung bình ApEn Approximate entropy Entropy xấp xỉ AR Auto-regression Tự động hồi qui ASR Automatic speech recognition Nhận dạng tiếng nói tự động CASA Computational auditory Phân tích ngữ cảnh scene analysis âm thanh thông qua tính toán CML Cepstral mean normalization Chuẩn hóa trung bình Cepstral CS Complete synchronization Đồng bộ hoàn chỉnh ECG Electrocardiogram Tín hiệu điện tim EEG Electroencephalogram Tín hiệu điện não EMG Electromyogram Tín hiệu điện cơ EOG Electrooculogram Tín hiệu nhãn đồ FEC Front End Clipping Cắt phía trước FFT Fast Fourier Transform Biến đổi Fourier nhanh FNN False nearest neighbor Lân cận gần nhất sai GS Generalized synchronization Đồng bộ tổng quát HCI Human computer interface Giao tiếp người máy HMM Hidden Markov model Mô hình Markov ẩn JRP Joint Recurrence Plot Bảng hợp tái xuất LE Lyapunov Exponent Lũy thừa Lyapunov LS Lorenz-Stenflo Hệ thống động Lorenz-Stenflo LPC Linear predictive coding Mã hóa dự báo tuyến tính LRT Likelihood ratio test Kiểm tra tỷ lệ khả năng LVCSR Large vocabulary continuous Nhận dạng tiếng nói liên tục speech recognition với lượng từ vựng lớn Mid – Speech Clipping Cắt giữa tiếng nói MSC v vi MCR Mean Conditional Recurrence Tái xuất có điều kiện trung bình MEG Magnetoencephalogram Tín hiệu từ não MFCC Mel-Frequency Hệ số Cepstrum tần số Mel Cepstrum Coefficient NPD Normal probability distribution Phân bố xác suất thường NSE Normalized synchronization error Lỗi đồng bộ được chuẩn hóa OVER Over Hang Phần nhô ra RASTA Relative spectral processing Xử lý phổ tương đối RP Recurrence plots Lô tái xuất PDF Probability density function Hàm phân bố mật độ xác suất PLP Perceptual Linear Prediction Dự đoán cảm nhận tuyến tính SampEn Sample entropy Entropy mẫu SNR Signal-to-noise Ratio Tỷ lệ tín hiệu và nhiễu SR Speech recognition Nhận dạng tiếng nói STE Short time energy Năng lương trong khoảng thời gian ngắn TEO Teager energy operator Toán tử năng lượng Teager VAD Voice activity detection Phát hiện hoạt động âm thanh ZCAE Zero-crossing amplitude estimation Ước lượng biên độ cắt không WRP Weighted recurrence plot Lô tái xuất theo trọng số WRPE Entropy of the WRP Entropy của lô tái xuất tái xuất theo trọng số DANH MỤC HÌNH VẼ 1.1 Mô hình nguồn kênh cho một hệ thống nhận dạng tiếng nói . . . . 7 1.2 Lọc nguồn của tín hiệu tiếng nói . . . . . . . . . . . . . . . . . . . . 8 1.3 Mô hình hóa môi trường thêm nhiễu và lọc bằng kênh tuyến tính . 15 1.4 Phát hiện tiếng nói . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.5 Tái tạo không gian pha của tín hiệu tiếng nói . . . . . . . . . . . . 18 1.6 Các tham số biến đổi cho các loại nhiễu khác nhau và tín hiệu tiếng nói được thu liên tục . . . . . . . . . . . . . . . . . . . . . . . 23 1.7 Xác suất chuyển dịch . . . . . . . . . . . . . . . . . . . . . . . . . . 26 1.8 Xác suất chuyển dịch và phân bố xác suất đầu ra . . . . . . . . . . 27 2.1 Lô tái xuất của hệ thống Lorenz [67] . . . . . . . . . . . . . . . . . 34 2.2 Phổ năng lượng trong các trường hợp . . . . . . . . . . . . . . . . . 38 2.3 Hình chiếu hai chiều của không gian pha của LS với các biến x1 , x4 . 2.4 WRP cho hệ thống LS 4 chiều . . . . . . . . . . . . . . . . . . . . . 41 2.5 Lô WRPE H(r) cho r = 26 với tham số r của hệ thống LS bố chiều 2.6 Đồ thị WRPE H(α1 , α2 ) với r = 26 phụ thuộc vào tham số α1 , α2 . . 43 2.7 Mô tả những thay đổi trong quan hệ sai số đồng bộ (SE) và hệ 40 42 số ghép C theo thời gian. . . . . . . . . . . . . . . . . . . . . . . . . 45 2.8 Biểu đồ ∆(M CR) đối với cường độ liên kết C trong đồng bộ hệ thống LS bị gây nhiễu bởi tạp âm, tín hiệu âm nhạc và tổ hợp tín hiệu âm nhạc, tiếng nói. . . . . . . . . . . . . . . . . . . . . . . . . 48 2.9 Tiếng nói và đường bao phổ năng lượng trong các điều kiện khác nhau. Đường màu hồng biểu diễn trung bình đầu tiên Y1 . . . . . . . 53 2.10 Mỗi tín hiệu được chia nhỏ bằng cửa sổ Hamming có chiều dài 256. 54 2.11 Mỗi tín hiệu được chia nhỏ bằng cửa sổ Hamming có chiều dài 256. 55 2.12 Mỗi tín hiệu được chia nhỏ bằng cửa sổ Hamming có chiều dài 256. 56 vii viii 2.13 Tín hiệu tiếng nói trong các điều kiện khác nhau và RP của chúng. Trong mỗi trường hợp, ǫ được tính bằng ǫ = 0, 1 × Std(speech). Tín hiệu có chiều dài khác nhau. . . . . . . . . . . . . . . . . . . . 59 2.14 Các đường màu xanh lam biểu diễn RR(k) cho tiếng nói của một người trong môi trường không tạp âm. Các đường màu đỏ biểu diễn RR(k). Các đường xanh lam cho thấy npd của RR(k) cho tiếng nói của một người trong môi trường không tạp âm. Các đường màu đỏ biểu diễn npd của RR(k) cho tiếng nói giống nhau của cùng một người trong các điều kiện khác nhau. Các màu xanh và đỏ biểu thị hai người khác nhau. . . . . . . . . . . . . . . . . . . 60 3.1 Sơ đồ khối của một VAD . . . . . . . . . . . . . . . . . . . . . . . . 65 3.2 Sơ đồ thực thi, so sánh và đánh giá các thuật toán VAD . . . . . . 66 3.3 Sơ đồ khối cho VAD dựa trên tỉ lệ về không và đo năng lượng [7] 3.4 Hàm phân bố xác suất đo số điểm về không [5] . . . . . . . . . . . 72 3.5 Hàm mật độ xác suất của phép đo năng lượng [5] . . . . . . . . . . 72 3.6 Hàm mật độ xác suất của hệ số tự tương quan chuẩn hóa [5] . . . . 73 3.7 Hàm phân bố xác suất của hệ số LPC đầu tiên . . . . . . . . . . . 74 3.8 Hàm mật độ xác suất của phép đo sai số LPC . . . . . . . . . . . . 75 3.9 Sơ đồ khối VAD dựa trên phương pháp nhận dạng mẫu. . . . . . . 76 . 68 3.10 Sơ đồ khối của phương pháp VAD dựa trên thống kê đo lường. . . . 79 3.11 Các tham số mục tiêu [9]. . . . . . . . . . . . . . . . . . . . . . . . 82 3.12 Quan hệ Log-Log của nhiễu lũy thừa. . . . . . . . . . . . . . . . . . 83 3.13 Tuyến tính hóa tín hiệu . . . . . . . . . . . . . . . . . . . . . . . . 84 3.14 Phương pháp dịch cửa sổ nhiều mẫu . . . . . . . . . . . . . . . . . 85 3.15 Phương pháp dịch cửa sổ một mẫu . . . . . . . . . . . . . . . . . . 85 3.16 Phương pháp dùng bộ lọc làm trơn tam giác . . . . . . . . . . . . . 86 3.17 Phương pháp dùng bộ làm mượt tam giác dịch cửa sổ một mẫu . . 86 3.18 Tín hiệu, giá trị trung bình và đường bao đặc trưng . . . . . . . . . 89 3.19 Quan hệ Log-Log phổ năng lượng của tín hiệu nhiễu. Đường màu xanh chỉ độ dốc (α) của các giá trị trung bình của log(S(f ). . . . . 89 3.20 Tín hiệu loại I, giá trị trung bình và đường bao năng lượng của nhiễu với cường độ nhiễu là c = 0.002 cho cả hai trường hợp . . . . 90 ix 3.21 Tín hiệu loại II, giá trị trung bình và đường bao năng lượng của nhiễu với cường độ nhiễu là c = 0.002 cho cả hai trường hợp . . . . 91 3.22 Tín hiệu tiếng nói màu xanh, các đường bao năng lượng có màu đỏ, tím và xanh lá. Gía trị c = 0.005 được chọn. . . . . . . . . . . . 92 3.23 Tương quan chéo của đường bao năng lượng với trễ trong khoảng [−20000, 20000]. Các đường đỏ và đen biểu diễn các tương quan chéo. Phần được phóng to biểu diễn các giá trị tương quan chéo với trễ trong khoảng [−50, 50]. . . . . . . . . . . . . . . . . . . . . . 92 3.24 Tín hiệu tiếng nói màu xanh, các đường bao năng lượng có màu đỏ, tím và xanh lá. Gía trị c = 0.005 được chọn. . . . . . . . . . . . 93 3.25 Tín hiệu, đường bao năng lượng của tín hiệu tiếng nói loại I và loại II trong môi trừng không tạp âm. Đường màu xanh lá cây được sinh ra từ phương pháp chúng tôi đề xuất và đường màu đỏ là kết quả của phương pháp trong [79]. . . . . . . . . . . . . . . . . 94 3.26 Tín hiệu loại I và đường bao năng lượng của tín hiệu trong các môi trường có nhiễu khác nhau. . . . . . . . . . . . . . . . . . . . . 95 3.27 Đồ thị tương quan chéo giữa tiếng nói loại I không có tạp âm và có tạp âm lần lượt trong ô tô và sân bay. Cột màu biểu diễn giá trị tương quan chéo. Các cột màu được tính lag trong đoạn [−2000; 2000] và cho thời tian t = 1, 2, . . . , 15000. . . . . . . . . . . 95 3.28 t và x(t) biểu diễn tín hiệu gốc (đường xanh lá cây) và đường bao năng lượng Teager (xanh lam) theo thời gian. Tín hiệu được trích từ đối tượng loại I không có tạp âm. . . . . . . . . . . . . . . . . . 96 3.29 Hiệu quả của phương pháp được đề xuất được so với các phương pháp khác. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 3.30 Tín hiệu tiếng nói màu xanh, các đường bao năng lượng có màu đỏ, tím và xanh lá. Giá trị c = 0.005 được chọn. . . . . . . . . . . . 98 3.31 Tương quan chéo của đường bao năng lượng với trễ trong khoảng [−20000, 20000]. Các đường đỏ và đen biểu diễn các tương quan chéo. Phần được phóng to biểu diễn các giá trị tương quan chéo với trễ trong khoảng [−50, 50]. . . . . . . . . . . . . . . . . . . . . . 99 3.32 Theo trục x, chúng tôi xét đến số lượng các cực đại và cực tiểu liên tiếp. Tổng số cực trị được tính từ các đường bao năng lượng theo biểu thức (3.34). Giá trị c = 0.005 được chọn. . . . . . . . . . 99 x 3.33 Các phần của tín hiệu x(t) và đường bao năng lượng tính theo phương pháp đề xuất. Giao điểm của tín hiệu tiếng nói và đường thẳng đứng màu hồng biểu diễn các điểm kết thúc. . . . . . . . . . 100 3.34 Đường bao entropy cho phương pháp đã có (màu vàng) và phương pháp được đề xuất (màu xanh). Bản phóng to với các điểm màu tìm biểu diễn điểm kết thúc được xác định bằng 2 phương pháp. . . 101 3.35 So sánh phương pháp VAD . . . . . . . . . . . . . . . . . . . . . . . 101 DANH MỤC BẢNG 2 σnew 2 σold [119]. . . . . . . . . . . . . . . . . 71 3.1 Giá trị của p phụ thuộc vào 3.2 Tham số cho việc thực thi VAD [20]. . . . . . . . . . . . . . . . . . 80 xi DANH MỤC CÁC KÝ HIỆU Ký hiệu Ý nghĩa a, b, c, r tham số hệ thống a,x biểu diễn véc-tơ ω tần số xii MỞ ĐẦU Năm mươi năm trở lại đây, lĩnh vực xử lý tín hiệu ngày càng được quan tâm trong cộng đồng khoa học và ứng dụng bởi những lợi ích mà nó mang lại. Trong lĩnh vực xử lý tín hiệu tiếng nói, đa số nghiên cứu đưa ra một số quá trình nhận dạng dựa trên miền không gian, thời gian và tần số, có ít các công trình nghiên cứu đưa ra các ứng dụng của lĩnh vực động học phi tuyến vào nhận dạng tiếng nói. Cho tới nay, động học phi tuyến và hỗn loạn cho thấy có những phép đo lường và đánh giá hiệu quả trong lĩnh vực xử lý tín hiệu [91, 116]. Luận án này đề cập đến nghiên cứu các tín hiệu giọng nói và các tín hiệu khác cũng như các đánh giá định lượng dựa trên các kỹ thuật phi tuyến. 1. Các phương pháp và công cụ được dùng để phân tích Luận án này được nghiên cứu dựa vào các phương pháp: • Tái tạo không gian pha: Tái tạo không gian pha là công cụ hữu ích để xấp xỉ động học của bất cứ chuỗi thời gian nào. Tái tạo không gian pha được dùng để khám phá các tham số động học của tín hiệu tiếng nói. • Các phép đo lường entropy và sự phức tạp: Sự phức tạp đóng vai trò quan trọng trong việc hiểu bản chất của nguồn thông tin và sự bất ổn định trong chuỗi thời gian. Nó được áp dụng hữu hiệu vào việc định lượng các tham số động học của tín hiệu tiếng nói, khi mà tín hiệu tiếng nói được xem như là tín hiệu được sinh ra từ một hệ thống động. • Tương quan và lũy thừa Lyapunov: Các công cụ này rất hữu ích trong lĩnh vực động học phi tuyến. Chúng được dùng để phân tách tín hiệu tiếng nói. • Phát hiện tiếng nói: Hoạt động tiếng nói có thể được phát hiện dùng phương pháp phân tích phổ tín hiệu. Nó sẽ phân tách tín hiệu hữu thanh và vô thanh/nhiễu sau khi áp dụng kỹ thuật lọc tín hiệu một cách thích hợp. 2. Mục tiêu nghiên cứu 1 2 Nghiên cứu này nhằm đến các mục đích sau: • Phân tích các tín hiệu tiếng nói được ghi âm trong những điều kiện khác nhau, sử dụng các công cụ có sẵn để định lượng các thành phần động học như phổ công suất, phân tích lũy thừa Lyapunov, tương quan chéo, phân tích dựa trên tính hồi quy và tái tạo không gian pha. • Phân tích sự phức tạp thông qua đo lường, đánh giá các tham số động học vốn có của hệ thống động học qua phân tích tín hiệu và định lượng sự bất ổn định trong chuỗi thời gian. • Đề xuất phương pháp mới hữu hiệu và khả thi để phát hiện thời điểm đầu và kết thúc của âm hữu thanh được phát ra trong các tín hiệu tiếng nói với cường độ âm thanh và độ dài của từ là bất kỳ. 4. Tình hình nghiên cứu trong và ngoài nước Trong nước: Hệ thống xử lý và nhận dạng tiếng Việt cũng được nghiên cứu ở một số nhóm như AILab [3] thuộc Trường Đại học Khoa học Tự nhiên TP HCM, Phòng giao tiếp tiếng nói thuộc viện MICA [78] nằm trong Đại học Bách khoa Hà Nội, nhóm nghiên cứu của PGS Lương Chi Mai thuộc Viện Công nghệ Thông tin (Viện Khoa học và Công nghệ Việt Nam). Các sản phẩm như VietVoice [135], VSpeech [137]. Ngoài nước: Ngày nay, nhu cầu thông tin luôn gia tăng và tương tác người máy (HCI) từ đó cũng tăng theo. Một số tiếp cận cho HCI như thông qua việc phân tích tín hiệu điện não (EEG), phân tích tín hiệu tiếng nói và phân tích cử chỉ của người. Trong số đó, các tương tác thông qua tiếng nói và cử chỉ [87] của người không đòi hỏi phải gắn thiết bị lên người một cách cố định, trong khi đó tín hiệu EEG được ghi thông qua các điện cực gắn lên da. Việc nghiên cứu tín hiệu tiếng nói cho giao tiếp người máy được phát triển mạnh trong những năm gần đây [17, 45, 68, 97]. Có nhiều công trình nghiên cứu liên quan đến nhận dạng và đạt được các kết quả đáng kể dùng cho ứng dụng thực tế [4, 49, 72]. Ví dụ, các hệ thống nhận dạng tiếng nói cho tiếng Anh như Via Voice [30] được đưa ra bởi IBM, Spoken Toolkit [18] được đưa ra bởi Central of Spoken Language Understanding, Speech Recognition [113] đưa ra bởi Microsoft, Hidden Markov 3 Model toolkit [143] được đưa ra bởi Đại học Cambridge, CMU Sphinx [127] được đưa ra bởi Đại học Carnegie Mellon... Bên cạnh đó, các hệ thống nhận dạng tiếng Pháp, Đức, Trung Quốc, tiếng Việt...cũng được phát triển. Mặc dù đã có các phương pháp và kỹ thuật nhận dạng tiếng Việt, nhưng chúng được nhìn ở các góc độ khác nhau ngoại trừ góc nhìn của lý thuyết phi tuyến tính. Hơn nữa, hầu hết các nghiên cứu dựa vào sử dụng các phương pháp tuyến tính để phân tích các đặc trưng của thành phần tần số cơ bản F0 . 5. Những đóng góp của Luận án này Luận án có một số đóng góp như sau: • Tìm ra được sự thay đổi trong mức độ phức tạp của hệ thống động ngẫu nhiên được sinh ra bởi tác động của tín hiệu phi tuyến hoặc bởi nhiễu. Sự thay đổi này được đánh giá thông qua entropy của sơ đồ tái xuất theo trọng số. Toàn bộ hệ thống trở thành mô hình ngẫu nhiên dưới tác động của nhiễu ngoài, tác động của tín hiệu giọng nói và các tín hiệu âm nhạc. Các ảnh hưởng có thể được định lượng bằng cách đánh giá sự phức tạp (đại lượng đo lường entropy) hoặc bằng những phân tích dựa trên tái xuất trọng số. Những nghiên cứu về phương pháp tần số, thời gian-tần số và động học tái xuất phi tuyến cũng được đưa ra. Để có được thông tin chính xác, việc xây dựng đường bao năng lượng được đề xuất. Đường bao năng lượng được dùng để tách bạch hiệu quả giữa phần tính hiệu có giọng nói và phần tín hiệu không có giọng nói. Bằng cách áp dụng các kỹ thuật tần số, thời gian-tần số, lọc thông tin không thích hợp để phần tín hiệu có giọng nói có thể được nhận ra. Sau đó, động học (tái xuất) phi tuyến được áp dụng khi nó mô tả mọi chuyển động cục bộ của quĩ đạo trong không gian pha tái tạo từ tín hiệu giọng nói. Đo lường đánh giá những chuyển động cục bộ bằng tốc độ cửa sổ tái xuất được thực hiện. Nó cũng cho thấy rằng phân bố xác suất chuẩn của tốc độ tái xuất cửa sổ có thể được ứng dụng thành công trong việc mô tả sự tương đồng và sự không tương đồng giữa các tín hiệu giọng nói thậm chí trong môi trường có nhiễu. Do đó, phân bố xác suất thường của tốc độ tái xuất cửa sổ là một trong những phép đo lường để nhận dạng mẫu tín hiệu giọng nói. • Các bước cơ bản trong xử lý tín hiệu là phát hiện phần tín hiệu có tiếng nói và phần không có tiếng nói. Đề xuất phương pháp phân tích VAD dựa 4 trên đường bao vi phân trung bình của tín hiệu tiếng nói được đưa ra. Việc phân tích được thực hiện trong miền thời gian và có tốc độ xử lý nhanh tương đối so với các phương pháp phân tích hiện nay trong miền thời gian. Phương pháp này có khả năng phân tích tốt trong điều kiện tín hiệu tiếng nói có nhiễu. Đề xuất phương pháp phát hiện phần tín hiệu có giọng nói và phần không có giọng nói dựa trên tính toán trung bình đường bao cực trị (cực đại và cực tiểu) cục bộ của tín hiệu tiếng nói. Phương pháp này được thực hiên trên miền thời gian và không phụ thuộc vào người nói. Mô hình đề xuất được kiểm chứng với các tính hiệu thực cũng như các tín hiệu có tác động nhiễu không ổn định. Việc kiểm chứng hiệu quả của phương pháp đề xuất được đưa ra và có so sánh với các phương pháp đã được đưa ra trước khi thực hiện trong miền thời gian. 6. Cấu trúc của Luận án Luận án này gồm hai phần, phần đầu là giới thiệu tổng quan về lĩnh vực có liên quan đến đề tài và phần thứ hai là chi tiết nội dung nghiên cứu. Cụ thể, cấu trúc Luận án này như sau: Chương 1 nói về thông tin cơ sở liên quan đến nhận dạng tiếng nói. Ở Chương này, các nội dung liên quan đến đặc trưng của tín hiệu tiếng nói được trình bày; Sự phức tạp trong tín hiệu tiếng nói được ứng dụng trong nhận dạng; Ảnh hưởng của nhiễu vào kết quả nhận dạng tiếng nói; Khái niệm tổng quát và các phương pháp về phát hiện tiếng nói (VAD); Phương pháp phân tích phi tuyến ứng ứng dụng trong nhận dạng tiếng nói; Vấn đề xác định điểm đầu điểm cuối trong tín hiệu tiếng nói; Các phân tích tiếng nói theo miền thời gian và miền tần số-thời gian. Chương 2 đi khảo sát và phân tích sự phức tạp của tín hiệu tiếng nói trong điều kiện có nhiễu và không có nhiễu dưới góc nhìn phi tuyến. Ở đây, động học của tín hiệu tiếng nói được nghiên cứu trong điều kiện có nhiễu tương quan mạnh. Các phép đo lường entropy được sử dụng ở đây để hiểu thấu đáo về sự phức tạp của hệ thống và cũng được xem là công cụ xử lý tín hiệu. Sự phức tạp của hệ thống động hỗn loạn mạnh được nghiên cứu, trong đó hệ thống động bị tác động mạnh bởi nhiễu và các tín hiệu tiếng nói hoặc tín hiệu âm nhạc. Sự phức tạp được đo lường bởi entropy tái xuất có trọng số cho các hệ thống hỗn loạn này. Hiện tượng đồng bộ giữa hai hệ thống ngẫu nhiên với tín hiệu
- Xem thêm -

Tài liệu liên quan