BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
ĐẶNG THÁI SƠN
PHÂN TÍCH VÀ PHÁT HIỆN TIẾNG NÓI DỰA TRÊN
ĐẶC TÍNH ĐỘNG PHI TUYẾN
LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ
HÀ NỘI - 2017
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
ĐẶNG THÁI SƠN
PHÂN TÍCH VÀ PHÁT HIỆN TIẾNG NÓI DỰA TRÊN
ĐẶC TÍNH ĐỘNG PHI TUYẾN
LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ
Chuyên ngành: Kỹ thuật điện tử
Mã số: 62520203
GIẢNG VIÊN HƯỚNG DẪN KHOA HỌC:
PGS.TS. HOÀNG MẠNH THẮNG
HÀ NỘI - 2017
LỜI CAM ĐOAN
Tôi xin cam đoan các kết quả trình bày trong luận án là công trình nghiên
cứu của tôi dưới sự hướng dẫn của cán bộ hướng dẫn. Các số liệu, kết quả
trình bày trong luận án là hoàn toàn trung thực và chưa được công bố trong
bất kỳ công trình nào trước đây. Các kết quả sử dụng tham khảo đã được
trích dẫn đầy đủ và theo đúng quy định.
Hà nội, ngày 4 tháng 4 năm 2017
Tác giả
Đặng Thái Sơn
LỜI CÁM ƠN
Để hoàn thành được luận án này, tôi xin gửi lời biết ơn sâu sắc đến các
Thày cô trong bộ môn Điện tử và Kỹ thuật máy tính, Viện Điện tử–Viễn
thông đã hỗ trợ, giúp đỡ và động viên tôi trong suốt quá trình làm luận án
tiến sĩ tại Trường Đại học Bách khoa Hà Nội. Tôi gửi lời cám ơn đến người
hướng dẫn, PGS. Hoàng Mạnh Thắng, người chỉ bảo và định hướng cho tôi
trong quá trình nghiên cứu. Tôi cũng xin gửi lời cám ơn đến PGS. Santo
Banerjee về những bàn luận quan trọng cho luận án này.
Xin cám ơn rất nhiều
Hà Nội, ngày 4 tháng 4 năm 2017
MỤC LỤC
DANH MỤC CÁC TỪ VIẾT TẮT
v
DANH MỤC HÌNH VẼ
vii
DANH MỤC BẢNG
xi
DANH MỤC CÁC KÝ HIỆU
xii
MỞ ĐẦU
1
Chương 1:
Tổng quan về nhận dạng tiếng nói
6
1.1. Giới thiệu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
1.2. Bối cảnh lịch sử . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
1.3. Các đặc trưng âm thanh và các loại tín hiệu tiếng nói . . . . . . . . . . . .
8
1.4. Các đặc trưng phức tạp của nhận dạng tiếng nói . . . . . . . . . . . . . . . .
10
1.5. Ảnh hưởng của nhiễu trong nhận dạng tiếng nói . . . . . . . . . . . . . . . .
12
1.6. Phát hiện tiếng nói (VAD) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
1.7. Nghiên cứu xử lý tín hiệu phi tuyến tính . . . . . . . . . . . . . . . . . . . . . . . .
17
1.8. Nhận dạng tiếng nói tuyến tính và phi tuyến tính . . . . . . . . . . . . . . .
19
1.9. Xác định các điểm kết thúc của tín hiệu tiếng nói . . . . . . . . . . . . . . .
20
1.10. Miền thời gian và miền tần số-thời gian . . . . . . . . . . . . . . . . . . . . . . . .
23
1.11. Mô hình Markov ẩn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
1.12. Kết luận. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
i
ii
Chương 2:
Khảo sát sự phức tạp trong các hệ thống ngẫu nhiên
và các tín hiệu tiếng nói
29
2.1. Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
2.2. Lô tái xuất và các đo lường . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
2.2.1. Lô tái xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
2.2.2. Entropy của lô tái xuất có trọng số . . . . . . . . . . . . . . . . . . . . . . . . .
34
2.3. Đánh giá độ phức tạp của tín hiệu tiếng nói ứng dụng lô tái xuất 36
2.3.1. WRP của hệ thống có tác động bởi tín hiệu nhiễu . . . . . . . . . . .
37
2.4. Ứng dụng của phương pháp đồng bộ trong phân tích đặc tính động
của tín hiệu tiếng nói . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
2.4.1. Phân tích sai số đồng bộ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
2.4.2. Tái xuất trung bình điều kiện (Mean Conditional Recurrence–
MCR) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
2.4.3. Xác định các hệ thống điều khiển–phản hồi bằng điều kiện tái xuất
trung bình . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
2.5. Nhận dạng tín hiệu tiếng nói ứng dụng không gian pha tái tạo . .
48
2.5.1. Lợi ích của tính động phi tuyến cho xử lý tín hiệu . . . . . . . . . . .
48
2.6. Thu thập tín hiệu tiếng nói . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
2.7. Kỹ thuật nhận dạng hoạt động tiếng nói . . . . . . . . . . . . . . . . . . . . . . . .
51
2.8. Phân tích tần số và thời gian–tần số . . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
2.9. Sự tái tạo không gian pha và các đặc tính động tái xuất phi tuyến của
tiếng nói . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
iii
2.10. Ứng dụng của các đặc tính động tái xuất với nhận dạng tín hiệu tiếng
nói . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
2.11. Kết luận. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
Chương 3:
Đề xuất phương pháp phát hiện tiếng nói
62
3.1. Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
63
3.1.1. Khái quát chung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
63
3.1.2. Hệ thống VAD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
3.1.3. Mục tiêu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
3.1.4. Phương pháp đánh giá thuật toán VAD . . . . . . . . . . . . . . . . . . . . .
66
3.2. Các phương pháp VAD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
67
3.2.1. VAD dựa trên tỉ lệ cắt qua không và năng lượng tín hiệu [7] .
67
3.2.2. VAD dựa trên năng lượng tuyến tính (LED) [119] . . . . . . . . . . .
69
3.2.3. VAD dựa trên năng lượng tuyến tính thích nghi [119] . . . . . . .
70
3.2.4. VAD dựa trên nhận dạng mẫu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
71
3.2.4.1. Số lượng số lần về không . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
71
3.2.4.2. Logarit-năng lượng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
71
3.2.4.3. Hệ số tự tương quan chuẩn hóa. . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
3.2.4.4. Hệ số dự đoán đầu tiên. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
3.2.4.5. Sai số dự đoán chuẩn hóa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
74
3.2.4.6. Tính toán khoảng cách . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
75
3.2.4.7. Quá trình thực thi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
76
3.2.5. VAD dựa vào đo lường thống kê [19, 20]. . . . . . . . . . . . . . . . . . . . .
76
3.3. Phương pháp đánh giá hiệu quả thuật toán VAD. . . . . . . . . . . . . . . .
80
3.3.1. Các tham số mục tiêu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
80
iv
3.4. Phương pháp thu thập dữ liệu và bộ dữ liệu AURORA [1, 42] . . .
82
3.5. Đề xuất đặc trưng và phương pháp VAD mới . . . . . . . . . . . . . . . . . . .
84
3.5.1. Phương pháp tính với cửa sổ dịch một mẫu . . . . . . . . . . . . . . . . .
85
3.5.2. Phương pháp tính đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
85
3.5.3. Phương pháp tính đặc trưng Tp . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87
3.5.4. Phương pháp tính đặc trưng tổng hợp Sp và xác định endpoint . .
87
3.6. Đánh giá phương pháp mới trên các tín hiệu tiếng nói khác nhau 88
3.6.1. Đánh giá trên các tín hiệu tiếng nói khác nhau không có tạp âm .
88
3.6.2. Ứng dụng trên các tín hiệu tiếng nói khác nhau có tạp âm . .
88
3.7. So sánh và đánh giá kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
93
3.7.1. So sánh với các phương pháp đã có . . . . . . . . . . . . . . . . . . . . . . . . .
96
3.8. Kết luận. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
101
Kết luận
103
Danh mục các công trình công bố
104
DANH MỤC CÁC TỪ VIẾT TẮT
VIẾT TẮT TIẾNG ANH
TIẾNG VIỆT
AMI
Average mutual information
Thông tin tương hỗ trung bình
ApEn
Approximate entropy
Entropy xấp xỉ
AR
Auto-regression
Tự động hồi qui
ASR
Automatic speech recognition
Nhận dạng tiếng nói tự động
CASA
Computational auditory
Phân tích ngữ cảnh
scene analysis
âm thanh thông qua tính toán
CML
Cepstral mean normalization
Chuẩn hóa trung bình Cepstral
CS
Complete synchronization
Đồng bộ hoàn chỉnh
ECG
Electrocardiogram
Tín hiệu điện tim
EEG
Electroencephalogram
Tín hiệu điện não
EMG
Electromyogram
Tín hiệu điện cơ
EOG
Electrooculogram
Tín hiệu nhãn đồ
FEC
Front End Clipping
Cắt phía trước
FFT
Fast Fourier Transform
Biến đổi Fourier nhanh
FNN
False nearest neighbor
Lân cận gần nhất sai
GS
Generalized synchronization
Đồng bộ tổng quát
HCI
Human computer interface
Giao tiếp người máy
HMM
Hidden Markov model
Mô hình Markov ẩn
JRP
Joint Recurrence Plot
Bảng hợp tái xuất
LE
Lyapunov Exponent
Lũy thừa Lyapunov
LS
Lorenz-Stenflo
Hệ thống động Lorenz-Stenflo
LPC
Linear predictive coding
Mã hóa dự báo tuyến tính
LRT
Likelihood ratio test
Kiểm tra tỷ lệ khả năng
LVCSR
Large vocabulary continuous
Nhận dạng tiếng nói liên tục
speech recognition
với lượng từ vựng lớn
Mid – Speech Clipping
Cắt giữa tiếng nói
MSC
v
vi
MCR
Mean Conditional Recurrence
Tái xuất có điều kiện trung bình
MEG
Magnetoencephalogram
Tín hiệu từ não
MFCC
Mel-Frequency
Hệ số Cepstrum tần số Mel
Cepstrum Coefficient
NPD
Normal probability distribution
Phân bố xác suất thường
NSE
Normalized synchronization error
Lỗi đồng bộ được chuẩn hóa
OVER
Over Hang
Phần nhô ra
RASTA
Relative spectral processing
Xử lý phổ tương đối
RP
Recurrence plots
Lô tái xuất
PDF
Probability density function
Hàm phân bố mật độ xác suất
PLP
Perceptual Linear Prediction
Dự đoán cảm nhận tuyến tính
SampEn
Sample entropy
Entropy mẫu
SNR
Signal-to-noise Ratio
Tỷ lệ tín hiệu và nhiễu
SR
Speech recognition
Nhận dạng tiếng nói
STE
Short time energy
Năng lương trong
khoảng thời gian ngắn
TEO
Teager energy operator
Toán tử năng lượng Teager
VAD
Voice activity detection
Phát hiện hoạt động âm thanh
ZCAE
Zero-crossing amplitude estimation Ước lượng biên độ cắt không
WRP
Weighted recurrence plot
Lô tái xuất theo trọng số
WRPE
Entropy of the WRP
Entropy của lô tái xuất
tái xuất theo trọng số
DANH MỤC HÌNH VẼ
1.1
Mô hình nguồn kênh cho một hệ thống nhận dạng tiếng nói . . . . 7
1.2
Lọc nguồn của tín hiệu tiếng nói . . . . . . . . . . . . . . . . . . . . 8
1.3
Mô hình hóa môi trường thêm nhiễu và lọc bằng kênh tuyến tính . 15
1.4
Phát hiện tiếng nói . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5
Tái tạo không gian pha của tín hiệu tiếng nói . . . . . . . . . . . . 18
1.6
Các tham số biến đổi cho các loại nhiễu khác nhau và tín hiệu
tiếng nói được thu liên tục . . . . . . . . . . . . . . . . . . . . . . . 23
1.7
Xác suất chuyển dịch . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.8
Xác suất chuyển dịch và phân bố xác suất đầu ra . . . . . . . . . . 27
2.1
Lô tái xuất của hệ thống Lorenz [67] . . . . . . . . . . . . . . . . . 34
2.2
Phổ năng lượng trong các trường hợp . . . . . . . . . . . . . . . . . 38
2.3
Hình chiếu hai chiều của không gian pha của LS với các biến x1 , x4 .
2.4
WRP cho hệ thống LS 4 chiều . . . . . . . . . . . . . . . . . . . . . 41
2.5
Lô WRPE H(r) cho r = 26 với tham số r của hệ thống LS bố chiều
2.6
Đồ thị WRPE H(α1 , α2 ) với r = 26 phụ thuộc vào tham số α1 , α2 . . 43
2.7
Mô tả những thay đổi trong quan hệ sai số đồng bộ (SE) và hệ
40
42
số ghép C theo thời gian. . . . . . . . . . . . . . . . . . . . . . . . . 45
2.8
Biểu đồ ∆(M CR) đối với cường độ liên kết C trong đồng bộ hệ
thống LS bị gây nhiễu bởi tạp âm, tín hiệu âm nhạc và tổ hợp tín
hiệu âm nhạc, tiếng nói. . . . . . . . . . . . . . . . . . . . . . . . . 48
2.9
Tiếng nói và đường bao phổ năng lượng trong các điều kiện khác
nhau. Đường màu hồng biểu diễn trung bình đầu tiên Y1 . . . . . . . 53
2.10 Mỗi tín hiệu được chia nhỏ bằng cửa sổ Hamming có chiều dài 256.
54
2.11 Mỗi tín hiệu được chia nhỏ bằng cửa sổ Hamming có chiều dài 256.
55
2.12 Mỗi tín hiệu được chia nhỏ bằng cửa sổ Hamming có chiều dài 256.
56
vii
viii
2.13 Tín hiệu tiếng nói trong các điều kiện khác nhau và RP của chúng.
Trong mỗi trường hợp, ǫ được tính bằng ǫ = 0, 1 × Std(speech).
Tín hiệu có chiều dài khác nhau. . . . . . . . . . . . . . . . . . . . 59
2.14 Các đường màu xanh lam biểu diễn RR(k) cho tiếng nói của một
người trong môi trường không tạp âm. Các đường màu đỏ biểu
diễn RR(k). Các đường xanh lam cho thấy npd của RR(k) cho
tiếng nói của một người trong môi trường không tạp âm. Các
đường màu đỏ biểu diễn npd của RR(k) cho tiếng nói giống nhau
của cùng một người trong các điều kiện khác nhau. Các màu xanh
và đỏ biểu thị hai người khác nhau. . . . . . . . . . . . . . . . . . . 60
3.1
Sơ đồ khối của một VAD . . . . . . . . . . . . . . . . . . . . . . . . 65
3.2
Sơ đồ thực thi, so sánh và đánh giá các thuật toán VAD . . . . . . 66
3.3
Sơ đồ khối cho VAD dựa trên tỉ lệ về không và đo năng lượng [7]
3.4
Hàm phân bố xác suất đo số điểm về không [5] . . . . . . . . . . . 72
3.5
Hàm mật độ xác suất của phép đo năng lượng [5] . . . . . . . . . . 72
3.6
Hàm mật độ xác suất của hệ số tự tương quan chuẩn hóa [5] . . . . 73
3.7
Hàm phân bố xác suất của hệ số LPC đầu tiên . . . . . . . . . . . 74
3.8
Hàm mật độ xác suất của phép đo sai số LPC . . . . . . . . . . . . 75
3.9
Sơ đồ khối VAD dựa trên phương pháp nhận dạng mẫu. . . . . . . 76
. 68
3.10 Sơ đồ khối của phương pháp VAD dựa trên thống kê đo lường. . . . 79
3.11 Các tham số mục tiêu [9]. . . . . . . . . . . . . . . . . . . . . . . . 82
3.12 Quan hệ Log-Log của nhiễu lũy thừa. . . . . . . . . . . . . . . . . . 83
3.13 Tuyến tính hóa tín hiệu . . . . . . . . . . . . . . . . . . . . . . . . 84
3.14 Phương pháp dịch cửa sổ nhiều mẫu . . . . . . . . . . . . . . . . . 85
3.15 Phương pháp dịch cửa sổ một mẫu . . . . . . . . . . . . . . . . . . 85
3.16 Phương pháp dùng bộ lọc làm trơn tam giác . . . . . . . . . . . . . 86
3.17 Phương pháp dùng bộ làm mượt tam giác dịch cửa sổ một mẫu . . 86
3.18 Tín hiệu, giá trị trung bình và đường bao đặc trưng . . . . . . . . . 89
3.19 Quan hệ Log-Log phổ năng lượng của tín hiệu nhiễu. Đường màu
xanh chỉ độ dốc (α) của các giá trị trung bình của log(S(f ). . . . . 89
3.20 Tín hiệu loại I, giá trị trung bình và đường bao năng lượng của
nhiễu với cường độ nhiễu là c = 0.002 cho cả hai trường hợp . . . . 90
ix
3.21 Tín hiệu loại II, giá trị trung bình và đường bao năng lượng của
nhiễu với cường độ nhiễu là c = 0.002 cho cả hai trường hợp . . . . 91
3.22 Tín hiệu tiếng nói màu xanh, các đường bao năng lượng có màu
đỏ, tím và xanh lá. Gía trị c = 0.005 được chọn. . . . . . . . . . . . 92
3.23 Tương quan chéo của đường bao năng lượng với trễ trong khoảng
[−20000, 20000]. Các đường đỏ và đen biểu diễn các tương quan
chéo. Phần được phóng to biểu diễn các giá trị tương quan chéo
với trễ trong khoảng [−50, 50]. . . . . . . . . . . . . . . . . . . . . . 92
3.24 Tín hiệu tiếng nói màu xanh, các đường bao năng lượng có màu
đỏ, tím và xanh lá. Gía trị c = 0.005 được chọn. . . . . . . . . . . . 93
3.25 Tín hiệu, đường bao năng lượng của tín hiệu tiếng nói loại I và
loại II trong môi trừng không tạp âm. Đường màu xanh lá cây
được sinh ra từ phương pháp chúng tôi đề xuất và đường màu đỏ
là kết quả của phương pháp trong [79]. . . . . . . . . . . . . . . . . 94
3.26 Tín hiệu loại I và đường bao năng lượng của tín hiệu trong các
môi trường có nhiễu khác nhau. . . . . . . . . . . . . . . . . . . . . 95
3.27 Đồ thị tương quan chéo giữa tiếng nói loại I không có tạp âm
và có tạp âm lần lượt trong ô tô và sân bay. Cột màu biểu diễn
giá trị tương quan chéo. Các cột màu được tính lag trong đoạn
[−2000; 2000] và cho thời tian t = 1, 2, . . . , 15000. . . . . . . . . . . 95
3.28 t và x(t) biểu diễn tín hiệu gốc (đường xanh lá cây) và đường bao
năng lượng Teager (xanh lam) theo thời gian. Tín hiệu được trích
từ đối tượng loại I không có tạp âm. . . . . . . . . . . . . . . . . . 96
3.29 Hiệu quả của phương pháp được đề xuất được so với các phương
pháp khác. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
3.30 Tín hiệu tiếng nói màu xanh, các đường bao năng lượng có màu
đỏ, tím và xanh lá. Giá trị c = 0.005 được chọn. . . . . . . . . . . . 98
3.31 Tương quan chéo của đường bao năng lượng với trễ trong khoảng
[−20000, 20000]. Các đường đỏ và đen biểu diễn các tương quan
chéo. Phần được phóng to biểu diễn các giá trị tương quan chéo
với trễ trong khoảng [−50, 50]. . . . . . . . . . . . . . . . . . . . . . 99
3.32 Theo trục x, chúng tôi xét đến số lượng các cực đại và cực tiểu
liên tiếp. Tổng số cực trị được tính từ các đường bao năng lượng
theo biểu thức (3.34). Giá trị c = 0.005 được chọn.
. . . . . . . . . 99
x
3.33 Các phần của tín hiệu x(t) và đường bao năng lượng tính theo
phương pháp đề xuất. Giao điểm của tín hiệu tiếng nói và đường
thẳng đứng màu hồng biểu diễn các điểm kết thúc. . . . . . . . . . 100
3.34 Đường bao entropy cho phương pháp đã có (màu vàng) và phương
pháp được đề xuất (màu xanh). Bản phóng to với các điểm màu
tìm biểu diễn điểm kết thúc được xác định bằng 2 phương pháp. . . 101
3.35 So sánh phương pháp VAD . . . . . . . . . . . . . . . . . . . . . . . 101
DANH MỤC BẢNG
2
σnew
2
σold
[119]. . . . . . . . . . . . . . . . . 71
3.1
Giá trị của p phụ thuộc vào
3.2
Tham số cho việc thực thi VAD [20]. . . . . . . . . . . . . . . . . . 80
xi
DANH MỤC CÁC KÝ HIỆU
Ký hiệu Ý nghĩa
a, b, c, r
tham số hệ thống
a,x
biểu diễn véc-tơ
ω
tần số
xii
MỞ ĐẦU
Năm mươi năm trở lại đây, lĩnh vực xử lý tín hiệu ngày càng được quan tâm
trong cộng đồng khoa học và ứng dụng bởi những lợi ích mà nó mang lại. Trong
lĩnh vực xử lý tín hiệu tiếng nói, đa số nghiên cứu đưa ra một số quá trình nhận
dạng dựa trên miền không gian, thời gian và tần số, có ít các công trình nghiên
cứu đưa ra các ứng dụng của lĩnh vực động học phi tuyến vào nhận dạng tiếng
nói. Cho tới nay, động học phi tuyến và hỗn loạn cho thấy có những phép đo
lường và đánh giá hiệu quả trong lĩnh vực xử lý tín hiệu [91, 116]. Luận án này
đề cập đến nghiên cứu các tín hiệu giọng nói và các tín hiệu khác cũng như các
đánh giá định lượng dựa trên các kỹ thuật phi tuyến.
1. Các phương pháp và công cụ được dùng để phân tích
Luận án này được nghiên cứu dựa vào các phương pháp:
• Tái tạo không gian pha: Tái tạo không gian pha là công cụ hữu ích để xấp
xỉ động học của bất cứ chuỗi thời gian nào. Tái tạo không gian pha được
dùng để khám phá các tham số động học của tín hiệu tiếng nói.
• Các phép đo lường entropy và sự phức tạp: Sự phức tạp đóng vai trò quan
trọng trong việc hiểu bản chất của nguồn thông tin và sự bất ổn định trong
chuỗi thời gian. Nó được áp dụng hữu hiệu vào việc định lượng các tham số
động học của tín hiệu tiếng nói, khi mà tín hiệu tiếng nói được xem như là
tín hiệu được sinh ra từ một hệ thống động.
• Tương quan và lũy thừa Lyapunov: Các công cụ này rất hữu ích trong lĩnh
vực động học phi tuyến. Chúng được dùng để phân tách tín hiệu tiếng nói.
• Phát hiện tiếng nói: Hoạt động tiếng nói có thể được phát hiện dùng phương
pháp phân tích phổ tín hiệu. Nó sẽ phân tách tín hiệu hữu thanh và vô
thanh/nhiễu sau khi áp dụng kỹ thuật lọc tín hiệu một cách thích hợp.
2. Mục tiêu nghiên cứu
1
2
Nghiên cứu này nhằm đến các mục đích sau:
• Phân tích các tín hiệu tiếng nói được ghi âm trong những điều kiện khác
nhau, sử dụng các công cụ có sẵn để định lượng các thành phần động học
như phổ công suất, phân tích lũy thừa Lyapunov, tương quan chéo, phân
tích dựa trên tính hồi quy và tái tạo không gian pha.
• Phân tích sự phức tạp thông qua đo lường, đánh giá các tham số động học
vốn có của hệ thống động học qua phân tích tín hiệu và định lượng sự bất
ổn định trong chuỗi thời gian.
• Đề xuất phương pháp mới hữu hiệu và khả thi để phát hiện thời điểm đầu
và kết thúc của âm hữu thanh được phát ra trong các tín hiệu tiếng nói với
cường độ âm thanh và độ dài của từ là bất kỳ.
4. Tình hình nghiên cứu trong và ngoài nước
Trong nước:
Hệ thống xử lý và nhận dạng tiếng Việt cũng được nghiên cứu ở một số nhóm
như AILab [3] thuộc Trường Đại học Khoa học Tự nhiên TP HCM, Phòng giao
tiếp tiếng nói thuộc viện MICA [78] nằm trong Đại học Bách khoa Hà Nội,
nhóm nghiên cứu của PGS Lương Chi Mai thuộc Viện Công nghệ Thông tin
(Viện Khoa học và Công nghệ Việt Nam). Các sản phẩm như VietVoice [135],
VSpeech [137].
Ngoài nước:
Ngày nay, nhu cầu thông tin luôn gia tăng và tương tác người máy (HCI)
từ đó cũng tăng theo. Một số tiếp cận cho HCI như thông qua việc phân tích
tín hiệu điện não (EEG), phân tích tín hiệu tiếng nói và phân tích cử chỉ của
người. Trong số đó, các tương tác thông qua tiếng nói và cử chỉ [87] của người
không đòi hỏi phải gắn thiết bị lên người một cách cố định, trong khi đó tín
hiệu EEG được ghi thông qua các điện cực gắn lên da. Việc nghiên cứu tín hiệu
tiếng nói cho giao tiếp người máy được phát triển mạnh trong những năm gần
đây [17, 45, 68, 97]. Có nhiều công trình nghiên cứu liên quan đến nhận dạng
và đạt được các kết quả đáng kể dùng cho ứng dụng thực tế [4, 49, 72]. Ví dụ,
các hệ thống nhận dạng tiếng nói cho tiếng Anh như Via Voice [30] được đưa
ra bởi IBM, Spoken Toolkit [18] được đưa ra bởi Central of Spoken Language
Understanding, Speech Recognition [113] đưa ra bởi Microsoft, Hidden Markov
3
Model toolkit [143] được đưa ra bởi Đại học Cambridge, CMU Sphinx [127] được
đưa ra bởi Đại học Carnegie Mellon... Bên cạnh đó, các hệ thống nhận dạng
tiếng Pháp, Đức, Trung Quốc, tiếng Việt...cũng được phát triển.
Mặc dù đã có các phương pháp và kỹ thuật nhận dạng tiếng Việt, nhưng
chúng được nhìn ở các góc độ khác nhau ngoại trừ góc nhìn của lý thuyết phi
tuyến tính. Hơn nữa, hầu hết các nghiên cứu dựa vào sử dụng các phương pháp
tuyến tính để phân tích các đặc trưng của thành phần tần số cơ bản F0 .
5. Những đóng góp của Luận án này
Luận án có một số đóng góp như sau:
• Tìm ra được sự thay đổi trong mức độ phức tạp của hệ thống động ngẫu
nhiên được sinh ra bởi tác động của tín hiệu phi tuyến hoặc bởi nhiễu.
Sự thay đổi này được đánh giá thông qua entropy của sơ đồ tái xuất theo
trọng số. Toàn bộ hệ thống trở thành mô hình ngẫu nhiên dưới tác động
của nhiễu ngoài, tác động của tín hiệu giọng nói và các tín hiệu âm nhạc.
Các ảnh hưởng có thể được định lượng bằng cách đánh giá sự phức tạp
(đại lượng đo lường entropy) hoặc bằng những phân tích dựa trên tái xuất
trọng số. Những nghiên cứu về phương pháp tần số, thời gian-tần số và
động học tái xuất phi tuyến cũng được đưa ra. Để có được thông tin chính
xác, việc xây dựng đường bao năng lượng được đề xuất. Đường bao năng
lượng được dùng để tách bạch hiệu quả giữa phần tính hiệu có giọng nói và
phần tín hiệu không có giọng nói. Bằng cách áp dụng các kỹ thuật tần số,
thời gian-tần số, lọc thông tin không thích hợp để phần tín hiệu có giọng
nói có thể được nhận ra. Sau đó, động học (tái xuất) phi tuyến được áp
dụng khi nó mô tả mọi chuyển động cục bộ của quĩ đạo trong không gian
pha tái tạo từ tín hiệu giọng nói. Đo lường đánh giá những chuyển động
cục bộ bằng tốc độ cửa sổ tái xuất được thực hiện. Nó cũng cho thấy rằng
phân bố xác suất chuẩn của tốc độ tái xuất cửa sổ có thể được ứng dụng
thành công trong việc mô tả sự tương đồng và sự không tương đồng giữa
các tín hiệu giọng nói thậm chí trong môi trường có nhiễu. Do đó, phân bố
xác suất thường của tốc độ tái xuất cửa sổ là một trong những phép đo
lường để nhận dạng mẫu tín hiệu giọng nói.
• Các bước cơ bản trong xử lý tín hiệu là phát hiện phần tín hiệu có tiếng
nói và phần không có tiếng nói. Đề xuất phương pháp phân tích VAD dựa
4
trên đường bao vi phân trung bình của tín hiệu tiếng nói được đưa ra. Việc
phân tích được thực hiện trong miền thời gian và có tốc độ xử lý nhanh
tương đối so với các phương pháp phân tích hiện nay trong miền thời gian.
Phương pháp này có khả năng phân tích tốt trong điều kiện tín hiệu tiếng
nói có nhiễu. Đề xuất phương pháp phát hiện phần tín hiệu có giọng nói và
phần không có giọng nói dựa trên tính toán trung bình đường bao cực trị
(cực đại và cực tiểu) cục bộ của tín hiệu tiếng nói. Phương pháp này được
thực hiên trên miền thời gian và không phụ thuộc vào người nói. Mô hình
đề xuất được kiểm chứng với các tính hiệu thực cũng như các tín hiệu có
tác động nhiễu không ổn định. Việc kiểm chứng hiệu quả của phương pháp
đề xuất được đưa ra và có so sánh với các phương pháp đã được đưa ra
trước khi thực hiện trong miền thời gian.
6. Cấu trúc của Luận án
Luận án này gồm hai phần, phần đầu là giới thiệu tổng quan về lĩnh vực có
liên quan đến đề tài và phần thứ hai là chi tiết nội dung nghiên cứu. Cụ thể,
cấu trúc Luận án này như sau:
Chương 1 nói về thông tin cơ sở liên quan đến nhận dạng tiếng nói. Ở Chương
này, các nội dung liên quan đến đặc trưng của tín hiệu tiếng nói được trình bày;
Sự phức tạp trong tín hiệu tiếng nói được ứng dụng trong nhận dạng; Ảnh hưởng
của nhiễu vào kết quả nhận dạng tiếng nói; Khái niệm tổng quát và các phương
pháp về phát hiện tiếng nói (VAD); Phương pháp phân tích phi tuyến ứng ứng
dụng trong nhận dạng tiếng nói; Vấn đề xác định điểm đầu điểm cuối trong tín
hiệu tiếng nói; Các phân tích tiếng nói theo miền thời gian và miền tần số-thời
gian.
Chương 2 đi khảo sát và phân tích sự phức tạp của tín hiệu tiếng nói trong
điều kiện có nhiễu và không có nhiễu dưới góc nhìn phi tuyến. Ở đây, động học
của tín hiệu tiếng nói được nghiên cứu trong điều kiện có nhiễu tương quan
mạnh. Các phép đo lường entropy được sử dụng ở đây để hiểu thấu đáo về sự
phức tạp của hệ thống và cũng được xem là công cụ xử lý tín hiệu. Sự phức
tạp của hệ thống động hỗn loạn mạnh được nghiên cứu, trong đó hệ thống động
bị tác động mạnh bởi nhiễu và các tín hiệu tiếng nói hoặc tín hiệu âm nhạc.
Sự phức tạp được đo lường bởi entropy tái xuất có trọng số cho các hệ thống
hỗn loạn này. Hiện tượng đồng bộ giữa hai hệ thống ngẫu nhiên với tín hiệu
- Xem thêm -