BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
-------------------------------
NGUYỄN PHÚ BÌNH
NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT SỬ DỤNG MỨC
DƯỚI TỪ
LUẬN VĂN THẠC SỸ
CHUYÊN NGÀNH: XỬ LÝ THÔNG TIN VÀ TRUYỀN THÔNG
Hà Nội – 2004
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
-------------------------------
NGUYỄN PHÚ BÌNH
NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT SỬ DỤNG MỨC
DƯỚI TỪ
LUẬN VĂN THẠC SỸ
CHUYÊN NGÀNH: XỬ LÝ THÔNG TIN VÀ TRUYỀN THÔNG
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. TRỊNH VĂN LOANG
Hà Nội – 2004
MỤC LỤC
Tổng quan ....................................................................................................................... 1
1.1. Nhận dạng tiếng nói ................................................................................................... 1
1.2. Các phương pháp tiếp cận trong nhận dạng tiếng nói ............................................... 3
1.2.1. Phương pháp âm học - ngữ âm học ................................................................... 3
1.2.2. Phương pháp nhận dạng mẫu ............................................................................. 5
1.2.3. Phương pháp ứng dụng trí tuệ nhân tạo ............................................................. 7
1.3. Tình hình nhận dạng tiếng nói tại nước ta hiện nay................................................... 8
1.4. Mục tiêu thực hiện của đề tài ................................................................................... 11
2 Tín hiệu tiếng nói ......................................................................................................... 13
2.1. Bộ máy phát âm và cơ chế tạo ra tiếng nói .............................................................. 13
2.2. Các đặc tính âm học của tiếng nói ........................................................................... 16
2.2.1. Âm hữu thanh và âm vô thanh ......................................................................... 16
a. Âm hữu thanh .................................................................................................... 16
b. Âm vô thanh....................................................................................................... 16
2.2.2. Âm vị ............................................................................................................... 17
a. Nguyên âm ......................................................................................................... 17
b. Phụ âm ............................................................................................................... 17
2.2.3. Các đặc tính khác ............................................................................................. 17
a. Tỷ suất thời gian ................................................................................................ 17
b. Hàm năng lượng thời gian ngắn ........................................................................ 18
c. Tần số cơ bản ..................................................................................................... 18
d. Formant .............................................................................................................. 18
2.3. Biểu diễn tín hiệu tiếng nói ...................................................................................... 19
2.3.1. Tín hiệu tiếng nói trên miền thời gian. ............................................................ 19
2.3.2. Tín hiệu tiếng nói trên miền tần số .................................................................. 20
2.3.3. Tín hiệu tiếng nói trên miền thời gian và tần số kết hợp ................................. 20
3 Trích chọn đặc trưng tín hiệu tiếng nói ..................................................................... 22
3.1. Tiền xử lý tín hiệu .................................................................................................... 23
3.1.1. Hàm năng lượng ngắn hạn ............................................................................... 23
3.1.2. Phát hiện điểm đầu và điểm cuối của tiếng nói ............................................... 23
3.1.3. Bộ lọc hiệu chỉnh ............................................................................................. 24
3.2. Phân khung và hàm cửa sổ ...................................................................................... 25
3.2.1. Phân khung ...................................................................................................... 25
3.2.2. Lấy cửa sổ ........................................................................................................ 26
3.3. Phân tích các tham số đặc trưng .............................................................................. 27
3.3.1. Biến đổi Fourier rời rạc.................................................................................... 28
3.3.2. Biến đổi sang thang Mel trên miền tần số ....................................................... 28
3.3.3. Biến đổi Cosine rời rạc .................................................................................... 29
3.4. Hiệu chỉnh kết quả ................................................................................................... 30
3.4.1. Cepstral có trọng số ......................................................................................... 30
3.4.2. Các tham số tức thời ........................................................................................ 30
1
3.5. Kết luận .................................................................................................................... 30
Mô hình Markov ẩn ..................................................................................................... 32
4.1. Tổng quan về mô hình Markov ẩn ........................................................................... 33
4.1.1. Các quá trình Markov rời rạc về thời gian ....................................................... 33
4.1.2. Mô hình Markov ẩn ......................................................................................... 35
a. Khái niệm ........................................................................................................... 35
b. Các thành phần của một mô hình Markov ẩn .................................................... 38
4.2. Các vấn đề cơ bản của mô hình Markov ẩn ............................................................. 39
4.2.1. Bài toán 1: Đánh giá xác suất .......................................................................... 39
a. Thủ tục tiến (Forward Procedure) ...................................................................... 40
b. Thủ tục lùi (Backward Procedure) ..................................................................... 42
4.2.2. Bài toán 2: Tìm dãy trạng thái tối ưu ............................................................... 43
a. Thuật toán Viterbi .............................................................................................. 44
b. Một cách cài đặt khác của thuật toán Viterbi..................................................... 45
4.2.3. Bài toán 3: Ước lượng các tham số của mô hình ............................................. 46
4.3. Sử dụng mô hình Markov ẩn trong nhận dạng tiếng nói ......................................... 50
4.3.1. Mô hình Markov ẩn với đầu vào liên tục ......................................................... 50
4.3.2. Các loại mô hình Markov ẩn............................................................................ 52
4.3.3. Nhận dạng tiếng nói phát âm rời rạc ................................................................ 55
4.3.4. Nhận dạng tiếng nói phát âm liên tục .............................................................. 56
a. Vai trò của thuật toán Viterbi ............................................................................ 56
b. Mô hình subword và thủ tục huấn luyện nhúng (embedded training) ............... 57
c. Giải mã chuỗi quan sát....................................................................................... 60
4.3.5. Các công thức huấn luyện mô hình.................................................................. 60
a. Một số kí hiệu .................................................................................................... 61
b. Khởi tạo các giá trị ban đầu cho mô hình .......................................................... 61
c. Các xác suất Forward và Backward ................................................................... 63
d. Huấn luyện mô hình cả từ .................................................................................. 65
e. Huấn luyện mô hình subword ............................................................................ 66
5 Sử dụng mô hình ngôn ngữ trong nhận dạng tiếng nói ............................................ 68
5.1. Khái niệm về mô hình ngôn ngữ ............................................................................. 68
5.1.1. Mô hình ngôn ngữ là gì.................................................................................... 68
5.1.2. Một số vấn đề khi áp dụng mô hình ngôn ngữ ................................................ 69
5.1.3. Các loại mô hình ngôn ngữ .............................................................................. 69
a. Mô hình ngôn ngữ dựa trên cú pháp .................................................................. 70
b. Mô hình ngôn ngữ ngẫu nhiên ........................................................................... 73
5.2. Các thuật toán tìm kiếm trong nhận dạng tiếng nói ................................................. 75
5.2.1. Không gian tìm kiếm ....................................................................................... 75
5.2.2. Không gian tìm kiếm với FSM và CFG........................................................... 76
5.2.3. Không gian tìm kiếm với mô hình Unigram .................................................... 79
5.2.4. Không gian tìm kiếm với mô hình Bigram ...................................................... 79
5.2.5. Không gian tìm kiếm với các mô hình Trigram .............................................. 81
5.3. Tìm kiếm Viterbi đồng bộ thời gian ........................................................................ 82
5.3.1. Ý tưởng của thuật toán ..................................................................................... 82
4
5.3.2. Sử dụng chùm trong tìm kiếm ......................................................................... 84
5.3.3. Tìm kiếm Viterbi theo chùm ............................................................................ 84
6 Xây dựng chương trình nhận dạng tiếng nói tiếng Việt ........................................... 87
6.1. Đại cương về tiếng Việt ........................................................................................... 87
6.1.1. Đặc điểm của tiếng Việt................................................................................... 87
a. Đặc điểm ngữ âm ............................................................................................... 88
b. Đặc điểm từ vựng............................................................................................... 88
c. Đặc điểm ngữ pháp ............................................................................................ 88
6.1.2. Âm tiết ............................................................................................................. 89
a. Khái niệm ........................................................................................................... 89
b. Cấu tạo của âm tiết............................................................................................. 90
6.1.3. Âm tố ............................................................................................................... 94
6.1.4. Âm vị ............................................................................................................... 95
6.1.5. Tiếng ................................................................................................................ 95
6.1.6. Hình vị ............................................................................................................. 95
6.1.7. Chữ viết............................................................................................................ 96
6.1.8. Chính tả ............................................................................................................ 97
6.1.9. Hệ thống âm vị ................................................................................................. 98
6.2. Xây dựng hệ thống nhận dạng tiếng nói tiếng Việt ............................................... 100
6.2.1. Các thành phần chính của hệ thống ............................................................... 100
6.2.2. Chuẩn bị cơ sở dữ liệu tiếng nói .................................................................... 102
6.2.3. Huấn luyện mô hình và đánh giá hệ thống .................................................... 105
6.2.4. Nhận dạng tiếng nói trong chế độ thời gian thực........................................... 108
6.3. Lựa chọn đơn vị âm thanh để huấn luyện mô hình ................................................ 110
6.3.1. Các đơn vị nhận dạng thông thường .............................................................. 111
a. Mô hình từ và âm tiết ....................................................................................... 111
b. Mô hình âm vị .................................................................................................. 111
c. Mô hình âm vị kép, ba âm vị ........................................................................... 112
d. Mô hình âm đầu + vần ..................................................................................... 113
6.3.2. Đề xuất đơn vị nhận dạng cơ bản là bán âm tiết ............................................ 114
6.4. Các kết quả thực nghiệm ....................................................................................... 115
6.4.1. So sánh mô hình âm đầu + vần với mô hình bán âm tiết ............................... 115
6.4.2. Ảnh hưởng của số lần thực hiện vòng lặp trong thủ tục huấn luyện ............. 115
6.4.3. Nhận dạng các từ chưa được huấn luyện ....................................................... 117
6.4.4. Các thử nghiệm với số lượng từ vựng nhỏ .................................................... 117
7 Kết luận ....................................................................................................................... 119
1. Các kết quả đạt được ................................................................................................. 119
2. Phương hướng phát triển của đề tài ........................................................................... 120
DANH SÁCH HÌNH VẼ
Hình 1.1. Các phần tử cơ bản của một hệ thống nhận dạng tiếng nói điển hình ................... 2
Hình 1.2. Sơ đồ khối của hệ thống nhận dạng tiếng nói theo phương pháp âm học - ngữ âm
học ................................................................................................................................. 4
Hình 1.3. Sơ đồ khối hệ thống nhận dạng tiếng nói theo phương pháp nhận dạng mẫu ....... 6
Hình 1.4. Mô hình của phương pháp bottom-up ................................................................... 8
Hình 2.1. Quá trình tạo và cảm thụ tiếng nói của con người ............................................... 14
Hình 2.2. Bộ máy phát âm của con người ........................................................................... 14
Hình 2.3. Quá trình tạo tín hiệu tiếng nói ............................................................................ 16
Hình 2.4. Biểu diễn tín hiệu tiếng nói trên miền thời gian .................................................. 19
Hình 2.5. Biểu diễn tín hiệu trên miền tần số ...................................................................... 20
Hình 2.6. Biểu diễn tín hiệu trên miền kết hợp thời gian và tần số ..................................... 21
Hình 3.1. Sơ đồ tổng quát của các phương pháp phân tích đặc trưng tiếng nói .................. 22
Hình 3.2. Tín hiệu nguồn ..................................................................................................... 24
Hình 3.3. Đáp ứng của bộ lọc hiệu chỉnh ............................................................................ 25
Hình 3.4. Phân khung tín hiệu ............................................................................................. 26
Hình 3.5. Cửa sổ Hamming ................................................................................................. 27
Hình 3.6. Chuyển đổi thang tần số Hz-Mel ......................................................................... 28
Hình 3.7. Các băng lọc tam giác theo thang tần số Mel ...................................................... 29
Hình 3.8. Sơ đồ tính toán các hệ số MFCC ......................................................................... 31
Hình 4.1. Mô hình Markov của ví dụ về thời tiết ................................................................ 34
Hình 4.2. Ba mô hình Markov có thể giải thích cho ví dụ tung đồng xu ............................ 37
Hình 4.3. Minh họa chuỗi thao tác để tính toán biến tiến αt+1 ............................................. 42
Hình 4.4. Minh họa chuỗi thao tác để tính toán biến lùi βt .................................................. 43
Hình 4.5. Tính xác suất có trạng thái i tại thời điểm t và trạng thái j tại thời điểm t+1....... 47
Hình 4.6. Ví dụ về phân bố Gauss ....................................................................................... 51
Hình 4.7. Ví dụ về các loại mô hình Markov ẩn ................................................................. 53
Hình 4.8. Mô hình trái phải với bước nhảy 2 ...................................................................... 54
Hình 4.9. Mô hình tổng quát nhận dạng tiếng nói sử dụng HMM ...................................... 55
Hình 4.10. Thuật toán Viterbi áp dụng trong nhận dạng tiếng nói ...................................... 57
Hình 5.1. Văn phạm trong ứng dụng quay số bằng giọng nói ............................................. 72
Hình 5.2. Ví dụ chuyển một FSG sang mô hình HMM tổng hợp........................................ 76
Hình 5.3. Một RNT đơn giản với 3 cung: CAT(x), PUSH(x) và POP ................................ 78
Hình 5.4. Mô hình Unigram với các xác suất unigram là các xác suất chuyển dịch từ trạng
thái giả bắt đầu đến trạng thái đầu tiên của mô hình HMM ........................................ 79
Hình 5.5. Mô hình bigram với P(wj|wi) được xác định là xác suất chuyển dịch từ từ wi đến
từ wj ............................................................................................................................. 80
Hình 5.6. Giảm thiểu số bigram khi tìm kiếm bằng các nút backoff ................................... 81
Hình 5.7. Mô hình Trigram .................................................................................................. 82
Hình 6.1. Cấu tạo âm tiết tiếng Việt .................................................................................... 90
Hình 6.2. Bảng hệ thống âm đầu (phụ âm đầu) ................................................................... 91
Hình 6.3. Các nguyên âm chính của tiếng Việt ................................................................... 92
Hình 6.4. Các âm cuối trong tiếng Việt ............................................................................... 93
Hình 6.5. Dạng biến đổi tuyến tính của F0 ứng với từng thanh điệu tiếng Việt .................. 94
Hình 6.6. Bảng âm vị phụ âm .............................................................................................. 99
Hình 6.7. Bảng âm vị nguyên âm ...................................................................................... 100
Hình 6.8. Quan hệ giữa các module của hệ thống ............................................................. 102
Hình 6.9. Dạng sóng của một file âm thanh được thu âm ................................................. 103
Hình 6.10. Giao diện của chương trình VSRCutter ........................................................... 103
Hình 6.11. Giao diện của chương trình VSRAutoSplit ..................................................... 105
Hình 6.12. Huấn luyện mô hình ......................................................................................... 106
Hình 6.13. Giao diện của chương trình VSRTraining ....................................................... 107
Hình 6.14. Thông tin đầu vào cho quá trình huấn luyện ................................................... 107
Hình 6.15. Nhận dạng tiếng nói trong thời gian thực ........................................................ 108
Hình 6.16. Giao diện của chương trình VSRTiny ............................................................. 109
Hình 6.17. Một số chức năng của chương trình VSRTiny ................................................ 110
Hình 6.18. Mô hình Markov ẩn 3 trạng thái cho các âm vị ............................................... 112
Hình 6.19. Mô hình cho các âm vị kép .............................................................................. 112
Hình 6.20. Mô hình cho các triphone ................................................................................ 113
Lời nói đầu
Nhận dạng tiếng nói tự động từ lâu đã là một mơ ước của con người. Trong những
năm gần đây, khi mà khoa học công nghệ tiến bộ cho phép thì ước mơ này đang dần
dần trở thành hiện thực. Trong cuộc sống có rất nhiều ứng dụng cần đến nhận dạng
tự động bằng tiếng nói như nhập dữ liệu máy tính bằng lời, hỗ trợ người tàn tật,
quay số điện thoại bằng lời nói, ... Hiện nay trên thế giới đã có một số hệ thống
nhận dạng tiếng nói cỡ lớn, có độ chính xác tương đối cao. Các hệ thống này chủ
yếu được phát triển trên nền công nghệ hiện đại với các máy tính lớn, các vi mạch
xử lý tiếng nói chuyên dụng và sử dụng các cơ sở dữ liệu tiếng nói khá hoàn chỉnh
(chủ yếu là tiếng Anh).
Còn đối với tiếng Việt, do có những đặc thù riêng, nên việc chọn lựa cách tiếp cận
bài toán nhận dạng sao cho phù hợp với tiếng Việt là một vấn đề quan trọng và
tương đối khó khăn. Trong những năm gần đây, ở Việt Nam nói chung và trường
Đại học Bách Khoa Hà Nội nói riêng đã có khá nhiều nghiên cứu về nhận dạng
tiếng nói tiếng Việt. Tuy nhiên, nếu so với trên thế giới thì những kết quả đó còn
tương đối hạn chế. Cho đến nay, các hệ thống nhận dạng tiếng nói thành công nhất
chủ yếu dựa trên khuynh hướng nhận dạng mẫu. Các kỹ thuật nhận dạng mẫu đơn
giản như lượng tử hóa vector, hiệu chỉnh thời gian động, ... đã được áp dụng khá
thành công vào các ứng dụng nhận dạng tiếng nói tiếng Việt phát âm rời rạc với số
lượng từ vựng hạn chế. Tuy nhiên, mục tiêu của nhận dạng tiếng nói tự động bằng
máy là phải tiến tới các hệ thống nhận dạng tiếng nói liên tục, kích thước từ điển
lớn, không phụ thuộc người nói. Vì vậy, các hệ thống nhận dạng tiếng nói ngày nay
thường được xây dựng trên cơ sở áp dụng các kỹ thuật nhận dạng mẫu phức tạp
hơn, đó là mô hình Markov ẩn, hoặc mô hình lai giữa Markov ẩn và mạng neuron.
Trên thế giới đã có khá nhiều hệ thống nhận dạng tiếng nói cỡ lớn sử dụng mô hình
Markov ẩn cho độ chính xác rất cao như hệ thống nhận dạng Sphinx của trường đại
học Carnegie Mellon, bộ công cụ nhận dạng tiếng nói HTK của trường đại học
Cambridge, ... Ở Việt Nam, một số chương trình nhận dạng tiếng nói dựa trên mô
hình Markov ẩn cũng đã cho những kết quả khá khả quan. Tuy nhiên, phần lớn
những chương trình đó vẫn chỉ sử dụng mô hình Markov ẩn ở mức từ nên số lượng
từ vựng có khả năng nhận dạng được còn hạn chế và khó áp dụng để nhận dạng
được tiếng nói phát âm liên tục. Cũng đã có một số hệ thống nhận dạng sử dụng mô
hình Markov ẩn ở mức đơn vị âm thanh nhỏ hơn từ nhưng những thực nghiệm của
các hệ thống đó vẫn chỉ áp dụng trên một tập từ vựng không lớn lắm và cũng chưa
đề cập gì đến việc nhận dạng tiếng nói liên tục.
Xuất phát từ nhận thức trên, cuốn luận văn này được thực hiện với mục tiêu là tìm
hiểu và đưa ra phương pháp để xây dựng được một ứng dụng nhận dạng tiếng nói
tiếng Việt sử dụng đơn vị nhận dạng mức dưới từ. Đây sẽ là cơ sở để cho phép phát
triển các ứng dụng nhận dạng tiếng nói liên tục với số lượng từ vựng lớn trong
tương lai.
Cụ thể, nội dung của luận văn được chia làm các phần như sau:
Chương 1 giới thiệu về những khái niệm cơ bản của nhận dạng tiếng nói và tóm tắt
một số kết quả nghiên cứu về nhận dạng tiếng nói tiếng Việt. Những mục tiêu cần
phải thực hiện của đề tài cũng được đề cập đến trong chương này.
Chương 2 trình bày về một số tính chất của tín hiệu tiếng nói, từ cơ chế tạo ra tiếng
nói, các đặc trưng của tiếng nói và các phương pháp biểu diễn tín hiệu tiếng nói.
Chương 3 đề cập đến kĩ thuật tính các hệ số MFCC, đó là một phương pháp trích
chọn đặc trưng tín hiệu tiếng nói đã được áp dụng khá hiệu quả trong các hệ thống
nhận dạng.
Chương 4 trình bày về khái niệm mô hình Markov ẩn và một số vấn đề đáng lưu ý
khi áp dụng mô hình Markov ẩn vào nhận dạng tiếng nói. Một nội dung khá quan
trọng của chương này chính là thủ tục huấn luyện nhúng (embedded training), đó là
kĩ thuật cơ sở để xây dựng các mô hình mức dưới từ (subword) để sử dụng trong
các ứng dụng nhận dạng tiếng nói với số lượng từ vựng lớn.
Chương 5 trình bày khái quát về mô hình ngôn ngữ và cách áp dụng mô hình ngôn
ngữ vào lĩnh vực nhận dạng tiếng nói.
Chương 6 giới thiệu về hệ thống nhận dạng tiếng nói tiếng Việt sử dụng đơn vị
nhận dạng mức dưới từ mà học viên đã xây dựng. Các kết quả thực nghiệm của đề
tài cũng được trình bày trong chương này.
Cuối cùng là phần kết luận và phương hướng phát triển của đề tài.
Chương 1: Tổng quan
1
1
Tổng quan
1.1. Nhận dạng tiếng nói
Nhận dạng tiếng nói hiện đang là một trong những vấn đề nhận được nhiều sự quan
tâm của các nhà nghiên cứu bởi tiềm năng ứng dụng to lớn của nó. Một cách tổng
quát, nhận dạng tiếng nói là làm cho máy hiểu, nhận biết được ngữ nghĩa của lời
nói. Thực chất đây là quá trình biến đổi tín hiệu âm thanh thu được qua micro, qua
đường dây điện thoại hoặc các thiết bị thu âm khác, ... thành một chuỗi các từ, sau
đó các từ được nhận dạng có thể được sử dụng ngay trong các ứng dụng điều khiển
thiết bị, nhập liệu, soạn thảo văn bản bằng lời, ... hoặc được đưa đến một quá trình
xử lý ngôn ngữ mức cao hơn.
Các hệ thống nhận dạng tiếng nói có thể được phân thành các loại như sau :
• Nhận dạng các từ phát âm rời rạc / liên tục.
• Nhận dạng tiếng nói phụ thuộc người nói / không phụ thuộc người nói.
• Hệ thống nhận dạng có từ điển cỡ nhỏ (khoảng 20 từ) / từ điển cỡ lớn (hàng
nghìn từ).
• Nhận dạng tiếng nói trong môi trường có độ ồn thấp / cao.
• .....
Trong một hệ thống nhận dạng tiếng nói phát âm rời rạc thì người nói sau khi nói
một từ phải dừng lại trước khi phát âm từ tiếp theo. Ngược lại, hệ thống nhận dạng
lời nói liên tục không đòi hỏi điều này.
1
Chương 1: Tổng quan
Hệ thống nhận dạng phụ thuộc người nói đòi hỏi người nói phải cung cấp một số
mẫu tiếng nói của mình trước khi sử dụng. Còn hệ thống nhận dạng không phụ
thuộc người nói có thể nhận dạng lời nói của bất kì người nào.
Hệ thống nhận dạng tiếng nói có từ điển cỡ lớn hoặc có nhiều từ dễ nhầm lẫn
thường có độ chính xác không cao bằng hệ thống nhận dạng có vốn từ vựng cỡ nhỏ.
Một vấn đề trọng tâm của nhận dạng tiếng nói là phải giải quyết được tính biến
thiên của tín hiệu tiếng nói. Hiện tại các hệ thống nhận dạng tiếng nói phân biệt hai
loại tính chất biến thiên: biến thiên âm học và biến thiên thời gian. Biến thiên âm
học bao hàm sự khác nhau về trọng âm, phát âm, cao độ, âm lượng ..., còn biến
thiên thời gian là sự khác nhau về tốc độ phát âm. Hai loại biến thiên này lại không
hoàn toàn độc lập với nhau, ví dụ khi một người nói nhanh (biến thiên thời gian) thì
một số đoạn âm thanh có thể bị luyến (biến thiên âm học).
Ngoài ra, khi lời nói là một cụm từ hay một câu, ta cần áp dụng mô hình ngôn ngữ
hoặc một nguyên tắc ngữ pháp thích hợp nào đó để giới hạn mức độ kết hợp giữa
các từ. Mô hình ngôn ngữ đơn giản nhất là một cấu trúc xác định các từ được phép
đi sau một từ nào đó trong từ điển. Mô hình ngôn ngữ phức tạp hơn sử dụng các
nguyên tắc ngữ pháp của ngôn ngữ tự nhiên.
C¬ së d÷ liÖu tiÕng nãi
M« h×nh
©m thanh
M« h×nh
tõ vùng
M« h×nh
ng«n ng÷
Tõ ®-îc
nhËn
d¹ng
TÝn hiÖu
vµo
Ph©n tÝch x¸c
®Þnh ®Æc tÝnh
M« h×nh hãa /
Ph©n líp
T×m kiÕm
Hình 1.1. Các phần tử cơ bản của một hệ thống nhận dạng tiếng nói điển hình
Hình 1.1 cho ta thấy các phần tử cơ bản của một hệ thống nhận dạng tiếng nói điển
hình. Tín hiệu tiếng nói sau khi được số hóa sẽ được chuyển thành một tập các
vector tham số đặc trưng với các phân đoạn tiếng nói có độ dài khoảng 10-30 ms.
Các đặc tính này được dùng để tìm kiếm các từ giống nhất với một số điều kiện
2
Chương 1: Tổng quan
ràng buộc về âm học, từ vựng và ngữ pháp (mô hình ngôn ngữ). Trong quá trình
huấn luyện, cơ sở dữ liệu tiếng nói được sử dụng để xác định các tham số hệ thống.
Một trong những khó khăn lớn nhất của việc nghiên cứu nhận dạng tiếng nói tự
động là tính phụ thuộc đa chuyên ngành. Có rất nhiều chuyên ngành khoa học liên
quan đến nhận dạng tiếng nói như : xử lý tiếng nói, vật lý (âm học), nhận dạng mẫu,
lý thuyết truyền tin, ngôn ngữ học, sinh lý học, khoa học máy tính, ... Để có thể xây
dựng thành công một hệ thống nhận dạng tiếng nói tự nhiên có từ điển cỡ lớn thì
cần phải có nhiều kiến thức trong tất cả các chuyên ngành đó, đấy là một lượng kiến
thức khổng lồ vượt quá khả năng của bất kì một người nào. Vì vậy, hầu hết các nhà
khoa học thường chỉ tập trung giải quyết một số bài toán cụ thể trên cơ sở chuyên
ngành hẹp của mình.
1.2. Các phương pháp tiếp cận trong nhận dạng tiếng nói
Hiện nay có 3 phương pháp phổ biến được sử dụng trong nhận dạng tiếng nói [1],
đó là :
• Phương pháp âm học - ngữ âm học.
• Phương pháp nhận dạng mẫu.
• Phương pháp ứng dụng trí tuệ nhân tạo.
1.2.1. Phương pháp âm học - ngữ âm học
Phương pháp này dựa trên lý thuyết về âm học - ngữ âm học cho rằng tồn tại các
đơn vị ngữ âm xác định, có tính phân biệt trong lời nói và các đơn vị ngữ âm đó
được đặc trưng bởi một tập các đặc tính tín hiệu tiếng nói. Mặc dù các đặc tính âm
học của các đơn vị ngữ âm biến thiên rất lớn theo cả giọng người nói lẫn tác động
của các đơn vị ngữ âm xung quanh nhưng tồn tại các quy tắc cho phép giải quyết
vấn đề này. Bước đầu tiên trong nhận dạng tiếng nói theo phương pháp này là phân
đoạn và gán nhãn. Bước này chia tín hiệu tiếng nói thành các đoạn có đặc tính âm
học đặc trưng cho một (hoặc một vài) đơn vị ngữ âm, đồng thời gán cho mỗi đoạn
âm thanh đó một hay nhiều nhãn ngữ âm phù hợp. Bước tiếp theo (bước nhận dạng)
dựa trên một số điều kiện ràng buộc về từ vựng, ngữ pháp,... để xác định ra một từ
hoặc một chuỗi từ đúng trong số một chuỗi các nhãn ngữ âm được tạo ra sau bước
thứ nhất.
Sơ đồ khối của hệ thống nhận dạng theo phương pháp này như sau:
3
Chương 1: Tổng quan
Bộ phát hiện
đặc điểm 1
s(n)
Hệ thống phân
tích tiếng nói
•
•
•
Phân đoạn
và
Gán nhãn
Băng lọc
LPC
Bộ phát hiện
đặc điểm Q
Chiến lược
điều khiển
Tiếng
nói đã
được
nhận
dạng
Lưới âm vị
Lưới đoạn
Khả năng
Gán nhãn
Cây quyết định
Chiến lược phân tích
Formant
Pitch
Hữu thanh/
vô thanh
Năng lượng
Âm mũi
Phụ âm xát
Hình 1.2. Sơ đồ khối của hệ thống nhận dạng tiếng nói theo phương pháp âm học - ngữ âm học
Nguyên lý hoạt động của hệ thống này như sau :
• Tín hiệu tiếng nói sau khi số hóa được đưa tới khối phân tích tiếng nói nhằm
xác định các số đo phổ tín hiệu tiếng nói biến đổi theo thời gian. Các kĩ thuật
phân tích tiếng nói phổ biến là sử dụng các bộ lọc thông dải, mã hóa dự đoán
tuyến tính (LPC),...
• Bước sau đó là tách đặc tính tín hiệu tiếng nói nhằm biến đổi các số đo phổ
tín hiệu thành một tập các đặc tính mô tả các tính chất âm học của các đơn vị
ngữ âm khác nhau. Các đặc tính đó có thể là : tính chất âm mũi, âm xát, vị trí
các formant, âm hữu thanh hay vô thanh, tỷ số mức năng lượng tần số cao so
với mức năng lượng tần số thấp,...
• Tiếp theo là bước phân đoạn và gán nhãn. Ở bước này hệ thống nhận dạng
tiếng nói cố gắng tìm các vùng âm thanh ổn định (vùng có đặc tính thay đổi
rất ít) và gán cho mỗi vùng này một nhãn phù hợp với đặc tính của đơn vị
ngữ âm. Đây là bước chủ yếu của hệ thống nhận dạng tiếng nói theo khuynh
hướng âm học - ngữ âm học, và là bước khó thực hiện tin cậy nhất.
• Bước cuối cùng là dựa vào một số nguyên tắc lựa chọn để kết hợp chính xác
các khối ngữ âm để tạo thành các từ nhận dạng.
4
Chương 1: Tổng quan
Phương pháp này đã được nghiên cứu sâu trong hơn 40 năm qua, tuy nhiên vì nhiều
nguyên nhân mà cách tiếp cận này không thu được nhiều thành công. Sau đây là
một vài nguyên nhân cơ bản:
• Phương pháp này yêu cầu sự hiểu biết sâu rộng về các thuộc tính âm học của
các đơn vị ngữ âm. Điều này thường không thể có được trừ các thuộc tính
âm học của các nguyên âm.
• Việc lựa chọn các đặc điểm đa phần dựa vào các quan sát không theo cách
thức nào cả. Với hầu hết các hệ thống các đặc điểm được lựa chọn dựa vào
trực giác và không được tối ưu.
• Thiết kế của các bộ phân loại âm thanh cũng không được tối ưu. Gần đây
phương pháp CART (Classcification And Regression Tree) được sử dụng để
xây dựng các cây quyết định hiệu quả hơn. Tuy nhiên, các đặc điểm được lựa
chọn chỉ là các tối ưu địa phương.
• Không có thủ tục tự động, xác định nào để điểu chỉnh các tham số của
phương pháp này (ví dụ như điều chỉnh ngưỡng quyết định, …). Thậm chí
không có một cách đánh nhãn nào được phần lớn các chuyên gia chấp nhận.
1.2.2. Phương pháp nhận dạng mẫu
Phương pháp này không cần xác định đặc tính âm học hay phân đoạn tiếng nói mà
sử dụng trực tiếp các mẫu tín hiệu tiếng nói trong quá trình nhận dạng. Các hệ thống
nhận dạng tiếng nói theo phương pháp này được phát triển theo 2 bước. Ở bước thứ
nhất, hệ thống sử dụng một tập mẫu tiếng nói (cơ sở dữ liệu tiếng nói) để huấn
luyện tạo ra các mẫu tiếng nói đặc trưng (mẫu tham chiếu). Bước thứ hai hệ thống
nhận các mẫu tiếng nói từ bên ngoài, so sánh chúng với các mẫu đặc trưng để nhận
dạng.
Trong phương pháp này, nếu cơ sở dữ liệu tiếng nói dùng cho huấn luyện có đủ các
phiên bản của mẫu cần nhận dạng thì quá trình huấn luyện có thể xác định chính xác
các đặc tính âm học của mẫu (mẫu ở đây có thể là âm vị, từ, cụm từ, ...). Trước đây,
đối với các hệ thống nhận dạng tiếng nói là các từ rời rạc, vốn từ vựng cỡ nhỏ thì
người ta thường áp dụng các kĩ thuật nhận dạng mẫu đơn giản như: lượng tử hóa
vector, hiệu chỉnh thời gian động, ... Hiện nay có hai kĩ thuật nhận dạng mẫu được
áp dụng khá thành công trong lĩnh vực nhận dạng tiếng nói, đó là mô hình Markov
ẩn và mạng Neuron.
Sơ đồ khối của hệ thống nhận dạng tiếng nói theo phương pháp này như sau:
5
Chương 1: Tổng quan
C¸c mÉu
chuÈn / c¸c
m« h×nh
HuÊn
luyÖn mÉu
TrÝch chän
®Æc tr-ng
TiÕng
nãi
{mÉu thö}
{c¸c mÉu tham chiÕu}
Ph©n tÝch
hÖ thèng
TiÕng nãi
nhËn d¹ng
Ph©n lo¹i
mÉu
B¨ng läc
LPC
DFT
QuyÕt ®Þnh
logic
Hình 1.3. Sơ đồ khối hệ thống nhận dạng tiếng nói theo phương pháp nhận dạng mẫu
Hoạt động của hệ thống có thể được tóm tắt như sau :
• Trích chọn đặc trưng tiếng nói: đầu tiên tín hiêu tiếng nói được phân tích
thành một chuỗi các số đo để xác định mẫu nhận dạng. Các số đo đặc tính
thường là kết quả của một số kĩ thuật phân tích phổ như : các bộ lọc thông
dải, phân tích mã hóa dự đoán tuyến tính (LPC), phép biến đổi Fourier rời
rạc (DFT), ...
• Huấn luyện mẫu: các mẫu tiếng nói tương ứng với các đơn vị âm thanh cùng
loại được dùng để đào tạo ra các mẫu hoặc các mô hình đại diện, còn gọi là
mẫu tham chiếu hay mẫu chuẩn.
• Nhận dạng: các mẫu tiếng nói được đưa tới khối phân loại mẫu, khối này có
nhiệm vụ so sánh mẫu đầu vào cần nhận dạng với các mẫu tham chiếu đã
được xác định, rồi dựa trên một số tiêu chuẩn để quyết định xem mẫu tham
chiếu nào giống mẫu đầu vào nhất.
Phương pháp này có một số đặc điểm sau:
• Hiệu năng của hệ thống rất nhạy cảm đối với số dữ liệu mẫu đưa vào huấn
luyện. Nếu số lượng mẫu càng nhiều thì độ chính xác của hệ thống càng cao,
tuy nhiên dung lượng bộ nhớ và thời gian luyện mẫu cũng tăng theo.
• Các mẫu tham chiếu thường phụ thuộc vào môi trường phát âm và các đặc
tính truyền dẫn của môi trường.
• Phương pháp này có thể được sử dụng để nhận dạng từ mà không đòi hỏi khả
năng am hiểu sâu về ngôn ngữ.
6
Chương 1: Tổng quan
1.2.3. Phương pháp ứng dụng trí tuệ nhân tạo
Có thể coi đây là phương pháp kết hợp của các phương pháp trên với ý tưởng tận
dụng tối đa các ưu điểm của từng phương pháp, đồng thời cố gắng mô phỏng khả
năng tuyệt hảo của con người trong sự phân tích và cảm nhận các sự kiện bên ngoài
nói chung và tiếng nói nói riêng.
Đặc điểm chung của các hệ thống nhận dạng theo phương pháp này là:
• Sử dụng hệ chuyên gia để phân đoạn, gán nhãn ngữ âm. Điều này làm đơn
giản hóa hệ thống so với phương pháp nhận dạng ngữ âm.
• Sử dụng mạng neuron để học mối quan hệ giữa các ngữ âm. Sau đó dùng
mạng này để nhận dạng tiếng nói.
Việc sử dụng hệ chuyên gia ở đây là nhằm mục đích tận dụng các nguồn kiến thức
của con người vào trong hệ thống nhận dạng, đó là:
• Kiến thức về âm học: Nhằm để phân tích phổ và xác định đặc tính âm học
của các mẫu tiếng nói đầu vào.
• Kiến thức về từ vựng: Sử dụng để kết hợp các khối ngữ âm thành các từ cần
nhận dạng.
• Kiến thức về cú pháp: Nhằm kết hợp các từ thành các câu cần nhận dạng.
• Kiến thức về ngữ nghĩa: Nhằm xác định tính logic của các câu đã được nhận
dạng.
Tùy theo các hệ thống khác nhau mà sự kết hợp các nguồn kiến thức từ hệ chuyên
gia là khác nhau.
Có nhiều cách khác nhau để tổng hợp các nguồn kiến thức vào trong một bộ nhận
dạng tiếng nói. Phương pháp thông dụng nhất là xử lý "từ dưới lên" (hình 1.4). Theo
cách này, các tiến trình xử lý của hệ thống được triển khai tuần tự từ thấp lên cao.
Trong sơ đồ ở hình 1.4, các tiến trình xử lý ở mức thấp (phân tích tín hiệu, tìm đặc
tính, phân đoạn, gán nhãn) được triển khai trước các tiến trình xử lý ở mức cao hơn
(phân lớp âm thanh, xác định từ, xác định câu). Mỗi tiến trình xử lý đòi hỏi một
hoặc một số nguồn kiến thức nhất định. Ví dụ, bước phân đoạn tiếng nói cần có sự
hiểu biết sâu sắc về đặc tính âm học - ngữ âm học của các đơn vị ngữ âm, bước xác
định từ đòi hỏi kiến thức về từ vựng, bước xác định câu đòi hỏi kiến thức về mô
hình ngôn ngữ (nguyên tắc ngữ pháp).
7
Chương 1: Tổng quan
TiÕng nãi
Ph©n tÝch tÝn hiÖu
¢m h÷u thanh / v« thanh /
kho¶ng lÆng
TrÝch chän ®Æc tÝnh
Ph©n ®o¹n
C¸c
nguån
kiÕn
thøc
G¸n nh·n
Nguyªn t¾c ph©n lo¹i ©m
Ph©n líp ©m thanh
Nguyªn t¾c ng÷ ©m
X¸c ®Þnh tõ
Truy cËp tõ ®iÓn
X¸c ®Þnh c©u
M« h×nh ng«n ng÷
Lêi nãi ®-îc nhËn d¹ng
Hình 1.4. Mô hình của phương pháp bottom-up
1.3. Tình hình nhận dạng tiếng nói tại nước ta hiện nay
Trên thế giới, những nghiên cứu đầu tiên trong lĩnh vực nhận dạng tiếng nói được
tiến hành vào những năm 50 của thế kỷ 19. Năm 1952 tại phòng thí nghiệm Bell,
Davis Biddulph và Balashek đã xây dựng một hệ thống nhận dạng 10 chữ số rời rạc
cho một người đọc. Hệ thông này chủ yếu dựa trên các tính toán trên phổ của vùng
nguyên âm trong tín hiệu tiếng nói. Năm 1959 tại phòng thí nghiệm MIT, Forgie đã
xây dựng thành công một hệ nhận dạng độc lập người nói mặc dù số lượng từ còn
rất hạn chế. Cho đến thập kỷ 70 thì nhận dạng tiếng nói thực sự đạt được những
bước tiến đáng kể. Bài toán nhận dạng từ rời rạc đã được giải quyết nhờ vào các
nghiên cứu của Velichko và Zagoruyko tại Liên Xô cũ trong lĩnh vực nhận dạng
mẫu, Sakoe và Chiba tại Nhật trong việc áp dụng quy hoạch động trong nhận dạng
tiếng nói, và Ikatura tại Mỹ với các nghiên cứu về phương pháp tiên đoán tuyến tính
đối với tín hiệu tiếng nói. Cũng trong khoảng thời gian đó tại phòng thí nghiệm Bell
8
Chương 1: Tổng quan
nhiều thí nghiệm được tiến hành với mục đích là hướng tới một hệ thống nhận dạng
thực sự độc lập người nói. Tại đây hàng loạt các thuật toán phân lớp phức tạp được
áp dụng nhằm vượt qua rào cản của sự biến động tham số trong một tập hợp tiếng
nói do nhiều người phát âm. Thập kỷ 80 đánh dấu một bước tiến quan trọng trong
nhân dạng tiếng nói đó chính là sự ra đời của hướng tiếp cận theo kiểu thống kê, đặc
biệt là sự ra đời của mô hình Markov ẩn.
Trong những năm gần đây, ở Việt Nam nói chung và trường Đại học Bách Khoa Hà
Nội nói riêng đã có khá nhiều nghiên cứu về nhận dạng tiếng nói tiếng Việt. Tuy
nhiên, nếu so với trên thế giới thì những kết quả đó còn rất hạn chế. Có thể kể ra
đây một số công trình mà học viên đã tìm hiểu được (theo thứ tự thời gian).
Thạc sỹ Trần Tiến Đức trong luận văn tốt nghiệp cao học của mình [10] đã xây
dựng được một chương trình nhận dạng phụ thuộc người nói dựa trên các mô hình
Markov ẩn rời rạc (các quan sát của mô hình là các đại lượng rời rạc), nhận dạng
các từ phát âm rời. Độ chính xác của chương trình là 98.2% khi nhận dạng 10 chữ
số tiếng Việt, mỗi chữ số được phát âm 100 lần.
Luận văn thạc sỹ của Võ Tuấn Kiệt [12] đưa ra kết quả thực nghiệm khi xây dựng
một chương trình nhận dạng 10 chữ số tiếng Việt phát âm rời bằng các phương
pháp: lượng tử hóa vector (VQ - Vector Quantization), hiệu chỉnh thời gian động
(DTW - Dynamic Time Warping) và sử dụng mô hình Markov ẩn rời rạc (HMM Hidden Markov Models). Với 100 mẫu kiểm tra, chương trình cho độ chính xác
nhận dạng đối với từng phương pháp lần lượt là 92%, 88% và 96%.
Trong luận án của mình [14], tiến sĩ Nguyễn Thành Phúc đã đưa ra một phương
pháp nhận dạng tiếng nói tiếng Việt, đó là kết hợp mạng neuron (loại Perceptron 3
lớp) với mô hình Markov ẩn. Tác giả cũng tiến hành một số khảo sát để đưa ra
phương án sử dụng âm đầu + vần làm đơn vị nhận dạng cơ bản cho các hệ thống
nhận dạng lời Việt. Kết quả thử nghiệm được thực hiện trên cơ sở dữ liệu tiếng nói
10 chữ số tiếng Việt gồm 812 câu, mỗi câu có 6 chữ số, do 15 người cả nam lẫn nữ
giọng Bắc phát âm, trong đó 712 câu được dùng cho huấn luyện, 100 câu còn lại
của 2 người không tham gia vào quá trình huấn luyện sẽ được sử dụng để test thử hệ
thống. Trong trường hợp tốt nhất, hệ thống nhận dạng cho độ chính xác là 98,83%.
Đồ án tốt nghiệp đại học [7] của kĩ sư Nguyễn Phú Bình (học viên) đã trình bày các
bước thực hiện và các kết quả đạt được khi áp dụng lý thuyết về mô hình Markov ẩn
(cả rời rạc lẫn liên tục) trong việc xây dựng một ứng dụng hoạt động trong chế độ
thời gian thực nhận dạng các từ tiếng Việt phát âm rời. Hệ thống đã được chạy thử
với cơ sở dữ liệu tiếng nói bao gồm 2445 lượt phát âm các số tiếng Việt từ 0 đến 10
9
Chương 1: Tổng quan
của 3 giọng nam và cho tỉ lệ nhận dạng đúng là 99,92%. Kết quả của đồ án này còn
được sử dụng để xây dựng một chương trình tiện ích dùng tiếng nói để điều khiển
một số chương trình chạy trên Windows [8], [13]. Với bộ từ vựng gồm khoảng gần
30 từ, chương trình cho phép người sử dụng dùng tiếng nói để thực hiện các phép
toán trên Calculator, nhập dữ liệu số vào Excel, thao tác với PowerPoint hay duyệt
Web với Internet Explorer, ...
Với phương pháp sử dụng giải thuật so sánh thời gian động DTW kết hợp với mô
hình Markov ẩn liên tục [15], thạc sỹ Nguyễn Hồng Quang đã xây dựng được một
chương trình xử lý thời gian thực cho phép nhận dạng từ tiếng Việt phát âm liên tục.
Với 356 lượt phát âm liên tục các số từ 0 đến 10 (mỗi lượt phát âm có ít nhất 2 từ
kết nối với nhau, tổng cộng có tất cả 846 từ) của 4 giọng nam, chương trình cho tỉ lệ
nhận dạng chính xác là 98,46%.
Bài báo của nghiên cứu sinh Đặng Ngọc Đức [9] có đề cập đến việc xây dựng một
hệ thống nhận dạng sử dụng bộ công cụ CSLU Toolkit bao gồm các bước phân lớp
bằng ANN và nhận dạng dựa trên tìm kiếm Viterbi. Thử nghiệm trên bộ cơ sở dữ
liệu tiếng nói các chữ số tiếng Việt1 gồm 442 câu, 2340 từ của 213 giọng nói thu
qua điện thoại cho độ chính xác tốt nhất là 97.39% ở mức từ và 88.10% ở mức câu.
Gần đây, một bài báo của các tác giả thuộc Viện Công nghệ thông tin và Viện Ngôn
ngữ học [11] có đề cập một số vấn đề liên quan đến nhận dạng tiếng nói như xây
dựng một hệ nhận dạng với số từ hạn chế và độc lập người nói (từ vựng khoảng 200
từ, gồm 100 giọng đọc Hà Nội), hoặc hệ nhận dạng với số từ không hạn chế phụ
thuộc người nói, ... Tuy nhiên, trong bài báo các tác giả mới chỉ đưa ra những kết
quả về nhận dạng thanh điệu (cho giọng nữ, độ chính xác trung bình là 95,75%) và
nhận dạng 19 phụ âm đầu (giọng nữ, chính xác 93,8%), mà không cho biết những
con số thống kê cụ thể về các hệ nhận dạng nói trên.
Qua khảo sát một số công trình nghiên cứu, ta có thể thấy rằng lĩnh vực nhận dạng
tiếng nói ở Việt Nam đã có những bước tiến đáng khích lệ. Tuy nhiên, những kết
quả đó vẫn chỉ dừng ở mức nghiên cứu, và nếu so với thế giới thì chúng ta vẫn còn
kém một khoảng cách xa.
Trích từ hai CSDL tiếng nói "22 Language v1.2" và "Multi-Language Telephone Speech v1.2" của trung
tâm CSLU (Center for Speech Language Understanding), Viện Sau đại học Oregon, Mỹ.
1
10
Chương 1: Tổng quan
1.4. Mục tiêu thực hiện của đề tài
Cho đến nay, các hệ thống nhận dạng tiếng nói thành công nhất chủ yếu dựa trên
khuynh hướng nhận dạng mẫu. Với những gì đã trình bày ở phần trên, ta có thể thấy
rằng các kỹ thuật nhận dạng mẫu đơn giản như lượng tử hóa vector, hiệu chỉnh thời
gian động, ... đã được áp dụng khá thành công vào các ứng dụng nhận dạng tiếng
nói tiếng Việt phát âm rời rạc với số lượng từ vựng hạn chế. Tuy nhiên, mục tiêu
của nhận dạng tiếng nói tự động bằng máy là phải tiến tới các hệ thống nhận dạng
tiếng nói liên tục, kích thước từ điển lớn, không phụ thuộc người nói. Vì vậy, các hệ
thống nhận dạng tiếng nói ngày nay thường được xây dựng trên cơ sở áp dụng các
kỹ thuật nhận dạng mẫu phức tạp hơn, đó là mô hình Markov ẩn, hoặc mô hình lai
giữa Markov ẩn và mạng neuron.
Trên thế giới đã có khá nhiều hệ thống nhận dạng tiếng nói cỡ lớn sử dụng mô hình
Markov ẩn cho độ chính xác rất cao như hệ thống nhận dạng Sphinx1 của trường đại
học Carnegie Mellon, bộ công cụ nhận dạng tiếng nói HTK2 của trường đại học
Cambridge, ... Ở Việt Nam, một số chương trình nhận dạng tiếng nói dựa trên mô
hình Markov ẩn cũng đã cho những kết quả khá khả quan. Tuy nhiên, phần lớn
những chương trình đó vẫn chỉ sử dụng mô hình Markov ẩn ở mức từ ([7], [8], [10],
[12], [13], [15]) nên số lượng từ vựng còn hạn chế và khó áp dụng để nhận dạng
được tiếng nói phát âm liên tục. Cũng đã có một số hệ thống nhận dạng sử dụng mô
hình Markov ẩn ở mức đơn vị âm thanh nhỏ hơn từ, chẳng hạn như âm vị hay phụ
âm đầu + vần, ... ([9], [11], [14]), nhưng những thực nghiệm của các hệ thống đó
vẫn chỉ áp dụng trên một tập từ vựng không lớn lắm và cũng chưa đề cập gì đến
việc nhận dạng tiếng nói liên tục. Bên cạnh đó, phần lớn những hệ thống này lại
được triển khai dựa trên các công cụ nhận dạng tiếng nói mã nguồn mở của nước
ngoài như CSLU3, HTK2, ... nên những kết quả đó cũng mới chỉ dừng ở mức nghiên
cứu mà khó có thể áp dụng vào thực tế do bị phụ thuộc về mặt công nghệ.
Chính vì vậy, mục đích của đề tài này là cố gắng giải quyết được phần nào những
hạn chế trên. Cụ thể, mục tiêu mà học viên đề ra trong khi thực hiện luận văn này là
phải:
• Tìm hiểu và đề ra phương pháp để xây dựng được module huấn luyện mô
hình Markov ẩn phục vụ cho nhận dạng tiếng nói với mức đơn vị âm thanh là
bất kì, có thể là cả một từ (word) hoặc là những đơn vị âm thanh nhỏ hơn từ
(subword).
1
http://cmusphinx.sourceforge.net
http://htk.eng.cam.ac.uk
3
http://cslu.cse.ogi.edu
2
11
- Xem thêm -