Đăng ký Đăng nhập
Trang chủ Nhận dạng tiếng nói tiếng việt sử dụng mức dưới từ...

Tài liệu Nhận dạng tiếng nói tiếng việt sử dụng mức dưới từ

.PDF
137
3
110

Mô tả:

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ------------------------------- NGUYỄN PHÚ BÌNH NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT SỬ DỤNG MỨC DƯỚI TỪ LUẬN VĂN THẠC SỸ CHUYÊN NGÀNH: XỬ LÝ THÔNG TIN VÀ TRUYỀN THÔNG Hà Nội – 2004 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ------------------------------- NGUYỄN PHÚ BÌNH NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT SỬ DỤNG MỨC DƯỚI TỪ LUẬN VĂN THẠC SỸ CHUYÊN NGÀNH: XỬ LÝ THÔNG TIN VÀ TRUYỀN THÔNG NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. TRỊNH VĂN LOANG Hà Nội – 2004 MỤC LỤC Tổng quan ....................................................................................................................... 1 1.1. Nhận dạng tiếng nói ................................................................................................... 1 1.2. Các phương pháp tiếp cận trong nhận dạng tiếng nói ............................................... 3 1.2.1. Phương pháp âm học - ngữ âm học ................................................................... 3 1.2.2. Phương pháp nhận dạng mẫu ............................................................................. 5 1.2.3. Phương pháp ứng dụng trí tuệ nhân tạo ............................................................. 7 1.3. Tình hình nhận dạng tiếng nói tại nước ta hiện nay................................................... 8 1.4. Mục tiêu thực hiện của đề tài ................................................................................... 11 2 Tín hiệu tiếng nói ......................................................................................................... 13 2.1. Bộ máy phát âm và cơ chế tạo ra tiếng nói .............................................................. 13 2.2. Các đặc tính âm học của tiếng nói ........................................................................... 16 2.2.1. Âm hữu thanh và âm vô thanh ......................................................................... 16 a. Âm hữu thanh .................................................................................................... 16 b. Âm vô thanh....................................................................................................... 16 2.2.2. Âm vị ............................................................................................................... 17 a. Nguyên âm ......................................................................................................... 17 b. Phụ âm ............................................................................................................... 17 2.2.3. Các đặc tính khác ............................................................................................. 17 a. Tỷ suất thời gian ................................................................................................ 17 b. Hàm năng lượng thời gian ngắn ........................................................................ 18 c. Tần số cơ bản ..................................................................................................... 18 d. Formant .............................................................................................................. 18 2.3. Biểu diễn tín hiệu tiếng nói ...................................................................................... 19 2.3.1. Tín hiệu tiếng nói trên miền thời gian. ............................................................ 19 2.3.2. Tín hiệu tiếng nói trên miền tần số .................................................................. 20 2.3.3. Tín hiệu tiếng nói trên miền thời gian và tần số kết hợp ................................. 20 3 Trích chọn đặc trưng tín hiệu tiếng nói ..................................................................... 22 3.1. Tiền xử lý tín hiệu .................................................................................................... 23 3.1.1. Hàm năng lượng ngắn hạn ............................................................................... 23 3.1.2. Phát hiện điểm đầu và điểm cuối của tiếng nói ............................................... 23 3.1.3. Bộ lọc hiệu chỉnh ............................................................................................. 24 3.2. Phân khung và hàm cửa sổ ...................................................................................... 25 3.2.1. Phân khung ...................................................................................................... 25 3.2.2. Lấy cửa sổ ........................................................................................................ 26 3.3. Phân tích các tham số đặc trưng .............................................................................. 27 3.3.1. Biến đổi Fourier rời rạc.................................................................................... 28 3.3.2. Biến đổi sang thang Mel trên miền tần số ....................................................... 28 3.3.3. Biến đổi Cosine rời rạc .................................................................................... 29 3.4. Hiệu chỉnh kết quả ................................................................................................... 30 3.4.1. Cepstral có trọng số ......................................................................................... 30 3.4.2. Các tham số tức thời ........................................................................................ 30 1 3.5. Kết luận .................................................................................................................... 30 Mô hình Markov ẩn ..................................................................................................... 32 4.1. Tổng quan về mô hình Markov ẩn ........................................................................... 33 4.1.1. Các quá trình Markov rời rạc về thời gian ....................................................... 33 4.1.2. Mô hình Markov ẩn ......................................................................................... 35 a. Khái niệm ........................................................................................................... 35 b. Các thành phần của một mô hình Markov ẩn .................................................... 38 4.2. Các vấn đề cơ bản của mô hình Markov ẩn ............................................................. 39 4.2.1. Bài toán 1: Đánh giá xác suất .......................................................................... 39 a. Thủ tục tiến (Forward Procedure) ...................................................................... 40 b. Thủ tục lùi (Backward Procedure) ..................................................................... 42 4.2.2. Bài toán 2: Tìm dãy trạng thái tối ưu ............................................................... 43 a. Thuật toán Viterbi .............................................................................................. 44 b. Một cách cài đặt khác của thuật toán Viterbi..................................................... 45 4.2.3. Bài toán 3: Ước lượng các tham số của mô hình ............................................. 46 4.3. Sử dụng mô hình Markov ẩn trong nhận dạng tiếng nói ......................................... 50 4.3.1. Mô hình Markov ẩn với đầu vào liên tục ......................................................... 50 4.3.2. Các loại mô hình Markov ẩn............................................................................ 52 4.3.3. Nhận dạng tiếng nói phát âm rời rạc ................................................................ 55 4.3.4. Nhận dạng tiếng nói phát âm liên tục .............................................................. 56 a. Vai trò của thuật toán Viterbi ............................................................................ 56 b. Mô hình subword và thủ tục huấn luyện nhúng (embedded training) ............... 57 c. Giải mã chuỗi quan sát....................................................................................... 60 4.3.5. Các công thức huấn luyện mô hình.................................................................. 60 a. Một số kí hiệu .................................................................................................... 61 b. Khởi tạo các giá trị ban đầu cho mô hình .......................................................... 61 c. Các xác suất Forward và Backward ................................................................... 63 d. Huấn luyện mô hình cả từ .................................................................................. 65 e. Huấn luyện mô hình subword ............................................................................ 66 5 Sử dụng mô hình ngôn ngữ trong nhận dạng tiếng nói ............................................ 68 5.1. Khái niệm về mô hình ngôn ngữ ............................................................................. 68 5.1.1. Mô hình ngôn ngữ là gì.................................................................................... 68 5.1.2. Một số vấn đề khi áp dụng mô hình ngôn ngữ ................................................ 69 5.1.3. Các loại mô hình ngôn ngữ .............................................................................. 69 a. Mô hình ngôn ngữ dựa trên cú pháp .................................................................. 70 b. Mô hình ngôn ngữ ngẫu nhiên ........................................................................... 73 5.2. Các thuật toán tìm kiếm trong nhận dạng tiếng nói ................................................. 75 5.2.1. Không gian tìm kiếm ....................................................................................... 75 5.2.2. Không gian tìm kiếm với FSM và CFG........................................................... 76 5.2.3. Không gian tìm kiếm với mô hình Unigram .................................................... 79 5.2.4. Không gian tìm kiếm với mô hình Bigram ...................................................... 79 5.2.5. Không gian tìm kiếm với các mô hình Trigram .............................................. 81 5.3. Tìm kiếm Viterbi đồng bộ thời gian ........................................................................ 82 5.3.1. Ý tưởng của thuật toán ..................................................................................... 82 4 5.3.2. Sử dụng chùm trong tìm kiếm ......................................................................... 84 5.3.3. Tìm kiếm Viterbi theo chùm ............................................................................ 84 6 Xây dựng chương trình nhận dạng tiếng nói tiếng Việt ........................................... 87 6.1. Đại cương về tiếng Việt ........................................................................................... 87 6.1.1. Đặc điểm của tiếng Việt................................................................................... 87 a. Đặc điểm ngữ âm ............................................................................................... 88 b. Đặc điểm từ vựng............................................................................................... 88 c. Đặc điểm ngữ pháp ............................................................................................ 88 6.1.2. Âm tiết ............................................................................................................. 89 a. Khái niệm ........................................................................................................... 89 b. Cấu tạo của âm tiết............................................................................................. 90 6.1.3. Âm tố ............................................................................................................... 94 6.1.4. Âm vị ............................................................................................................... 95 6.1.5. Tiếng ................................................................................................................ 95 6.1.6. Hình vị ............................................................................................................. 95 6.1.7. Chữ viết............................................................................................................ 96 6.1.8. Chính tả ............................................................................................................ 97 6.1.9. Hệ thống âm vị ................................................................................................. 98 6.2. Xây dựng hệ thống nhận dạng tiếng nói tiếng Việt ............................................... 100 6.2.1. Các thành phần chính của hệ thống ............................................................... 100 6.2.2. Chuẩn bị cơ sở dữ liệu tiếng nói .................................................................... 102 6.2.3. Huấn luyện mô hình và đánh giá hệ thống .................................................... 105 6.2.4. Nhận dạng tiếng nói trong chế độ thời gian thực........................................... 108 6.3. Lựa chọn đơn vị âm thanh để huấn luyện mô hình ................................................ 110 6.3.1. Các đơn vị nhận dạng thông thường .............................................................. 111 a. Mô hình từ và âm tiết ....................................................................................... 111 b. Mô hình âm vị .................................................................................................. 111 c. Mô hình âm vị kép, ba âm vị ........................................................................... 112 d. Mô hình âm đầu + vần ..................................................................................... 113 6.3.2. Đề xuất đơn vị nhận dạng cơ bản là bán âm tiết ............................................ 114 6.4. Các kết quả thực nghiệm ....................................................................................... 115 6.4.1. So sánh mô hình âm đầu + vần với mô hình bán âm tiết ............................... 115 6.4.2. Ảnh hưởng của số lần thực hiện vòng lặp trong thủ tục huấn luyện ............. 115 6.4.3. Nhận dạng các từ chưa được huấn luyện ....................................................... 117 6.4.4. Các thử nghiệm với số lượng từ vựng nhỏ .................................................... 117 7 Kết luận ....................................................................................................................... 119 1. Các kết quả đạt được ................................................................................................. 119 2. Phương hướng phát triển của đề tài ........................................................................... 120 DANH SÁCH HÌNH VẼ Hình 1.1. Các phần tử cơ bản của một hệ thống nhận dạng tiếng nói điển hình ................... 2 Hình 1.2. Sơ đồ khối của hệ thống nhận dạng tiếng nói theo phương pháp âm học - ngữ âm học ................................................................................................................................. 4 Hình 1.3. Sơ đồ khối hệ thống nhận dạng tiếng nói theo phương pháp nhận dạng mẫu ....... 6 Hình 1.4. Mô hình của phương pháp bottom-up ................................................................... 8 Hình 2.1. Quá trình tạo và cảm thụ tiếng nói của con người ............................................... 14 Hình 2.2. Bộ máy phát âm của con người ........................................................................... 14 Hình 2.3. Quá trình tạo tín hiệu tiếng nói ............................................................................ 16 Hình 2.4. Biểu diễn tín hiệu tiếng nói trên miền thời gian .................................................. 19 Hình 2.5. Biểu diễn tín hiệu trên miền tần số ...................................................................... 20 Hình 2.6. Biểu diễn tín hiệu trên miền kết hợp thời gian và tần số ..................................... 21 Hình 3.1. Sơ đồ tổng quát của các phương pháp phân tích đặc trưng tiếng nói .................. 22 Hình 3.2. Tín hiệu nguồn ..................................................................................................... 24 Hình 3.3. Đáp ứng của bộ lọc hiệu chỉnh ............................................................................ 25 Hình 3.4. Phân khung tín hiệu ............................................................................................. 26 Hình 3.5. Cửa sổ Hamming ................................................................................................. 27 Hình 3.6. Chuyển đổi thang tần số Hz-Mel ......................................................................... 28 Hình 3.7. Các băng lọc tam giác theo thang tần số Mel ...................................................... 29 Hình 3.8. Sơ đồ tính toán các hệ số MFCC ......................................................................... 31 Hình 4.1. Mô hình Markov của ví dụ về thời tiết ................................................................ 34 Hình 4.2. Ba mô hình Markov có thể giải thích cho ví dụ tung đồng xu ............................ 37 Hình 4.3. Minh họa chuỗi thao tác để tính toán biến tiến αt+1 ............................................. 42 Hình 4.4. Minh họa chuỗi thao tác để tính toán biến lùi βt .................................................. 43 Hình 4.5. Tính xác suất có trạng thái i tại thời điểm t và trạng thái j tại thời điểm t+1....... 47 Hình 4.6. Ví dụ về phân bố Gauss ....................................................................................... 51 Hình 4.7. Ví dụ về các loại mô hình Markov ẩn ................................................................. 53 Hình 4.8. Mô hình trái phải với bước nhảy 2 ...................................................................... 54 Hình 4.9. Mô hình tổng quát nhận dạng tiếng nói sử dụng HMM ...................................... 55 Hình 4.10. Thuật toán Viterbi áp dụng trong nhận dạng tiếng nói ...................................... 57 Hình 5.1. Văn phạm trong ứng dụng quay số bằng giọng nói ............................................. 72 Hình 5.2. Ví dụ chuyển một FSG sang mô hình HMM tổng hợp........................................ 76 Hình 5.3. Một RNT đơn giản với 3 cung: CAT(x), PUSH(x) và POP ................................ 78 Hình 5.4. Mô hình Unigram với các xác suất unigram là các xác suất chuyển dịch từ trạng thái giả bắt đầu đến trạng thái đầu tiên của mô hình HMM ........................................ 79 Hình 5.5. Mô hình bigram với P(wj|wi) được xác định là xác suất chuyển dịch từ từ wi đến từ wj ............................................................................................................................. 80 Hình 5.6. Giảm thiểu số bigram khi tìm kiếm bằng các nút backoff ................................... 81 Hình 5.7. Mô hình Trigram .................................................................................................. 82 Hình 6.1. Cấu tạo âm tiết tiếng Việt .................................................................................... 90 Hình 6.2. Bảng hệ thống âm đầu (phụ âm đầu) ................................................................... 91 Hình 6.3. Các nguyên âm chính của tiếng Việt ................................................................... 92 Hình 6.4. Các âm cuối trong tiếng Việt ............................................................................... 93 Hình 6.5. Dạng biến đổi tuyến tính của F0 ứng với từng thanh điệu tiếng Việt .................. 94 Hình 6.6. Bảng âm vị phụ âm .............................................................................................. 99 Hình 6.7. Bảng âm vị nguyên âm ...................................................................................... 100 Hình 6.8. Quan hệ giữa các module của hệ thống ............................................................. 102 Hình 6.9. Dạng sóng của một file âm thanh được thu âm ................................................. 103 Hình 6.10. Giao diện của chương trình VSRCutter ........................................................... 103 Hình 6.11. Giao diện của chương trình VSRAutoSplit ..................................................... 105 Hình 6.12. Huấn luyện mô hình ......................................................................................... 106 Hình 6.13. Giao diện của chương trình VSRTraining ....................................................... 107 Hình 6.14. Thông tin đầu vào cho quá trình huấn luyện ................................................... 107 Hình 6.15. Nhận dạng tiếng nói trong thời gian thực ........................................................ 108 Hình 6.16. Giao diện của chương trình VSRTiny ............................................................. 109 Hình 6.17. Một số chức năng của chương trình VSRTiny ................................................ 110 Hình 6.18. Mô hình Markov ẩn 3 trạng thái cho các âm vị ............................................... 112 Hình 6.19. Mô hình cho các âm vị kép .............................................................................. 112 Hình 6.20. Mô hình cho các triphone ................................................................................ 113 Lời nói đầu Nhận dạng tiếng nói tự động từ lâu đã là một mơ ước của con người. Trong những năm gần đây, khi mà khoa học công nghệ tiến bộ cho phép thì ước mơ này đang dần dần trở thành hiện thực. Trong cuộc sống có rất nhiều ứng dụng cần đến nhận dạng tự động bằng tiếng nói như nhập dữ liệu máy tính bằng lời, hỗ trợ người tàn tật, quay số điện thoại bằng lời nói, ... Hiện nay trên thế giới đã có một số hệ thống nhận dạng tiếng nói cỡ lớn, có độ chính xác tương đối cao. Các hệ thống này chủ yếu được phát triển trên nền công nghệ hiện đại với các máy tính lớn, các vi mạch xử lý tiếng nói chuyên dụng và sử dụng các cơ sở dữ liệu tiếng nói khá hoàn chỉnh (chủ yếu là tiếng Anh). Còn đối với tiếng Việt, do có những đặc thù riêng, nên việc chọn lựa cách tiếp cận bài toán nhận dạng sao cho phù hợp với tiếng Việt là một vấn đề quan trọng và tương đối khó khăn. Trong những năm gần đây, ở Việt Nam nói chung và trường Đại học Bách Khoa Hà Nội nói riêng đã có khá nhiều nghiên cứu về nhận dạng tiếng nói tiếng Việt. Tuy nhiên, nếu so với trên thế giới thì những kết quả đó còn tương đối hạn chế. Cho đến nay, các hệ thống nhận dạng tiếng nói thành công nhất chủ yếu dựa trên khuynh hướng nhận dạng mẫu. Các kỹ thuật nhận dạng mẫu đơn giản như lượng tử hóa vector, hiệu chỉnh thời gian động, ... đã được áp dụng khá thành công vào các ứng dụng nhận dạng tiếng nói tiếng Việt phát âm rời rạc với số lượng từ vựng hạn chế. Tuy nhiên, mục tiêu của nhận dạng tiếng nói tự động bằng máy là phải tiến tới các hệ thống nhận dạng tiếng nói liên tục, kích thước từ điển lớn, không phụ thuộc người nói. Vì vậy, các hệ thống nhận dạng tiếng nói ngày nay thường được xây dựng trên cơ sở áp dụng các kỹ thuật nhận dạng mẫu phức tạp hơn, đó là mô hình Markov ẩn, hoặc mô hình lai giữa Markov ẩn và mạng neuron. Trên thế giới đã có khá nhiều hệ thống nhận dạng tiếng nói cỡ lớn sử dụng mô hình Markov ẩn cho độ chính xác rất cao như hệ thống nhận dạng Sphinx của trường đại học Carnegie Mellon, bộ công cụ nhận dạng tiếng nói HTK của trường đại học Cambridge, ... Ở Việt Nam, một số chương trình nhận dạng tiếng nói dựa trên mô hình Markov ẩn cũng đã cho những kết quả khá khả quan. Tuy nhiên, phần lớn những chương trình đó vẫn chỉ sử dụng mô hình Markov ẩn ở mức từ nên số lượng từ vựng có khả năng nhận dạng được còn hạn chế và khó áp dụng để nhận dạng được tiếng nói phát âm liên tục. Cũng đã có một số hệ thống nhận dạng sử dụng mô hình Markov ẩn ở mức đơn vị âm thanh nhỏ hơn từ nhưng những thực nghiệm của các hệ thống đó vẫn chỉ áp dụng trên một tập từ vựng không lớn lắm và cũng chưa đề cập gì đến việc nhận dạng tiếng nói liên tục. Xuất phát từ nhận thức trên, cuốn luận văn này được thực hiện với mục tiêu là tìm hiểu và đưa ra phương pháp để xây dựng được một ứng dụng nhận dạng tiếng nói tiếng Việt sử dụng đơn vị nhận dạng mức dưới từ. Đây sẽ là cơ sở để cho phép phát triển các ứng dụng nhận dạng tiếng nói liên tục với số lượng từ vựng lớn trong tương lai. Cụ thể, nội dung của luận văn được chia làm các phần như sau: Chương 1 giới thiệu về những khái niệm cơ bản của nhận dạng tiếng nói và tóm tắt một số kết quả nghiên cứu về nhận dạng tiếng nói tiếng Việt. Những mục tiêu cần phải thực hiện của đề tài cũng được đề cập đến trong chương này. Chương 2 trình bày về một số tính chất của tín hiệu tiếng nói, từ cơ chế tạo ra tiếng nói, các đặc trưng của tiếng nói và các phương pháp biểu diễn tín hiệu tiếng nói. Chương 3 đề cập đến kĩ thuật tính các hệ số MFCC, đó là một phương pháp trích chọn đặc trưng tín hiệu tiếng nói đã được áp dụng khá hiệu quả trong các hệ thống nhận dạng. Chương 4 trình bày về khái niệm mô hình Markov ẩn và một số vấn đề đáng lưu ý khi áp dụng mô hình Markov ẩn vào nhận dạng tiếng nói. Một nội dung khá quan trọng của chương này chính là thủ tục huấn luyện nhúng (embedded training), đó là kĩ thuật cơ sở để xây dựng các mô hình mức dưới từ (subword) để sử dụng trong các ứng dụng nhận dạng tiếng nói với số lượng từ vựng lớn. Chương 5 trình bày khái quát về mô hình ngôn ngữ và cách áp dụng mô hình ngôn ngữ vào lĩnh vực nhận dạng tiếng nói. Chương 6 giới thiệu về hệ thống nhận dạng tiếng nói tiếng Việt sử dụng đơn vị nhận dạng mức dưới từ mà học viên đã xây dựng. Các kết quả thực nghiệm của đề tài cũng được trình bày trong chương này. Cuối cùng là phần kết luận và phương hướng phát triển của đề tài. Chương 1: Tổng quan 1 1 Tổng quan 1.1. Nhận dạng tiếng nói Nhận dạng tiếng nói hiện đang là một trong những vấn đề nhận được nhiều sự quan tâm của các nhà nghiên cứu bởi tiềm năng ứng dụng to lớn của nó. Một cách tổng quát, nhận dạng tiếng nói là làm cho máy hiểu, nhận biết được ngữ nghĩa của lời nói. Thực chất đây là quá trình biến đổi tín hiệu âm thanh thu được qua micro, qua đường dây điện thoại hoặc các thiết bị thu âm khác, ... thành một chuỗi các từ, sau đó các từ được nhận dạng có thể được sử dụng ngay trong các ứng dụng điều khiển thiết bị, nhập liệu, soạn thảo văn bản bằng lời, ... hoặc được đưa đến một quá trình xử lý ngôn ngữ mức cao hơn. Các hệ thống nhận dạng tiếng nói có thể được phân thành các loại như sau : • Nhận dạng các từ phát âm rời rạc / liên tục. • Nhận dạng tiếng nói phụ thuộc người nói / không phụ thuộc người nói. • Hệ thống nhận dạng có từ điển cỡ nhỏ (khoảng 20 từ) / từ điển cỡ lớn (hàng nghìn từ). • Nhận dạng tiếng nói trong môi trường có độ ồn thấp / cao. • ..... Trong một hệ thống nhận dạng tiếng nói phát âm rời rạc thì người nói sau khi nói một từ phải dừng lại trước khi phát âm từ tiếp theo. Ngược lại, hệ thống nhận dạng lời nói liên tục không đòi hỏi điều này. 1 Chương 1: Tổng quan Hệ thống nhận dạng phụ thuộc người nói đòi hỏi người nói phải cung cấp một số mẫu tiếng nói của mình trước khi sử dụng. Còn hệ thống nhận dạng không phụ thuộc người nói có thể nhận dạng lời nói của bất kì người nào. Hệ thống nhận dạng tiếng nói có từ điển cỡ lớn hoặc có nhiều từ dễ nhầm lẫn thường có độ chính xác không cao bằng hệ thống nhận dạng có vốn từ vựng cỡ nhỏ. Một vấn đề trọng tâm của nhận dạng tiếng nói là phải giải quyết được tính biến thiên của tín hiệu tiếng nói. Hiện tại các hệ thống nhận dạng tiếng nói phân biệt hai loại tính chất biến thiên: biến thiên âm học và biến thiên thời gian. Biến thiên âm học bao hàm sự khác nhau về trọng âm, phát âm, cao độ, âm lượng ..., còn biến thiên thời gian là sự khác nhau về tốc độ phát âm. Hai loại biến thiên này lại không hoàn toàn độc lập với nhau, ví dụ khi một người nói nhanh (biến thiên thời gian) thì một số đoạn âm thanh có thể bị luyến (biến thiên âm học). Ngoài ra, khi lời nói là một cụm từ hay một câu, ta cần áp dụng mô hình ngôn ngữ hoặc một nguyên tắc ngữ pháp thích hợp nào đó để giới hạn mức độ kết hợp giữa các từ. Mô hình ngôn ngữ đơn giản nhất là một cấu trúc xác định các từ được phép đi sau một từ nào đó trong từ điển. Mô hình ngôn ngữ phức tạp hơn sử dụng các nguyên tắc ngữ pháp của ngôn ngữ tự nhiên. C¬ së d÷ liÖu tiÕng nãi M« h×nh ©m thanh M« h×nh tõ vùng M« h×nh ng«n ng÷ Tõ ®-îc nhËn d¹ng TÝn hiÖu vµo Ph©n tÝch x¸c ®Þnh ®Æc tÝnh M« h×nh hãa / Ph©n líp T×m kiÕm Hình 1.1. Các phần tử cơ bản của một hệ thống nhận dạng tiếng nói điển hình Hình 1.1 cho ta thấy các phần tử cơ bản của một hệ thống nhận dạng tiếng nói điển hình. Tín hiệu tiếng nói sau khi được số hóa sẽ được chuyển thành một tập các vector tham số đặc trưng với các phân đoạn tiếng nói có độ dài khoảng 10-30 ms. Các đặc tính này được dùng để tìm kiếm các từ giống nhất với một số điều kiện 2 Chương 1: Tổng quan ràng buộc về âm học, từ vựng và ngữ pháp (mô hình ngôn ngữ). Trong quá trình huấn luyện, cơ sở dữ liệu tiếng nói được sử dụng để xác định các tham số hệ thống. Một trong những khó khăn lớn nhất của việc nghiên cứu nhận dạng tiếng nói tự động là tính phụ thuộc đa chuyên ngành. Có rất nhiều chuyên ngành khoa học liên quan đến nhận dạng tiếng nói như : xử lý tiếng nói, vật lý (âm học), nhận dạng mẫu, lý thuyết truyền tin, ngôn ngữ học, sinh lý học, khoa học máy tính, ... Để có thể xây dựng thành công một hệ thống nhận dạng tiếng nói tự nhiên có từ điển cỡ lớn thì cần phải có nhiều kiến thức trong tất cả các chuyên ngành đó, đấy là một lượng kiến thức khổng lồ vượt quá khả năng của bất kì một người nào. Vì vậy, hầu hết các nhà khoa học thường chỉ tập trung giải quyết một số bài toán cụ thể trên cơ sở chuyên ngành hẹp của mình. 1.2. Các phương pháp tiếp cận trong nhận dạng tiếng nói Hiện nay có 3 phương pháp phổ biến được sử dụng trong nhận dạng tiếng nói [1], đó là : • Phương pháp âm học - ngữ âm học. • Phương pháp nhận dạng mẫu. • Phương pháp ứng dụng trí tuệ nhân tạo. 1.2.1. Phương pháp âm học - ngữ âm học Phương pháp này dựa trên lý thuyết về âm học - ngữ âm học cho rằng tồn tại các đơn vị ngữ âm xác định, có tính phân biệt trong lời nói và các đơn vị ngữ âm đó được đặc trưng bởi một tập các đặc tính tín hiệu tiếng nói. Mặc dù các đặc tính âm học của các đơn vị ngữ âm biến thiên rất lớn theo cả giọng người nói lẫn tác động của các đơn vị ngữ âm xung quanh nhưng tồn tại các quy tắc cho phép giải quyết vấn đề này. Bước đầu tiên trong nhận dạng tiếng nói theo phương pháp này là phân đoạn và gán nhãn. Bước này chia tín hiệu tiếng nói thành các đoạn có đặc tính âm học đặc trưng cho một (hoặc một vài) đơn vị ngữ âm, đồng thời gán cho mỗi đoạn âm thanh đó một hay nhiều nhãn ngữ âm phù hợp. Bước tiếp theo (bước nhận dạng) dựa trên một số điều kiện ràng buộc về từ vựng, ngữ pháp,... để xác định ra một từ hoặc một chuỗi từ đúng trong số một chuỗi các nhãn ngữ âm được tạo ra sau bước thứ nhất. Sơ đồ khối của hệ thống nhận dạng theo phương pháp này như sau: 3 Chương 1: Tổng quan Bộ phát hiện đặc điểm 1 s(n) Hệ thống phân tích tiếng nói • • • Phân đoạn và Gán nhãn Băng lọc LPC Bộ phát hiện đặc điểm Q Chiến lược điều khiển Tiếng nói đã được nhận dạng Lưới âm vị Lưới đoạn Khả năng Gán nhãn Cây quyết định Chiến lược phân tích Formant Pitch Hữu thanh/ vô thanh Năng lượng Âm mũi Phụ âm xát Hình 1.2. Sơ đồ khối của hệ thống nhận dạng tiếng nói theo phương pháp âm học - ngữ âm học Nguyên lý hoạt động của hệ thống này như sau : • Tín hiệu tiếng nói sau khi số hóa được đưa tới khối phân tích tiếng nói nhằm xác định các số đo phổ tín hiệu tiếng nói biến đổi theo thời gian. Các kĩ thuật phân tích tiếng nói phổ biến là sử dụng các bộ lọc thông dải, mã hóa dự đoán tuyến tính (LPC),... • Bước sau đó là tách đặc tính tín hiệu tiếng nói nhằm biến đổi các số đo phổ tín hiệu thành một tập các đặc tính mô tả các tính chất âm học của các đơn vị ngữ âm khác nhau. Các đặc tính đó có thể là : tính chất âm mũi, âm xát, vị trí các formant, âm hữu thanh hay vô thanh, tỷ số mức năng lượng tần số cao so với mức năng lượng tần số thấp,... • Tiếp theo là bước phân đoạn và gán nhãn. Ở bước này hệ thống nhận dạng tiếng nói cố gắng tìm các vùng âm thanh ổn định (vùng có đặc tính thay đổi rất ít) và gán cho mỗi vùng này một nhãn phù hợp với đặc tính của đơn vị ngữ âm. Đây là bước chủ yếu của hệ thống nhận dạng tiếng nói theo khuynh hướng âm học - ngữ âm học, và là bước khó thực hiện tin cậy nhất. • Bước cuối cùng là dựa vào một số nguyên tắc lựa chọn để kết hợp chính xác các khối ngữ âm để tạo thành các từ nhận dạng. 4 Chương 1: Tổng quan Phương pháp này đã được nghiên cứu sâu trong hơn 40 năm qua, tuy nhiên vì nhiều nguyên nhân mà cách tiếp cận này không thu được nhiều thành công. Sau đây là một vài nguyên nhân cơ bản: • Phương pháp này yêu cầu sự hiểu biết sâu rộng về các thuộc tính âm học của các đơn vị ngữ âm. Điều này thường không thể có được trừ các thuộc tính âm học của các nguyên âm. • Việc lựa chọn các đặc điểm đa phần dựa vào các quan sát không theo cách thức nào cả. Với hầu hết các hệ thống các đặc điểm được lựa chọn dựa vào trực giác và không được tối ưu. • Thiết kế của các bộ phân loại âm thanh cũng không được tối ưu. Gần đây phương pháp CART (Classcification And Regression Tree) được sử dụng để xây dựng các cây quyết định hiệu quả hơn. Tuy nhiên, các đặc điểm được lựa chọn chỉ là các tối ưu địa phương. • Không có thủ tục tự động, xác định nào để điểu chỉnh các tham số của phương pháp này (ví dụ như điều chỉnh ngưỡng quyết định, …). Thậm chí không có một cách đánh nhãn nào được phần lớn các chuyên gia chấp nhận. 1.2.2. Phương pháp nhận dạng mẫu Phương pháp này không cần xác định đặc tính âm học hay phân đoạn tiếng nói mà sử dụng trực tiếp các mẫu tín hiệu tiếng nói trong quá trình nhận dạng. Các hệ thống nhận dạng tiếng nói theo phương pháp này được phát triển theo 2 bước. Ở bước thứ nhất, hệ thống sử dụng một tập mẫu tiếng nói (cơ sở dữ liệu tiếng nói) để huấn luyện tạo ra các mẫu tiếng nói đặc trưng (mẫu tham chiếu). Bước thứ hai hệ thống nhận các mẫu tiếng nói từ bên ngoài, so sánh chúng với các mẫu đặc trưng để nhận dạng. Trong phương pháp này, nếu cơ sở dữ liệu tiếng nói dùng cho huấn luyện có đủ các phiên bản của mẫu cần nhận dạng thì quá trình huấn luyện có thể xác định chính xác các đặc tính âm học của mẫu (mẫu ở đây có thể là âm vị, từ, cụm từ, ...). Trước đây, đối với các hệ thống nhận dạng tiếng nói là các từ rời rạc, vốn từ vựng cỡ nhỏ thì người ta thường áp dụng các kĩ thuật nhận dạng mẫu đơn giản như: lượng tử hóa vector, hiệu chỉnh thời gian động, ... Hiện nay có hai kĩ thuật nhận dạng mẫu được áp dụng khá thành công trong lĩnh vực nhận dạng tiếng nói, đó là mô hình Markov ẩn và mạng Neuron. Sơ đồ khối của hệ thống nhận dạng tiếng nói theo phương pháp này như sau: 5 Chương 1: Tổng quan C¸c mÉu chuÈn / c¸c m« h×nh HuÊn luyÖn mÉu TrÝch chän ®Æc tr-ng TiÕng nãi {mÉu thö} {c¸c mÉu tham chiÕu} Ph©n tÝch hÖ thèng TiÕng nãi nhËn d¹ng Ph©n lo¹i mÉu B¨ng läc LPC DFT QuyÕt ®Þnh logic Hình 1.3. Sơ đồ khối hệ thống nhận dạng tiếng nói theo phương pháp nhận dạng mẫu Hoạt động của hệ thống có thể được tóm tắt như sau : • Trích chọn đặc trưng tiếng nói: đầu tiên tín hiêu tiếng nói được phân tích thành một chuỗi các số đo để xác định mẫu nhận dạng. Các số đo đặc tính thường là kết quả của một số kĩ thuật phân tích phổ như : các bộ lọc thông dải, phân tích mã hóa dự đoán tuyến tính (LPC), phép biến đổi Fourier rời rạc (DFT), ... • Huấn luyện mẫu: các mẫu tiếng nói tương ứng với các đơn vị âm thanh cùng loại được dùng để đào tạo ra các mẫu hoặc các mô hình đại diện, còn gọi là mẫu tham chiếu hay mẫu chuẩn. • Nhận dạng: các mẫu tiếng nói được đưa tới khối phân loại mẫu, khối này có nhiệm vụ so sánh mẫu đầu vào cần nhận dạng với các mẫu tham chiếu đã được xác định, rồi dựa trên một số tiêu chuẩn để quyết định xem mẫu tham chiếu nào giống mẫu đầu vào nhất. Phương pháp này có một số đặc điểm sau: • Hiệu năng của hệ thống rất nhạy cảm đối với số dữ liệu mẫu đưa vào huấn luyện. Nếu số lượng mẫu càng nhiều thì độ chính xác của hệ thống càng cao, tuy nhiên dung lượng bộ nhớ và thời gian luyện mẫu cũng tăng theo. • Các mẫu tham chiếu thường phụ thuộc vào môi trường phát âm và các đặc tính truyền dẫn của môi trường. • Phương pháp này có thể được sử dụng để nhận dạng từ mà không đòi hỏi khả năng am hiểu sâu về ngôn ngữ. 6 Chương 1: Tổng quan 1.2.3. Phương pháp ứng dụng trí tuệ nhân tạo Có thể coi đây là phương pháp kết hợp của các phương pháp trên với ý tưởng tận dụng tối đa các ưu điểm của từng phương pháp, đồng thời cố gắng mô phỏng khả năng tuyệt hảo của con người trong sự phân tích và cảm nhận các sự kiện bên ngoài nói chung và tiếng nói nói riêng. Đặc điểm chung của các hệ thống nhận dạng theo phương pháp này là: • Sử dụng hệ chuyên gia để phân đoạn, gán nhãn ngữ âm. Điều này làm đơn giản hóa hệ thống so với phương pháp nhận dạng ngữ âm. • Sử dụng mạng neuron để học mối quan hệ giữa các ngữ âm. Sau đó dùng mạng này để nhận dạng tiếng nói. Việc sử dụng hệ chuyên gia ở đây là nhằm mục đích tận dụng các nguồn kiến thức của con người vào trong hệ thống nhận dạng, đó là: • Kiến thức về âm học: Nhằm để phân tích phổ và xác định đặc tính âm học của các mẫu tiếng nói đầu vào. • Kiến thức về từ vựng: Sử dụng để kết hợp các khối ngữ âm thành các từ cần nhận dạng. • Kiến thức về cú pháp: Nhằm kết hợp các từ thành các câu cần nhận dạng. • Kiến thức về ngữ nghĩa: Nhằm xác định tính logic của các câu đã được nhận dạng. Tùy theo các hệ thống khác nhau mà sự kết hợp các nguồn kiến thức từ hệ chuyên gia là khác nhau. Có nhiều cách khác nhau để tổng hợp các nguồn kiến thức vào trong một bộ nhận dạng tiếng nói. Phương pháp thông dụng nhất là xử lý "từ dưới lên" (hình 1.4). Theo cách này, các tiến trình xử lý của hệ thống được triển khai tuần tự từ thấp lên cao. Trong sơ đồ ở hình 1.4, các tiến trình xử lý ở mức thấp (phân tích tín hiệu, tìm đặc tính, phân đoạn, gán nhãn) được triển khai trước các tiến trình xử lý ở mức cao hơn (phân lớp âm thanh, xác định từ, xác định câu). Mỗi tiến trình xử lý đòi hỏi một hoặc một số nguồn kiến thức nhất định. Ví dụ, bước phân đoạn tiếng nói cần có sự hiểu biết sâu sắc về đặc tính âm học - ngữ âm học của các đơn vị ngữ âm, bước xác định từ đòi hỏi kiến thức về từ vựng, bước xác định câu đòi hỏi kiến thức về mô hình ngôn ngữ (nguyên tắc ngữ pháp). 7 Chương 1: Tổng quan TiÕng nãi Ph©n tÝch tÝn hiÖu ¢m h÷u thanh / v« thanh / kho¶ng lÆng TrÝch chän ®Æc tÝnh Ph©n ®o¹n C¸c nguån kiÕn thøc G¸n nh·n Nguyªn t¾c ph©n lo¹i ©m Ph©n líp ©m thanh Nguyªn t¾c ng÷ ©m X¸c ®Þnh tõ Truy cËp tõ ®iÓn X¸c ®Þnh c©u M« h×nh ng«n ng÷ Lêi nãi ®-îc nhËn d¹ng Hình 1.4. Mô hình của phương pháp bottom-up 1.3. Tình hình nhận dạng tiếng nói tại nước ta hiện nay Trên thế giới, những nghiên cứu đầu tiên trong lĩnh vực nhận dạng tiếng nói được tiến hành vào những năm 50 của thế kỷ 19. Năm 1952 tại phòng thí nghiệm Bell, Davis Biddulph và Balashek đã xây dựng một hệ thống nhận dạng 10 chữ số rời rạc cho một người đọc. Hệ thông này chủ yếu dựa trên các tính toán trên phổ của vùng nguyên âm trong tín hiệu tiếng nói. Năm 1959 tại phòng thí nghiệm MIT, Forgie đã xây dựng thành công một hệ nhận dạng độc lập người nói mặc dù số lượng từ còn rất hạn chế. Cho đến thập kỷ 70 thì nhận dạng tiếng nói thực sự đạt được những bước tiến đáng kể. Bài toán nhận dạng từ rời rạc đã được giải quyết nhờ vào các nghiên cứu của Velichko và Zagoruyko tại Liên Xô cũ trong lĩnh vực nhận dạng mẫu, Sakoe và Chiba tại Nhật trong việc áp dụng quy hoạch động trong nhận dạng tiếng nói, và Ikatura tại Mỹ với các nghiên cứu về phương pháp tiên đoán tuyến tính đối với tín hiệu tiếng nói. Cũng trong khoảng thời gian đó tại phòng thí nghiệm Bell 8 Chương 1: Tổng quan nhiều thí nghiệm được tiến hành với mục đích là hướng tới một hệ thống nhận dạng thực sự độc lập người nói. Tại đây hàng loạt các thuật toán phân lớp phức tạp được áp dụng nhằm vượt qua rào cản của sự biến động tham số trong một tập hợp tiếng nói do nhiều người phát âm. Thập kỷ 80 đánh dấu một bước tiến quan trọng trong nhân dạng tiếng nói đó chính là sự ra đời của hướng tiếp cận theo kiểu thống kê, đặc biệt là sự ra đời của mô hình Markov ẩn. Trong những năm gần đây, ở Việt Nam nói chung và trường Đại học Bách Khoa Hà Nội nói riêng đã có khá nhiều nghiên cứu về nhận dạng tiếng nói tiếng Việt. Tuy nhiên, nếu so với trên thế giới thì những kết quả đó còn rất hạn chế. Có thể kể ra đây một số công trình mà học viên đã tìm hiểu được (theo thứ tự thời gian). Thạc sỹ Trần Tiến Đức trong luận văn tốt nghiệp cao học của mình [10] đã xây dựng được một chương trình nhận dạng phụ thuộc người nói dựa trên các mô hình Markov ẩn rời rạc (các quan sát của mô hình là các đại lượng rời rạc), nhận dạng các từ phát âm rời. Độ chính xác của chương trình là 98.2% khi nhận dạng 10 chữ số tiếng Việt, mỗi chữ số được phát âm 100 lần. Luận văn thạc sỹ của Võ Tuấn Kiệt [12] đưa ra kết quả thực nghiệm khi xây dựng một chương trình nhận dạng 10 chữ số tiếng Việt phát âm rời bằng các phương pháp: lượng tử hóa vector (VQ - Vector Quantization), hiệu chỉnh thời gian động (DTW - Dynamic Time Warping) và sử dụng mô hình Markov ẩn rời rạc (HMM Hidden Markov Models). Với 100 mẫu kiểm tra, chương trình cho độ chính xác nhận dạng đối với từng phương pháp lần lượt là 92%, 88% và 96%. Trong luận án của mình [14], tiến sĩ Nguyễn Thành Phúc đã đưa ra một phương pháp nhận dạng tiếng nói tiếng Việt, đó là kết hợp mạng neuron (loại Perceptron 3 lớp) với mô hình Markov ẩn. Tác giả cũng tiến hành một số khảo sát để đưa ra phương án sử dụng âm đầu + vần làm đơn vị nhận dạng cơ bản cho các hệ thống nhận dạng lời Việt. Kết quả thử nghiệm được thực hiện trên cơ sở dữ liệu tiếng nói 10 chữ số tiếng Việt gồm 812 câu, mỗi câu có 6 chữ số, do 15 người cả nam lẫn nữ giọng Bắc phát âm, trong đó 712 câu được dùng cho huấn luyện, 100 câu còn lại của 2 người không tham gia vào quá trình huấn luyện sẽ được sử dụng để test thử hệ thống. Trong trường hợp tốt nhất, hệ thống nhận dạng cho độ chính xác là 98,83%. Đồ án tốt nghiệp đại học [7] của kĩ sư Nguyễn Phú Bình (học viên) đã trình bày các bước thực hiện và các kết quả đạt được khi áp dụng lý thuyết về mô hình Markov ẩn (cả rời rạc lẫn liên tục) trong việc xây dựng một ứng dụng hoạt động trong chế độ thời gian thực nhận dạng các từ tiếng Việt phát âm rời. Hệ thống đã được chạy thử với cơ sở dữ liệu tiếng nói bao gồm 2445 lượt phát âm các số tiếng Việt từ 0 đến 10 9 Chương 1: Tổng quan của 3 giọng nam và cho tỉ lệ nhận dạng đúng là 99,92%. Kết quả của đồ án này còn được sử dụng để xây dựng một chương trình tiện ích dùng tiếng nói để điều khiển một số chương trình chạy trên Windows [8], [13]. Với bộ từ vựng gồm khoảng gần 30 từ, chương trình cho phép người sử dụng dùng tiếng nói để thực hiện các phép toán trên Calculator, nhập dữ liệu số vào Excel, thao tác với PowerPoint hay duyệt Web với Internet Explorer, ... Với phương pháp sử dụng giải thuật so sánh thời gian động DTW kết hợp với mô hình Markov ẩn liên tục [15], thạc sỹ Nguyễn Hồng Quang đã xây dựng được một chương trình xử lý thời gian thực cho phép nhận dạng từ tiếng Việt phát âm liên tục. Với 356 lượt phát âm liên tục các số từ 0 đến 10 (mỗi lượt phát âm có ít nhất 2 từ kết nối với nhau, tổng cộng có tất cả 846 từ) của 4 giọng nam, chương trình cho tỉ lệ nhận dạng chính xác là 98,46%. Bài báo của nghiên cứu sinh Đặng Ngọc Đức [9] có đề cập đến việc xây dựng một hệ thống nhận dạng sử dụng bộ công cụ CSLU Toolkit bao gồm các bước phân lớp bằng ANN và nhận dạng dựa trên tìm kiếm Viterbi. Thử nghiệm trên bộ cơ sở dữ liệu tiếng nói các chữ số tiếng Việt1 gồm 442 câu, 2340 từ của 213 giọng nói thu qua điện thoại cho độ chính xác tốt nhất là 97.39% ở mức từ và 88.10% ở mức câu. Gần đây, một bài báo của các tác giả thuộc Viện Công nghệ thông tin và Viện Ngôn ngữ học [11] có đề cập một số vấn đề liên quan đến nhận dạng tiếng nói như xây dựng một hệ nhận dạng với số từ hạn chế và độc lập người nói (từ vựng khoảng 200 từ, gồm 100 giọng đọc Hà Nội), hoặc hệ nhận dạng với số từ không hạn chế phụ thuộc người nói, ... Tuy nhiên, trong bài báo các tác giả mới chỉ đưa ra những kết quả về nhận dạng thanh điệu (cho giọng nữ, độ chính xác trung bình là 95,75%) và nhận dạng 19 phụ âm đầu (giọng nữ, chính xác 93,8%), mà không cho biết những con số thống kê cụ thể về các hệ nhận dạng nói trên. Qua khảo sát một số công trình nghiên cứu, ta có thể thấy rằng lĩnh vực nhận dạng tiếng nói ở Việt Nam đã có những bước tiến đáng khích lệ. Tuy nhiên, những kết quả đó vẫn chỉ dừng ở mức nghiên cứu, và nếu so với thế giới thì chúng ta vẫn còn kém một khoảng cách xa. Trích từ hai CSDL tiếng nói "22 Language v1.2" và "Multi-Language Telephone Speech v1.2" của trung tâm CSLU (Center for Speech Language Understanding), Viện Sau đại học Oregon, Mỹ. 1 10 Chương 1: Tổng quan 1.4. Mục tiêu thực hiện của đề tài Cho đến nay, các hệ thống nhận dạng tiếng nói thành công nhất chủ yếu dựa trên khuynh hướng nhận dạng mẫu. Với những gì đã trình bày ở phần trên, ta có thể thấy rằng các kỹ thuật nhận dạng mẫu đơn giản như lượng tử hóa vector, hiệu chỉnh thời gian động, ... đã được áp dụng khá thành công vào các ứng dụng nhận dạng tiếng nói tiếng Việt phát âm rời rạc với số lượng từ vựng hạn chế. Tuy nhiên, mục tiêu của nhận dạng tiếng nói tự động bằng máy là phải tiến tới các hệ thống nhận dạng tiếng nói liên tục, kích thước từ điển lớn, không phụ thuộc người nói. Vì vậy, các hệ thống nhận dạng tiếng nói ngày nay thường được xây dựng trên cơ sở áp dụng các kỹ thuật nhận dạng mẫu phức tạp hơn, đó là mô hình Markov ẩn, hoặc mô hình lai giữa Markov ẩn và mạng neuron. Trên thế giới đã có khá nhiều hệ thống nhận dạng tiếng nói cỡ lớn sử dụng mô hình Markov ẩn cho độ chính xác rất cao như hệ thống nhận dạng Sphinx1 của trường đại học Carnegie Mellon, bộ công cụ nhận dạng tiếng nói HTK2 của trường đại học Cambridge, ... Ở Việt Nam, một số chương trình nhận dạng tiếng nói dựa trên mô hình Markov ẩn cũng đã cho những kết quả khá khả quan. Tuy nhiên, phần lớn những chương trình đó vẫn chỉ sử dụng mô hình Markov ẩn ở mức từ ([7], [8], [10], [12], [13], [15]) nên số lượng từ vựng còn hạn chế và khó áp dụng để nhận dạng được tiếng nói phát âm liên tục. Cũng đã có một số hệ thống nhận dạng sử dụng mô hình Markov ẩn ở mức đơn vị âm thanh nhỏ hơn từ, chẳng hạn như âm vị hay phụ âm đầu + vần, ... ([9], [11], [14]), nhưng những thực nghiệm của các hệ thống đó vẫn chỉ áp dụng trên một tập từ vựng không lớn lắm và cũng chưa đề cập gì đến việc nhận dạng tiếng nói liên tục. Bên cạnh đó, phần lớn những hệ thống này lại được triển khai dựa trên các công cụ nhận dạng tiếng nói mã nguồn mở của nước ngoài như CSLU3, HTK2, ... nên những kết quả đó cũng mới chỉ dừng ở mức nghiên cứu mà khó có thể áp dụng vào thực tế do bị phụ thuộc về mặt công nghệ. Chính vì vậy, mục đích của đề tài này là cố gắng giải quyết được phần nào những hạn chế trên. Cụ thể, mục tiêu mà học viên đề ra trong khi thực hiện luận văn này là phải: • Tìm hiểu và đề ra phương pháp để xây dựng được module huấn luyện mô hình Markov ẩn phục vụ cho nhận dạng tiếng nói với mức đơn vị âm thanh là bất kì, có thể là cả một từ (word) hoặc là những đơn vị âm thanh nhỏ hơn từ (subword). 1 http://cmusphinx.sourceforge.net http://htk.eng.cam.ac.uk 3 http://cslu.cse.ogi.edu 2 11
- Xem thêm -

Tài liệu liên quan