Tài liệu Nghiên cứu một số phương pháp trong nhận dạng tiếng nói

.PDF

113

214

nhattuvisu Báo vi phạm

Tải xuống 65

Mô tả:

Trang 1 ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC KỸ THUẬT CÔNG NGHIỆP --------------------------------------- NGUYỄN NGỌC TOÀN NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP TRONG NHẬN DẠNG TIẾNG NÓI Chuyên ngành: Kỹ thuật điện tử Mã số: 60.52.70 LUẬN VĂN THẠC SĨ KỸ THUẬT Thái Nguyên - 2012 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang 2 CHƢƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI 1.1 GIỚI THIỆU Nhận dạng tiếng nói là một quá trình nhận dạng mẫu, với mục đích là phân lớp (classify) thông tin đầu vào là tín hiệu tiếng nói thành một dãy tuần tự các mẫu đã được học trước đó và lưu trữ trong bộ nhớ. Các mẫu là các đơn vị nhận dạng, chúng có thể là các từ, hoặc các âm vị. Nếu các mẫu này là bất biến và không thay đổi thì công việc nhận dạng tiếng nói trở nên đơn giản bằng cách so sánh dữ liệu tiếng nói cần nhận dạng với các mẫu đã được học và lưu trữ trong bộ nhớ. Khó khăn cơ bản của nhận dạng tiếng nói đó là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn giữa tiếng nói của những người nói khác nhau, tốc độ nói, ngữ cảnh và môi trường âm học khác nhau. Một nhiệm vụ khó khăn đó là xác định những thông tin biến thiên nào của tiếng nói là quan trọng đối với nhận dạng tiếng nói và những thông tin nào là không quan trọng đối với công việc nhận dạng tiếng nói. Đây là một nhiệm vụ rất khó khăn mà ngay cả với các kỹ thuật xác suất thống kê mạnh cũng khó khăn trong việc tổng quát hóa từ các mẫu tiếng nói, những biến thiên quan trọng cần thiết trong nhận dạng tiếng nói. Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản: - Tín hiệu tiếng nói được biểu diễn chính xác bởi các giá trị phổ trong một khung thời gian ngắn (short-term amplitude spectrum). Nhờ vậy ta có thể trích ra các đặc điểm tiếng nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ liệu để nhận dạng tiếng nói. - Nội dung của tiếng nói được biểu diễn dưới dạng chữ viết, là một dãy các ký hiệu ngữ âm. Do đó ý nghĩa của một phát âm được bảo toàn khi chúng ta phiên âm, phát âm thành dãy các ký hiệu ngữ âm. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang 3 - Nhận dạng tiếng nói là một quá trình nhận thức. Ngôn ngữ nói là có ý nghĩa, do đó thông tin về ngữ nghĩa (semantics) và suy đoán (pragmatics) có giá trị trong quá trình nhận dạng tiếng nói nhất là khi thông tin về âm học là không rõ ràng. Lĩnh vực nghiên cứu của nhận dạng tiếng nói là rất rộng, liên quan đến nhiều ngành khác nhau. Sau đây là các ngành và mối liên hệ của chúng với nhận dạng tiếng nói: - Xử lý tín hiệu số (digital signal processing): Các kỹ thuật xử lý tín hiệu số dùng để phân tích tín hiệu tiếng nói biến thiên theo thời gian nhằm trích ra các thông tin quan trọng từ tiếng nói. - Vật lý hay âm học (acoustic): Khoa học nghiên cứu về mối quan hệ giữa tín hiệu tiếng nói và cơ chế sinh lý học của bộ máy phát âm của con người, cũng như cơ chế hoạt động của tai người. - Nhận dạng mẫu: Các thuật toán dùng để phân loại dữ liệu thành tập các mẫu và đối sánh các mẫu dựa trên cơ sở tính toán khoảng cách giữa các đặc điểm của mẫu. - Lý thuyết thông tin và khoa học máy tính (information and computer science theory): Các thuật toán để tính toán các tham số của các mô hình thống kê, các thuật toán giải mã và mã hóa (lập trình động, các thuật toán dùng stack, giải mã Viterbi) để tìm một đường đi tốt nhất dãy các từ được nhận dạng. - Ngôn ngữ học (linguistics): Kiến thức về cấu trúc của ngôn ngữ, đặc biệt là đơn vị ngữ âm cơ bản của tiếng nói và vai trò của chúng trong việc sản sinh ra giọng nói. - Sinh lý học (physiology): Kiến thức về cấu tạo của bộ máy phát âm của con người, của tai người - Tâm lý học ứng dụng (applied psychology): Những kiến thức về quá trình sinh ra tiếng nói cũng như quá trình nhận thức tiếng nói của loài người. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang 4 1.2 NGUYÊN TẮC CỦA HỆ THỐNG NHẬN DẠNG TIẾNG NÓI Các hệ thống nhận dạng tiếng nói có thể được phân chia thành hai loại khác nhau: hệ thống nhận dạng từ rời rạc và hệ thống nhận dạng từ liên tục. Trong hệ thống nhận dạng tiếng nói liên tục, người ta lại phân biệt hệ thống nhận dạng có kích thước từ điển nhỏ và hệ thống nhận dạng với kích thước từ điển trung bình hoặc lớn [Rabiner 1993]. Hình 1.1 cho ta các lớp hệ thống nhận dạng tiếng nói khác nhau. Trong hệ thống nhận dạng từ rời rạc, các phát âm được nhận dạng được giả thiết là chỉ bao gồm một từ hoặc một nhóm từ độc lập. Các từ được nhận dạng mà không phụ thuộc vào ngữ cảnh của nó. Nhận dạng tiếng nói với các từ rời rạc được ứng dụng trong các chương trình dạng câu lệnh - điều khiển (command-control), chẳng hạn như ứng dụng quay số bằng giọng nói trong điện thoại di động. Bài toán nhận dạng tiếng nói các từ rời rạc rõ ràng là dễ hơn rất nhiều so với bài toán nhận dạng tiếng nói liên tục vì ranh giới trái và phải của các từ được coi mặc nhiên là đã được xác định. Tuy nhiên trong thực tế việc tìm ranh giới các từ trong một phát âm liên tục không phải lúc nào cũng là dễ dàng [Dong 2001]. Ngoài ra xây dựng cơ sở dữ liệu các từ đơn lẻ cũng đơn giản và các phát âm các từ đơn lẻ cũng rõ ràng hơn so với các từ đứng liền nhau [Young 1996]. Ví dụ về các hệ thống nhận dạng liên tục với từ điển kích thước nhỏ là hệ thống nhận dạng các chữ số từ 0 đến 9, hệ thống nhận dạng các chữ cái, hoặc một số các từ hữu hạn nào đó. Các hệ thống này có tính chất là đơn vị nhận dạng của chúng có thể là các từ giống như hệ thống nhận dạng từ rời rạc. Với hệ thống nhận dạng liên tục có kích thước bộ từ điển lớn thì đơn vị nhận dạng cơ bản không thể là các từ mà là các âm vị hoặc bán âm tiết. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang 5 Hệ thống nhận dạng Hệ thống nhận dạng từ rời rạc Hệ thống nhận dạng từ liên tục Hệ thống với kích thước bộ từ điển nhỏ Hệ thống với kích thước bộ từ điển trung bình và lớn Hình 1.1: Các hệ thống nhận dạng tiếng nói Trong đồ án chỉ nghiên cứu hệ thống nhận dạng các từ liên tục. Sau đây là nguyên tắc cơ bản của một hệ thống nhận dạng từ liên tục. Một phát âm dưới dạng .wav sẽ được phân tích thành một dãy các vector đặc tính phổ, mỗi vector tương ứng với một khung tín hiệu thường có độ dài 10ms. Ví dụ một phát âm Y được phân tích thành dãy các vector đặc tính phổ tương ứng y1, y2…, yT. Phát âm là một dãy các từ W = w1, w2, …, wn, và nhiệm vụ của hệ thống nhận dạng là tìm ra được dãy có từ Ŵ có xác suất cao nhất với dãy các vector đặc tính phổ Y cho trước. Theo luật xác suất Bayes ta có: Ŵ  arg max P(W Y )  arg max P(W ) P(Y W ) P(Y ) Do xác suất P(Y) là độc lập với W, do đó ta thấy để tìm được dãy từ có xác suất cao nhất Ŵ phải tìm dãy từ sao cho hai xác suất P(W) và P(Y|W) cao nhất. Xác suất P(W) độc lập với tín hiệu tiếng nói và xác suất này xác định bởi mô hình ngôn ngữ (language model). Xác suất P(Y|W) được xác định bởi mô hình âm học (acoustic model). Hình 1.2 cho thấy mối quan hệ giữa các xác suất này. Trong đó với một phát Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang 6 âm là dãy từ “giọng nói”, mô hình ngôn ngữ sẽ cho ta xác suất P(W). Bằng từ điển phiên âm ta biến đổi chúng thành dãy các âm vị tương ứng. Dãy các âm vị này cho ta xây dựng một mô hình Markov ẩn lớn bằng cách nối ghép các mô hình Markov ẩn của các âm vị tương ứng. Phát âm được trích trọn các đặc điểm đưa vào mô hình Markov ẩn lớn này sẽ cho ta xác suất P(Y|W). Về mặt nguyên tắc, quá trình này có thể lặp đi lặp lại với tất cả các dãy từ có thể để tìm ra dãy từ có xác suất lớn nhất. Hình 1.2: Khái quát về hệ thống nhận dạng Trong thực tế việc tìm xác suất với tất cả các dãy từ là không thể áp dụng. Một quá trình xem xét tất cả các dãy từ có thể song song với nhau được áp dụng và một quá trình chọn lọc xóa đi các dãy từ khó có khả năng trở thành dãy từ tốt nhất. Quá trình tìm kiếm này được gọi là quá trình giải mã (decoding). Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang 7 Hình 1.3 sau đây cho ta thấy các bước cơ bản của một hệ thống nhận dạng tiếng nói, gồm có ba giai đoạn: phân tích đặc tính, phân lớp mẫu và xử lý ngôn ngữ. Dãy các đặc Dãy các từ tính phổ Hoặc âm vị Tín hiệu tiếng nói Từ, câu được Phân tích đặc tính (feature analysis) Phân lớp mẫu (pattem classification) Xử lý ngôn ngữ (language processing) Các từ, âm vị Các từ, câu Mô hình âm học Mô hình ngôn ngữ (acoustic model) (language model) nhận dạng Hình 1.3: Các quá trình nhận dạng 1.2.1 Phân tích các đặc tính tiếng nói Phân tích các đặc tính trích ra các thông tin cần thiết cho quá trình nhận dạng tiếng nói từ tín hiệu tiếng nói. Quá trình này loại bỏ những thông tin không quan trọng. Chẳng hạn như tiếng ồn của môi trường thu âm, nhiễu trên đường truyền, các đặc điểm riêng biệt của từng người nói… Tiếng nói được phân tích theo từng khung thời gian (frame) với độ dài dao động từ 8ms tới 25ms [Joseph 1993]. Kết quả ra của giai đoạn này là các vector đặc tính của mỗi khung tín hiệu tiếng nói. Có hai cách tiếp cận thông dụng hiện nay thường được áp dụng để phân tích tín hiệu tiếng nói đó là phương pháp dựa vào mô hình hóa bộ đường phát âm (vocal tract) và phương pháp dựa vào mô hình hóa cảm nhận âm thanh của con người (human auditory system). Cả hai cách này đều đang được áp dụng thành công trong các hệ thống nhận dạng. Tuy nhiên các phương pháp phân tích tiếng nói hiện nay mới chỉ thực hiện được công việc nhỏ so với hệ thống phát âm và nhận thức âm thanh của con Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang 8 người. Sự cải tiến của các phương pháp này sẽ dẫn tới nâng cao năng lực nhận dạng của các hệ thống nhận dạng tiếng nói. Hai phương pháp trích trọn tiếng nói đang được sử dụng rộng rãi hiện nay trong các hệ thống nhận dạng hiện tại là: Phương pháp MFCC (Mel Scale Frequency Cepstral Coefficients) và PLP (Perceptual Linear Prediction). Có hai kỹ thuật xử lý tiếng nói có vị trí quan trọng là kỹ thuật RASTA (RelAtive SpecTral) và CMS (Cepstral Mean Subtraction). Đây là hai kỹ thuật áp dụng nhằm lọc bỏ nhiễu, những âm thanh không phải là tiếng nói. Hai kỹ thuật này đặc biệt có ích trong xử lý tiếng nói thu âm qua điện thoại [Avendano 1996]. Cả hai kỹ thuật đều có thể dùng kết hợp được với một trong hai phương pháp trích trọn đặc tính phổ MFCC hoặc PLP. Kỹ thuật RASTA có ưu điểm là có thể được áp dụng trong các hệ thống nhận dạng trực tiếp (live), nhận dạng phát âm mà không cần đợi phát âm đó kết thúc [Hermansky 1994]. Kỹ thuật này thường được đi kèm với phương pháp trích trọn đặc điểm PLP [Hermansky 1992]. Ngược lại kỹ thuật CMS có ưu điểm là đơn giản, thời gian tính toán nhanh, dễ áp dụng. 1.2.2 Phân lớp mẫu Bước thứ hai trong hệ thống nhận dạng tiếng nói đó là phân lớp mẫu, trong đó hệ thống sẽ gán dãy các vector đặc tính thành dãy tối ưu các đơn vị tiếng nói cơ bản (từ hoặc âm vị). Có bốn phương pháp hay được áp dụng đó là: đối sánh mẫu (template matcher), rule-based, mạng neuron và mô hình Markov ẩn. Nguyên tắc cơ bản của phương pháp đối sánh mẫu đó là cất giữ một số lượng các mẫu (examples) tiếng nói, bao gồm các vector đặc tính. Tín hiệu tiếng nói cần nhận dạng được phân tích và các vector đặc tính của chúng sẽ được so sánh với các mẫu đã được cất giữ trước đó. Do tốc độ phát âm là rất khác nhau, từ phát âm nhanh đến phát âm chậm, nên kỹ thuật DTW (Dynamic Time Warping) được áp dụng để dãn hoặc co hẹp thời gian trên trục thời gian nhằm giảm sự khác biệt so với các mẫu. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang 9 Hệ thống rule-based xây dựng một loạt các tiêu chuẩn trên một cây quyết định để xác định xem đơn vị nào của ngôn ngữ nằm trong tín hiệu tiếng nói. Đối với hệ thống nhận dạng tiếng nói lớn, phương pháp này gặp khó khăn trong việc tổng quát hóa sự đa dạng của tiếng nói. Một vấn đề nữa là với cây quyết định, rất khó hồi phục lỗi nếu như một quyết định sai được xác định ngay từ khi bắt đầu phân tích. Mô hình Markov ẩn được nghiên cứu rộng rãi gần đây như là một công cụ mạnh được áp dụng thành công trong nhận dạng tiếng nói. Đa số các hệ thống nhận dạng tiếng nói đều dùng mô hình Markov ẩn. Chi tiết về mô hình Markov ẩn sẽ được trình bày trong Chương 3. Mạng neuron được áp dụng trong nhận dạng tiếng nói từ những năm 1980 với mong muốn sử dụng khả năng phân lớp mạnh của mạng. Mạng neuron truyền thẳng đa lớp perceptron thường được sử dụng trong nhận dạng tiếng nói. Tuy nhiên mạng neuron có hạn chế về khả năng mô hình hóa sự biến thiên của tiếng nói theo thời gian. Vì vậy mạng neuron gần đây hay được sử dụng thay thế các hàm mật độ xác suất trong các hệ thống lai ghép mạng neuron và mô hình Markov ẩn. 1.2.3 Mô hình ngôn ngữ Mục đích của mô hình ngôn ngữ là tìm ra xác suất của từ wk trong phát âm theo sau các từ W1k-1 = w1, w2, … wk-1. Một phương pháp đơn giản hay được áp dụng đó là dùng N-gram, với giả thiết rằng từ wk chỉ phụ thuộc vào n-1 các từ đứng trước nó tức là P(wk|W1k-1)=P(wk|W kk 1n 1 ) Mô hình ngôn ngữ N-gram cùng một lúc chứa đựng các thông tin về cú pháp (syntax), ngữ nghĩa (semantics), suy đoán (pragmatics) và chúng tập trung vào sự phụ thuộc lân cận của một từ. Các xác suất của mô hình ngôn ngữ có thể được tính toán trực tiếp từ cơ sở dữ liệu văn bản mà không cần đến các luật ngôn ngữ như ngữ pháp hình thức của ngôn ngữ. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang 10 Về mặt nguyên tắc các xác suất của mô hình ngôn ngữ có thể được tính toán trực tiếp từ số lần xuất hiện của các từ trong cơ sở dữ liệu: t ( wk  2, wk 1 , wk ) Pˆ ( wk 1 , wk  2 )  b( wk  2 , wk 1 ) Trong đó hàm t(a,b,c) là số lần xuất hiện của bộ ba từ a,b,c (trigram). b(a,b) là số lần xuất hiện của bộ đôi (bigram) a,b. Tuy nhiên một vấn đề khó khăn cơ bản của mô hình ngôn ngữ là số lượng các bộ ba là quá lớn. Chẳng hạn với một hệ thống nhận dạng với bộ từ điển V có kích thước là 10.000 từ thì số lượng các bộ ba là V3. Số lượng từ này rõ ràng là quá lớn, sẽ có nhiều bộ ba không xuất hiện hoặc xuất hiện rất ít, chỉ một hoặc hai lần trong cơ sở dữ liệu. Với các trường hợp này, xác suất của các bộ ba là không tính được hoặc rất nhỏ. Mặc dù có khó khăn về tính toán như trên, mô hình ngôn ngữ vẫn chứng minh được là chúng đóng vai trò quan trọng trong các hệ thống nhận dạng. Trong các hệ thống nhận dạng với kích thước lớn hiện nay, các mô hình ngôn ngữ 3-gram và 2-gram dùng phổ biến [Young 1996]. Một số hệ thống nhận dạng có khả năng thay đổi mô hình ngôn ngữ theo ngữ cảnh, tự điều chỉnh mô hình ngôn ngữ trong quá trình nhận dạng [Béchet 2001, Estève2000]. 1.3 CÁC ỨNG DỤNG CỦA NHẬN DẠNG TIẾNG NÓI 1.3.1 Nhận dạng tiếng nói và viễn thông Dựa vào mạng điện thoại công cộng, nhận dạng tiếng nói ngày càng được đưa vào ứng dụng trong hệ thống điện thoại. Có hai nhóm chương trình ứng dụng của nhận dạng tiếng nói trong viễn thông [Roe 1993]. Nhóm đầu tiên là các ứng dụng nhằm làm giảm giá thành, đó là các ứng dụng trong đó một người thực hiện một tác vụ trong hệ thống viễn thông thông qua một nhân viên phục vụ (attendant). Trong ứng dụng này độ chính xác nhận dạng của các hệ thống nhận dạng thay thế nhân viên phục vụ là một yếu tố quan trọng, do vậy người dùng sẽ khó thông cảm cho các lỗi của hệ thống nhận dạng. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang 11 Ví dụ về các hệ thống nhận dạng loại này là: • Tự động hóa các dịch vụ có sự tham gia của nhân viên. Hệ thống này đang được nghiên cứu và phát triển bởi AT&T và Northen Telecom. • Tự động hóa các dịch vụ danh bạ điện thoại. Nhóm chương trình ứng dụng thứ hai là những chương trình sản sinh giá trị gia tăng. Trong nhóm này lợi ích của công nghệ nhận dạng tiếng nói nằm ở phía người sử dụng cuối. Các giới hạn của độ chính xác nhận dạng có thể được thông cảm bởi người dùng. Ví dụ về các chương trình này là: • Các dịch vụ về ngân hàng (đang được phát triển bởi Nippon Telecom) • Dịch vụ báo giá chứng khoán (đang được phát triển bởi Bell Northen Research) Nói chung các ứng dụng nhận dạng tiếng nói trong viễn thông thường cho phép người dùng giao tiếp với máy tính thông qua các câu lệnh bằng giọng nói, thông qua đó máy tính thực hiện các câu lệnh của người dùng. Mặc dù độ chính xác nhận dạng còn cần phải tiếp tục nâng cao, nhưng nhiều ứng dụng của công nghệ nhận dạng tiếng nói đã được đưa vào sử dụng và đã được người dùng chấp nhận. Sau đây là một vài ứng dụng hiện đang được khai thác. - Hệ thống xử lý cuộc gọi áp dụng công nghệ nhận dạng tiếng nói Voice Recognition Call Processing của hãng AT&T được triển khai vào năm 1991. Hệ thống này có thể nhận dạng một số lượng giới hạn từ vựng, nhận dạng tiếng nói độc lập với người nói, có khả năng tự động một phần công việc thực hiện bằng tay bởi các nhân viên trực ca. Hệ thống này giảm được khối lượng công việc thực hiện bằng tay đồng thời tăng cường hiệu quả hoạt động của hệ thống xử lý cuộc gọi. Hệ thống đã thu được thành công nhất định và đã được khách hàng chấp nhận. - Hệ thống dịch vụ danh bạ Directory Assisstance của hãng Northem Telecom. Hệ thống này cho phép người dùng đọc phiên âm của một từ, từ đó hệ thống sẽ nhận ra từ Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang 12 cần nhận dạng. Nhờ cách này hệ thống có thể nhận dạng được hàng nghìn các từ khác nhau mà các từ này không cần phải được học trước. Phương pháp này rất thuận tiện cho việc bổ sung một từ mới như tên một người vào trong hệ thống danh bạ. 1.3.2 Hệ thống đọc chính tả bằng giọng nói Mặc dù công việc đọc chính tả cho máy tính là một trong những bài toán khó khăn nhất của nhận dạng tiếng nói, một số phần mềm đọc chính tả đã xuất hiện trên thị trường. Ví dụ như phần mềm Dragon có khả năng hiểu được 30.000 từ, hệ thống nhận dạng tiếng nói của IBM có khả năng nhận dạng được 20.000 từ. Các phần mềm này có khả năng hiểu được các phát âm liên tục của người nói. Chúng đều có nguyên tắc hoạt động giống nhau, đó là đầu tiên người dùng cần phải đọc một đoạn văn để hệ thống có thể làm quen với giọng đọc. Các phần mềm có khả năng chấp nhận tốc độ đọc khoảng 50 từ/1 phút. Độ chính xác nhận dạng phụ thuộc vào giọng đọc của người nói, vào sự giống nhau giữa văn bản được đọc và mô hình ngôn ngữ được xây dựng trong hệ thống. Tỷ lệ lỗi trong các hệ thống này có thể đạt tới 3-5%, mở ra khả năng cho phép con người dùng giọng nói để đọc chính tả cho máy tính. Chức năng này được sử dụng rất hiệu quả cho những người tàn tật, khiếm thị. 1.3.3 Nhận dạng tiếng nói trong các sản phẩm tiêu dùng Nhận dạng tiếng nói đã được áp dụng vào trong một số sản phẩm tiêu dùng hàng ngày như điện thoại, trò chơi và điện thoại di động. Các điện thoại di động hiện nay cho phép người dùng có thể quay số bằng giọng nói nhờ cách đọc tên người được gọi ở trong danh bạ. Các sản phẩm tiêu dùng đều có đặc điểm là có vi xử lý nhỏ, do đó thuật toán nhận dạng tiếng nói chạy trong các sản phẩm thường không phức tạp nhưng vẫn đảm bảo tỷ lệ độ chính xác nhận dạng chấp nhận được. 1.4 NGHIÊN CỨU HIỆN THỜI VỀ NHẬN DẠNG TIẾNG NÓI Sau đây là các đặc điểm chính của hệ thống nhận dạng tiếng nói liên quan đến độ chính xác nhận dạng: Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang 13 - Sự phụ thuộc vào người nói: Hệ thống nhận dạng tiếng nói có thể là phụ thuộc vào người nói (speaker Dependent) hoặc là độc lập với người nói (speaker independent). Xây dựng một hệ thống nhận dạng tiếng nói cho giọng nói của một người dễ dàng hơn là xây dựng hệ thống nhận dạng tiếng nói cho nhiều người, nhất là khi những người này có giọng nói tại những địa phương khác nhau. Tỷ lệ lỗi nhận dạng tiếng nói của hệ thống độc lập với người nói thường cao hơn 3 đến 5 lần so với hệ thống nhận dạng tiếng nói phụ thuộc người nói tương đương [Tebelskis 1995]. - Kích thước của bộ từ điển: Kích thước bộ từ điển mà hệ thống nhận dạng tiếng nói có thể hiểu được càng lớn thì khả năng nhầm lẫn giữa các từ, các câu càng cao và nhiệm vụ nhận dạng tiếng nói càng trở nên khó khăn. - Tốc độ nói, hiện tượng đồng phát âm: Trong một phát âm, một âm bị ảnh hưởng rất lớn của các âm xung quanh nó. Các từ rời rạc được nhận dạng dễ dàng hơn là các từ trong một phát âm liên tục. - Sự biến đổi trong lời nói: Con người có thể hiểu được lời nói ngay cả khi nó bị xen lẫn bởi các tạp âm như tiếng ho, tiếng cười, tiếng “à, ờ” và lời nói với những từ được nhấn mạnh. Tuy nhiên đối với máy tính các trường hợp như vậy gây ra những khó khăn đặc biệt trong nhận dạng tiếng nói. - Điều kiện môi trường: Tiếng nói có chất lượng thấp (bị méo tín hiệu, bị nhiễu kênh truyền, …) thường đặt ra rất nhiều vấn đề giải quyết cho các hệ thống nhận dạng tiếng nói. Theo [Siohan 1995] tỷ lệ lỗi của hệ thống nhận dạng khi làm việc với tiếng nói có SNR > 40dB (SNR – Signal to Noise Ratio) so với tiếng nói có SNR > 18dB tăng lên nhiều lần, có thể tới 10 lần. - Các phát âm tự nhiên và các phát âm liên tục: Hệ thống nhận dạng tiếng nói có thể làm việc với các phát âm được đọc từ các văn bản chuẩn bị sẵn hoặc với các phát âm do người nói nói một cách tự nhiên (spontaneous). Nhận dạng các phát âm tự nhiên rõ ràng là khó khăn hơn nhiều so với các phát âm đọc sẵn. Lý do là các phát âm tự nhiên số lượng từ vựng thường là không hạn chế, hệ thống phải phân biệt với các từ không có Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang 14 trong bộ từ điển. Ngoài ra trong các phát âm người nói vừa nói vừa nghĩ và do đó phát âm không rõ ràng, tốc độ phát âm khác nhau, tiếng nói có thể xen lẫn với các tạp âm khác. - Các giới hạn về ngôn ngữ: Các hệ thống nhận dạng có thể làm việc với các câu với ngữ pháp rõ ràng trong các chương trình ứng dụng cụ thể. Với các hệ thống này, nhiệm vụ nhận dạng sẽ dễ dàng hơn hệ thống nhận dạng mà các từ không có ràng buộc cụ thể về ngữ pháp, hay nói cách khác các từ quan hệ với nhau bằng vòng lặp từ (word-loop) nghĩa là bất kỳ một từ nào trong bộ từ điển đều có thể theo sau từ khác trong bộ từ điển. 1.4.1 Các nghiên cứu về nhận dạng tiếng nói ngôn ngữ nƣớc ngoài Công nghệ nhận dạng tiếng nói đã có bước tiến dài trong các thập kỷ qua, một số các phần mềm nhận dạng tiếng nói đã có mặt trên thị trường, chẳng hạn như các phần mềm nhận dạng tiếng nói đọc chính tả của IBM, Gragon Systems, L&H. Về lĩnh vực ứng dụng nhận dạng tiếng nói trong viễn thông, Nuance và Speech Works là các hãng phần mềm nổi tiếng. Rất nhiều các trung tâm nghiên cứu đang tập trung nghiên cứu về nhận dạng tiếng nói, chẳng hạn như Bell Labs, IBM Research Center, Microsoft Research, CSLU, … Độ khó của các ứng dụng nhận dạng tiếng nói phụ thuộc vào nhiều yếu tố. Hình 1.4 miêu tả các ứng dụng của nhận dạng tiếng nói phụ thuộc vào hai yếu tố chính: kích thước từ vựng và kiểu phát âm. Độ khó tăng từ thấp lên cao, từ trái sang phải. Trong các ứng dụng thực tế, có sự khác nhau lớn giữa môi trường thu âm tiếng nói nên cùng với một thuật toán các hệ thống nhận dạng có độ chính xác nhận dạng kém hơn nhiều khi làm việc trong môi trường thực tế so với trong môi trường phòng thí nghiệm. Ví dụ như một hệ thống nhận dạng các số của thẻ tín dụng ngân hàng được đọc bởi người bán hàng ở các cửa hàng bán lẻ tại Mỹ có độ chính xác nhận dạng là 98% (so với 99,7% trong môi trường phòng thí nghiệm) [Stephen a]. Sự khác nhau về Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang 15 tỷ lệ lỗi nhận dạng chủ yếu là do sự khác nhau giữa chất lượng tiếng nói được thu âm trong môi trường phòng thí nghiệm và môi trường bên ngoài. Đối thoại tự nhiên Giọng nói tự nhiên Tìm từ Ghi chép Hệ thống đối thoại hạn chế Giọng nói liên tục người nói đọc Điền mẫu biểu bằng giọng nói Tiếng nói liên tục Các từ rời rạc Đọc chính tả trong văn phòng Quay số bằng giọng nói Giọng nói do Ra lệnh bằng giọng nói 20 Tra cứu danh bạ 200 2000 20000 Hình 1.4: Các bài toán nhận dạng khác nhau theo kích thước bộ từ điển và kiểu nói Bảng 1.1 so sánh tỷ lệ lỗi nhận dạng của các hệ thống nhận dạng tiếng Anh so với khả năng nhận dạng của con người theo đánh giá của [Barbara 2001]. Từ bảng ta thấy tỷ lệ lỗi nhận dạng của con người thấp hơn năm lần so với tỷ lệ lỗi nhận dạng bằng máy tính. Đối với các hệ thống nhận dạng làm việc với giọng nói tự nhiên hoặc đối thoại thì tỷ lệ lỗi nhận dạng của máy tính cao hơn đến mười lần. Với cơ sở dữ liệu tiếng nói có nhiều nhiễu thì sự khác nhau này có thể còn cao hơn nữa. Do vậy có thể nói kỹ thuật nhận dạng hiện thời còn xa mới có thể đạt tới khả năng của con người. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang 16 Hệ thống nhận dạng Kích thước từ vựng Máy tính Con người Liên tục 10 0,72% 0,009% Các chữ cái 26 5% 1% Giọng nói tự nhiên 2000 36,7% 3,8% Giọng nói chất lượng tốt của WSJ 5000 4,5% 0,9% Giọng nói có nhiều nhiễu WSJ 20000 8,6% 1,1% Bảng 1.1: So sánh tỷ lệ lỗi nhận dạng của máy tính và con người với một số hệ thống nhận dạng Ngoài ngôn ngữ Châu Âu, các nghiên cứu về nhận dạng tiếng nói đối với các ngôn ngữ đơn âm và có thanh điệu giống tiếng Việt như tiếng Trung Quốc (bao gồm tiếng Bắc Kinh và tiếng Quảng Đông), tiếng Thái Lan cũng đã được nghiên cứu. Với tiếng Trung Quốc, rất nhiều nghiên cứu đã được tiến hành, nhiều hệ thống nhận dạng tiếng nói tiếng Trung Quốc đã được công bố và các hệ thống nhận dạng tiếng Hán với kích thước từ vựng lớn cũng đã được xây dựng [Fu 1996]. Một số phần mềm nhận dạng tiếng nói tiếng Trung Quốc cũng đã được bán ra thị trường. Bảng 1.2 trình bày các hệ thống nhận dạng tiếng nói tiếng Bắc Kinh (tiếng Hán) được công bố trong các bài báo khoa học theo thống kê của [Stephen b]. Phương pháp Kích thước bộ từ điển Độ chính xác HMM + modification of initials and finals 5000 syllables 93% CDHMM Complete vocabulary 92,5% DDHMM 1254 syllables 90,1% Time Delayed Neural Network Complete vocabulary 85% Hierarchical Neural Network Complete vocabulary 90,14% Bảng 1.2: Các hệ thống nhận dạng tiếng Hán Với ngôn ngữ Thái Lan, hầu hết các nghiên cứu tập chung vào nhận dạng các từ rời rạc [Sornlertlamvanich]. Với các nghiên cứu hệ thống nhận dạng liên tục, hệ thống nhận dạng mười chữ số Thái liên tục đạt độ chính xác 96,89% với cơ sở dữ liệu thu âm trong nhà [Thubthong 2000a]. Với hệ thống nhận dạng liên tục kích thước lớn tiếng Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang 17 Thái Lan, hiện thời các nghiên cứu mới chỉ ở bước khởi đầu. Đã có một số nghiên cứu về nhận dạng thanh điệu tiếng Thái [Thubthong 2000b]. 1.4.2 Các nghiên cứu về nhận dạng tiếng nói tiếng Việt Cho đến thời điểm hiện nay, chưa có nhiều các nghiên cứu về nhận dạng tiếng Việt. Các công việc nghiên cứu về nhận dạng tiếng nói tiếng Việt đang được tiến hành với các bước đầu tiên, các bài toán cơ bản về nhận dạng tiếng nói. Về nguyên tắc, tiếng Việt cũng như các ngôn ngữ có thanh điệu khác, hệ thống nhận dạng bao gồm hai quá trình nhận dạng song song: nhận dạng các từ không có thanh điệu và nhận dạng thanh điệu [Zhang 2000]. Hình 1.5 dưới đây miêu tả hệ thống nhận dạng ngôn ngữ có thanh điệu, trong đó có tiếng Việt: Nhận dạng các từ không dấu Nhận dạng thanh điệu Hình 1.5: Hệ thống nhận dạng ngôn ngữ có thanh điệu Nghiên cứu gần đây nhất về nhận dạng tiếng Việt là nghiên cứu của TS. Nguyễn Thành Phúc [Phúc 2000]. Trong luận án tiến sỹ của mình TS. Nguyễn Thành Phúc đã dùng bộ công cụ CSLU để tiến hành nghiên cứu và thực hiện các công việc sau: - Xây dựng được một số cơ sở dữ liệu thu âm trong môi trường trong nhà: • Cơ sở dữ liệu gồm 10 chữ số tiếng Việt gồm 812 câu, mỗi câu gồm 6 từ, do 15 người nói. Các câu đều được gán nhãn bằng tay. • Cơ sở dữ liệu gồm sáu âm tiết khác nhau về thanh điệu gồm 350 câu. • Cơ sở dữ liệu gồm 22 từ có các âm đầu khác nhau và có cùng phần vần là EO gồm 350 câu. - Nghiên cứu quá trình xây dựng một cơ sở dữ liệu tiếng Việt, đề xuất bảng ký hiệu âm vị tiếng Việt dùng để phiên âm các âm vị. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang 18 - Khảo sát nhận dạng đối với các từ khác nhau về thanh điệu - Tiến hành xây dựng hệ thống nhận dạng với mười chữ số tiếng Việt liên tục với điều kiện thu âm trong nhà. Nghiên cứu các giải pháp nhằm tăng cường độ chính xác nhận dạng: mô hình âm tiết, đơn vị nhận dạng cơ bản, ảnh hưởng của ngữ cảnh trong nhận dạng,… Độ chính xác nhận dạng cao nhất thu được là 98,83% ở mức từ. Một nghiên cứu về nhận dạng thanh điệu tiếng Việt được tiến hành bởi TS. Nguyễn Quốc Cường và cộng sự tại phòng thí nghiệm CLIPS-IMAG, trường đại học Grenoble tại Pháp [Cường]. Tác giả đã nghiên cứu nhận dạng thanh điệu tiếng Việt dùng mô hình Markov ẩn đối với từ rời rạc. Đây là một trong những công trình đầu tiên nghiên cứu về nhận dạng thanh điệu tiếng Việt. Các thử nghiệm được tiến hành trên cơ sở dữ liệu gồm 9720 từ, do 18 người nói đến từ ba miền Bắc – Trung – Nam, thu âm với tần suất lấy mẫu 16kHz, biến đổi A/D 16 bit. Kết quả thu được tỷ lệ nhận dạng chính xác thanh điệu đạt 91,6%. Ngoài ra trước TS. Nguyễn Thành Phúc có một số công trình nghiên cứu đã được công bố. Theo [Phúc 2000] các công trình trên bao gồm: - Công trình nghiên cứu nhận dạng tiếng nói theo phương pháp âm học – ngữ âm học của TS. Nguyễn Anh Tuấn. Kết quả của công trình như sau: • Hình thức hóa được ngôn ngữ hình học của các từ tiếng Việt, cho phép nâng cao độ tin cậy của phân đoạn hóa các từ thành từng đoạn tương ứng với phần đầu, phần vần và thanh điệu của âm tiết tiếng Việt. • Nghiên cứu và hình thức hóa những đặc trưng của sáu thanh điệu tiếng Việt cho phép xác định tự động kiểu thanh điệu tiếng Việt. • Thông qua biểu đồ phổ đã xác định được đặc trưng formant của các nguyên âm và bán nguyên âm tiếng Việt. Các đặc trưng này có thể sử dụng để phân loại các nguyên âm. • Đã tìm được các thông số phổ và thời gian của các nguyên âm và phụ âm tiếng Việt. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang 19 • Trên cơ sở các thông số đặc trưng của các âm tiết đã tìm được, đã tìm được một thuật toán nhận dạng các từ tiếng Việt rời rạc bao gồm mười chữ số tiếng Việt. Hệ thống nhận dạng xây dựng trên thuật toán này có độ chính xác là 95% không phụ thuộc vào giọng nói. - Đề tài nghiên cứu cấp nhà nước mã số KHCN 01-07 do Khoa Công nghệ thông tin Đại học Bách Khoa Hà Nội thực hiện hòan thành vào tháng 6/1998 đã áp dụng phương pháp dự báo tuyến tính LPC để đánh giá các tham số cơ bản (F0-F5 và tương quan F1F2) của các nguyên âm tiếng Việt: „„a, â, ă, e, ê, i, o, ô, ơ, u, ư‟‟. - TS. Đặng Văn Chuyết và KS. Ngô Đức Bình đã áp dụng phương pháp phân tích cepstral thời gian ngắn tín hiệu tiếng nói để xác định và quan sát sự biến đổi của các formant của nguyên âm tiếng Việt khi thay đổi ngữ cảnh. - TS. Nguyễn Thế Hiếu ứng dụng phương pháp hiệu chỉnh thời gian động DTW để nhận dạng các từ rời rạc cho tiếng Việt. Các tham số được sử dụng là các F1 và F2. Hệ thống nhận dạng thử nghiệm với năm nguyên âm tiếng Việt: „„a, e, i, o, u”, mười chữ số tiếng Việt và các từ điều khiển: „„tiến, lùi, phải, trái, sau, dừng”. Độ chính xác nhận dạng mười chữ số tiếng Việt rời rạc trung bình là 78,47%. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang 20 CHƢƠNG 2: CÁC KHÁI NIỆM VỀ NGỮ ÂM TIẾNG VIỆT 2.1 NGÔN NGỮ TIẾNG VIỆT 2.1.1 Đặc điểm âm tiết tiếng Việt 2.1.1.1 Tính độc lập cao Trong tiếng Việt, âm tiết được thể hiện khá đầy đủ, rõ ràng, được tách và ngắt thành từng khúc đoạn riêng biệt. Âm tiết nào của tiếng Việt cũng mang một thanh điệu và cấu trúc ổn định. Điều này làm cho sự thể hiện của âm tiết tiếng Việt trong chuỗi lời nói nổi bật và tách bạch hơn. Do đó nên việc vạch ra ranh giới giữa các âm tiết trong tiếng Việt dễ dàng hơn nhiều việc phân chia ranh giới âm tiết trong các ngôn ngữ Châu Âu [Thuật 1999] (trong ngôn ngữ Châu Âu, việc phân chia âm tiết có khi phải dùng phương pháp phân tích phổ). Việc tách bạch âm tiết còn được thể hiện ở chữ viết, mỗi âm tiết được viết tách ra thành một từ riêng biệt. Có thể nói so với các âm tiết Châu Âu, tiếng Việt có tính độc lập cao hơn hẳn. Trong các ngôn ngữ Châu Âu thường gặp các hiện tượng nối âm (liaison), ví dụ như: Les amis Trong tiếng Việt không có hiện tượng nối âm như vậy. 2.1.1.2 Có khả năng biểu hiện ý nghĩa Tuyệt đại đa số các âm tiết tiếng Việt đều có nghĩa. Gần như toàn bộ các âm tiết đều hoạt động như từ. Nói cách khác trong tiếng Việt ranh giới của âm tiết trùng với ranh giới của hình vị [Tho 1997] (hình vị là đơn vị có ý nghĩa nhỏ nhất trong một ngôn ngữ). Chính vì vậy trong một phát âm, số lượng âm tiết trùng với số lượng hình vị). Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

- Xem thêm -

Tài liệu Nghiên cứu một số phương pháp trong nhận dạng tiếng nói

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất