Tài liệu Nguyên tắc của hệ thống nhận dạng tiếng nói

.PDF

21520

hoangtuavartar Báo vi phạm

Tải xuống 70

Mô tả:

1 CHƢƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI 1.1 GIỚI THIỆU Nhận dạng tiếng nói là một quá trình nhận dạng mẫu, với mục đích là phân lớp (classify) thông tin đầu vào là tín hiệu tiếng nói thành một dãy tuần tự các mẫu đã được học trước đó và lưu trữ trong bộ nhớ. Các mẫu là các đơn vị nhận dạng, chúng có thể là các từ, hoặc các âm vị. Nếu các mẫu này là bất biến và không thay đổi thì công việc nhận dạng tiếng nói trở nên đơn giản bằng cách so sánh dữ liệu tiếng nói cần nhận dạng với các mẫu đã được học và lưu trữ trong bộ nhớ. Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản: - Tín hiệu tiếng nói được biểu diễn chính xác bởi các giá trị phổ trong một khung thời gian ngắn (short-term amplitude spectrum). Nhờ vậy ta có thể trích ra các đặc điểm tiếng nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ liệu để nhận dạng tiếng nói. - Nội dung của tiếng nói được biểu diễn dưới dạng chữ viết, là một dãy các ký hiệu ngữ âm. Do đó ý nghĩa của một phát âm được bảo toàn khi chúng ta phiên âm, phát âm thành dãy các ký hiệu ngữ âm. - Nhận dạng tiếng nói là một quá trình nhận thức. Ngôn ngữ nói là có ý nghĩa, do đó thông tin về ngữ nghĩa (semantics) và suy đoán (pragmatics) có giá trị trong quá trình nhận dạng tiếng nói nhất là khi thông tin về âm học là không rõ ràng. 1.2 NGUYÊN TẮC CỦA HỆ THỐNG NHẬN DẠNG TIẾNG NÓI Các hệ thống nhận dạng tiếng nói có thể được phân chia thành hai loại khác nhau: hệ thống nhận dạng từ rời rạc và hệ thống nhận dạng từ liên tục. Trong hệ thống nhận dạng tiếng nói liên tục, người ta lại phân biệt hệ thống nhận dạng có kích thước từ điển nhỏ và hệ thống nhận dạng với kích thước từ điển trung bình hoặc lớn [Rabiner 1993]. Hình 1.1 cho ta các lớp hệ thống nhận dạng tiếng nói khác nhau. Nghiên cứu một số phương pháp trong nhận dạng tiếng nói 2 Hệ thống nhận dạng Hệ thống nhận dạng từ rời rạc Hệ thống nhận dạng từ liên tục Hệ thống với kích thước bộ từ điển nhỏ Hệ thống với kích thước bộ từ điển trung bình và lớn Hình 1.1: Các hệ thống nhận dạng tiếng nói Phát âm là một dãy các từ W = w1, w2, …, wn, và nhiệm vụ của hệ thống nhận dạng là tìm ra được dãy có từ Ŵ có xác suất cao nhất với dãy các vector đặc tính phổ Y cho trước. Theo luật xác suất Bayes ta có: Ŵ  arg max P(W Y )  arg max P(W ) P(Y W ) P(Y ) Do xác suất P(Y) là độc lập với W, do đó ta thấy để tìm được dãy từ có xác suất cao nhất Ŵ phải tìm dãy từ sao cho hai xác suất P(W) và P(Y|W) cao nhất. Xác suất P(W) độc lập với tín hiệu tiếng nói và xác suất này xác định bởi mô hình ngôn ngữ (language model). Xác suất P(Y|W) được xác định bởi mô hình âm học (acoustic model). Hình 1.2 cho thấy mối quan hệ giữa các xác suất này. Trong đó với một phát âm là dãy từ “giọng nói”, mô hình ngôn ngữ sẽ cho ta xác suất P(W). Bằng từ điển phiên âm ta biến đổi chúng thành dãy các âm vị tương ứng. Dãy các âm vị này cho ta xây dựng một mô hình Markov ẩn lớn bằng cách nối ghép các mô hình Markov ẩn của các âm vị tương ứng. Phát âm được trích trọn các đặc điểm đưa vào mô hình Markov ẩn lớn này sẽ cho ta xác suất P(Y|W). Nghiên cứu một số phương pháp trong nhận dạng tiếng nói 3 Hình 1.2: Khái quát về hệ thống nhận dạng Hình 1.3 sau đây cho ta thấy các bước cơ bản của một hệ thống nhận dạng tiếng nói, gồm có ba giai đoạn: phân tích đặc tính, phân lớp mẫu và xử lý ngôn ngữ. Dãy các đặc Dãy các từ tính phổ Hoặc âm vị Tín hiệu tiếng nói Từ, câu được Phân tích đặc tính (feature analysis) Phân lớp mẫu (pattem classification) Xử lý ngôn ngữ (language processing) Các từ, âm vị Các từ, câu Mô hình âm học Mô hình ngôn ngữ (acoustic model) (language model) Hình 1.3: Các quá trình nhận dạng Nghiên cứu một số phương pháp trong nhận dạng tiếng nói nhận dạng 4 1.2.1 Phân tích các đặc tính tiếng nói Phân tích các đặc tính trích ra các thông tin cần thiết cho quá trình nhận dạng tiếng nói từ tín hiệu tiếng nói. 1.2.2 Phân lớp mẫu Bước thứ hai trong hệ thống nhận dạng tiếng nói đó là phân lớp mẫu, trong đó hệ thống sẽ gán dãy các vector đặc tính thành dãy tối ưu các đơn vị tiếng nói cơ bản (từ hoặc âm vị). Có bốn phương pháp hay được áp dụng đó là: đối sánh mẫu (template matcher), rule-based, mạng neuron và mô hình Markov ẩn. 1.2.3 Mô hình ngôn ngữ Mục đích của mô hình ngôn ngữ là tìm ra xác suất của từ wk trong phát âm theo sau các từ W1k-1 = w1, w2, … wk-1. Một phương pháp đơn giản hay được áp dụng đó là dùng N-gram, với giả thiết rằng từ wk chỉ phụ thuộc vào n-1 các từ đứng trước nó tức là P(wk|W1k-1)=P(wk|W kk 1n 1 ) Về mặt nguyên tắc các xác suất của mô hình ngôn ngữ có thể được tính toán trực tiếp từ số lần xuất hiện của các từ trong cơ sở dữ liệu: t ( wk  2, wk 1 , wk ) Pˆ ( wk 1 , wk  2 )  b( wk  2 , wk 1 ) Trong đó hàm t(a,b,c) là số lần xuất hiện của bộ ba từ a,b,c (trigram). b(a,b) là số lần xuất hiện của bộ đôi (bigram) a,b. 1.3 CÁC ỨNG DỤNG CỦA NHẬN DẠNG TIẾNG NÓI 1.3.1 Nhận dạng tiếng nói và viễn thông 1.3.2 Hệ thống đọc chính tả bằng giọng nói 1.3.3 Nhận dạng tiếng nói trong các sản phẩm tiêu dùng 1.4 NGHIÊN CỨU HIỆN THỜI VỀ NHẬN DẠNG TIẾNG NÓI Nghiên cứu một số phương pháp trong nhận dạng tiếng nói 5 Sau đây là các đặc điểm chính của hệ thống nhận dạng tiếng nói liên quan đến độ chính xác nhận dạng: - Sự phụ thuộc vào người nói; Kích thước của bộ từ điển; Tốc độ nói, hiện tượng đồng phát âm; Sự biến đổi trong lời nói; Điều kiện môi trường; Các phát âm tự nhiên và các phát âm liên tục; Các giới hạn về ngôn ngữ. 1.4.1 Các nghiên cứu về nhận dạng tiếng nói ngôn ngữ nƣớc ngoài Một số các phần mềm nhận dạng tiếng nói đã có mặt trên thị trường: IBM, Gragon Systems, L&H. Về ứng dụng nhận dạng tiếng nói trong viễn thông, Nuance và Speech Works. Các trung tâm nghiên cứu đang nghiên cứu về nhận dạng tiếng nói, chẳng hạn như Bell Labs, IBM Research Center, Microsoft Research, CSLU, … Đối thoại tự nhiên Giọng nói tự nhiên Tìm từ Ghi chép Hệ thống đối thoại hạn chế Giọng nói liên tục người nói đọc Điền mẫu biểu bằng giọng nói Tiếng nói liên tục Các từ rời rạc Đọc chính tả trong văn phòng Quay số bằng giọng nói Giọng nói do Ra lệnh bằng giọng nói 20 Tra cứu danh bạ 200 2000 20000 Hình 1.4: Các bài toán nhận dạng khác nhau theo kích thước bộ từ điển và kiểu nói Bảng 1.1 so sánh tỷ lệ lỗi nhận dạng của các hệ thống nhận dạng tiếng Anh so với khả năng nhận dạng của con người theo đánh giá của [Barbara 2001]. Nghiên cứu một số phương pháp trong nhận dạng tiếng nói 6 Hệ thống nhận dạng Kích thước từ vựng Máy tính Con người Liên tục 10 0,72% 0,009% Các chữ cái 26 5% 1% Giọng nói tự nhiên 2000 36,7% 3,8% Giọng nói chất lượng tốt của WSJ 5000 4,5% 0,9% Giọng nói có nhiều nhiễu WSJ 20000 8,6% 1,1% Bảng 1.1: So sánh tỷ lệ lỗi nhận dạng của máy tính và con người với một số hệ thống nhận dạng Ngoài ngôn ngữ Châu Âu, các nghiên cứu về nhận dạng tiếng nói đối với các ngôn ngữ đơn âm và có thanh điệu giống tiếng Việt như tiếng Trung Quốc (bao gồm tiếng Bắc Kinh và tiếng Quảng Đông), tiếng Thái Lan cũng đã được nghiên cứu. Phương pháp Kích thước bộ từ điển Độ chính xác HMM + modification of initials and finals 5000 syllables 93% CDHMM Complete vocabulary 92,5% DDHMM 1254 syllables 90,1% Time Delayed Neural Network Complete vocabulary 85% Hierarchical Neural Network Complete vocabulary 90,14% Bảng 1.2: Các hệ thống nhận dạng tiếng Hán Với ngôn ngữ Thái Lan, hầu hết các nghiên cứu tập chung vào nhận dạng các từ rời rạc [Sornlertlamvanich]. Với các nghiên cứu hệ thống nhận dạng liên tục, hệ thống nhận dạng mười chữ số Thái liên tục đạt độ chính xác 96,89% với cơ sở dữ liệu thu âm trong nhà [Thubthong 2000a]. 1.4.2 Các nghiên cứu về nhận dạng tiếng nói tiếng Việt Hình 1.5 dưới đây miêu tả hệ thống nhận dạng ngôn ngữ có thanh điệu, trong đó có tiếng Việt: Nhận dạng các từ không dấu Nhận dạng thanh điệu Hình 1.5: Hệ thống nhận dạng ngôn ngữ có thanh điệu Nghiên cứu một số phương pháp trong nhận dạng tiếng nói 7 CHƢƠNG 2: CÁC KHÁI NIỆM VỀ NGỮ ÂM TIẾNG VIỆT 2.1 NGÔN NGỮ TIẾNG VIỆT 2.1.1 Đặc điểm âm tiết tiếng Việt Bậc 2 2.1.1.1 Tính độc lập cao 2.1.1.2 Có khả năng biểu hiện ý nghĩa 2.1.1.3 Có cấu trúc chặt chẽ Mỗi âm tiết tiếng Việt ở dạng đầy đủ có 5 phần như Hình 2.1: Thanh điệu Âm đầu Vần Âm đệm Âm chính Âm cuối Hình 2.1: Cấu trúc âm tiết của tiếng Việt Âm tiết tiếng Việt có cấu trúc gồm hai bậc: Âm tiết Thanh Âm đầu Âm đệm Bậc 1 Phần vần Âm Âm cuối Hình 2.2: Cấu trúc bậc hai của tiếng Việt 2.1.2 Âm vị tiếng Việt Âm vị là đơn vị đoạn tính nhỏ nhất có chức năng phân biệt nghĩa. Về mặt xã hội của ngữ âm, trong số các âm vị trong lời nói của ngôn ngữ, ta có thể tập hợp một số lượng có hạn những đơn vị mang những nét chung về cấu tạo âm thanh và về chức năng trong ngôn ngữ đó gọi là âm vị. 2.1.2.1 Thanh điệu Nghiên cứu một số phương pháp trong nhận dạng tiếng nói 8 (1) 5 (5) 4 (3) (4) (6) 3 2 (2) 1 Hình 2.3: Các thanh điệu tiếng Việt 1. Không dấu, 2. Huyền, 3. Ngã, 4. Hỏi, 5. Sắc, 6. Nặng Tiếng Việt có sáu thanh điệu. Nếu chia thang độ của giọng nói bình thường thành 5 bậc thì ta có thanh điệu tiếng Việt được miêu tả như trong Hình 2.3. 2.1.2.2 Âm đầu Tiếng Việt có 21 âm đầu, 6 thanh điệu, 2 âm đệm, 16 âm chính và 8 âm cuối. 2.1.2.3 Âm đệm Âm đệm có chức năng tu chỉnh âm sắc của âm tiết lúc khởi đầu, làm trầm hóa âm tiết và khu biệt âm tiết này với âm tiết khác.. 2.1.2.4 Âm chính Âm chính là nguyên âm và có mặt trong mọi âm tiết qui định âm sắc của âm tiết. Âm chính tiếng Việt có tất cả 14 âm gồm 11 nguyên âm đơn và 3 nguyên âm đôi. Âm chính âm tiết có thể chia thành 4 nhóm: 2.1.2.5 Âm cuối Các âm cuối tiếng Việt có đặc điểm giống nhau là không buông (bộ phận cấu âm tiến đến vị trí cấu âm rồi giữ nguyên vị trí đó chứ không về vị trí cũ). Do đó có sự khác biệt lớn giữa âm [t] trong phát âm hai từ “at” và “ta”. Trong khi phát âm từ “ta”, lối thoát của không khí được khai thông sau khi bị cản trở bằng một động tác mở ra tạo thành một tiếng động đặc thù. Trong khi phát âm từ “at”, bộ phận cấu âm ở nguyên vị trí cấu âm và không khí không được thoát ra ngoài. [Tho 1997]. 2.1.3 Sự phân bố của các âm vị tiếng Việt Nghiên cứu một số phương pháp trong nhận dạng tiếng nói 9 Các âm tiết tiếng Việt có cấu trúc chặt chẽ và các âm vị trong tiếng Việt kết hợp với nhau theo những quy luật. Sau đây là Bảng 2.1 Tổng kết sự phân bố giữa nguyên âm âm chính và các âm đệm và bán nguyên âm cuối [Tho 1997]. Âm phụ Âm Bán nguyên âm cuối chính u Ví dụ u i Ví dụ i + uy + - iu e + uê + - êu ɛ + oe + - eo ihe + uyên + - yêu u - ui - + ui o - ôi - + ôi ɔ - oi - + oi uho - uôi - + uôi ɯ - - + + ưu, ưi ɤ + quơ + -, ơi ɤ + uân + + âu, ay a + oa + + ao, ai ă + ăn + + au, ay ɯhɤ - - + + ưu, ươi Bảng 2.1: Phân bố giữa nguyên âm âm chính và các âm đệm và bản nguyên âm cuối. 2.2 BẢNG KÝ TỰ PHIÊN ÂM Mỗi cơ sở dữ liệu sử dụng một phương thức để phiên âm chính tả và phiên âm ở mức âm vị. Để phiên âm chính tả tiếng Việt các phát âm được ghi bằng tiếng quốc ngữ thông thường. Tuy nhiên do tiếng Việt các nhiều dấu và các ký tự đặc biệt không phải mã ASCII chuẩn, việc ghi theo các bộ mã tiếng Việt hiện đang sử dụng như TCVN3, Nghiên cứu một số phương pháp trong nhận dạng tiếng nói 10 VNI, … sẽ tạo ra các tệp văn bản có mã đặc biệt và khó dùng trong môi trường lập trình máy tính. Với phiên âm âm vị, các âm vị cũng được ghi âm giống như phương thức gõ Telex. Nếu có sự khác nhau giữa cách ghi chính tả của các âm vị, chúng sẽ được qui định theo một cách thống nhất. Các âm vị phiên âm IPA được biểu diễn dưới dạng các chữa cái ASCII. Bảng chi tiết ký hiệu âm vị tiếng Việt được trình bày chi tiết trong phần phụ lục. 2.3 GÁN NHÃN BẰNG TAY 2.3.1 Giới thiệu Nếu ghi âm chính tả chỉ dừng ở việc ghi lại nội dung của các phát âm theo một phương thức nào đó, không bao gồm các nhãn thời gian thì quá trình gán nhãn đòi hỏi mất nhiều thời gian hơn. Các phát âm được ghi lại dưới dạng một dãy các âm vị, mỗi âm vị được gắn với các nhãn thời gian biểu thị thời gian bắt đầu và kết thúc của âm vị đó. Gán nhãn âm vị đóng một vai trò quan trọng trong quá trình xây dựng cơ sở dữ liệu tiếng nói. Ví dụ sau đây là nội dung của một tệp phiên âm ở mức âm vị của một phát âm trong cơ sở dữ liệu TIMIT. 0 2250 h# 2250 2540 d 2540 4920 ow 4920 5320 nx 5320 7910 ae 7910 9170 s 9170 10320 kcl Trong mỗi tệp phiên âm, mỗi một dòng ghi một âm vị với hai nhãn thời gian ghi bằng đơn vị 100ns. Các nhãn thời gian này có thể được tạo bằng gán nhãn bằng tay hoặc gán nhãn cưỡng bức. Trong quá trình gán nhãn bằng tay, người gán nhãn (labeler Nghiên cứu một số phương pháp trong nhận dạng tiếng nói 11 hay transcriber) xác định ranh giới giữa các âm vị bằng cách đọc biểu đồ sóng và biểu đồ phổ của phát âm tương ứng. Gán nhãn tự động được thực hiện bởi hệ thống nhận dạng bằng quá trình gán nhãn cưỡng bức. 2.3.2 Các nguyên tắc chung về gán nhãn bằng tay Thông tin về âm học trên biểu đồ sóng được dùng để xác định nơi đặt các ranh giới. Đối với các âm có tần số cao, biên độ thấp thì việc đọc thông tin trên biểu đồ sóng tương đối khó khăn, khi đó biểu đồ phổ sẽ được sử dụng. Sự biến đổi trên biểu đồ sóng nói chung là đáng tin cậy hơn sự biến đổi trong biểu đồ phổ, đặc biệt là trong các trường hợp có sự chuyển dịch từ biên độ thấp sang biên độ cao. 2.3.3 Các âm tắc Khi phát âm một âm tắc, cơ quan phát âm sẽ khép lại và luồng không khí từ phổi đi ra sẽ bị cản trở hoàn toàn. Âm tắc được hình thành khi luồng hơi phát vỡ sự cản trở và bật ra thành một tiếng nổ (do vậy âm tắc cũng được gọi là âm nổ, plosive). 2.3.4 Âm đóng Ranh giới trái của âm đóng thường được xác định khi năng lượng của âm trước đã hết. Người nói thường tạo ra một lượng tạp âm nhỏ khi di chuyển các bộ phận phát âm của họ vào vị trí của âm đóng. Khi điều này xuất hiện, sẽ có một xung nhỏ trên biểu đồ sóng hoặc biểu đồ phổ. Ranh giới trái của âm đóng được xác định bằng điểm này. Hình 2.4. Biểu đồ sóng và biểu đồ phổ của hai từ “tám bốn” Nghiên cứu một số phương pháp trong nhận dạng tiếng nói 12 Hình 2.4 cho ta thấy hình ảnh âm tắc, âm đóng trên biểu đồ sóng và biểu đồ phổ. Âm tắc /t/ có hình ảnh phổ là một burst dựng đứng, đằng sau một khoảng trắng năng lượng là âm đóng /tc/. Âm tắc /b/ bao gồm các xung tuần hoàn biên độ thấp, mang F2, F3 mờ ảnh hưởng của nguyên âm hai bên. Không có âm đóng /bc/ đứng trước do sau khi phát âm phụ âm mũi /m/, cơ quan phát âm đã đóng hoàn toàn. Âm tắc /b/ chỉ bật một tiếng nhẹ, không đủ năng lượng để tạo thành burst. 2.3.5 Âm xát Đặc trưng của âm xát là tiếng cọ xát phát sinh do luồng không khí đi ra bị cản trở không hoàn toàn phải lách qua một khe hở nhỏ và trong khi thoát ra như vậy cọ xát vào thành của bộ máy phát âm. 2.3.6 Âm mũi Tiếng Việt có bốn âm mũi. Âm mũi phát sinh do luồng không khí từ phổi bị đóng hoàn toàn ở đằng miệng, đi ra ở đằng mũi và nhận được sự cổng hưởng của khoang mũi. Âm mũi được nhận biết trên biểu đồ sóng bởi các sóng đi lên hoặc đi xuống với tính tuần hoàn cao, biên độ thấp trên biểu đồ sóng. Trên biểu đồ phổ các âm mũi thường mang các formant cùng với các formant của các âm đứng xung quanh nhưng với màu nhạt về màu sắc và cường độ trong biểu đồ phổ. 2.3.7 Nguyên âm đơn, nguyên âm đôi và bán nguyên âm Tiếng Việt có mười ba nguyên âm đơn, ba nguyên âm đôi và hai bán nguyên âm cuối. Nguyên âm có đặc điểm chung là có các formant nằm ngang song song với các trục hoành (thường là F2, F3) trong tất cả khoảng thời gian tồn tại của nó. Khi hai nguyên âm đi liền nhau, hay một bán nguyên âm đi sau một nguyên âm, ranh giới giữa hai âm vị thường rất khó phân biệt. Ranh giới được xác định là sự thay đổi về hình dáng tuần hoàn của sóng trên biểu đồ sóng, và đó cũng trùng với ranh giới có sự thay đổi về formant trên biểu đồ phổ. Nghiên cứu một số phương pháp trong nhận dạng tiếng nói 13 Hình 2.5. Biểu đồ sóng và biểu đồ phổ của hai từ “hạt mưa” Nguyên âm đôi có các formant không bằng phẳng và chúng đi lên hoặc đi xuống trong suốt thời gian tồn tại của nguyên âm đôi. Formant sẽ di chuyển từ độ cao các formant của nguyên âm trước đến nguyên âm sau. Trên Hình 2.5 nguyên âm đôi /wa/ có các formant F2 đi lên và F3 đi xuống từ âm /w/ sang nguyên âm /a/. Với trường hợp của nguyên âm đơn /a/ ta thấy các F1, F2, F3 đều là các đường nằm ngang song song với trục hoành. Trên biểu đồ sóng âm vị /a/ có biến đổi lớn hơn âm xát /h/ đứng trước. 2.3.8 Phụ âm cuối Tiếng Việt có ba phụ âm cuối là các phụ âm tắc và ba phụ âm cuối là phụ âm mũi. Trong trường hợp phụ âm cuối là các âm tắc, khi phát âm cơ quan cấu âm di chuyển vào vị trí phát âm của phụ âm cuối tương ứng, bộ máy phát âm đóng hoàn toàn. Nhưng trên thực tế phát âm không có giai đoạn buông, do đó phụ âm cuối không bao giờ thực sự được phát ra. Trên Hình 2.5, kết thúc từ “hạt” là khoảng trắng năng lượng và đây là âm tắc /tc/. Vai trò của âm đóng được nhận thấy bằng sự biến đổi âm sắc của âm vị /a/ đứng trước, đoạn cuối formant F2, F3 của âm vị /a/ bị thay đổi và không còn hoàn toàn song song với trục hoành nữa. Đối với phụ âm cuối mũi, hình ảnh trên biểu đồ sóng và biểu đồ phổ tương tự như trong trường hợp các phụ âm mũi đứng ở đầu câu. Các phụ âm cuối âm mũi thường mang formant F2, F3 của nguyên âm đứng trước nó nhưng với độ sáng kém hơn. Nghiên cứu một số phương pháp trong nhận dạng tiếng nói 14 Trên hình 2 chúng ta thấy hình ảnh của phụ âm cuối /tc/ trong từ “hạt”, trong đó âm vị /tc/ xuất hiện như một khoảng trắng năng lượng giữa nguyên âm /a/ đứng trước và phụ âm mũi /m/ đứng sau. Hình ảnh của phụ âm cuối mũi /ng/ được quan sát trong Hình 2.6, trong đó hình ảnh âm vị /ng/ là một vệt sáng đậm ở tần số thấp sau nguyên âm /oo/. Biên độ của âm vị /ng/ giảm dần cho đến khi trùng với sóng của môi trường. 2.3.9 Âm tắc thanh hầu Âm tắc thanh hầu (glottal stop) được liệt kê trong một số sách giáo khoa tiếng Việt như một phụ âm đầu. Trong một số âm tiết có hiện tượng khép khe thanh lúc mở đầu. Tiếng bật do động tác mở khe thanh đột ngột được nghe rõ hoặc không rõ ở từng người, trong từng lúc, phụ thuộc vào phong cách và bối cảnh ngữ âm. Hình 2.6. Biểu đồ sóng và biểu đồ phổ của hai từ “ai sống” Trên Hình 2.6, ta thấy hình ảnh âm tắc thanh hầu /gs/ mở đầu bằng một xung nhỏ trên biểu đồ sóng, đây là tạp âm do bộ phận cấu âm phát ra khi khe thanh khép lại. Hình ảnh phổ của âm tắc thanh hầu là một khoảng trắng năng lượng giống như trường hợp của âm đóng. 2.3.10 Âm đệm Tiếng Việt chỉ có một âm đệm duy nhất: /u/. Tính chất của nó gần giống với nguyên âm /u/ tương ứng. Nghiên cứu một số phương pháp trong nhận dạng tiếng nói 15 Hình 2.7. Biểu đồ sóng và biểu đồ phổ của hai từ “toán tán” Âm đệm không xuất hiện trước các nguyên âm tròn môi, nó cũng chỉ xuất hiện trước các nguyên âm hàng trước. Độ mở của âm đệm phụ thuộc vào độ mở của các nguyên âm đi sau. Trên biểu đồ phổ, âm đệm thường có hình ảnh là các formant gắn liền với các formant của nguyên âm đứng sau nhưng không bằng phẳng. Hình 2.7 cho ta thấy hình ảnh phổ của hai từ “toán” và “tán”. Âm đệm /w/ có hình ảnh là các F2, F3 uốn thấp đằng trước các F2, F3 bằng phẳng của nguyên âm /a/. Trong khi đó với từ “tán” ta thấy các F2, F3 của nguyên âm /a/ không bị thay đổi hình dáng và là các vệt song song với trục hoành. 2.4 GÁN NHÃN TỰ ĐỘNG 2.4.1 Giới thiệu Phương pháp gán nhãn tự động trên dựa vào bộ công cụ CSLU, dùng mạng ANN, do đó quá trình huấn luyện hệ thống nhận dạng bắt buộc phải cần có sẵn các phiên âm âm vị của các phát âm. Do đó phương pháp trên vẫn phải cần một giai đoạn gán nhãn thủ công một phần cơ sở dữ liệu. Sau đây là phương pháp gán nhãn tự động cơ sở dữ liệu mà không cần tệp phiên âm âm vị. Tất cả quá trình đều được thực hiện tự động. Phương pháp này dùng bộ công cụ HTK. Nghiên cứu một số phương pháp trong nhận dạng tiếng nói 16 2.4.2 Gán nhãn tự động cơ sở dữ liệu Phương pháp gán nhãn tự động cơ sở dữ liệu bao gồm các bước sau: Bước 1: Xây dựng hệ thống nhận dạng dựa trên cơ sở dữ liệu với tập dữ liệu huấn luyện là toàn bộ các phát âm. Bước 2: Dùng hệ thống nhận dạng được xây dựng ở bước trước để gán nhãn cưỡng bức toàn bộ cơ sở dữ liệu. 2.4.3 Kết quả thử nghiệm Để tiến hành đánh giá phương pháp nhãn này, một thử nghiệm đã được tiến hành để gán nhãn một cơ sở dữ liệu. Cơ sở dữ liệu được dùng bao gồm: 442 câu, 2340 từ, được trích ra từ hai cơ sở dữ liệu tiếng nói điện thoại “22 Language v1.2”, và “Multi-Language Telephone Speech v1.2” của trung tâm CSLU (Center for Speech Language Understanding), Viện Sau Đại Học Oregon, Hoa Kỳ. Các câu trong cơ sở dữ liệu tiếng nói được thu âm theo hình thức phỏng vấn qua điện thoại từ 213 người nói (135 nam, 78 nữ). Bảng 2.2 dưới đây cho ta kết quả so sánh giữa các nhãn thời gian được tạo bằng tay và các nhãn thời gian tạo bằng máy. Các nhãn thời gian tạo bằng tay có độ chính xác với đơn vị là 1ms, ngược lại do kích thước khung tín hiệu trong hệ thống nhận dạng là 10ms, nên đơn vị nhãn thời gian tạo bằng máy là 10ms. Bảng 2.2 miêu tả tỷ lệ trùng khớp (agreement) ranh giới của các âm vị. Đơn vị đo được tính là % các ranh giới trùng khớp nhau trong khoảng cho phép là 5ms, 10ms, 15ms và 20ms. Bảng 2.2. Tỷ lệ trùng khớp các âm vị với giới hạn cho phép là 5ms, 10ms, 15ms, 20ms <5ms <10ms <15ms <20ms 55.85 65.35 72.73 77.81 Nghiên cứu một số phương pháp trong nhận dạng tiếng nói 17 Bảng 2.3 miêu tả tỷ lệ lỗi các loại âm vị được gán nhãn tự động so với âm vị gán nhãn bằng tay với các giới hạn cho phép khác nhau. Từ bảng ta thấy, âm vị có tỷ lệ lỗi cao là âm đóng, sau đó theo thứ tự thấp dần là: âm xát, âm mũi, nguyên âm và âm tắc. Bảng 2.3. Tỷ lệ lỗi các loại âm vị với giới hạn khác nhau Loại âm vị <5ms <10ms <15ms <20ms Âm tắc 46.82 15.49 9.35 3.61 Âm mũi 57.69 33.93 22.51 11.59 Âm xát 63.83 37.52 28.95 21.51 Nguyên âm 55.75 24.43 15.62 6.62 Âm đóng 65.36 40.72 33.57 25.61 Kết quả trên cho thấy một độ chính xác còn thấp của gán nhãn tự động so với gán nhãn bằng tay. 2.4.4 Nâng cao độ chính xác gán nhãn tự động Hệ thống nhận dạng dùng để gán nhãn cưỡng bức ở trên mới chỉ sử dụng một hàm mật độ xác suất Gaussian duy nhất. Trong khi đó cơ sở dữ liệu được gán nhãn có độ đa dạng cao, do nhiều người nói, trong môi trường khác nhau. Một hàm Gaussian không đủ khả năng để mô hình hóa sự đa dạng của giọng nói trong cơ sở dữ liệu. Để nâng cao hiệu quả của gán nhãn tự động hệ thống nhận dạng được cải tiến bằng cách dùng hàm phát xa quan sát gồm nhiều thành phần trộn là hàm Gaussian. Việc tăng số lượng hàm Gaussian được tiến hành bằng công cụ Hhed của HTK. Hhed sẽ sao chép từ hàm Gaussian ở bước trên tạo thành hàm gồm có hai hàm Gaussian, sau đó các âm đơn được huấn luyện lại bằng Herest trên hàm hai thành phần này. Sau đó Hhed lại sao chép các hàm Gaussiab này và tạo thành hàm trộn gồm 4 hàm Gaussian, cứ tiếp tục lặp lại như vậy cho đến khi số lượng hàm trộn đạt tới con số mong muốn. Nghiên cứu một số phương pháp trong nhận dạng tiếng nói 18 Hệ thống nhận dạng dùng để gán nhãn tự động đã được cải tiến từ hệ thống ở trên, hệ thống này dùng hàm trộn với 8 hàm Gaussian. Kết quả gán nhãn tự động của hệ thống này như sau: Bảng 2.4. Tỷ lệ trùng khớp các âm vị với giới hạn cho phép là 5ms, 10ms, 15ms, 20ms <5ms <10ms <15ms <20ms 55.85 78.35 85.02 89.36 Bảng 2.5. Tỷ lệ lỗi các loại âm vị với giới hạn khác nhau Loại âm vị <5ms <10ms <15ms <20ms Âm tắc 35.23 7.15 5.96 2.14 Âm mũi 48.57 24.33 13.22 7.11 Âm xát 53.63 29.37 19.28 12.21 Nguyên âm 45.55 15.24 8.15 4.63 Âm đóng 54.65 31.40 23.33 16.25 Hai Bảng 2.4 và Bảng 2.5 cho ta thấy một cải thiện đáng kể độ chính xác của gán nhãn tự động. Sự khác nhau giữa các nhãn thời gian tạo bằng tay và tạo tự động là xấp xỉ so với sự khác nhau giữa những người gán nhãn khác nhau. Tỷ lệ sai khác này là chấp nhận được. 2.4.5 Kết luận Để khẳng định kết quả đạt được của gán nhãn tự động, hai hệ thống nhận dạng đã được xây dựng để đánh giá ảnh hưởng của các nhãn thời gian tạo bằng tay và nhãn thời gian tạo bằng máy tới độ chính xác nhận dạng của hệ thống nhận dạng. Hai tín hiệu được huấn luyện bằng tập dữ liệu huấn luyện gồm 318 câu và được kiểm tra trên tập dữ liệu gồm 124 câu. Kết quả nhận dạng của hai hệ thống là như sau: Nghiên cứu một số phương pháp trong nhận dạng tiếng nói 19 Bảng 2.6. Kết quả nhận dạng của hai hệ thống nhận dạng dùng các nhãn thời gian khác nhau Hệ thống nhận dạng Độ chính xác mức từ Độ chính xác mức câu 96.34 80.34 95.97 80.04 Hệ thống nhận dạng dùng các nhãn tạo bằng tay Hệ thống nhận dạng dùng các nhãn tạo tự động Kết quả nhận dạng cho thấy hệ thống nhận dạng dùng các nhãn thời gian tạo bằng tay có độ chính xác cao hơn so với hệ thống nhận dạng dùng các nhãn thời gian tạo bằng máy. Tuy nhiên sự sai khác này là không nhiều. Điều này cũng cho thấy một độ tin cậy nhất định đối với các nhãn thời gian được sinh tự động. CHƢƠNG 3: MÔ HÌNH MARKOV ẨN 3.1 QUÁ TRÌNH MARKOV Nếu không gian trạng thái S của hệ là đếm được thì ta gọi hệ là xích Markov. Nếu thời gian t là rời rạc t=0,1,2,… thì ta có xích Markov rời rạc. Ta có thể biểu diễn tính Markov của hệ bằng biểu thức sau: P(qt = Sj | qt-1 = Si, qt-2 = Sk,…) = P(qt = Sj | qt-1 = Si) Đặt P(s,i,t,j) = P(qt = Sj | qs = Si) là xác suất để hệ tại thời điểm s ở trạng thái i, đến thời điểm t chuyển sang trạng thái j. Ta gọi P(s,i,t,j) là xác suất chuyển của hệ. Nếu xác suất chuyển chỉ phụ thuộc vào (t-s) tức là P(s,i,t,j) = P(s+h,i,t+h,j) Nghiên cứu một số phương pháp trong nhận dạng tiếng nói 20 thì ta nói hệ là thuần nhất theo thời gian. Bắt đầu từ đây ta chỉ xét xích Markov rời rạc và thuần nhất. a22 S2 a23 a12 a11 S3 a31 S1 a33 a14 a15 a53 a54 S5 a43 S4 a44 a55 Hình 3.1. Xích Markov với năm trạng thái S1, S2, …, S5 và các xác suất chuyển trạng thái Hình 3.1 cho ta thấy một ví dụ về một mô hình xích Markov rời rạc và thuần nhất, trong đó hệ có thể ở một trong năm trạng thái S1, S2, …, SN (trong ví dụ trên N=5). Tại mỗi thời điểm t=0,1,2,… hệ chuyển trạng thái theo xác suất chuyển trạng thái aij tương ứng với mỗi trạng thái. aij = P(qt+1 = Sj | qt = Sj)  N j 1 a ij 1; i 1, N aij  0; i ; j 1, N Ngoài ra ta định nghĩa xác suất trạng thái khởi đầu (initial state distribution) π = {π1, π2, …, πN}, trong đó πi là xác suất để trạng thái i được chọn tại thời điểm khởi đầu t =1: πi=P(q1=Si)  N i 1  i 1  i  0;i 1, N Nghiên cứu một số phương pháp trong nhận dạng tiếng nói

- Xem thêm -

Tài liệu Nguyên tắc của hệ thống nhận dạng tiếng nói

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất