1
CHƢƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI
1.1 GIỚI THIỆU
Nhận dạng tiếng nói là một quá trình nhận dạng mẫu, với mục đích là phân lớp
(classify) thông tin đầu vào là tín hiệu tiếng nói thành một dãy tuần tự các mẫu đã được
học trước đó và lưu trữ trong bộ nhớ. Các mẫu là các đơn vị nhận dạng, chúng có thể là
các từ, hoặc các âm vị. Nếu các mẫu này là bất biến và không thay đổi thì công việc
nhận dạng tiếng nói trở nên đơn giản bằng cách so sánh dữ liệu tiếng nói cần nhận
dạng với các mẫu đã được học và lưu trữ trong bộ nhớ.
Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản:
- Tín hiệu tiếng nói được biểu diễn chính xác bởi các giá trị phổ trong một
khung thời gian ngắn (short-term amplitude spectrum). Nhờ vậy ta có thể trích ra các
đặc điểm tiếng nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ
liệu để nhận dạng tiếng nói.
- Nội dung của tiếng nói được biểu diễn dưới dạng chữ viết, là một dãy các ký
hiệu ngữ âm. Do đó ý nghĩa của một phát âm được bảo toàn khi chúng ta phiên âm,
phát âm thành dãy các ký hiệu ngữ âm.
- Nhận dạng tiếng nói là một quá trình nhận thức. Ngôn ngữ nói là có ý nghĩa,
do đó thông tin về ngữ nghĩa (semantics) và suy đoán (pragmatics) có giá trị trong quá
trình nhận dạng tiếng nói nhất là khi thông tin về âm học là không rõ ràng.
1.2 NGUYÊN TẮC CỦA HỆ THỐNG NHẬN DẠNG TIẾNG NÓI
Các hệ thống nhận dạng tiếng nói có thể được phân chia thành hai loại khác
nhau: hệ thống nhận dạng từ rời rạc và hệ thống nhận dạng từ liên tục. Trong hệ thống
nhận dạng tiếng nói liên tục, người ta lại phân biệt hệ thống nhận dạng có kích thước từ
điển nhỏ và hệ thống nhận dạng với kích thước từ điển trung bình hoặc lớn [Rabiner
1993]. Hình 1.1 cho ta các lớp hệ thống nhận dạng tiếng nói khác nhau.
Nghiên cứu một số phương pháp trong nhận dạng tiếng nói
2
Hệ thống nhận dạng
Hệ thống nhận dạng
từ rời rạc
Hệ thống nhận dạng
từ liên tục
Hệ thống với kích
thước bộ từ điển nhỏ
Hệ thống với kích
thước bộ từ điển
trung bình và lớn
Hình 1.1: Các hệ thống nhận dạng tiếng nói
Phát âm là một dãy các từ W = w1, w2, …, wn, và nhiệm vụ của hệ thống nhận
dạng là tìm ra được dãy có từ Ŵ có xác suất cao nhất với dãy các vector đặc tính phổ Y
cho trước.
Theo luật xác suất Bayes ta có:
Ŵ arg max P(W Y ) arg max
P(W ) P(Y W )
P(Y )
Do xác suất P(Y) là độc lập với W, do đó ta thấy để tìm được dãy từ có xác suất
cao nhất Ŵ phải tìm dãy từ sao cho hai xác suất P(W) và P(Y|W) cao nhất. Xác suất
P(W) độc lập với tín hiệu tiếng nói và xác suất này xác định bởi mô hình ngôn ngữ
(language model). Xác suất P(Y|W) được xác định bởi mô hình âm học (acoustic
model). Hình 1.2 cho thấy mối quan hệ giữa các xác suất này. Trong đó với một phát
âm là dãy từ “giọng nói”, mô hình ngôn ngữ sẽ cho ta xác suất P(W). Bằng từ điển
phiên âm ta biến đổi chúng thành dãy các âm vị tương ứng. Dãy các âm vị này cho ta
xây dựng một mô hình Markov ẩn lớn bằng cách nối ghép các mô hình Markov ẩn của
các âm vị tương ứng. Phát âm được trích trọn các đặc điểm đưa vào mô hình Markov
ẩn lớn này sẽ cho ta xác suất P(Y|W).
Nghiên cứu một số phương pháp trong nhận dạng tiếng nói
3
Hình 1.2: Khái quát về hệ thống nhận dạng
Hình 1.3 sau đây cho ta thấy các bước cơ bản của một hệ thống nhận dạng tiếng
nói, gồm có ba giai đoạn: phân tích đặc tính, phân lớp mẫu và xử lý ngôn ngữ.
Dãy các đặc
Dãy các từ
tính phổ
Hoặc âm vị
Tín hiệu
tiếng nói
Từ, câu được
Phân tích đặc
tính (feature
analysis)
Phân lớp mẫu
(pattem
classification)
Xử lý ngôn
ngữ (language
processing)
Các từ, âm vị
Các từ, câu
Mô hình âm học
Mô hình ngôn ngữ
(acoustic model)
(language model)
Hình 1.3: Các quá trình nhận dạng
Nghiên cứu một số phương pháp trong nhận dạng tiếng nói
nhận dạng
4
1.2.1 Phân tích các đặc tính tiếng nói
Phân tích các đặc tính trích ra các thông tin cần thiết cho quá trình nhận dạng
tiếng nói từ tín hiệu tiếng nói.
1.2.2 Phân lớp mẫu
Bước thứ hai trong hệ thống nhận dạng tiếng nói đó là phân lớp mẫu, trong đó
hệ thống sẽ gán dãy các vector đặc tính thành dãy tối ưu các đơn vị tiếng nói cơ bản (từ
hoặc âm vị). Có bốn phương pháp hay được áp dụng đó là: đối sánh mẫu (template
matcher), rule-based, mạng neuron và mô hình Markov ẩn.
1.2.3 Mô hình ngôn ngữ
Mục đích của mô hình ngôn ngữ là tìm ra xác suất của từ wk trong phát âm theo
sau các từ W1k-1 = w1, w2, … wk-1. Một phương pháp đơn giản hay được áp dụng đó là
dùng N-gram, với giả thiết rằng từ wk chỉ phụ thuộc vào n-1 các từ đứng trước nó tức
là
P(wk|W1k-1)=P(wk|W kk 1n 1 )
Về mặt nguyên tắc các xác suất của mô hình ngôn ngữ có thể được tính toán
trực tiếp từ số lần xuất hiện của các từ trong cơ sở dữ liệu:
t ( wk 2, wk 1 , wk )
Pˆ ( wk 1 , wk 2 )
b( wk 2 , wk 1 )
Trong đó hàm t(a,b,c) là số lần xuất hiện của bộ ba từ a,b,c (trigram). b(a,b) là
số lần xuất hiện của bộ đôi (bigram) a,b.
1.3 CÁC ỨNG DỤNG CỦA NHẬN DẠNG TIẾNG NÓI
1.3.1 Nhận dạng tiếng nói và viễn thông
1.3.2 Hệ thống đọc chính tả bằng giọng nói
1.3.3 Nhận dạng tiếng nói trong các sản phẩm tiêu dùng
1.4 NGHIÊN CỨU HIỆN THỜI VỀ NHẬN DẠNG TIẾNG NÓI
Nghiên cứu một số phương pháp trong nhận dạng tiếng nói
5
Sau đây là các đặc điểm chính của hệ thống nhận dạng tiếng nói liên quan đến
độ chính xác nhận dạng:
- Sự phụ thuộc vào người nói; Kích thước của bộ từ điển; Tốc độ nói, hiện tượng đồng
phát âm; Sự biến đổi trong lời nói; Điều kiện môi trường; Các phát âm tự nhiên và các
phát âm liên tục; Các giới hạn về ngôn ngữ.
1.4.1 Các nghiên cứu về nhận dạng tiếng nói ngôn ngữ nƣớc ngoài
Một số các phần mềm nhận dạng tiếng nói đã có mặt trên thị trường: IBM,
Gragon Systems, L&H. Về ứng dụng nhận dạng tiếng nói trong viễn thông, Nuance và
Speech Works. Các trung tâm nghiên cứu đang nghiên cứu về nhận dạng tiếng nói,
chẳng hạn như Bell Labs, IBM Research Center, Microsoft Research, CSLU, …
Đối thoại tự
nhiên
Giọng nói tự
nhiên
Tìm từ
Ghi chép
Hệ thống đối
thoại hạn chế
Giọng nói liên
tục
người nói đọc
Điền mẫu biểu
bằng giọng nói
Tiếng nói liên
tục
Các từ rời rạc
Đọc chính tả
trong văn phòng
Quay số bằng
giọng nói
Giọng nói do
Ra lệnh bằng
giọng nói
20
Tra cứu
danh bạ
200
2000
20000
Hình 1.4: Các bài toán nhận dạng khác nhau theo kích thước bộ từ điển và kiểu nói
Bảng 1.1 so sánh tỷ lệ lỗi nhận dạng của các hệ thống nhận dạng tiếng Anh so
với khả năng nhận dạng của con người theo đánh giá của [Barbara 2001].
Nghiên cứu một số phương pháp trong nhận dạng tiếng nói
6
Hệ thống nhận dạng
Kích thước từ vựng
Máy tính
Con người
Liên tục
10
0,72%
0,009%
Các chữ cái
26
5%
1%
Giọng nói tự nhiên
2000
36,7%
3,8%
Giọng nói chất lượng tốt của WSJ
5000
4,5%
0,9%
Giọng nói có nhiều nhiễu WSJ
20000
8,6%
1,1%
Bảng 1.1: So sánh tỷ lệ lỗi nhận dạng của máy tính và con người
với một số hệ thống nhận dạng
Ngoài ngôn ngữ Châu Âu, các nghiên cứu về nhận dạng tiếng nói đối với các
ngôn ngữ đơn âm và có thanh điệu giống tiếng Việt như tiếng Trung Quốc (bao gồm
tiếng Bắc Kinh và tiếng Quảng Đông), tiếng Thái Lan cũng đã được nghiên cứu.
Phương pháp
Kích thước bộ từ điển
Độ chính xác
HMM + modification of initials and finals
5000 syllables
93%
CDHMM
Complete vocabulary
92,5%
DDHMM
1254 syllables
90,1%
Time Delayed Neural Network
Complete vocabulary
85%
Hierarchical Neural Network
Complete vocabulary
90,14%
Bảng 1.2: Các hệ thống nhận dạng tiếng Hán
Với ngôn ngữ Thái Lan, hầu hết các nghiên cứu tập chung vào nhận dạng các từ
rời rạc [Sornlertlamvanich]. Với các nghiên cứu hệ thống nhận dạng liên tục, hệ thống
nhận dạng mười chữ số Thái liên tục đạt độ chính xác 96,89% với cơ sở dữ liệu thu âm
trong nhà [Thubthong 2000a].
1.4.2 Các nghiên cứu về nhận dạng tiếng nói tiếng Việt
Hình 1.5 dưới đây miêu tả hệ thống nhận dạng ngôn ngữ có thanh điệu, trong đó
có tiếng Việt:
Nhận dạng các từ
không dấu
Nhận dạng thanh điệu
Hình 1.5: Hệ thống nhận dạng ngôn ngữ có thanh điệu
Nghiên cứu một số phương pháp trong nhận dạng tiếng nói
7
CHƢƠNG 2: CÁC KHÁI NIỆM VỀ NGỮ ÂM TIẾNG VIỆT
2.1 NGÔN NGỮ TIẾNG VIỆT
2.1.1 Đặc điểm âm tiết tiếng Việt
Bậc 2
2.1.1.1 Tính độc lập cao
2.1.1.2 Có khả năng biểu hiện ý nghĩa
2.1.1.3 Có cấu trúc chặt chẽ
Mỗi âm tiết tiếng Việt ở dạng đầy đủ có 5 phần như Hình 2.1:
Thanh điệu
Âm đầu
Vần
Âm đệm
Âm chính
Âm cuối
Hình 2.1: Cấu trúc âm tiết của tiếng Việt
Âm tiết tiếng Việt có cấu trúc gồm hai bậc:
Âm tiết
Thanh
Âm đầu
Âm đệm
Bậc 1
Phần vần
Âm
Âm cuối
Hình 2.2: Cấu trúc bậc hai của tiếng Việt
2.1.2 Âm vị tiếng Việt
Âm vị là đơn vị đoạn tính nhỏ nhất có chức năng phân biệt nghĩa. Về mặt xã hội
của ngữ âm, trong số các âm vị trong lời nói của ngôn ngữ, ta có thể tập hợp một số
lượng có hạn những đơn vị mang những nét chung về cấu tạo âm thanh và về chức
năng trong ngôn ngữ đó gọi là âm vị.
2.1.2.1 Thanh điệu
Nghiên cứu một số phương pháp trong nhận dạng tiếng nói
8
(1)
5
(5)
4
(3)
(4)
(6)
3
2
(2)
1
Hình 2.3: Các thanh điệu tiếng Việt 1. Không dấu,
2. Huyền, 3. Ngã, 4. Hỏi, 5. Sắc, 6. Nặng
Tiếng Việt có sáu thanh điệu. Nếu chia thang độ của giọng nói bình thường
thành 5 bậc thì ta có thanh điệu tiếng Việt được miêu tả như trong Hình 2.3.
2.1.2.2 Âm đầu
Tiếng Việt có 21 âm đầu, 6 thanh điệu, 2 âm đệm, 16 âm chính và 8 âm cuối.
2.1.2.3 Âm đệm
Âm đệm có chức năng tu chỉnh âm sắc của âm tiết lúc khởi đầu, làm trầm hóa
âm tiết và khu biệt âm tiết này với âm tiết khác..
2.1.2.4 Âm chính
Âm chính là nguyên âm và có mặt trong mọi âm tiết qui định âm sắc của âm
tiết. Âm chính tiếng Việt có tất cả 14 âm gồm 11 nguyên âm đơn và 3 nguyên âm đôi.
Âm chính âm tiết có thể chia thành 4 nhóm:
2.1.2.5 Âm cuối
Các âm cuối tiếng Việt có đặc điểm giống nhau là không buông (bộ phận cấu
âm tiến đến vị trí cấu âm rồi giữ nguyên vị trí đó chứ không về vị trí cũ). Do đó có sự
khác biệt lớn giữa âm [t] trong phát âm hai từ “at” và “ta”. Trong khi phát âm từ “ta”,
lối thoát của không khí được khai thông sau khi bị cản trở bằng một động tác mở ra tạo
thành một tiếng động đặc thù. Trong khi phát âm từ “at”, bộ phận cấu âm ở nguyên vị
trí cấu âm và không khí không được thoát ra ngoài. [Tho 1997].
2.1.3 Sự phân bố của các âm vị tiếng Việt
Nghiên cứu một số phương pháp trong nhận dạng tiếng nói
9
Các âm tiết tiếng Việt có cấu trúc chặt chẽ và các âm vị trong tiếng Việt kết hợp
với nhau theo những quy luật. Sau đây là Bảng 2.1 Tổng kết sự phân bố giữa nguyên
âm âm chính và các âm đệm và bán nguyên âm cuối [Tho 1997].
Âm phụ
Âm
Bán nguyên âm cuối
chính
u
Ví dụ
u
i
Ví dụ
i
+
uy
+
-
iu
e
+
uê
+
-
êu
ɛ
+
oe
+
-
eo
ihe
+
uyên
+
-
yêu
u
-
ui
-
+
ui
o
-
ôi
-
+
ôi
ɔ
-
oi
-
+
oi
uho
-
uôi
-
+
uôi
ɯ
-
-
+
+
ưu, ưi
ɤ
+
quơ
+
-, ơi
ɤ
+
uân
+
+
âu, ay
a
+
oa
+
+
ao, ai
ă
+
ăn
+
+
au, ay
ɯhɤ
-
-
+
+
ưu, ươi
Bảng 2.1: Phân bố giữa nguyên âm âm chính và các âm đệm và bản nguyên âm cuối.
2.2 BẢNG KÝ TỰ PHIÊN ÂM
Mỗi cơ sở dữ liệu sử dụng một phương thức để phiên âm chính tả và phiên âm ở
mức âm vị. Để phiên âm chính tả tiếng Việt các phát âm được ghi bằng tiếng quốc ngữ
thông thường. Tuy nhiên do tiếng Việt các nhiều dấu và các ký tự đặc biệt không phải
mã ASCII chuẩn, việc ghi theo các bộ mã tiếng Việt hiện đang sử dụng như TCVN3,
Nghiên cứu một số phương pháp trong nhận dạng tiếng nói
10
VNI, … sẽ tạo ra các tệp văn bản có mã đặc biệt và khó dùng trong môi trường lập
trình máy tính.
Với phiên âm âm vị, các âm vị cũng được ghi âm giống như phương thức gõ
Telex. Nếu có sự khác nhau giữa cách ghi chính tả của các âm vị, chúng sẽ được qui
định theo một cách thống nhất. Các âm vị phiên âm IPA được biểu diễn dưới dạng các
chữa cái ASCII. Bảng chi tiết ký hiệu âm vị tiếng Việt được trình bày chi tiết trong
phần phụ lục.
2.3 GÁN NHÃN BẰNG TAY
2.3.1 Giới thiệu
Nếu ghi âm chính tả chỉ dừng ở việc ghi lại nội dung của các phát âm theo một
phương thức nào đó, không bao gồm các nhãn thời gian thì quá trình gán nhãn đòi hỏi
mất nhiều thời gian hơn. Các phát âm được ghi lại dưới dạng một dãy các âm vị,
mỗi âm vị được gắn với các nhãn thời gian biểu thị thời gian bắt đầu và kết thúc của
âm vị đó.
Gán nhãn âm vị đóng một vai trò quan trọng trong quá trình xây dựng cơ sở dữ
liệu tiếng nói. Ví dụ sau đây là nội dung của một tệp phiên âm ở mức âm vị của một
phát âm trong cơ sở dữ liệu TIMIT.
0 2250 h#
2250 2540 d
2540 4920 ow
4920 5320 nx
5320 7910 ae
7910 9170 s
9170 10320 kcl
Trong mỗi tệp phiên âm, mỗi một dòng ghi một âm vị với hai nhãn thời gian ghi
bằng đơn vị 100ns. Các nhãn thời gian này có thể được tạo bằng gán nhãn bằng tay
hoặc gán nhãn cưỡng bức. Trong quá trình gán nhãn bằng tay, người gán nhãn (labeler
Nghiên cứu một số phương pháp trong nhận dạng tiếng nói
11
hay transcriber) xác định ranh giới giữa các âm vị bằng cách đọc biểu đồ sóng và biểu
đồ phổ của phát âm tương ứng. Gán nhãn tự động được thực hiện bởi hệ thống nhận
dạng bằng quá trình gán nhãn cưỡng bức.
2.3.2 Các nguyên tắc chung về gán nhãn bằng tay
Thông tin về âm học trên biểu đồ sóng được dùng để xác định nơi đặt các ranh
giới. Đối với các âm có tần số cao, biên độ thấp thì việc đọc thông tin trên biểu đồ sóng
tương đối khó khăn, khi đó biểu đồ phổ sẽ được sử dụng. Sự biến đổi trên biểu đồ sóng
nói chung là đáng tin cậy hơn sự biến đổi trong biểu đồ phổ, đặc biệt là trong các
trường hợp có sự chuyển dịch từ biên độ thấp sang biên độ cao.
2.3.3 Các âm tắc
Khi phát âm một âm tắc, cơ quan phát âm sẽ khép lại và luồng không khí từ
phổi đi ra sẽ bị cản trở hoàn toàn. Âm tắc được hình thành khi luồng hơi phát vỡ sự cản
trở và bật ra thành một tiếng nổ (do vậy âm tắc cũng được gọi là âm nổ, plosive).
2.3.4 Âm đóng
Ranh giới trái của âm đóng thường được xác định khi năng lượng của âm trước
đã hết. Người nói thường tạo ra một lượng tạp âm nhỏ khi di chuyển các bộ phận phát
âm của họ vào vị trí của âm đóng. Khi điều này xuất hiện, sẽ có một xung nhỏ trên biểu
đồ sóng hoặc biểu đồ phổ. Ranh giới trái của âm đóng được xác định bằng điểm này.
Hình 2.4. Biểu đồ sóng và biểu đồ phổ của hai từ “tám bốn”
Nghiên cứu một số phương pháp trong nhận dạng tiếng nói
12
Hình 2.4 cho ta thấy hình ảnh âm tắc, âm đóng trên biểu đồ sóng và biểu đồ phổ.
Âm tắc /t/ có hình ảnh phổ là một burst dựng đứng, đằng sau một khoảng trắng năng
lượng là âm đóng /tc/. Âm tắc /b/ bao gồm các xung tuần hoàn biên độ thấp, mang F2,
F3 mờ ảnh hưởng của nguyên âm hai bên. Không có âm đóng /bc/ đứng trước do sau
khi phát âm phụ âm mũi /m/, cơ quan phát âm đã đóng hoàn toàn. Âm tắc /b/ chỉ bật
một tiếng nhẹ, không đủ năng lượng để tạo thành burst.
2.3.5 Âm xát
Đặc trưng của âm xát là tiếng cọ xát phát sinh do luồng không khí đi ra bị cản
trở không hoàn toàn phải lách qua một khe hở nhỏ và trong khi thoát ra như vậy cọ xát
vào thành của bộ máy phát âm.
2.3.6 Âm mũi
Tiếng Việt có bốn âm mũi. Âm mũi phát sinh do luồng không khí từ phổi bị
đóng hoàn toàn ở đằng miệng, đi ra ở đằng mũi và nhận được sự cổng hưởng của
khoang mũi. Âm mũi được nhận biết trên biểu đồ sóng bởi các sóng đi lên hoặc đi
xuống với tính tuần hoàn cao, biên độ thấp trên biểu đồ sóng. Trên biểu đồ phổ các âm
mũi thường mang các formant cùng với các formant của các âm đứng xung quanh
nhưng với màu nhạt về màu sắc và cường độ trong biểu đồ phổ.
2.3.7 Nguyên âm đơn, nguyên âm đôi và bán nguyên âm
Tiếng Việt có mười ba nguyên âm đơn, ba nguyên âm đôi và hai bán nguyên âm
cuối.
Nguyên âm có đặc điểm chung là có các formant nằm ngang song song với các
trục hoành (thường là F2, F3) trong tất cả khoảng thời gian tồn tại của nó.
Khi hai nguyên âm đi liền nhau, hay một bán nguyên âm đi sau một nguyên âm,
ranh giới giữa hai âm vị thường rất khó phân biệt. Ranh giới được xác định là sự thay
đổi về hình dáng tuần hoàn của sóng trên biểu đồ sóng, và đó cũng trùng với ranh giới
có sự thay đổi về formant trên biểu đồ phổ.
Nghiên cứu một số phương pháp trong nhận dạng tiếng nói
13
Hình 2.5. Biểu đồ sóng và biểu đồ phổ của hai từ “hạt mưa”
Nguyên âm đôi có các formant không bằng phẳng và chúng đi lên hoặc đi xuống
trong suốt thời gian tồn tại của nguyên âm đôi. Formant sẽ di chuyển từ độ cao các
formant của nguyên âm trước đến nguyên âm sau. Trên Hình 2.5 nguyên âm đôi /wa/
có các formant F2 đi lên và F3 đi xuống từ âm /w/ sang nguyên âm /a/. Với trường hợp
của nguyên âm đơn /a/ ta thấy các F1, F2, F3 đều là các đường nằm ngang song song
với trục hoành. Trên biểu đồ sóng âm vị /a/ có biến đổi lớn hơn âm xát /h/ đứng trước.
2.3.8 Phụ âm cuối
Tiếng Việt có ba phụ âm cuối là các phụ âm tắc và ba phụ âm cuối là phụ âm
mũi. Trong trường hợp phụ âm cuối là các âm tắc, khi phát âm cơ quan cấu âm di
chuyển vào vị trí phát âm của phụ âm cuối tương ứng, bộ máy phát âm đóng hoàn toàn.
Nhưng trên thực tế phát âm không có giai đoạn buông, do đó phụ âm cuối không bao
giờ thực sự được phát ra. Trên Hình 2.5, kết thúc từ “hạt” là khoảng trắng năng lượng
và đây là âm tắc /tc/. Vai trò của âm đóng được nhận thấy bằng sự biến đổi âm sắc của
âm vị /a/ đứng trước, đoạn cuối formant F2, F3 của âm vị /a/ bị thay đổi và không còn
hoàn toàn song song với trục hoành nữa.
Đối với phụ âm cuối mũi, hình ảnh trên biểu đồ sóng và biểu đồ phổ tương tự
như trong trường hợp các phụ âm mũi đứng ở đầu câu. Các phụ âm cuối âm mũi
thường mang formant F2, F3 của nguyên âm đứng trước nó nhưng với độ sáng kém hơn.
Nghiên cứu một số phương pháp trong nhận dạng tiếng nói
14
Trên hình 2 chúng ta thấy hình ảnh của phụ âm cuối /tc/ trong từ “hạt”, trong đó
âm vị /tc/ xuất hiện như một khoảng trắng năng lượng giữa nguyên âm /a/ đứng trước
và phụ âm mũi /m/ đứng sau. Hình ảnh của phụ âm cuối mũi /ng/ được quan sát trong
Hình 2.6, trong đó hình ảnh âm vị /ng/ là một vệt sáng đậm ở tần số thấp sau nguyên
âm /oo/. Biên độ của âm vị /ng/ giảm dần cho đến khi trùng với sóng của môi trường.
2.3.9 Âm tắc thanh hầu
Âm tắc thanh hầu (glottal stop) được liệt kê trong một số sách giáo khoa tiếng
Việt như một phụ âm đầu. Trong một số âm tiết có hiện tượng khép khe thanh lúc mở
đầu. Tiếng bật do động tác mở khe thanh đột ngột được nghe rõ hoặc không rõ ở từng
người, trong từng lúc, phụ thuộc vào phong cách và bối cảnh ngữ âm.
Hình 2.6. Biểu đồ sóng và biểu đồ phổ của hai từ “ai sống”
Trên Hình 2.6, ta thấy hình ảnh âm tắc thanh hầu /gs/ mở đầu bằng một xung nhỏ trên
biểu đồ sóng, đây là tạp âm do bộ phận cấu âm phát ra khi khe thanh khép lại. Hình
ảnh phổ của âm tắc thanh hầu là một khoảng trắng năng lượng giống như trường hợp
của âm đóng.
2.3.10 Âm đệm
Tiếng Việt chỉ có một âm đệm duy nhất: /u/. Tính chất của nó gần giống với
nguyên âm /u/ tương ứng.
Nghiên cứu một số phương pháp trong nhận dạng tiếng nói
15
Hình 2.7. Biểu đồ sóng và biểu đồ phổ của hai từ “toán tán”
Âm đệm không xuất hiện trước các nguyên âm tròn môi, nó cũng chỉ xuất hiện
trước các nguyên âm hàng trước. Độ mở của âm đệm phụ thuộc vào độ mở của các
nguyên âm đi sau.
Trên biểu đồ phổ, âm đệm thường có hình ảnh là các formant gắn liền với các
formant của nguyên âm đứng sau nhưng không bằng phẳng. Hình 2.7 cho ta thấy hình
ảnh phổ của hai từ “toán” và “tán”. Âm đệm /w/ có hình ảnh là các F2, F3 uốn thấp
đằng trước các F2, F3 bằng phẳng của nguyên âm /a/. Trong khi đó với từ “tán” ta thấy
các F2, F3 của nguyên âm /a/ không bị thay đổi hình dáng và là các vệt song song với
trục hoành.
2.4 GÁN NHÃN TỰ ĐỘNG
2.4.1 Giới thiệu
Phương pháp gán nhãn tự động trên dựa vào bộ công cụ CSLU, dùng mạng
ANN, do đó quá trình huấn luyện hệ thống nhận dạng bắt buộc phải cần có sẵn các
phiên âm âm vị của các phát âm. Do đó phương pháp trên vẫn phải cần một giai đoạn
gán nhãn thủ công một phần cơ sở dữ liệu.
Sau đây là phương pháp gán nhãn tự động cơ sở dữ liệu mà không cần tệp phiên
âm âm vị. Tất cả quá trình đều được thực hiện tự động. Phương pháp này dùng bộ công
cụ HTK.
Nghiên cứu một số phương pháp trong nhận dạng tiếng nói
16
2.4.2 Gán nhãn tự động cơ sở dữ liệu
Phương pháp gán nhãn tự động cơ sở dữ liệu bao gồm các bước sau:
Bước 1: Xây dựng hệ thống nhận dạng dựa trên cơ sở dữ liệu với tập dữ liệu
huấn luyện là toàn bộ các phát âm.
Bước 2: Dùng hệ thống nhận dạng được xây dựng ở bước trước để gán nhãn
cưỡng bức toàn bộ cơ sở dữ liệu.
2.4.3 Kết quả thử nghiệm
Để tiến hành đánh giá phương pháp nhãn này, một thử nghiệm đã được tiến
hành để gán nhãn một cơ sở dữ liệu. Cơ sở dữ liệu được dùng bao gồm: 442 câu, 2340
từ, được trích ra từ hai cơ sở dữ liệu tiếng nói điện thoại “22 Language v1.2”, và
“Multi-Language Telephone Speech v1.2” của trung tâm CSLU (Center for Speech
Language Understanding), Viện Sau Đại Học Oregon, Hoa Kỳ. Các câu trong cơ sở dữ
liệu tiếng nói được thu âm theo hình thức phỏng vấn qua điện thoại từ 213 người nói
(135 nam, 78 nữ).
Bảng 2.2 dưới đây cho ta kết quả so sánh giữa các nhãn thời gian được tạo bằng
tay và các nhãn thời gian tạo bằng máy. Các nhãn thời gian tạo bằng tay có độ chính
xác với đơn vị là 1ms, ngược lại do kích thước khung tín hiệu trong hệ thống nhận
dạng là 10ms, nên đơn vị nhãn thời gian tạo bằng máy là 10ms. Bảng 2.2 miêu tả tỷ lệ
trùng khớp (agreement) ranh giới của các âm vị. Đơn vị đo được tính là % các ranh
giới trùng khớp nhau trong khoảng cho phép là 5ms, 10ms, 15ms và 20ms.
Bảng 2.2. Tỷ lệ trùng khớp các âm vị với giới hạn cho phép
là 5ms, 10ms, 15ms, 20ms
<5ms
<10ms
<15ms
<20ms
55.85
65.35
72.73
77.81
Nghiên cứu một số phương pháp trong nhận dạng tiếng nói
17
Bảng 2.3 miêu tả tỷ lệ lỗi các loại âm vị được gán nhãn tự động so với âm vị
gán nhãn bằng tay với các giới hạn cho phép khác nhau. Từ bảng ta thấy, âm vị có tỷ lệ
lỗi cao là âm đóng, sau đó theo thứ tự thấp dần là: âm xát, âm mũi, nguyên âm và âm tắc.
Bảng 2.3. Tỷ lệ lỗi các loại âm vị với giới hạn khác nhau
Loại âm vị
<5ms
<10ms
<15ms
<20ms
Âm tắc
46.82
15.49
9.35
3.61
Âm mũi
57.69
33.93
22.51
11.59
Âm xát
63.83
37.52
28.95
21.51
Nguyên âm
55.75
24.43
15.62
6.62
Âm đóng
65.36
40.72
33.57
25.61
Kết quả trên cho thấy một độ chính xác còn thấp của gán nhãn tự động so với
gán nhãn bằng tay.
2.4.4 Nâng cao độ chính xác gán nhãn tự động
Hệ thống nhận dạng dùng để gán nhãn cưỡng bức ở trên mới chỉ sử dụng một
hàm mật độ xác suất Gaussian duy nhất. Trong khi đó cơ sở dữ liệu được gán nhãn có
độ đa dạng cao, do nhiều người nói, trong môi trường khác nhau. Một hàm Gaussian
không đủ khả năng để mô hình hóa sự đa dạng của giọng nói trong cơ sở dữ liệu. Để
nâng cao hiệu quả của gán nhãn tự động hệ thống nhận dạng được cải tiến bằng cách
dùng hàm phát xa quan sát gồm nhiều thành phần trộn là hàm Gaussian.
Việc tăng số lượng hàm Gaussian được tiến hành bằng công cụ Hhed của HTK.
Hhed sẽ sao chép từ hàm Gaussian ở bước trên tạo thành hàm gồm có hai hàm
Gaussian, sau đó các âm đơn được huấn luyện lại bằng Herest trên hàm hai thành phần
này. Sau đó Hhed lại sao chép các hàm Gaussiab này và tạo thành hàm trộn gồm 4 hàm
Gaussian, cứ tiếp tục lặp lại như vậy cho đến khi số lượng hàm trộn đạt tới con số
mong muốn.
Nghiên cứu một số phương pháp trong nhận dạng tiếng nói
18
Hệ thống nhận dạng dùng để gán nhãn tự động đã được cải tiến từ hệ thống ở
trên, hệ thống này dùng hàm trộn với 8 hàm Gaussian. Kết quả gán nhãn tự động của
hệ thống này như sau:
Bảng 2.4. Tỷ lệ trùng khớp các âm vị với giới hạn cho phép
là 5ms, 10ms, 15ms, 20ms
<5ms
<10ms
<15ms
<20ms
55.85
78.35
85.02
89.36
Bảng 2.5. Tỷ lệ lỗi các loại âm vị với giới hạn khác nhau
Loại âm vị
<5ms
<10ms
<15ms
<20ms
Âm tắc
35.23
7.15
5.96
2.14
Âm mũi
48.57
24.33
13.22
7.11
Âm xát
53.63
29.37
19.28
12.21
Nguyên âm
45.55
15.24
8.15
4.63
Âm đóng
54.65
31.40
23.33
16.25
Hai Bảng 2.4 và Bảng 2.5 cho ta thấy một cải thiện đáng kể độ chính xác của
gán nhãn tự động. Sự khác nhau giữa các nhãn thời gian tạo bằng tay và tạo tự động là
xấp xỉ so với sự khác nhau giữa những người gán nhãn khác nhau. Tỷ lệ sai khác này là
chấp nhận được.
2.4.5 Kết luận
Để khẳng định kết quả đạt được của gán nhãn tự động, hai hệ thống nhận dạng
đã được xây dựng để đánh giá ảnh hưởng của các nhãn thời gian tạo bằng tay và nhãn
thời gian tạo bằng máy tới độ chính xác nhận dạng của hệ thống nhận dạng.
Hai tín hiệu được huấn luyện bằng tập dữ liệu huấn luyện gồm 318 câu và được
kiểm tra trên tập dữ liệu gồm 124 câu. Kết quả nhận dạng của hai hệ thống là như sau:
Nghiên cứu một số phương pháp trong nhận dạng tiếng nói
19
Bảng 2.6. Kết quả nhận dạng của hai hệ thống nhận dạng dùng
các nhãn thời gian khác nhau
Hệ thống nhận dạng
Độ chính xác mức từ
Độ chính xác mức câu
96.34
80.34
95.97
80.04
Hệ thống nhận dạng dùng
các nhãn tạo bằng tay
Hệ thống nhận dạng dùng
các nhãn tạo tự động
Kết quả nhận dạng cho thấy hệ thống nhận dạng dùng các nhãn thời gian tạo
bằng tay có độ chính xác cao hơn so với hệ thống nhận dạng dùng các nhãn thời gian
tạo bằng máy. Tuy nhiên sự sai khác này là không nhiều. Điều này cũng cho thấy một
độ tin cậy nhất định đối với các nhãn thời gian được sinh tự động.
CHƢƠNG 3: MÔ HÌNH MARKOV ẨN
3.1 QUÁ TRÌNH MARKOV
Nếu không gian trạng thái S của hệ là đếm được thì ta gọi hệ là xích Markov.
Nếu thời gian t là rời rạc t=0,1,2,… thì ta có xích Markov rời rạc. Ta có thể biểu diễn
tính Markov của hệ bằng biểu thức sau:
P(qt = Sj | qt-1 = Si, qt-2 = Sk,…) = P(qt = Sj | qt-1 = Si)
Đặt P(s,i,t,j) = P(qt = Sj | qs = Si) là xác suất để hệ tại thời điểm s ở trạng thái i,
đến thời điểm t chuyển sang trạng thái j. Ta gọi P(s,i,t,j) là xác suất chuyển của hệ. Nếu
xác suất chuyển chỉ phụ thuộc vào (t-s) tức là
P(s,i,t,j) = P(s+h,i,t+h,j)
Nghiên cứu một số phương pháp trong nhận dạng tiếng nói
20
thì ta nói hệ là thuần nhất theo thời gian. Bắt đầu từ đây ta chỉ xét xích Markov
rời rạc và thuần nhất.
a22
S2
a23
a12
a11
S3
a31
S1
a33
a14
a15
a53
a54
S5
a43
S4
a44
a55
Hình 3.1. Xích Markov với năm trạng thái S1, S2, …, S5 và
các xác suất chuyển trạng thái
Hình 3.1 cho ta thấy một ví dụ về một mô hình xích Markov rời rạc và thuần
nhất, trong đó hệ có thể ở một trong năm trạng thái S1, S2, …, SN (trong ví dụ trên N=5).
Tại mỗi thời điểm t=0,1,2,… hệ chuyển trạng thái theo xác suất chuyển trạng thái aij
tương ứng với mỗi trạng thái.
aij = P(qt+1 = Sj | qt = Sj)
N
j 1 a ij
1; i 1, N
aij 0; i ; j 1, N
Ngoài ra ta định nghĩa xác suất trạng thái khởi đầu (initial state distribution) π =
{π1, π2, …, πN}, trong đó πi là xác suất để trạng thái i được chọn tại thời điểm khởi đầu t =1:
πi=P(q1=Si)
N
i 1 i
1
i 0;i 1, N
Nghiên cứu một số phương pháp trong nhận dạng tiếng nói
- Xem thêm -