LỜI CẢM ƠN
Sau một thời gian tìm hiểu đề tài “ Nhận dạng tiếng nói sử dụng mạng
NEURAL” Em đã hoàn thành tiến độ dự kiến . Để đạt được kết quả này, em đã
nỗ lực thực hiện và đồng thời cũng nhận được rất nhiều sự giúp đỡ, quan tâm,
ủng hộ của các Thầy Cô bạn bè và gia đình.
Em xin chân thành cảm ơn giáo viên hướng dẫn: ThS. Đỗ Huy Khôi –
Khoa Công nghệ Điện Tử Và Truyền Thông – Đại học công nghệ thông tin và
truyền thông - Đại học Thái Nguyên đã tận tình giúp đỡ em hoàn thành đồ án
này.
Em xin chân thành cảm ơn các Thầy Cô giáo thuộc Khoa Công nghệ Điện
Tử Và Truyền Thông đã trang bị cho em những kiến thức chuyên ngành rất hữu
ích để em hoàn thành đồ án và phục vụ cho công việc của em sau này.
Vì thời gian có hạn nên đồ án của em không thể tránh khỏi những thiếu
sót, em rất mong được sự đóng góp ý kiến từ phía Thầy Cô và các bạn.
Em xin chân thành cảm ơn !
Thái Nguyên, tháng 6 năm 2012
Sinh Viên thực hiện
Triệu Hà Quảng
1
LỜI CAM ĐOAN
Đồ án này đã được hoàn thành sau một thời gian nghiên cứu, tìm hiểu các
nguồn tài liệu, sách báo chuyên ngành và thông tin trên mạng mà theo em là hoàn
toàn tin cậy. Nội dung đồ án được em tổng hợp lại từ các tài liệu tham khảo,
không sao chép toàn bộ các đồ án và các công trình nghiên cứu của các tác giả
khác. Em xin chịu trách nhiệm về nội dung trong đồ án mình.
Thái Nguyên, tháng 6 năm 2012
Sinh viên thực hiện
Triệu Hà Quảng
2
MỤC LỤC
LỜI CẢM ƠN ..................................................................................................... 1
LỜI CAM ĐOAN................................................................................................ 2
MỤC LỤC .......................................................................................................... 3
DANH MỤC HÌNH ............................................................................................ 5
DANH MỤC TỪ VIẾT TẮT .............................................................................. 7
MỞ ĐẦU ............................................................................................................ 8
CHƯƠNG 1: TỔNG QUAN VỀ MẠNG NƠRON ............................................ 10
1.1. Giới thiệu về mạng Nơron ....................................................................... 10
1.2. Kiến trúc mạng Nơron ............................................................................. 12
1.2.1. Mạng Perceptron tiến một lớp SLP.................................................... 12
1.2.2. Mạng perceptron tiến nhiều lớp MLP ................................................ 13
1.3. Đặc trưng của mạng Nơron...................................................................... 14
1.3.1. Tính chất phi tuyến............................................................................ 14
1.3.2. Tính chất tương ứng đầu vào- đầu ra ................................................. 14
1.3.3. Tính chất thích nghi .......................................................................... 15
1.3.4. Tính chất đưa ra lời giải có bằng chứng ............................................. 15
1.3.5. Tính chất chấp nhận sai sót................................................................ 15
1.3.6. Tính chất đồng dạng trong phân tích và thiết kế ................................ 16
1.4. Các phương pháp học .............................................................................. 16
1.4.1. Học có giám sát ................................................................................. 16
1.4.2. Học không có giám sát ...................................................................... 16
1.4.3. Học tăng cường ................................................................................. 17
CHƯƠNG 2: NHẬN DẠNG TIẾNG NÓI VÀ CÁC VẤN ĐỀ.......................... 18
2.1. Quá trình sản xuất tiếng nói và thu nhận tiếng nói của con người ............ 18
2.2. Các âm thanh tiếng nói và các đặc trưng.................................................. 19
2.2.1. Nguyên âm ........................................................................................ 19
2.2.2. Các âm vị khác .................................................................................. 20
2.3. Khái niệm về nhận dạng tiếng nói ........................................................... 21
3
2.4. Các nguyên tắc cơ bản trong nhận dạng tiếng nói .................................... 23
2.5. Các phương pháp nhận dạng tiếng nói ..................................................... 23
2.5.1. Phương pháp âm học ngữ âm học ...................................................... 23
2.5.2. Phương pháp nhận dạng mẫu............................................................. 25
2.5.3. Phương pháp trí tuệ nhân tạo ............................................................. 27
CHƯƠNG 3: NHẬN DẠNG TIẾNG NÓI SỬ DỤNG MẠNG NƠRON ........... 29
3.1. Các mô hình nhận dạng tiếng nói............................................................. 29
3.1.1. Mô hình Fujisaki ............................................................................... 29
3.1.2. Mô hình Markov ẩn........................................................................... 31
3.2. Mô hình mạng Nơron .............................................................................. 38
3.2.1. Phân tích tín hiệu tiếng nói ................................................................ 39
3.2.2. Huấn luyện mạng .............................................................................. 45
3.3. Những thuận lợi và khó khăn trong nhận dạng tiếng Việt ........................ 56
CHƯƠNG 4: CHƯƠNG TRÌNH NHẬN DẠNG TIẾNG NÓI .......................... 58
4.1. Giới thiệu Hàm và Toobox trong Matlab cần để xây dựng hệ thống nhận
dạng tiếng nói bằng mạng Nơron.................................................................... 58
4.2. Xây dựng chương trình nhận dạng tiếng nói bằng mạng Nơron MLP ...... 60
4.2.1. Các bước xây dựng............................................................................ 61
4.2.2. Chương trình nhận dạng phát âm mười chữ số tiếng Việt .................. 66
KẾT LUẬN ....................................................................................................... 71
TÀI LIỆU THAM KHẢO ................................................................................. 72
NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN ................................................ 73
4
DANH MỤC HÌNH
Hình 1.1 Mô hình một Nơron nhân tạo .............................................................. 10
Hình 1.2 mạng Nơron perceptron đơn lớp........................................................ 13
Hình 1.3 Mạng Nơron perceptron đa lớp ......................................................... 14
Hình 2.1 Sơ đồ biểu diễn quá trình sản xuất thu nhận tiếng nói của con người .. 18
Hình 2.2 Các phần tử cơ bản của một hệ thống nhận dạng tiếng nói ................. 22
Hình 2.3 Sơ đồ khối nhận dạng tiếng nói theo âm học- ngữ âm học .................. 24
Hình 2.4 Hệ thống nhận dạng tiếng nói theo phương pháp nhận dạng mẫu ....... 26
Hình 2.5 Sơ đồ khối hệ thống nhận dạng tiếng nói theo phương pháp từ trên
xuống. ............................................................................................................... 27
Hình 3.1 Hệ thống nhận dạng tiếng nói sử dụng mô hình mạng Nơron .............. 38
Hình 3.2 Sơ đồ tính toán các hệ số MFCC ........................................................ 39
Hình 3.3 tín hiệu tiếng nói trong khoảng thời gian dài ....................................... 40
Hình 3.4 tín hiệu tiếng nói trong khoảng thời gian ngắn .................................... 40
Hình 3.5 Cửa sổ hamming 128 điểm.................................................................. 41
Hình 3.6 Tín hiệu bị thu nhỏ lại ở hai đầu do hamming ..................................... 42
Hình 3.7 Tín hiệu không có cửa sổ hóa với biên độ phổ sau khi FFT ................. 42
Hình 3.8 Tín hiệu có cửa sổ hóa bằng hamming với biên độ phổ sau khi FFT .. 43
Hình 3.9 Các băng lọc tam giác theo tần số Mel ............................................... 43
Hình 4.1 Sơ đồ khối hệ thống nhận dạng tiếng nói các chữ số tiếng Việt bằng
mạng Nơron MLP trên môi trường Matlab.......................................................... 62
Hình 4.2 Giải thuật cắt khoản lặng trong file wav .............................................. 63
Hình 4.3 Giao diện chính của chương trình....................................................... 66
Hình 4.4 Tạo mạng Nơron MLP 3 lớp ............................................................. 67
Hình 4.5 Chương trình huấn luyện mạng MLP ................................................. 67
Hình 4.6 Chương trình nhận dạng từ file .......................................................... 68
Hình 4.7 Chương trình nhận dạng trực tiếp từ micro ......................................... 68
Hình 4.8 Quá trình huấn luyện với đầu ra mong muốn là 1. ............................... 69
Hình 4.9 Quá trình huấn luyện với đầu ra mong muốn là 2. ............................... 69
Hình 4.10 File nhận dạng với đầu ra thực tế chữ số nhận được là 1 .................. 70
5
Hình 4.11 File nhận dạng với đầu ra thực tế chữ số nhận được là 5 .................. 70
6
DANH MỤC TỪ VIẾT TẮT
Thuật ngữ
Artifactial Neural Network
Fast Fourier Transform
Simple Linear Perceptron
Từ viết tắt
ANN
FFT
SLP
Multiple layer perceptron
MLP
Recurrent neural networks
Melscale frequency cepstral coeficients
RNN
MFCC
Ý nghĩa
Mạng Nowrron nhân tạo
Biến đổi Fourier nhanh
Mạng perceptron truyền thẳng một
lớp
Mạng perceptron truyền thẳng nhiều
lớp
Mạng Nơron hồi quy
Hệ số cepstral theo thang đo mel
Expectation maximization
Linear predictive code
Speech Recognition
Hidden Markov Model
EM
LPC
SR
HMM
Kì vọng cực đại
Hệ số dự đoán tuyến tính
Nhận dạng tiếng nói
Mô hình Markov ẩn
7
MỞ ĐẦU
Hiện nay, con người đang nghiên cứu phương thức hoạt động của bộ não, sau
đó áp dụng cho những công nghệ hiện đại. Để tiếp cận khả năng học, người ta
đưa ra mô hình mạng Nơron gồm các Nơron liên kết với nhau thành mạng mô
phỏng theo cấu trúc mạng thần kinh của con người.
Đã có nhiều công trình nghiên cứu về lĩnh vực nhận dạng tiếng nói (speech
recognition) trên cơ sở lý thuyết hệ thống thông minh nhân tạo, nhiều kết quả đã
trở thành sản phẩm thương mại như ViaVoice, Dragon,… các hệ thống bảo mật
thông qua nhận dạng tiếng nói các hệ quay số điện thoại bằng giọng nói,… Triển
khai những công trình nghiên cứu và đưa vào thực tế ứng dụng vấn đề này là một
việc hết sức có ý nghĩa đặc biệt trong giai đoạn công nghiệp hóa, hiện đại hóa
hiện nay của nước nhà.
Mạng Nơron nhân tạo là công cụ tốt trong việc giải quyết các bài toán như:
hợp và phân lớp đối tượng, xấp xỉ hàm, tối ưu hóa, định lượng vector, phân cụm
dữ liệu,... Nó thay thế hiệu quả các công cụ tính toán truyền thống để giải quyết
các bài toán này. Cách ứng xử trên mạng Nơron nhân tạo giống như bộ não con
người, nó chứng tỏ khả năng học, nhớ lại, và tổng quát hóa từ dữ liệu huấn luyện.
Nhận dạng là một lĩnh vực đóng vai trò quan trọng trong khoa học kỹ thuật.
Trong hầu hết các vấn đề kỹ thuật ngày nay, ta đều phải xác định, nhận dạng
được các mô hình và đối tượng liên quan, để từ đó tìm ra giải pháp.
Hiện nay trên thế giới chương trình nghiên cứu mạng Nơron đang được phát
triển rộng rãi ở các nước và nhiều tổ chức nghiên cứu. Cũng đã có nhiều chương
trình được công bố, như là nhận dạng tiếng nói được đưa vào để điều khiển robot.
Ở Việt Nam thì chương trình nghiên cứu về mạng Nơron còn chưa được phát
triển lắm so với các nước, và chưa có nhiều kết quả được công bố. Đồng thời các
ứng dụng của xử lý tiếng nói chưa nhiều.
Lĩnh vực mạng Nơron và xử lý tiếng nói còn đang được phát triển, nghiên
cứu các ứng dụng của nó ngày càng trở nên phổ biến và quan trọng. Vì vậy, em
đã quyết định chọn đồ án: “Nhận dạng tiếng nói sử dụng mạng NEURAL”.
8
Nội dung của đồ án đi vào tìm hiểu về mạng Nơron và ứng dụng trong nhận
dạng tiếng nói, phương pháp nhận dạng tiếng nói sử dụng mạng Nơron.
Phương pháp phân tích cepstral theo thang đo mel MFCC (melscale
frequency cepstral coefficients) được sử dụng trong việc trích trọn những đặc
trưng cơ bản của tiếng nói.
Mạng Nơron lan truyền ngược hướng (Back-propagation Neural Network)
được sử dụng để học mẫu và ra quyết định đối tượng nhận dạng.
Đồ án gồm 4 chương:
Chương 1: Tổng Quan Về Mạng Nơron
Chương 2: Nhận Dạng Tiếng Nói Và Các Vấn Đề
Chương 3: Nhận Dạng Tiếng Nói Sử Dụng Mạng Nơron
Chương 4: Chương Trình Nhận Dạng Tiếng Nói
9
CHƯƠNG 1: TỔNG QUAN VỀ MẠNG NƠRON
1.1. Giới thiệu về mạng Nơron
Mạng Nơron (Neuron Network) là công cụ có khả năng giải quyết được
nhiều bài toán khó, thực tế những nghiên cứu về mạng Nơron đưa ra một cách
tiếp cận khác với những cách tiếp cận truyền thống trong lý thuyết nhận dạng.
Mạng Nơron nhân tạo mô phỏng hoạt động của các Nơron thần kinh, mạng
Nơron nhân tạo là hệ thống bao gồm nhiều phần tử xử lý đơn giản (neuron) hoạt
động song song. Tính năng của hệ thống này tùy thuộc vào cấu trúc của hệ, các
trọng số liên kết Nơron và quá trình tính toán lại các Nơron đơn lẻ. Mạng Nơron
có thể từ dữ liệu mẫu và tổng quát hóa dựa trên các dữ liệu mẫu học.
Hình 1.1 Mô hình một Nơron nhân tạo
10
Một mô hình mạng Nơron có 3 thành phần cơ bản:
1. Một tập hợp các synapse hay các kết nối mà mỗi một trong chúng được
đặc trung bởi một trọng số riêng của nó. Tức là một tín hiệu
tại đầu
vào của các synapse j nối với Nơron k sẽ được nhân với trọng số
synapse
. Ở đó k là chỉ số của Nơron tại đầu ra của synapse đang
xét. Các trọng số synapse có thể nhận cả giá trị âm và giá trị dương.
2. Một bộ công cụ để tính tổng các tín hiệu đầu vào của Nơron, đã nhân
với các trọng số synapse tương ứng, phép toán được mô tả ở đây tạo nên
một tổ hợp tuyến tính.
3. Một hàm kích hoạt (activation function) để giới hạn biên độ đầu ra của
Nơron. Hàm kích hoạt cũng được xem như một hàm nén, nó nén (giới
hạn) phạm vi biên độ cho phép của tín hiệu đầu ra trong một khoảng giá
trị hữu hạn. Hàm kích hoạt có nhiều kiểu như: hàm ngưỡng, hàm vùng
tuyến tính, hàm sigma, hàm tang hypebol. Trong đó hàm tang
sigmoid(1.1) hay log sigmoid(1.2) hay được dùng nhất.
( ) = tanh (
)
(1.1)
( )=
(1.2)
Ngoài ra còn có một hệ số hiệu chỉnh
tác động từ bên ngoài có tác dụng
tăng lên hoặc giảm đi đầu vào thực của hàm kích hoạt, tùy theo nó âm hay dương
Tín hiệu đầu ra cho bởi:
= (∑
+ )
Nơron là một đơn vị tính toán có nhiều đầu vào và một đầu ra, mỗi đầu
vào đến từ một synapse. Đặc trưng của Nơron là một hàm kích hoạt phi tuyến
chuyển đổi một tổ hợp tuyến tính của tất cả các tín hiệu đầu vào thành tín hiệu
đầu ra. Hàm kích hoạt này đảm bảo tính chất phi tuyến cho tính toán của mạng
Nơron.
Synapse là thành phần liên kết giữa các Nơron, nó nối đầu ra của Nơron này
với đầu vào của Nơron khác. Đặc trưng của synapse là một trọng số mà mỗi tín
hiệu đi qua đều được nhân với trọng số này. Các trọng số chính là các tham số tự
11
do cơ bản của mạng Nơron, có thể thay đổi được nhằm thích nghi với môi trường
xung quanh.
Mạng Nơron nhân tạo đang được ứng dụng rộng rãi trong các ngành kĩ thuật
như: trong kỹ thuật điều khiển, mạng Nơron được ứng dụng để nhận dạng, dự
báo và điều khiển các hệ thống động; trong điện tử viễn thông thì ứng dụng để xử
lý ảnh, nhận dạng ảnh và truyền thông; trong hệ thống điện thì ứng dụng để
nhận dạng, dự báo và điều khiển các trạm biến áp...
1.2. Kiến trúc mạng Nơron
Có rất nhiều kiểu kiến trúc mạng Nơron khác nhau như: mạng Nơron hồi
quy, mạng tự tổ chức, mạng bán kính tâm, Support vector machines, Committee
machines, Bản đồ tự điều chỉnh, Máy thống kê,… Nhưng thông dụng và đơn giản
nhất vẫn là mạng Nơron truyền thẳng.
Tiền đề của mạng Nơron truyền thẳng là mạng perceptron một lớp do
F.Rosenblatt đề xuất năm 1960, vì là mạng truyền thẳng nên chỉ có một lớp vào
và một lớp ra, không có lớp ẩn. Trên mỗi lớp này có thể có một hoặc nhiều
Nơron. Mạng này rất đơn giản vì thế nó được sử dụng để cho bất cứ ai mới đầu
muốn tìm hiểu về mạng Nơron. Perceptron nhiều lớp – multiple layer
perceptron(MLP) được sử dụng rỗng rãi nhất.
1.2.1. Mạng Perceptron tiến một lớp SLP
Mạng SLP(Simple Linear Perceptron) bao gồm lớp nút vào (input) và lớp
nút ra (output). Với mỗi vector giá trị đầu vào, các giá trị input được đưa vào các
nút input, và mạng ANN sẽ cho kết quả tương ứng tại các nút output. Ký hiệu các
nút đầu vào x là x , x … x , trong đó n là số lượng nút vào, các nút đầu ra y là
y , y … y , n là số lượng nút ra. Mỗi nút input x liên hệ đều có một nối kết
(connection hay synapses) với một nút output y . Mỗi nối kết được gán một giá
trị gọi là trọng số (synapses strength), ký hiệu và
. Các tín hiệu vào được lan
truyền theo các nối kết và được nhân với các trọng số của các nối kết. Tính toán
lại lớp vào sẽ được lan truyền sang lớp kế tiếp và do vậy mạng được gọi là lan
truyền thẳng (feed-forward).
12
Lớp Input
Lớp Output
Hình 1.2 mạng Nơron perceptron đơn lớp
Tại mỗi nút output của mạng, các tín hiệu vào sẽ được nhân với các trọng
số và sau đó được cộng lại thành giá trị output như được miêu tả bởi công thức
sau:
y =∑
w x
(1.3)
Mô hình mạng Nơron của Rosenblatt sử dụng hàm ngưỡng đóng vai trò là
hàm chuyển. Do đó, tổng các tín hiệu vào lớn hơn giá trị ngưỡng thì giá trị đầu ra
của Nơron sẽ là 1, còn ngược lại sẽ là 0.
Out =
1 nếu net ≥ θ
0 nếu net <
với net = ∑ w x là tổng thông tin đầu vào của
Nơron i
Trong đó,
Nơron j, và
là trọng số liên kết từ Nơron j tới Nơron i,
là đầu vào từ
là ngưỡng của Nơron i.
1.2.2. Mạng perceptron tiến nhiều lớp MLP
Mạng perceptron tiến nhiều lớp MLP (MultiLayer Perceptron) là một trong
những kiến trúc mạng căn bản nhất, ở đó các Nơron được chia thành từng mức.
Có 3 loại mức: mức đầu vào bao gồm các nút nguồn(không phải là Nơron) cung
cấp các tín hiệu đầu vào chung nhận được từ môi trường, mức đầu ra đưa các tín
hiệu đầu ra cho môi trường và một hoặc nhiều lớp ẩn. Mà các nút tính toán của
chúng được gọi là các Nơron ẩn hay các đơn vị ẩn ( ẩn có nghĩa là không tiếp xúc
với môi trường bên ngoài). Chức năng của các Nơron ẩn là can thiệp vào giữa
đầu vào và đầu ra của mạng một cách hữu hiệu, bằng việc thêm một vài mức ẩn,
13
mạng có khả năng rút ra được các thống kê bậc cao của tín hiệu đầu vào. Khả
năng các Nơron ẩn rút ra được các thống kê bậc cao đặc biệt có giá trị khi mức
đầu vào có kích thước lớn. Một vector đầu vào sẽ được đưa vào lớp vào (input)
của mạng và sau đó các tính toán được thực hiện lan truyền thẳng (feed-forward)
từ lớp vào input sang các lớp ẩn và kết thúc ở lớp ra output. Hàm kích hoạt kết
hợp với các nút ẩn hay các nút output có thể là hàm tuyến tính hay phi tuyến và
có thể khác nhau giữa các nút.
Lớp Input
Lớp Hidden
Lớp Output
Hình 1.3 Mạng Nơron perceptron đa lớp
1.3. Đặc trưng của mạng Nơron
Sau khi tìm hiểu về cấu trúc cơ bản của các mạng Nơron, chúng ta có thể kể
ra một số đặc trưng ưu việt mà mạng Nơron có thể thu được từ việc mô phỏng
trực tiếp bộ não con người như sau:
1.3.1. Tính chất phi tuyến
Một mạng Nơron, cấu thành bởi sự kết nối các Nơron phi tuyến thì tự nó sẽ
có tính phi tuyến. Hơn nữa, điều đặc biệt là tính phi tuyến này được phân tán trên
toàn mạng. Tính phi tuyến là thuộc tính rất quan trọng, nhất là khi các cơ chế vật
lý sinh ra các tín hiệu đầu vào vốn là phi tuyến.
1.3.2. Tính chất tương ứng đầu vào- đầu ra
Tính chất này này liên quan tới vấn đề “học” hay “tích lũy” của mạng
Nơron. Một mô hình học phổ biến được gọi là học với một người dạy hay học có
14
giám sát liên quan đến việc thay đổi các trọng số synapse của mạng Nơron bằng
việc áp dụng một tập hợp các mẫu tích lũy hay các ví dụ tích lũy. Mỗi một ví dụ
tích lũy bao gồm một tín hiệu đầu vào và một đầu ra mong muốn tương ứng.
Mạng Nơron nhận một ví dụ lấy một cách ngẫu nhiên từ tập hợp nói trên tại đầu
vào của nó, và các trọng số synapse của mạng được biến đổi sao cho có thể cực
tiểu hóa sự sai khác giữa đầu ra mong muốn và đầu ra thực sự của mạng theo một
tiêu chuẩn thống kê thích hợp. Như vậy mạng Nơron học từ các ví dụ bằng cách
xây dựng nên một tương ứng đầu vào- đầu ra cho vấn đề cần giải quyết.
1.3.3. Tính chất thích nghi
Các mạng Nơron có một khả năng mặc định là biến đổi các trọng số
synapse tùy theo sự thay đổi của môi trường xung quanh. Đặc biệt, một mạng
Nơron đã tích lũy để hoạt động trong một môi trường xác định có thể tích lũy lại
một cách dễ dàng khi có những thay đổi nhỏ của các điều kiện môi trường hoạt
động. Khi hoạt động trong môi trường không ổn định, một mạng Nơron có thể
được thiết kế sao cho có khả năng thay đổi các trọng số synapse của nó theo thời
gian thực. Tuy nhiên tính chất này không phải lúc nào cũng đem đến sức mạnh
mà nó có thể làm điều ngược lại.
1.3.4. Tính chất đưa ra lời giải có bằng chứng
Trong ngữ cảnh phân loại mẫu, một mạng Nơron có thể được thiết kế để
đưa ra thông tin không chỉ về mẫu được phân loại, mà còn về sự tin cậy của
quyết định đã được thực hiện. Thông tin này có thể được sử dụng để loại bỏ các
mẫu mơ hồ hay nhập nhằng.
1.3.5. Tính chất chấp nhận sai sót
Một mạng Nơron được cài đặt dưới dạng phần cứng, vốn có khả năng chấp
nhận lỗi hay khả năng tính toán thô, với ý nghĩa là tính năng của nó chỉ thoái hóa
(chứ không đổ vỡ) khi có những điều kiện hoạt động bất lợi. Ví dụ, nếu một
Nơron hay các liên kết kết nối của nó bị hỏng, việc nhận dạng lại một mẫu được
lưu trữ sẽ suy giảm về chất lượng. Tuy nhiên, do bản chất phân tán của thông tin
lưu trữ trong mạng Nơron, sự hỏng hóc cũng được trải ra trên toàn mạng. Như
vậy, về cơ bản, trong trường hợp này một mạng Nơron sẽ thể hiện môt sự thoái
15
hóa về tính năng hơn là sự đổ vỡ trầm trọng. Để đảm bảo rằng mạng Nơron thực
sự có khả năng chấp nhận lỗi, có lẽ cần phải thực hiện những đo đạc hiệu chỉnh
trong việc thiết kế thuật toán tích lũy mạng Nơron.
1.3.6. Tính chất đồng dạng trong phân tích và thiết kế
Đặc tính này thể hiện một số điểm như sau :
Các Nơron dưới dạng này hoặc dạng khác biểu diễn một thành phần chung
cho tất cả các mạng Nơron.
Tính thống nhất đã đem lại khả năng chia sẻ các lý thuyết và các thuật toán
học trong nhiều ứng dụng khác nhau của mạng Nơron.
Các mạng tổ hợp có thể được xây dựng thông qua một sự tích hợp các mô
hình khác nhau.
1.4. Các phương pháp học
Mạng Nơron nhân tạo phỏng theo việc xử lý thông tin của bộ não người, do
vậy đặc trưng cơ bản của mạng là có khả năng học, khả năng tái tạo các hình ảnh
và dữ liệu khi đã học. Trong trạng thái học thông tin được lan truyền theo hai
chiều nhiều lần để học các trọng số. Có 3 kiểu học chính, mỗi kiểu học tương
ứng với một nhiệm vụ học trừu tượng. Đó là học có giám sát (có mẫu), học
không giám sát và học tăng cường. Thông thường loại kiến trúc mạng nào cũng
có thể dùng được cho các nhiệm vụ.
1.4.1. Học có giám sát
Một thành phần không thể thiếu của phương pháp này là sự có mặt của một
người thầy (ở bên ngoài hệ thống). Người thầy này có kiến thức về môi trường
thể hiện qua một tập hợp các cặp đầu vào - đầu ra đã được biết trước. Hệ thống
học (ở đây là mạng Nơron) sẽ phải tìm cách thay đổi các tham số bên trong của
mình (các trọng số và các ngưỡng) để tạo nên một ánh xạ có khả năng ánh xạ các
đầu vào thành các đầu ra mong muốn. Sự thay đổi này được tiến hành nhờ việc
so sánh giữa đầu ra thực sự và đầu ra mong muốn.
1.4.2. Học không có giám sát
Trong học không có giám sát, ta được cho trước một số dữ liệu x và hàm chi
phí cần được cực tiểu hóa có thể là một hàm bất kỳ của dữ liệu x và đầu ra của
16
mạng, f – hàm chi phí được quyết định bởi phát biểu của bài toán. Phần lớn các
ứng dụng nằm trong vùng của các bài toán ước lượng như mô hình hóa thống kê,
nén, lọc, phân cụm.
1.4.3. Học tăng cường
Dữ liệu x thường không được tạo trước mà được tạo ra trong quá trình một
agent tương tác với môi trường. Tại mỗi thời điểm t, agent thực hiện hành động
yt và môi trường tạo một quan sát xt với một chi phí tức thời Ct, theo một quy
trình động nào đó (thường là không được biết). Mục tiêu là một sách lược lựa
chọn hành động để cực tiểu hóa một chi phí dài hạn nào đó, nghĩa là chi phí tích
lũy mong đợi. Quy trình hoạt động của môi trường và chi phí dài hạn cho mỗi
sách lược thường không được biết, nhưng có thể ước lượng được. Mạng Nơron
nhân tạo thường được dùng trong học tăng cường như một phần của thuật toán
toàn cục. Các bài toán thường được giải quyết bằng học tăng cường là các bài
toán điều khiển, trò chơi và các nhiệm vụ quyết định tuần tự (sequential decision
making) khác.
Kêt luận chương:
Trong chương này đã giới thiệu một cách tổng quan về mạng Nơron, kiến
trúc của mạng Nơron và những tính chất của mạng Nơron. Cùng với mô hình
mạng perceptron một lớp, đa lớp. Ta thấy rằng mạng Nơron nhân tạo là một công
cụ mạnh và mềm dẻo để giải quyết các bài toàn có tính phi tuyến, phức tạp. Vì
vậy, khả năng ứng dụng của nó rất lớn ứng dụng vào các lĩnh vực như nhận dạng,
điều khiển, dự báo…. Trong chương tiếp theo, chúng ta sẽ tìm hiểu và nghiên
cứu về nhận dạng tiếng nói và các vấn đề.
17
CHƯƠNG 2: NHẬN DẠNG TIẾNG NÓI VÀ CÁC VẤN ĐỀ
2.1. Quá trình sản xuất tiếng nói và thu nhận tiếng nói của con người
Hình 2.1 Sơ đồ biểu diễn quá trình sản xuất thu nhận tiếng nói của con người
Hình 2.1. đưa ra sơ đồ khối của quá trình sản xuất tiếng nói, nhận thức tiếng
nói của con người. Quá trình sản xuất tiếng nói bắt đầu khi người nói tạo ra một
thông điệp ( trong ý nghĩ của anh ta) và muốn truyền tải nó cho người nghe thông
qua tiếng nói. Tổ chức thần kinh tương ứng chịu trách nhiệm tạo ra thông điệp
dưới dạng văn bản biểu diễn các từ của thông điệp. Bước tiếp theo của quá trình
là chuyên đổi thông điệp sang dạng một mã ngôn ngữ. Điều này gần như tương
đương với việc chuyển đổi các biểu diễn văn bản của thông điệp thành một chuỗi
các âm vị tương ứng với các âm thanh tạo nên các từ, đồng thời với việc ghi nhận
âm điệu nhằm xác định sự kéo dài, sự nhấn mạnh, và trọng âm cao thấp của âm
thanh. Khi một mã ngôn ngữ đã được lựa chọn, người nói phải thực hiện một loạt
các lệnh thần kinh vận động để làm cho các dây thanh dao động, đồng thời cấu
trúc hình dạng ống dẫn âm nhằm phát ra một chuỗi các âm thanh. Như vậy, đầu
ra cuối cùng của quá trình là một tín hiệu âm học. Các lệnh thần kinh vận động
18
phải điều khiển một cách đồng bộ tất cả các khâu vận động như sự hoạt động của
môi, hàm, lưỡi…
Khi tín hiệu tiếng nói đã được sinh ra và được truyền cho người nghe, quá
trình thu nhận tiếng nói ( hay nhận dạng tiếng nói ) bắt đầu. Đầu tiên, người nghe
xử lý tín hiệu âm thanh thông qua màng nền của tai trong, nó có khả năng cung
cấp một phân tích phổ cho tín hiệu tới. Một quá trình xử lý thần kinh chuyển đổi
tín hiệu phổ tại đầu ra của màng nền thành các tín hiệu hoạt động đối với thần
kinh thính giác, có thể coi như đây quá trình lấy ra các đặc trưng. Bằng một
phương pháp đặc biệt, các tín hiệu hoạt động đi qua hệ thần kinh thính giác được
chuyển đổi thành một mã ngôn ngữ cho những trung tâm xử lý cao cấp hơn bên
trong bộ não, và cuối cùng là hiểu được nội dung thông điệp.
Từ sự minh họa quá trình nhận dạng tiếng nói thông qua hệ thống thần kinh
con người như trên, chúng ta có thể có một chút ý niệm về khả năng ứng dụng
mạng Nơron nhân tạo trong việc mô phỏng một số tổ chức thần kinh như một
phần của hệ thần kinh thính giác.
2.2. Các âm thanh tiếng nói và các đặc trưng
2.2.1. Nguyên âm
Các nguyên âm có tầm rất quan trọng trong nhận dạng tiếng nói, hầu hết các
hệ thống nhận dạng dựa trên cơ sở nhận dạng nguyên âm đều có tính năng tốt. Các
nguyên âm nói chung là có thời gian tồn tại dài (so với các phụ âm) và dễ xác định
phổ. Chính vì thế dễ dàng cho việc nhận dạng tiếng nói, cả đối với con người và
máy móc.
Về mặt lý thuyết, các cực đại của biểu diễn phổ của tín hiệu nguyên âm chính
là các tần số cộng hưởng (formants) tạo nên nguyên âm. Giá trị của các formant
đầu tiên (2 hoặc 3 formant đầu tiên) là yếu tố quyết định cho phép chúng ta nhận
dạng được nguyên âm. Do nhiều yếu tố biến thiên như sự khác nhau về giới tính,
về độ tuổi, tình trạng tinh thần của người nói và nhiều yếu tố ngoại cảnh khác, đối
với một nguyên âm xác định các giá trị formant cũng có sự biến thiên nhất định.
Tuy nhiên sự khác biệt về các giá trị các formant giữa các nguyên âm khác nhau
lớn hơn nhiều, và trong không gian formant chúng ta có thể xác định một cách
19
tương đối các vùng riêng biệt cho từng nguyên âm.
2.2.2. Các âm vị khác
Nguyên âm đôi thì có sự biến thiên một cách liên tục các formant của biểu diễn
phổ theo thời gian. Đối với âm vị loại này, cần phải đặc biệt chú ý đến việc phân
đoạn theo thời gian khi nhận dạng.
Các bán nguyên âm như /l/, /r/ và /y/ là tương đối khó trong việc biểu diễn đặc
trưng. Các âm thanh này không được coi là nguyên âm nhưng gọi là bán nguyên âm
do bản chất tựa nguyên âm của chúng. Các đặc trưng âm học của các âm thanh
này chịu ảnh hưởng rất mạnh của ngữ cảnh mà trong đó chúng xuất hiện.
Đối với các âm mũi thì miệng đóng vai trò như một khoảng cộng hưởng có tác
dụng bẫy năng lượng âm tại một vài tần số tự nhiên. Các tần số cộng hưởng này
của khoang miệng xuất hiện như các phản cộng hưởng, hay các điểm không của
hàm truyền đạt. Ngoài ra, các phụ âm mũi còn được đặc trưng bởi những sự cộng
hưởng mạnh hơn về phổ so với các nguyên âm.
Các phụ âm xác vô thanh như /s/, /sh/. Hệ thống tạo ra các phụ âm xác vô thanh
bao gồm một nguồn nhiễu tại một điểm thắt mà chia ống dẫn âm thành hai khoang.
Âm thanh được bức xạ tại khoang trước. Khoang sau có tác dụng bẫy năng lượng
như trong trường hợp phụ âm mũi, và như vậy là đưa các phản cộng hưởng vào
âm thanh đầu ra. Bản chất không tuần hoàn là đặc trưng cơ bản nhất của nguồn
kích thích xác vô thanh.
Điểm khác biệt của các âm xác hữu thanh như /v/, /th/ so với các phụ âm xác
vô thanh là ở chỗ có hai nguồn kích thích liên quan tới việc tạo ra chúng. Như vậy
đặc trưng của phụ âm xác hữu thanh là bao gồm cả hai thành phần kích thích tuần
hoàn và nhiễu.
Các âm dừng là các phụ âm /b/, /d/, /g/, /p/, /t/ và /k/ chúng có thời gian
tồn tại rất ngắn. Các âm dừng có tính chất động vì thế các thuộc tính của chúng
chịu ảnh hưởng rất nhiều bởi nguyên âm đi sau nó.
20
- Xem thêm -