BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH
LUẬN VĂN THẠC SĨ
PHAN VĂN ĐẦY
NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT
DÙNG MẠNG NƠRON TRIỂN KHAI
TRÊN KIT ARM
S
K
C
0
0
3
9
5
9
NGÀNH: KỸ THUẬT ĐIỆN TỬ- 605270
S KC 0 0 3 2 5 3
Tp. Hồ Chí Minh, 2012
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH
LUẬN VĂN THẠC SĨ
PHAN VĂN ĐẦY
NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT DÙNG
MẠNG NƠRON TRIỂN KHAI
TRÊN KIT ARM
NGÀNH: KỸ THUẬT ĐIỆN TỬ- 605270
Tp. Hồ Chí Minh, tháng 04/2011
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH
LUẬN VĂN THẠC SĨ
PHAN VĂN ĐẦY
NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT DÙNG MẠNG
NƠRON TRIỂN KHAI TRÊN KIT ARM
NGÀNH: KỸ THUẬT ĐIỆN TỬ - 605270
Hướng dẫn khoa học:
PGS.TS LÊ TIẾN THƯỜNG
Tp. Hồ Chí Minh, tháng 4/2011
BỘ GIÁO DỤC & ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH
CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
PHIẾU XÁC NHẬN
Tên đền tài: Nhận dạng tiếng nói Tiếng Việt dùng mạng nơron triển khai trên Kit
ARM
Họ & tên tác giả: Phan Văn Đầy
Ngành: Kỹ thuật điện tử.................................................. Khóa: 2009A
Họ & tên người hướng dẫn (học hàm, học vị): PGS. TS Lê Tiến Thường .........................
Cơ quan công tác: Trường đại học Bách Khoa thành phố Hồ Chí Minh.
Tp. Hồ Chí Minh, ngày
tháng 5 năm 2011
Chủ nhiệm ngành
Giảng viên hướng dẫn
(Ký & ghi rõ họ tên)
(Ký & ghi rõ họ tên)
TS. Ngô Văn Thuyên
PGS.TS Lê Tiến Thường
LÝ LỊCH KHOA HỌC
(Dùng cho nghiên cứu sinh & học viên cao học)
I. LÝ LỊCH SƠ LƯỢC:
Họ & tên: Phan văn Đầy
Giới tính: Nam
Ngày, tháng, năm sinh: 16/11/1976
Nơi sinh: Đồng Tháp
Quê quán: Đồng Tháp
Dân tộc: Kinh
Chức vụ, đơn vị công tác trước khi học tập, nghiên cứu: Giảng viên Khoa
Công nghệ thông tin Trường đại học Đồng Tháp.
Chỗ ở riêng hoặc địa chỉ liên lạc: 128/6, ấp Tân Thạnh, xã Phong Hòa,
huyện Lại Vung, tỉnh Đồng Tháp.
Điện thoại cơ quan: 0673.881623
Điện thoại nhà riêng:
0673.628162
Fax: 0673.881623
E-mail:
[email protected]
II. QUÁ TRÌNH ĐÀO TẠO:
1. Đại học:
Hệ đào tạo: Chính qui
Thời gian đào tạo từ 09/1995 đến 04/2000
Nơi học (trường, thành phố): Trường đại học Cần Thơ, thành phố Cần Thơ
Ngành học: Điện tử
Tên đồ án, luận án : Phân tích tín hiệu âm thanh trong miền tần số
Ngày & nơi bảo vệ đồ án, luận án hoặc thi tốt nghiệp: Tháng 05 năm 2000
Người hướng dẫn: CN. Đoàn Hòa Minh.
2. Thạc sĩ:
Hệ đào tạo: Chính quy
Thời gian đào tạo từ 02/2009 đến 02/2011
Nơi học (trường, thành phố): Trường đại học sư phạm kỹ thuật thành phố
Hồ Chí Minh
Ngành học: Kỹ thuật điện tử
Tên luận văn: Nhận dạng tiếng nói Tiếng Việt dùng mạng nơron triển khai
trên Kit ARM.
Ngày & nơi bảo vệ luận văn: Tháng 4 năm 2011 tại Trường đại học sư
phạm kỹ thuật thành phố Hồ Chí Minh.
Người hướng dẫn: PGS. TS. Lê Tiến Thường
3. Trình độ ngoại ngữ: Anh văn Toefl IPT 470 điểm
III. QUÁ TRÌNH CÔNG TÁC CHUYÊN MÔN KỂ TỪ KHI TỐT NGHIỆP
ĐẠI HỌC:
Thời gian
Nơi công tác
Từ 8/2000
Khoa Công nghệ thông tin Trường
Kỹ sư bảo trì sửa chữa phần
đến 6/2006
đại học Cần Thơ
cứng máy vi tính.
Từ 6/2006
Giảng viên Khoa Công nghệ thông
Giảng dạy môn Kỹ thuật số và
tin Trường đại học Đồng Tháp.
Điện tử căn bản.
đến nay
Công việc đảm nhiệm
IV. CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ: Chưa có
XÁC NHẬN CỦA CƠ QUAN CỬ ĐI HỌC
(Ký tên, đóng dấu)
Ngày 29 tháng 3 năm 2011
Người khai ký tên
Phan văn Đầy
LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố
trong bất kỳ công trình nào khác
Tp. Hồ Chí Minh, ngày 29 tháng 3 năm 2011
(Ký tên và ghi rõ họ tên)
Phan Văn Đầy
LỜI CẢM ƠN
Tôi xin gởi lời cảm ơn chân thành nhất đến PGS.TS. Lê Tiến Thường, người đã
tận tình hướng dẫn, giúp đỡ tôi trong suốt quá trình thực hiện luận văn và tạo điều
kiện để tôi có thể hoàn thành luận văn này.
Xin gởi lời cảm ơn đến các Thầy Cô đã dạy tôi trong thời gian qua. Tôi xin cảm
ơn các bạn đồng môn và đồng nghiệp đã quan tâm, chia sẽ trong suốt quá trình học
và làm luận văn.
Xin cảm ơn gia đình tôi đã dành cho tôi tình thương yêu và sự hỗ trợ tốt nhất.
Luận văn tốt nghiệp thạc sĩ
GVHD: PGS.TS.Lê Tiến Thường
TÓM TẮT
Đề tài này đã được thực hiện tại Trường đại học SPKT TpHCM từ ngày 1
tháng 9 năm 2010 đến ngày 28 tháng 2 năm 2011. Kỳ vọng của đề tài là xây dựng
chương trình nhận dạng tiếng nói Tiếng Việt lên Kit xử lý 32 bit họ ARMLM3S2965 thông qua việc xây dựng chương trình nhận dạng tiếng nói Tiếng Việt,
khai thác tính năng của Kit ARM, xây dựng bo mạch thu âm, giao tiếp và nhúng
chương trình nhận dạng tiếng nói Tiếng Việt lên Kit LM3S2965.
Trước tiên, đề tài nghiên cứu lý thuyết đặc trưng cơ bản và lấy mẫu tín hiệu
tiếng nói Tiếng Việt từ các đề tài, bài báo và chọn ra một phương pháp rút trích đặc
trưng tín hiệu tiếng nói thông dụng. Sau đó, dùng các mẫu đặc trưng đã được rút
trích để huấn luyện trọng số mạng nơron và dùng mạng nơron đã được huấn luyện
này để nhận dạng tiếng nói Tiếng Việt.
Đề tài đã thiết kế và thi công mạch thu âm giao tiếp với Kit LM3S2965,
nghiên cứu khai thác một số tính năng của Kit LM3S2965, xây dựng chương trình
nhận dạng tiếng nói Tiếng Việt được thực hiện trên máy tính cá nhân và sau cùng là
xây dựng chương trình nhận dạng tiếng nói Tiếng Việt trên Kit LM3S2965 để điều
khiển cánh tay Robot 5 bậc tự do.
Bộ từ vựng cần nhận dạng là các từ dùng để điều khiển Robot như “Kẹp”,
“Nhả”, “Tiến”, “Lùi”, “Trái”, “Phải”, “Nâng”, “Hạ”, “Dừng” được phát ra từ tác giả
trong điều kiện tiếng ồn thấp. Kết quả của chương trình nhận dạng tiếng nói Tiếng
Việt được thực hiện trên máy tính cá nhân đã đạt được độ chính xác khá tốt (≈90%).
Kết quả của chương trình nhận dạng tiếng nói Tiếng Việt triển khai trên Kit
LM3S2965 có độ chính xác thấp do một số hạn chế trong nghiên cứu và khai thác
tính năng Kit LM3S2965. Mặc dù vậy, đề tài cũng mở ra định hướng nghiên cứu
mới để kết quả được tốt hơn.
i
HVTH: Phan Văn Đầy
Luận văn tốt nghiệp thạc sĩ
GVHD: PGS.TS.Lê Tiến Thường
ABSTRACT
The topic had been being done at University Of Technical Education HCM
City from September 1, 2010 to February 28, 2011. The topic’s expectations is to
develop a Vietnamese speech recognition program in a 32-bit ARM processor
motherboard, LM3S2965, one of motherboards has many advantages in embedded
applications. In addition, the topic performed the Vietnamese speech recognition
programming on a personal computer for the purpose of the orientation for on the
LM3S2965 motherboard programming.
The Vietnamese speech recognition is carried out mainly by the neural
network. That is, the result of identification is determined from a combination of the
analysis of the neural network applied to typical Vietnamese voice. Algorithm used
to train the neural network is the back propagation algorithm. MFCC (Mel-scale
Frequency Cepstral) is used to extract speech signal characteristic.
The topics is limited only to identify the words used to control a robotic arm,
such as “Clamp”, “Release”, “Go”, “Back”, “Left”, “Right”, “Lift”, “Lower” and
“Stop”. They are identified discretely in a low noise conditions and pronounced
from the author, who provided the samples used to train the neural network.
The result of Vietnamese speech recognition performed on a personal
computer achieved a good precision (approximately 90%). However, the
Vietnamese speech recognition program done on the motherboard achieved a
limited result. The reason is that the topic couldn’t check a sampled signal on the
motherboard quickly. However, the topic opened a research direction, which will be
able to bring a better result.
ii
HVTH: Phan Văn Đầy
Luận văn tốt nghiệp thạc sĩ
GVHD: PGS.TS.Lê Tiến Thường
MỤC LỤC
Trang tựa
Trang
Quyết định giao đề tài .....................................................................................
Lý lịch cá nhân ...............................................................................................
Lời cam đoan ..................................................................................................
Cảm tạ ............................................................................................................
Tóm tắt ...........................................................................................................
i
Abstract ...........................................................................................................
ii
Mục lục............................................................................................................
iii
Danh sách các chữ viết tắt ..............................................................................
vi
Danh sách các hình .........................................................................................
vii
Danh sách các bảng ........................................................................................
ix
Lời mở đầu .....................................................................................................
1
Chương 1. Đặc trưng tiếng nói Tiếng Việt .....................................................
4
1.1. Tổng quan về tiếng nói...............................................................
4
1.2. Các đặc điểm cơ bản của Tiếng Việt..........................................
5
1.2.1 Ngữ âm Tiếng Việt .............................................................
5
1.2.2. Thanh điệu Tiếng Việt .......................................................
6
1.2.3. Cấu trúc âm tiết Tiếng Việt ...............................................
8
Chương 2. Hệ thống nhận dạng tiếng nói Tiếng Việt .....................................
9
2.1. Tổng quan về hệ thống nhận dạng tiếng nói ..............................
9
2.2. Các yếu tố ảnh hưởng đến hệ thống nhận dạng tiếng nói .........
10
2.3. Nhận dạng độc lập và phụ thuộc người nói ...............................
10
2.4. Lưu đồ giải thuật nhận dạng tiếng nói dừng mạng nơron..........
11
2.5. Lấy mẫu tín hiệu.........................................................................
12
2.5.1. Lọc thông thấp chống chồng phổ ......................................
12
2.5.2. Lấy mẫu tín hiệu tiếng nói .................................................
12
2.5.3. Chia khung (frame) tín hiệu...............................................
12
2.6. Tách tín hiệu ra khỏi nền............................................................
13
iii
HVTH: Phan Văn Đầy
Luận văn tốt nghiệp thạc sĩ
GVHD: PGS.TS.Lê Tiến Thường
2.6.1. Phương pháp xác định điểm đầu, điểm cuối dùng năng
lượng thời gian ngắn..........................................................
14
2.6.2. Phương pháp xác định điểm đầu, điểm cuối dùng tỉ lệ
biên độ tín hiệu qua điểm Zero ..........................................
15
2.7. Phương pháp trích đặc trưng MFCC (Mel-scale Frequency
Cepstral Coefficient). .................................................................
15
2.7.1. Lọc cửa sổ..........................................................................
16
2.7.2. Biến đổi Fourier rời rạc (DFT) ..........................................
17
2.7.3. Lọc tần số theo thang tần số Mel .......................................
17
2.7.4. Lấy logarit tín hiệu thang Mel ...........................................
19
2.7.5. Biến đổi Fourier ngược (IFFT)..........................................
19
Chương 3: Mạng nơron nhân tạo ...................................................................
21
3.1. Khái niệm về mạng nơron nhân tạo ...........................................
21
3.2. Cấu trúc mạng nơron nhân tạo ...................................................
24
3.2.1. Mạng nơron kết nối đầy đủ................................................
24
3.2.2. Mạng nơron phân lớp.........................................................
24
3.2.3. Mạng nơron truyền thẳng ..................................................
25
3.3 Huấn luyện mạng nơron theo giải thuật lan truyền ngược..........
25
3.3.1. Tính toán ngõ ra nút mạng nơron theo hướng tới..............
28
3.3.2. Cập nhật trọng số mạng nơron theo luật delta...................
28
3.3.3. Giải thuật huấn luyện mạng nơron theo giải thuật lan
truyền ngược ................................................................................
30
Chương 4: Bộ Kit LM3S2965.........................................................................
32
4.1. Đặc tả bộ Kit LM3S2965..........................................................
32
4.2. Cấu trúc Kit LM3S2965............................................................
33
4.2.1. Lõi ARM cortex M3 .........................................................
34
4.2.2. Bộ chuyển đổi tương tự - số (ADC) .................................
35
4.2.3. Khối hiển thị OLED .........................................................
35
4.3. Một số hàm thư viện của Kit LM3S2965 .................................
36
iv
HVTH: Phan Văn Đầy
Luận văn tốt nghiệp thạc sĩ
GVHD: PGS.TS.Lê Tiến Thường
4.3.1. Hàm cho bộ ADC .............................................................
36
4.3.2. Hàm cho màn hình OLED ................................................
37
4.3.3. Hàm cho điều khiển hệ thống ...........................................
38
4.3.4. Hàm cho bộ nhớ Flash .....................................................
39
4.3.5. Hàm đa dụng.....................................................................
40
Chương 5. Thiết kế hệ thống nhận dạng tiếng nói Tiếng Việt........................
41
5.1. Thiết kế mạch thu âm .................................................................
42
5.1.1. Khối mạch tiền khuếch đại micro tự điều chỉnh độ lợi .....
43
5.1.2. Khối mạch lọc thông dãy...................................................
47
5.1.3. Khối mạch giao tiếp ADC .................................................
53
5.2. Thiết kế chương trình lấy mẫu tín hiệu ......................................
56
5.2.1. Lấy mẫu tín hiệu cho chương trình nhận dạng chạy trên PC
56
5.2.2. Lấy mẫu tín hiệu cho chương trình nhận dạng chạy
trên Kit LM3S2965...........................................................
57
5.3. Thiết kế chương trình trích đặc trưng tín hiệu tiếng nói Tiếng Việt 58
5.4. Thiết kế cấu trúc mạng nơron.....................................................
61
5.5. Thiết kế giao diện chương trình chạy trên Kit LM3S2965 ........
62
Chương 6. Kết quả đạt được và hướng phát triển ...........................................
63
6.1. Kết quả đạt được của chương trình chạy trên PC ......................
63
6.2. Kết quả đạt được của chương trình chạy trên Kit LM3S2965...
66
6.3. Hạn chế của đề tài và hướng phát triển ......................................
68
6.2.1. Đối với chương trình nhận dạng trên máy tính cá nhân ....
68
6.3.2. Đối với chương trình nhận dạng chạy trên Kit LM3S2965
68
Tài liệu tham khảo ..........................................................................................
70
v
HVTH: Phan Văn Đầy
Luận văn tốt nghiệp thạc sĩ
GVHD: PGS.TS.Lê Tiến Thường
DANH SÁCH CÁC CHỮ VIẾT TẮT
ADC (Analog to Digital Converter)
: Bộ biến đổi tương tự - số
AGC (Automatic Gain Control)
: Điều khiển độ lợi tự động
ARM (Advanced RISC Machine)
: Máy RISC tiên tiến
DAC (Digital to Analog Converter)
: Bộ đổi số sang tương tự
DFT (Discrete Fourier Transform)
: Biến đổi Fourier rời rạc
FBA (Flux Balance Analysis)
: Phân tích cân bằng thông lượng
FET (Field Effect Transistor)
: Transitor trường ứng
FFT (Fast Fourier Transform)
: Biến đổi Fourier nhanh
FIFO (First In, First Out)
: Vào trước ra trước
IDFT (Inverse Discrete Fourier Transform)
: Biến đổi ngược Fourier rời rạc
IFFT (Inverse Fast Fourier Transform)
: Biến đổi ngược Fourier nhanh
KSPS (Kilo Samples Per Second)
: Nghìn mẫu trên giây
LPC (Linear Prediction Cepstral Coefficients) : Hệ số phổ đặc trưng dự đoán tuyến
tính.
MSPS (Mega Samples Per Second)
: Triệu mẫu trên giây
MFCC (Mel-scale Frequency Cepstral
Coefficient)
: Hệ số phổ đặc trưng thang tần số
Mel
OLED (Organic Light Emission Diode )
: Điốt phát sáng Organic
OP-AMP (Operational Amplifier)
: Bộ khuếch đại thuật toán
PC (Personal Computer)
: Máy tính cá nhân
RISC (Reduced Instruction Set Computing)
: Tính toán với tập lệnh rút gọn
SRAM (Static Random Access Memory)
: Bộ nhớ tĩnh truy xuất ngẫu nhiên
USB (Universal Serial Bus)
: Bus nối tiếp đa dụng
vi
HVTH: Phan Văn Đầy
Luận văn tốt nghiệp thạc sĩ
GVHD: PGS.TS.Lê Tiến Thường
DANH SÁCH CÁC HÌNH
Hình
Trang
Hình 1.1: Đồ thị cường độ quá trình phát âm của âm tiết “xanh xanh”.
8
Hình 2.1: Lưu đồ giải thuật hệ thống nhận dạng tiếng nói dùng mạng
nơron. ......................................................................................
11
Hình 2.2: Đồ thị dạng sóng tín hiệu trong thời gian dài .........................
13
Hình 2.3: Đồ thị dạng sóng tín hiệu trong thời gian ngắn. .....................
13
Hình 2.4: Lưu đồ giải thuật xác định điểm đầu, điểm cuối dùng phương
pháp so sánh năng lượng thời gian ngắn..................................
14
Hình 2.5: Lưu đồ trích đặc trưng tiếng nói bằng giải thuật MFCC. .......
16
Hình 2.6: Đồ thị biểu diễn quan hệ giữa tần số Mel va Hertz. ...............
18
Hình 2.7: Đồ thị dãy bộ lọc Mel dạng tam giác gồm 27 bộ lọc con. ......
19
Hình 3.1: Sơ đồ minh họa một nơron sinh học .......................................
21
Hình 3.2: Mô hình của một mạng nơron nhân tạo tổng quát ..................
22
Hình 3.3: Đồ thị hàm nấc ........................................................................
22
Hình 3.4: Đồ thị hàm dốc........................................................................
23
Hình 3.5: Đồ thị hàm Sigmoid ................................................................
23
Hình 3.6: Minh họa sơ đồ mạng nơron kết nối đầy đủ ...........................
24
Hình 3.7: Minh họa cho mạng nơron phân lớp .......................................
24
Hình 3.8: Minh họa cho mạng nơron truyền thẳng.................................
25
Hình 3.9: Minh hoạt cấu trúc mạng nơron một lớp ẩn............................
26
Hình3.10: Cấu trúc mạng nơron với nút ra thứ k, nút ẩn thứ j và
nút vào thứ i.............................................................................................
28
Hình 3.11 Lưu đồ giải thuật huấn luyện mạng lan truyền ngược. ..........
30
Hình 4.1: Sơ đồ khối của LM3S2965 .....................................................
33
Hình 4.2: Sơ đồ khối lõi ARM cortex M3 ..............................................
34
Hình 4.3: Sơ đồ khối của khối bộ ADC ..................................................
35
Hình 4.4: Màn hình OLED......................................................................
36
vii
HVTH: Phan Văn Đầy
Luận văn tốt nghiệp thạc sĩ
GVHD: PGS.TS.Lê Tiến Thường
Hình 5.1: Sơ đồ khối hệ thống nhận dạng tiếng nói................................
41
Hình 5.2: Sơ đồ khối mạch thu âm. ........................................................
42
Hình 5.3: Sơ đồ mạch nguyên lý của electret microphone. ....................
43
Hình 5.4: Sơ đồ khối mạch AGC cơ bản. ..............................................
43
Hình 5.5: Sơ đồ mạch nguyên lý mạch khuếch đại có độ lợi thay đổi
theo điện trở ngõ vào Rq.........................................................
44
Hình 5.6: Sơ đồ mạch nguyên lý mạch khuếch đại có độ lợi thay đổi
theo điện trở ngõ vào Rq..........................................................
46
Hình 5.7: Sơ đồ nguyên lý khối mạch tách biên độ, lọc và khuếch đại .
tín hiệu điều khiển độ lợi. ........................................................
47
Hình 5.8: Cấu trúc tổng quát mạch lọc Sallen-Key bậc hai....................
48
Hình 5.9: Sơ đồ khối vẽ lại của mạch hình 5.8 .......................................
49
Hình 5.10: Sơ đồ nguyên lý mạch lọc thông thấp Sallen-Key................
50
Hình 5.11: Sơ đồ nguyên lý mạch lọc thông cao Sallen-Key. ................
51
Hình 5.12: Sơ đồ nguyên lý mạch lọc thông dãy....................................
52
Hình 5.13: Sơ đồ nguyên lý mạch khuếch đại có thể điều chỉnh độ lợi.
52
Hình 5.14: Sơ đồ nguyên lý nguồn tín hiệu hoạt động chế độ đơn cực..
53
Hình 5.15: Sơ đồ nguyên lý nguồn tín hiệu hoạt động chế độ vi sai .....
53
Hình 5.16: Sơ đồ nguyên lý liên lạc tín hiệu dùng biến áp.....................
54
Hình 5.17: Sơ đồ nguyên lý mạch đệm tín hiệu......................................
54
Hình 5.18: Sơ đồ nguyên lý mạch đảo tín hiệu.......................................
55
Hình 5.19: Sơ đồ mạch thu âm, lọc và giao tiếp ADC hoàn chỉnh.........
55
Hình 5.20: Lưu đồ giải thuật lấy mẫu tín hiệu dùng cho chương trình
chạy trên máy tính cá nhân. ..................................................
56
Hình 5.21: Lưu đồ giải thuật xác định một frame tín hiệu là tiếng
hay nhiễu. ..............................................................................
57
Hình 5.22: Lưu đồ giải thuật lấy mẫu tín hiệu dùng cho chương trình
chạy trên Kit LM3S2965.......................................................
58
Hình 5.23: Sơ đồ bướm tính FFT phân chia theo thời gian. ...................
60
viii
HVTH: Phan Văn Đầy
Luận văn tốt nghiệp thạc sĩ
GVHD: PGS.TS.Lê Tiến Thường
Hình 5.23: Sơ đồ bướm tính FFT phân chia theo thời gian. ...................
60
Hình 6.1: Giao diện chính của chương trình...........................................
63
Hình 6.2: Giao diện thu âm và lưu trữ mẫu dung để huấn luyện mạng nơron 64
Hình 6.3: Giao diện để kiểm tra lại các mẫu đã được lưu ......................
64
Hình 6.4: Giao diện công cụ huấn luyện mạng nơron có sẳn của Matlab 7.7 65
Hình 6.5: Giao diện ghi âm, phân tích và hiển thị kết quả nhận dạng....
65
Hình 6.6: Hình ảnh bộ Kit ARM-LM3S2965 .........................................
66
Hình 6.7: Hình ảnh bo mạch thu âm, giao tiếp Kit .................................
67
DANH SÁCH CÁC BẢNG
Bảng
Trang
Bảng 3.1: Cấu trúc tổng quát âm tiết Tiếng Việt ....................................
8
Bảng 5.1: Mô tả cách đảo bit cho việc tính FFT 8 điểm.........................
60
ix
HVTH: Phan Văn Đầy
Luận văn tốt nghiệp thạc sĩ
GVHD: PGS.TS.Lê Tiến Thường
LỜI MỞ ĐẦU
ARM(Advanced RISC Machine) là họ máy tính có kiến trúc RISC tiên tiến,
(kiến trúc tính toán với tập lệnh rút gọn tiên tiến). Kit LM3S2965 là Kit xử lý 32
bit họ ARM có nhiều tính năng thuận lợi cho việc nghiên cứu như:
-
Có kiến trúc RISC với tập lệnh rút gọn và hầu hết các lệnh được thực
hiện trong một chu kỳ máy với kiến trúc xử lý song song.
-
Được thiết kế chủ yếu cho các ứng dụng nhúng, có kích thước nhỏ,
giảm hao phí năng lượng.
-
Được thiết kế để tích hợp vào các sản phẩm khác, có các thiết bị ngoại
vi tùy chọn để giao tiếp theo nhu cầu chức năng của hệ thống.
-
Có tập lệnh hỗ trợ lập trình bằng ngôn ngữ ASM, ngôn ngữ C và C++
với nhiều phần mềm lập trình nhúng như Keil uVision, IAR Embedded
Workbench, CodeSourcery Sourcery G++, …
-
Có vùng nhớ SRAM 64 KB dùng chứa Code lập trình, flash 256KB
dùng để dùng làm bộ nhớ trong và có thể được cấu hình sử dụng như bộ
nhớ lưu trữ.
Vì vậy đề tài chọn việc nghiên cứu Kit LM3S2965 với kỳ vọng là có thể khai
thác tính năng của Kit để thực hiện công việc nhận dạng tiếng nói Tiếng Việt với
từ vựng là các từ dùng để điều khiển cánh tay Robot: “Kẹp”, “Nhả”, “Tiến”,
“Lùi”, “Trái”, “Phải”, “Nâng”, “Hạ”, “Dừng”. Mục tiêu cần hướng tới của đề
tài là thực hiện nhận dạng các từ lệnh điều khiển cánh tay Robot vừa nêu trên
Kit LM3S2965 để điều khiể cánh tay Robot 5 bậc tự do.
Tiếng nói người là loại tín hiệu khá phức tạp, luôn thay đổi theo không gian,
thời gian,…Để hiểu được tiếng nói, bộ não con người phải trải qua quá trình
học và xử lý rất phức tạp. Mạng nơron nhân tạo là hệ thống mô phỏng một số
tính chất của não người (mạng nơron sinh học). Nó có khả năng học quan hệ
giữa các biến đầu vào và đầu ra khi dữ liệu đầu vào không có qui luật hoặc qui
luật không rõ ràng. Vì vậy đề tài chọn mạng nơron nhân tạo làm công cụ chính
để học các đặc trưng tiếng nói và dùng cấu trúc mạng nơron nhân tạo đã được
học để nhận dạng tiếng nói với kỳ vọng là nâng cao được độ chính xác của kết
quả nhận dạng tiếng nói .
Nhận dạng tiếng nói là một quá trình nhận dạng mẫu, với mục đích là phân
lớp mẫu tín hiệu tiếng nói ghi được dựa vào thông tin của các mẫu đã được lưu
Lời mở đầu
1
HVTH: Phan Văn Đầy
Luận văn tốt nghiệp thạc sĩ
GVHD: PGS.TS.Lê Tiến Thường
trước đó. Các mẫu là các đơn vị nhận dạng, chúng có thể là các từ, hoặc các âm
tiết. Nếu các mẫu này là bất biến và không thay đổi thì công việc nhận dạng
tiếng nói trở nên đơn giản bằng cách so sánh dữ liệu tiếng nói cần nhận dạng với
các mẫu đã được học và lưu trữ trong bộ nhớ. Khó khăn cơ bản của nhận dạng
tiếng nói là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn giữa
tiếng nói của những người nói khác nhau, tốc độ nói, ngữ cảnh và môi trường
âm học khác nhau. Việc xác định những thông tin biến thiên nào của tiếng nói là
có ích đối với nhận dạng tiếng nói là rất quan trọng. Đây là một nhiệm vụ rất
khó khăn mà ngay cả với các kỹ thuật xác suất thống kê mạnh cũng khó khăn
trong việc tổng quát hoá từ các mẫu tiếng nói những biến thiên quan trọng cần
thiết trong nhận dạng tiếng nói.
Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản:
• Tín hiệu tiếng nói có thể được biểu diễn bởi các giá trị phổ khi xét tín
hiệu một khung thời gian ngắn. Ta có thể trích ra các đặc điểm tiếng nói từ
những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ liệu để nhận
dạng tiếng nói.
• Thông tin tiếng nói có thể được biểu diễn dưới dạng chữ viết và tiếng
nói là phát âm của chữ viết, là một dãy các ký hiệu ngữ âm. Do đó ý nghĩa
của một từ phát âm được bảo toàn khi chúng ta phát âm từ đó thành dãy các
ký hiệu ngữ âm.
Nhận dạng tiếng nói của con người còn là một quá trình nhận thức.
Thông tin về ngữ nghĩa và suy đoán có giá trị trong quá trình nhận dạng
tiếng nói, nhất là khi thông tin về âm học là không rõ ràng.
•
Các thành tựu trong lĩnh vực nhận dạng tiếng nói được áp dụng trong rất
nhiều lĩnh vực, đặc biệt là trong lĩnh vực điều khiển học. Nhận dạng và xử lý
tiếng nói đã được ứng dụng rộng rãi trong các lĩnh vực như: quay số bằng tiếng
nói của điện thoại di động, điều khiển robot với bộ từ vựng nhỏ…
Tuy nhiên, việc giao tiếp giữa người và máy phải thông qua các thiết bị
xuất nhập chuẩn. Để ngày càng tự nhiên hóa việc giao tiếp và điều khiển máy
móc, vấn đề nghiên cứu các phương pháp nhận dạng tiếng nói được đặt ra. Đã
có một số phần mềm ra đời nhận dạng tiếng Anh tương đối tốt như Via voice
của IBM, spoken toolkit của trung tâm hiểu biết ngông ngữ tiêng nói CSLU
(Central of Spoken Laguage Understanding). Tuy nhiên đối với Tiếng Việt thì
chưa có hệ thống nhận dạng hoàn chỉnh nào được xây dựng. Vấn đề này chỉ mới
được quan tâm nghiên cứu trong những năm gần đây. Năm 2004, phần mềm
Vspeech của nhóm BK02 đại học bách khoa Thành phố Hồ Chí Minh đã mang
đến khả năng giao tiếp máy tính bằng tiếng nói. Cho đến nay, đã có thêm một số
công trình nghiên cứu về lĩnh vực này với nhiều hướng tiếp cận khác nhau, song
Lời mở đầu
2
HVTH: Phan Văn Đầy
Luận văn tốt nghiệp thạc sĩ
GVHD: PGS.TS.Lê Tiến Thường
kết quả đạt được vẫn còn rất khiêm tốn và chưa được ứng dụng nhiều trong kỹ
thuật.
Phương pháp nhận dạng dùng mạng thần kinh nhân tạo tỏ ra khá hiệu quả
trong việc tăng độ chính xác của nhận dạng. Các mẫu tín hiệu tiếng nói của
nhiều người ở nhiều vùng, môi trường khác nhau sẽ được tập hợp để hệ thống
học các đặc trưng cơ bản của tiếng nói. Việc nhúng thành công các chương trình
nhận dạng tiếng nói Tiếng Việt vào các Kit xử lý nhỏ gọn có ý nghĩa lớn trong
việc phát triển rộng các ứng dụng kết quả nhận dạng tiếng nói Tiếng Việt vào
các lĩnh vực khoa học kỹ thuật, đặc biệt trong lĩnh vực điều khiển.
Đề tài này tập trung nghiên cứu việc nhận dạng tiếng nói dùng mạng noron
trên máy tính cá nhân được viết bằng ngôn ngữ Matlab để làm cơ sở định hướng
và triển khai nhúng chương trình nhận dạng tiếng nói Tiếng Việt trên Kit
LM3S2965, được viết bằng ngôn ngữ C.
Phương pháp nghiên cứu chính là tìm hiểu thông tin qua các tư liệu có liên
quan, tổng hợp, chọn ra phương pháp thực hiện và triển khai ý tưởng lập trình,
thiết kế hệ thống. Thiết kế và lập trình từng công đoạn, sau đó tổng hợp và điều
chỉnh dần các công đoạn cho đến khi hoàn chỉnh.
Cơ sở lý thuyết có liên quan bao gồm lý thuyết về ngữ âm Tiếng Việt, lý
thuyết về mạng nơron nhân tạo, phương pháp trích đặc trưng và nhận dạng tiếng
nói. Các lý thuyết này được tìm thấy chủ yếu trong các đề tài luận văn tốt nghiệp
và các bài báo.
Phần mềm được dùng trong đề tài bao gồm: Phần mềm ngôn ngữ lập trình
Matlab 7.7, phần mềm vẽ mạch Multisim 9.0, phần mềm lập trình nhúng IAR
Embedded Workbench. Các phần mềm này được chạy trên nền hệ điều hành
Window XP.
Phần cứng được dùng trong đề tài là bộ Kit LM3S2965 của hãng Luminary
Micro, cánh tay Robot 5 bậc tự do, máy tính cá nhân và board mạch thu âm và
giao tiếp giữa mạch thu âm với Kit LM3S2965, mạch giao tiếp giữa bo mạch
LM3S2965 và cánh tay Robot 5 bậc tự do được tác giả thiết kế.
Lời mở đầu
3
HVTH: Phan Văn Đầy