ĈҤI HӐC QUӔC GIA TP. HCM
75ѬӠ1*ĈҤI HӐC BÁCH KHOA
--------------------
CAO XUÂN THIӊN
NHҰN DҤNG
CҦ0;Ò&1*ѬӠI NÓI DӴA TRÊN HӐC SÂU
SPEECH EMOTION RECOGNITION WITH DEEP
CONVOLUTIONAL NEURAL NETWORKS
Chuyên ngành: Kӻ Thuұt ViӉn Thông
Mã sӕ: 8520208
LUҰ19Ă17+Ҥ&6Ƭ
TP. HӖ CHÍ MINH, tháng 8 QăP
&Ð1*75Î1+ĈѬӦC HOÀN THÀNH TҤI;
75ѬӠ1*ĈҤI HӐC BÁCH KHOA ± Ĉ+4*-HCM
&iQEӝKѭӟQJGүQNKRDKӑF3*676+j+RjQJ.KD
&iQEӝFKҩPQKұQ[pW769}7XҩQ.LӋW
&iQEӝFKҩPQKұQ[pW761JX\ӉQĈuQK/RQJ
/XұQYăQWKҥFVƭÿѭӧFEҧRYӋWҥL7UѭӡQJĈҥLKӑF%iFK.KRDĈ+4*7S+&0
QJj\WKiQJQăP WUӵFWX\ӃQ.
ThànKSKҫQ+ӝLÿӗQJÿiQKJLiOXұQYăQWKҥFVƭJӗP
&Kӫ7ӏFK*676/r7LӃQ7KѭӡQJ
7Kѭ.ê76+XǤQK3K~0LQK&ѭӡQJ
3KҧQ%LӋQ769}7XҩQ.LӋW
3KҧQ%LӋQ761JX\ӉQĈuQK/RQJ
Ӫ\9LrQ3*6769}1JX\ӉQ4XӕF%ҧR
;iFQKұQFӫD&KӫWӏFK+ӝLÿӗQJÿiQKJLi/9Yj7UѭӣQJ.KRDTXҧQOêFKX\rQ
QJjQKVDXNKLOXұQYăQÿmÿѭӧFVӱDFKӳDQӃXFy
&+Ӫ7ӎ&++Ӝ,ĈӖ1*
*676/Ç7,ӂ17+ѬӠ1*
75ѬӢ1*.+2$Ĉ,ӊ1± Ĉ,ӊ17Ӱ
ĈҤ,+Ӑ&48Ӕ&*,$73+&0
75ѬӠ1* ĈҤ,+Ӑ&%È&+.+2$
&Ӝ1*+Ñ$;+Ӝ,&+Ӫ1*+Ƭ$9,ӊ71$0
ĈӝFOұS- 7ӵGR- +ҥQKSK~F
NHIӊM VӨ LUҰ19Ă17+Ҥ&6Ƭ
1. Hӑ tên hӑc viên: Cao Xuân ThiӋn
MSHV:1870067
2. 1Jj\WKiQJQăPVLQK
1ѫLVLQK Kon Tum
3. Chuyên ngành: Kӻ Thuұt ViӉn Thông
Mã sӕ: 8520208
4. 7Ç1Ĉӄ TÀI:
භ Tên tiӃng viӋt: 1KұQGLӋQFҧP[~FQJѭӡLQyLGӵDWUrQKӑFVkX.
භ Tên tiӃng anh: Speech Emotion Recognition With Deep Convolutional Neural
Networks.
5. NHIӊM VӨ VÀ NӜI DUNG:
භ NhiӋm vө (Yêu cҫu vӅ nӝi dung và sӕ liӋXEDQÿҫu)
1JKLrQFӭXWәQJTXDQFiFKӋWKӕQJQKұQGҥQJFҧP[~FQJѭӡLQyLĈѭDUDPӝWJLҧL
SKiSKӋWKӕQJÿӇWӕLѭXFKREjLWRiQQKұQGҥQJFҧP[~FQJѭӡLQyL 7KLӃWNӃP{KuQK
KӑFVkXQKұQGҥQJYjÿiQKJLiKLӋXTXҧFӫDFiFJLҧLWKXұWWӕLѭXKyD.
භ Các kӃt quҧ dӵ kiӃn
7KӵFQJKLӋPP{KuQKWUrQSKҫQFӭQJYjNLӇPFKӭQJÿӝFKtQK[iFYӟLP{KuQKÿm
WKLӃWNӃ&XQJFҩSEҧQJVRViQKÿӕLFKLӃXYӟLFiFF{QJWUuQKQJKLrQFӭXÿmFy.
6.
7.
8.
9.
NGÀY GIAO NHIӊM VӨ: 22/02/2021
NGÀY HOÀN THÀNH NHIӊM VӨ: 13/06/2021
CÁN BӜ +ѬӞNG DҮN: PGS.TS. Hà Hoàng Kha
PHҪ1+ѬӞNG DҮN: Toàn bӝ nӝi dung và yêu cҫX/971ÿmÿѭӧc thông qua bӝ môn
7S+&0QJj\WKiQJQăP
CÁN BӜ +ѬӞNG DҮN
CHӪ NHIӊM BӜ MÔN
PGS. TS. HÀ HOÀNG KHA
75ѬӢ1*.+2$Ĉ,ӊN - Ĉ,ӊN TӰ
i
LӠ,&È0Ѫ1
Lӡi ÿҫu tiên tôi xin gӱi tӟi thҫy PGS.TS Hà Hoàng Kha lӡi biӃWѫQVkXVҳc nhҩt vì
nhӳng chӍ dүQÿӏQKKѭӟng tұn tình, tҥo mӑLÿLӅu kiӋn thuұn lӧi nhҩWÿӇ tôi có thӇ thӵc
hiӋn và hoàn thành luұQYăQQj\%rQFҥQKÿyW{LFNJQJ[LQFKkQWKjQKFiPѫQVӵ chӍ
dҥ\ÿҫy tâm huyӃt cӫa các thҫ\F{ÿDQJJLҧng dҥy tҥi bӝ môn ViӉQ7K{QJNKRDĈLӋn
± ĈLӋn tӱWUѭӡQJÿҥi hӑc Bách Khoa thành phӕ Hӗ Chí Minh. Các thҫ\F{ÿmJL~SW{L
tiӃp cұn vӟi nhӳng kiӃn thӭc chuyên ngành quý báu, làm nӅn tҧng cho tôi trong quá
trình hӑc tұp và nghiên cӭu sau này. CuӕLFQJW{L[LQFiPѫQJLDÿuQKÿmOX{Qÿӝng
biên và tҥRÿLӅu kiên tӕt nhҩt cho tôi trong suӕt quá trình nghiên cӭu.
Tp. Hӗ &Kt0LQKQJj\WKiQJQăP
Hӑc viên
Cao Xuân ThiӋn
ii
TÓM TҲT LUҰ19Ă1
Trong nhӳQJQăPJҫQÿk\YLӋc cҧi thiӋQWѭѫQJWiFJLӳDQJѭӡi và máy tính ngày càng
ÿѭӧc quan tâm nhiӅXKѫQ7LӃQJQyLOjFiFKWUDRÿәi thông tin tӵ nhiên và nhanh nhҩt giӳa
FRQQJѭӡi vӟi máy tính. Nhұn dҥng cҧm xúc lӡi nói (SER: Speech Emotion Recognition)
ÿyQJYDLWUzTXDQWUӑng trong các ӭng dөng vӅ FKăPVyFVӭc khӓe, giҧi trí thông minh, nhà
thông minh và nhiӅu dӏch vө thông minh khác. Ngày càng có nhiӅu nghiên cӭu trên thӃ
giӟi tìm cách phân tích trҥng thái cҧm xúc tӯ FiFÿһFWUѭQJÿѭӧc trích xuҩt bҵng lӡi nói
FRQQJѭӡLĈLӅu này giúp máy tính có thӇ ÿѭDUDFiFTX\ӃWÿӏnh tin cұ\KѫQFKtQK[iFKѫQ
ÿӇ phөc cө FRQQJѭӡLQKѭÿLӅu khiӇn âm nhҥc, ánh sáng tùy theo cҧm xúc cӫa chӫ nhà,
phân loҥLQJѭӡLGQJWURQJFiFWUXQJWkPFKăPVyFNKiFKKjQJÿӇ áp dөng các chính sách
khuyӃn mҥi phù hӧp... Tuy nhiên, các nghiên cӭu này chӫ yӃu tiӃn hành khҧo sát dӵa trên
tiӃng Anh. Các nghiên cӭu cho tiӃng ViӋWFzQNKitWWKrPYjRÿyFKѭDFyPӝt bӝ FѫVѫ
dӳ liӋXÿӇ nhұn diӋn cҧm xúc tiӃng ViӋt chuҭn nào mà hҫu hӃt là tӵ xây dӵng bӣi các
nhóm nghiên cӭXÿѫQOҿ.
'RÿyOXұQYăQWұp trung nghiên cӭu vӅ viӋc nhұn dҥng cҧm xúc thông qua lӡi nói tiӃng
ViӋt. Ngoài ra, luұQYăQFNJQJÿiQKJLiWtQKNKҧ thi cӫa viӋFÿѭDJLӟLWtQKQJѭӡi nói vào
thành mӝWÿһFWUѭQJFӫa dӳ liӋXĈҫu tiên, luұQYăQVӁ tìm hiӇu vӅ FiFSKѭѫQJSKiSWUtFK
xuҩWÿһFWUѭQJFӫDkPWKDQKÿѭӧc sӱ dөng phә biӃn trong bài toán nhұn dҥng lӡLQyLQKѭ
MFCC, GFCC, log-PHO&iFSKѭѫQJSKiSWUtFK[XҩWÿһFWUѭQJQj\VӁ ÿѭӧc áp dөng song
song cho bӝ dӳ liӋXÿӇ phөc vө cho viӋFVRViQKÿiQKJLi%ӝ dӳ liӋu sӁ ÿѭӧc tách thành
hai bӝ dӳ liӋu con dӵa trên nhãn giӟLWtQKQJѭӡi nói. Thӭ hai, luұQYăQWLӃQKjQKÿӅ xuҩt
mô hình hӑc sâu phù hӧp cho viӋc nhұn dҥng giӟi tính và cҧm xúc (riêng cho tӯng giӟi
tính). Sau khi nhұn dҥQJÿѭӧc giӟi tính nào, hӋ thӕng sӁ áp dөng mô hình hӑc sâu nhұn
dҥng cҧP[~FWѭѫQJӭng vӟi giӟLWtQKÿyÿӇ ÿѭDUDNӃt quҧ cuӕi cùng. Mô hình nhұn dҥng
FKRÿӝ chính xác 93% trên tұp kiӇm thӱ cho 4 loҥi cҧm xúc trung tính, giұn dӳ, buӗn,
hoҧng sӧ. Cuӕi cùng, luұQYăQVӁ hiӋn thӵc nghiên cӭu trên phҫn cӭng thӵc tӃ. HӋ thӕng
nhұn dҥng cҧm xúc trong luұQYăQÿѭӧc thӵc hiӋn trên máy tính nhúng NVIDIA Jetson
Nano sӱ dөng ngôn ngӳ Python 3 và bӝ WKѭYLӋn mã nguӗn mӣ TensorFlow.
iii
ABSTRACT
In recent years, the attention has been given to improving human-computer interactions.
Speech is the fastest and most natural way of human-to-computer communications.
Speech emotion recognition (SER) plays an important role in application of healthcare,
smart entertainment, smart home, and other smart services. More and more researchers
around the world seek the effective methods to analyze emotional states from features
extracted from human speech. This helps the computer to make more reliable and accurate
decisions such as controlling music and lighting depending on the owner's emotions,
classifying users in customer care centers to apply for suitable promotions and so on.
However, these studies were mainly conducted based on English while research for the
Vietnamese language is quite limited. In addition, there is no standard database for
Vietnamese emotion recognition, most of which are self-built by individual research
groups.
Therefore, the thesis focuses on researching emotion recognition through Vietnamese
speech. In addition, the thesis assesses the feasibility of including the speaker's gender as
a feature of the data. Firstly, the thesis will study the methods of speech feature extraction
commonly used in speech recognition problems such as MFCC, GFCC, log-mel. These
methods of feature extraction will be applied in parallel on the dataset for later comparison
and evaluation. The dataset will be split into two sub-datasets based on speaker gender
labels. Secondly, the thesis develops a suitable deep learning model for gender and
emotion recognition (separate for each gender). After recognizing which gender, the
system will apply a deep learning model to recognize emotions corresponding to that
gender to give the final result. The recognition model gives 93% accuracy on the test set
for 4 types of emotions: neutral, angry, sad, fearful. Finally, the thesis will implement the
SER on real hardware. The emotion recognition system in the thesis is implemented in
NVIDIA Jetson Nano embedded computer by using Python 3 language with the
TensorFlow open-source library.
iv
LӠ,&$0Ĉ2$1&ӪA TÁC GIҦ
7{L[LQFDPÿRDQÿk\OjF{QJWUuQKQJKLrQFӭu khoa hӑFÿӝc lұp cӫa riêng tôi. Các sӕ
liӋu sӱ dөng phân tích trong luұQYăQFyQJXӗn gӕFU}UjQJÿmF{QJEӕ WKHRÿ~QJTX\
ÿӏnh. Các kӃt quҧ nghiên cӭu trong luұQYăQGRW{LWӵ tìm hiӇu, phân tích mӝt cách trung
thӵc, khách quan và phù hӧp vӟi thӵc tiӉn cӫa ViӋt Nam. Các kӃt quҧ Qj\FKѭDWӯQJÿѭӧc
công bӕ trong bҩt kǤ nghiên cӭu nào khác.
Hӑc viên
Cao Xuân ThiӋn
v
MӨC LӨC
NHIӊM VӨ LUҰ19Ă17+Ҥ&6Ƭ ................................................................................... i
LӠ,&È0Ѫ1 ................................................................................................................. ii
TÓM TҲT LUҰ19Ă1................................................................................................... iii
ABSTRACT
................................................................................................................ iv
LӠ,&$0Ĉ2$1&ӪA TÁC GIҦ .................................................................................. v
DANH MӨC HÌNH ҦNH................................................................................................. x
DANH MӨC TӮ VIӂT TҲT......................................................................................... xiii
&+ѬѪ1*
MӢ ĈҪU ................................................................................................. 1
1.1
Lý do chӑQÿӅ tài ................................................................................................... 1
1.2
Mөc tiêu nghiên cӭu ............................................................................................. 2
1.3
ĈӕLWѭӧng nghiên cӭu ........................................................................................... 3
1.4
éQJKƭDNKRDKӑc và thӵc tiӉn cӫDÿӅ tài nghiên cӭu ........................................... 3
1.4.1
éQJKƭDNKRDKӑc............................................................................................ 3
1.4.2
éQJKƭDWKӵc tiӉn ............................................................................................ 3
1.5
Tình hình nghiên cӭXWURQJYjQJRjLQѭӟc ........................................................... 4
1.5.1
Tình hình nghiên cӭu trên thӃ giӟi ................................................................. 4
1.5.2
Tình hình nghiên cӭXWURQJQѭӟc ................................................................... 4
1.6
Bӕ cөc luұQYăQ ..................................................................................................... 8
&+ѬѪ1*
HӐC
2.1
Tәng quan vӅ nhұn dҥng cҧm xúc qua lӡi nói .................................................... 10
2.1.1
2.2
&Ѫ6Ӣ LÝ THUYӂT Vӄ XӰ LÍ TÍN HIӊU TIӂNG NÓI VÀ MÁY
10
Bài toán nhұn dҥng cҧm xúc ........................................................................ 10
ĈһFWUѭQJFӫa âm thanh ...................................................................................... 12
2.2.1
ĈһFWUѭQJFѫEҧn cӫa âm thanh .................................................................... 12
2.2.2
ĈһFWUѭQJFѫEҧn cӫa âm thanh sӕ hóa ........................................................ 13
2.3
Phát hiӋn tín hiӋu tiӃng nói thӡi gian thӵc .......................................................... 14
2.3.1
Hàm ZCR ..................................................................................................... 14
2.3.2
+jPQăQJOѭӧng thӡi gian ngҳn ................................................................... 16
vi
2.4
ĈһFWUѭQJ0)&& ................................................................................................ 16
2.4.1
Pre-emphasis ................................................................................................ 18
2.4.2
Window ........................................................................................................ 19
2.4.3
DFT .............................................................................................................. 20
2.4.4
Mel Filter-Bank ............................................................................................ 21
2.4.5
IDFT ............................................................................................................. 22
2.4.6
Trích xuҩWQăQJOѭӧng .................................................................................. 23
2.5
ĈһFWUѭQJ*)&& ................................................................................................. 23
2.5.1
Bӝ lӑc Gammatone ....................................................................................... 23
2.5.2
Tính WRiQÿһFWUѭQJ*)&& ........................................................................... 24
2.6
MҥQJQѫ-ron hӑc sâu .......................................................................................... 26
2.6.1
Lan truyӅn tiӃn ............................................................................................. 26
2.6.2
Hàm mҩt mát ................................................................................................ 27
2.6.3
Giҧi thuұt lan truyӅQQJѭӧc .......................................................................... 28
2.7
MҥQJQѫ-ron tích chұp ........................................................................................ 29
2.7.1
Lӟp tích chұp ................................................................................................ 29
2.7.2
Lӟp kích hoҥt phi tuyӃn ............................................................................... 30
2.7.3
Lӟp pooling .................................................................................................. 31
2.7.4
Lӟp fully connected ..................................................................................... 32
2.7.5
Lӟp Drop-out ................................................................................................ 32
2.8
KӃt luұQFKѭѫQJ .................................................................................................. 33
&+ѬѪ1*
XÂY DӴNG GIҦI THUҰT NHҰN DҤNG CҦM XÚC LӠI NÓI ..... 34
3.1
Bӝ dӳ liӋu cҧm xúc lӡi nói RAVDESS............................................................... 34
3.2
Xây dӵng mô hình nhұn dҥng cҧm xúc lӡi nói ................................................... 35
3.2.1
ThiӃt kӃ hӋ thӕng phát hiӋn lӡi nói thӡi gian thӵc ....................................... 35
3.2.2
ThiӃt kӃ hӋ thӕng nhұn dҥng giӟi tính qua tín hiӋu lӡi nói .......................... 35
3.2.3
ThiӃt kӃ hӋ thӕng nhұn dҥng cҧm xúc qua tín hiӋu lӡi nói .......................... 37
3.3
KӃt luұQFKѭѫQJ .................................................................................................. 39
&+ѬѪ1*
40
4.1
THIӂT Kӂ VÀ THӴC HIӊN ӬNG DӨNG LÊN MÁY TÍNH NHÚNG
Giӟi thiӋu phҫn cӭng ........................................................................................... 40
vii
4.1.1
4.2
Máy tính nhúng NVIDIA® Jetson Nano ..................................................... 40
Giӟi thiӋu phҫn mӅm........................................................................................... 41
4.2.1
Python........................................................................................................... 42
4.2.2
TensorFlow................................................................................................... 44
4.2.3
Google Colab................................................................................................ 46
4.3
HiӋn thӵc thiӃt kӃ ................................................................................................ 46
4.3.1
Quá trình huҩn luyӋn .................................................................................... 47
4.3.2
Quá trình thӵc thi trên phҫn cӭng ................................................................ 52
4.4
KӃt luұQFKѭѫQJ .................................................................................................. 55
&+ѬѪ1*
KӂT QUҦ THӴC HIӊN ....................................................................... 56
5.1
Tұp dӳ liӋXÿѭӧc sӱ dөng ................................................................................... 56
5.2
KӃt quҧ huҩn luyӋn ............................................................................................. 58
5.2.1
KӃt quҧ nhұn dҥng giӟi tính ......................................................................... 58
5.2.2
KӃt quҧ nhұn dҥng cҧm xúc ......................................................................... 61
5.2.3
So sánh kӃt quҧ huҩn luyӋn vӟi các công trình nghiên cӭXÿmFy ............... 67
5.3
KӃt quҧ thӵc nghiӋm trên phҫn cӭng .................................................................. 69
&+ѬѪ1*
TӘNG KӂT ........................................................................................... 72
6.1
KӃt luұn ............................................................................................................... 72
6.2
Giӟi hҥQYjKѭӟng phát triӇn .............................................................................. 72
6.2.1
Giӟi hҥn ........................................................................................................ 72
6.2.2
+ѭӟng phát triӇn .......................................................................................... 72
TÀI LIӊU THAM KHҦO ............................................................................................... 74
PHҪN LÝ LӎCH TRÍCH NGANG .................................................................................. 78
48È75Î1+Ĉ¬27ҤO ................................................................................................. 78
QUÁ TRÌNH CÔNG TÁC ............................................................................................... 78
viii
DANH MӨC BҦNG BIӆU
Bҧng 1-1. Các nghiên cӭu liên quan .............................................................................. 5
Bҧng 2-1. So sánh viӋFWtQKWRiQÿһFWUѭQJ0)&&Yj*)&& ..................................... 24
Bҧng 3-1. Tham sӕ mô hình nhұn dҥng giӟi tính quá lӡi nói ...................................... 37
Bҧng 3-2. Tham sӕ mô hình nhұn dҥng cҧm xúc lӡi nói ............................................. 37
Bҧng 4-1. Thông sӕ chi tiӃt máy tính nhúng NVIDIA Jetson Nano ............................ 41
Bҧng 4-2. Cҩu hình phҫn cӭng Google Colab cung cҩp .............................................. 46
Bҧng 5-1. KӃt quҧ hiӋu chӍnh siêu tham sӕ nhұn dҥng giӟi tính ................................. 59
Bҧng 5-2. KӃt quҧ kiӇm thӱ nhұn dҥng giӟi tính vӟLÿһFWUѭQJ*)&&KjPNtFKKRҥt
sigmoid và dropout 0.1 ..................................................................................................... 60
Bҧng 5-3. KӃt quҧ hiӋu chӍnh siêu tham sӕ nhұn dҥng cҧm xúc tұp dӳ liӋu giӟi tính nӳ
.......................................................................................................................................... 61
Bҧng 5-4. KӃt quҧ kiӇm thӱ nhұn dҥng cҧm xúc tұp dӳ liӋu giӟi tính nӳ vӟLÿһFWUѭQJ
GFCC, hàm kích hoҥt sigmoid và dropout 0.2 ................................................................. 63
Bҧng 5-5. KӃt quҧ hiӋu chӍnh siêu tham sӕ nhұn dҥng cҧm xúc tұp dӳ liӋu giӟi tính
nam ................................................................................................................................... 64
Bҧng 5-6. KӃt quҧ kiӇm thӱ nhұn dҥng cҧm xúc tұp dӳ liӋu giӟi tính nam vӟLÿһc
WUѭQJ*)&&KjPNtFKKRҥt sigmoid và dropout 0.2 ....................................................... 65
Bҧng 5-7. KӃt quҧ hiӋu chӍnh siêu tham sӕ nhұn dҥng cҧm xúc tұp dӳ liӋu không phân
chia giӟi tính ..................................................................................................................... 66
Bҧng 5-8. So sánh kӃt quҧ huҩn luyӋn vӟi các công trình nghiên cӭXÿmFy............... 67
Bҧng 5-9. KӃt quҧ thӵc nghiӋm phҫn cӭQJQJѭӡi nói trӵc tiӃp................................... 69
Bҧng 5-10. KӃt quҧ thӵc nghiӋm trên phҫn cӭng vӟi 10 file ghi âm trong tұp dӳ liӋu
test ..................................................................................................................................... 70
ix
DANH MӨC HÌNH ҦNH
Hình 1-1. Tình trҥng sӭc khӓe tâm lý giӟi trҿ ngày nay ................................................ 2
Hình 2-1. Các nguӗn tín hiӋXÿҫu vào nhұn diӋn cҧm xúc .......................................... 11
Hình 2-2. Tәng quan bài toán nhұn dҥQJQJѭӡi nói. ................................................... 12
Hình 2-3. Lҩy mүu âm thanh ....................................................................................... 14
Hình 2-4. Zero crossings [31] ...................................................................................... 15
Hình 2-5. Tính toán Zero-crossing rate trong mүu tín hiӋu ......................................... 15
Hình 2-6. Tính toán hàm short time energy trong mүu tín hiӋu .................................. 16
Hình 2-&iFEѭӟc MFCC ......................................................................................... 17
Hình 2-8. Tín hiӋu âm thanh ӣ dҥng thӡi gian ............................................................. 17
Hình 2-9. Tín hiӋXkPWKDQKWUѭӟc và sau khi pre-emphasis ....................................... 18
Hình 2-10. Phә tҫn sӕ thӡi gian ngҳn tín hiӋXWUѭӟc và sau khi pre-emphasis ............ 19
Hình 2-4XiWUuQKWUѭӧt khung cӱa sә trên mүu âm thanh ...................................... 19
Hình 2-12. Các dҥng cӱa sә KyDWKѭӡng dùng ............................................................ 20
Hình 2-13. Hình ҧnh tín hiӋu sau khi biӃQÿәi DFT .................................................... 21
Hình 2-14. Bӝ lӑc Mel tam giác vӟi tҫn sӕ lҩy mүu 16000Hz .................................... 22
Hình 2-15. Mel Spectrogram cӫa tín hiӋu âm thanh vӟi tҫn sӕ 8000Hz...................... 22
Hình 2-16. Phә hӋ sӕ MFCC cӫa mӝt tín hiӋu. ............................................................ 23
Hình 2-17. Gammatone Filter Bank vӟi tҫn sӕ lҩy mүu 16000Hz .............................. 24
Hình 2-18. Phә hӋ sӕ GFCC cӫa tín hiӋu ..................................................................... 25
Hình 2-19. MҥQJQѫ-ron hӑc sâu. Nguӗn: Lecture 4, slice 32, Stanford University
C231n: Convolutional Neural Networks for Visual Recognition .................................... 26
Hình 2-20. Quá trình lan truyӅn trong mҥQJQѫ-ron .................................................... 27
Hình 2-21. HoҥWÿӝng cӫa CNN [32] ........................................................................... 29
Hình 2-22. Lӟp tích chұp ............................................................................................. 30
Hình 2-23. Lӟp kích hoҥt phi tuyӃn. Nguӗn: Lecture 7, slide 17, Stanford University
C231n: Convolutional Neural Networks for Visual Recognition .................................... 31
Hình 2-24. Lӟp Pooling ............................................................................................... 31
Hình 2-25. Lӟp fully-connected ................................................................................... 32
Hình 2-26. Lӟp dropout[30] ......................................................................................... 33
Hình 3-1. Bӝ dataset cҧm xúc lӡi nói RAVDESS[33] ................................................. 34
x
Hình 3-2. Mô hình nhұn dҥng tәng quát ...................................................................... 35
Hình 3-3. Mô hình phát hiӋn lӡi nói thӡi gian thӵc ..................................................... 35
Hình 3-4. Mô hình huҩn luyӋn nhұn dҥng giӟi tính qua lӡi nói................................... 36
Hình 3-5. Mô hình nhұn dҥng cҧm xúc lӡi nói ............................................................ 37
Hình 3-6. Mô hình huҩn luyӋn nhұn dҥng cҧm xúc qua lӡi nói ................................... 39
Hình 4-1. Máy tính nhúng NVIDIA Jetson Nano ........................................................ 41
Hình 4-2. Python .......................................................................................................... 42
Hình 4-3. TensorFlow .................................................................................................. 45
Hình 4-4. Google Colab ............................................................................................... 46
Hình 4-5. Mô hình tәng quát quá trình huҩn luyӋn...................................................... 47
Hình 4-6. Thêm nhiӉu vào mүXÿӇ OjPÿDGҥng dӳ liӋu .............................................. 48
Hình 4-7. Mô hình thӵc hiӋn trên phҫn cӭng ............................................................... 52
Hình 4-4XpWÿӏa chӍ IP cӫa Jetson Nano .................................................................. 53
Hình 4-ĈăQJQKұp SSH vào Jetson Nano ................................................................ 53
Hình 4-10. CҩXKuQKÿӏa chӍ WƭQKFKR-HWVRQ1DQR ...................................................... 54
Hình 5-1. Tұp dӳ liӋu vӅ giӟi tính ................................................................................ 56
Hình 5-2. Nguӗn ngӳ liӋu vӅ cҧm xúc ......................................................................... 57
Hình 5-3. Tұp dӳ liӋu cҧm xúc..................................................................................... 57
Hình 5-Ĉӗ thӏ huҩn luyӋn nhұn dҥng giӟi tính vӟLÿһFWUѭQJ*)&&hàm kích hoҥt
sigmoid và dropout 0.1 ..................................................................................................... 60
Hình 5-5. Ma trұQWѭѫQJTXDQKXҩn luyӋn nhұn dҥng giӟLWtQKÿһFWUѭQJ*)&&KjP
kích hoҥt sigmoid và dropout 0.1 ..................................................................................... 61
Hình 5-Ĉӗ thӏ huҩn luyӋn nhұn dҥng cҧm xúc trên tұp dӳ liӋu nӳ vӟLÿһFWUѭQJ
GFCC, hàm kích hoҥt relu và dropout 0.2........................................................................ 62
Hình 5-7. Ma trұn nhҫm lүn huҩn luyӋn nhұn dҥng cҧm xúc vӟi tұp dӳ liӋu nӳ ÿһc
WUѭQJ*)&&KjPNtFKKRҥt relu và dropout 0.2 .............................................................. 63
Hình 5-Ĉӗ thӏ huҩn luyӋn nhұn dҥng cҧm xúc trên tұp dӳ liӋu nam vӟLÿһFWUѭQJ
GFCC, hàm kích hoҥt relu và dropout 0.2........................................................................ 65
Hình 5-9. Ma trұQWѭѫQJTXDQKXҩn luyӋn nhұn dҥng cҧm xúc vӟi tұp dӳ liӋXQDPÿһc
WUѭQJ*)&&KjPNtFKKRҥt relu và dropout 0.2 .............................................................. 66
Hình 5-10. Mô hình thӵc nghiӋm thӵc tӃ vӟi phҫn cӭng ............................................. 69
Hình 5-11. Thӵc nghiӋm trên phҫn cӭng vӟi mүXQJѭӡi nói trӵc tiӃp trung tính, nhұn
diӋn sai .............................................................................................................................. 70
xi
Hình 5-12. Thӵc nghiӋm trên phҫn cӭng vӟi mүXQJѭӡi nói trӵc tiӃp trung tính, nhұn
diӋQÿ~QJ .......................................................................................................................... 70
Hình 5-13. KӃt quҧ thӵc nghiӋm phҫn cӭng ӭng vӟi mүu nam cҧm xúc giұn dӳ ....... 71
Hình 5-14. KӃt quҧ thӵc nghiӋm phҫn cӭng ӭng vӟi mүu nӳ cҧm xúc buӗn bã ......... 71
xii
DANH MӨC TӮ VIӂT TҲT
CNN
Convolutional Neural Networks
MҥQJQѫ-ron tích chұp
DFT
Discrete Fourier transform
BiӃQÿәi Fourier rӡi rҥc
DNN
Deep Neural Network
MҥQJQѫ-ron hӑc sâu
FFT
Fast Fourier transform
BiӃQÿәi Fourier nhanh
GFCC
*DPPDWRQH)UHTXHQF\&HSVWUDO&RHI¿FLHQWV HӋ sӕ cepstral tҫn sӕ Gamma
HMM
Hidden Markov Model
Mô hình markov ҭn
IDFT
Inverse Discrete Fourier transform
BiӃQÿәi Fourier rӡi rҥFQJѭӧc
LSTM
Long Short-Term Memory
Mҥng bӝ nhӟ ngҳn dài
MFCC
Mel Frequency Cepstral Coefficient
HӋ sӕ cepstral tҫn sӕ Mel
SER
Speech Emotion Recognition
Nhұn diӋn cҧm xúc lӡi nói
STE
Short Time Energy
1ăQJOѭӧng thӡi gian ngҳn
SVM
Support Vector Machine
Máy vector hӛ trӧ
VAD
Voice Activity Detection
Phát hiӋn tiӃng nói thӡi gian thӵc
ZCR
Zero Crossing Rate
TӍ lӋ sӕ lҫn giao vӟi giá trӏ không
xiii
&+ѬѪ1*
MӢ ĈҪU
Trong phҫn này, luұQYăQ trình bày vӅ lý do chӑQÿӅ tài nhұn dҥng cҧm xúc cӫDQJѭӡi
nói. Ӭng dөng cӫa viӋc nhұn dҥng cҧm xúc lӡi nói vào các thiӃt bӏ smarthome giúp cho
cuӝc sӕQJFRQQJѭӡi ngày càng tiӋn lӧi. SDXÿyOj phҫn giӟi thiӋu mөFÿtQKQJKLrQFӭu,
ÿӕLWѭӧng nghiên cӭu, tӯ ÿyU~WUDêQJKƭDNKRDKӑc và thӵc tiӉn cӫDÿӅ tài. Cuӕi cùng là
phҫn tình hình nghiên cӭXWURQJYjQJRjLQѭӟc liên quan.
1.1 Lý do chӑQÿӅ tài
Tín hiӋu lӡLQyLOjSKѭѫQJWKӭc giao tiӃp nhanh nhҩt và tӵ nhiên nhҩt giӳDFRQQJѭӡi.
Thӵc tӃ Qj\ÿmWK~Fÿҭy các nhà nghiên cӭXQJKƭYӅ lӡLQyLQKѭPӝWSKѭѫQJSKiSWѭѫQJ
tác nhanh chóng và hiӋu quҧ giӳDFRQQJѭӡLYjPi\PyF7X\QKLrQÿLӅXQj\ÿzLKӓi cӛ
máy phҧLFyÿӫ WUtWK{QJPLQKÿӇ nhұn ra giӑng nói cӫDFRQQJѭӡi. KӇ tӯ cuӕi nhӳQJQăP
50ÿmFyQKLӅu nghiên cӭu vӅ nhұn dҥng giӑQJQyLWURQJÿyÿӅ cұSÿӃn quá trình chuyӇn
ÿәi lӡi nói cӫDFRQQJѭӡi thành mӝt chuӛi các tӯ. Có nhiӅXKѭӟQJÿӇ tұn dөng tӯ tín hiӋu
lӡLQyLFRQQJѭӡLWURQJÿyFө thӇ là nhұn dҥng cҧm xúc lӡLQyLÿѭӧFÿӏQKQJKƭD là trích
xuҩt trҥng thái cҧm xúc cӫDQJѭӡLQyL1Jѭӡi ta tin rҵng nhұn dҥng cҧm xúc lӡi nói có thӇ
ÿѭӧc sӱ dөQJÿӇ trích xuҩt ngӳ QJKƭDKӳu ích tӯ lӡLQyLYjGRÿyFҧi thiӋn hiӋu suҩt cӫa
các hӋ thӕng nhұn dҥng giӑng nói [1]. Nhұn dҥng cҧm xúc lӡi nói - Speech Emotion
Recognition (SER) là mӝWOƭQKYӵc nghiên cӭu tích cӵc trong xӱ lý tín hiӋu sӕ ÿѭӧc sӱ
dөQJÿӇ nhұn biӃt trҥng thái cҧP[~Fÿӏnh tính cӫDQJѭӡi nói bҵng tín hiӋu giӑng nói, có
nhiӅXWK{QJWLQKѫQOӡi nói. NhiӅu nhà nghiên cӭXÿDQJOjPYLӋc tURQJOƭQKYӵFQj\ÿӇ
làm cho mӝt hӋ thӕQJÿӫ thông minh có thӇ hiӇXÿѭӧc trҥng thái tӯ mӝt lӡi nói cӫa mӝt cá
QKkQÿӇ phân tích hoһF[iFÿӏnh tình trҥng cҧm xúc cӫDQJѭӡi nói.Ngày nay, các trí thông
minh nhân tҥo nәi tiӃng trên thӃ giӟLQKѭ6LUL$OH[DNKông chӍ dӯng lҥi ӣ mӭFÿLӅu khiӇn
theo lӋnh, mà còn thӵc hiӋn lӋnh linh hoҥt theo cҧm xúc cӫa chӫ nhân. Bên cҥQKÿyYLӋc
nhұn dҥQJFiFÿһFÿLӇm phө thuӝc vӅ FRQQJѭӡLQKѭJLӟi tính, khoҧng tuәi cӫa các dӳ liӋu
kPWKDQKÿmÿѭӧc nghiên cӭXYjFyÿѭӧFÿӝ chíQK[iFFDRJL~SOjPWăQJNKҧ QăQJQKұn
diӋn các dӳ liӋu có phө thuӝFYjRÿһFÿLӇm cӫDFRQQJѭӡLQKѭQKұn dҥng cҧm xúc, nhұn
dҥQJQJѭӡLÿăQJNtYY«
Theo nghiên cӭu cӫa Quӻ 1KLÿӗng Liên Hӧp Quӕc (UNICEF), khoҧng 8% - 29% trҿ
HPÿDQJWURQJÿӝ tuәi vӏ thành niên ӣ ViӋt Nam mҳc các bӋnh vӅ sӭc khӓe tâm lí cҧm xúc.
Ĉһc biӋt nghiêm trӑng là ӣ vùng thành thӏ 15% dân sӕ ViӋt Nam mҳc các rӕi loҥn do stress.
Ngày nay, mҥng xã hӝi và thӇ WKDRÿLӋn tӱ ngày càng phát triӇQÿmOjPWK~Fÿҭy các kênh
giao tiӃp mӟi giӳa giӟi trҿ và máy móc. Hình 1-ErQGѭӟLÿk\PLrXWҧ nhӳng lý do phә
biӃn mà nhӳQJQJѭӡi trҿ WuPÿӃQWѭYҩQWkPOê7URQJÿyQKӳng nguyên nhân có phҫn
tiêu cӵc nhҩWQKѭFҧm giác tuyӋt vӑQJFyêÿӏnh tӵ tӱ, bӏ bҳt nҥt ӣ WUѭӡng hӑF«OjQKӳng
nguyên nhân gia WăQJWKҩy rõ nhҩW'RÿyQӃu có mӝt hӋ thӕng tәng hӧp, thӕQJNrYjÿѭD
ra dӵ ÿRiQWtQKWUҥng tâm lí sӁ giúp giҧm bӟt cҧ sӕ Oѭӧng và tính chҩt nguy hiӇm cӫa nhӳng
vҩQÿӅ tâm lí này.
1
Hình 1-1. Tình tr̩ng sͱc kh͗e tâm lý giͣi tr̓ ngày nay
Phҫn lӟn các nghiên cӭu trên trình bày các kӻ thuұWÿӇ dӵ ÿRiQFҧm xúc lӡi nói bҵng
cách sӱ dөng huҩn luyӋn vӅ mӝt nhiӋm vө duy nhҩt (nhұn dҥng cҧm xúc). Tuy nhiên,
nhӳng kӻ thuұt này bӓ qua mӝt nguӗn thông tin có khҧ QăQJSKong phú có sҹn trong lӡi
nói (ví dө, thông tin vӅ QJѭӡi nói, giӟi tính, v.v.) có thӇ ÿѭӧc sӱ dөQJÿӇ ÿҥWÿѭӧc sӵ khái
quát hóa và cҧi thiӋn hiӋu suҩWĈӇ ÿҥWÿѭӧFÿLӅXÿyKҫu hӃt các nghiên cӭu hiӋn tҥi có xu
Kѭӟng xác nhұQYjÿLӅu chӍnh các mô hình bҵng cách sӱ dөng các bӝ dӳ liӋXÿDGҥng. Tuy
nhiên, các bӝ dӳ liӋXÿLӇm chuҭn tiêu chuҭn rҩt khan hiӃm và có vҩQÿӅ nhҩt là chúng có
NtFKWKѭӟc nhӓ, tҥo ra các rào cҧn lӟn trong viӋFÿҥWÿѭӧc sӵ khái quát hóa trong hӋ thӕng
SER.
Bên cҥQKÿyPһFGÿmFyQKӳng tiӃn bӝ lӟn trong viӋc nhұn dҥng giӑng nói, chúng ta
vүn còn lâu mӟi có sӵ WѭѫQJWiFWӵ nhiên giӳDFRQQJѭӡi và máy móc vì máy không hiӇu
ÿѭӧc trҥng thái cҧm xúc cӫDQJѭӡi nói. Trong SER, lӵa chӑn và trích xuҩWFiFWtQKQăQJ
nәi bұt là mӝt nhiӋm vө ÿҫy thách thӭc. Thành công cӫa SER sӁ [iFÿӏnh lҥLFiFWѭѫQJWiF
giӳDQJѭӡi và máy tính. Các trung tâm cuӝc gӑi hiӋn theo dõi cҧm xúc cӫDNKiFKKjQJÿӇ
cung cҩp dӏch vө tӕWKѫQ>@&iFKӋ thӕng chҭQÿRiQGӵa trên lӡLQyLÿDQJÿѭӧc phát triӇn
ÿӇ chҭQÿRiQWUҫm cҧP>@ÿDXNKә [4] và theo dõi trҥng thái tâm trҥng cho bӋnh nhân
Oѭӥng cӵc [5]. NhiӅu ӭng dөng khác bao gӗm hӋ thӕng truy xuҩWSKѭѫQJWLӋn [6], xe thông
minh [7] và khoa hӑFSKiS\>@FNJQJQKҵm cҧi thiӋn hiӋu suҩt cӫa chúng bҵng cách sӱ
dөng các kӻ thuұt SER.
1.2 Mөc tiêu nghiên cӭu
Mөc tiêu nghiên cӭu cӫa luұQYăQEDRJӗPFiFÿLӇPFѫEҧn sau:
-
ThiӃt kӃ mô hình hӑFVkXÿӇ nhұn dҥng cҧP[~FQJѭӡi nói.
-
ĈѭDUDPӝt giҧi pháp hӋ thӕQJÿӇ cҧi tiӃn hoһc tӕLѭXFKREjLWRiQQKұn dҥng cҧm
[~FQJѭӡi nói.
-
Thӵc nghiӋm kiӇm chӭQJÿӝ chính xác vӟLP{KuQKÿmWKLӃt kӃ.
2
-
Có sӵ VRViQKÿӕi chiӃu vӟi các công trình nghiên cӭXÿmFy
1.3 ĈӕLWѭӧng nghiên cӭu
-
Các nghiên cӭXWURQJYjQJRjLQѭӟFWURQJOƭQKYӵc nhұn dҥng tiӃng nói và nhұn
dҥng cҧP[~FQJѭӡi.
-
Các thuұt toán giúp phát hiӋn, tách biӋt tín hiӋu tiӃng nói so vӟi nӅn nhiӉu trong
thӡi gian thӵc.
-
Các dҥng trích xuҩWÿһFWUѭQJFӫa âm thanh tiӃQJQyLFRQQJѭӡi.
-
Các thuұWWRiQYjSKѭѫQJSKiS[ӱ OtÿһFWUѭQJJLӑQJQyLÿmFyWӯ WUѭӟc, các thuұt
toán máy hӑc.
-
KiӇm nghiӋm mô hình tính toán trên máy tính nhúng.
1.4 éQJKƭDNKRDKӑc và thӵc tiӉn cӫDÿӅ tài nghiên cӭu
1.4.1 éQJKƭDNKRDKӑc
Sau khi luұQYăQQj\KRjQWKjQKVӁ ÿHPÿӃn nhӳng kӃt quҧ QKѭVDX
-
1rXOrQÿѭӧF[XKѭӟQJJLDWăQJQKXFҫu ӭng dөng cӫa bài toán nhұn dҥng cҧm xúc
QJѭӡi nói trong cuӝc sӕng hiӋn tҥLYjWѭѫQJODL
-
Giӟi thiӋXYjSKkQWtFKÿѭӧc mӝt sӕ hӋ thӕng nhұn dҥng cҧP[~FQJѭӡi nói hiӋn
QD\FiFNƭWKXұWÿmYjÿDQJÿѭӧc áp dөng.
-
Phân tích và cҧi thiӋn các mô hình nhұn diӋn cҧP[~FÿmFy
-
Có mô hình thӵc nghiӋm kiӇm chӭQJP{KuQKÿӝ chính xác, thӡi gian xӱ lý và tính
khҧ thi cӫa hӋ thӕng.
-
BҧQJVRViQKÿӕi chiӃu vӟi các kӃt quҧ nghiên cӭXWUѭӟFÿy
1.4.2 éQJKƭDWKӵc tiӉn
VӅ mһt kinh tӃ, nhұn diӋn cҧP[~FQJѭӡi nói cho phép cung cҩp các dӏch vө hiӋu quҧ
KѫQWURQJQKLӅXOƭQKYӵc. Ví dө: trung tâm cuӝc gӑLFKăPVyFNKiFKKjQJWKHRG}LFҧm
[~FÿӇ cung cҩp dӏch vө tӕWKѫQVӱ dөQJWURQJVPDUWKRPHÿӇ nhұn biӃt cҧm xúc cӫa chӫ
QKj«
VӅ y hӑc, nhұn diӋn cҧP[~FQJѭӡi nói giúp cung cҩp hӋ thӕng chuҭQÿRiQWUҫm cҭm
dӵa trên cҧm xúc cӫa bӋnh nhân, hӋ thӕng theo dõi trҥng thái tâm trҥng cӫa bӋQKQKkQÿӇ
ÿѭDUDFiFSKiWÿӗ ÿLӅu trӏ tӕWKѫQ
VӅ kӻ thuұt, qua quá trình khҧo sát, thiӃt kӃ, thӱ nghiӋPYjÿiQKJLiFiFSKѭѫQJiQFKR
bài toán nhұn dҥQJQJѭӡi nói, luұQYăQFKRWKҩy mӝt quy trình triӇn khai chһt chӁ tӯ lý
3
thuyӃWÿӃn thӵFKjQKÿҧm bҧo tính khҧ thi và hӳu dөng cӫDÿӅ WjLĈӗng thӡLÿk\OjFѫ
sӣ cho viӋc hiӋn thӵc hóa và triӇn khai rӝng rãi trong thӵc tӃ.
1.5 Tình hình nghiên cӭXWURQJYjQJRjLQѭӟc
1.5.1 Tình hình nghiên cӭu trên thӃ giӟi
Xӱ lý âm thanh là mӝWOƭQKYӵc nghiên cӭu rӝng trên thӃ giӟi. GҫQÿk\FiFQKjQJKLrQ
cӭXÿmWKLӃt lұp mӝt sӕ kӻ thuұt hiӋu quҧ cho hӋ thӕng SER bҵng các cách tiӃp cұn mӟi.
Trích xuҩWÿѭӧFÿһFWUѭQJkPWKDQKÿӇ nhұn diӋn chính xác cҧm xúc cӫDQJѭӡi nói là mӝt
nhiӋm vө ÿҫy thách thӭFWURQJOƭQKYӵc này. MӝW6(5ÿLӇQKuQKÿѭӧc chia thành hai phҫn:
1. Quá trình lӵa chӑQÿһFWUѭQJÿӇ trích xuҩt tӯ dӳ liӋu giӑng nói.
2. Lӵa chӑQFiFSKѭѫQJSKiSSKkQORҥLÿӇ nhұn biӃt chính xác cҧm xúc tӯ lӡi nói.
GҫQÿk\QKLӅu nhà nghiên cӭXÿmVӱ dөQJSKѭѫQJSKiSKӑFVkXÿӇ cҧi thiӋQÿӝ chính
xác nhұn dҥng bҵng tín hiӋu âm thanh, trong khi mӝt sӕ nhà nghiên cӭXÿmVӱ dөQJÿһc
tính trích xuҩt cҩp thҩSÿӇ huҩn luyӋQFiFP{KuQK&11'11ÿӇ WăQJÿӝ chính xác cӫa
SER.
7URQJÿyWiFgiҧ 'DYHHWDO>@ÿmÿiQKJLiFiFWtQKQăQJNKiFQKDXFKRFҧm xúc lӡi
nói và cho thҩy hiӋu quҧ cӫD 0HO IUHTXHQF\ FHSVWUDO FRHIILFLHQW 0)&& >@ FiF ÿһc
WUѭQJFKREjLWRiQ6(5WKD\YuFiFWtQKQăQJFҩp thҩSNKiFQKѭÿӏnh dҥQJÿӝ ӗQPmQăQJ
suҩt tuyӃn tính Linear Productivity Code (LPC) [16] Liu [34] sӱ dөng trích xuҩt hӋ sӕ
cepstral tҫn sӕ JDPPD*)&&FKR6(5ÿӇ WăQJÿӝ chính xác trӑng sӕ lên tӟi 3,6% so vӟi
MFCC. Nhà nghiên cӭu Liu và các cӝng sӵ >@ÿmÿӅ xuҩt mӝWSKѭѫQJSKiSFKRKӋ thӕng
SER bҵng cách sӱ dөng bӝ dӳ liӋu tiӃng Trung QuӕF>@&$6,$ÿӇ chӑQFiFWtQKQăQJ
cҧm xúc ҭn dӵDWUrQP{LWUѭӡQJWѭѫQJTXDQYjVӱ dөng cây quyӃWÿӏnh dӵa trên máy hӑc
FKtQK[iF([WUHPH/HDUQLQJ0DFKLQH(/0ÿӇ phân loҥi. Fahad và cӝng sӵ >@ÿmP{
tҧ mӝWSKѭѫQJSKiSÿӇ chӑQFiFWtQKQăQJGӵa trên trích xuҩt MFCC và huҩn luyӋn trên
mô hình dӵDWUrQ'11ÿѭӧFÿjRWҥRFKR6(5:HLYj=KDR>@ÿmÿӅ xuҩt mӝt mô hình
nhұn dҥng cho SER bҵng cách sӱ dөng trích xuҩt MFCC, nhұn dҥng dӵa trên DNN và
690ÿӇ WKXÿѭӧc kӃt quҧ tӕt trên bӝ dӳ liӋu cҧm xúc lӡi nói Trung Quӕc.
1.5.2 Tình hình nghiên cӭXWURQJQѭӟc
Nhұn dҥng lӡLQyLÿһc biӋt là tiӃng ViӋWOjOƭQKYӵc nghiên cӭXÿmÿѭӧc phát triӇn tӯ lâu
ӣ ViӋt Nam và có rҩt nhiӅu bài nghiên cӭXOLrQTXDQ1ăPWiFJLҧ TiӃQ7Kѭӡng
cùng các cӝng sӵÿҥi hӑc Quӕc Gia thành phӕ Hӗ &Kt0LQKÿm[k\Gӵng mӝt hӋ thӕng
nhұn dҥng tiӃng nói các câu lӋnh ӭng dөQJFKRFiQKWD\URERW>@GQJP{KuQKQѫ-ron
và các cách trích xuҩW ÿһF WUѭQJ 67)7 &:7&RQWLQXRXV :DYHOHW 7UDQVIRUP FKR ÿӝ
chính [iFFDR1ăPWiFJLҧ 7UXQJ1JKƭDÿҥi hӑc Quӕc Gia Hà Nӝi, trong luұQYăQ
thҥFVƭFӫDPuQKÿm[k\Gӵng mӝt hӋ thӕng nhұn dҥng tiӃng ViӋt sӱ dөng biӃQÿәi Wavelet
và mô hình Markov ҭn [27]. KӃt quҧ WKXÿѭӧFWѭѫQJÿӕi tӕWÿӝ chính xác 91%.
Trong khi ÿyFiFQJKLrQFӭu vӅ nhұn dҥng cҧm xúc thông qua lӡi nói ngôn ngӳ ViӋt
Nam chӍ mӟLÿѭӧc triӇn khai trong nhӳQJQăPJҫQÿk\
1ăPEjLEiR³6RViQKKLӋXQăQJPӝt sӕ SKѭѫQJSKiSQKұn dҥng cҧm xúc tiӃng
nói ViӋW´>@Fӫa tác giҧ Lê Xuân Thành và các cӝng sӵ ÿѭӧc trình bày trong hӝi nghӏ
4
khoa hӑc quӕc gia lҫn thӭ 9 tҥi CҫQ7Kѫ%jLEiRNKҧo sát trên bӝ dӳ liӋu tӵ thu thұp gӗm
52800 mүu chia làm 4 loҥi cҧP[~FEuQKWKѭӡng, vui, buӗn, tӭc giұn. Bài báo sӱ dөQJÿӝ
biӃn thiên tҫn sӕ FѫEҧQ)OjPÿһFWUѭQJÿҫu vào, so sánh giӳa nhiӅu hӋ thӕng nhұn diӋn
NKiFQKDXQKѭ.OiQJJLӅng gҫn nhҩt KNN (K-Nearest Neighbor), phân biӋt tuyӃn tính
LDA (Linear Discriminant Analysis ), máy véc-WѫKӛ trӧ SVM (Support Vector machine).
Ĉӝ chính xác cao nhҩt cӫa hӋ thӕng là 56.9ÿӕi vӟi giӑQJQDPYjÿӕi vӟi giӑng
nӳ.
1ăPWiFJLҧ ĈjR7Kӏ LӋ Thӫy và các cӝng sӵWURQJEjLEiR³ҦQKKѭӣng cӫDÿһc
WUѭQJSKә tín hiӋu tiӃQJQyLÿӃn nhұn dҥng cҧm xúc tiӃng ViӋW´>@ÿm[k\Gӵng mô hình
nhұn dҥng hӛn hӧp Gauss (GMM - Gauss Mixture Model) sӱ dөng loҥi trích xuҩW ÿһc
WUѭQJ 0)&& %ӝ dӳ liӋX ÿѭӧc sӱ dөng gӗm 5584 mүu phân làm 4 loҥi cҧm xúc bình
WKѭӡng, buӗn, vui, tӭc giұn. HӋ thӕng nhұn dҥQJFKRÿӝ chính xác khá cao 88.6%.
B̫ng 1-1. Các nghiên cͱu liên quan
Tài
Paper
liӋu
tham
khҧo
Dataset
ĈһFWUѭQJ
[34]
RAVDESS
(1440 mүu, 7
loҥLQJѭӡi
tham gia)
Gammatone Neural
Frequency
Networks
Cepstral
Coefficients
(GFCC)
Evaluating
Gammatone
Frequency
Cepstral
Coefficients
with Neural
Networks for
Emotion
Recognition
from Speech
(2018)
Phân loҥi
Ĉӝ
chính
xác
76.8
Tóm tҳt
- Trích xuҩWÿһc
WUѭQJEҵng cҧ
KDLSKѭѫQJ
pháp MFCC và
GFCC.
- Paper cho kӃt
quҧ: trên nhiӅu
model khác
nhau, GFCC
FKRÿӝ chính
[iFFDRKѫQ
MFCC tӯ 3.6%
ӣ bài toán nhұn
dҥng cҧm xúc.
- Có sӕ bài toàn
trích dүn lӟn
137.
5
- Xem thêm -