Đăng ký Đăng nhập
Trang chủ Nhận dạng cảm xúc người nói dựa trên học sâu ...

Tài liệu Nhận dạng cảm xúc người nói dựa trên học sâu

.PDF
93
1
78

Mô tả:

ĈҤI HӐC QUӔC GIA TP. HCM 75ѬӠ1*ĈҤI HӐC BÁCH KHOA -------------------- CAO XUÂN THIӊN NHҰN DҤNG CҦ0;Ò&1*ѬӠI NÓI DӴA TRÊN HӐC SÂU SPEECH EMOTION RECOGNITION WITH DEEP CONVOLUTIONAL NEURAL NETWORKS Chuyên ngành: Kӻ Thuұt ViӉn Thông Mã sӕ: 8520208 LUҰ19Ă17+Ҥ&6Ƭ TP. HӖ CHÍ MINH, tháng 8 QăP &Ð1*75Î1+ĈѬӦC HOÀN THÀNH TҤI; 75ѬӠ1*ĈҤI HӐC BÁCH KHOA ± Ĉ+4*-HCM &iQEӝKѭӟQJGүQNKRDKӑF3*676+j+RjQJ.KD &iQEӝFKҩPQKұQ[pW769}7XҩQ.LӋW &iQEӝFKҩPQKұQ[pW761JX\ӉQĈuQK/RQJ /XұQYăQWKҥFVƭÿѭӧFEҧRYӋWҥL7UѭӡQJĈҥLKӑF%iFK.KRDĈ+4*7S+&0 QJj\WKiQJQăP WUӵFWX\ӃQ . ThànKSKҫQ+ӝLÿӗQJÿiQKJLiOXұQYăQWKҥFVƭJӗP &Kӫ7ӏFK*676/r7LӃQ7KѭӡQJ 7Kѭ.ê76+XǤQK3K~0LQK&ѭӡQJ 3KҧQ%LӋQ769}7XҩQ.LӋW 3KҧQ%LӋQ761JX\ӉQĈuQK/RQJ Ӫ\9LrQ3*6769}1JX\ӉQ4XӕF%ҧR ;iFQKұQFӫD&KӫWӏFK+ӝLÿӗQJÿiQKJLi/9Yj7UѭӣQJ.KRDTXҧQOêFKX\rQ QJjQKVDXNKLOXұQYăQÿmÿѭӧFVӱDFKӳD QӃXFy  &+Ӫ7ӎ&++Ӝ,ĈӖ1* *676/Ç7,ӂ17+ѬӠ1* 75ѬӢ1*.+2$Ĉ,ӊ1± Ĉ,ӊ17Ӱ ĈҤ,+Ӑ&48Ӕ&*,$73+&0 75ѬӠ1* ĈҤ,+Ӑ&%È&+.+2$ &Ӝ1*+Ñ$;­+Ӝ,&+Ӫ1*+Ƭ$9,ӊ71$0 ĈӝFOұS- 7ӵGR- +ҥQKSK~F NHIӊM VӨ LUҰ19Ă17+Ҥ&6Ƭ 1. Hӑ tên hӑc viên: Cao Xuân ThiӋn MSHV:1870067 2. 1Jj\WKiQJQăPVLQK 1ѫLVLQK Kon Tum 3. Chuyên ngành: Kӻ Thuұt ViӉn Thông Mã sӕ: 8520208 4. 7Ç1Ĉӄ TÀI: භ Tên tiӃng viӋt: 1KұQGLӋQFҧP[~FQJѭӡLQyLGӵDWUrQKӑFVkX. භ Tên tiӃng anh: Speech Emotion Recognition With Deep Convolutional Neural Networks. 5. NHIӊM VӨ VÀ NӜI DUNG: භ NhiӋm vө (Yêu cҫu vӅ nӝi dung và sӕ liӋXEDQÿҫu) 1JKLrQFӭXWәQJTXDQFiFKӋWKӕQJQKұQGҥQJFҧP[~FQJѭӡLQyLĈѭDUDPӝWJLҧL SKiSKӋWKӕQJÿӇWӕLѭXFKREjLWRiQQKұQGҥQJFҧP[~FQJѭӡLQyL 7KLӃWNӃP{KuQK KӑFVkXQKұQGҥQJYjÿiQKJLiKLӋXTXҧFӫDFiFJLҧLWKXұWWӕLѭXKyD. භ Các kӃt quҧ dӵ kiӃn 7KӵFQJKLӋPP{KuQKWUrQSKҫQFӭQJYjNLӇPFKӭQJÿӝFKtQK[iFYӟLP{KuQKÿm WKLӃWNӃ&XQJFҩSEҧQJVRViQKÿӕLFKLӃXYӟLFiFF{QJWUuQKQJKLrQFӭXÿmFy. 6. 7. 8. 9. NGÀY GIAO NHIӊM VӨ: 22/02/2021 NGÀY HOÀN THÀNH NHIӊM VӨ: 13/06/2021 CÁN BӜ +ѬӞNG DҮN: PGS.TS. Hà Hoàng Kha PHҪ1+ѬӞNG DҮN: Toàn bӝ nӝi dung và yêu cҫX/971ÿmÿѭӧc thông qua bӝ môn 7S+&0QJj\WKiQJQăP CÁN BӜ +ѬӞNG DҮN CHӪ NHIӊM BӜ MÔN PGS. TS. HÀ HOÀNG KHA 75ѬӢ1*.+2$Ĉ,ӊN - Ĉ,ӊN TӰ i LӠ,&È0Ѫ1 Lӡi ÿҫu tiên tôi xin gӱi tӟi thҫy PGS.TS Hà Hoàng Kha lӡi biӃWѫQVkXVҳc nhҩt vì nhӳng chӍ dүQÿӏQKKѭӟng tұn tình, tҥo mӑLÿLӅu kiӋn thuұn lӧi nhҩWÿӇ tôi có thӇ thӵc hiӋn và hoàn thành luұQYăQQj\%rQFҥQKÿyW{LFNJQJ[LQFKkQWKjQKFiPѫQVӵ chӍ dҥ\ÿҫy tâm huyӃt cӫa các thҫ\F{ÿDQJJLҧng dҥy tҥi bӝ môn ViӉQ7K{QJNKRDĈLӋn ± ĈLӋn tӱWUѭӡQJÿҥi hӑc Bách Khoa thành phӕ Hӗ Chí Minh. Các thҫ\F{ÿmJL~SW{L tiӃp cұn vӟi nhӳng kiӃn thӭc chuyên ngành quý báu, làm nӅn tҧng cho tôi trong quá trình hӑc tұp và nghiên cӭu sau này. CuӕLFQJW{L[LQFiPѫQJLDÿuQKÿmOX{Qÿӝng biên và tҥRÿLӅu kiên tӕt nhҩt cho tôi trong suӕt quá trình nghiên cӭu. Tp. Hӗ &Kt0LQKQJj\WKiQJQăP Hӑc viên Cao Xuân ThiӋn ii TÓM TҲT LUҰ19Ă1 Trong nhӳQJQăPJҫQÿk\YLӋc cҧi thiӋQWѭѫQJWiFJLӳDQJѭӡi và máy tính ngày càng ÿѭӧc quan tâm nhiӅXKѫQ7LӃQJQyLOjFiFKWUDRÿәi thông tin tӵ nhiên và nhanh nhҩt giӳa FRQQJѭӡi vӟi máy tính. Nhұn dҥng cҧm xúc lӡi nói (SER: Speech Emotion Recognition) ÿyQJYDLWUzTXDQWUӑng trong các ӭng dөng vӅ FKăPVyFVӭc khӓe, giҧi trí thông minh, nhà thông minh và nhiӅu dӏch vө thông minh khác. Ngày càng có nhiӅu nghiên cӭu trên thӃ giӟi tìm cách phân tích trҥng thái cҧm xúc tӯ FiFÿһFWUѭQJÿѭӧc trích xuҩt bҵng lӡi nói FRQQJѭӡLĈLӅu này giúp máy tính có thӇ ÿѭDUDFiFTX\ӃWÿӏnh tin cұ\KѫQFKtQK[iFKѫQ ÿӇ phөc cө FRQQJѭӡLQKѭÿLӅu khiӇn âm nhҥc, ánh sáng tùy theo cҧm xúc cӫa chӫ nhà, phân loҥLQJѭӡLGQJWURQJFiFWUXQJWkPFKăPVyFNKiFKKjQJÿӇ áp dөng các chính sách khuyӃn mҥi phù hӧp... Tuy nhiên, các nghiên cӭu này chӫ yӃu tiӃn hành khҧo sát dӵa trên tiӃng Anh. Các nghiên cӭu cho tiӃng ViӋWFzQNKitWWKrPYjRÿyFKѭDFyPӝt bӝ FѫVѫ dӳ liӋXÿӇ nhұn diӋn cҧm xúc tiӃng ViӋt chuҭn nào mà hҫu hӃt là tӵ xây dӵng bӣi các nhóm nghiên cӭXÿѫQOҿ. 'RÿyOXұQYăQWұp trung nghiên cӭu vӅ viӋc nhұn dҥng cҧm xúc thông qua lӡi nói tiӃng ViӋt. Ngoài ra, luұQYăQFNJQJÿiQKJLiWtQKNKҧ thi cӫa viӋFÿѭDJLӟLWtQKQJѭӡi nói vào thành mӝWÿһFWUѭQJFӫa dӳ liӋXĈҫu tiên, luұQYăQVӁ tìm hiӇu vӅ FiFSKѭѫQJSKiSWUtFK xuҩWÿһFWUѭQJFӫDkPWKDQKÿѭӧc sӱ dөng phә biӃn trong bài toán nhұn dҥng lӡLQyLQKѭ MFCC, GFCC, log-PHO&iFSKѭѫQJSKiSWUtFK[XҩWÿһFWUѭQJQj\VӁ ÿѭӧc áp dөng song song cho bӝ dӳ liӋXÿӇ phөc vө cho viӋFVRViQKÿiQKJLi%ӝ dӳ liӋu sӁ ÿѭӧc tách thành hai bӝ dӳ liӋu con dӵa trên nhãn giӟLWtQKQJѭӡi nói. Thӭ hai, luұQYăQWLӃQKjQKÿӅ xuҩt mô hình hӑc sâu phù hӧp cho viӋc nhұn dҥng giӟi tính và cҧm xúc (riêng cho tӯng giӟi tính). Sau khi nhұn dҥQJÿѭӧc giӟi tính nào, hӋ thӕng sӁ áp dөng mô hình hӑc sâu nhұn dҥng cҧP[~FWѭѫQJӭng vӟi giӟLWtQKÿyÿӇ ÿѭDUDNӃt quҧ cuӕi cùng. Mô hình nhұn dҥng FKRÿӝ chính xác 93% trên tұp kiӇm thӱ cho 4 loҥi cҧm xúc trung tính, giұn dӳ, buӗn, hoҧng sӧ. Cuӕi cùng, luұQYăQVӁ hiӋn thӵc nghiên cӭu trên phҫn cӭng thӵc tӃ. HӋ thӕng nhұn dҥng cҧm xúc trong luұQYăQÿѭӧc thӵc hiӋn trên máy tính nhúng NVIDIA Jetson Nano sӱ dөng ngôn ngӳ Python 3 và bӝ WKѭYLӋn mã nguӗn mӣ TensorFlow. iii ABSTRACT In recent years, the attention has been given to improving human-computer interactions. Speech is the fastest and most natural way of human-to-computer communications. Speech emotion recognition (SER) plays an important role in application of healthcare, smart entertainment, smart home, and other smart services. More and more researchers around the world seek the effective methods to analyze emotional states from features extracted from human speech. This helps the computer to make more reliable and accurate decisions such as controlling music and lighting depending on the owner's emotions, classifying users in customer care centers to apply for suitable promotions and so on. However, these studies were mainly conducted based on English while research for the Vietnamese language is quite limited. In addition, there is no standard database for Vietnamese emotion recognition, most of which are self-built by individual research groups. Therefore, the thesis focuses on researching emotion recognition through Vietnamese speech. In addition, the thesis assesses the feasibility of including the speaker's gender as a feature of the data. Firstly, the thesis will study the methods of speech feature extraction commonly used in speech recognition problems such as MFCC, GFCC, log-mel. These methods of feature extraction will be applied in parallel on the dataset for later comparison and evaluation. The dataset will be split into two sub-datasets based on speaker gender labels. Secondly, the thesis develops a suitable deep learning model for gender and emotion recognition (separate for each gender). After recognizing which gender, the system will apply a deep learning model to recognize emotions corresponding to that gender to give the final result. The recognition model gives 93% accuracy on the test set for 4 types of emotions: neutral, angry, sad, fearful. Finally, the thesis will implement the SER on real hardware. The emotion recognition system in the thesis is implemented in NVIDIA Jetson Nano embedded computer by using Python 3 language with the TensorFlow open-source library. iv LӠ,&$0Ĉ2$1&ӪA TÁC GIҦ 7{L[LQFDPÿRDQÿk\OjF{QJWUuQKQJKLrQFӭu khoa hӑFÿӝc lұp cӫa riêng tôi. Các sӕ liӋu sӱ dөng phân tích trong luұQYăQFyQJXӗn gӕFU}UjQJÿmF{QJEӕ WKHRÿ~QJTX\ ÿӏnh. Các kӃt quҧ nghiên cӭu trong luұQYăQGRW{LWӵ tìm hiӇu, phân tích mӝt cách trung thӵc, khách quan và phù hӧp vӟi thӵc tiӉn cӫa ViӋt Nam. Các kӃt quҧ Qj\FKѭDWӯQJÿѭӧc công bӕ trong bҩt kǤ nghiên cӭu nào khác. Hӑc viên Cao Xuân ThiӋn v MӨC LӨC NHIӊM VӨ LUҰ19Ă17+Ҥ&6Ƭ ................................................................................... i LӠ,&È0Ѫ1 ................................................................................................................. ii TÓM TҲT LUҰ19Ă1................................................................................................... iii ABSTRACT ................................................................................................................ iv LӠ,&$0Ĉ2$1&ӪA TÁC GIҦ .................................................................................. v DANH MӨC HÌNH ҦNH................................................................................................. x DANH MӨC TӮ VIӂT TҲT......................................................................................... xiii &+ѬѪ1* MӢ ĈҪU ................................................................................................. 1 1.1 Lý do chӑQÿӅ tài ................................................................................................... 1 1.2 Mөc tiêu nghiên cӭu ............................................................................................. 2 1.3 ĈӕLWѭӧng nghiên cӭu ........................................................................................... 3 1.4 éQJKƭDNKRDKӑc và thӵc tiӉn cӫDÿӅ tài nghiên cӭu ........................................... 3 1.4.1 éQJKƭDNKRDKӑc............................................................................................ 3 1.4.2 éQJKƭDWKӵc tiӉn ............................................................................................ 3 1.5 Tình hình nghiên cӭXWURQJYjQJRjLQѭӟc ........................................................... 4 1.5.1 Tình hình nghiên cӭu trên thӃ giӟi ................................................................. 4 1.5.2 Tình hình nghiên cӭXWURQJQѭӟc ................................................................... 4 1.6 Bӕ cөc luұQYăQ ..................................................................................................... 8 &+ѬѪ1* HӐC 2.1 Tәng quan vӅ nhұn dҥng cҧm xúc qua lӡi nói .................................................... 10 2.1.1 2.2 &Ѫ6Ӣ LÝ THUYӂT Vӄ XӰ LÍ TÍN HIӊU TIӂNG NÓI VÀ MÁY 10 Bài toán nhұn dҥng cҧm xúc ........................................................................ 10 ĈһFWUѭQJFӫa âm thanh ...................................................................................... 12 2.2.1 ĈһFWUѭQJFѫEҧn cӫa âm thanh .................................................................... 12 2.2.2 ĈһFWUѭQJFѫEҧn cӫa âm thanh sӕ hóa ........................................................ 13 2.3 Phát hiӋn tín hiӋu tiӃng nói thӡi gian thӵc .......................................................... 14 2.3.1 Hàm ZCR ..................................................................................................... 14 2.3.2 +jPQăQJOѭӧng thӡi gian ngҳn ................................................................... 16 vi 2.4 ĈһFWUѭQJ0)&& ................................................................................................ 16 2.4.1 Pre-emphasis ................................................................................................ 18 2.4.2 Window ........................................................................................................ 19 2.4.3 DFT .............................................................................................................. 20 2.4.4 Mel Filter-Bank ............................................................................................ 21 2.4.5 IDFT ............................................................................................................. 22 2.4.6 Trích xuҩWQăQJOѭӧng .................................................................................. 23 2.5 ĈһFWUѭQJ*)&& ................................................................................................. 23 2.5.1 Bӝ lӑc Gammatone ....................................................................................... 23 2.5.2 Tính WRiQÿһFWUѭQJ*)&& ........................................................................... 24 2.6 MҥQJQѫ-ron hӑc sâu .......................................................................................... 26 2.6.1 Lan truyӅn tiӃn ............................................................................................. 26 2.6.2 Hàm mҩt mát ................................................................................................ 27 2.6.3 Giҧi thuұt lan truyӅQQJѭӧc .......................................................................... 28 2.7 MҥQJQѫ-ron tích chұp ........................................................................................ 29 2.7.1 Lӟp tích chұp ................................................................................................ 29 2.7.2 Lӟp kích hoҥt phi tuyӃn ............................................................................... 30 2.7.3 Lӟp pooling .................................................................................................. 31 2.7.4 Lӟp fully connected ..................................................................................... 32 2.7.5 Lӟp Drop-out ................................................................................................ 32 2.8 KӃt luұQFKѭѫQJ .................................................................................................. 33 &+ѬѪ1* XÂY DӴNG GIҦI THUҰT NHҰN DҤNG CҦM XÚC LӠI NÓI ..... 34 3.1 Bӝ dӳ liӋu cҧm xúc lӡi nói RAVDESS............................................................... 34 3.2 Xây dӵng mô hình nhұn dҥng cҧm xúc lӡi nói ................................................... 35 3.2.1 ThiӃt kӃ hӋ thӕng phát hiӋn lӡi nói thӡi gian thӵc ....................................... 35 3.2.2 ThiӃt kӃ hӋ thӕng nhұn dҥng giӟi tính qua tín hiӋu lӡi nói .......................... 35 3.2.3 ThiӃt kӃ hӋ thӕng nhұn dҥng cҧm xúc qua tín hiӋu lӡi nói .......................... 37 3.3 KӃt luұQFKѭѫQJ .................................................................................................. 39 &+ѬѪ1* 40 4.1 THIӂT Kӂ VÀ THӴC HIӊN ӬNG DӨNG LÊN MÁY TÍNH NHÚNG Giӟi thiӋu phҫn cӭng ........................................................................................... 40 vii 4.1.1 4.2 Máy tính nhúng NVIDIA® Jetson Nano ..................................................... 40 Giӟi thiӋu phҫn mӅm........................................................................................... 41 4.2.1 Python........................................................................................................... 42 4.2.2 TensorFlow................................................................................................... 44 4.2.3 Google Colab................................................................................................ 46 4.3 HiӋn thӵc thiӃt kӃ ................................................................................................ 46 4.3.1 Quá trình huҩn luyӋn .................................................................................... 47 4.3.2 Quá trình thӵc thi trên phҫn cӭng ................................................................ 52 4.4 KӃt luұQFKѭѫQJ .................................................................................................. 55 &+ѬѪ1* KӂT QUҦ THӴC HIӊN ....................................................................... 56 5.1 Tұp dӳ liӋXÿѭӧc sӱ dөng ................................................................................... 56 5.2 KӃt quҧ huҩn luyӋn ............................................................................................. 58 5.2.1 KӃt quҧ nhұn dҥng giӟi tính ......................................................................... 58 5.2.2 KӃt quҧ nhұn dҥng cҧm xúc ......................................................................... 61 5.2.3 So sánh kӃt quҧ huҩn luyӋn vӟi các công trình nghiên cӭXÿmFy ............... 67 5.3 KӃt quҧ thӵc nghiӋm trên phҫn cӭng .................................................................. 69 &+ѬѪ1* TӘNG KӂT ........................................................................................... 72 6.1 KӃt luұn ............................................................................................................... 72 6.2 Giӟi hҥQYjKѭӟng phát triӇn .............................................................................. 72 6.2.1 Giӟi hҥn ........................................................................................................ 72 6.2.2 +ѭӟng phát triӇn .......................................................................................... 72 TÀI LIӊU THAM KHҦO ............................................................................................... 74 PHҪN LÝ LӎCH TRÍCH NGANG .................................................................................. 78 48È75Î1+Ĉ¬27ҤO ................................................................................................. 78 QUÁ TRÌNH CÔNG TÁC ............................................................................................... 78 viii DANH MӨC BҦNG BIӆU Bҧng 1-1. Các nghiên cӭu liên quan .............................................................................. 5 Bҧng 2-1. So sánh viӋFWtQKWRiQÿһFWUѭQJ0)&&Yj*)&& ..................................... 24 Bҧng 3-1. Tham sӕ mô hình nhұn dҥng giӟi tính quá lӡi nói ...................................... 37 Bҧng 3-2. Tham sӕ mô hình nhұn dҥng cҧm xúc lӡi nói ............................................. 37 Bҧng 4-1. Thông sӕ chi tiӃt máy tính nhúng NVIDIA Jetson Nano ............................ 41 Bҧng 4-2. Cҩu hình phҫn cӭng Google Colab cung cҩp .............................................. 46 Bҧng 5-1. KӃt quҧ hiӋu chӍnh siêu tham sӕ nhұn dҥng giӟi tính ................................. 59 Bҧng 5-2. KӃt quҧ kiӇm thӱ nhұn dҥng giӟi tính vӟLÿһFWUѭQJ*)&&KjPNtFKKRҥt sigmoid và dropout 0.1 ..................................................................................................... 60 Bҧng 5-3. KӃt quҧ hiӋu chӍnh siêu tham sӕ nhұn dҥng cҧm xúc tұp dӳ liӋu giӟi tính nӳ .......................................................................................................................................... 61 Bҧng 5-4. KӃt quҧ kiӇm thӱ nhұn dҥng cҧm xúc tұp dӳ liӋu giӟi tính nӳ vӟLÿһFWUѭQJ GFCC, hàm kích hoҥt sigmoid và dropout 0.2 ................................................................. 63 Bҧng 5-5. KӃt quҧ hiӋu chӍnh siêu tham sӕ nhұn dҥng cҧm xúc tұp dӳ liӋu giӟi tính nam ................................................................................................................................... 64 Bҧng 5-6. KӃt quҧ kiӇm thӱ nhұn dҥng cҧm xúc tұp dӳ liӋu giӟi tính nam vӟLÿһc WUѭQJ*)&&KjPNtFKKRҥt sigmoid và dropout 0.2 ....................................................... 65 Bҧng 5-7. KӃt quҧ hiӋu chӍnh siêu tham sӕ nhұn dҥng cҧm xúc tұp dӳ liӋu không phân chia giӟi tính ..................................................................................................................... 66 Bҧng 5-8. So sánh kӃt quҧ huҩn luyӋn vӟi các công trình nghiên cӭXÿmFy............... 67 Bҧng 5-9. KӃt quҧ thӵc nghiӋm phҫn cӭQJQJѭӡi nói trӵc tiӃp................................... 69 Bҧng 5-10. KӃt quҧ thӵc nghiӋm trên phҫn cӭng vӟi 10 file ghi âm trong tұp dӳ liӋu test ..................................................................................................................................... 70 ix DANH MӨC HÌNH ҦNH Hình 1-1. Tình trҥng sӭc khӓe tâm lý giӟi trҿ ngày nay ................................................ 2 Hình 2-1. Các nguӗn tín hiӋXÿҫu vào nhұn diӋn cҧm xúc .......................................... 11 Hình 2-2. Tәng quan bài toán nhұn dҥQJQJѭӡi nói. ................................................... 12 Hình 2-3. Lҩy mүu âm thanh ....................................................................................... 14 Hình 2-4. Zero crossings [31] ...................................................................................... 15 Hình 2-5. Tính toán Zero-crossing rate trong mүu tín hiӋu ......................................... 15 Hình 2-6. Tính toán hàm short time energy trong mүu tín hiӋu .................................. 16 Hình 2-&iFEѭӟc MFCC ......................................................................................... 17 Hình 2-8. Tín hiӋu âm thanh ӣ dҥng thӡi gian ............................................................. 17 Hình 2-9. Tín hiӋXkPWKDQKWUѭӟc và sau khi pre-emphasis ....................................... 18 Hình 2-10. Phә tҫn sӕ thӡi gian ngҳn tín hiӋXWUѭӟc và sau khi pre-emphasis ............ 19 Hình 2-4XiWUuQKWUѭӧt khung cӱa sә trên mүu âm thanh ...................................... 19 Hình 2-12. Các dҥng cӱa sә KyDWKѭӡng dùng ............................................................ 20 Hình 2-13. Hình ҧnh tín hiӋu sau khi biӃQÿәi DFT .................................................... 21 Hình 2-14. Bӝ lӑc Mel tam giác vӟi tҫn sӕ lҩy mүu 16000Hz .................................... 22 Hình 2-15. Mel Spectrogram cӫa tín hiӋu âm thanh vӟi tҫn sӕ 8000Hz...................... 22 Hình 2-16. Phә hӋ sӕ MFCC cӫa mӝt tín hiӋu. ............................................................ 23 Hình 2-17. Gammatone Filter Bank vӟi tҫn sӕ lҩy mүu 16000Hz .............................. 24 Hình 2-18. Phә hӋ sӕ GFCC cӫa tín hiӋu ..................................................................... 25 Hình 2-19. MҥQJQѫ-ron hӑc sâu. Nguӗn: Lecture 4, slice 32, Stanford University C231n: Convolutional Neural Networks for Visual Recognition .................................... 26 Hình 2-20. Quá trình lan truyӅn trong mҥQJQѫ-ron .................................................... 27 Hình 2-21. HoҥWÿӝng cӫa CNN [32] ........................................................................... 29 Hình 2-22. Lӟp tích chұp ............................................................................................. 30 Hình 2-23. Lӟp kích hoҥt phi tuyӃn. Nguӗn: Lecture 7, slide 17, Stanford University C231n: Convolutional Neural Networks for Visual Recognition .................................... 31 Hình 2-24. Lӟp Pooling ............................................................................................... 31 Hình 2-25. Lӟp fully-connected ................................................................................... 32 Hình 2-26. Lӟp dropout[30] ......................................................................................... 33 Hình 3-1. Bӝ dataset cҧm xúc lӡi nói RAVDESS[33] ................................................. 34 x Hình 3-2. Mô hình nhұn dҥng tәng quát ...................................................................... 35 Hình 3-3. Mô hình phát hiӋn lӡi nói thӡi gian thӵc ..................................................... 35 Hình 3-4. Mô hình huҩn luyӋn nhұn dҥng giӟi tính qua lӡi nói................................... 36 Hình 3-5. Mô hình nhұn dҥng cҧm xúc lӡi nói ............................................................ 37 Hình 3-6. Mô hình huҩn luyӋn nhұn dҥng cҧm xúc qua lӡi nói ................................... 39 Hình 4-1. Máy tính nhúng NVIDIA Jetson Nano ........................................................ 41 Hình 4-2. Python .......................................................................................................... 42 Hình 4-3. TensorFlow .................................................................................................. 45 Hình 4-4. Google Colab ............................................................................................... 46 Hình 4-5. Mô hình tәng quát quá trình huҩn luyӋn...................................................... 47 Hình 4-6. Thêm nhiӉu vào mүXÿӇ OjPÿDGҥng dӳ liӋu .............................................. 48 Hình 4-7. Mô hình thӵc hiӋn trên phҫn cӭng ............................................................... 52 Hình 4-4XpWÿӏa chӍ IP cӫa Jetson Nano .................................................................. 53 Hình 4-ĈăQJQKұp SSH vào Jetson Nano ................................................................ 53 Hình 4-10. CҩXKuQKÿӏa chӍ WƭQKFKR-HWVRQ1DQR ...................................................... 54 Hình 5-1. Tұp dӳ liӋu vӅ giӟi tính ................................................................................ 56 Hình 5-2. Nguӗn ngӳ liӋu vӅ cҧm xúc ......................................................................... 57 Hình 5-3. Tұp dӳ liӋu cҧm xúc..................................................................................... 57 Hình 5-Ĉӗ thӏ huҩn luyӋn nhұn dҥng giӟi tính vӟLÿһFWUѭQJ*)&&hàm kích hoҥt sigmoid và dropout 0.1 ..................................................................................................... 60 Hình 5-5. Ma trұQWѭѫQJTXDQKXҩn luyӋn nhұn dҥng giӟLWtQKÿһFWUѭQJ*)&&KjP kích hoҥt sigmoid và dropout 0.1 ..................................................................................... 61 Hình 5-Ĉӗ thӏ huҩn luyӋn nhұn dҥng cҧm xúc trên tұp dӳ liӋu nӳ vӟLÿһFWUѭQJ GFCC, hàm kích hoҥt relu và dropout 0.2........................................................................ 62 Hình 5-7. Ma trұn nhҫm lүn huҩn luyӋn nhұn dҥng cҧm xúc vӟi tұp dӳ liӋu nӳ ÿһc WUѭQJ*)&&KjPNtFKKRҥt relu và dropout 0.2 .............................................................. 63 Hình 5-Ĉӗ thӏ huҩn luyӋn nhұn dҥng cҧm xúc trên tұp dӳ liӋu nam vӟLÿһFWUѭQJ GFCC, hàm kích hoҥt relu và dropout 0.2........................................................................ 65 Hình 5-9. Ma trұQWѭѫQJTXDQKXҩn luyӋn nhұn dҥng cҧm xúc vӟi tұp dӳ liӋXQDPÿһc WUѭQJ*)&&KjPNtFKKRҥt relu và dropout 0.2 .............................................................. 66 Hình 5-10. Mô hình thӵc nghiӋm thӵc tӃ vӟi phҫn cӭng ............................................. 69 Hình 5-11. Thӵc nghiӋm trên phҫn cӭng vӟi mүXQJѭӡi nói trӵc tiӃp trung tính, nhұn diӋn sai .............................................................................................................................. 70 xi Hình 5-12. Thӵc nghiӋm trên phҫn cӭng vӟi mүXQJѭӡi nói trӵc tiӃp trung tính, nhұn diӋQÿ~QJ .......................................................................................................................... 70 Hình 5-13. KӃt quҧ thӵc nghiӋm phҫn cӭng ӭng vӟi mүu nam cҧm xúc giұn dӳ ....... 71 Hình 5-14. KӃt quҧ thӵc nghiӋm phҫn cӭng ӭng vӟi mүu nӳ cҧm xúc buӗn bã ......... 71 xii DANH MӨC TӮ VIӂT TҲT CNN Convolutional Neural Networks MҥQJQѫ-ron tích chұp DFT Discrete Fourier transform BiӃQÿәi Fourier rӡi rҥc DNN Deep Neural Network MҥQJQѫ-ron hӑc sâu FFT Fast Fourier transform BiӃQÿәi Fourier nhanh GFCC *DPPDWRQH)UHTXHQF\&HSVWUDO&RHI¿FLHQWV HӋ sӕ cepstral tҫn sӕ Gamma HMM Hidden Markov Model Mô hình markov ҭn IDFT Inverse Discrete Fourier transform BiӃQÿәi Fourier rӡi rҥFQJѭӧc LSTM Long Short-Term Memory Mҥng bӝ nhӟ ngҳn dài MFCC Mel Frequency Cepstral Coefficient HӋ sӕ cepstral tҫn sӕ Mel SER Speech Emotion Recognition Nhұn diӋn cҧm xúc lӡi nói STE Short Time Energy 1ăQJOѭӧng thӡi gian ngҳn SVM Support Vector Machine Máy vector hӛ trӧ VAD Voice Activity Detection Phát hiӋn tiӃng nói thӡi gian thӵc ZCR Zero Crossing Rate TӍ lӋ sӕ lҫn giao vӟi giá trӏ không xiii &+ѬѪ1* MӢ ĈҪU Trong phҫn này, luұQYăQ trình bày vӅ lý do chӑQÿӅ tài nhұn dҥng cҧm xúc cӫDQJѭӡi nói. Ӭng dөng cӫa viӋc nhұn dҥng cҧm xúc lӡi nói vào các thiӃt bӏ smarthome giúp cho cuӝc sӕQJFRQQJѭӡi ngày càng tiӋn lӧi. SDXÿyOj phҫn giӟi thiӋu mөFÿtQKQJKLrQFӭu, ÿӕLWѭӧng nghiên cӭu, tӯ ÿyU~WUDêQJKƭDNKRDKӑc và thӵc tiӉn cӫDÿӅ tài. Cuӕi cùng là phҫn tình hình nghiên cӭXWURQJYjQJRjLQѭӟc liên quan. 1.1 Lý do chӑQÿӅ tài Tín hiӋu lӡLQyLOjSKѭѫQJWKӭc giao tiӃp nhanh nhҩt và tӵ nhiên nhҩt giӳDFRQQJѭӡi. Thӵc tӃ Qj\ÿmWK~Fÿҭy các nhà nghiên cӭXQJKƭYӅ lӡLQyLQKѭPӝWSKѭѫQJSKiSWѭѫQJ tác nhanh chóng và hiӋu quҧ giӳDFRQQJѭӡLYjPi\PyF7X\QKLrQÿLӅXQj\ÿzLKӓi cӛ máy phҧLFyÿӫ WUtWK{QJPLQKÿӇ nhұn ra giӑng nói cӫDFRQQJѭӡi. KӇ tӯ cuӕi nhӳQJQăP 50ÿmFyQKLӅu nghiên cӭu vӅ nhұn dҥng giӑQJQyLWURQJÿyÿӅ cұSÿӃn quá trình chuyӇn ÿәi lӡi nói cӫDFRQQJѭӡi thành mӝt chuӛi các tӯ. Có nhiӅXKѭӟQJÿӇ tұn dөng tӯ tín hiӋu lӡLQyLFRQQJѭӡLWURQJÿyFө thӇ là nhұn dҥng cҧm xúc lӡLQyLÿѭӧFÿӏQKQJKƭD là trích xuҩt trҥng thái cҧm xúc cӫDQJѭӡLQyL1Jѭӡi ta tin rҵng nhұn dҥng cҧm xúc lӡi nói có thӇ ÿѭӧc sӱ dөQJÿӇ trích xuҩt ngӳ QJKƭDKӳu ích tӯ lӡLQyLYjGRÿyFҧi thiӋn hiӋu suҩt cӫa các hӋ thӕng nhұn dҥng giӑng nói [1]. Nhұn dҥng cҧm xúc lӡi nói - Speech Emotion Recognition (SER) là mӝWOƭQKYӵc nghiên cӭu tích cӵc trong xӱ lý tín hiӋu sӕ ÿѭӧc sӱ dөQJÿӇ nhұn biӃt trҥng thái cҧP[~Fÿӏnh tính cӫDQJѭӡi nói bҵng tín hiӋu giӑng nói, có nhiӅXWK{QJWLQKѫQOӡi nói. NhiӅu nhà nghiên cӭXÿDQJOjPYLӋc tURQJOƭQKYӵFQj\ÿӇ làm cho mӝt hӋ thӕQJÿӫ thông minh có thӇ hiӇXÿѭӧc trҥng thái tӯ mӝt lӡi nói cӫa mӝt cá QKkQÿӇ phân tích hoһF[iFÿӏnh tình trҥng cҧm xúc cӫDQJѭӡi nói.Ngày nay, các trí thông minh nhân tҥo nәi tiӃng trên thӃ giӟLQKѭ6LUL$OH[DNKông chӍ dӯng lҥi ӣ mӭFÿLӅu khiӇn theo lӋnh, mà còn thӵc hiӋn lӋnh linh hoҥt theo cҧm xúc cӫa chӫ nhân. Bên cҥQKÿyYLӋc nhұn dҥQJFiFÿһFÿLӇm phө thuӝc vӅ FRQQJѭӡLQKѭJLӟi tính, khoҧng tuәi cӫa các dӳ liӋu kPWKDQKÿmÿѭӧc nghiên cӭXYjFyÿѭӧFÿӝ chíQK[iFFDRJL~SOjPWăQJNKҧ QăQJQKұn diӋn các dӳ liӋu có phө thuӝFYjRÿһFÿLӇm cӫDFRQQJѭӡLQKѭQKұn dҥng cҧm xúc, nhұn dҥQJQJѭӡLÿăQJNtYY« Theo nghiên cӭu cӫa Quӻ 1KLÿӗng Liên Hӧp Quӕc (UNICEF), khoҧng 8% - 29% trҿ HPÿDQJWURQJÿӝ tuәi vӏ thành niên ӣ ViӋt Nam mҳc các bӋnh vӅ sӭc khӓe tâm lí cҧm xúc. Ĉһc biӋt nghiêm trӑng là ӣ vùng thành thӏ 15% dân sӕ ViӋt Nam mҳc các rӕi loҥn do stress. Ngày nay, mҥng xã hӝi và thӇ WKDRÿLӋn tӱ ngày càng phát triӇQÿmOjPWK~Fÿҭy các kênh giao tiӃp mӟi giӳa giӟi trҿ và máy móc. Hình 1-ErQGѭӟLÿk\PLrXWҧ nhӳng lý do phә biӃn mà nhӳQJQJѭӡi trҿ WuPÿӃQWѭYҩQWkPOê7URQJÿyQKӳng nguyên nhân có phҫn tiêu cӵc nhҩWQKѭFҧm giác tuyӋt vӑQJFyêÿӏnh tӵ tӱ, bӏ bҳt nҥt ӣ WUѭӡng hӑF«OjQKӳng nguyên nhân gia WăQJWKҩy rõ nhҩW'RÿyQӃu có mӝt hӋ thӕng tәng hӧp, thӕQJNrYjÿѭD ra dӵ ÿRiQWtQKWUҥng tâm lí sӁ giúp giҧm bӟt cҧ sӕ Oѭӧng và tính chҩt nguy hiӇm cӫa nhӳng vҩQÿӅ tâm lí này. 1 Hình 1-1. Tình tr̩ng sͱc kh͗e tâm lý giͣi tr̓ ngày nay Phҫn lӟn các nghiên cӭu trên trình bày các kӻ thuұWÿӇ dӵ ÿRiQFҧm xúc lӡi nói bҵng cách sӱ dөng huҩn luyӋn vӅ mӝt nhiӋm vө duy nhҩt (nhұn dҥng cҧm xúc). Tuy nhiên, nhӳng kӻ thuұt này bӓ qua mӝt nguӗn thông tin có khҧ QăQJSKong phú có sҹn trong lӡi nói (ví dө, thông tin vӅ QJѭӡi nói, giӟi tính, v.v.) có thӇ ÿѭӧc sӱ dөQJÿӇ ÿҥWÿѭӧc sӵ khái quát hóa và cҧi thiӋn hiӋu suҩWĈӇ ÿҥWÿѭӧFÿLӅXÿyKҫu hӃt các nghiên cӭu hiӋn tҥi có xu Kѭӟng xác nhұQYjÿLӅu chӍnh các mô hình bҵng cách sӱ dөng các bӝ dӳ liӋXÿDGҥng. Tuy nhiên, các bӝ dӳ liӋXÿLӇm chuҭn tiêu chuҭn rҩt khan hiӃm và có vҩQÿӅ nhҩt là chúng có NtFKWKѭӟc nhӓ, tҥo ra các rào cҧn lӟn trong viӋFÿҥWÿѭӧc sӵ khái quát hóa trong hӋ thӕng SER. Bên cҥQKÿyPһFGÿmFyQKӳng tiӃn bӝ lӟn trong viӋc nhұn dҥng giӑng nói, chúng ta vүn còn lâu mӟi có sӵ WѭѫQJWiFWӵ nhiên giӳDFRQQJѭӡi và máy móc vì máy không hiӇu ÿѭӧc trҥng thái cҧm xúc cӫDQJѭӡi nói. Trong SER, lӵa chӑn và trích xuҩWFiFWtQKQăQJ nәi bұt là mӝt nhiӋm vө ÿҫy thách thӭc. Thành công cӫa SER sӁ [iFÿӏnh lҥLFiFWѭѫQJWiF giӳDQJѭӡi và máy tính. Các trung tâm cuӝc gӑi hiӋn theo dõi cҧm xúc cӫDNKiFKKjQJÿӇ cung cҩp dӏch vө tӕWKѫQ>@&iFKӋ thӕng chҭQÿRiQGӵa trên lӡLQyLÿDQJÿѭӧc phát triӇn ÿӇ chҭQÿRiQWUҫm cҧP>@ÿDXNKә [4] và theo dõi trҥng thái tâm trҥng cho bӋnh nhân Oѭӥng cӵc [5]. NhiӅu ӭng dөng khác bao gӗm hӋ thӕng truy xuҩWSKѭѫQJWLӋn [6], xe thông minh [7] và khoa hӑFSKiS\>@FNJQJQKҵm cҧi thiӋn hiӋu suҩt cӫa chúng bҵng cách sӱ dөng các kӻ thuұt SER. 1.2 Mөc tiêu nghiên cӭu Mөc tiêu nghiên cӭu cӫa luұQYăQEDRJӗPFiFÿLӇPFѫEҧn sau: - ThiӃt kӃ mô hình hӑFVkXÿӇ nhұn dҥng cҧP[~FQJѭӡi nói. - ĈѭDUDPӝt giҧi pháp hӋ thӕQJÿӇ cҧi tiӃn hoһc tӕLѭXFKREjLWRiQQKұn dҥng cҧm [~FQJѭӡi nói. - Thӵc nghiӋm kiӇm chӭQJÿӝ chính xác vӟLP{KuQKÿmWKLӃt kӃ. 2 - Có sӵ VRViQKÿӕi chiӃu vӟi các công trình nghiên cӭXÿmFy 1.3 ĈӕLWѭӧng nghiên cӭu - Các nghiên cӭXWURQJYjQJRjLQѭӟFWURQJOƭQKYӵc nhұn dҥng tiӃng nói và nhұn dҥng cҧP[~FQJѭӡi. - Các thuұt toán giúp phát hiӋn, tách biӋt tín hiӋu tiӃng nói so vӟi nӅn nhiӉu trong thӡi gian thӵc. - Các dҥng trích xuҩWÿһFWUѭQJFӫa âm thanh tiӃQJQyLFRQQJѭӡi. - Các thuұWWRiQYjSKѭѫQJSKiS[ӱ OtÿһFWUѭQJJLӑQJQyLÿmFyWӯ WUѭӟc, các thuұt toán máy hӑc. - KiӇm nghiӋm mô hình tính toán trên máy tính nhúng. 1.4 éQJKƭDNKRDKӑc và thӵc tiӉn cӫDÿӅ tài nghiên cӭu 1.4.1 éQJKƭDNKRDKӑc Sau khi luұQYăQQj\KRjQWKjQKVӁ ÿHPÿӃn nhӳng kӃt quҧ QKѭVDX - 1rXOrQÿѭӧF[XKѭӟQJJLDWăQJQKXFҫu ӭng dөng cӫa bài toán nhұn dҥng cҧm xúc QJѭӡi nói trong cuӝc sӕng hiӋn tҥLYjWѭѫQJODL - Giӟi thiӋXYjSKkQWtFKÿѭӧc mӝt sӕ hӋ thӕng nhұn dҥng cҧP[~FQJѭӡi nói hiӋn QD\FiFNƭWKXұWÿmYjÿDQJÿѭӧc áp dөng. - Phân tích và cҧi thiӋn các mô hình nhұn diӋn cҧP[~FÿmFy - Có mô hình thӵc nghiӋm kiӇm chӭQJP{KuQKÿӝ chính xác, thӡi gian xӱ lý và tính khҧ thi cӫa hӋ thӕng. - BҧQJVRViQKÿӕi chiӃu vӟi các kӃt quҧ nghiên cӭXWUѭӟFÿy 1.4.2 éQJKƭDWKӵc tiӉn VӅ mһt kinh tӃ, nhұn diӋn cҧP[~FQJѭӡi nói cho phép cung cҩp các dӏch vө hiӋu quҧ KѫQWURQJQKLӅXOƭQKYӵc. Ví dө: trung tâm cuӝc gӑLFKăPVyFNKiFKKjQJWKHRG}LFҧm [~FÿӇ cung cҩp dӏch vө tӕWKѫQVӱ dөQJWURQJVPDUWKRPHÿӇ nhұn biӃt cҧm xúc cӫa chӫ QKj« VӅ y hӑc, nhұn diӋn cҧP[~FQJѭӡi nói giúp cung cҩp hӋ thӕng chuҭQÿRiQWUҫm cҭm dӵa trên cҧm xúc cӫa bӋnh nhân, hӋ thӕng theo dõi trҥng thái tâm trҥng cӫa bӋQKQKkQÿӇ ÿѭDUDFiFSKiWÿӗ ÿLӅu trӏ tӕWKѫQ VӅ kӻ thuұt, qua quá trình khҧo sát, thiӃt kӃ, thӱ nghiӋPYjÿiQKJLiFiFSKѭѫQJiQFKR bài toán nhұn dҥQJQJѭӡi nói, luұQYăQFKRWKҩy mӝt quy trình triӇn khai chһt chӁ tӯ lý 3 thuyӃWÿӃn thӵFKjQKÿҧm bҧo tính khҧ thi và hӳu dөng cӫDÿӅ WjLĈӗng thӡLÿk\OjFѫ sӣ cho viӋc hiӋn thӵc hóa và triӇn khai rӝng rãi trong thӵc tӃ. 1.5 Tình hình nghiên cӭXWURQJYjQJRjLQѭӟc 1.5.1 Tình hình nghiên cӭu trên thӃ giӟi Xӱ lý âm thanh là mӝWOƭQKYӵc nghiên cӭu rӝng trên thӃ giӟi. GҫQÿk\FiFQKjQJKLrQ cӭXÿmWKLӃt lұp mӝt sӕ kӻ thuұt hiӋu quҧ cho hӋ thӕng SER bҵng các cách tiӃp cұn mӟi. Trích xuҩWÿѭӧFÿһFWUѭQJkPWKDQKÿӇ nhұn diӋn chính xác cҧm xúc cӫDQJѭӡi nói là mӝt nhiӋm vө ÿҫy thách thӭFWURQJOƭQKYӵc này. MӝW6(5ÿLӇQKuQKÿѭӧc chia thành hai phҫn: 1. Quá trình lӵa chӑQÿһFWUѭQJÿӇ trích xuҩt tӯ dӳ liӋu giӑng nói. 2. Lӵa chӑQFiFSKѭѫQJSKiSSKkQORҥLÿӇ nhұn biӃt chính xác cҧm xúc tӯ lӡi nói. GҫQÿk\QKLӅu nhà nghiên cӭXÿmVӱ dөQJSKѭѫQJSKiSKӑFVkXÿӇ cҧi thiӋQÿӝ chính xác nhұn dҥng bҵng tín hiӋu âm thanh, trong khi mӝt sӕ nhà nghiên cӭXÿmVӱ dөQJÿһc tính trích xuҩt cҩp thҩSÿӇ huҩn luyӋQFiFP{KuQK&11'11ÿӇ WăQJÿӝ chính xác cӫa SER. 7URQJÿyWiFgiҧ 'DYHHWDO>@ÿmÿiQKJLiFiFWtQKQăQJNKiFQKDXFKRFҧm xúc lӡi nói và cho thҩy hiӋu quҧ cӫD 0HO IUHTXHQF\ FHSVWUDO FRHIILFLHQW 0)&&  >@ FiF ÿһc WUѭQJFKREjLWRiQ6(5WKD\YuFiFWtQKQăQJFҩp thҩSNKiFQKѭÿӏnh dҥQJÿӝ ӗQPmQăQJ suҩt tuyӃn tính Linear Productivity Code (LPC) [16] Liu [34] sӱ dөng trích xuҩt hӋ sӕ cepstral tҫn sӕ JDPPD *)&& FKR6(5ÿӇ WăQJÿӝ chính xác trӑng sӕ lên tӟi 3,6% so vӟi MFCC. Nhà nghiên cӭu Liu và các cӝng sӵ >@ÿmÿӅ xuҩt mӝWSKѭѫQJSKiSFKRKӋ thӕng SER bҵng cách sӱ dөng bӝ dӳ liӋu tiӃng Trung QuӕF>@ &$6,$ ÿӇ chӑQFiFWtQKQăQJ cҧm xúc ҭn dӵDWUrQP{LWUѭӡQJWѭѫQJTXDQYjVӱ dөng cây quyӃWÿӏnh dӵa trên máy hӑc FKtQK[iF([WUHPH/HDUQLQJ0DFKLQH (/0 ÿӇ phân loҥi. Fahad và cӝng sӵ >@ÿmP{ tҧ mӝWSKѭѫQJSKiSÿӇ chӑQFiFWtQKQăQJGӵa trên trích xuҩt MFCC và huҩn luyӋn trên mô hình dӵDWUrQ'11ÿѭӧFÿjRWҥRFKR6(5:HLYj=KDR>@ÿmÿӅ xuҩt mӝt mô hình nhұn dҥng cho SER bҵng cách sӱ dөng trích xuҩt MFCC, nhұn dҥng dӵa trên DNN và 690ÿӇ WKXÿѭӧc kӃt quҧ tӕt trên bӝ dӳ liӋu cҧm xúc lӡi nói Trung Quӕc. 1.5.2 Tình hình nghiên cӭXWURQJQѭӟc Nhұn dҥng lӡLQyLÿһc biӋt là tiӃng ViӋWOjOƭQKYӵc nghiên cӭXÿmÿѭӧc phát triӇn tӯ lâu ӣ ViӋt Nam và có rҩt nhiӅu bài nghiên cӭXOLrQTXDQ1ăPWiFJLҧ TiӃQ7Kѭӡng cùng các cӝng sӵÿҥi hӑc Quӕc Gia thành phӕ Hӗ &Kt0LQKÿm[k\Gӵng mӝt hӋ thӕng nhұn dҥng tiӃng nói các câu lӋnh ӭng dөQJFKRFiQKWD\URERW>@GQJP{KuQKQѫ-ron và các cách trích xuҩW ÿһF WUѭQJ 67)7 &:7 &RQWLQXRXV :DYHOHW 7UDQVIRUP  FKR ÿӝ chính [iFFDR1ăPWiFJLҧ 7UXQJ1JKƭDÿҥi hӑc Quӕc Gia Hà Nӝi, trong luұQYăQ thҥFVƭFӫDPuQKÿm[k\Gӵng mӝt hӋ thӕng nhұn dҥng tiӃng ViӋt sӱ dөng biӃQÿәi Wavelet và mô hình Markov ҭn [27]. KӃt quҧ WKXÿѭӧFWѭѫQJÿӕi tӕWÿӝ chính xác 91%. Trong khi ÿyFiFQJKLrQFӭu vӅ nhұn dҥng cҧm xúc thông qua lӡi nói ngôn ngӳ ViӋt Nam chӍ mӟLÿѭӧc triӇn khai trong nhӳQJQăPJҫQÿk\ 1ăPEjLEiR³6RViQKKLӋXQăQJPӝt sӕ SKѭѫQJSKiSQKұn dҥng cҧm xúc tiӃng nói ViӋW´>@Fӫa tác giҧ Lê Xuân Thành và các cӝng sӵ ÿѭӧc trình bày trong hӝi nghӏ 4 khoa hӑc quӕc gia lҫn thӭ 9 tҥi CҫQ7Kѫ%jLEiRNKҧo sát trên bӝ dӳ liӋu tӵ thu thұp gӗm 52800 mүu chia làm 4 loҥi cҧP[~FEuQKWKѭӡng, vui, buӗn, tӭc giұn. Bài báo sӱ dөQJÿӝ biӃn thiên tҫn sӕ FѫEҧQ)OjPÿһFWUѭQJÿҫu vào, so sánh giӳa nhiӅu hӋ thӕng nhұn diӋn NKiFQKDXQKѭ.OiQJJLӅng gҫn nhҩt KNN (K-Nearest Neighbor), phân biӋt tuyӃn tính LDA (Linear Discriminant Analysis ), máy véc-WѫKӛ trӧ SVM (Support Vector machine). Ĉӝ chính xác cao nhҩt cӫa hӋ thӕng là 56.9ÿӕi vӟi giӑQJQDPYjÿӕi vӟi giӑng nӳ. 1ăPWiFJLҧ ĈjR7Kӏ LӋ Thӫy và các cӝng sӵWURQJEjLEiR³ҦQKKѭӣng cӫDÿһc WUѭQJSKә tín hiӋu tiӃQJQyLÿӃn nhұn dҥng cҧm xúc tiӃng ViӋW´>@ÿm[k\Gӵng mô hình nhұn dҥng hӛn hӧp Gauss (GMM - Gauss Mixture Model) sӱ dөng loҥi trích xuҩW ÿһc WUѭQJ 0)&& %ӝ dӳ liӋX ÿѭӧc sӱ dөng gӗm 5584 mүu phân làm 4 loҥi cҧm xúc bình WKѭӡng, buӗn, vui, tӭc giұn. HӋ thӕng nhұn dҥQJFKRÿӝ chính xác khá cao 88.6%. B̫ng 1-1. Các nghiên cͱu liên quan Tài Paper liӋu tham khҧo Dataset ĈһFWUѭQJ [34] RAVDESS (1440 mүu, 7 loҥLQJѭӡi tham gia) Gammatone Neural Frequency Networks Cepstral Coefficients (GFCC) Evaluating Gammatone Frequency Cepstral Coefficients with Neural Networks for Emotion Recognition from Speech (2018) Phân loҥi Ĉӝ chính xác 76.8 Tóm tҳt - Trích xuҩWÿһc WUѭQJEҵng cҧ KDLSKѭѫQJ pháp MFCC và GFCC. - Paper cho kӃt quҧ: trên nhiӅu model khác nhau, GFCC FKRÿӝ chính [iFFDRKѫQ MFCC tӯ 3.6% ӣ bài toán nhұn dҥng cҧm xúc. - Có sӕ bài toàn trích dүn lӟn 137. 5
- Xem thêm -

Tài liệu liên quan