Đăng ký Đăng nhập
Trang chủ Phát hiện bất thường trong video giám sát sử dụng kỹ thuật học sâu ...

Tài liệu Phát hiện bất thường trong video giám sát sử dụng kỹ thuật học sâu

.PDF
57
1
124

Mô tả:

ĈҤI HӐC QUӔC GIA TP. HCM 75ѬӠ1*ĈҤI HӐC BÁCH KHOA -------------------- NGUYӈN THANH HOÀNG PHÁT HIӊN BҨ77+ѬӠNG TRONG VIDEO GIÁM SÁT SӰ DӨNG KӺ THUҰT HӐC SÂU Chuyên ngành: Khoa Hӑc Máy Tính Mã sӕ: 8.48.01.01 LUҰ19Ă17+Ҥ&6Ƭ 73+Ӗ&+Ë0,1+WKiQJ QăP &Ð1*75Î1+ĈѬӦC HOÀN THÀNH TҤI: 75ѬӠ1*ĈҤI HӐC BÁCH KHOA ±Ĉ+4*-HCM Cán bӝ Kѭӟng dүn khoa hӑc: TS. Lê Thành Sách ...................................... Cán bӝ chҩm nhұn xét 1: PGS. TS. HuǤnh Trung HiӃu ............................ Cán bӝ chҩm nhұn xét 2: TS. NguyӉQ9ăQ6LQK........................................ LuұQYăQWKҥFVƭÿѭӧc bҧo vӋ tҥL7UѭӡQJĈҥi hӑc BiFK.KRDĈ+4*7S+&0QJj\ tháng 08 QăP(trӵc tuyӃn). Thành phҫn HӝLÿӗQJÿiQKJLiOXұQYăQWKҥFVƭJӗm: 1. PGS. TS. Thoҥi Nam ............................ - Chӫ tӏch 2. TS. NguyӉn Lê Duy Lai ....................... - 7KѭNê 3. PGS. TS. HuǤnh Trung HiӃu ............... - Phҧn biӋn 1 4. TS. NguyӉQ9ăQ6LQK ........................... - Phҧn biӋn 2 5. TS. Lê Thành Sách ............................... - Uӹ viên Xác nhұn cӫa Chӫ tӏch HӝLÿӗQJÿiQKJLi/9Yj7Uѭӣng Khoa quҧn lý chuyên ngành sau khi luұQYăQÿmÿѭӧc sӱa chӳa (nӃu có). CHӪ TӎCH HӜ,ĈӖNG 75ѬӢNG KHOA KHOA HӐC VÀ KӺ THUҰT MÁY TÍNH ĈҤ,+Ӑ&48Ӕ&*,$73+&0 75ѬӠ1*ĈҤ,+Ӑ&%È&+.+2$ &Ӝ1*+Ñ$;­+Ӝ,&+Ӫ1*+Ƭ$9,ӊ71$0 ĈӝFOұS- 7ӵGR- +ҥQKSK~F NHIӊM VӨ LUҰ19Ă17+Ҥ&6Ƭ +ӑWrQKӑFYLrQ1*8<ӈ17+$1++2¬1* ......................... MSHV: 1870172 ............. 1Jj\WKiQJQăPVLQK ........................................... 1ѫLVLQK$Q*LDQJ ......... &KX\rQQJjQK.KRDKӑFPi\WtQK ............................................ 0mVӕ8.48.01.01 .......... I. 7Ç1Ĉӄ7¬, ................................................................................................................ 3+È7+,ӊ1%Ҩ77+ѬӠ1*7521*9,'(2*,$06È76Ӱ'Ө1* .Ӻ7+8Ұ7+Ӑ&6Æ8 ...................................................................................................... ............................................................................................................................................. II. 1+,ӊ09Ө9¬1Ӝ,'81* .................................................................................... Tìm hLӇXYj[k\GӵQJP{KuQKSKiWKLӋQEҩWWKѭӡQJWURQJYLGHREҵQJNƭWKXұWKӑFVkX ... ............................................................................................................................................. III. 1*¬<*,$21+,ӊ09Ө : 21/09/2020 .................................................................. IV. 1*¬<+2¬17+¬1+1+,ӊ09Ө: 13/06/2021 .................................................. V. &È1%Ӝ+ѬӞ1*'Ү1: TS.LÊ THÀNH SÁCH ...................................................... ............................................................................................................................................. Tp. HCM, ngày . . . . tháng . . . . QăP21. CÁN BӜ +ѬӞNG DҮN +ӑWrQYjFKӳNê &+Ӫ1+,ӊ0%Ӝ0Ð1Ĉ¬27Ҥ2 +ӑWrQYjFKӳNê 75ѬӢNG KHOA KHOA HӐC VÀ KӺ THUҰT MÁY TÍNH +ӑWrQYjFKӳNê LӠI CҦ0Ѫ1 Tác giҧ xin gӱi lӡi cҧPѫQWUkQWUӑQJÿӃn quý Thҫ\JLiR&{JLiRÿmWUX\ӅQÿҥt kiӃn thӭc, kinh nghiӋPYjSKѭѫQJSKiSQJKLrQFӭu khoa hӑFÿӇ tác giҧ có thӇ hoàn WKjQKÿӅ tài này. Tác giҧ FNJQJ[LQJӱi lӡi cҧPѫQFKkQWKjQKÿӃn các bҥn hӑc viên cao hӑFYjFiFÿӗng nghiӋSÿmJySêKӛ trӧ trong suӕt quá trình thӵc hiӋQÿӅ tài. Ĉһc biӋt, tác giҧ xin gӱi lӡi cҧPѫQWrân trӑng và sâu sҳFÿӃn Thҫy TS. Lê Thành 6iFKQJѭӡLÿmWUӵc tiӃSKѭӟng dүn, dìu dҳt tác giҧ EѭӟFYjRP{LWUѭӡng nghiên cӭu khoa hӑc. Cuӕi cùng, xin cҧPѫQJLDÿuQKÿmÿӝng viên, chia sҿ NKyNKăQÿӇ tác giҧ có thӇ tұp trung thӵc hiӋQÿӅ tài này. Vӟi thӡi gian nghiên cӭu còn hҥn chӃÿӅ tài chҳc chҳn còn nhiӅu vҩQÿӅ cҫn phҧi cҧi tiӃn, hoàn thiӋQKѫQ5ҩt mong sӵ ÿyQJJySêNLӃn tӯ các Thҫy giáo, Cô giáo, bҥn bè Yjÿӗng nghiӋSÿӇ tác giҧ hoàn thiӋQÿӅ tài, và có thӇ ӭng dөng tӕt vào thӵc tӃ. TP. Hӗ Chí 0LQKQJj\WKiQJQăP Tác giҧ NguyӉn Thanh Hoàng i TÓM TҲ7Ĉӄ TÀI HiӋn nay, vӟi sӵ phát triӇQFѫVӣ hҥ tҫQJFDPHUDJLiPViWÿm[Xҩt hiӋn ӣ khҳp mӑLQѫL7X\QKLrQFiFFDPHUDQj\Yүn cҫQÿѭӧc quҧn lý bӣi giám sát viên tҥi các trung tâm. Bài tRiQÿһWUDOjOjPFiFKQjRÿӇ có thӇ [k\ÿѭӧc 1 hӋ thӕng tӵ ÿӝng, có thӇ phát hiӋn bҩWWKѭӡng trong video mà không cҫn hoһc ít sӵ can thiӋp cӫDFRQQJѭӡi. Trong nhӳQJQăPJҫQÿk\Yӟi sӵ phát triӇn cӫa kӻ thuұt hӑc sâu, nhiӅXSKѭѫQJ SKiSÿѭӧFÿӅ xuҩWÿӇ phát hiӋn bҩWWKѭӡng trong video. Hҫu hӃWFiFSKѭѫQJSKiSQj\ ÿzLKӓLOѭӧng dӳ liӋu lӟQÿmÿѭӧFJiQQKmQÿӇ huҩn luyӋQFKRP{KuQKWUѭӟc khi ӭng dөng vào trong thӵc tiӉn. Tuy nhiên, các yӃu tӕ bҩWWKѭӡng diӉn ra rҩt nhanh, ӣ nhiӅu ngӳ cҧnh và thӡi gian kháFQKDXĈLӅu này làm cho viӋc thu thұp dӳ liӋu và gán nhãn trӣ QrQNKyNKăQ Trong phҥPYLÿӅ tài: "Phát hiӋn bҩWWKѭӡng trong video giám sát sӱ dөng kӻ thuұt hӑc sâu" sӁ ÿӅ xuҩWP{KuQKÿѭӧc huҩn luyӋn vӟi tұp dӳ liӋu không có sӵ kiӋn bҩt WKѭӡng mà dӉ dàQJWuPÿѭӧFYjNK{QJÿzLKӓi viӋc gán nhãn. Mong muӕn là trong quá trình huҩn luyӋn, mô hình có thӇ hӑFFiFÿһFWUѭQJWUrQNKXQJKuQKNK{QJFyVӵ kiӋn bҩt WKѭӡng. Tӯ ÿyFyWKӇ hӑFÿѭӧc cách xây dӵng lҥi các khung hình này vӟi sai khác là nhӓ nhҩt so vӟi ҧnh gӕF6DXNKLÿmÿѭӧc huҩn luyӋn tӕt, mô hình sӁ ÿѭӧc kiӇm thӱ vӟi các khung hình không có và có sӵ kiӋn bҩWWKѭӡng. Bҩt kӇ ÿҫu vào cӫa mô hình là khung hình có hoһc không có sӵ kiӋn bҩWWKѭӡQJP{KuQKÿӅu cӕ gҳng tҥo ra khung hình không có sӵ kiӋn bҩt. ĈLӅu này dүQÿӃn là các khung hình không có sӵ bҩWWKѭӡQJÿѭӧc mô hình dӵng lҥi vӟi sai sót là nhӓ1Jѭӧc lҥi, các khung hình có sӵ kiӋn bҩWWKѭӡng thì mô hình dӵng lҥi vӟi sai khác là lӟn. Dӵa vào sӵ sai khác khi xây dӵng cái khung hình này ÿӇ ÿiQKJLiFó bҩWWKѭӡng hay không. ii ABSTRACT Currently, with the development of traffic infrastructure, surveillance cameras have appeared everywhere. However, these cameras still need to be managed by supervisors at the centers. The problem is how to build an automatic system that can detect anomalies in video with little or no human intervention. In recent years, with the development of deep learning techniques, many methods have been proposed to detect anomalies in video. Most of these methods require large amounts of labeled, data to train the model before putting it into practice. However, anomalous elements happen very quickly, in many different contexts and times. This makes data collection and labeling difficult. Within the scope of the topic: "Detecting anomalies in surveillance video using deep learning techniques" will propose a model to be trained with a data set without anomalous events that is easy to find and does not require annotations. It is desirable that during training, the model can learn features on the frame without anomalies. From there, it is possible to learn how to reconstruct these frames with minimal difference from the original image. After being well trained, the model will be tested with frames with no and anomalies. Regardless of whether the input to the model is a frame with or without an anomaly, the model tries to produce a frame without anomalies. This results in anomalies-free frames being reconstructed by the model with minimal error. In contrast, frames with unusual events will reconstruct the model with a large difference. Based on the difference when building this frame to evaluate whether it is abnormal or not. iii LӠ,&$0Ĉ2$1 7{L[LQFDPÿRDQOXұQYăQOjF{QJWUuQKQJKLrQFӭu cӫDULrQJFiQKkQW{LĈѭӧc sӵ Kѭӟng dүn cӫa Thҫ\76/r7KjQK6iFKW{LÿmWuPKLӇu, nghiên cӭu, hiӋn thӵc và báo cáo luұQYăQ7{LFyVӱ dөng mӝt sӕ tài liӋu tham khҧRQKѭÿmWUuQKEj\WURQJ phҫn tài liӋu tham khҧo. Các sӕ liӋu, kӃt quҧ trong luұQYăQOjKRjQWRjQWUXQJWKӵFYjFKѭD ÿѭӧc sӱ dөng trong bҩt kǤ báo cáo nào khác. Tôi xin chӏu trách nhiӋm vӅ luұQYăQFӫa mình. NӃu có gì sai sót, tôi xin chӏu hoàn toàn trách nhiӋPWUѭӟc hӝLÿӗng. TP. Hӗ &Kt0LQKQJj\WKiQJQăP Tác giҧ NguyӉn Thanh Hoàng iv MӨC LӨC LӠI CҦ0Ѫ1 ........................................................................................................................................... i TÓM TҲ7Ĉӄ TÀI .................................................................................................................................. ii ABSTRACT ............................................................................................................................................ iii LӠ,&$0Ĉ2$1 ................................................................................................................................... iv MӨC LӨC.................................................................................................................................................v DANH MӨC HÌNH ............................................................................................................................... vii DANH MӨC BҦNG ............................................................................................................................. viii DANH MӨC VIӂT TҲT ........................................................................................................................ ix &KѭѫQJ : Giӟi thiӋu ............................................................................................................................1 1.1 Ĉһt vҩQÿӅ .................................................................................................................................1 1.2 Ĉӝng lӵc nghiên cӭu .................................................................................................................1 1.3 .KyNKăQYjWKiFKWKӭc.............................................................................................................1 1.4 Phҥm vi và mөc tiêu nghiên cӭu ...............................................................................................2 1.5 3KѭѫQJSKiSQJKLrQFӭu...........................................................................................................3 1.6 Bӕ cөc cӫa báo cáo LuұQYăQ ....................................................................................................3 &KѭѫQJ &ѫVӣ lý thuyӃt ....................................................................................................................4 2.1 Bӝ lӑc Conv2D và Conv3D ......................................................................................................4 2.2 Mҥng Autoencoder ....................................................................................................................5 2.3 Mҥng LSTM và ConvLSTM .....................................................................................................6 2.4 Mҥng U-Net ..............................................................................................................................7 &KѭѫQJ : Công trình nghiên cӭu liên quan .........................................................................................8 3.1 3KѭѫQJSKiSWUX\Ӆn thӕng ........................................................................................................8 3.2 3KѭѫQJSKiSGQJNƭWKXұt hӑc sâu ..........................................................................................8 &KѭѫQJ 0{KuQKÿӅ xuҩt ................................................................................................................12 4.1 KiӃn trúc tәng quan .................................................................................................................12 4.2 KiӃn trúc chi tiӃt ......................................................................................................................15 4.2.1 Khӕi sinh ҧnh ± Generator ..............................................................................................15 4.2.2 Khӕi phân loҥi ҧnh ± Discriminator ................................................................................16 4.2.3 KhӕLÿѭDUDTX\ӃWÿӏnh ....................................................................................................17 4.3 Hàm mөc tiêu ..........................................................................................................................19 4.4 HӋ sӕ bҩWWKѭӡng .....................................................................................................................21 &KѭѫQJ : Thӱ nghiӋm và kӃt quҧ......................................................................................................23 v 5.1 Tұp dӳ liӋu ..............................................................................................................................23 5.2 Ĉӝ ÿR .......................................................................................................................................26 5.3 Cách chӑQQJѭӥng bҩWWKѭӡng ................................................................................................27 5.4 &jLÿһt và huҩn luyӋn mô hình ................................................................................................28 5.5 Phân tích kӃt quҧ thӵc nghiӋm ................................................................................................29 &KѭѫQJ : KӃt luұn .............................................................................................................................39 6.1 ѬXÿLӇm...................................................................................................................................39 6.2 1KѭӧFÿLӇm .............................................................................................................................39 6.3 ĈyQJJySFӫDÿӅ tài.................................................................................................................39 6.4 +ѭӟng phát triӇn .....................................................................................................................40 TÀI LIӊU THAM KHҦO.......................................................................................................................41 vi DANH MӨC HÌNH Hình 2-1: So sánh bӝ lӑc Conv2D và bӝ lӑc Conv3D ..............................................................................4 Hình 2-2: Mҥng Autoencoder ...................................................................................................................5 Hình 2-3: Mҥng LSTM .............................................................................................................................6 Hình 2-4: Mҥng U-Net ..............................................................................................................................7 Hình 4-1: KiӃn trúc tәng quan cӫDP{KuQKÿӅ xuҩt ...............................................................................12 Hình 4-2: Mô phӓng cách hoҥWÿӝng cӫDP{KuQKÿӅ xuҩt .....................................................................14 Hình 4-3: Cách chӑn 5 khung hình liên tiӃSÿӇ huҩn luyӋn mô hình ......................................................15 Hình 5-1: Mӝt sӕ khung hình trong tұp dӳ liӋu UCSD Ped1 ..................................................................23 Hình 5-2: Mӝt sӕ khung hình trong tұp dӳ liӋu UCSD Ped2 ..................................................................23 Hình 5-3: Mӝt sӕ khung hình trong tұp dӳ liӋu Avenue .........................................................................24 Hình 5-4: Sӕ Oѭӧng video trong tұp dӳ liӋu UCSD Ped1, UCSD Ped2 và Avenue ................................25 Hình 5-5: Sӕ Oѭӧng khung hình trong tұp dӳ liӋu UCSD Ped1, UCSD Ped2 và Avenue .......................25 Hình 5-6: TӍ lӋ TP và FP ӣ FiFQJѭӥng phân loҥi khác nhau .................................................................27 Hình 5-Ĉӝ ÿR$8& .............................................................................................................................27 Hình 5-8: Quá trình huҩn luyӋn trên tұp dӳ liӋu Ped1 ............................................................................29 Hình 5-9: Quá trình huҩn luyӋn trên tұp dӳ liӋu Ped2 ............................................................................29 Hình 5-10: Quá trình huҩn luyӋn trên tұp dӳ liӋu Avenue ......................................................................30 Hình 5-11: ҦQKÿѭӧFVLQKUDVDXYjLEѭӟc huҩn luyӋn mô hình trên tұp Ped1.......................................31 Hình 5-12: Quá trình huҩn luyӋn vӟi các cách khác nhau ......................................................................31 Hình 5-ĈiQKJLiKLӋu suҩt cӫa mô hình trên tұp dӳ liӋu Ped1..........................................................32 Hình 5-6RViQK/DEHOYj6FRUHWUrQÿRҥn video ngҳn ...................................................................33 Hình 5-ĈiQKJLiKLӋu suҩt cӫa mô hình trên tұp dӳ liӋu Ped2..........................................................33 Hình 5-6RViQK/DEHOYj6FRUHWUrQÿRҥn video ngҳn ...................................................................34 Hình 5-ĈiQKJLiKLӋu suҩt cӫa mô hình trên tұp dӳ liӋu Avenue .....................................................34 Hình 5-6RViQK/DEHOYj6FRUHWUrQÿRҥn video ngҳn ...................................................................35 Hình 5-19: Mô phӓng phát hiӋn bҩWWKѭӡng trên Ped1............................................................................38 Hình 5-20: Mô phӓng phát hiӋn bҩWWKѭӡng trên Ped2............................................................................38 Hình 5-21: Mô phӓng phát hiӋn bҩWWKѭӡng trên Avenue .......................................................................38 vii DANH MӨC BҦNG Bҧng 4-1: KiӃn trúc cӫDP{KuQKÿӅ xuҩt ...............................................................................................17 Bҧng 5-1: KӃt quҧ huҩn luyӋn mô hình trên tұp dӳ liӋu Ped1, Ped2, Avenue ........................................36 Bҧng 5-2: TӕFÿӝ xӱ lý trên tұp kiӇm thӱ ...............................................................................................37 viii DANH MӨC VIӂT TҲT HOG Histograms of Oriented Gradients HOS Histograms of Oriented Swarms MSE Mean Squared Error PSNR Peak signal-to-noise ratio ix &KѭѫQJ : Giӟi thiӋu 1.1 Ĉһt vҩQÿӅ HiӋQQD\FDPHUDJLiPViWÿm[Xҩt hiӋn ӣ khҳp mӑLQѫLQyJL~StWUҩt nhiӅu trong cuӝc sӕQJFRQQJѭӡL7X\QKLrQFiFFDPHUDQj\WKѭӡQJÿѭӧc sӱ dөng thӫ F{QJÿzLKӓi phҧLFyQJѭӡLTXDQViWÿӇ phát hiӋn tai nҥn, cháy nә, trӝPFѭӟS« 'RÿyQKXFҫXÿһt ra cҫn phҧi có mӝt hӋ thӕng camera giám sát mӝt cách tӵ ÿӝng. Có thӇ phát hiӋn bҩWWKѭӡng xҧy ra và cҧQKEiRÿӃn nhӳQJQJѭӡLFyOLrQTXDQÿӇ kӏp thӡi cӭu trӧ, khҳc phөc sӵ cӕ. 1.2 Ĉӝng lӵc nghiên cӭu HiӋn nay, vӟi sӵ phát triӇn cӫD&177ÿһc biӋt là sӵ phát triӇn mҥnh mӁ cӫDOƭQK vӵc cӫa trí tuӋ nhân tҥo (AI) và hӑc máy (Machine learning) trong nhӳQJQăPJҫQÿk\ Máy tính giӡ ÿk\FyWKӇ ÿҧm nhұn nhӳng công viӋFPjWUѭӟFÿk\FKӍ FyFRQQJѭӡi mӟi có thӇ làm ÿѭӧc. Ví dө QKѭ;HWӵ lái là mӝt trong nhӳng thành tӵu nӛi bұc nhҩt. Nó sӱ dөng công nghӋ ³1Kұn dҥQJFiFÿӕLWѭӧQJWURQJYLGHR´ÿӇ có thӇ tӵ lái, mà không cҫn sӵ can thiӋt cӫDFRQQJѭӡi. Bҵng kӻ thuұt hӑc sâu (deep learning), viӋc tҥo ra nhӳng camera giám sát thông minh có thӇ ÿѭӧc sӱ dөQJÿӇ giám sát các tòa nhà, tӵ ÿӝng phát hiӋn bҩWWKѭӡng: khói, lӱa, trӝm cҩp, . . . giúp ích rҩt nhiӅXFKRFRQQJѭӡi, giҧm thiӇu thiӋt hҥi vӅ QJѭӡi và tài sҧn là viӋc làm hoàn toàn khҧ thi. 1.3 .KyNKăQYjWKiFKWKӭc Phát hiӋn bҩWWKѭӡng qua video rҩt dӉ dàng phát hiӋn bҵng mҳt cӫDFRQQJѭӡi. Tuy QKLrQÿӇ OjPFKRPi\WtQKÿӫ WK{QJPLQKÿӇ nhұn ra các sӵ kiӋn bҩWWKѭӡng trong video QKѭFRQQJѭӡi là nhiӋm vө mang nhiӅXNKyNKăQ1yÿzLKӓi nhiӅu yӃu tӕ: x Cҫn "dҥy" cho máy tính biӃWÿѭӧc khi nào có bҩWWKѭӡng, khi nào không có bҩWWKѭӡng xҧ\UDĈLӅXQj\ÿzLKӓi phҧLP{KuQKKyDÿѭӧc các sӵ kiӋn bình WKѭӡng/bҩWWKѭӡng. 1 x ĈӇ OjPÿѭӧc viӋc này, ta cҫn phҧi có nguӗn dӳ liӋXÿӫ lӟQÿmÿѭӧc gán nhãn bӣLFRQQJѭӡi, chӍ UDÿkXOjEҩWWKѭӡngÿkXOjNK{QJFyEҩWWKѭӡng. Tuy nhiên, trong thӵc tӃ các sӵ kiӋn bҩWWKѭӡng không theo mӝt ngӳ cҧnh, thӡi JLDQ[iFÿӏnh và diӉQUDWKѭDWKӟWNK{QJWKѭӡQJ[X\rQ'RÿyUҩWNKyÿӇ có thӇ [k\ÿѭӧc mӝt bӝ dӳ liӋXÿӫ lӟn và chuҭQÿӇ PDQJÿLGҥy" cho máy tính. x 7KrPYjRÿyKӋ thӕng này phҧLÿҧm bҧRWtQKWRiQÿӫ nhanh, phҧn hӗi trong thӡi gian thӵFÿӇ phát hiӋn kӏp thӡi khi có bҩWWKѭӡng xҧy ra. Nó mӟi thӵc sӵ hӳXtFKNKLÿѭDYjRVӱ dөng. ĈӇ Yѭӧt qua nhӳQJNKyNKăQWUrQQKLӅu nghiên cӭXÿѭӧFÿѭDUDQKҵPÿӇ mô hình hóa các sӵ kiӋn bҩWWKѭӡng bҵng cách huҩn luyӋn các mô hình trên các tұp dӳ liӋu NK{QJÿzLKӓi viӋc gán nhãn hoһc gán nhãn rҩt ít cho tӯng tình huӕng bҩWWKѭӡng xҧy ra WURQJYLGHR&iFSKѭѫQJSKiSQj\WKѭӡng sӁ qui bài toán phát hiӋn bҩWWKѭӡng trong video thành bài toán phân loҥi nhӏ SKkQWURQJÿyFiFVӵ kiӋQEuQKWKѭӡQJÿѭӧc gán nhãn là 0 và cá sӵ kiӋn bҩWWKѭӡQJÿѭӧc gán nhãn là 1. 1.4 Phҥm vi và mөc tiêu nghiên cӭu Phҥm vi nghiên cӭu cӫDÿӅ tài là tұp trung nghiên cӭu vào phát hiӋn bҩWWKѭӡng trong video giám sát. Mөc tiêu nghiên cӭu cӫDÿӅ tài là tìm hiӇu, khҧRViWÿiQKJLiFiFP{KuQKKӑc sâu (deep learning) trong viӋc nhұn dҥng các bҩWWKѭӡng qua video. MөFWLrXKѭӟQJÿӃn là thiӃt kӃ hӋ thӕQJÿҫu-cuӕi có thӇ phát hiӋn và cҧnh báo bҩWWKѭӡng trong thӡi gian thӵc. 2 1.5 3KѭѫQJSKiSQJKLrQFӭu 7UrQFѫVӣ nghiên cӭu tính thiӃt thӵc cӫDÿӅ WjLSKѭѫQJSKiSQJKLrQFӭXÿѭӧc thӵc hiӋQQKѭVDX x KӃt hӧp nghiên cӭu lý thuyӃt vӟi khҧRViWSKkQWtFKYjÿiQKJLiWK{QJTXDWKӵc nghiӋm. x 6RViQKSKkQWtFKYjÿiQK giá lҥi các kӃt quҧ nghiên cӭu trong nhӳng công trình có liên quan cӫa các tác giҧ NKiFÿmF{QJEӕ7UrQFѫVӣ ÿyÿѭDUDQKӳQJSKѭѫQJ pháp, kӻ thuұt mӟLYjÿӅ xuҩt cҧi tiӃn. x 7UDRÿәi, thҧo luұn và báo cáo tҥi các buәi hӑp vӟi thҫ\Kѭӟng dүn. 1.6 Bӕ cөc cӫa báo cáo LuұQYăQ %jLEiRFiRÿѭӧc tә chӭFWKjQKFKѭѫQJYӟi các nӝi dung cө thӇ QKѭVDX &KѭѫQJ*Lӟi thiӋXÿӅ tài - 7UuQKEj\VѫOѭӧc vӅ ÿӅ tài, mөc tiêu và phҥm vi nghiên cӭu cӫDÿӅ tài. &KѭѫQJ&ѫVӣ lý thuyӃt - Trình bày mӝt sӕ kiӃQOLrQTXDQÿӃn các kӻ thuұt hӑc máy, hӑFVkXFyOLrQTXDQÿӃn các nghiên cӭXÿѭӧFÿӅ cұSÿӃQWURQJÿӅ tài này. &KѭѫQJ&{QJWUuQKQJKLrQFӭu liên quan - 6ѫOѭӧc qua các công trình nghiên cӭXOLrQTXDQÿӃQÿӅ tài trong nhӳQJQăPJҫQÿk\Wӯ ÿyÿӅ xuҩWUDKѭӟng nghiên cӭu sӁ thӵc hiӋQÿӅ tài luұQYăQ &KѭѫQJ0{KuQKÿӅ xuҩt - Trình bày mô hình sӁ ÿѭӧFGQJÿӇ giҧi quyӃt bài toán phát hiӋn bҩWWKѭӡng trong video. &KѭѫQJ  7Kӱ nghiӋm và kӃt quҧ - Trình bày các tұp dӳ liӋu sӁ ÿѭӧc thӵc nghiӋPFiFKFjLÿһt và huҩn luyӋn mô hình. Tӯ ÿyÿѭDNӃt quҧ trong thӵc nghiӋm. &KѭѫQJ.Ӄt luұn - ĈѭDUDNӃt luұn vӅ P{KuQKÿӅ xuҩWÿiQKJLiѭXYjQKѭӧc ÿLӇm cӫDQyÿӗng thӡLÿӅ UDKѭӟng nghiên cӭXWURQJWѭѫQJODL 3 &KѭѫQJ &ѫVӣ lý thuyӃt 2.1 Bӝ lӑc Conv2D và Conv3D Bӝ lӑF&RQY'WKѭӡQJÿѭӧc sӱ dөng trong xӱ lý ҧQKÿӇ trích xuҩWFiFÿһFWUѭQJ bӝ lӑc sӁ di chuyӇn theo hai chiӅu ngang và dӑc. Sau khi quét qua toàn bӝ ҧQKFiFÿһc WUѭQJYӅ NK{QJJLDQQKѭFiFFҥnh, sӵ phân bӕ màu sҳFÿѭӧc phát hiӋQĈLӅu này làm cho các mô hình sӱ dөng Conv2D rҩt mҥnh mӁ trong phân loҥi ҧnh hay dӳ liӋu WѭѫQJWӵ có thuӝc tính là không gian. 7X\QKLrQÿӕi vӟi các bài toán vӅ nhұn dҥQJWURQJYLGHRFiFÿһFWUѭQJOLrQTXDQ ÿӃn thӡLJLDQÿyQJYDLWUzUҩt quan trӑQJ'RÿyEӝ lӑF&RQY'ÿѭӧc sӱ dөQJÿӇ trích xuҩWFiFÿһFWUѭQJ1JRjLGLFKX\Ӈn theo chiӅu ngang và dӑc, bӝ lӑc còn di chuyӇn theo chiӅu sâu (theo trөc thӡLJLDQÿӕi vӟi dӳ liӋXOjYLGHR ĈLӅXQj\FyQJKƭDOjFiFÿһc WUѭQJOLrQTXDQÿӃn thӡi gian sau khi qua bӝ lӑc vүQÿѭӧc giӳ lҥLĈk\FKtQKOjѭX ÿLӇm cӫa Conv3D so vӟL&RQY'NKLPjÿһFWUѭQJYӅ thӡLJLDQNK{QJÿѭӧc giӳ lҥi sau khi qua bӝ lӑc Conv2D. Tuy nhiên, do mӣ rӝng vӅ sӕ chiӅXQrQ&RQY'FNJQJFҫn nhiӅu tham sӕWtQKWRiQKѫQNKLVRYӟi Conv2D. Cách hoҥWÿӝng cӫa bӝ lӑc Conv2D và bӝ lӑc CoQY'QKѭHình 2-1: Hình 2-1: So sánh b͡ l͕c Conv2D và b͡ l͕c Conv3D 4 2.2 Mҥng Autoencoder MҥQJ$XWRHQFRGHUÿѭӧc mô tҧ ӣ Hình 2-2 sӁ bao gӗPJLDLÿRҥn chính là JLDLÿRҥn PmKyDYjJLDLÿRҥn giҧi mã. Tӯ dӳ liӋXÿҫXYjRJLDLÿRҥn mã hóa sӁ trích xuҩWFiFÿһc WUѭQJKӳXtFK6DXÿyFiFFiFÿһFWUѭQJQj\VӁ ÿѭӧc giҧi mã, vӟi hàm mөc tiêu là xây dӵng lҥi dӳ liӋXEDQÿҫu sao cho sai sót là nhӓ nhҩt. Mөc tiêu cӫa quá trình mã hóa - giҧi PmQj\OjÿӇ mô hình hóa lҥi dӳ liӋu mà mô hình nhìn thҩ\7URQJWUѭӡng hӧp, dӳ liӋu ÿҫXYjRQyFKѭDKuQKWKҩy hoһc khác nhiӅu so vӟi dӳ liӋu mà nó hӑFÿѭӧc, thì dӳ liӋu sinh ra sӁ sai sót lӟn so vӟi dӳ liӋu thұW0{KuQKÿӅ xuҩt sӁ sӱ dөng sӵ VDLNKiFQj\ÿӇ ÿiQKJLiFyEҩWWKѭӡng hay không. Hình 2-2: M̩ng Autoencoder 5 2.3 Mҥng LSTM và ConvLSTM Mҥng LSTM là mӝt biӃn thӇ RNN. Nó khҳc phөF QKѭӧF ÿLӇm suy biӃn gradient trong quá trình lan truyӅn QJѭӧc cӫa RNN bҵng cách sӱ dөng mӝt cәng lһp lҥi gӑi là cәQJTXrQ'Rÿy/670FyWKӇ xӃp chӗng, thành 1 chuӛi dài liên tiӃSQKDXÿӇ trích xuҩt FiFÿһFWUѭQJӣ mӭFFDRKѫQPjNK{QJEӏ suy biӃn gradient. LSTM rҩt phù hӧp cho các dӳ liӋXOLrQTXDQÿӃn chuӛi thӡLJLDQÿҫu vào cӫDQyWKѭӡQJÿzLKӓi dӳ liӋXÿѭӧc vector KyDWUѭӟFNKLÿѭDYjRP{KuQKÿӇ hӑc các trҥng thái ҭQ'Rÿyÿӕi vӟLFiFEjLWRiQÿҫu vào là ҧnh hoһc video, phҧi thӵc hiӋn tiӅn xӱ OêÿӇ vector hóa các dӳ liӋXQj\WUѭӟc khi ÿѭDYjRP{KuQKĈiӅu này dүQÿӃn khó xây dӵQJP{KuQKÿҫu-cuӕi nӃu chӍ dùng LSTM. ĈӇ khҳc phөFÿѭӧFQKѭӧFÿLӇm này, nhiӅu nghiên cӭXÿӅ xuҩt sӱ dөng trӵc tiӃp Conv2D ÿӇ thay thӃ cho các cәng trong LSTM. Mҥng này gӑi là ConvLSTM, nó có khҧ QăQJ trích xuҩWFiFÿһFWUѭQJOLrQ TXDQÿӃn không gian trong ҧQKYjFiFÿһFWUѭQJYӅ thӡi gian nhӡ YjRÿһc tính cӫa LSTM. Hình 2-3 là kiӃn trúc cӫa mҥng LSTM. NӃu thay các cәng bҵng Conv2D ta sӁ ÿѭӧc mҥng ConvLSTM có thӇ hӑc trӵc tiӃSFiFÿһFWUѭQJWӯ video. Hình 2-3: M̩ng LSTM 6 2.4 Mҥng U-Net Ĉѭӧc phát triӇQÿӇ phөc vө FKREjLWRiQSKkQÿRҥQÿӕi vӟi hình ҧnh trong y tӃ. Hình 2-4 mô tҧ kiӃn trúc cӫa mҥng U-Net, bao gӗm 1 nhánh mҥng là mã hóa và 1 nhánh mҥng là giҧi mã và các nӕi tҳt: x Nhánh mҥng mã hóa: có nhiӅu tҫng, mөFÿtFKOjÿӇ trích xuҩWÿһFWUѭQJӣ nhiӅu mӭc khác nhau. Sau mӛi tҫQJNtFKWKѭӟc ҧnh giҧPÿLQӳa và sӕ ÿһc WUѭQJÿѭӧFWăQJOrQJҩSÿ{L x Nhánh mҥng giҧLPmFNJQJcó nhiӅu tҫng. MөFÿtFKOjӣ mӛi tҫng, sӁ mang FiFÿһFWUѭQJKӑFÿѭӧc bӣi nhánh mҥng mã hóa, ӣ ÿӝ phân giҧi thҩp lên NK{QJJLDQÿLӇm ҧnh ӣ ÿӝ phân giҧLFDRKѫQ Nhӡ vào các nӕi tҳWPDQJFiFÿһFWUѭQJWUӵc tiӃp tӯ nhánh mҥng mã hóa sang nhánh mҥng giҧi mã ӣ cùng mӭc, nên khҧ QăQJ[k\Gӵng lҥLFiFÿһFWUѭQJPjQKiQK mҥQJPmKyDÿmKӑFÿѭӧc sӁ tӕWKѫQNKLYӟi mô hình Autoencoder. Hình 2-4: Mҥng U-Net 7 &KѭѫQJ : Công trình nghiên cӭu liên quan 3.1 3KѭѫQJSKiSWUX\Ӆn thӕng Có nhiӅXSKѭѫQJSKiSÿӇ phát hiӋn bҩWWKѭӡng trong video. Chҷng hҥQFiFSKѭѫQJ pháp phát hiӋn bҩWWKѭӡng dӵa trên phân tích quӻ ÿҥo chuyӇQÿӝng cӫDFiFÿӕLÿѭӧc TXDQViW>@ÿӅ xuҩWSKѭѫQJSKiSKӑc các mүu chuyӇQÿӝng cӫa nhiӅXÿӕLWѭӧng; [30] ÿӅ xuҩt mô hình thӕQJNrÿӇ phát hiӋn bҩWWKѭӡng bҵng các giҧi thuұt theo vӃt. Tuy nhiên, FiFSKѭѫQJSKiSGӵa trên quӻ ÿҥo chuyӇQÿӝng này không mҥnh trong các ngӳ cҧnh ÿ{QJÿ~FFyQKLӅXQJѭӡi và xe cӝ qua lҥi. Nguyên nhân là do các giҧi thuұt theo vӃt dӉ bӏ nhiӉXWKѭӡQJNK{QJÿҥt hiӋu suҩt cao trong các ngӳ cҧnh phӭc tҥp. &iFQKѭӧFÿLӇm này có thӇ ÿѭӧc khҳc phөc bҵQJFiFSKѭѫQJSKiSSKiWKLӋn bҩt WKѭӡng dӵDWUrQFiFÿһFWUѭQJEҩt biӃQÿѭӧc trích xuҩt bҵng các giҧi thuұt truyӅn thӕng. >@ÿӅ xuҩt sӱ dөng H2*Yj+26ÿӇ tҥo ra bӝ mô tҧ FiFÿһFWUѭQJPjtWFKӏu ҧQKKѭӣng bӣi ngӳ cҧQK7X\QKLrQFiFSKѭѫQJSKiSQj\ÿzLKӓi phҧi có kiӃn thӭc nӅn tҧQJÿӇ thiӃt kӃ UDFiFÿһFWUѭQJWKtFKKӧp cho các sӵ kiӋn khác nhau có trong ngӳ cҧnh. 3.2 3KѭѫQJSKiSGQJNƭWKXұt hӑc sâu Trong nhӳQJQăPJҫQÿk\NƭWKXұt hӑc sâu phát triӇn mҥnh mӁ, tӓ ra hiӋu quҧ KѫQ so vӟLSKѭѫQJSKiSWUX\Ӆn thӕng trong trích xuҩWFiFÿһFWUѭQJWӯ ÿyWKӵc hiӋn giҧi các bài toán phân loҥi dӵDWUrQFiFÿһFWUѭQJÿѭӧc rút trích này. NhiӅXP{KuQKÿѭӧFÿӅ xuҩt cho bài toán phát hiӋn bҩWWKѭӡng trong video bҵng SKѭѫQJSKiSQj\QKѭSKѭѫQJSKiSVӱ dөng 2 mҥng riêng biӋWÿӇ nhұn dҥQJKjQKÿӝng trong video ÿѭӧFÿӅ xuҩt bӣi 2 tác giҧ Simmoyan and Zisserman [June 2014]. Dӵa trên nhӳng nghiên cӭu cӫa Karpathy, xây dӵng mҥng vӟi kiӃn trúc hӑc sâu (deep DUFKLWHFWXUHV ÿӇ hӑFFiFÿһFWUѭQJOLrQTXDQÿӃn cӱ ÿӝng (motion features). KiӃn trúc này sӁ bao gӗm 2 mҥng riêng biӋW VDX ÿy Wәng hӧp chúng lҥi giӕng kiӃn trúc "Late Fusion": 8
- Xem thêm -

Tài liệu liên quan