UNIVERSITÉ NATIONALE DU VIETNAM, HANOÏ
INSTITUT FRANCOPHONE INTERNATIONAL
Abdoul Djalil OUSSEINI HAMZA
Real Time Multimodal Baby Monitoring System
Hệ thống giám sát em bé đa phương thức thời
gian thực
Spécialité : Systèmes Intelligents et Multimédia
Code : 8480201.02
MÉMOIRE DE FIN D’ÉTUDES DU MASTER
INFORMATIQUE
Sous la direction de :
Dr NGUYEN Trong Phuc - Ifi-solution
HANOÏ - 2020
UNIVERSITÉ NATIONALE DU VIETNAM, HANOÏ
INSTITUT FRANCOPHONE INTERNATIONAL
Abdoul Djalil OUSSEINI HAMZA
Real Time Multimodal Baby Monitoring System
Hệ thống giám sát em bé đa phương thức thời
gian thực
Spécialité : Systèmes Intelligents et Multimédia
Code : Programme pilote
MÉMOIRE DE FIN D’ÉTUDES DU MASTER
INFORMATIQUE
Sous la direction de :
Dr NGUYEN Trong Phuc - Ifi-solution
HANOÏ - 2020
ATTESTATION SUR L’HONNEUR
J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données
et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs. La
source des informations citées dans ce mémoire a été bien précisée.
LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu
trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công
trình nào khác. Các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn
gốc.
Signature de l’étudiant
Abdoul Djalil OUSSEINI HAMZA
Remerciements
Je remercie d’abord Dieu le TOUT PUISSANT de m’avoir accordé des parents qui
m’ont montré le chemin de l’école et grâce à qui je suis là présentement. La réalisation
de ce mémoire a été possible grâce au concours de plusieurs personnes à qui je voudrais
témoigner toute ma gratitude.
J’aimerais tout d’abord remercier mon encadreur pédagogique de stage Dr NGUYEN
Trong Phuc Chef de projet - Ifi-Solution et enseignant chercheur à l’université de Transport et de Communication de Hanoi, Vietnam. La porte du bureau du Dr NGUYEN
Trong Phuc était toujours ouverte chaque fois que je rencontrais un problème ou si j’avais
une question sur mes recherches. Il a toujours permis que ce document soit mon propre
travail, mais il m’a guidé dans la bonne direction chaque fois qu’il pensait que j’en avais
besoin.
Je tiens également à remercier M. Hoan Dinh Van manager à Ifi-Solution qui a participé à la réalisation et validation de ce projet. Ce travail n’aurait pu être accompli sans
leur effort et leur contributions passionnées.
Je voudrais remercier notre responsable de Master Dr Ho Tuong Vinh ainsi que tous
les personnels pédagogiques et administratifs de l’Institut Francophone International,
Université National de Vietnam à Hanoi. Je leur suis reconnaissant de tout cœur pour
avoir assuré et amélioré la qualité de notre formation.
Enfin, je tiens à exprimer ma profonde gratitude à mes parents, à ma famille et à
Mme Võ Thu Trang pour m’avoir apporté un soutien indéfectible et des encouragements constants tout au long de mes années de Master. Sans oublier mes amis qui ont
toujours été là pour moi. Votre soutien inconditionnel et vos encouragements ont été
d’une grande aide. Je vous remercie.
Abdoul Djalil OUSSEINI HAMZA
Résumé
Peu de travaux se sont intéressés à la détection des mouvements des bébés dans
leur berceaux et les rares travaux qui ont traité ce problème ont plutôt utilisé les algorithmes classiques de Machine Learning comme les SVM en tant que classifier. Dans
ce travail, nous proposons une nouvelle approche pour détecter les mouvement et les
cris des nourrissons en se basant sur les nouvelles architectures des réseaux de neurones à convolution CNN. La première partie porte sur la présentation de la structure
d’accueille où est décrit les missions et les départements qui composent l’entreprise.
La seconde partie fait mention de l’état de l’art dans laquelle les travaux connexes ont
été développés et une étude comparative à été établie. La troisième partie opère sur les
solutions proposées et les contributions apportées. La quatrième partie fait l’objet des
expérimentations et résultats où nous avons mené toutes nos expériences pour la réalisation du projet et enfin, la dernière partie porte sur la conclusion et les perspectives
pour les futures travaux dans le domaine.
Mots clés : surveillance des bébés, détection d’objets, proposition de région, réseau
neuronal convolutif, cri des bébé.
Abstract
Few studies have focused on detecting the movements of babies in their cradles,
and the few studies that have dealt with this problem have instead used conventional
machine learning algorithms such as SVM as classifiers. In this work, we propose a
new approach to detect movement and cry of infants based on new architectures of
CNN convolutional neural networks. The first part relates to the presentation of the
hosting structure where the missions and departments that make up the company are
described. The second part mentions the state of the art in which the related works
were developed and a comparative study was established. The third part operates on
the solutions proposed and the contributions made. The fourth part is the subject of
experiments and results where we conducted all our experiences for the realization of
the project and finally, the last part relates to the conclusion and prospects for future
work in the field.
Keywords : baby monitoring, object detection, region proposal, convolutional neural network, baby cry.
Table des matières
Liste des tableaux
iv
Table des figures
v
Liste des tables
v
1 INTRODUCTION GÉNÉRALE
1.1 Présentation de l’établissement d’accueil
1.1.1 Ifi-solution . . . . . . . . . . . . . .
1.2 Contexte-objectifs-problématiques . . .
1.2.1 Contexte . . . . . . . . . . . . . . .
1.2.2 Objectifs . . . . . . . . . . . . . . .
1.2.3 Problématiques . . . . . . . . . . .
.
.
.
.
.
.
2
3
3
4
4
4
4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6
6
6
7
7
8
8
9
9
11
13
14
14
15
16
17
17
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2 ETAT DE L’ART
2.1 Techniques classiques . . . . . . . . . . . . . . . . . . . . .
2.1.1 Frame Differencing . . . . . . . . . . . . . . . . . . .
2.1.2 Optical flow . . . . . . . . . . . . . . . . . . . . . . .
2.1.3 Background Subtraction . . . . . . . . . . . . . . . .
2.2 Techniques basées sur les réseaux de neurones . . . . . .
2.2.1 Convolutional Neural Networks (CNNs/ConvNets)
2.2.1.1 Architecture CNN . . . . . . . . . . . . . .
2.2.1.2 Fonctionnement de ConvNet . . . . . . . .
2.2.1.3 Conception des ConvNets . . . . . . . . .
2.2.1.4 Autres architectures ConvNet . . . . . . .
2.2.2 Quelques algorithmes de détection d’objets . . . .
2.2.2.1 Fast R-CNN . . . . . . . . . . . . . . . . . .
2.2.2.2 Faster R-CNN . . . . . . . . . . . . . . . . .
2.2.2.3 SSD (Single Shot Detector) . . . . . . . . .
2.3 Comparaison des méthodes utilisées . . . . . . . . . . . .
2.3.1 Faster R-CNN . . . . . . . . . . . . . . . . . . . . . .
i
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
TABLE DES MATIÈRES
2.3.1.1 Présentation et architecture . . . . . . . . . . . .
2.3.1.2 Détails du modèle . . . . . . . . . . . . . . . . . .
2.3.2 SSD(Single Shot Detector) . . . . . . . . . . . . . . . . . . .
2.3.2.1 Présentation et architecture . . . . . . . . . . . .
2.3.2.2 Détails du modèle . . . . . . . . . . . . . . . . . .
2.3.3 Comparaison . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.3.1 Comparaison des extracteurs de caractéristiques
2.3.3.2 Combinaison des modèles . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 SOLUTIONS PROPOSÉES & CONTRIBUTIONS
3.1 Pourquoi les algorithmes de Tensorflow detection model zoo ? . . . . . .
3.2 Pourquoi l’aspect AUDIO ne figure pas dans notre travail ? . . . . . . . . .
3.3 Déroulement de notre travail . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4 Architecture générale de la solution . . . . . . . . . . . . . . . . . . . . . .
3.4.1 Transfer Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.1.1 Concepts général . . . . . . . . . . . . . . . . . . . . . . . .
3.4.2 Fine-tuning avec notre Dataset : BbsD . . . . . . . . . . . . . . . .
3.4.3 L’architecture de la solution . . . . . . . . . . . . . . . . . . . . . . .
3.4.4 Contribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.5 Détails sur les contributions apportées . . . . . . . . . . . . . . . .
3.4.5.1 Les differentes classes de Faster-RCNN . . . . . . . . . . .
3.4.5.2 Les changements et modifications apportés au niveau des
classes de Faster-RCNN . . . . . . . . . . . . . . . . . . . .
3.4.6 Ce qu’il faut retenir dans nos contributions . . . . . . . . . . . . .
3.4.7 Paramètres impactants . . . . . . . . . . . . . . . . . . . . . . . . .
4 EXPÉRIMENTATIONS & RÉSULTATS
4.1 Problèmes rencontrés . . . . . . . . . . . . . . . . . . .
4.1.1 Condition d’acquisition des données . . . . . .
4.1.2 Dataset : BbsD . . . . . . . . . . . . . . . . . . . .
4.1.3 Performance matérielle . . . . . . . . . . . . . .
4.2 Expérimentations . . . . . . . . . . . . . . . . . . . . . .
4.2.1 Pré-traitement des données . . . . . . . . . . . .
4.2.2 Algorithme d’optimisation et fonction de perte
4.2.3 Mesure d’évaluation . . . . . . . . . . . . . . . .
4.2.4 Pipeline d’intégration au Raspberry . . . . . . .
4.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.1 Analyses . . . . . . . . . . . . . . . . . . . . . . .
4.3.2 Résultats des graphes . . . . . . . . . . . . . . .
4.3.3 Output . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
17
18
19
19
20
20
20
21
.
.
.
.
.
.
.
.
.
.
.
22
22
23
23
23
23
23
24
25
25
26
26
. 27
. 28
. 29
.
.
.
.
.
.
.
.
.
.
.
.
.
31
31
31
31
32
33
33
34
35
35
36
37
38
39
5 CONCLUSION & PERSPECTIVES
44
5.1 Conclusion générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.2 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
ii
TABLE DES MATIÈRES
A Algorithmes
A.1 Implémentation du modèle Faster R-CNN
A.2 prepare batch . . . . . . . . . . . . . . . . .
A.3 generate data . . . . . . . . . . . . . . . . .
A.4 start train . . . . . . . . . . . . . . . . . . . .
iii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
48
48
49
52
53
Table des figures
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
2.10
CNN architecture . . . . . . . . . . . . . . . . .
Gradient descent . . . . . . . . . . . . . . . . .
Backpropagation . . . . . . . . . . . . . . . . .
Max pooling avec un filtre 2 × 2 . . . . . . . . .
Fonction d’activation : RelU . . . . . . . . . . .
Fonction d’activation : RelU . . . . . . . . . . .
Architecture Faster-RCNN . . . . . . . . . . . .
Architecture comparative entre SSD et YOLO .
Architecture simplifiée Faster R-CNN . . . . .
Architecture SSD . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9
10
11
12
12
13
16
17
18
19
3.1 Transfer Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2 Architecture de la solution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.3 Poids et batch_norm freezer . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.9
4.10
4.11
4.12
Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Architecture générale pour intégrer le modèle dans le Raspberry
Pipeline de la solution . . . . . . . . . . . . . . . . . . . . . . . . .
Fonction de perte . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Pertes globales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Le métrique mAP . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Posture : stand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Posture : Stand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Posture : Sleep . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Posture : Sleep . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Posture : Sit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Posture : Sit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
iv
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
33
36
36
38
38
39
39
40
41
41
42
42
Liste des tableaux
2.1 extracteurs de caracterisques . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2 Combinaison des modèles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.1 Parametres impactants
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.1 State of the art results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2 Our experiment results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
v
Liste des sigles et acronymes
CNN
Convolution Neural Network
DNN
Deep Neural Network
NN
Neural Network
RCNN
Regiion proposal CNN
SGD
Stochastic Gradient Descent
SSD
Single Shot MultiBox Detector
Chapitre
1
INTRODUCTION GÉNÉRALE
Il est important d’avoir une vue permanente dans les chambres de nos bébés et
dans leurs berceaux afin d’éviter tout accident malheureux auquel ces bébés pourraient être confrontés. Et de plus en plus de parents sont préoccupés par la sécurité
de leur nouveau-né et veulent des mécanismes automatiques qui pourraient les alerter de la situation instantanée de leur bébé. Les parents utilisent souvent des dispositifs
de surveillance pour bébés pour garder un œil sur les jeunes enfants pendant la nuit.
Cependant, le mécanisme d’alerte de ces moniteurs est généralement déclenché sur
des informations sonores et non visuelles. Or, tous les cris de nuit ne nécessitent pas
l’intervention d’un adulte. Les dispositifs de surveillance des enfants auraient une plus
grande utilité s’ils sont capables de prendre en compte les informations visuelles et
sonores pour déterminer si une alerte a besoin d’être déclencher ou pas.
Notre travail s’inscrit dans ce sens afin de proposer une solution de monitoring qui
appliquerait des techniques de l’état de l’art de deep learning et de vision par ordinateur notamment basés sur les architectures CNN de détection de mouvement et de
cris.
L’organisation de ce documents est la suivante : premièrement nous allons présenter l’état de l’art de ce domaine, dans un deuxième temps nous nous concentrions sur
les solutions théoriques que nous avons retenues, suivi de l’implémentions avec résultats et analyses et dans la dernière partie les perspectives et la conclusion.
2
CHAPITRE 1. INTRODUCTION GÉNÉRALE
1.1 Présentation de l’établissement d’accueil
Ce stage s’est déroulé au sein de l’entreprise Ifi-solution dans un environnement
multiculturel(asiatique, européen et africain), majoritairement vietnamienne implanté
dans la capitale vietnamienne, Hanoi.
1.1.1 Ifi-solution
Ifi-solution a été créée en 2003 et est devenue membre du Japan NTT Data Group
depuis 2012. Elle fournit des services professionnels d’externalisation de logiciels et est
spécialisée dans la mise en œuvre de projets de développement et de test de logiciels
pour des clients en France, en Italie, au Japon, en Suisse et en Allemagne dans des
domaines technologiques tels que la gestion des bases de données, l’IoT, les logiciels
embarqués, les applications mobiles. Ifi-solution est une entreprise de développement
durable réputée à Hanoi.
Avec plus de 15 ans d’expérience, Ifi-solution a un engagement élevé dans la qualité, elle a réalisé avec succès des centaines de projets dans différents domaines, notamment les télécommunications, l’énergie, la santé, l’automobile, la gestion des données, la finance et la banque.
Le système de gestion de la qualité et le système de gestion de la sécurité de l’information de l’entreprise est certifié ISO 9001 : 2015. De nombreuses sociétés comme
Airbus, Nokia, Thales, Toshiba et Panasonic, Docomo leurs ont rendu visite. 1 .
Ifi-solution est pricipalement spécialisée dans les axes suivants :
— Mobile app development
— Front-end web application development
— Back-end (Server) web application development
— Embedded software development
— Software testing (automated testing, manual testing)
1. https ://www.ifisolution.com
3
CHAPITRE 1. INTRODUCTION GÉNÉRALE
1.2 Contexte-objectifs-problématiques
1.2.1 Contexte
Étant donné les faiblesses et capacités limites de l’homme pour assurer une surveillance permanente des nourrissons, il est alors primordiale de songer à mettre un
système intelligent de monitoring basé multimodale, différent des autres systèmes et
prenant en compte le sons et la vidéo afin d’aider les parents à surveiller efficacement
leur bébé.
1.2.2 Objectifs
Les objectifs de ce stage sont entre autre, d’étudier d’abord, l’état de l’art des travaux existants dans la détection des mouvements des bébés en temps réel, pour mieux
connaître ce qui existe afin de ne pas refaire les mêmes méthodes puis, sur la base de
cette étude, proposer une nouvelle approche plus robuste basé sur les réseaux de neurones convolutifs.
On dira que l’objectif principal de ce projet est de développer un prototype de caméra intégrée dans un Raspberry Pi, surveillant les activités des bébés pendant leur
sommeil qui fait la reconnaissance de la voix et celle des mouvements appliquant l’apprentissage profond pour la reconnaissance d’activités.
Pour récapituler nos objectifs, nous les distinguons en 2 grandes parties :
1. Basé sur le visuel :
— Détection de l’état de sommeil du bébé (position couché)
— Détection de l’état d’éveil du bébé (position assis ou debout)
— Détection de visage couvert de bébé
2. Basé sur audio :
— Détection des pleurs du bébé
1.2.3 Problématiques
Sachant que pour faire de l’apprentissage profond il faut nécessairement un grand
volume de données structuré ou non structuré utilisant des algorithmes complexes
pour entraîner des réseaux de neurones. Comme nous l’avons mentionné dans les objectifs, le travail final doit être intégré dans un Raspberry Pi.
Alors, nous nous posons ces questions afin de mieux affiner notre travail :
— Les données sont-elles disponibles ? Il y’a t-il au moins une base de données
d’images de références ? Sinon, comment allons-nous les acquérir ?
— Quels traitements après acquisition ?
— Quels algorithmes de détections pour notre problème ?
4
CHAPITRE 1. INTRODUCTION GÉNÉRALE
— Quels critères pour détecter la forme du bébé ?
— Quels systèmes mettre en place pour alerter les parents en temps réel ? Comment
l’associer à l’algorithme de détection choisi.
— Quelles architectures de CNN utilisées ?
— Sur quelle base doit se faire le choix du modèle à intégrer dans le Raspberry Pi ?
Comment se fait alors son déploiement finale dans le système embarqué ?
5
Chapitre
2
ETAT DE L’ART
La détection d’objets dans les images et les caméras est un sujet dans lequel beaucoup de travails ont été effectué ces dernières années. Il consiste à prédire la classe
d’un objet dans une image (classification) et d’identifier l’emplacement d’un ou plusieurs objets dans une image et de dessiner un cadre de délimitation autour de leur
étendue (emplacement). De nombreux algorithmes ont été développés pour détecter
et / ou suivre des objets dans les images et les caméras de vidéosurveillance.
La détection d’objets est décrite comme un processus pour identifier des objets
d’intérêt dans des séquences vidéo et pour regrouper les pixels de ces objets. Un grand
nombre d’algorithmes pour détecter les objets en mouvement, à la fois en termes de
techniques de traitement d’image conventionnelles et dans les méthodes plus récentes
qui utilisent des réseaux de neurones.
2.1 Techniques classiques
Pour les techniques classiques, on peut noter les plus fréquemment utilisés dans
la littérature et qui ont fait leur preuve dans les différentes expériences : La différence
de cadre (Frame Differencing), le flux optique (Optical Flow), le détecteurs de points
(Point detectors) et la soustraction de fond (Background Subtraction). Pour aller plus
loin, consulter [1], [2].
2.1.1 Frame Differencing
La différenciation d’image implique la soustraction de l’image vidéo actuelle des
images précédentes [3]. Dans la différenciation à deux images, les images actuelles et
précédentes dans la vidéo sont soustraites et l’image résultante est seuillée. Dans la
différenciation à trois images, les images actuelle, précédente et suivante sont considérées [4]. La différenciation à trois images est une extension de l’approche classique de
différenciation à deux images et améliore les performances globales et la vitesse de détection [4]. Les méthodes de différenciation de trames peuvent être améliorées par des
6
CHAPITRE 2. ETAT DE L’ART
processus de calcul supplémentaires tels que le seuillage automatique ou l’utilisation
d’opérateurs linéaires [5], [3] cependant, des problèmes liés à l’occlusion, à l’éclairage
et aux bruits de fond se posent.
2.1.2 Optical flow
[6] La méthode de flux optique permet de détecter l’objet en mouvement même
lorsque la caméra est en mouvement. La technique est très sensible aux bruits et requiert beaucoup de temps pour sa complexité de calcul. Elle ne peut pas détecter le
contour exact de l’objet en mouvement. [6] A K Chauhan et al., ont introduit une nouvelle méthode en combinant deux approches de détection de mouvement, le Gaussian
Mixture Model (GMM) utilisé pour le suivi principal de l’objet et l’Optical Flow pour
soustraire des images successives en utilisant également des filtres morphologiques
et médians pour éliminer le bruit. Dans [7] on estime que les techniques de Flux optique peuvent être classés suivant deux méthodes : les méthodes locales telles que la
technique de Lucas Kanade ou méthode du tenseur de la structure de Big un, et en
méthodes globales telles que l’approche de Horn / Schunck et son extension. Les techniques locales selon [8] sont souvent plus robustes aux bruits alors que les méthodes
globales génèrent des champs d’écoulement denses. Les techniques locales implique
la résolution du vecteur de flux optique en supposant que le vecteur sera similaire à un
petit voisinage entourant le pixel. Il utilise une méthode des moindres carrés pondérés pour estimer le flux optique au pixel (x, y). Cette technique présente de nombreux
avantages. [8] Un moyen atypique de surmonter les problèmes posés par les méthodes
de flux optiques différentielles consiste à utiliser des techniques de lissage et des hypothèses de régularité.
Les détecteurs de points sont utilisés pour trouver des points utiles dans les images
qui ont une texture expressive dans leur localités respective [9]. Dans [5] ils présentent
une nouvelle méthode pour détecter les points d’intérêt en utilisant les informations
de l’histogramme. Les détecteurs utilisés dans l’article incorporent des représentations
à base d’histogramme, et peuvent donc trouver des régions d’image présentant une
distribution distincte dans le voisinage. Les résultats expérimentaux montrent que les
détecteurs de points d’intérêt proposés basés sur un histogramme fonctionnent particulièrement bien pour les tâches consistant à faire correspondre des scènes texturées
dans des conditions de flou et d’éclairage, en termes de répétabilité et de caractère distinct. Plus de précisions concernant les descripteurs locaux et globaux sont données
dans les articles [5] et [10].
2.1.3 Background Subtraction
C’est l’une des techniques les plus utilisées dans la littérature. Les deux filtres(moyen
et médian) sont les plus largement utilisés pour faire la modélisation en arrière-plan
[11]. En effet, [12] la méthode de soustraction de fond consiste à utiliser la méthode
de différence de l’image actuelle et l’image en arrière-plan pour détecter les objets en
7
CHAPITRE 2. ETAT DE L’ART
mouvement, c’est-à-dire qu’elle [13] sépare le mouvement dans des images fixes. Elle
détecte les régions en mouvement en déduisant l’image courante nécessaire, pixel par
pixel d’une image d’arrière-plan attribuée. [9] Tout changement significatif d’une région d’image par rapport au modèle d’arrière-plan est noté en tant qu’objet en mouvement. Les pixels dans les régions du changement en cours sont marqués comme
des objets en mouvement et réservés pour un traitement ultérieur. Dans [14] Rupali
S.Rakibe et al., ont présenté un nouvel algorithme permettant de détecter des objets
en mouvement à partir d’un scénario d’arrière-plan statique afin de détecter un objet en mouvement sur la base d’une soustraction d’arrière-plan. Les résultats de leur
expérience ont montré que la méthode proposée est rapide, précise et adaptée à la détection simultanée.
2.2 Techniques basées sur les réseaux de neurones
Les progrès dans le domaine des réseaux neuronaux notamment dans la détection
d’objets ont connu beaucoup d’évolution au cours des dernières décennies et ce, grâce
à de nombreux facteurs et efforts dans le milieu universitaire mais également dans le
monde réel avec des applications telles que : La détection des mouvements, le monitoring, la vision robotique, la conduite autonome des véhicules et des trains. Tout ce
progrès a été possible grâce au large développement de divers réseaux de neurones
convolutifs profonds et aussi grâce à la forte puissance de calcul des GPU.
2.2.1 Convolutional Neural Networks (CNNs/ConvNets)
1
Les réseaux de neurones convolutifs sont constitués de neurones qui ont des poids
et des biais apprenants. Chaque neurone reçoit des entrées, effectue un produit scalaire et le suit éventuellement avec une non-linéarité. L’ensemble du réseau exprime
toujours une seule fonction de score différenciable : des pixels d’image bruts d’un côté
aux scores de classe de l’autre. Et ils ont toujours une fonction de perte (par exemple
SVM / Softmax) sur la dernière couche (entièrement connectée).
Les architectures ConvNet font l’hypothèse explicite que les entrées sont des images,
ce qui permet d’encoder certaines propriétés dans l’architecture. Celles-ci rendent alors
la fonction directe plus efficace à mettre en œuvre et réduisent considérablement la
quantité de paramètres dans le réseau.
1. http ://cs231n.github.io/convolutional-networks/
8
- Xem thêm -