Đăng ký Đăng nhập
Trang chủ Ngoại ngữ Kiến thức tổng hợp Contribution au développement d’une intelligence de conduite pour le train auton...

Tài liệu Contribution au développement d’une intelligence de conduite pour le train autonome

.PDF
66
92
134

Mô tả:

UNIVERSITÉ NATIONALE DU VIETNAM, HANOÏ INSTITUT FRANCOPHONE INTERNATIONAL Abdoul Djalil OUSSEINI HAMZA Real Time Multimodal Baby Monitoring System Hệ thống giám sát em bé đa phương thức thời gian thực Spécialité : Systèmes Intelligents et Multimédia Code : 8480201.02 MÉMOIRE DE FIN D’ÉTUDES DU MASTER INFORMATIQUE Sous la direction de : Dr NGUYEN Trong Phuc - Ifi-solution HANOÏ - 2020 UNIVERSITÉ NATIONALE DU VIETNAM, HANOÏ INSTITUT FRANCOPHONE INTERNATIONAL Abdoul Djalil OUSSEINI HAMZA Real Time Multimodal Baby Monitoring System Hệ thống giám sát em bé đa phương thức thời gian thực Spécialité : Systèmes Intelligents et Multimédia Code : Programme pilote MÉMOIRE DE FIN D’ÉTUDES DU MASTER INFORMATIQUE Sous la direction de : Dr NGUYEN Trong Phuc - Ifi-solution HANOÏ - 2020 ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs. La source des informations citées dans ce mémoire a été bien précisée. LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. Các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc. Signature de l’étudiant Abdoul Djalil OUSSEINI HAMZA Remerciements Je remercie d’abord Dieu le TOUT PUISSANT de m’avoir accordé des parents qui m’ont montré le chemin de l’école et grâce à qui je suis là présentement. La réalisation de ce mémoire a été possible grâce au concours de plusieurs personnes à qui je voudrais témoigner toute ma gratitude. J’aimerais tout d’abord remercier mon encadreur pédagogique de stage Dr NGUYEN Trong Phuc Chef de projet - Ifi-Solution et enseignant chercheur à l’université de Transport et de Communication de Hanoi, Vietnam. La porte du bureau du Dr NGUYEN Trong Phuc était toujours ouverte chaque fois que je rencontrais un problème ou si j’avais une question sur mes recherches. Il a toujours permis que ce document soit mon propre travail, mais il m’a guidé dans la bonne direction chaque fois qu’il pensait que j’en avais besoin. Je tiens également à remercier M. Hoan Dinh Van manager à Ifi-Solution qui a participé à la réalisation et validation de ce projet. Ce travail n’aurait pu être accompli sans leur effort et leur contributions passionnées. Je voudrais remercier notre responsable de Master Dr Ho Tuong Vinh ainsi que tous les personnels pédagogiques et administratifs de l’Institut Francophone International, Université National de Vietnam à Hanoi. Je leur suis reconnaissant de tout cœur pour avoir assuré et amélioré la qualité de notre formation. Enfin, je tiens à exprimer ma profonde gratitude à mes parents, à ma famille et à Mme Võ Thu Trang pour m’avoir apporté un soutien indéfectible et des encouragements constants tout au long de mes années de Master. Sans oublier mes amis qui ont toujours été là pour moi. Votre soutien inconditionnel et vos encouragements ont été d’une grande aide. Je vous remercie. Abdoul Djalil OUSSEINI HAMZA Résumé Peu de travaux se sont intéressés à la détection des mouvements des bébés dans leur berceaux et les rares travaux qui ont traité ce problème ont plutôt utilisé les algorithmes classiques de Machine Learning comme les SVM en tant que classifier. Dans ce travail, nous proposons une nouvelle approche pour détecter les mouvement et les cris des nourrissons en se basant sur les nouvelles architectures des réseaux de neurones à convolution CNN. La première partie porte sur la présentation de la structure d’accueille où est décrit les missions et les départements qui composent l’entreprise. La seconde partie fait mention de l’état de l’art dans laquelle les travaux connexes ont été développés et une étude comparative à été établie. La troisième partie opère sur les solutions proposées et les contributions apportées. La quatrième partie fait l’objet des expérimentations et résultats où nous avons mené toutes nos expériences pour la réalisation du projet et enfin, la dernière partie porte sur la conclusion et les perspectives pour les futures travaux dans le domaine. Mots clés : surveillance des bébés, détection d’objets, proposition de région, réseau neuronal convolutif, cri des bébé. Abstract Few studies have focused on detecting the movements of babies in their cradles, and the few studies that have dealt with this problem have instead used conventional machine learning algorithms such as SVM as classifiers. In this work, we propose a new approach to detect movement and cry of infants based on new architectures of CNN convolutional neural networks. The first part relates to the presentation of the hosting structure where the missions and departments that make up the company are described. The second part mentions the state of the art in which the related works were developed and a comparative study was established. The third part operates on the solutions proposed and the contributions made. The fourth part is the subject of experiments and results where we conducted all our experiences for the realization of the project and finally, the last part relates to the conclusion and prospects for future work in the field. Keywords : baby monitoring, object detection, region proposal, convolutional neural network, baby cry. Table des matières Liste des tableaux iv Table des figures v Liste des tables v 1 INTRODUCTION GÉNÉRALE 1.1 Présentation de l’établissement d’accueil 1.1.1 Ifi-solution . . . . . . . . . . . . . . 1.2 Contexte-objectifs-problématiques . . . 1.2.1 Contexte . . . . . . . . . . . . . . . 1.2.2 Objectifs . . . . . . . . . . . . . . . 1.2.3 Problématiques . . . . . . . . . . . . . . . . . 2 3 3 4 4 4 4 . . . . . . . . . . . . . . . . 6 6 6 7 7 8 8 9 9 11 13 14 14 15 16 17 17 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 ETAT DE L’ART 2.1 Techniques classiques . . . . . . . . . . . . . . . . . . . . . 2.1.1 Frame Differencing . . . . . . . . . . . . . . . . . . . 2.1.2 Optical flow . . . . . . . . . . . . . . . . . . . . . . . 2.1.3 Background Subtraction . . . . . . . . . . . . . . . . 2.2 Techniques basées sur les réseaux de neurones . . . . . . 2.2.1 Convolutional Neural Networks (CNNs/ConvNets) 2.2.1.1 Architecture CNN . . . . . . . . . . . . . . 2.2.1.2 Fonctionnement de ConvNet . . . . . . . . 2.2.1.3 Conception des ConvNets . . . . . . . . . 2.2.1.4 Autres architectures ConvNet . . . . . . . 2.2.2 Quelques algorithmes de détection d’objets . . . . 2.2.2.1 Fast R-CNN . . . . . . . . . . . . . . . . . . 2.2.2.2 Faster R-CNN . . . . . . . . . . . . . . . . . 2.2.2.3 SSD (Single Shot Detector) . . . . . . . . . 2.3 Comparaison des méthodes utilisées . . . . . . . . . . . . 2.3.1 Faster R-CNN . . . . . . . . . . . . . . . . . . . . . . i . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . TABLE DES MATIÈRES 2.3.1.1 Présentation et architecture . . . . . . . . . . . . 2.3.1.2 Détails du modèle . . . . . . . . . . . . . . . . . . 2.3.2 SSD(Single Shot Detector) . . . . . . . . . . . . . . . . . . . 2.3.2.1 Présentation et architecture . . . . . . . . . . . . 2.3.2.2 Détails du modèle . . . . . . . . . . . . . . . . . . 2.3.3 Comparaison . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.3.1 Comparaison des extracteurs de caractéristiques 2.3.3.2 Combinaison des modèles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 SOLUTIONS PROPOSÉES & CONTRIBUTIONS 3.1 Pourquoi les algorithmes de Tensorflow detection model zoo ? . . . . . . 3.2 Pourquoi l’aspect AUDIO ne figure pas dans notre travail ? . . . . . . . . . 3.3 Déroulement de notre travail . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Architecture générale de la solution . . . . . . . . . . . . . . . . . . . . . . 3.4.1 Transfer Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.1.1 Concepts général . . . . . . . . . . . . . . . . . . . . . . . . 3.4.2 Fine-tuning avec notre Dataset : BbsD . . . . . . . . . . . . . . . . 3.4.3 L’architecture de la solution . . . . . . . . . . . . . . . . . . . . . . . 3.4.4 Contribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.5 Détails sur les contributions apportées . . . . . . . . . . . . . . . . 3.4.5.1 Les differentes classes de Faster-RCNN . . . . . . . . . . . 3.4.5.2 Les changements et modifications apportés au niveau des classes de Faster-RCNN . . . . . . . . . . . . . . . . . . . . 3.4.6 Ce qu’il faut retenir dans nos contributions . . . . . . . . . . . . . 3.4.7 Paramètres impactants . . . . . . . . . . . . . . . . . . . . . . . . . 4 EXPÉRIMENTATIONS & RÉSULTATS 4.1 Problèmes rencontrés . . . . . . . . . . . . . . . . . . . 4.1.1 Condition d’acquisition des données . . . . . . 4.1.2 Dataset : BbsD . . . . . . . . . . . . . . . . . . . . 4.1.3 Performance matérielle . . . . . . . . . . . . . . 4.2 Expérimentations . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Pré-traitement des données . . . . . . . . . . . . 4.2.2 Algorithme d’optimisation et fonction de perte 4.2.3 Mesure d’évaluation . . . . . . . . . . . . . . . . 4.2.4 Pipeline d’intégration au Raspberry . . . . . . . 4.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1 Analyses . . . . . . . . . . . . . . . . . . . . . . . 4.3.2 Résultats des graphes . . . . . . . . . . . . . . . 4.3.3 Output . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 18 19 19 20 20 20 21 . . . . . . . . . . . 22 22 23 23 23 23 23 24 25 25 26 26 . 27 . 28 . 29 . . . . . . . . . . . . . 31 31 31 31 32 33 33 34 35 35 36 37 38 39 5 CONCLUSION & PERSPECTIVES 44 5.1 Conclusion générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 5.2 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 ii TABLE DES MATIÈRES A Algorithmes A.1 Implémentation du modèle Faster R-CNN A.2 prepare batch . . . . . . . . . . . . . . . . . A.3 generate data . . . . . . . . . . . . . . . . . A.4 start train . . . . . . . . . . . . . . . . . . . . iii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 48 49 52 53 Table des figures 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 CNN architecture . . . . . . . . . . . . . . . . . Gradient descent . . . . . . . . . . . . . . . . . Backpropagation . . . . . . . . . . . . . . . . . Max pooling avec un filtre 2 × 2 . . . . . . . . . Fonction d’activation : RelU . . . . . . . . . . . Fonction d’activation : RelU . . . . . . . . . . . Architecture Faster-RCNN . . . . . . . . . . . . Architecture comparative entre SSD et YOLO . Architecture simplifiée Faster R-CNN . . . . . Architecture SSD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 10 11 12 12 13 16 17 18 19 3.1 Transfer Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.2 Architecture de la solution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.3 Poids et batch_norm freezer . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 4.10 4.11 4.12 Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Architecture générale pour intégrer le modèle dans le Raspberry Pipeline de la solution . . . . . . . . . . . . . . . . . . . . . . . . . Fonction de perte . . . . . . . . . . . . . . . . . . . . . . . . . . . . Pertes globales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Le métrique mAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . Posture : stand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Posture : Stand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Posture : Sleep . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Posture : Sleep . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Posture : Sit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Posture : Sit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iv . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 36 36 38 38 39 39 40 41 41 42 42 Liste des tableaux 2.1 extracteurs de caracterisques . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.2 Combinaison des modèles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.1 Parametres impactants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.1 State of the art results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.2 Our experiment results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 v Liste des sigles et acronymes CNN Convolution Neural Network DNN Deep Neural Network NN Neural Network RCNN Regiion proposal CNN SGD Stochastic Gradient Descent SSD Single Shot MultiBox Detector Chapitre 1 INTRODUCTION GÉNÉRALE Il est important d’avoir une vue permanente dans les chambres de nos bébés et dans leurs berceaux afin d’éviter tout accident malheureux auquel ces bébés pourraient être confrontés. Et de plus en plus de parents sont préoccupés par la sécurité de leur nouveau-né et veulent des mécanismes automatiques qui pourraient les alerter de la situation instantanée de leur bébé. Les parents utilisent souvent des dispositifs de surveillance pour bébés pour garder un œil sur les jeunes enfants pendant la nuit. Cependant, le mécanisme d’alerte de ces moniteurs est généralement déclenché sur des informations sonores et non visuelles. Or, tous les cris de nuit ne nécessitent pas l’intervention d’un adulte. Les dispositifs de surveillance des enfants auraient une plus grande utilité s’ils sont capables de prendre en compte les informations visuelles et sonores pour déterminer si une alerte a besoin d’être déclencher ou pas. Notre travail s’inscrit dans ce sens afin de proposer une solution de monitoring qui appliquerait des techniques de l’état de l’art de deep learning et de vision par ordinateur notamment basés sur les architectures CNN de détection de mouvement et de cris. L’organisation de ce documents est la suivante : premièrement nous allons présenter l’état de l’art de ce domaine, dans un deuxième temps nous nous concentrions sur les solutions théoriques que nous avons retenues, suivi de l’implémentions avec résultats et analyses et dans la dernière partie les perspectives et la conclusion. 2 CHAPITRE 1. INTRODUCTION GÉNÉRALE 1.1 Présentation de l’établissement d’accueil Ce stage s’est déroulé au sein de l’entreprise Ifi-solution dans un environnement multiculturel(asiatique, européen et africain), majoritairement vietnamienne implanté dans la capitale vietnamienne, Hanoi. 1.1.1 Ifi-solution Ifi-solution a été créée en 2003 et est devenue membre du Japan NTT Data Group depuis 2012. Elle fournit des services professionnels d’externalisation de logiciels et est spécialisée dans la mise en œuvre de projets de développement et de test de logiciels pour des clients en France, en Italie, au Japon, en Suisse et en Allemagne dans des domaines technologiques tels que la gestion des bases de données, l’IoT, les logiciels embarqués, les applications mobiles. Ifi-solution est une entreprise de développement durable réputée à Hanoi. Avec plus de 15 ans d’expérience, Ifi-solution a un engagement élevé dans la qualité, elle a réalisé avec succès des centaines de projets dans différents domaines, notamment les télécommunications, l’énergie, la santé, l’automobile, la gestion des données, la finance et la banque. Le système de gestion de la qualité et le système de gestion de la sécurité de l’information de l’entreprise est certifié ISO 9001 : 2015. De nombreuses sociétés comme Airbus, Nokia, Thales, Toshiba et Panasonic, Docomo leurs ont rendu visite. 1 . Ifi-solution est pricipalement spécialisée dans les axes suivants : — Mobile app development — Front-end web application development — Back-end (Server) web application development — Embedded software development — Software testing (automated testing, manual testing) 1. https ://www.ifisolution.com 3 CHAPITRE 1. INTRODUCTION GÉNÉRALE 1.2 Contexte-objectifs-problématiques 1.2.1 Contexte Étant donné les faiblesses et capacités limites de l’homme pour assurer une surveillance permanente des nourrissons, il est alors primordiale de songer à mettre un système intelligent de monitoring basé multimodale, différent des autres systèmes et prenant en compte le sons et la vidéo afin d’aider les parents à surveiller efficacement leur bébé. 1.2.2 Objectifs Les objectifs de ce stage sont entre autre, d’étudier d’abord, l’état de l’art des travaux existants dans la détection des mouvements des bébés en temps réel, pour mieux connaître ce qui existe afin de ne pas refaire les mêmes méthodes puis, sur la base de cette étude, proposer une nouvelle approche plus robuste basé sur les réseaux de neurones convolutifs. On dira que l’objectif principal de ce projet est de développer un prototype de caméra intégrée dans un Raspberry Pi, surveillant les activités des bébés pendant leur sommeil qui fait la reconnaissance de la voix et celle des mouvements appliquant l’apprentissage profond pour la reconnaissance d’activités. Pour récapituler nos objectifs, nous les distinguons en 2 grandes parties : 1. Basé sur le visuel : — Détection de l’état de sommeil du bébé (position couché) — Détection de l’état d’éveil du bébé (position assis ou debout) — Détection de visage couvert de bébé 2. Basé sur audio : — Détection des pleurs du bébé 1.2.3 Problématiques Sachant que pour faire de l’apprentissage profond il faut nécessairement un grand volume de données structuré ou non structuré utilisant des algorithmes complexes pour entraîner des réseaux de neurones. Comme nous l’avons mentionné dans les objectifs, le travail final doit être intégré dans un Raspberry Pi. Alors, nous nous posons ces questions afin de mieux affiner notre travail : — Les données sont-elles disponibles ? Il y’a t-il au moins une base de données d’images de références ? Sinon, comment allons-nous les acquérir ? — Quels traitements après acquisition ? — Quels algorithmes de détections pour notre problème ? 4 CHAPITRE 1. INTRODUCTION GÉNÉRALE — Quels critères pour détecter la forme du bébé ? — Quels systèmes mettre en place pour alerter les parents en temps réel ? Comment l’associer à l’algorithme de détection choisi. — Quelles architectures de CNN utilisées ? — Sur quelle base doit se faire le choix du modèle à intégrer dans le Raspberry Pi ? Comment se fait alors son déploiement finale dans le système embarqué ? 5 Chapitre 2 ETAT DE L’ART La détection d’objets dans les images et les caméras est un sujet dans lequel beaucoup de travails ont été effectué ces dernières années. Il consiste à prédire la classe d’un objet dans une image (classification) et d’identifier l’emplacement d’un ou plusieurs objets dans une image et de dessiner un cadre de délimitation autour de leur étendue (emplacement). De nombreux algorithmes ont été développés pour détecter et / ou suivre des objets dans les images et les caméras de vidéosurveillance. La détection d’objets est décrite comme un processus pour identifier des objets d’intérêt dans des séquences vidéo et pour regrouper les pixels de ces objets. Un grand nombre d’algorithmes pour détecter les objets en mouvement, à la fois en termes de techniques de traitement d’image conventionnelles et dans les méthodes plus récentes qui utilisent des réseaux de neurones. 2.1 Techniques classiques Pour les techniques classiques, on peut noter les plus fréquemment utilisés dans la littérature et qui ont fait leur preuve dans les différentes expériences : La différence de cadre (Frame Differencing), le flux optique (Optical Flow), le détecteurs de points (Point detectors) et la soustraction de fond (Background Subtraction). Pour aller plus loin, consulter [1], [2]. 2.1.1 Frame Differencing La différenciation d’image implique la soustraction de l’image vidéo actuelle des images précédentes [3]. Dans la différenciation à deux images, les images actuelles et précédentes dans la vidéo sont soustraites et l’image résultante est seuillée. Dans la différenciation à trois images, les images actuelle, précédente et suivante sont considérées [4]. La différenciation à trois images est une extension de l’approche classique de différenciation à deux images et améliore les performances globales et la vitesse de détection [4]. Les méthodes de différenciation de trames peuvent être améliorées par des 6 CHAPITRE 2. ETAT DE L’ART processus de calcul supplémentaires tels que le seuillage automatique ou l’utilisation d’opérateurs linéaires [5], [3] cependant, des problèmes liés à l’occlusion, à l’éclairage et aux bruits de fond se posent. 2.1.2 Optical flow [6] La méthode de flux optique permet de détecter l’objet en mouvement même lorsque la caméra est en mouvement. La technique est très sensible aux bruits et requiert beaucoup de temps pour sa complexité de calcul. Elle ne peut pas détecter le contour exact de l’objet en mouvement. [6] A K Chauhan et al., ont introduit une nouvelle méthode en combinant deux approches de détection de mouvement, le Gaussian Mixture Model (GMM) utilisé pour le suivi principal de l’objet et l’Optical Flow pour soustraire des images successives en utilisant également des filtres morphologiques et médians pour éliminer le bruit. Dans [7] on estime que les techniques de Flux optique peuvent être classés suivant deux méthodes : les méthodes locales telles que la technique de Lucas Kanade ou méthode du tenseur de la structure de Big un, et en méthodes globales telles que l’approche de Horn / Schunck et son extension. Les techniques locales selon [8] sont souvent plus robustes aux bruits alors que les méthodes globales génèrent des champs d’écoulement denses. Les techniques locales implique la résolution du vecteur de flux optique en supposant que le vecteur sera similaire à un petit voisinage entourant le pixel. Il utilise une méthode des moindres carrés pondérés pour estimer le flux optique au pixel (x, y). Cette technique présente de nombreux avantages. [8] Un moyen atypique de surmonter les problèmes posés par les méthodes de flux optiques différentielles consiste à utiliser des techniques de lissage et des hypothèses de régularité. Les détecteurs de points sont utilisés pour trouver des points utiles dans les images qui ont une texture expressive dans leur localités respective [9]. Dans [5] ils présentent une nouvelle méthode pour détecter les points d’intérêt en utilisant les informations de l’histogramme. Les détecteurs utilisés dans l’article incorporent des représentations à base d’histogramme, et peuvent donc trouver des régions d’image présentant une distribution distincte dans le voisinage. Les résultats expérimentaux montrent que les détecteurs de points d’intérêt proposés basés sur un histogramme fonctionnent particulièrement bien pour les tâches consistant à faire correspondre des scènes texturées dans des conditions de flou et d’éclairage, en termes de répétabilité et de caractère distinct. Plus de précisions concernant les descripteurs locaux et globaux sont données dans les articles [5] et [10]. 2.1.3 Background Subtraction C’est l’une des techniques les plus utilisées dans la littérature. Les deux filtres(moyen et médian) sont les plus largement utilisés pour faire la modélisation en arrière-plan [11]. En effet, [12] la méthode de soustraction de fond consiste à utiliser la méthode de différence de l’image actuelle et l’image en arrière-plan pour détecter les objets en 7 CHAPITRE 2. ETAT DE L’ART mouvement, c’est-à-dire qu’elle [13] sépare le mouvement dans des images fixes. Elle détecte les régions en mouvement en déduisant l’image courante nécessaire, pixel par pixel d’une image d’arrière-plan attribuée. [9] Tout changement significatif d’une région d’image par rapport au modèle d’arrière-plan est noté en tant qu’objet en mouvement. Les pixels dans les régions du changement en cours sont marqués comme des objets en mouvement et réservés pour un traitement ultérieur. Dans [14] Rupali S.Rakibe et al., ont présenté un nouvel algorithme permettant de détecter des objets en mouvement à partir d’un scénario d’arrière-plan statique afin de détecter un objet en mouvement sur la base d’une soustraction d’arrière-plan. Les résultats de leur expérience ont montré que la méthode proposée est rapide, précise et adaptée à la détection simultanée. 2.2 Techniques basées sur les réseaux de neurones Les progrès dans le domaine des réseaux neuronaux notamment dans la détection d’objets ont connu beaucoup d’évolution au cours des dernières décennies et ce, grâce à de nombreux facteurs et efforts dans le milieu universitaire mais également dans le monde réel avec des applications telles que : La détection des mouvements, le monitoring, la vision robotique, la conduite autonome des véhicules et des trains. Tout ce progrès a été possible grâce au large développement de divers réseaux de neurones convolutifs profonds et aussi grâce à la forte puissance de calcul des GPU. 2.2.1 Convolutional Neural Networks (CNNs/ConvNets) 1 Les réseaux de neurones convolutifs sont constitués de neurones qui ont des poids et des biais apprenants. Chaque neurone reçoit des entrées, effectue un produit scalaire et le suit éventuellement avec une non-linéarité. L’ensemble du réseau exprime toujours une seule fonction de score différenciable : des pixels d’image bruts d’un côté aux scores de classe de l’autre. Et ils ont toujours une fonction de perte (par exemple SVM / Softmax) sur la dernière couche (entièrement connectée). Les architectures ConvNet font l’hypothèse explicite que les entrées sont des images, ce qui permet d’encoder certaines propriétés dans l’architecture. Celles-ci rendent alors la fonction directe plus efficace à mettre en œuvre et réduisent considérablement la quantité de paramètres dans le réseau. 1. http ://cs231n.github.io/convolutional-networks/ 8
- Xem thêm -

Tài liệu liên quan