Đăng ký Đăng nhập
Trang chủ Research and build model for detecting anomaly images, apply for business of lac...

Tài liệu Research and build model for detecting anomaly images, apply for business of lacking board station name and anomalies mov alarm of base station

.PDF
60
8
66

Mô tả:

UNIVERSITÉ NATIONALE DU VIETNAM, HANOÏ INSTITUT FRANCOPHONE INTERNATIONAL Thierno Mamoudou BARRY Research and build model for detecting anomaly images, apply for business of lacking board station name and anomalies MOV alarm of base station Nghiên cứu và xây dựng mô hình để phát hiện các hình ảnh báo động MOV bất thường và thiếu tên trạm gốc Spécialité : Systèmes Intelligents et Multimédia Code : 8480201.02 MÉMOIRE DE FIN D’ÉTUDES DU MASTER INFORMATIQUE HANOÏ - 2020 UNIVERSITÉ NATIONALE DU VIETNAM, HANOÏ INSTITUT FRANCOPHONE INTERNATIONAL Thierno Mamoudou BARRY Research and build model for detecting anomaly images, apply for business of lacking board station name and anomalies MOV alarm of base station Nghiên cứu và xây dựng mô hình để phát hiện các hình ảnh báo động MOV bất thường và thiếu tên trạm gốc Spécialité : Systèmes Intelligents et Multimédia Code : 8480201.02 MÉMOIRE DE FIN D’ÉTUDES DU MASTER INFORMATIQUE Sous la direction de : Dr. NGUYEN Hong Quang, Responsable du marter 1 - IFI M. Lưu Đức Phong, MBA, Chef de l’équipe BPMS - Viettel Network HANOÏ - 2020 ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs. La source des informations citées dans ce mémoire a été bien précisée. LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. Các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc. Signature de l’étudiant Thierno Mamoudou BARRY Remerciements Ce travail est le résultat de plusieurs années d’études et le concours de plusieurs personnes qui ont décidé de m’accompagner résolument dans ce grand parcours. Je voudrais profiter de cette occasion pour leur exprimer toute ma reconnaissance et ma gratitude. Je souhaite tout d’abord remercier Dieu le TOUT PUISSANT de m’avoir doté d’une intelligence et maintenu en bonne santé pour réaliser mes rêves. Je lui remercie également de m’avoir accordé des parents exceptionnels qui m’ont tout donné et montré le chemin de l’école. Je voudrais par ces mots, remercier mes encadrants M. LUU Duc Phong de l’équipe BPMS (Business Process Management Software) et Dr. NGUYEN Hong Quang responsable du master 1 (IFI), pour avoir accepté de diriger ce stage. Vos disponibilités et vos conseils judicieux m’ont été très bénéfiques dans la réalisation de ce projet. Mes remerciements vont particulièrement à M. NGUYEN Anh Tuan Directeur des ressources humaines de Viettel Networks pour son soutien constant et la confiance qu’il m’a porté. Je remercie également tous les membres du département digital (BPMS) pour l’accueil chaleureux au sein entreprise, vos conseils et vos contributions essentielles ont conduit au succès de ce travail. Je saisis cette occasion pour remercier l’administration de l’institut Francophone International (IFI) pour sa bonne collaboration et ses interventions pour la résolution des certaines difficultés rencontrées au cours de ma formation et plus particulièrement à notre directeur d’études M. HO Tuong Vinh qui nous a toujours apporté son aide à travers des pertinentes remarques malgré son agenda très chargé. Je tiens à remercier également tout le corps enseignant de l’Institut Francophone International (IFI) pour la formation que nous avons reçue durant ces deux années académiques. Je ne saurais terminer sans adresser mes vives remerciements à ma très chère Famille (frères, sœurs, oncles . . . ), vos encouragements, votre soutient et surtout la confiance que vous me portez tous les jours m’ont permis de surmonter des obstacles incroyables pour persévérer. Résumé La relation étroite de la détection d’objets et la compréhension d’images a attiré beaucoup d’attention de la recherche ces dernières années. Les méthodes classiques (traditionnelles) de détection d’objets sont construites sur des fonctionnalités artisanales et des architectures peu formables. Mais avec le développement rapide de l’apprentissage en profondeur, des outils plus puissants, capables d’apprendre des fonctionnalités sémantiques, de haut niveau et plus profondes, sont introduits pour résoudre les problèmes existant dans les architectures classiques. Ces modèles se comportent différemment dans l’architecture de réseau, la stratégie de formation et la fonction d’optimisation, etc. Dans ce document, nous proposons la mise en place d’un modèle de détection d’objets personnalisé spécialement pour la détection des composants MOV défectueux et des BSN (Base Station Name ou Nom de Station de Base) en se basant sur les nouvelles architectures des réseaux de neurones convolutifs CNN. Ce projet a été proposé par l’entreprise Viettel Networks afin que les techniciens de terrains puissent avoir un outil d’assistance rapide et moderne lors des différentes opérations de maintenance. D’abord, nous faisons une étude théorique dans laquelle nous développons les travaux connexes sur les différents modèles existants de détection d’objets à savoir : Fast R-CNN, Faster R-CNN, YOLO et SSD puis effectuons une étude comparative entre ces modèles. Ensuite, à l’issue de cette étude, proposons une solution adéquate pouvant nous permettre d’atteindre les objectifs de ce projet. Enfin, nous implémentons deux modèles : le Faster R-CNN et le SSD et présentons les résultats obtenus par chaque modèle, 94% et 72% de précision respectivement sur notre ensemble de données. Mots clés : Contexte d’image, Reconnaissance d’objets, Détection d’objets, Apprentissage en profondeur, Apprentissage par transfert, Réseaux de neurones convolutifs, Proposition de régions, Détection des composants MOV défectueux et BSN (Base Station Name). Abstract The close relationship of object detection and image understanding has attracted a lot of research attention in recent years. Classical (traditional) object detection methods are built on artisanal functionalities and poorly formable architectures. But with the rapid development of deep learning, more powerful tools capable of learning semantic, high-level and deeper functionality are being introduced to solve the problems existing in classical architectures. These models behave differently in network architecture, training strategy and optimization function, etc. In this document, we propose the implementation of a personalized object detection model especially for the detection of MOV alarm components anomalies and BSN plates (Base Station Name) based on the new architectures of the CNN convolutional neural networks. This project was proposed by Viettel Networks so that field technicians can have a quick and modern support tool during various maintenance operations. First, we do a theoretical study in which we develop the related work on the different existing models of object detection namely : Fast R-CNN, Faster R-CNN, YOLO and SSD then carry out a comparative study between these models . Then, at the end of this study, propose an adequate solution that can allow us to achieve the objectives of this project. Finally, we implement two models : the Faster R-CNN and the SSD and present the results obtained by each model, 94 % and 72 % precision respectively on our data set. Keywords : Image Context, Image Classification, Object Detection, Deep Learning, Transfer Learning, Convolutional Neural Networks, Region Proposal, Detection of Defective MOV Components and BSN (Base Station Name). Table des matières Liste des tableaux iv Table des figures v Liste des tables v 1 Introduction générale 1.1 Présentation de l’établissement d’accueil . . . . . . . . . . 1.1.1 Viettel . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Contexte-objectifs-problématiques . . . . . . . . . . . . . 1.2.1 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.1.1 Description des composants MOV et BSN 1.2.2 Problématiques . . . . . . . . . . . . . . . . . . . . . 1.2.3 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.3.1 Travaux à réaliser : . . . . . . . . . . . . . . 1.2.4 Organisation du manuscrit : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 3 3 4 4 4 5 5 5 6 2 État de l’art 2.1 Notions de base d’image . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.2 Les types de format d’image . . . . . . . . . . . . . . . . . . 2.1.3 Caractéristiques d’une image . . . . . . . . . . . . . . . . . . 2.2 Méthodes de détection d’objets basées sur les CNNs . . . . . . . . 2.2.1 Les réseaux de neurones convolutifs (CNNs ou ConvNets) . 2.2.1.1 Architecture CNN . . . . . . . . . . . . . . . . . . . 2.2.1.2 Fonctionnement d’un CNN . . . . . . . . . . . . . . 2.2.1.3 Conception des CNNs . . . . . . . . . . . . . . . . . 2.2.1.4 Autres architectures CNNs . . . . . . . . . . . . . . 2.2.2 Quelques algorithmes de détection d’objets . . . . . . . . . 2.2.2.1 Fast R-CNN . . . . . . . . . . . . . . . . . . . . . . . 2.2.2.2 Faster R-CNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 7 7 8 8 10 10 10 11 13 15 17 17 17 i . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . TABLE DES MATIÈRES 2.2.2.3 SSD (Single Shot Detector) . . . . . . . . . . . . . . 2.2.2.4 YOLO (You Only Look Once) . . . . . . . . . . . . . 2.2.2.5 Comparaison des modèles de détection moderne 2.3 Détails des modèles utilisées . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Faster R-CNN . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1.1 Présentation et architecture . . . . . . . . . . . . . 2.3.1.2 Extracteurs de caractéristiques . . . . . . . . . . . . 2.3.2 SSD(Single Shot Detector) . . . . . . . . . . . . . . . . . . . . 2.3.2.1 Présentation et architecture . . . . . . . . . . . . . 2.3.2.2 Extracteurs de caractéristiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Solutions proposées & Contributions 3.1 Les algorithmes de Tensorflow object detection model zoo . . . . . . . . 3.2 Principaux points de notre solution . . . . . . . . . . . . . . . . . . . . . . 3.3 Apprentissage par transfert . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Architecture générale de la solution . . . . . . . . . . . . . . . . . . . . . . 3.5 Contribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6 Mise en œuvre de la solution . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.1 Environnement de travail . . . . . . . . . . . . . . . . . . . . . . . . 3.6.1.1 Environnement matériel . . . . . . . . . . . . . . . . . . . 3.6.1.2 Environnement logiciel . . . . . . . . . . . . . . . . . . . . 3.6.2 Préparation du jeu de données (VTNSET) . . . . . . . . . . . . . . 3.6.3 Téléchargement des modèles préformé de Tensorflow . . . . . . . 3.6.4 Création d’une carte d’étiquettes et configuration de la formation 3.6.4.1 Carte d’étiquettes (label map) : . . . . . . . . . . . . . . . . 3.6.4.2 Configuration du fichier de formation . . . . . . . . . . . 3.6.5 Hyperparamètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Expérimentations & Résultats 4.1 Expérimentations . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.1 Apprentissage et exportation . . . . . . . . . . . . . . 4.1.2 Exportation du modèle final . . . . . . . . . . . . . . 4.1.3 Algorithme d’optimisation et fonction de perte . . . 4.1.4 Mesure d’évaluation . . . . . . . . . . . . . . . . . . . 4.2 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Résultats graphiques de l’apprentissage . . . . . . . . 4.2.2 Résultats comparatifs sur les nouvelles données . . . 4.2.2.1 Analyses des résultats : . . . . . . . . . . . . 4.2.2.2 Quelques résultats du modèle Faster-RCNN 4.3 Problèmes rencontrés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 19 20 21 21 21 22 22 22 23 . . . . . . . . . . . . . . . 24 24 25 25 26 27 28 28 28 28 30 32 33 33 33 34 . . . . . . . . . . . 35 35 35 36 37 37 39 39 40 41 41 43 5 Conclusion & Perspectives 44 5.1 Conclusion générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 5.2 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 ii Table des figures 1.1 Logo Viettel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Plaque BSN à gauche et Composants MOV à droite . . . . . . . . . . . . . . 3 4 2.1 Architecture CNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Descente de gradient (source : https ://www.simplilearn.com/deep-learninginterview-questions-and-answers-article) . . . . . . . . . . . . . . . . . . . . 2.3 Rétro-propagation (source : https ://www.simplilearn.com/deep-learninginterview-questions-and-answers-article) . . . . . . . . . . . . . . . . . . . . 2.4 Couche de convolution avec un filtre de 3 x 3 . . . . . . . . . . . . . . . . . . 2.5 couche de regroupement (pooling) avec un filtre 2 × 2 . . . . . . . . . . . . 2.6 Fonction d’activation ReLU . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.7 Couche entièrement connectée (FC) . . . . . . . . . . . . . . . . . . . . . . . 2.8 Architecture Faster-RCNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.9 Fonctionnement de YOLO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.10 Tableau comparatif des modèle de détection . . . . . . . . . . . . . . . . . . 2.11 Architecture simplifiée Faster R-CNN . . . . . . . . . . . . . . . . . . . . . . 2.12 Architecture SSD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 12 13 14 14 15 18 19 20 21 23 3.1 3.2 3.3 3.4 3.5 3.6 Apprentissage par transfert . . . . . Architecture de la solution . . . . . . Tableau des technologies utilisées . Annotation avec LabelImg . . . . . . Pipeline de préparation de données Carte d’étiquettes (labelmap) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 27 29 31 32 33 4.1 4.2 4.3 4.4 4.5 4.6 Début d’entraînement sur le serveur et en local . . . . . . . . . . Graphe de précision et de perte global du modèle SSD . . . . . . Graphe de précision et de perte global du modèle Faster-RCNN Résultats comparatifs entre le Faster-RCNN et le SSD . . . . . . . Image entrée à gauche et sortie à droite . . . . . . . . . . . . . . . Image entrée à gauche et sortie à droite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 39 39 40 41 42 iii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 TABLE DES FIGURES 4.7 Image entrée à gauche et sortie à droite . . . . . . . . . . . . . . . . . . . . . 42 4.8 Image entrée à gauche et sortie à droite . . . . . . . . . . . . . . . . . . . . . 43 iv Liste des tableaux 3.1 Importants paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 4.1 Tableau comparatif des résultats . . . . . . . . . . . . . . . . . . . . . . . . . 40 v Liste des sigles et acronymes AI Artificial Intelligence NN Neural Network CNN Convolution Neural Network R-CNN Region-based Convolutional Neural Networks Fast R-CNN Fast Region-based Convolutional Neural Networks Faster R-CNN Faster Region-based Convolutional Neural Networks RPN Region Proposal Network SSD Single Shot MultiBox Detector YOLO You Only Look Once SGD Stochastic Gradient Descent BNS Base Name Station NLP Naturel Language Processing BPMS Business Process Management Software Chapitre 1 Introduction générale La capacité du système visuel humain pour détecter et reconnaître les objets qui l’entourent est très puissante. Il est rapide et précis pour effectuer des tâches complexes en temps réel, comme l’identification de plusieurs objets, détecter des anomalies liés à un objet avec très peu d’effort. Ce qui n’était pas possible de reproduire avant avec l’outil informatique par faute de ressources. Mais aujourd’hui, avec la disponibilité de grandes quantités de données, des serveurs, des ordinateurs puissants avec des GPU de haut niveau ainsi que de meilleurs algorithmes d’intelligence artificielle (classiques, modernes), nous pouvons désormais les réalisé facilement en formant des ordinateurs pour reproduire, penser à notre place. Cette technologie est appelé « vision par ordinateur » que l’on pourrait appeler un sous-domaine de l’intelligence artificielle et de l’apprentissage machine, qui peut impliquer l’utilisation de méthodes spécialisées et l’utilisation d’algorithmes d’apprentissage général. Il est défini comme un domaine d’étude qui cherche à développer des techniques pour aider les ordinateurs à « voir » et à comprendre le contenu des images numériques telles que les photographies et les vidéos. Détecter une anomalie ou un objet quelconque dans une image, nous emmène à une compréhension complète de l’image, nous devons non seulement nous concentrer sur la classification des différentes images, mais également essayer d’estimer avec précision les emplacements des objets contenus dans chaque image cette tâche est appelée « détection d’objets ». En tant que l’un des problèmes fondamentaux de vision par ordinateur, la détection d’objets est en mesure de fournir des informations précieuses pour la compréhension sémantique des images et des vidéos, et est liée à de nombreuses applications, y compris la classification d’images [1] et [2], reconnaissance faciale [3], conduite autonome [4] et [5] etc. Cependant, en raison de grandes variations dans les points de vue, les poses, les occlusions et les conditions d’éclairage, il est difficile de réaliser parfaitement la détection d’objets avec une tâche de localisation d’objet supplémentaire. Beaucoup d’attention a été attirée sur ce domaine ces dernières années [6], [7], [8]. La définition du problème de la détection d’objet est de déterminer où se trouvent les objets dans une image donnée (localisation d’objet) et à quelle catégorie chaque objet appartient (classification d’objet). Ainsi, le pipeline de 1 CHAPITRE 1. INTRODUCTION GÉNÉRALE modèles de détection d’objets traditionnels peut être principalement divisé en trois étapes : la sélection informative des régions, l’extraction des caractéristiques et la classification [9]. Dans ce projet, notre travail s’inscrit dans le sens de proposer un outil d’aide à la détection des composants MOV défectueux et le nom des stations de base dans les images qui appliquerait des techniques de l’état de l’art, d’apprentissage en profondeur et de vision par ordinateur basés notamment sur les architectures des réseaux de neurones convolutifs (CNN). Nous allons explorer dans ce rapport des termes tels que les images, la détection d’objets, la localisation, la classification d’image, la fonction de perte pour la détection et la localisation d’objets, et enfin explorer des algorithmes de détection d’objets. 2 CHAPITRE 1. INTRODUCTION GÉNÉRALE 1.1 Présentation de l’établissement d’accueil Ce stage s’est déroulé au sein de l’entreprise Viettel Network dans le département digital(BPMS), entre plusieurs équipes de recherche et développement précisément dans l’équipe Computer vision. Une équipe très dynamique qui, en générale travaille dans le développement des applications d’intelligence artificielle et en particulier le traitement d’images numériques. Elle est composée d’une dizaine de membre y compris les techniciens sur le terrain. 1.1.1 Viettel Fondé en 1989, Viettel est une Société vietnamienne de type publique ayant une capacité de plus de 10 000 employés. Sise dans la capitale vietnamienne à Hanoi, elle est spécialisée dans plusieurs différents domaines entre autres : • • • • La télécommunication L’informatique Le développement immobilier La communication médias et publicité Viettel est parmi l’une des plus grandes sociétés de télécommunications au monde en terme de clients. Elle a une présence significative dans 11 pays et une base de clients qui comprend plus de 110 millions d’accès à travers le monde en Asie, en Afrique et en Amérique 1 . Outre les télécommunications, Viettel participe également à la recherche, à la production des technologies de pointe et à d’autres catégories telles que les postes, la construction, le commerce, l’importation et l’exportation. La filiale informatique de Viettel est principalement spécialisée dans les axes suivants : — Développement d’applications mobiles ; — Développement d’applications Web (front-end et back-end) ; — Développement de logiciels embarqués ; — Test logiciel (test manuel et automatisé) ; — Sécurité système ; — Analyse des données et intelligence artificielle AI (Computer vision, Big data, NLP, etc.) F IGURE 1.1 – Logo Viettel 1. http ://viettel.com.vn 3 CHAPITRE 1. INTRODUCTION GÉNÉRALE 1.2 Contexte-objectifs-problématiques 1.2.1 Contexte C’est dans le cadre du développement et de l’extension de ses activités à l’échelle nationale et internationale ainsi que l’amélioration de la qualité de service que l’entreprise Viettel Network à travers ce projet souhaite proposer des solutions d’intelligence artificielle (IA) permettant la détection des composants MOV défectueux et des plaques (BSN) qui identifient les stations de base dudit entreprise. Ce projet constitue l’une des plus importantes parties de la plate-forme d’IA Vsmart-Service encours de développement par les différentes équipes de l’entreprise. Ce travail s’inscrit en général dans un contexte de détection et d’identification d’objets dans les images. Il constitue un outil d’aide, d’assistance rapide aux techniciens sur le terrain lors des différentes activités de réparations et leurs permettra également d’anticiper les éventuels problèmes avenir. 1.2.1.1 Description des composants MOV et BSN Les composants MOV (voir Figure 1.2) sont des dispositifs connectés en série avec la charge électrique dans un appareil communément appelé parafoudre qui est un système de protection contre les surtensions (surcharges) brusques dues à la transmission du courant électrique (forme d’onde) vers le sol. Ces composants effectuent une technique de filtrage pour limiter l’amplitude de la tension de surcharge électrique à une certaine valeur qui n’endommagera pas les installations, les interrupteurs électriques et les dispositifs de contrôle. Grâce à ces composants, les équipements électroniques sensibles de télécommunications sont protégés. Ils deviennent anormaux (défectueux) lorsque l’on constate une couleur rouge au niveau de leurs en-tête. Les plaques BSN (Base Name Station en anglais) sont des plaques de nom des stations de base. De couleur rouge, elles sont accrochées à l’entrée de chaque station. F IGURE 1.2 – Plaque BSN à gauche et Composants MOV à droite 4 CHAPITRE 1. INTRODUCTION GÉNÉRALE 1.2.2 Problématiques Comme indiqué ci-haut, notre travail s’inscrit dans un problème de détection et d’identification d’objets dans les images appliquant les méthodes d’apprentissage en profondeur. Pour cela, il faut nécessairement un grand volume de données bien structuré ou non structuré utilisant des algorithmes complexes pour entraîner des réseaux de neurones (CNN). Comme nous l’avons mentionné dans les objectifs (1.2.3) du projet, le travail final consiste à développer un modèle fonctionnel qui doit être hébergé dans docker pour une utilisation finale. Alors, afin de mieux affiner notre travail, nous nous posons les questions suivantes : — Les données sont-elles disponibles ? Sinon, comment allons-nous faire pour les acquérir ? — Quels seront les traitements après acquisition ? — Quel algorithme de détections est-il le mieux adapté pour résoudre notre problème ? — Quelles architectures de CNN utilisées pour l’extraction des caractéristiques ? — Existe-t-il des ressources matérielles suffisantes pour l’entraînement de notre modèle ? — Sur quelle base doit se faire le choix du modèle à déployer ? 1.2.3 Objectifs Les objectifs de ce stage consistent premièrement, à faire une étude bibliographique des modèles récents de détection d’objets en temps réel, une étude des travaux existants pour mieux connaître ce qui existe afin d’éviter la répétition et gagner en temps. Deuxièmement, sur la base de cette étude bibliographique, proposer une solution adéquate à notre problème tout en se basant sur les CNNs. Enfin troisièmement, implémenter notre solution en utilisant tous les outils nécessaires. L’objectif principal de ce projet, est de former un modèle personnalisé de détection et d’identification des composants MOV défectueux et des plaques BSN (nom des stations de base en français) dans les images numériques appliquant les méthodes d’apprentissage en profondeur. 1.2.3.1 Travaux à réaliser : Le travail à réaliser durant notre stage est à la fois d’ordre théorique et pratique : 1. Sur le plan théorique : Dans le cadre théorique, notre travail consiste à faire une étude plus approfondie de l’état de l’art et des travaux existants sur les différents modèles de détection d’objets. Ensuite à partir de cette étude, proposer une solution plus adapté à nos données pour résoudre notre problème de détection. 5 CHAPITRE 1. INTRODUCTION GÉNÉRALE 2. Sur le plan pratique : Le travail à réaliser dans cette étape consiste à l’implémentation des solutions proposées conformément à l’objectif visé par le stage. Notre travail pratique se divise en des étapes qui sont interdépendantes entre autres : — La mise en place de l’environnement de travail qui consiste à l’installation de tous les outils nécessaires qui permettront la réussite de ce projet ; — Collection des données nécessaires et préparation de l’ensemble de données (nettoyage, annotation, etc.) ; — Implémentation du modèle choisi avec les données préparées (Dataset) ; — Entraînement, évaluation et test du modèle sur les nouvelles données ; — Déploiement du modèle final sur Docker pour permettre son utilisation sur le terrain (qui sera fait par un autre membre de l’équipe BPMS). 1.2.4 Organisation du manuscrit : En plus des remerciements et du Résumé, plus les annexes, Ce manuscrit est découpé en cinq (5) chapitres : 1. Le chapitre premier intitulé Introduction générale, présente le contexte, la problématique et les objectifs du stage qui vise à recadrer le sujet pour mieux l’appréhender. 2. Le second chapitre qui parle de l’état de l’art, présente les principaux travaux et méthodes existantes lors de l’étude bibliographique, c’est le lieu pour nous après une longue recherche et lecture des travaux connexes réaliser dans les différents domaines du sujet de présenter les travaux qui nous ont servis de références pour l’atteinte de nos objectifs. 3. Le troisième chapitre intitulé Solution proposée, présente notre solution pour atteindre les objectifs de notre travail, les techniques mises en place pour l’implémentation de cette solution et les outils ou environnement de travail choisie pour son implémentation. 4. Le quatrième et avant-dernier chapitre de notre manuscrit intitulé Expérimentation et Résultats, présente les résultats obtenus de notre travail et les commentaires sur ceux-ci. 5. Le cinquième et dernier chapitre conclusion générale et perspectives. 6 Chapitre 2 État de l’art Étant l’un des problèmes fondamentaux de vision par ordinateur, la détection d’objets dans les images est un sujet dans lequel beaucoup de travails ont été effectué ces dernières années. Il consiste à déterminer où se trouvent les objets dans une image donnée en dessinant un cadre de délimitation autour de leur emplacement (localisation d’objet) et à prédire la catégorie/classe à laquelle chaque objet appartient (classification d’objet). Ainsi, le pipeline de modèles de détection d’objets peut être principalement divisé en trois étapes : la sélection informative des régions, l’extraction des caractéristiques et la classification. Dans ce chapitre, nous abordons la notion de l’image et faisons une étude approfondie sur les différentes techniques et modèles existant de détection d’objets tout en faisant ressortir les avantages et désavantages de chaque partie qui nous permettra d’en tirer une conclusion afin de proposer une solution meilleure dans le cadre de notre travail. 2.1 Notions de base d’image 2.1.1 Définition Une image est une représentation planaire d’une scène ou d’un objet situé en général dans un espace tridimensionnel, elle est issue du contact des rayons lumineux provenant des objets formant la scène avec un capteur (caméra, scanner, rayons X, ...). Il ne s’agit en réalité que d’une représentation spatiale de la lumière. L’image est considérée comme un ensemble de points auquel est affectée une grandeur physique (luminance, couleur). Ces grandeurs peuvent être continues (image analogique) ou bien discrètes (images digitales). Mathématiquement, l’image représente une fonction continue IF, appelée fonction image, de deux variables spatiales représentée par IF(x, y) mesurant la nuance du niveau de gris de l’image aux coordonnées (x, y). [10] La fonction Image peut se représenter sous la forme suivante : 7
- Xem thêm -

Tài liệu liên quan