Tài liệu Analyse de données multi sources (réseaux sociaux, journaux,...) liées au thèmes « mobilité et transition énergétique »

.PDF

104

tailieuonline Báo vi phạm

Tải xuống 104

Mô tả:

1 _FEBUS _FEBUS INSTITUT FRANCOPHONE INTERNATIONAL,VNU-IFI Stage Master 2 Informatique, LIUPPA – Equipe T2I Université de Pau et des Pays de l’Adour 2018-2019 Master : Systèmes Intelligents Multimédia - Promo 22 ANALYSE DE DONNÉES MULTI-SOURCES (RÉSEAUX SOCIAUX, JOURNAUX,. . . )LIÉES AU THÈME « MOBILITÉ ET TRANSITION ÉNERGÉTIQUE» Présenter par : Hugues KANDA MADIMBA Encadrant(e) : Dr. Marie-Noelle BESSAGNET Dr. Christian SALLABERRY Edition Septembre 2019 Table des matières Introduction 1 1 Présentation de Structure d’accueil et Généralités sur le Twitter 3 1.1 LIUPPA le laboratoire de recherche en informatique de l’UPPA . . . . . . 3 1.1.1 Equipes de recherche . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2.1 Twitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2.2 Caractéristique d’un tweet . . . . . . . . . . . . . . . . . . . . . . . 6 1.2.3 Analyse d’opinion . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Domaines d’applications de l’analyse des sentiments . . . . . . . . . . . . . 7 1.3.1 La politique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.3.2 Les entreprises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.3.3 Les clients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.3.4 Les collectivités locales . . . . . . . . . . . . . . . . . . . . . . . . . 8 Sources des Données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.4.1 Sites d’avis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.4.2 Blogs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.4.3 Micro-blogs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.5 Approches de la classification des sentiments . . . . . . . . . . . . . . . . 9 1.6 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.6.1 11 1.2 1.3 1.4 Processus Gèneral . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 État de l’art 2.1 12 Les diverses approches d’analyse de sentiment . . . . . . . . . . . . . . . . i 12 ii Table des matières 2.2 3 2.1.1 Approche basée sur les lexiques . . . . . . . . . . . . . . . . . . . . 14 2.1.2 Approche apprentissage de la machine . . . . . . . . . . . . . . . . 16 Une approche particulière basée sur le modèle BILSTM . . . . . . . . . . . 18 Collecte de Données et Pré-traitement 3.1 3.2 Collecte de Données 21 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.1.1 Collecte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.1.2 Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 Pré-traitement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4 Analyse des Sentiments : Cas Pratique 5 27 4.1 Lexique de sentiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.2 L’apprentissage machine . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.2.1 Description de l’approche . . . . . . . . . . . . . . . . . . . . . . . 29 4.2.2 Données d’apprentissage et de test . . . . . . . . . . . . . . . . . . 30 4.2.3 Classification Tweet . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 Expérimentations et Résultats 5.1 5.2 5.3 Phase d’Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 5.1.1 Extraction et présentation des descripteurs . . . . . . . . . . . . . . 31 Expérimentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 5.2.1 Mesures d’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . 32 Phase de Test et Interprétation . . . . . . . . . . . . . . . . . . . . . . . . 33 5.3.1 . . . . . . . . . . . . . 33 Présentation des résultats et discussion . . . . . . . . . . . . . . . 34 Visualisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 5.4.1 Pourcentage par rapport au nombre d’opinions (BHNS) . . . . . . . 37 5.4.2 Pourcentage par rapport au nombre d’opinions (Funiculaire) . . . . 38 5.4.3 Pourcentage par rapport au nombre d’opinions (VELO) . . . . . . . 38 5.4.4 Répartition en % de tweets d’opinion par catégorie . . . . . . . . . 39 5.4.5 Répartition en fonction des polarités des opinions . . . . . . . . . . 40 5.4.6 Évaluation de la Répartition de tweets des opinions . . . . . . . . . 40 5.3.2 5.4 31 Phase de Test et Présentation des résultats Table des matières iii 5.4.7 Représentation graphique par rapport au tweet avec opinions . . . . 41 5.4.8 Représentation de tweets des opinions sous forme d’une droite . . . 41 5.4.9 Représentation graphique d’opinions(2017-2019) . . . . . . . . . . . 42 5.4.10 Représentation graphique de polarités(2017-2019) . . . . . . . . . . 42 Une Application Web Pour le Workflow . . . . . . . . . . . . . . . . . . . 44 5.5 5.5.1 Extraction des données . . . . . . . . . . . . . . . . . . . . . . . . 45 5.5.2 Résultat de la Prédiction de la Polarité . . . . . . . . . . . . . . . . 47 5.5.3 Résultat Graphique 48 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . 49 Table des figures 1.1 scructure du laboratoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.2 Processus Gèneral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.1 Approches d’analyse de sentiment . . . . . . . . . . . . . . . . . . . . . . . 13 2.2 Exemples d’une base de données lexicales . . . . . . . . . . . . . . . . . . . 14 2.3 Exemples de la polarité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.1 Tweets BHNS_FEBUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.2 Tweets FUNICULAIRE . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.3 Tweets IDECYCLE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.4 Tweets IDECYCLE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.1 Exemples de données labélisées . . . . . . . . . . . . . . . . . . . . . . . . 28 4.2 Diagramme d’architecture du système proposé . . . . . . . . . . . . . . . . 29 5.1 Pourcentage par rapport au nombre d’opinions . . . . . . . . . . . . . . . . 37 5.2 Pourcentage par rapport au nombre d’opinion Funiculaire . . . . . . . . . . 38 5.3 Pourcentage par rapport au nombre d’opinion VELO . . . . . . . . . . . . 39 5.4 Répartition par rapport au tweet d’opinions par catégorie . . . . . . . . . . 39 5.5 Répartition par rapport à la polarité des opinions . . . . . . . . . . . . . . 40 5.6 Répartition en % au tweet des opinions . . . . . . . . . . . . . . . . . . . . 40 5.7 Répartition cyclique en % au tweet des opinions . . . . . . . . . . . . . . . 41 5.8 Représentation des 3 classes . . . . . . . . . . . . . . . . . . . . . . . . . . 41 5.9 Représentation annuelle des opinions . . . . . . . . . . . . . . . . . . . . . 42 5.10 Représentation de polarité en 2017 . . . . . . . . . . . . . . . . . . . . . . 43 iv Table des figures v 5.11 Représentation de polarité en 2018 . . . . . . . . . . . . . . . . . . . . . . 43 5.12 Représentation de polarité en 2019 . . . . . . . . . . . . . . . . . . . . . . 44 5.13 Page d’accueil de notre application . . . . . . . . . . . . . . . . . . . . . . 45 5.14 Page d’extraction des données . . . . . . . . . . . . . . . . . . . . . . . . . 46 5.15 Résultat d’extraction de données . . . . . . . . . . . . . . . . . . . . . . . 46 5.16 Résultat d’extraction de données . . . . . . . . . . . . . . . . . . . . . . . 47 5.17 Résultat graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 Liste des sigles et acronymes LSTM Long Short-Term Memory BiLSTM Bidirectional Long Short-Term Memor NN Neural Network RNN Recurrent neural network vi Introduction Au cours des dernières années, il y a eu un énorme engouement dans l’utilisation des plates-formes publiques telles que Twitter. Elle est devenue importante dans les médias sociaux pour traiter des sujets aussi variés que l’activisme politique, le commercial, l’économique,le sportif, le transport et le divertissement. Elle permet aux utilisateurs d’envoyer et de lire des messages courts de 280 caractères appelés "tweets".Il est également intéressant d’analyser le contenu de ces tweets pour aider les entreprises, les collectivités dans les choix de politiques territoriales. Ainsi, l’analyse de l’opinion est le processus de détermination du ton d’émotion derrière une série de mots, utilisés pour comprendre les attitudes, les opinions et les émotions exprimées dans une mention en ligne. Nous souhaitons faire l’analyse de sentiments dans les tweets. Dans le cadre de notre sujet de recherche, nous souhaitons faire d’une part l’extraction de manière automatique sur la plateforme Twitter d’informations relatives à la mobilité et au transport dans l’agglomération de la ville de PAU. Nous souhaitons d’autre part analyser l’opinion émise dans ces tweets. Cette analyse permet de faire des statistiques pour aider les collectivités dans les choix de politiques territoriales. Cette opinion peut être positive, négative, mixposneg (tweet exprimant en debut de message une opinion positive, puis une opinion négative) ou neutre. De nombreux travaux de recherche s’intéressent à l’analyse des opinions dans des tweets écrits en langue française tels que les travaux de [Davide Buscaldi et al, 2018], [Amine Abdaoui et al, 2015], [Simon Jacques, et al,2018] et [Thierry Hamon et al,2015]. L’auteur [Davide Buscaldi et al, 2018], nous présente a travers cet article trois méthodes originales pour la classification thématique et la détection de polarité dans des tweets en français. La première méthode est fondée sur des lexiques (mots et emojis), les n-grammes de caractères et un classificateur à vaste marge (ou SVM), tandis que les deux autres sont des méthodes endogènes fondées sur l’extraction de caractéristiques au grain caractères : un modèle à mémoire à court-terme persistante (ou BiLSTM pour Bidirectionnal Long Short-Term Memory) et perceptron multi-couche d’une part et un modèle de séquences de caractères fermées fréquentes et classificateur SVM d’autre part. Sentiment analysis of tweets on transport from Île-de France [Simon Jacques, et al,2018]. L’auteur [Amine Abdaoui et al, 2015] a proposé des méthodes supervisées basées sur les machines à vecteurs de support (SVM) utilisant plusieurs types d’attributs comme les n-grammes de mots, les 1 2 Introduction n-grammes de caractères, les patrons syntaxiques les plus fréquents, etc. Puis il a également construit et utilisé des lexiques de sentiments et d’émotions spécifiques pour le français. Analyse des émotions, sentiments et opinions exprimés dans les tweets : présentation et résultats de l’édition 2015 du défi fouille de texte [Thierry Hamon et al,2015] Dans ce document, nous allons nous intéresser aux travaux de recherche reposant sur les techniques de machine learning pour affecter une polarité à un tweet, notamment ceux de [Davide Buscaldi.D et al, 2018] dont nous avons pu utiliser les développements. L’analyse des sentiments relève de plusieurs disciplines en l’occurrence d’une part du traitement automatique de la langage naturelle (Naturel Langage Processing) et d’autre part de l’apprentissage automatique (Machine Learning). Dans ce mémoire, notre objectif consiste à detailler l’analyse des sentiments en adoptant une approche d’apprentissage automatique. Pour ce faire, nous avons re-implémenté la méthode de D.Buscaldi sur le corpus de tweets de DEFT2018.[Davide Buscaldi.D et al, 2018] sur notre corpus. Les résultats obtenus en terme de précision, rappel et F1-mesure révèlent que la représentation avec un modèle BILSTM est la plus pertinente pour nos travaux. Le reste du mémoire est organisé en cinq chapitres : nous consacrons un premier chapitre pour présenter des généralités sur le domaine de l’analyse des sentiments en particulier twitter comme source d’opinions. Le second chapitre se focalise sur l’état de l’art de l’analyse des sentiments, notamment les travaux inhérents à l’analyse des sentiments twitter. Notre troisième chapitre sera consacré à la collecte de données et au pré-traitement Quant au quatrième chapitre, il sera concentré sur le processus mis en place pour notre travail. Notre cinquième chapitre présente l’expérimention et les résultats de la méthode BILSTM en considérant les phases d’apprentissage et de test. Nous concluons avec une synthèse de travail et des perspectives. Chapitre 1 Présentation de Structure d’accueil et Généralités sur le Twitter 1.1 LIUPPA le laboratoire de recherche en informatique de l’UPPA Le LIUPPA est le laboratoire de recherche en informatique de l’UPPA. Il adresse au sens large les sciences du Numérique. Son projet de recherche est résolument tourné vers les besoins et enjeux d’une société numérique dans laquelle le Web (Web des objets, réseaux sociaux, etc.), et plus généralement les réseaux, ne cessent de prendre de l’ampleur, dans toutes nos activités quotidiennes. Cela a un impact direct sur les systèmes informatiques qui deviennent de plus en plus complexes avec : des données (dont la masse ne cesse de croître) hétérogènes, multimédias, et fortement délocalisées (cloud), des traitements distribués et sous-traités, des usagers différents (machines, humains) dont les profils et les besoins diffèrent et évoluent. Dans ce contexte, mêmes les interactions avec et entre ces usagers sont à repenser pour permettre une meilleure communication, et une meilleure collaboration. Les solutions que le LIUPPA se propose d’apporter s’inscrivent dans deux domaines complémentaires : sciences et technologies de l’information autour des traitements de l’information (donnée, document, etc.), de la connaissance, et du web, génie logiciel autour de l’ingénierie des modèles, des services et des architectures logicielles, avec des préoccupations transversales liées à la sécurité, au traitement image/signal et à la visualisation, aux systèmes distribués, et à l’interaction et l’adaptation. La figure qui suit synthétise le propos. 3 4Chapitre 1. Présentation de Structure d’accueil et Généralités sur le Twitter Figure 1.1 – scructure du laboratoire Le laboratoire est structuré en 2 équipes : MOVIES : est centrée sur le génie logiciel et la modélisation. S’y greffent les thématiques sécurité et visualisation. T2I : est centrée sur le traitement de l’information et des interactions, basé sur des compétences de nature diverse (Système d’Information Géographique, architecture logicielle, réseau de capteurs, image). 1.1.1 Equipes de recherche Le Laboratoire d’Informatique de l’Université de Pau et des Pays de l’Adour est structuré autour de deux équipes de recherche : - MOVIES Modélisation, VIsualisation, Exécution et Simulation dont les thématiques de recherche sont : 1.2. Généralités 5 génie logiciel, modélisation, simulation ,visualisation et sécurité - T2I Traitement des Informations spatiales, temporelles et thématiques pour l’adaptation de l’Interaction au contexte et à l’utilisateur dont les thématiques de recherche sont : Extraction, indexation et recherche d’informations Architectures logicielles pour l’adaptation dynamique des applications Modèles et scénarios supportant l’adaptation des interactions au contexte et à l’usager Ecosystèmes numériques et communautés d’usage 1.2 Généralités Dans cette section, nous définissons quelques concepts de base importants pour notre travail. 1.2.1 Twitter Premièrement, nous préciserons sur Twitter ses avantages et sa pertinence pour l’analyse des sentiments. Fondée en 2006, Twitter est une plateforme de médias sociaux en ligne gratuite sur laquelle les utilisateurs peuvent envoyer des messages à la communauté Twitter.[Robin Panfili 18 novembre 2016] Ces messages, également appelés tweets, constituent la base de la plate-forme de médias sociaux. Chaque tweet est limité à un certain nombre de caractères. Avant le 7 novembre 2017, les utilisateurs n’étaient en mesure de tweeter qu’avec un maximum de 140 caractères par tweet. Toutefois, depuis la mise à jour du 7 novembre 2017, la longueur des messages peut varier de 1 à 280 caractères. En outre, le contenu de ces messages contient des opinions, idées, déclarations, etc. Par conséquent, les tweets peuvent varier selon le sujet, tels que les paroles de chansons, les déclarations politiques, les idées, les opinions sur un sujet particulier, etc. Les tweets diffèrent non seulement par leur contenu, mais les personnes qui les écrivent ont des antécédents différents. Cela signifie que le public de Twitter varie des présidents aux mécaniciens, des acteurs célèbres aux étudiants en arts du secondaire et des PDG aux propriétaires de magasins. En conséquence, le service de micro-blogging Twitter peut collecter des tweets de personnes issues de différents contextes sociaux, culturels, politique, sportifs et économiques. Ensuite, les utilisateurs représentent également différents pays, ce qui signifie que les données peuvent être collectées dans différentes langues. Par conséquent, les études concernant les services de micro-blogging ne se limitent pas à une seule langue mais à autant qu’il existe différentes nationalités. Enfin, la base de données de Twitter s’agrandit chaque jour. En conséquence, Twitter est une ressource de données infinie. Les raisons mentionnées ci- 6Chapitre 1. Présentation de Structure d’accueil et Généralités sur le Twitter dessus (nombre de caractères, variété de sujets, large public et base de données en croissance constante) font de Twitter un service de micro-blogging idéal pour collecter des données à des fins d’analyse de la confiance et de la détection de posture. Les termes à connaıtre pour bien utiliser Twitter sont des vocabulaires spécifiques. Les plus courants sont[Barbosa et al. 2010] : — Followers : les personnes qui vous suivent — Followings : les personnes que vous suivez. — Friends : les personnes que vous suivez et qui vous suivent. — Twittos : les utilisateurs de Twitter. — Tweet : court message. — Tweeter : envoyer/poster un message. 1.2.2 Caractéristique d’un tweet Le vocabulaire de la langue dans les tweets, utilise des symboles spécifiques. A quoi sert le et ? C’est quoi RT ? Toutes ces abréviations peuvent paraître un peu floues. Dans une perspective de clarification, un petit lexique des principaux mots et signes Twitter est présenté : — Mention @ : se présente sous la forme @Nomutilisateur Il cible un utilisateur de Twitter dans le tweet poste. Exemple : salut à vous de la part de @hugues et @kdm. Dans le cadre d’une réponse à un tweet, l’auteur du tweet d’origine est mentionné automatiquement dans la réponse. — Hashtag # : se présente sous la forme d’un mot-clé. Il identifie le mot-clé en question comme important et peut en faire un sujet populaire. Exemple : gouvernement, bhns ou encore facebook. — RT (ReTweet) : se présente sous la forme RT NomUtilisateur. Il permet de partager le tweet d’un utilisateur. Exemple : RT hugueskdm Excellent . — URL (Lien) : se présente sous la forme https ://. Tous ces caractères spéciaux peuvent être analysés pour établir différentes statiques mais le plus intéressant est l’analyse du contenu dont on peut trouver l’opinion émise. 1.2.3 Analyse d’opinion Quel est le sens spécifique de l’analyse des sentiments et de l’analyse d’opinion ? Alors que dans la plupart des domaines, l’analyse des sentiments et l’analyse d’opinion sont utilisées de manière interchangeable, ils ont tous deux une histoire et une signification 1.3. Domaines d’applications de l’analyse des sentiments 7 différentes. La première mention de l’extraction d’opinions apparaît dans les actes de la conférence WWW de 2013 dans un article de [Dave et al,2013] Il affirme que "Idéalement, un outil de sondage d’opinion traiterait un ensemble de résultats de recherche pour un article donné, générant une liste d’attributs de produit (qualité, caractéristiques, etc.) et agrégeant les opinions sur chacun d’eux (médiocre, mixte, bon)" (Dave et al., p519, 2003). Grâce à d’autres publications dans ce domaine d’études, l’analyse des sentiments est devenue une partie intégrante du traitement du langage naturel (NLP). La plupart des travaux du traitement du langage naturel (NLP) réduisent l’importance de l’analyse des sentiments et se concentrent sur la classification des revues et des textes par leur polarité, à savoir positive, négative ou neutre.(Sigrid Maurel et al.,Atelier FODOP’08, pages 9 à 22) Toutefois, nombreux sont ceux qui élargissent le sens de l’analyse des sentiments au traitement informatique de l’opinion, du sentiment et de la subjectivité dans un texte [Pang Lee, 2008, p.6]. Ainsi, en interprétant le terme analyse de sentiment au sens large, analyse de sentiment et analyse d’opinion indiquent le même domaine d’études. Dans ce travail, cependant, nous utiliserons le sens étroit de l’analyse de sentiment comme classification des phrases en fonction de leur polarité. 1.3 Domaines d’applications de l’analyse des sentiments L’importance de la détection de sentiment est présente dans plusieurs domaines ainsi plusieurs applications ont vu le jour dans ce contexte. Nous citons brièvement quelques champs d’applications ci-dessous : la politique, les entreprises, les clients et les collectivités locales. 1.3.1 La politique Les acteurs politiques peuvent suivre la tendance de la population en analysant leur opinion, Par exemple avant de promulguer une nouvelle loi, les politiciens essayent de récolter l’avis des internautes sur cette loi. Il est intéressant de connaître aussi l’avis des internautes sur un homme politique pour une élection présidentielle [Anisha P Rodrigues ; Niranjan N Chiplunkar et al. 2016]. 1.3.2 Les entreprises A travers l’analyse des sentiments, les entreprises peuvent connaıtre l’opinion des clients sur leurs produits ou leur service, dans une perspective d’améliorer leurs produits et d’augmenter leurs chiffres d’affaires [8]. 8Chapitre 1. Présentation de Structure d’accueil et Généralités sur le Twitter Dans le domaine du Product review mining, notamment à partir des sites de consultation, les consommateurs viennent échanger des avis et trouver des conseils pour leurs décisions d’achat (produits technologiques, voitures, voyage et hôtels, ... etc) [8]. Le marketing a rapidement compris l’intérêt de l’analyse de sentiments. 1.3.3 Les clients L’analyse des sentiments fait partie aussi de la vie des internautes. Les sondages dans ce domaine montrent que la majorité des clients avant d’acheter un produit, font des recherches d’avis sur ce produit ou un service donné. Ils sont même prêts à payer plus cher un produit dont l’avis est plus favorable qu’un autre [Kalchbrenner et al. 2014]. 1.3.4 Les collectivités locales La présence des collectivités locales sur les réseaux sociaux se renforce, se professionnalise, et s’étend avec agilité à de nouveaux médias Youtube, Instagram, Twitter et LinkedIn notamment en ne se limitant plus, comme c’était souvent le cas avant, au seul Facebook même si ce dernier domine encore très largement tous les autres. Le but est de mieux toucher ses cibles, là où elles sont, avec un positionnement et plan un éditorial clairs. Cette agilité permet de diversifier son offre éditoriale, de mieux convaincre ses publics et, de faire changer les comportements.[https ://www.franckconfino.net/etudereseaux-sociaux-collectivites-locales/] 1.4 Sources des Données Ces opinions sont présentes dans différentes sources de données, à savoir : sites d’avis, blog et micro-blog. 1.4.1 Sites d’avis Les opinions ont le rôle de décideur pour tout utilisateur durant la phase d’achat. Les avis générés par les utilisateurs sur les produits et les services sont largement disponibles sur Internet. La classification de sentiments utilise les données de l’examinateur collectées à partir des sites Web tels que : • www.gsmarena.com (revues de téléphone portable) ; • www.amazon.com (revues des produits) ; • www.CNETdownload.com (revues des produits) 1.5. Approches de la classification des sentiments 9 Ces sites accueillent des millions d’avis sur les produits par les consommateurs [Butow,F at al]. 1.4.2 Blogs Un blog est un système ou les personnes peuvent écrire sur différens sujets dans un but de partager avec d’autres personnes sur le même site. La simplicité de la création des blogs ainsi que leur forme libre a rendu le blogging un événement accessible. Sur la blogosphère, nom associé à l’univers de tous les blogs, nous trouvons un nombre important de messages relatifs à une panoplie de sujets d’intérêt. Les blogs sont utilisés comme sources d’opinions dans la plupart des études relatives à l’analyse des sentiments [Butow,F at al]. 1.4.3 Micro-blogs Les micro-blogs sont parmi les outils de communication les plus populaires pour les utilisateurs d’Internet. Chaque jour, des millions de messages apparaissent dans des sites Web populaires pour les micro-blogging tels que : Twitter , Tumblr , Facebook . Parfois les messages Twitter expriment des opinions qui sont utilisées comme source de données pour classifier le sentiment [Butow,F at al]. Quant au choix de sources des données, nous avons choisi d’utiliser le Micro-Blog Twitter pour la collecte de nos données. Nous allons présenter les diverse approches permettant de classer les sentiments. 1.5 Approches de la classification des sentiments Les méthodes existantes d’analyse des sentiments peuvent être regroupées en deux catégories principales [Amine Abdaoui et al. 2016],[Anne-Lyse Minard et al. DEFT2018.] : 1. Basé sur la connaissance 2. Basé sur l’apprentissage automatique 1. Dans les méthodes basées sur la connaissance, également appelées classification de sentiments basée sur le Lexicon, l’objectif est de construire ou d’utiliser des lexiques de mots de sentiments existants avec les étiquettes de sentiments indiquées pour les mots ou les phrases du texte. La classification du texte est définie par des règles ; par exemple, une fonction sur les mots, telle que la somme de leurs polarités [Taboada et al. 2011]. Cependant, il faut des ressources linguistiques puissantes pour extraire la connaissance des mots, qui ne sont pas toujours disponibles. 10 Chapitre 1. Présentation de Structure d’accueil et Généralités sur le Twitter [Amine Abdaoui et al. 2016] ont construit un lexique(FEEL), utilisant uniquement NRC Word Emotion Association Lexicon (NRC-EmoLex) et une liste d’adjectifs de départ étiquetés. Cette liste ne contient que des adjectifs positifs (par exemple, génial, sympa, cool) et des adjectifs négatifs (par exemple, mauvais, ennuyeux). Leur méthode récupère et étiquette automatiquement les synonymes (même polarité) et les antonymes (polarité opposée). Ce processus permet à la liste de devenir un lexique. Un inconvénient de cette approche est qu’elle n’est applicable que dans les langues où FEEL est disponible. Dans tous les cas, la méthode basée sur la connaissance peut s’avérer inopérante en raison du bruit dans les données textuelles, tandis que la création manuelle de règles pour combiner les informations sur les mots obtenus des lexiques de sentiment prend du temps et des efforts. 2. Par contre[Lei Zhang. 17 Jan 2013], l’apprentissage machine nécessite la formation d’un modèle pour prédire la polarité du texte. Le modèle est formé avec les messages texte, étiquetés pour leur sentiment et représentés en tant que vecteurs caractéristiques. Ce dernier nécessite classiquement un prétraitement du texte en utilisant des outils de traitement de la langue tels que NLTK[Natural Language Toolkit]. Le prétraitement du texte implique principalement la création de jetons, la création de liens, le balisage et éventuellement l’analyse du texte. La sélection des caractéristiques appropriées à partir des données est cruciale et s’est révélée être un problème majeur et constitue toujours un objectif clé pour les chercheurs. Des travaux antérieurs sur l’analyse des sentiments ont exploité des méthodes bien connues d’apprentissage automatique supervisé, comme le réseau de neurones récurrent (RNN) [Anne-Lyse Minard et al. DEFT2018.], les réseaux de neurones convolutifs (CNN) [Antoine Sainson et al. DEFT2018.], le random Forests[Wahid et al. 2017]. Notre travail se concentre également sur les modèles d’apprentissage automatique. Nous développerons ces approches dans le chapitre 2 1.6 Contributions La principale contribution de cette recherche est une analyse approfondie sur les algorithmes de classification pour extraire les avis des tweets. A cet effet, deux méthodes seront étudiées : 1. l’approche lexicale qui utilise des dictionnaires de mots, 2. l’apprentissage machine en utilisant l’algorithme BiLSTM Nous avons analysé des algorithmes et testé des implémentations de ces algorithmes dans le cadre de ces deux approches afin d’étudier leur performance pour la détection, dans les tweets, de la polarité. Nous cherchons a élire le meilleur outil dans le cadre de notre projet.

- Xem thêm -

Tài liệu Analyse de données multi sources (réseaux sociaux, journaux,...) liées au thèmes « mobilité et transition énergétique »

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất