1
_FEBUS
_FEBUS
INSTITUT FRANCOPHONE INTERNATIONAL,VNU-IFI
Stage Master 2 Informatique,
LIUPPA – Equipe T2I
Université de Pau et des Pays de l’Adour
2018-2019
Master : Systèmes Intelligents Multimédia - Promo 22
ANALYSE DE DONNÉES
MULTI-SOURCES (RÉSEAUX
SOCIAUX, JOURNAUX,. . . )LIÉES AU
THÈME « MOBILITÉ ET
TRANSITION ÉNERGÉTIQUE»
Présenter par :
Hugues KANDA MADIMBA
Encadrant(e) :
Dr. Marie-Noelle BESSAGNET
Dr. Christian SALLABERRY
Edition Septembre 2019
Table des matières
Introduction
1
1 Présentation de Structure d’accueil et Généralités sur le Twitter
3
1.1
LIUPPA le laboratoire de recherche en informatique de l’UPPA . . . . . .
3
1.1.1
Equipes de recherche . . . . . . . . . . . . . . . . . . . . . . . . . .
4
Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
1.2.1
Twitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
1.2.2
Caractéristique d’un tweet . . . . . . . . . . . . . . . . . . . . . . .
6
1.2.3
Analyse d’opinion . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
Domaines d’applications de l’analyse des sentiments . . . . . . . . . . . . .
7
1.3.1
La politique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
1.3.2
Les entreprises . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
1.3.3
Les clients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
1.3.4
Les collectivités locales . . . . . . . . . . . . . . . . . . . . . . . . .
8
Sources des Données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
1.4.1
Sites d’avis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
1.4.2
Blogs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
1.4.3
Micro-blogs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
1.5
Approches de la classification des sentiments . . . . . . . . . . . . . . . .
9
1.6
Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
1.6.1
11
1.2
1.3
1.4
Processus Gèneral . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2 État de l’art
2.1
12
Les diverses approches d’analyse de sentiment . . . . . . . . . . . . . . . .
i
12
ii
Table des matières
2.2
3
2.1.1
Approche basée sur les lexiques . . . . . . . . . . . . . . . . . . . .
14
2.1.2
Approche apprentissage de la machine . . . . . . . . . . . . . . . .
16
Une approche particulière basée sur le modèle BILSTM . . . . . . . . . . .
18
Collecte de Données et Pré-traitement
3.1
3.2
Collecte de Données
21
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
3.1.1
Collecte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
3.1.2
Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
Pré-traitement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
4 Analyse des Sentiments : Cas Pratique
5
27
4.1
Lexique de sentiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
4.2
L’apprentissage machine . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
4.2.1
Description de l’approche
. . . . . . . . . . . . . . . . . . . . . . .
29
4.2.2
Données d’apprentissage et de test . . . . . . . . . . . . . . . . . .
30
4.2.3
Classification Tweet . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
Expérimentations et Résultats
5.1
5.2
5.3
Phase d’Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
5.1.1
Extraction et présentation des descripteurs . . . . . . . . . . . . . .
31
Expérimentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
5.2.1
Mesures d’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . .
32
Phase de Test et Interprétation . . . . . . . . . . . . . . . . . . . . . . . .
33
5.3.1
. . . . . . . . . . . . .
33
Présentation des résultats et discussion . . . . . . . . . . . . . . .
34
Visualisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
5.4.1
Pourcentage par rapport au nombre d’opinions (BHNS) . . . . . . .
37
5.4.2
Pourcentage par rapport au nombre d’opinions (Funiculaire) . . . .
38
5.4.3
Pourcentage par rapport au nombre d’opinions (VELO) . . . . . . .
38
5.4.4
Répartition en % de tweets d’opinion par catégorie . . . . . . . . .
39
5.4.5
Répartition en fonction des polarités des opinions . . . . . . . . . .
40
5.4.6
Évaluation de la Répartition de tweets des opinions . . . . . . . . .
40
5.3.2
5.4
31
Phase de Test et Présentation des résultats
Table des matières
iii
5.4.7
Représentation graphique par rapport au tweet avec opinions . . . .
41
5.4.8
Représentation de tweets des opinions sous forme d’une droite . . .
41
5.4.9
Représentation graphique d’opinions(2017-2019) . . . . . . . . . . .
42
5.4.10 Représentation graphique de polarités(2017-2019) . . . . . . . . . .
42
Une Application Web Pour le Workflow
. . . . . . . . . . . . . . . . . . .
44
5.5
5.5.1
Extraction des données
. . . . . . . . . . . . . . . . . . . . . . . .
45
5.5.2
Résultat de la Prédiction de la Polarité . . . . . . . . . . . . . . . .
47
5.5.3
Résultat Graphique
48
Conclusion
. . . . . . . . . . . . . . . . . . . . . . . . . .
49
Table des figures
1.1
scructure du laboratoire . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
1.2
Processus Gèneral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
2.1
Approches d’analyse de sentiment . . . . . . . . . . . . . . . . . . . . . . .
13
2.2
Exemples d’une base de données lexicales . . . . . . . . . . . . . . . . . . .
14
2.3
Exemples de la polarité . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
3.1
Tweets BHNS_FEBUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
3.2
Tweets FUNICULAIRE . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
3.3
Tweets IDECYCLE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
3.4
Tweets IDECYCLE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
4.1
Exemples de données labélisées . . . . . . . . . . . . . . . . . . . . . . . .
28
4.2
Diagramme d’architecture du système proposé . . . . . . . . . . . . . . . .
29
5.1
Pourcentage par rapport au nombre d’opinions . . . . . . . . . . . . . . . .
37
5.2
Pourcentage par rapport au nombre d’opinion Funiculaire . . . . . . . . . .
38
5.3
Pourcentage par rapport au nombre d’opinion VELO . . . . . . . . . . . .
39
5.4
Répartition par rapport au tweet d’opinions par catégorie . . . . . . . . . .
39
5.5
Répartition par rapport à la polarité des opinions . . . . . . . . . . . . . .
40
5.6
Répartition en % au tweet des opinions . . . . . . . . . . . . . . . . . . . .
40
5.7
Répartition cyclique en % au tweet des opinions . . . . . . . . . . . . . . .
41
5.8
Représentation des 3 classes . . . . . . . . . . . . . . . . . . . . . . . . . .
41
5.9
Représentation annuelle des opinions . . . . . . . . . . . . . . . . . . . . .
42
5.10 Représentation de polarité en 2017 . . . . . . . . . . . . . . . . . . . . . .
43
iv
Table des figures
v
5.11 Représentation de polarité en 2018 . . . . . . . . . . . . . . . . . . . . . .
43
5.12 Représentation de polarité en 2019 . . . . . . . . . . . . . . . . . . . . . .
44
5.13 Page d’accueil de notre application . . . . . . . . . . . . . . . . . . . . . .
45
5.14 Page d’extraction des données . . . . . . . . . . . . . . . . . . . . . . . . .
46
5.15 Résultat d’extraction de données . . . . . . . . . . . . . . . . . . . . . . .
46
5.16 Résultat d’extraction de données . . . . . . . . . . . . . . . . . . . . . . .
47
5.17 Résultat graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
Liste des sigles et acronymes
LSTM
Long Short-Term Memory
BiLSTM
Bidirectional Long Short-Term Memor
NN
Neural Network
RNN
Recurrent neural network
vi
Introduction
Au cours des dernières années, il y a eu un énorme engouement dans l’utilisation des
plates-formes publiques telles que Twitter. Elle est devenue importante dans les médias
sociaux pour traiter des sujets aussi variés que l’activisme politique, le commercial, l’économique,le sportif, le transport et le divertissement. Elle permet aux utilisateurs d’envoyer
et de lire des messages courts de 280 caractères appelés "tweets".Il est également intéressant d’analyser le contenu de ces tweets pour aider les entreprises, les collectivités dans les
choix de politiques territoriales. Ainsi, l’analyse de l’opinion est le processus de détermination du ton d’émotion derrière une série de mots, utilisés pour comprendre les attitudes,
les opinions et les émotions exprimées dans une mention en ligne.
Nous souhaitons faire l’analyse de sentiments dans les tweets. Dans le cadre de notre
sujet de recherche, nous souhaitons faire d’une part l’extraction de manière automatique
sur la plateforme Twitter d’informations relatives à la mobilité et au transport dans l’agglomération de la ville de PAU. Nous souhaitons d’autre part analyser l’opinion émise dans
ces tweets. Cette analyse permet de faire des statistiques pour aider les collectivités dans
les choix de politiques territoriales. Cette opinion peut être positive, négative, mixposneg
(tweet exprimant en debut de message une opinion positive, puis une opinion négative)
ou neutre. De nombreux travaux de recherche s’intéressent à l’analyse des opinions dans
des tweets écrits en langue française tels que les travaux de [Davide Buscaldi et al, 2018],
[Amine Abdaoui et al, 2015], [Simon Jacques, et al,2018] et [Thierry Hamon et al,2015].
L’auteur [Davide Buscaldi et al, 2018], nous présente a travers cet article trois méthodes
originales pour la classification thématique et la détection de polarité dans des tweets en
français. La première méthode est fondée sur des lexiques (mots et emojis), les n-grammes
de caractères et un classificateur à vaste marge (ou SVM), tandis que les deux autres sont
des méthodes endogènes fondées sur l’extraction de caractéristiques au grain caractères :
un modèle à mémoire à court-terme persistante (ou BiLSTM pour Bidirectionnal Long
Short-Term Memory) et perceptron multi-couche d’une part et un modèle de séquences
de caractères fermées fréquentes et classificateur SVM d’autre part. Sentiment analysis
of tweets on transport from Île-de France [Simon Jacques, et al,2018]. L’auteur [Amine
Abdaoui et al, 2015] a proposé des méthodes supervisées basées sur les machines à vecteurs
de support (SVM) utilisant plusieurs types d’attributs comme les n-grammes de mots, les
1
2
Introduction
n-grammes de caractères, les patrons syntaxiques les plus fréquents, etc. Puis il a également
construit et utilisé des lexiques de sentiments et d’émotions spécifiques pour le français.
Analyse des émotions, sentiments et opinions exprimés dans les tweets : présentation et
résultats de l’édition 2015 du défi fouille de texte [Thierry Hamon et al,2015]
Dans ce document, nous allons nous intéresser aux travaux de recherche reposant sur
les techniques de machine learning pour affecter une polarité à un tweet, notamment ceux
de [Davide Buscaldi.D et al, 2018] dont nous avons pu utiliser les développements.
L’analyse des sentiments relève de plusieurs disciplines en l’occurrence d’une part du
traitement automatique de la langage naturelle (Naturel Langage Processing) et d’autre
part de l’apprentissage automatique (Machine Learning).
Dans ce mémoire, notre objectif consiste à detailler l’analyse des sentiments en adoptant
une approche d’apprentissage automatique.
Pour ce faire, nous avons re-implémenté la méthode de D.Buscaldi sur le corpus de
tweets de DEFT2018.[Davide Buscaldi.D et al, 2018] sur notre corpus.
Les résultats obtenus en terme de précision, rappel et F1-mesure révèlent que la représentation avec un modèle BILSTM est la plus pertinente pour nos travaux.
Le reste du mémoire est organisé en cinq chapitres : nous consacrons un premier chapitre pour présenter des généralités sur le domaine de l’analyse des sentiments en particulier
twitter comme source d’opinions. Le second chapitre se focalise sur l’état de l’art de l’analyse des sentiments, notamment les travaux inhérents à l’analyse des sentiments twitter.
Notre troisième chapitre sera consacré à la collecte de données et au pré-traitement Quant
au quatrième chapitre, il sera concentré sur le processus mis en place pour notre travail.
Notre cinquième chapitre présente l’expérimention et les résultats de la méthode BILSTM
en considérant les phases d’apprentissage et de test.
Nous concluons avec une synthèse de travail et des perspectives.
Chapitre 1
Présentation de Structure d’accueil et
Généralités sur le Twitter
1.1
LIUPPA le laboratoire de recherche en informatique
de l’UPPA
Le LIUPPA est le laboratoire de recherche en informatique de l’UPPA. Il adresse au
sens large les sciences du Numérique. Son projet de recherche est résolument tourné vers les
besoins et enjeux d’une société numérique dans laquelle le Web (Web des objets, réseaux
sociaux, etc.), et plus généralement les réseaux, ne cessent de prendre de l’ampleur, dans
toutes nos activités quotidiennes. Cela a un impact direct sur les systèmes informatiques
qui deviennent de plus en plus complexes avec :
des données (dont la masse ne cesse de croître) hétérogènes, multimédias, et fortement
délocalisées (cloud), des traitements distribués et sous-traités, des usagers différents (machines, humains) dont les profils et les besoins diffèrent et évoluent. Dans ce contexte,
mêmes les interactions avec et entre ces usagers sont à repenser pour permettre une
meilleure communication, et une meilleure collaboration.
Les solutions que le LIUPPA se propose d’apporter s’inscrivent dans deux domaines
complémentaires :
sciences et technologies de l’information autour des traitements de l’information (donnée, document, etc.), de la connaissance, et du web, génie logiciel autour de l’ingénierie des
modèles, des services et des architectures logicielles, avec des préoccupations transversales
liées à la sécurité, au traitement image/signal et à la visualisation, aux systèmes distribués,
et à l’interaction et l’adaptation. La figure qui suit synthétise le propos.
3
4Chapitre 1. Présentation de Structure d’accueil et Généralités sur le Twitter
Figure 1.1 – scructure du laboratoire
Le laboratoire est structuré en 2 équipes :
MOVIES : est centrée sur le génie logiciel et la modélisation. S’y greffent les thématiques
sécurité et visualisation.
T2I : est centrée sur le traitement de l’information et des interactions, basé sur des compétences de nature diverse (Système d’Information Géographique, architecture logicielle,
réseau de capteurs, image).
1.1.1
Equipes de recherche
Le Laboratoire d’Informatique de l’Université de Pau et des Pays de l’Adour est structuré autour de deux équipes de recherche :
- MOVIES
Modélisation, VIsualisation, Exécution et Simulation dont les thématiques de recherche
sont :
1.2. Généralités
5
génie logiciel, modélisation, simulation ,visualisation et sécurité
- T2I
Traitement des Informations spatiales, temporelles et thématiques pour l’adaptation de
l’Interaction au contexte et à l’utilisateur dont les thématiques de recherche sont :
Extraction, indexation et recherche d’informations Architectures logicielles pour l’adaptation dynamique des applications Modèles et scénarios supportant l’adaptation des interactions au contexte et à l’usager Ecosystèmes numériques et communautés d’usage
1.2
Généralités
Dans cette section, nous définissons quelques concepts de base importants pour notre
travail.
1.2.1
Twitter
Premièrement, nous préciserons sur Twitter ses avantages et sa pertinence pour l’analyse des sentiments. Fondée en 2006, Twitter est une plateforme de médias sociaux en
ligne gratuite sur laquelle les utilisateurs peuvent envoyer des messages à la communauté
Twitter.[Robin Panfili 18 novembre 2016]
Ces messages, également appelés tweets, constituent la base de la plate-forme de médias
sociaux. Chaque tweet est limité à un certain nombre de caractères. Avant le 7 novembre
2017, les utilisateurs n’étaient en mesure de tweeter qu’avec un maximum de 140 caractères
par tweet. Toutefois, depuis la mise à jour du 7 novembre 2017, la longueur des messages
peut varier de 1 à 280 caractères. En outre, le contenu de ces messages contient des opinions,
idées, déclarations, etc. Par conséquent, les tweets peuvent varier selon le sujet, tels que
les paroles de chansons, les déclarations politiques, les idées, les opinions sur un sujet
particulier, etc. Les tweets diffèrent non seulement par leur contenu, mais les personnes qui
les écrivent ont des antécédents différents. Cela signifie que le public de Twitter varie des
présidents aux mécaniciens, des acteurs célèbres aux étudiants en arts du secondaire et des
PDG aux propriétaires de magasins. En conséquence, le service de micro-blogging Twitter
peut collecter des tweets de personnes issues de différents contextes sociaux, culturels,
politique, sportifs et économiques.
Ensuite, les utilisateurs représentent également différents pays, ce qui signifie que les
données peuvent être collectées dans différentes langues. Par conséquent, les études concernant les services de micro-blogging ne se limitent pas à une seule langue mais à autant qu’il
existe différentes nationalités. Enfin, la base de données de Twitter s’agrandit chaque jour.
En conséquence, Twitter est une ressource de données infinie. Les raisons mentionnées ci-
6Chapitre 1. Présentation de Structure d’accueil et Généralités sur le Twitter
dessus (nombre de caractères, variété de sujets, large public et base de données en croissance
constante) font de Twitter un service de micro-blogging idéal pour collecter des données à
des fins d’analyse de la confiance et de la détection de posture.
Les termes à connaıtre pour bien utiliser Twitter sont des vocabulaires spécifiques. Les
plus courants sont[Barbosa et al. 2010] :
— Followers : les personnes qui vous suivent
— Followings : les personnes que vous suivez.
— Friends : les personnes que vous suivez et qui vous suivent.
— Twittos : les utilisateurs de Twitter.
— Tweet : court message.
— Tweeter : envoyer/poster un message.
1.2.2
Caractéristique d’un tweet
Le vocabulaire de la langue dans les tweets, utilise des symboles spécifiques. A quoi
sert le et ? C’est quoi RT ? Toutes ces abréviations peuvent paraître un peu floues. Dans
une perspective de clarification, un petit lexique des principaux mots et signes Twitter est
présenté :
— Mention @ : se présente sous la forme @Nomutilisateur Il cible un utilisateur de
Twitter dans le tweet poste. Exemple : salut à vous de la part de @hugues et @kdm.
Dans le cadre d’une réponse à un tweet, l’auteur du tweet d’origine est mentionné
automatiquement dans la réponse.
— Hashtag # : se présente sous la forme d’un mot-clé. Il identifie le mot-clé en question
comme important et peut en faire un sujet populaire. Exemple : gouvernement, bhns
ou encore facebook.
— RT (ReTweet) : se présente sous la forme RT NomUtilisateur. Il permet de partager
le tweet d’un utilisateur. Exemple : RT hugueskdm Excellent .
— URL (Lien) : se présente sous la forme https ://.
Tous ces caractères spéciaux peuvent être analysés pour établir différentes statiques
mais le plus intéressant est l’analyse du contenu dont on peut trouver l’opinion émise.
1.2.3
Analyse d’opinion
Quel est le sens spécifique de l’analyse des sentiments et de l’analyse d’opinion ? Alors
que dans la plupart des domaines, l’analyse des sentiments et l’analyse d’opinion sont
utilisées de manière interchangeable, ils ont tous deux une histoire et une signification
1.3. Domaines d’applications de l’analyse des sentiments
7
différentes. La première mention de l’extraction d’opinions apparaît dans les actes de la
conférence WWW de 2013 dans un article de [Dave et al,2013]
Il affirme que "Idéalement, un outil de sondage d’opinion traiterait un ensemble de résultats de recherche pour un article donné, générant une liste d’attributs de produit (qualité,
caractéristiques, etc.) et agrégeant les opinions sur chacun d’eux (médiocre, mixte, bon)"
(Dave et al., p519, 2003). Grâce à d’autres publications dans ce domaine d’études, l’analyse
des sentiments est devenue une partie intégrante du traitement du langage naturel (NLP).
La plupart des travaux du traitement du langage naturel (NLP) réduisent l’importance de
l’analyse des sentiments et se concentrent sur la classification des revues et des textes par
leur polarité, à savoir positive, négative ou neutre.(Sigrid Maurel et al.,Atelier FODOP’08,
pages 9 à 22)
Toutefois, nombreux sont ceux qui élargissent le sens de l’analyse des sentiments au
traitement informatique de l’opinion, du sentiment et de la subjectivité dans un texte [Pang
Lee, 2008, p.6]. Ainsi, en interprétant le terme analyse de sentiment au sens large, analyse
de sentiment et analyse d’opinion indiquent le même domaine d’études. Dans ce travail,
cependant, nous utiliserons le sens étroit de l’analyse de sentiment comme classification
des phrases en fonction de leur polarité.
1.3
Domaines d’applications de l’analyse des sentiments
L’importance de la détection de sentiment est présente dans plusieurs domaines ainsi
plusieurs applications ont vu le jour dans ce contexte. Nous citons brièvement quelques
champs d’applications ci-dessous : la politique, les entreprises, les clients et les collectivités
locales.
1.3.1
La politique
Les acteurs politiques peuvent suivre la tendance de la population en analysant leur
opinion, Par exemple avant de promulguer une nouvelle loi, les politiciens essayent de
récolter l’avis des internautes sur cette loi. Il est intéressant de connaître aussi l’avis des
internautes sur un homme politique pour une élection présidentielle [Anisha P Rodrigues ;
Niranjan N Chiplunkar et al. 2016].
1.3.2
Les entreprises
A travers l’analyse des sentiments, les entreprises peuvent connaıtre l’opinion des clients
sur leurs produits ou leur service, dans une perspective d’améliorer leurs produits et d’augmenter leurs chiffres d’affaires [8].
8Chapitre 1. Présentation de Structure d’accueil et Généralités sur le Twitter
Dans le domaine du Product review mining, notamment à partir des sites de consultation, les consommateurs viennent échanger des avis et trouver des conseils pour leurs
décisions d’achat (produits technologiques, voitures, voyage et hôtels, ... etc) [8]. Le marketing a rapidement compris l’intérêt de l’analyse de sentiments.
1.3.3
Les clients
L’analyse des sentiments fait partie aussi de la vie des internautes. Les sondages dans
ce domaine montrent que la majorité des clients avant d’acheter un produit, font des
recherches d’avis sur ce produit ou un service donné. Ils sont même prêts à payer plus cher
un produit dont l’avis est plus favorable qu’un autre [Kalchbrenner et al. 2014].
1.3.4
Les collectivités locales
La présence des collectivités locales sur les réseaux sociaux se renforce, se professionnalise, et s’étend avec agilité à de nouveaux médias Youtube, Instagram, Twitter et LinkedIn
notamment en ne se limitant plus, comme c’était souvent le cas avant, au seul Facebook
même si ce dernier domine encore très largement tous les autres.
Le but est de mieux toucher ses cibles, là où elles sont, avec un positionnement et plan un
éditorial clairs. Cette agilité permet de diversifier son offre éditoriale, de mieux convaincre
ses publics et, de faire changer les comportements.[https ://www.franckconfino.net/etudereseaux-sociaux-collectivites-locales/]
1.4
Sources des Données
Ces opinions sont présentes dans différentes sources de données, à savoir : sites d’avis,
blog et micro-blog.
1.4.1
Sites d’avis
Les opinions ont le rôle de décideur pour tout utilisateur durant la phase d’achat. Les
avis générés par les utilisateurs sur les produits et les services sont largement disponibles
sur Internet. La classification de sentiments utilise les données de l’examinateur collectées
à partir des sites Web tels que :
• www.gsmarena.com (revues de téléphone portable) ;
• www.amazon.com (revues des produits) ;
• www.CNETdownload.com (revues des produits)
1.5.
Approches de la classification des sentiments
9
Ces sites accueillent des millions d’avis sur les produits par les consommateurs [Butow,F
at al].
1.4.2
Blogs
Un blog est un système ou les personnes peuvent écrire sur différens sujets dans un but
de partager avec d’autres personnes sur le même site. La simplicité de la création des blogs
ainsi que leur forme libre a rendu le blogging un événement accessible. Sur la blogosphère,
nom associé à l’univers de tous les blogs, nous trouvons un nombre important de messages
relatifs à une panoplie de sujets d’intérêt. Les blogs sont utilisés comme sources d’opinions
dans la plupart des études relatives à l’analyse des sentiments [Butow,F at al].
1.4.3
Micro-blogs
Les micro-blogs sont parmi les outils de communication les plus populaires pour les
utilisateurs d’Internet. Chaque jour, des millions de messages apparaissent dans des sites
Web populaires pour les micro-blogging tels que : Twitter , Tumblr , Facebook . Parfois les
messages Twitter expriment des opinions qui sont utilisées comme source de données pour
classifier le sentiment [Butow,F at al].
Quant au choix de sources des données, nous avons choisi d’utiliser le Micro-Blog Twitter pour la collecte de nos données. Nous allons présenter les diverse approches permettant
de classer les sentiments.
1.5
Approches de la classification des sentiments
Les méthodes existantes d’analyse des sentiments peuvent être regroupées en deux
catégories principales [Amine Abdaoui et al. 2016],[Anne-Lyse Minard et al. DEFT2018.] :
1. Basé sur la connaissance
2. Basé sur l’apprentissage automatique
1. Dans les méthodes basées sur la connaissance, également appelées classification de
sentiments basée sur le Lexicon, l’objectif est de construire ou d’utiliser des lexiques
de mots de sentiments existants avec les étiquettes de sentiments indiquées pour les
mots ou les phrases du texte. La classification du texte est définie par des règles ; par
exemple, une fonction sur les mots, telle que la somme de leurs polarités [Taboada
et al. 2011]. Cependant, il faut des ressources linguistiques puissantes pour extraire
la connaissance des mots, qui ne sont pas toujours disponibles.
10
Chapitre 1. Présentation de Structure d’accueil et Généralités sur le Twitter
[Amine Abdaoui et al. 2016] ont construit un lexique(FEEL), utilisant uniquement
NRC Word Emotion Association Lexicon (NRC-EmoLex) et une liste d’adjectifs de
départ étiquetés. Cette liste ne contient que des adjectifs positifs (par exemple, génial, sympa, cool) et des adjectifs négatifs (par exemple, mauvais, ennuyeux). Leur
méthode récupère et étiquette automatiquement les synonymes (même polarité) et les
antonymes (polarité opposée). Ce processus permet à la liste de devenir un lexique.
Un inconvénient de cette approche est qu’elle n’est applicable que dans les langues
où FEEL est disponible. Dans tous les cas, la méthode basée sur la connaissance
peut s’avérer inopérante en raison du bruit dans les données textuelles, tandis que la
création manuelle de règles pour combiner les informations sur les mots obtenus des
lexiques de sentiment prend du temps et des efforts.
2. Par contre[Lei Zhang. 17 Jan 2013], l’apprentissage machine nécessite la formation
d’un modèle pour prédire la polarité du texte. Le modèle est formé avec les messages
texte, étiquetés pour leur sentiment et représentés en tant que vecteurs caractéristiques. Ce dernier nécessite classiquement un prétraitement du texte en utilisant des
outils de traitement de la langue tels que NLTK[Natural Language Toolkit]. Le prétraitement du texte implique principalement la création de jetons, la création de liens,
le balisage et éventuellement l’analyse du texte. La sélection des caractéristiques appropriées à partir des données est cruciale et s’est révélée être un problème majeur
et constitue toujours un objectif clé pour les chercheurs.
Des travaux antérieurs sur l’analyse des sentiments ont exploité des méthodes bien
connues d’apprentissage automatique supervisé, comme le réseau de neurones récurrent (RNN) [Anne-Lyse Minard et al. DEFT2018.], les réseaux de neurones convolutifs (CNN) [Antoine Sainson et al. DEFT2018.], le random Forests[Wahid et al. 2017].
Notre travail se concentre également sur les modèles d’apprentissage automatique.
Nous développerons ces approches dans le chapitre 2
1.6
Contributions
La principale contribution de cette recherche est une analyse approfondie sur les algorithmes de classification pour extraire les avis des tweets. A cet effet, deux méthodes seront
étudiées :
1. l’approche lexicale qui utilise des dictionnaires de mots,
2. l’apprentissage machine en utilisant l’algorithme BiLSTM
Nous avons analysé des algorithmes et testé des implémentations de ces algorithmes
dans le cadre de ces deux approches afin d’étudier leur performance pour la détection,
dans les tweets, de la polarité. Nous cherchons a élire le meilleur outil dans le cadre de
notre projet.
- Xem thêm -