UNIVERSITÉ NATIONALE DU VIETNAM, HANOÏ
INSTITUT FRANCOPHONE INTERNATIONAL
ZAGABE SERUTI Jean Claude
Reconnaissance et désambiguïsation des entités
Nhận dạng và làm sáng tỏ các thực thể
MÉMOIRE DE FIN D’ÉTUDES DU MASTER
INFORMATIQUE
HANOÏ - 2020
Université Nationale du Vietnam, Hanoï
Institut Francophone International
ZAGABE SERUTI Jean Claude
Reconnaissance et désambiguïsation des entités
Nhận dạng và làm sáng tỏ các thực thể
Spécialité : Systèmes Intelligents et Multimédia
Option : Données
Code : Programme pilote
MÉMOIRE DE FIN D’ÉTUDES DU MASTER
INFORMATIQUE
Sous la direction de :
Damien Nouvel
Maître des Conférences, INALCO, ERTIM
HANOÏ - 2020
ATTESTATION SUR L’HONNEUR
J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données
et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs. La
source des informations citées dans ce mémoire a été bien précisée.
LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu
trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công
trình nào khác. Các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn
gốc.
Signature de l’étudiant
ZAGABE SERUTI Jean Claude
Remerciements
Par cette rédaction de mémoire que j’ai compris le proverbe grec, je cite : « une main
lave l’autre », en foi chrétienne on dit souvent « vaux mieux deux qu’un seul ». Je voulais
pas clore ce travail sans remercier toutes personnes qui m’ont tenues la main dans
ce parcours de Master par leur encouragement, leur générosité, leur amour fraternel
et leur inquiétude manifestée à l’égard de ma formation m’ont permis d’atteindre les
objectifs fixés durant mes études.
Tout en étant conscient que la sagesse et l’intelligence viennent d’en haut comme
le confirme les saintes écritures dans Jacques 1 :17 et Proverbes 2 :6, je dois remercier
en premier lieu mon Elohîm, Yéhoshoua Mashiah pour ce don parfait, à lui seul, soient
honneur et gloire.
Pour claquer des doigts, un seul doigt ne suffit pas, mon maître de stage, Damien
Nouvel, à qui je remercie profondément, par lui, j’ai appris en tant qu’un étudiant, mes
défauts et qualités ont été les points de mon encadrement dans un seul but de fixer
le regard comme un aigle durant ce temps d’épreuve. Il n’a jamais cessé de me porter
conseil, parfois il quittait ses prérogatives d’encadreur pédagogique du stage enfin de
me mettre en confiance du soi pour mon avenir, en quelque sorte il jouait un rôle d’un
psychologue. J’aimerais également lui dire à quel point j’ai apprécié sa disponibilité, sa
sensibilité, son écoute et sa compréhension tout au long de ce travail.
Je souhaiterais exprimer ma gratitude à monsieur HO Tuong Vinh pour m’avoir
donné son accord pour aller en stage et son encadrement durant ma formation à l’IFI
par son cours de reconnaissance des formes et le TPE. Par cette occasion, je remercie
également toute l’administration de l’IFI pour leur accueil chaleureux à chaque fois
que j’ai sollicité leur aide, ainsi que pour les multiples encouragements, notamment
lors de mes démarches pour la France, Madame Cam Tú , elle était là pour répondre à
toutes mes préoccupations.
Je souhaiterais aussi adresser ma gratitude à tous les professeurs de l’Université Nationale du Vietnam et de l’Université de La Rochelle qui se sont occupés de nous durant notre formation de master sans lesquels ma recherche serait certainement moins
riche. Ces remerciements seraient incomplets si je n’en adressais pas à l’ensemble des
membres de l’Inalco, l’organisme d’acceuil de mon stage, pour leur soutien logistique
et moral ainsi que pour la très bonne ambiance que j’ai toujours trouvée au sein de
l’équipe Ertim. Je remercie plus particulièrement Jean Michel Daube et Stuck François
pour nos nombreuses discussions.
J’exprime ma gratitude à tous mes amis dont je ne pourrais citer car la liste est
longue mais permettez-moi au moins trois : « Christus Mathoka », « Azy Saidi » et «
Emmanuel Biaya » qui sont les amis de tout le temps. Enfin, MERCI à ma très chère
famille, à Papa Lubunga Pene Shako et à celle qui m’a vue naître le premier, ma tendre
mère « Marceline Musangilayi Nzeba » et mon défunt père « Wencelas » qui n’a jamais
vu mon baccalauréat jusqu’à ce jour de la fin du master, paix à son âme.
Jean Claude Zagabe
Résumé
L’avènement de techniques d’apprentissage automatique a motivé les chercheurs
des universités à aller plus loin dans leurs démarches afin de trouver des solutions
aux problèmes posés dans la société. Nous remarquons cela lorsque nous passons du
temps à la télévision en suivant les informations ou les débats politiques, l’utilisation
des mots par l’intervenant fait l’objet d’une étude approfondie. À ce jour où l’automatisation fait rage, il y a des domaines spécifiques qui s’intéressent aux parties du discours
dans sa diversité.
Dans cette recherche, nous visons à mettre en œuvre les techniques d’apprentissage à l’aide des algorithmes CRF ou encore LSTM et du Bi-LSTM dans le domaine de
sous tâche d’extraction d’informations dont nous citons : « la reconnaissance des entités nommées et la désambiguïsation des entités». Sa mise en œuvre permettra aux entreprises qui exploitent les informations politiques de bien vouloir traiter chaque partie des discours. Durant ce temps de recherche, nous avons approfondi les pratiques
de l’analyse des discours et l’apport des techniques du TAL.
Nous ne serions pas parvenu sans le projet TALAD, qui nous a permis d’interagir
avec les spécialistes du domaine pour produire un travail interdisciplinaire. Au premier
chapitre, nous présentons le projet avec ces objectifs à atteindre tout en abordant la
problématique de notre sujet de stage. Au deuxième chapitre, nous faisons l’état de l’art
des travaux de recherches dans ces domaines pluridisciplinaires pour nous permettre
de nous appuyer sur les idées qui ont fait l’objet d’études et critiques afin d’orienter
notre travail sur des bases solides. Nous avons traité les approches qui doivent être
adoptées, entre autres les approches à base des règles, d’apprentissage et hybride. Au
troisième chapitre, nous proposons notre solution en se basant sur l’outil mXS qui est
le fruit des chercheurs des membres du projet TALAD. Notre contribution dans cet outil
sera plus dans l’ajouts des modules tels que la liaison des données et sa mise à niveau.
Cette participation m’a motivé à produire un outil REN basé sur les algorithmes
d’apprentissage, ce qui m’a permis de faire une critique vis-à-vis de l’approche hybride
et l’approche du réseau de neurones. Au dernier chapitre, nous expérimentons le système mXS et le système RenL en vue d’analyser les résultats obtenus par rapport à la
spécificité de chaque système. Retenons que mXS est un outil développé durant trois
années de recherches (2009-2012) par contre RenL est développé durant six mois du
stage y compris la période de pandémie (Covid-19). Partant de cette évaluation, nous
avons tiré une conclusion par rapport à l’évolution technologique, de ce fait, il est souhaitable d’appliquer le modèle de réseau de neurones Bi-LSTM car il a montré des résultats plus encourageants durant l’évaluation du système.
Mots clés : Entité Nommées, reconnaissance des entités nommées, désambiguïsation des entités, traitement automatique des langues, apprentissage automatique,
BI-LSTM, CRF, extraction d’information.
Abstract
The advent of machine learning techniques motivated university researchers to go
further in their efforts in order to find solutions to problems posed in society. We can
see that when we watch the news or political debates on TV. The way words are used
by intervenant is subject to an in-depth study. Nowadays automation is more relevant,
there are specific areas that are interested in the parts of speech in its diversity.
In this research, we aim to implement learning techniques using CRF algorithms or
LSTM and Bi-LSTM in the field of information extraction sub-task of which we quote :
"recognition named entities and entity disambiguation ”. Its implementation will allow
companies that exploit political information to treat every part of the speeches. During
our research, we deepened the practices of speech analysis and the contribution of
NLP techniques.
We would not have succeeded without the TALAD project, which allowed us to interact with specialists in the field to produce interdisciplinary work. In the first chapter,
we present the project with these objectives to be achieved while addressing the issue
of our internship subject. In the second chapter, we report on the state of the art of research work in these multidisciplinary fields to enable us to rely on the ideas that have
been the subject of studies and critiques in order to orient our work on solid. We have
covered the approaches that need to be taken, including rule-based, learning and hybrid approaches. In the third chapter, we propose our solution based on the mXS tool
which is the result of researchers from members of the TALAD project. Our contribution in this tool will be more in adding modules such as data binding and upgrading
it.
This participation motivated us to produce a NER tool based on learning algorithms, which allowed us to make a critique vis-a-vis the hybrid approach and the neural network approach. In the last chapter, we experiment with the mXS system and the
RenL system in order to analyze the results obtained in relation to the specificity of each
system. Note that mXS is a tool developed during three years of research (2009-2012)
on the other hand RenL is developed during six months of the internship including the
pandemic period (Covid-19). From this evaluation, we have drawn a conclusion about
technological evolution, therefore, it is desirable to apply the Bi-LSTM neural network
model as it showed more encouraging results during the evaluation of the system.
Keywords : Named Entities, named entity recognition, entity linking, NLP, machine
learning, BI-LSTM, CRF, information extraction.
Table des matières
Liste des tableaux
iv
Table des figures
v
1 Introduction générale
1.1 Présentation de l’établissement d’accueil . . . . . . . . . . . . . . . . .
1.1.1 Institut national des langues et civilisations orientales (Inalco)
1.1.2 Projet TALAD . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Problématique et objectifs du stage . . . . . . . . . . . . . . . . . . . .
1.2.1 Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.2 Objectifs du stage . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
3
3
3
5
5
5
2 Etat de l’art
2.1 Entités Nommées . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.1 Introduction et approche historique . . . . . . . . . . .
2.1.2 Dérivé du concept d’entité nommée . . . . . . . . . . .
2.1.3 Exemples d’annotations d’entités nommées . . . . . .
2.1.4 Notions élémentaires d’annotation des entités . . . .
2.2 Reconnaissance des entités nommées . . . . . . . . . . . . . .
2.2.1 Définitions et contexte de REN . . . . . . . . . . . . . .
2.2.2 Les approches . . . . . . . . . . . . . . . . . . . . . . . .
2.2.2.1 Approche symbolique . . . . . . . . . . . . . .
2.2.2.2 Approche statistique . . . . . . . . . . . . . . .
2.2.2.3 Approche hybride . . . . . . . . . . . . . . . .
2.2.3 Représentation BIO et Modèle d’apprentissage de CRF
2.2.3.1 Exemple de représentation BIO . . . . . . . .
2.2.3.2 Modèle d’apprentissage avec de CRF . . . . .
2.3 Désambiguïsation . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.1 Présentation et définition . . . . . . . . . . . . . . . . .
2.3.2 Discussions comparatives . . . . . . . . . . . . . . . . .
2.3.3 Motivation d’approche . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6
6
6
7
8
9
11
11
12
12
13
15
16
16
17
18
18
19
20
i
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
TABLE DES MATIÈRES
2.4 Approche à base des réseaux de neurones . . . . . . . . . . . . . . . . . . . 21
2.4.1 Réseau de neurones pour la reconnaissance et désambiguïsation
des entités nommées . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4.2 Réseaux LSTM bidirectionnels . . . . . . . . . . . . . . . . . . . . . . 23
3 Solution proposée
25
3.1 Solution existante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2 Quelques Librairies existantes . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.3 Solution proposée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4 Implémentation et résultats expérimentaux
4.1 Implémentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.1 Ressources matérielles et logicielles . . . . . . . . . . . . . .
4.1.2 Présentation des données . . . . . . . . . . . . . . . . . . . .
4.2 Résultats expérimentaux . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1 Expérimentation avec mXS . . . . . . . . . . . . . . . . . . .
4.2.2 Expérimentation avec RenL . . . . . . . . . . . . . . . . . . .
4.2.3 Participation à la campagne d’évaluation CLEF HIPE 2020
A Annexe
A.1 Extraction des entités nommées . . . . . . . . . . . . . . . . .
A.2 Extrait de codes . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.2.1 Script de liaison des données . . . . . . . . . . . . . . .
A.2.2 Extrait de script récupération des entités via Dbpédia
ii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
31
31
31
32
35
35
37
44
.
.
.
.
51
51
54
54
57
Table des figures
1.1 Présentation de REN issue d’une dérivation de phrases via wikipédia . . .
2.1
2.2
2.3
2.4
2.5
Hiérarchie des entités selon l’annotation Quaero . . . . . . . .
Architecture générale de Nemesis . . . . . . . . . . . . . . . . .
Champ aléatoire conditionnel à chaîne linéaire . . . . . . . . .
Schéma général d’un système de désambiguïsation des entités
Structure LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
10
13
14
21
23
3.1 Architecture de traitement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2 Architecture proposée de mXS . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3 Architecture proposée du prototype . . . . . . . . . . . . . . . . . . . . . . . 29
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.9
4.10
4.11
4.12
4.13
4.14
4.15
4.16
4.17
4.18
4.19
Présentation de corpus interviews . . . . . . . . . . . . . . . . .
Présentation de l’analyse statistique textuelle . . . . . . . . . .
Tableau croisant des formes pleines et des segments de texte .
Annotation d’extrait du corpus dans mXS . . . . . . . . . . . .
Le résultat d’annotation automatique dans mXS . . . . . . . .
Exécution de la commande . . . . . . . . . . . . . . . . . . . . .
Le résultat de sortie mXS . . . . . . . . . . . . . . . . . . . . . .
Le résultat de sortie avec une annotation fine mXS . . . . . . .
Exécution d’exemple de liaison des données . . . . . . . . . . .
Le résultat de sortie de liaison des données . . . . . . . . . . .
Lancement du système RenL pour la notation du corpus . . . .
Résultat d’annotation sur RenL . . . . . . . . . . . . . . . . . . .
Le détail de corpus annoté par RenL . . . . . . . . . . . . . . . .
Extrait de sortie d’annotation du corpus en format BIO . . . . .
Visualisation graphique des phrase par la longueur . . . . . . .
Présentation des matrice de caractéristiques et le vecteur cible
Présentation de modèle . . . . . . . . . . . . . . . . . . . . . . .
Formation des données . . . . . . . . . . . . . . . . . . . . . . .
Graphique d’entraînement et de validation . . . . . . . . . . . .
iii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
33
33
34
35
36
36
36
36
37
37
38
38
39
39
40
40
41
41
42
TABLE DES FIGURES
4.20
4.21
4.22
4.23
Evaluation de RenL . . . . . . . . . . . . . . . . . . . . . . . . . .
Résultat de prédiction d’ensemble de test . . . . . . . . . . . . .
Résultat de prédiction des données avec une phrase extérieure
Performance par type sur des périodes de temps . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
42
43
44
46
A.1
A.2
A.3
A.4
A.5
A.6
A.7
A.8
bilan dpedia . . . . . . . . . . . . . . . . . . . . . . . . .
Tableau des mots de Parti politique les plus fréquents
Graphes des mentions Migrant et Réfugié . . . . . . . .
Graphes des mentions pondérées . . . . . . . . . . . .
Nuages de mots d’un parti politique France Insoumise
Nuages de mots d’un parti politique LaREM . . . . . .
Nuages de mots d’un parti politique Front National . .
Script python-sparql via dbpedia . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
58
59
59
60
60
61
61
62
iv
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Liste des tableaux
2.1 Exemple d’annotation au format BIO . . . . . . . . . . . . . . . . . . . . . . 17
20table.caption.14
3.1 Liste non exhaustive des librairies TAL . . . . . . . . . . . . . . . . . . . . . 26
4.1
4.2
4.3
4.4
Ressources logicielles . . . . . . . . . . . . . . . . . . . . . . . . . .
Résultats des tâches NER . . . . . . . . . . . . . . . . . . . . . . .
Résultat par type . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Résultats littéraux et stricts après les mises à niveau du système
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
32
45
46
47
A.1 Extraction des entités nommées . . . . . . . . . . . . . . . . . . . . . . . . . 52
v
Liste des sigles et acronymes
ACE
Automatic Content Extraction
Bi-LSTM
Bidirectional Long Short-Term Memory
LSTM
Long Short-Term Memory
MUC
Message Understanding Conference
TAC
Text Analysis Conference
TAL
Traitement Automatique des langues
TALN
Traitement Automatique du Langage Naturel
TEI
Text Encoding Initiative
REN
Reconnaissance d’Entités Nommées
HMM
Hidden Markov Model
CRF
Conditional Random Fields
SVM
Support Vector Machine
DL
Désambiguïsation Lexicale
URI
Uniform Resource Identifier
Chapitre
1
Introduction générale
Les entreprises sont confrontées à des quantités importantes de textes qu’il faut
traiter, indexer l’information pour la retrouver et marquer dans les textes pour aider à
prendre des décisions.
L’ère de la fouille des données ou plus précisément l’extraction d’information a mis
en évidence des tâches génériques utilisables seules dans les outils d’aide à la décision, en d’autre terme la Reconnaissance des Entités Nommées (REN). Actuellement,
les entreprises travaillent dans la transformation numérique avec les scientifiques pour
répondre aux besoins de la société comme par exemple pour la transcription de journaux télévisés, d’enregistrements radiophoniques et de réunions, un enjeu important
pour le domaine de l’archivage et de la recherche d’information.
Dans le cadre de notre projet, l’entreprise Reticular qui propose des services de
veille à destination à des decideurs publics, politiques, dirigeants d’entreprises nous a
transmis les corpus à exploiter. Ces services incluent une cartographie des acteurs (entités ou personnes), la mise en évidence de liens organiques (filiale, autorité, concurrence, partenariat, alliance) qui peuvent être corrélés à des opinions similaires dans le
débat public.
Dans le souci de bien repérer les entités ou personnes qui sont mentionnés dans
les éléments textuels et de les classer dans des catégories, dont la plus fréquente est
la catégorie personne et comme sous-type la personne politique. A cet effet, nous allons recourir au domaine approprié, la reconnaissance d’entités nommées qui est une
tâche d’extraction d’information dans laquelle des entités nommées sont localisées
dans des phrases non structurées et classées dans des catégories prédéfinies telles que
les noms de personnes, les organisations, les lieux, les valeurs monétaires, les pourcentages, etc(Khalid et al., 2008).
L’extraction automatique de contenus factuels à partir de ces transcriptions devient
un axe de recherche primordial afin d’utiliser et d’exploiter le maximum d’information,
parmi lesquelles les entités nommées jouent en rôle central.
Les entités nommées sont des éléments linguistiques utilisés par de nombreuses
applications en traitement automatique des langues (TAL), telles quelles (indexation
1
CHAPITRE 1. INTRODUCTION GÉNÉRALE
de documents, recherche et extraction d’information, etc.) ou comme éléments exploités pour de nombreuses autres tâches (Nouvel et al, 2015) 1 .
La Figure 1.1 est une dérivation des phrases à partir du texte Wikipédia 2 : les phrases
sont extraites d’articles ; les liens vers d’autres articles peuvent ensuite être traduits en
catégories d’entités nommées.
F IGURE 1.1 – Présentation de REN issue d’une dérivation de phrases via wikipédia
À ce jour, de nombreux travaux de recherche ont porté sur la désambiguïsation (ou
liaison, résolution) d’entités. Il s’agit alors de déterminer à quel référent d’une base de
connaissances une expression linguistique fait mention. Cela concerne une plus large
gamme d’expressions linguistiques que les « entités nommées ».
Les systèmes symboliques sont généralement moins robustes que des étiqueteurs
basés sur des méthodes d’apprentissage automatique, notamment car ils sont capables
d’extraire de ces données des règles de décision qu’un expert humain n’aurait pu concevoir par lui-même.
Guidés par cette notion de robustesse face aux transcriptions et détection automatiques, nous vous présentons d’abord la structure de notre travail qui nous permettra de bien mener ce projet et d’améliorer ce qui existe. Les deux derniers chapitres
constituent une grande contribution, hormis la conclusion et perspective, se présente
comme suit :
— Le premier chapitre fera l’objet d’un aperçu général et d’une présentation du projet pour introduire le travail ;
— Le deuxième chapitre se basera sur les travaux existants pour donner la lumière
afin d’atterrir en douceur dans notre recherche ;
— Le troisième chapitre s’appuiera sur les solutions trouvées dans la littérature afin
de présenter notre proposition de système ;
— Le quatrième chapitre se penchera sur la réalisation pratique de notre système,
passera en revue les expérimentations de la solution proposée et son évaluation.
1. Named Entity Resources-Overview and Outlook, Maud Ehrmann, Damien Nouvel , Sophie Rosset
2. https ://fr.wikipedia.org/wiki/Renault
2
CHAPITRE 1. INTRODUCTION GÉNÉRALE
1.1 Présentation de l’établissement d’accueil
1.1.1 Institut national des langues et civilisations orientales (Inalco)
Mon stage s’est effectué à l’Inalco au sein du laboratoire de recherche ERTIM (Équipe
de recherche, Texte, Informatique et Multilinguisme) durant la période d’octobre 2019
à juillet 2020.
Inalco 3 est un établissement public d’enseignement supérieur et de recherche situé
en France, dans la ville de Paris proposant de nombres formations en langues et civilisations aussi riche et reconnue en France comme à l’international, ayant en son sein
plusieurs enseignants venus du monde, enseignant les langues de l’Europe centrale à
l’Afrique et de l’Asie à l’Amérique en passant par l’Océanie.
Cet établissement est crée en 1795, l’offre de l’Inalco se caractérise par sa grande
diversité avec plus de 100 langues et civilisations enseignées et plusieurs filières professionnelles. Elle assure aux étudiants un enseignement de haut niveau, appuyé sur la
recherche et axé sur l’insertion professionnelle ouverte à tous publics.
Elle bénéficie également d’un dispositif de valorisation et d’ingénierie pour les montages de projet, dont mon stage fait partie grâce au projet d’analyse et traitement automatique de discours (TALAD).
1.1.2 Projet TALAD
Le projet TALAD financé par l’Agence nationale de la recherche (ANR) implique
plusieurs chercheurs affiliés dans différentes organisations dont AGORA (Université
de Cergy-Pontoise), PRAXILING (Université Montpellier 3, CNRS), ERTIM (INALCO),
LI (Université de Tours), RETICULAR (entreprise) intervenants chacun selon leur rôle
attribué dont ERTIM par sa contribution de son système mXS en matière de reconnaissance des entités nommées et les modules de liage des entités nommées.
En effet, les chercheurs en analyse du discours manipulent des logiciels de calculs
textométriques et de visualisation (TXM, Iramuteq, Lexico, HyperBase, Trameur, etc.)
pour les assister dans leurs travaux et objectiver leurs analyses. Ces outils empruntent
plusieurs briques logicielles au TAL comme la segmentation, étiquetage en partie du
discours. Le projet TALAD vise à enrichir cette interaction en explorant l’utilisation de
traitements TAL plus avancés, comme la REN ou la coréférence.
Le TAL est une discipline à la frontière de la linguistique, de l’informatique et de
l’intelligence artificielle. Elle concerne la conception de systèmes et techniques informatiques qui comprennent (autant que possible) et manipulent le langage humain
dans tous ses aspects. 4
Dans ce projet, chaque membre des laboratoires intervenants comme des partenaires ont présenté leurs outils qui étaient validés sur la problématique de la nomination (procédé linguistique associant un nouveau sens à un mot existant) et ce projet
3. http://www.inalco.fr/institut
4. http://lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours10.pdf
3
CHAPITRE 1. INTRODUCTION GÉNÉRALE
approfondi davantage les pratiques de l’analyse des discours et l’apport des technologies TAL qui peuvent permettre une avancée méthodologique pour l’AD.
Il a pour objectif d’adapter des techniques issues du TAL pour fournir à l’AD des
jeux de descripteurs plus complexes, relatifs à différents niveaux d’organisation discursive, ainsi que des outils permettant de les composer dans des chaînes de traitement,
en fonction des finalités recherchées. En retour, l’AD apportera au TAL un éventail de
phénomènes complexes à étudier, qui seront autant de défis à soumettre aux dernières
avancées en TAL.
L’intégration des travaux de recherche pour l’entreprise Reticular permettra à cet
acteur de la veille politique de produire des analyses qui s’appuient sur les observables
liés aux nominations 5 . Ceux-ci pourront prendre la forme d’analyses objectives (intégration de statistiques aux rapports), de cartographies (positionnement de partis ou
de personnalités politiques selon leurs discours), d’amélioration des résumés automatiques actuellement réalisés par l’entreprise, d’identification d’idéologies et de leur
propagation dans la société civile.
Par le biais d’ERTIM, mon travail interviendra dans leurs missions en TAL dont l’annotation de corpus, entités nommées et coréférences, avec l’objectif de développer les
outils d’exploration de corpus et développement d’outils de repérage d’observables.
5. Rapport TALAD, DEFI 8, axe 2 "Révolution numérique", sous-axe "Création et partage des savoirs"
PRCE, AAPG ANR 2017
4
CHAPITRE 1. INTRODUCTION GÉNÉRALE
1.2 Problématique et objectifs du stage
1.2.1 Problématique
La détection des entités nommées et leur catégorisation font l’objet d’étude à travers différentes ressources pour répondre aux besoins. Dans notre travail les tâches qui
nous sont confiées sont les suivantes :
— La détection des entités ;
— La reconnaissance des entités ;
— La désambiguïsation des entités.
Dans cette intention, notre problématique portera sur trois questions à savoir :
— Comment déterminer les entités mentionnées dans un texte ?
— Par quelles expressions linguistiques sont mentionnées ces entités ?
— Peut-on exploiter une source de connaissance pour la liaison des données ?
1.2.2 Objectifs du stage
Les objectifs visés dans ce stage sont groupés en deux temps. Dans un premier lieu,
il s’agira d’exploiter le corpus fourni dans le cadre du projet TALAD (transcription d’interviews matinales), en interaction avec des collègues linguistes de l’équipe PraxiLing,
afin d’y caractériser les entités d’intérêt (entités nommées, entités collectives, nominations et dénominations) et de déterminer les méthodes adéquates pour les repérer
automatiquement.
Dans un deuxième temps, notre contribution sera d’évaluée la qualité des ressources
extraites depuis wikipédia, à prototyper un système de reconnaissance et désambiguïsation des entités pour le français en utilisant les méthodes état de l’art d’apprentissage
(automatique et profonds) et à l’évaluer comparativement à d’autres systèmes existants, avec une attention particulière portée au cas difficile des organisations.
A la lumière de cette présentation, nos objectifs principaux sont les suivants :
•
•
•
•
•
Caractérisation des entités d’intérêt pour le projet TALAD ;
Expérimentation de la détection automatiques d’entités pour la nomination ;
Participation à l’extraction et l’évaluation du corpus de référence depuis Wikipedia ;
Prototypage d’un système de désambiguïsation à base d’algorithme d’apprentissage(CRF, LSTM, BI-LSTM) ;
Implémentation et évaluation comparative des systèmes.
5
Chapitre
2
Etat de l’art
2.1 Entités Nommées
2.1.1 Introduction et approche historique
Dans tout document texte, il existe des termes particuliers qui représentent des
entités spécifiques qui sont plus informatives et ont un référent unique. Ces entités
sont connues sous le nom d’entités nommées, qui concerne plus spécifiquement à des
termes qui représentent des objets du monde réel tels que des personnes, des lieux,
des organisations, etc., souvent désignés par des noms propres.
La notion d’entité nommée est apparue lors des conférences MUC (Message Understanding Conference) aux États-Unis entre les années 1987 et 1998 dans le but d’évaluer les systèmes d’extraction d’informations[10]. Du point de vue linguistique, cette
notion a été étudiée par (Ehrmann, 2008), « étant donné un modèle applicatif et un
corpus 1 , on appelle entité nommée toute expression linguistique qui réfère à une entité unique du modèle de manière autonome dans le corpus ».
Actuellement, beaucoup de travaux existants ont avancé leur recherche sur le repérage de ces entités et les annotations pour une bonne constitution d’information. Avec
l’avènement du TAL, plusieurs chercheurs ont défini les méthodes et schémas pour
annoter des corpus et évaluer la qualité des annotations produites.
« TAL et la linguistique de corpus sont devenus des domaines-clés pour répondre
aux besoins de notre société en terme d’analyse et d’exploitation de gisements d’information, le plus souvent sous forme textuelle, et aujourd’hui largement disponibles, en
particulier sur le Web » (Pierrel, 2000). Par ailleurs, « la disponibilité de ressources textuelles électroniques de grandes tailles(corpus, bases de données textuelles, dictionnaires et lexiques) et les progrès de l’informatique, tant en matière de stockage que de
puissance de calcul, ont créé, au cours des années 1990, un véritable engouement pour
1. Les corpus sont des collections de données sélectionnées et organisées selon des critères explicites
pour servir d’échantillon pour un traitement particulier ou de référence pour fournir une information
en profondeur.(Miftah Nina et al., 2016)
6
CHAPITRE 2. ETAT DE L’ART
les approches statistiques et probabilistes sur corpus » (Habert et col., 1995).
(Solenn et al., 2016) ont proposé dans la campagne d’évaluation des annotations
à insérer dans un corpus sur lequel tous les systèmes participants seront évalués en
terme de rappel et précision (et/ou F-mesure). Un guide d’annotation précise le résultat attendu. Il est accompagné d’un corpus d’entraînement et de test, notamment pour
les systèmes à base d’apprentissage. Durant le stage, nous avons travaillé sur mXS 2
avec le corpus QuaeroEtape, issu des évaluations des chercheurs qui étaient organisées sous l’appui de l’association francophone de communication parlée (AFCP) à la
période de 2008 pour Ester-2 et 2012 pour Etape. Cette dernière s’est appuyée sur le
guide d’annotation défini dans le cadre du projet Quaero 3 .
2.1.2 Dérivé du concept d’entité nommée
Le concept d’entité nommée a évolué au fil du temps, que ce soit au niveau de
ce qu’elle signifie ou au niveau des typologies, nous nous référons notamment ici aux
travaux d’Ehrmann (2008) qui propose une définition et une caractérisation des entités
nommées prenant en compte la dimension linguistique et son application en TALN.
L’un de travaux de (Grishman et Sundheim, 1996), définit bien ce concept que nous
adoptons dans notre travail car elle dérive de la REN qui a été créée pour la première
fois lors de la campagne d’évaluation MUC-6 (1995) : « ... la tâche d’entités nommées
consiste essentiellement à identifier les noms de toutes les personnes, les organisations
et les localisations géographiques dans un texte » 4
Les entités nommées sont donc implicitement définies en évoquant une simple
énumération de ce qu’elles peuvent représenter. Les divers pièges soulignés à l’endroit
des entités nommées, relevant de difficultés de catégorisation, d’annotation, de représentation ou encore de considération de phénomènes de sens, renvoient tous d’une
manière ou d’une autre à la difficulté d’appréhender la notion d’entité nommée.
Les travaux de (Le Meur et al. 2004) et (Galliano et al. 2009) explique leur participation respectivement dans la campagne ESTER 1 (2003-2005) et ESTER 2 (20062008),ces deux campagnes ESTER (Évaluation des Systèmes de Transcription d’Émissions Radiophoniques) visaient à la mesure des performances des systèmes de transcription d’émissions radiophoniques pour le français, financée par le Ministère de l’Enseignement Supérieur et de la Recherche français. Durant cette campagne d’évaluation
il y a eu une catégorisation des entités en 7 catégories principales :
1. Personne
2. Fonction
3. Lieu
2. mXS est un outil REN( Réconnaissance des entités Nommées NER(Named Entity Recognition)
Tagger français, https://github.com/eldams/mXS
3. http://www.quaero.org/
4. « ... the "named entity" task, which basically involves identifying the names of all the
people,organizations, and geographic locations in a text. » (Grishman et Sundheim, 1996)
7
- Xem thêm -