Tài liệu Reconnaissance et désambiguïsation des entités

.PDF

thanhphoquetoi Báo vi phạm

Tải xuống 89

Mô tả:

UNIVERSITÉ NATIONALE DU VIETNAM, HANOÏ INSTITUT FRANCOPHONE INTERNATIONAL ZAGABE SERUTI Jean Claude Reconnaissance et désambiguïsation des entités Nhận dạng và làm sáng tỏ các thực thể MÉMOIRE DE FIN D’ÉTUDES DU MASTER INFORMATIQUE HANOÏ - 2020 Université Nationale du Vietnam, Hanoï Institut Francophone International ZAGABE SERUTI Jean Claude Reconnaissance et désambiguïsation des entités Nhận dạng và làm sáng tỏ các thực thể Spécialité : Systèmes Intelligents et Multimédia Option : Données Code : Programme pilote MÉMOIRE DE FIN D’ÉTUDES DU MASTER INFORMATIQUE Sous la direction de : Damien Nouvel Maître des Conférences, INALCO, ERTIM HANOÏ - 2020 ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs. La source des informations citées dans ce mémoire a été bien précisée. LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. Các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc. Signature de l’étudiant ZAGABE SERUTI Jean Claude Remerciements Par cette rédaction de mémoire que j’ai compris le proverbe grec, je cite : « une main lave l’autre », en foi chrétienne on dit souvent « vaux mieux deux qu’un seul ». Je voulais pas clore ce travail sans remercier toutes personnes qui m’ont tenues la main dans ce parcours de Master par leur encouragement, leur générosité, leur amour fraternel et leur inquiétude manifestée à l’égard de ma formation m’ont permis d’atteindre les objectifs fixés durant mes études. Tout en étant conscient que la sagesse et l’intelligence viennent d’en haut comme le confirme les saintes écritures dans Jacques 1 :17 et Proverbes 2 :6, je dois remercier en premier lieu mon Elohîm, Yéhoshoua Mashiah pour ce don parfait, à lui seul, soient honneur et gloire. Pour claquer des doigts, un seul doigt ne suffit pas, mon maître de stage, Damien Nouvel, à qui je remercie profondément, par lui, j’ai appris en tant qu’un étudiant, mes défauts et qualités ont été les points de mon encadrement dans un seul but de fixer le regard comme un aigle durant ce temps d’épreuve. Il n’a jamais cessé de me porter conseil, parfois il quittait ses prérogatives d’encadreur pédagogique du stage enfin de me mettre en confiance du soi pour mon avenir, en quelque sorte il jouait un rôle d’un psychologue. J’aimerais également lui dire à quel point j’ai apprécié sa disponibilité, sa sensibilité, son écoute et sa compréhension tout au long de ce travail. Je souhaiterais exprimer ma gratitude à monsieur HO Tuong Vinh pour m’avoir donné son accord pour aller en stage et son encadrement durant ma formation à l’IFI par son cours de reconnaissance des formes et le TPE. Par cette occasion, je remercie également toute l’administration de l’IFI pour leur accueil chaleureux à chaque fois que j’ai sollicité leur aide, ainsi que pour les multiples encouragements, notamment lors de mes démarches pour la France, Madame Cam Tú , elle était là pour répondre à toutes mes préoccupations. Je souhaiterais aussi adresser ma gratitude à tous les professeurs de l’Université Nationale du Vietnam et de l’Université de La Rochelle qui se sont occupés de nous durant notre formation de master sans lesquels ma recherche serait certainement moins riche. Ces remerciements seraient incomplets si je n’en adressais pas à l’ensemble des membres de l’Inalco, l’organisme d’acceuil de mon stage, pour leur soutien logistique et moral ainsi que pour la très bonne ambiance que j’ai toujours trouvée au sein de l’équipe Ertim. Je remercie plus particulièrement Jean Michel Daube et Stuck François pour nos nombreuses discussions. J’exprime ma gratitude à tous mes amis dont je ne pourrais citer car la liste est longue mais permettez-moi au moins trois : « Christus Mathoka », « Azy Saidi » et « Emmanuel Biaya » qui sont les amis de tout le temps. Enfin, MERCI à ma très chère famille, à Papa Lubunga Pene Shako et à celle qui m’a vue naître le premier, ma tendre mère « Marceline Musangilayi Nzeba » et mon défunt père « Wencelas » qui n’a jamais vu mon baccalauréat jusqu’à ce jour de la fin du master, paix à son âme. Jean Claude Zagabe Résumé L’avènement de techniques d’apprentissage automatique a motivé les chercheurs des universités à aller plus loin dans leurs démarches afin de trouver des solutions aux problèmes posés dans la société. Nous remarquons cela lorsque nous passons du temps à la télévision en suivant les informations ou les débats politiques, l’utilisation des mots par l’intervenant fait l’objet d’une étude approfondie. À ce jour où l’automatisation fait rage, il y a des domaines spécifiques qui s’intéressent aux parties du discours dans sa diversité. Dans cette recherche, nous visons à mettre en œuvre les techniques d’apprentissage à l’aide des algorithmes CRF ou encore LSTM et du Bi-LSTM dans le domaine de sous tâche d’extraction d’informations dont nous citons : « la reconnaissance des entités nommées et la désambiguïsation des entités». Sa mise en œuvre permettra aux entreprises qui exploitent les informations politiques de bien vouloir traiter chaque partie des discours. Durant ce temps de recherche, nous avons approfondi les pratiques de l’analyse des discours et l’apport des techniques du TAL. Nous ne serions pas parvenu sans le projet TALAD, qui nous a permis d’interagir avec les spécialistes du domaine pour produire un travail interdisciplinaire. Au premier chapitre, nous présentons le projet avec ces objectifs à atteindre tout en abordant la problématique de notre sujet de stage. Au deuxième chapitre, nous faisons l’état de l’art des travaux de recherches dans ces domaines pluridisciplinaires pour nous permettre de nous appuyer sur les idées qui ont fait l’objet d’études et critiques afin d’orienter notre travail sur des bases solides. Nous avons traité les approches qui doivent être adoptées, entre autres les approches à base des règles, d’apprentissage et hybride. Au troisième chapitre, nous proposons notre solution en se basant sur l’outil mXS qui est le fruit des chercheurs des membres du projet TALAD. Notre contribution dans cet outil sera plus dans l’ajouts des modules tels que la liaison des données et sa mise à niveau. Cette participation m’a motivé à produire un outil REN basé sur les algorithmes d’apprentissage, ce qui m’a permis de faire une critique vis-à-vis de l’approche hybride et l’approche du réseau de neurones. Au dernier chapitre, nous expérimentons le système mXS et le système RenL en vue d’analyser les résultats obtenus par rapport à la spécificité de chaque système. Retenons que mXS est un outil développé durant trois années de recherches (2009-2012) par contre RenL est développé durant six mois du stage y compris la période de pandémie (Covid-19). Partant de cette évaluation, nous avons tiré une conclusion par rapport à l’évolution technologique, de ce fait, il est souhaitable d’appliquer le modèle de réseau de neurones Bi-LSTM car il a montré des résultats plus encourageants durant l’évaluation du système. Mots clés : Entité Nommées, reconnaissance des entités nommées, désambiguïsation des entités, traitement automatique des langues, apprentissage automatique, BI-LSTM, CRF, extraction d’information. Abstract The advent of machine learning techniques motivated university researchers to go further in their efforts in order to find solutions to problems posed in society. We can see that when we watch the news or political debates on TV. The way words are used by intervenant is subject to an in-depth study. Nowadays automation is more relevant, there are specific areas that are interested in the parts of speech in its diversity. In this research, we aim to implement learning techniques using CRF algorithms or LSTM and Bi-LSTM in the field of information extraction sub-task of which we quote : "recognition named entities and entity disambiguation ”. Its implementation will allow companies that exploit political information to treat every part of the speeches. During our research, we deepened the practices of speech analysis and the contribution of NLP techniques. We would not have succeeded without the TALAD project, which allowed us to interact with specialists in the field to produce interdisciplinary work. In the first chapter, we present the project with these objectives to be achieved while addressing the issue of our internship subject. In the second chapter, we report on the state of the art of research work in these multidisciplinary fields to enable us to rely on the ideas that have been the subject of studies and critiques in order to orient our work on solid. We have covered the approaches that need to be taken, including rule-based, learning and hybrid approaches. In the third chapter, we propose our solution based on the mXS tool which is the result of researchers from members of the TALAD project. Our contribution in this tool will be more in adding modules such as data binding and upgrading it. This participation motivated us to produce a NER tool based on learning algorithms, which allowed us to make a critique vis-a-vis the hybrid approach and the neural network approach. In the last chapter, we experiment with the mXS system and the RenL system in order to analyze the results obtained in relation to the specificity of each system. Note that mXS is a tool developed during three years of research (2009-2012) on the other hand RenL is developed during six months of the internship including the pandemic period (Covid-19). From this evaluation, we have drawn a conclusion about technological evolution, therefore, it is desirable to apply the Bi-LSTM neural network model as it showed more encouraging results during the evaluation of the system. Keywords : Named Entities, named entity recognition, entity linking, NLP, machine learning, BI-LSTM, CRF, information extraction. Table des matières Liste des tableaux iv Table des figures v 1 Introduction générale 1.1 Présentation de l’établissement d’accueil . . . . . . . . . . . . . . . . . 1.1.1 Institut national des langues et civilisations orientales (Inalco) 1.1.2 Projet TALAD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Problématique et objectifs du stage . . . . . . . . . . . . . . . . . . . . 1.2.1 Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.2 Objectifs du stage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 3 3 3 5 5 5 2 Etat de l’art 2.1 Entités Nommées . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1 Introduction et approche historique . . . . . . . . . . . 2.1.2 Dérivé du concept d’entité nommée . . . . . . . . . . . 2.1.3 Exemples d’annotations d’entités nommées . . . . . . 2.1.4 Notions élémentaires d’annotation des entités . . . . 2.2 Reconnaissance des entités nommées . . . . . . . . . . . . . . 2.2.1 Définitions et contexte de REN . . . . . . . . . . . . . . 2.2.2 Les approches . . . . . . . . . . . . . . . . . . . . . . . . 2.2.2.1 Approche symbolique . . . . . . . . . . . . . . 2.2.2.2 Approche statistique . . . . . . . . . . . . . . . 2.2.2.3 Approche hybride . . . . . . . . . . . . . . . . 2.2.3 Représentation BIO et Modèle d’apprentissage de CRF 2.2.3.1 Exemple de représentation BIO . . . . . . . . 2.2.3.2 Modèle d’apprentissage avec de CRF . . . . . 2.3 Désambiguïsation . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Présentation et définition . . . . . . . . . . . . . . . . . 2.3.2 Discussions comparatives . . . . . . . . . . . . . . . . . 2.3.3 Motivation d’approche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 6 6 7 8 9 11 11 12 12 13 15 16 16 17 18 18 19 20 i . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . TABLE DES MATIÈRES 2.4 Approche à base des réseaux de neurones . . . . . . . . . . . . . . . . . . . 21 2.4.1 Réseau de neurones pour la reconnaissance et désambiguïsation des entités nommées . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.4.2 Réseaux LSTM bidirectionnels . . . . . . . . . . . . . . . . . . . . . . 23 3 Solution proposée 25 3.1 Solution existante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.2 Quelques Librairies existantes . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3.3 Solution proposée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4 Implémentation et résultats expérimentaux 4.1 Implémentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.1 Ressources matérielles et logicielles . . . . . . . . . . . . . . 4.1.2 Présentation des données . . . . . . . . . . . . . . . . . . . . 4.2 Résultats expérimentaux . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Expérimentation avec mXS . . . . . . . . . . . . . . . . . . . 4.2.2 Expérimentation avec RenL . . . . . . . . . . . . . . . . . . . 4.2.3 Participation à la campagne d’évaluation CLEF HIPE 2020 A Annexe A.1 Extraction des entités nommées . . . . . . . . . . . . . . . . . A.2 Extrait de codes . . . . . . . . . . . . . . . . . . . . . . . . . . . A.2.1 Script de liaison des données . . . . . . . . . . . . . . . A.2.2 Extrait de script récupération des entités via Dbpédia ii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 31 31 32 35 35 37 44 . . . . 51 51 54 54 57 Table des figures 1.1 Présentation de REN issue d’une dérivation de phrases via wikipédia . . . 2.1 2.2 2.3 2.4 2.5 Hiérarchie des entités selon l’annotation Quaero . . . . . . . . Architecture générale de Nemesis . . . . . . . . . . . . . . . . . Champ aléatoire conditionnel à chaîne linéaire . . . . . . . . . Schéma général d’un système de désambiguïsation des entités Structure LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 10 13 14 21 23 3.1 Architecture de traitement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.2 Architecture proposée de mXS . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.3 Architecture proposée du prototype . . . . . . . . . . . . . . . . . . . . . . . 29 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 4.10 4.11 4.12 4.13 4.14 4.15 4.16 4.17 4.18 4.19 Présentation de corpus interviews . . . . . . . . . . . . . . . . . Présentation de l’analyse statistique textuelle . . . . . . . . . . Tableau croisant des formes pleines et des segments de texte . Annotation d’extrait du corpus dans mXS . . . . . . . . . . . . Le résultat d’annotation automatique dans mXS . . . . . . . . Exécution de la commande . . . . . . . . . . . . . . . . . . . . . Le résultat de sortie mXS . . . . . . . . . . . . . . . . . . . . . . Le résultat de sortie avec une annotation fine mXS . . . . . . . Exécution d’exemple de liaison des données . . . . . . . . . . . Le résultat de sortie de liaison des données . . . . . . . . . . . Lancement du système RenL pour la notation du corpus . . . . Résultat d’annotation sur RenL . . . . . . . . . . . . . . . . . . . Le détail de corpus annoté par RenL . . . . . . . . . . . . . . . . Extrait de sortie d’annotation du corpus en format BIO . . . . . Visualisation graphique des phrase par la longueur . . . . . . . Présentation des matrice de caractéristiques et le vecteur cible Présentation de modèle . . . . . . . . . . . . . . . . . . . . . . . Formation des données . . . . . . . . . . . . . . . . . . . . . . . Graphique d’entraînement et de validation . . . . . . . . . . . . iii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 33 34 35 36 36 36 36 37 37 38 38 39 39 40 40 41 41 42 TABLE DES FIGURES 4.20 4.21 4.22 4.23 Evaluation de RenL . . . . . . . . . . . . . . . . . . . . . . . . . . Résultat de prédiction d’ensemble de test . . . . . . . . . . . . . Résultat de prédiction des données avec une phrase extérieure Performance par type sur des périodes de temps . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 43 44 46 A.1 A.2 A.3 A.4 A.5 A.6 A.7 A.8 bilan dpedia . . . . . . . . . . . . . . . . . . . . . . . . . Tableau des mots de Parti politique les plus fréquents Graphes des mentions Migrant et Réfugié . . . . . . . . Graphes des mentions pondérées . . . . . . . . . . . . Nuages de mots d’un parti politique France Insoumise Nuages de mots d’un parti politique LaREM . . . . . . Nuages de mots d’un parti politique Front National . . Script python-sparql via dbpedia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 59 59 60 60 61 61 62 iv . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Liste des tableaux 2.1 Exemple d’annotation au format BIO . . . . . . . . . . . . . . . . . . . . . . 17 20table.caption.14 3.1 Liste non exhaustive des librairies TAL . . . . . . . . . . . . . . . . . . . . . 26 4.1 4.2 4.3 4.4 Ressources logicielles . . . . . . . . . . . . . . . . . . . . . . . . . . Résultats des tâches NER . . . . . . . . . . . . . . . . . . . . . . . Résultat par type . . . . . . . . . . . . . . . . . . . . . . . . . . . . Résultats littéraux et stricts après les mises à niveau du système . . . . . . . . . . . . . . . . . . . . . . . . 32 45 46 47 A.1 Extraction des entités nommées . . . . . . . . . . . . . . . . . . . . . . . . . 52 v Liste des sigles et acronymes ACE Automatic Content Extraction Bi-LSTM Bidirectional Long Short-Term Memory LSTM Long Short-Term Memory MUC Message Understanding Conference TAC Text Analysis Conference TAL Traitement Automatique des langues TALN Traitement Automatique du Langage Naturel TEI Text Encoding Initiative REN Reconnaissance d’Entités Nommées HMM Hidden Markov Model CRF Conditional Random Fields SVM Support Vector Machine DL Désambiguïsation Lexicale URI Uniform Resource Identifier Chapitre 1 Introduction générale Les entreprises sont confrontées à des quantités importantes de textes qu’il faut traiter, indexer l’information pour la retrouver et marquer dans les textes pour aider à prendre des décisions. L’ère de la fouille des données ou plus précisément l’extraction d’information a mis en évidence des tâches génériques utilisables seules dans les outils d’aide à la décision, en d’autre terme la Reconnaissance des Entités Nommées (REN). Actuellement, les entreprises travaillent dans la transformation numérique avec les scientifiques pour répondre aux besoins de la société comme par exemple pour la transcription de journaux télévisés, d’enregistrements radiophoniques et de réunions, un enjeu important pour le domaine de l’archivage et de la recherche d’information. Dans le cadre de notre projet, l’entreprise Reticular qui propose des services de veille à destination à des decideurs publics, politiques, dirigeants d’entreprises nous a transmis les corpus à exploiter. Ces services incluent une cartographie des acteurs (entités ou personnes), la mise en évidence de liens organiques (filiale, autorité, concurrence, partenariat, alliance) qui peuvent être corrélés à des opinions similaires dans le débat public. Dans le souci de bien repérer les entités ou personnes qui sont mentionnés dans les éléments textuels et de les classer dans des catégories, dont la plus fréquente est la catégorie personne et comme sous-type la personne politique. A cet effet, nous allons recourir au domaine approprié, la reconnaissance d’entités nommées qui est une tâche d’extraction d’information dans laquelle des entités nommées sont localisées dans des phrases non structurées et classées dans des catégories prédéfinies telles que les noms de personnes, les organisations, les lieux, les valeurs monétaires, les pourcentages, etc(Khalid et al., 2008). L’extraction automatique de contenus factuels à partir de ces transcriptions devient un axe de recherche primordial afin d’utiliser et d’exploiter le maximum d’information, parmi lesquelles les entités nommées jouent en rôle central. Les entités nommées sont des éléments linguistiques utilisés par de nombreuses applications en traitement automatique des langues (TAL), telles quelles (indexation 1 CHAPITRE 1. INTRODUCTION GÉNÉRALE de documents, recherche et extraction d’information, etc.) ou comme éléments exploités pour de nombreuses autres tâches (Nouvel et al, 2015) 1 . La Figure 1.1 est une dérivation des phrases à partir du texte Wikipédia 2 : les phrases sont extraites d’articles ; les liens vers d’autres articles peuvent ensuite être traduits en catégories d’entités nommées. F IGURE 1.1 – Présentation de REN issue d’une dérivation de phrases via wikipédia À ce jour, de nombreux travaux de recherche ont porté sur la désambiguïsation (ou liaison, résolution) d’entités. Il s’agit alors de déterminer à quel référent d’une base de connaissances une expression linguistique fait mention. Cela concerne une plus large gamme d’expressions linguistiques que les « entités nommées ». Les systèmes symboliques sont généralement moins robustes que des étiqueteurs basés sur des méthodes d’apprentissage automatique, notamment car ils sont capables d’extraire de ces données des règles de décision qu’un expert humain n’aurait pu concevoir par lui-même. Guidés par cette notion de robustesse face aux transcriptions et détection automatiques, nous vous présentons d’abord la structure de notre travail qui nous permettra de bien mener ce projet et d’améliorer ce qui existe. Les deux derniers chapitres constituent une grande contribution, hormis la conclusion et perspective, se présente comme suit : — Le premier chapitre fera l’objet d’un aperçu général et d’une présentation du projet pour introduire le travail ; — Le deuxième chapitre se basera sur les travaux existants pour donner la lumière afin d’atterrir en douceur dans notre recherche ; — Le troisième chapitre s’appuiera sur les solutions trouvées dans la littérature afin de présenter notre proposition de système ; — Le quatrième chapitre se penchera sur la réalisation pratique de notre système, passera en revue les expérimentations de la solution proposée et son évaluation. 1. Named Entity Resources-Overview and Outlook, Maud Ehrmann, Damien Nouvel , Sophie Rosset 2. https ://fr.wikipedia.org/wiki/Renault 2 CHAPITRE 1. INTRODUCTION GÉNÉRALE 1.1 Présentation de l’établissement d’accueil 1.1.1 Institut national des langues et civilisations orientales (Inalco) Mon stage s’est effectué à l’Inalco au sein du laboratoire de recherche ERTIM (Équipe de recherche, Texte, Informatique et Multilinguisme) durant la période d’octobre 2019 à juillet 2020. Inalco 3 est un établissement public d’enseignement supérieur et de recherche situé en France, dans la ville de Paris proposant de nombres formations en langues et civilisations aussi riche et reconnue en France comme à l’international, ayant en son sein plusieurs enseignants venus du monde, enseignant les langues de l’Europe centrale à l’Afrique et de l’Asie à l’Amérique en passant par l’Océanie. Cet établissement est crée en 1795, l’offre de l’Inalco se caractérise par sa grande diversité avec plus de 100 langues et civilisations enseignées et plusieurs filières professionnelles. Elle assure aux étudiants un enseignement de haut niveau, appuyé sur la recherche et axé sur l’insertion professionnelle ouverte à tous publics. Elle bénéficie également d’un dispositif de valorisation et d’ingénierie pour les montages de projet, dont mon stage fait partie grâce au projet d’analyse et traitement automatique de discours (TALAD). 1.1.2 Projet TALAD Le projet TALAD financé par l’Agence nationale de la recherche (ANR) implique plusieurs chercheurs affiliés dans différentes organisations dont AGORA (Université de Cergy-Pontoise), PRAXILING (Université Montpellier 3, CNRS), ERTIM (INALCO), LI (Université de Tours), RETICULAR (entreprise) intervenants chacun selon leur rôle attribué dont ERTIM par sa contribution de son système mXS en matière de reconnaissance des entités nommées et les modules de liage des entités nommées. En effet, les chercheurs en analyse du discours manipulent des logiciels de calculs textométriques et de visualisation (TXM, Iramuteq, Lexico, HyperBase, Trameur, etc.) pour les assister dans leurs travaux et objectiver leurs analyses. Ces outils empruntent plusieurs briques logicielles au TAL comme la segmentation, étiquetage en partie du discours. Le projet TALAD vise à enrichir cette interaction en explorant l’utilisation de traitements TAL plus avancés, comme la REN ou la coréférence. Le TAL est une discipline à la frontière de la linguistique, de l’informatique et de l’intelligence artificielle. Elle concerne la conception de systèmes et techniques informatiques qui comprennent (autant que possible) et manipulent le langage humain dans tous ses aspects. 4 Dans ce projet, chaque membre des laboratoires intervenants comme des partenaires ont présenté leurs outils qui étaient validés sur la problématique de la nomination (procédé linguistique associant un nouveau sens à un mot existant) et ce projet 3. http://www.inalco.fr/institut 4. http://lalic.paris-sorbonne.fr/PAGESPERSO/atanassova/lfa/Cours10.pdf 3 CHAPITRE 1. INTRODUCTION GÉNÉRALE approfondi davantage les pratiques de l’analyse des discours et l’apport des technologies TAL qui peuvent permettre une avancée méthodologique pour l’AD. Il a pour objectif d’adapter des techniques issues du TAL pour fournir à l’AD des jeux de descripteurs plus complexes, relatifs à différents niveaux d’organisation discursive, ainsi que des outils permettant de les composer dans des chaînes de traitement, en fonction des finalités recherchées. En retour, l’AD apportera au TAL un éventail de phénomènes complexes à étudier, qui seront autant de défis à soumettre aux dernières avancées en TAL. L’intégration des travaux de recherche pour l’entreprise Reticular permettra à cet acteur de la veille politique de produire des analyses qui s’appuient sur les observables liés aux nominations 5 . Ceux-ci pourront prendre la forme d’analyses objectives (intégration de statistiques aux rapports), de cartographies (positionnement de partis ou de personnalités politiques selon leurs discours), d’amélioration des résumés automatiques actuellement réalisés par l’entreprise, d’identification d’idéologies et de leur propagation dans la société civile. Par le biais d’ERTIM, mon travail interviendra dans leurs missions en TAL dont l’annotation de corpus, entités nommées et coréférences, avec l’objectif de développer les outils d’exploration de corpus et développement d’outils de repérage d’observables. 5. Rapport TALAD, DEFI 8, axe 2 "Révolution numérique", sous-axe "Création et partage des savoirs" PRCE, AAPG ANR 2017 4 CHAPITRE 1. INTRODUCTION GÉNÉRALE 1.2 Problématique et objectifs du stage 1.2.1 Problématique La détection des entités nommées et leur catégorisation font l’objet d’étude à travers différentes ressources pour répondre aux besoins. Dans notre travail les tâches qui nous sont confiées sont les suivantes : — La détection des entités ; — La reconnaissance des entités ; — La désambiguïsation des entités. Dans cette intention, notre problématique portera sur trois questions à savoir : — Comment déterminer les entités mentionnées dans un texte ? — Par quelles expressions linguistiques sont mentionnées ces entités ? — Peut-on exploiter une source de connaissance pour la liaison des données ? 1.2.2 Objectifs du stage Les objectifs visés dans ce stage sont groupés en deux temps. Dans un premier lieu, il s’agira d’exploiter le corpus fourni dans le cadre du projet TALAD (transcription d’interviews matinales), en interaction avec des collègues linguistes de l’équipe PraxiLing, afin d’y caractériser les entités d’intérêt (entités nommées, entités collectives, nominations et dénominations) et de déterminer les méthodes adéquates pour les repérer automatiquement. Dans un deuxième temps, notre contribution sera d’évaluée la qualité des ressources extraites depuis wikipédia, à prototyper un système de reconnaissance et désambiguïsation des entités pour le français en utilisant les méthodes état de l’art d’apprentissage (automatique et profonds) et à l’évaluer comparativement à d’autres systèmes existants, avec une attention particulière portée au cas difficile des organisations. A la lumière de cette présentation, nos objectifs principaux sont les suivants : • • • • • Caractérisation des entités d’intérêt pour le projet TALAD ; Expérimentation de la détection automatiques d’entités pour la nomination ; Participation à l’extraction et l’évaluation du corpus de référence depuis Wikipedia ; Prototypage d’un système de désambiguïsation à base d’algorithme d’apprentissage(CRF, LSTM, BI-LSTM) ; Implémentation et évaluation comparative des systèmes. 5 Chapitre 2 Etat de l’art 2.1 Entités Nommées 2.1.1 Introduction et approche historique Dans tout document texte, il existe des termes particuliers qui représentent des entités spécifiques qui sont plus informatives et ont un référent unique. Ces entités sont connues sous le nom d’entités nommées, qui concerne plus spécifiquement à des termes qui représentent des objets du monde réel tels que des personnes, des lieux, des organisations, etc., souvent désignés par des noms propres. La notion d’entité nommée est apparue lors des conférences MUC (Message Understanding Conference) aux États-Unis entre les années 1987 et 1998 dans le but d’évaluer les systèmes d’extraction d’informations[10]. Du point de vue linguistique, cette notion a été étudiée par (Ehrmann, 2008), « étant donné un modèle applicatif et un corpus 1 , on appelle entité nommée toute expression linguistique qui réfère à une entité unique du modèle de manière autonome dans le corpus ». Actuellement, beaucoup de travaux existants ont avancé leur recherche sur le repérage de ces entités et les annotations pour une bonne constitution d’information. Avec l’avènement du TAL, plusieurs chercheurs ont défini les méthodes et schémas pour annoter des corpus et évaluer la qualité des annotations produites. « TAL et la linguistique de corpus sont devenus des domaines-clés pour répondre aux besoins de notre société en terme d’analyse et d’exploitation de gisements d’information, le plus souvent sous forme textuelle, et aujourd’hui largement disponibles, en particulier sur le Web » (Pierrel, 2000). Par ailleurs, « la disponibilité de ressources textuelles électroniques de grandes tailles(corpus, bases de données textuelles, dictionnaires et lexiques) et les progrès de l’informatique, tant en matière de stockage que de puissance de calcul, ont créé, au cours des années 1990, un véritable engouement pour 1. Les corpus sont des collections de données sélectionnées et organisées selon des critères explicites pour servir d’échantillon pour un traitement particulier ou de référence pour fournir une information en profondeur.(Miftah Nina et al., 2016) 6 CHAPITRE 2. ETAT DE L’ART les approches statistiques et probabilistes sur corpus » (Habert et col., 1995). (Solenn et al., 2016) ont proposé dans la campagne d’évaluation des annotations à insérer dans un corpus sur lequel tous les systèmes participants seront évalués en terme de rappel et précision (et/ou F-mesure). Un guide d’annotation précise le résultat attendu. Il est accompagné d’un corpus d’entraînement et de test, notamment pour les systèmes à base d’apprentissage. Durant le stage, nous avons travaillé sur mXS 2 avec le corpus QuaeroEtape, issu des évaluations des chercheurs qui étaient organisées sous l’appui de l’association francophone de communication parlée (AFCP) à la période de 2008 pour Ester-2 et 2012 pour Etape. Cette dernière s’est appuyée sur le guide d’annotation défini dans le cadre du projet Quaero 3 . 2.1.2 Dérivé du concept d’entité nommée Le concept d’entité nommée a évolué au fil du temps, que ce soit au niveau de ce qu’elle signifie ou au niveau des typologies, nous nous référons notamment ici aux travaux d’Ehrmann (2008) qui propose une définition et une caractérisation des entités nommées prenant en compte la dimension linguistique et son application en TALN. L’un de travaux de (Grishman et Sundheim, 1996), définit bien ce concept que nous adoptons dans notre travail car elle dérive de la REN qui a été créée pour la première fois lors de la campagne d’évaluation MUC-6 (1995) : « ... la tâche d’entités nommées consiste essentiellement à identifier les noms de toutes les personnes, les organisations et les localisations géographiques dans un texte » 4 Les entités nommées sont donc implicitement définies en évoquant une simple énumération de ce qu’elles peuvent représenter. Les divers pièges soulignés à l’endroit des entités nommées, relevant de difficultés de catégorisation, d’annotation, de représentation ou encore de considération de phénomènes de sens, renvoient tous d’une manière ou d’une autre à la difficulté d’appréhender la notion d’entité nommée. Les travaux de (Le Meur et al. 2004) et (Galliano et al. 2009) explique leur participation respectivement dans la campagne ESTER 1 (2003-2005) et ESTER 2 (20062008),ces deux campagnes ESTER (Évaluation des Systèmes de Transcription d’Émissions Radiophoniques) visaient à la mesure des performances des systèmes de transcription d’émissions radiophoniques pour le français, financée par le Ministère de l’Enseignement Supérieur et de la Recherche français. Durant cette campagne d’évaluation il y a eu une catégorisation des entités en 7 catégories principales : 1. Personne 2. Fonction 3. Lieu 2. mXS est un outil REN( Réconnaissance des entités Nommées NER(Named Entity Recognition) Tagger français, https://github.com/eldams/mXS 3. http://www.quaero.org/ 4. « ... the "named entity" task, which basically involves identifying the names of all the people,organizations, and geographic locations in a text. » (Grishman et Sundheim, 1996) 7

- Xem thêm -

Tài liệu Reconnaissance et désambiguïsation des entités

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất