[PDF] [PDF] Indexation darticles scientifiques Présentation et - OpenScience

Mots-clés de référence : français; interprétation sémantique; conjonction; expression linguistique; concept linguistique ; relation syntaxique ; cause FIGURE 1 1



Previous PDF Next PDF





[PDF] Etude sémantique des mots-clés et des marqueurs lexicaux stables

8 jui 2012 · Dans cet article, nous expliquons d'abord la méthodologie et les résultats de l' étude sémantique des mots-clés du corpus technique (section 2), 



[PDF] Indexation darticles scientifiques Présentation et - OpenScience

Mots-clés de référence : français; interprétation sémantique; conjonction; expression linguistique; concept linguistique ; relation syntaxique ; cause FIGURE 1 1



[PDF] Mieux lire et comprendre un texte avec des outils de lexicométrie

Cette science utilise différents outils pour représenter graphiquement la composition sémantique dont le plus opératoire est le nuage de mots-clés (tag cloud)



[PDF] DES MOTS AUX SENS : SEMANTIQUE EN CORPUS - Lexicometrica

formulation de sa requête si les mots clefs qu'il donne comme critère de recherche sont trop ou trop peu spécifiques Les travaux en analyse sémantique de 



[PDF] Chapitre 4 Vue sémantique dun texte - THÈSE - Université

sémantiques dans un document, ces descripteurs seront des mots-clés (concepts ) associés à des entrées dans un vocabulaire contrôlé, thésaurus [Salton et al, 



[PDF] Optimisation des bons mots clés - Redacteurcom

Optimisation sémantique 7 à la Google Search Console, qui permet d'avoir une vue sur les mots-clés uniques, contenir le mot-clé de la page, ne pas



[PDF] Mots clés - L3i

Mots clés : Indexation et recherche bas niveau sémantique [2], il peut exister un fossé sémantique entre certains concepts de haut niveau sémantique 

[PDF] Mots clés : Freud

[PDF] Mouvement accéléré

[PDF] mouvement et forces 1ere

[PDF] mouvement et forces cours seconde

[PDF] mouvement et forces physique seconde

[PDF] mouvement et forces seconde

[PDF] mouvement et forces seconde exercices

[PDF] Mouvement ralenti

[PDF] Mouvement rectiligne

[PDF] mouvements et forces 2nde

[PDF] mouvements et forces premiere

[PDF] Moyen de transport

[PDF] moyen poodle

[PDF] Moyenne arithmétique

[PDF] moyenne bourgeoisie

[PDF] Indexation darticles scientifiques Présentation et  - OpenScience

Indexation d"articles scientifiques

Présentation et résultats du dé fouille de textes DEFT 2016

Automatic indexing of scientific papers

Presentation and results of DEFT 2016 text mining challenge Béatrice Daille1, Sabine Barreaux2, Adrien Bougouin1, Florian Boudin1, Damien Cram1, Amir

Hazem1

1LS2N- Univ. Nantes, 2 rue de la Houssinière, 44322 Nantes Cedex 3, France

{prenom.nom@univ-nantes.fr

2INIST-CNRS, 2, allée du Parc de Brabois, 54519 Vandoeuvre-lès-Nancy, France

sabine.barreaux@inist.fr

RÉSUMÉ.Cet article décrit la campagne 2016 du défi fouille de textes (DEFT), qui pour sa douzième édition a proposé aux par-

ticipants de simuler la tâche d'indexation de documents scientiques réalisée par des documentalistes, experts dans des domaines de

spécialité. L'indexation consiste à proposer un ensemble de mots-clés pour une notice bibliographique, en français, de quatre domaines

de spécialité (linguistique, sciences de l'information, archéologie et chimie). Cette tâche d'indexation de document scientique est difcile

qu'elle soit réalisée manuellement ou automatiquement. Nous présentons la pratique de l'indexation manuelle et les méthodes état de

l'art pour l'indexation automatique ainsi que leurs évaluations. Nous décrivons ensuite les données mises à disposition des participants,

le déroulement de la campagne et les résultats obtenus évalués avec les mesures de précision, rappel, et f1-mesure, calculées avec une

macro-moyenne.

ABSTRACT.This paper presents the 2016 edition of the DEFT text mining challenge. This edition adresses the keyword-based

indexing of scientic papers with the aim of simulating a professional indexer. The corpus is composed of French bibliographic records

from four domains : linguistics, information science, archaeology and chemisty. The results have been evaluated in terms of precision,

recall and f-measure computed on stemmed texts against a reference manual indexation.

MOTS-CLÉS.indexation automatique, mot-clé, domaines de spécialité, articles scientifiques, français.

KEYWORDS.document indexing, keyphrase, specialized domains, scientific aricles, French.

1 Introduction

L"indexation automatique consiste à identifier un ensemble de mots-clés (e.g. mots, termes, noms propres) qui

décrit le contenu d'un document. Les mots-clés peuvent ensuite être utilisés, entre autres, pour faciliter la recherche

d'information ou la navigation dans les collections de documents. À l'instar de l'édition 2012 de DEFT (Paroubek

et al.,2012 ), la tâche porte sur l'indexation de documents scientiques par l'intermédiaire de mots-clés. Alors que

l'édition 2012 portait sur l'identication des mots-clés choisis par les auteurs, la tâche de l'édition 2016 concerne

l'identication des mots-clés fournis par des documentalistes, des indexeurs professionnels spécialisés dans des

domaines. L'indexation par mots-clés fournit un ensemble restreint de mots ou expressions qui représentent ses

sujets principaux, explicites ou non (voir la gure1.1 ).

Contrairement aux mots-clés d'auteurs, ceux proposés par des indexeurs professionnels sont issus d'une

démarche documentaire étudiée pour l'indexation de documents dans le contexte de la recherche d'information.

S'appuyant sur le contenu du document et sur un thésaurus du domaine, les indexeurs professionnels fournissent

des mots-clés cohérents et exhaustifs. La cohérence implique qu'un concept est toujours représenté par le même

mot-clé pour les documents d'un même domaine. Le thésaurus du domaine est donc privilégié pour l'identication

c

2017 ISTE OpenScience - Published by ISTE Science Publishing, London, UK - openscience.frP age1

La cause linguistique

L"objectif est de fournir une définition de base du concept linguistique de la cause en observant son expression.

Dans un premier temps, l'A. se demande si un tel concept existe en langue. Puis il part des formes de son

expression principale et directe (les verbes et les conjonctions de cause) pour caractériser linguistiquement ce qui

fonde une telle notion.

Mots-clés de référence :français; interprétation sémantique;conjonction; expression linguistique;

concept linguistique; relation syntaxique; cause.

FIGURE1.1.Exemple d"indexation par mots-clés d"une notice bibliographique (résumé). Les mots-clés soulignés

sont explicites, c'est-à-dire qu'ils occurrent dans le document, les autres sont implicites.

des mots-clés. L"emploi d"un référentiel pour indexer des textes est appeléeindexation contrôlée. Toutefois,

l'exhaustivité implique aussi que l'indexeur fournisse des mots-clés relatifs à des concepts importants n'appartenant

pas nécessairement au thésaurus. Le non-emploi d'un vocabulaire contrôlé pour indexer les textes est appelé

indexation libre.

Les méthodes mises au dé dans cette édition 2016 doivent identier les concepts importants permettant

d'indexer les documents. Comme l'indexation proposée par les indexeurs professionnels, les méthodes pourront

effectuer une indexation contrôlée, libre ou mixte.

Nous présentons successivement les pratiques de l'indexation manuelle, un état de l'art sur les méthodes

de référence en indexation libre et en indexation contrôlée, les données qui ont été mises à la disposition des

participants, la tâche proposée, les mesures d'évaluation et les résultats obtenus par les participants.

2 Pratiques de l"indexation manuelle

Les pratiques prises en compte dans ce défi sont celles mises en oeuvre à l"INIST-CNRS pour la production des

bases de données bibligraphiques Pascal et Francis entre 1977 et 2015. L'indexation présente dans les notices est

destinée à favoriser la recherche documentaire dans les bases de données bibliographiques Pascal et Francis. Elle

est réalisée par des documentalistes de l'Inist qui ont une double compétence : documentaire et scientique. Chaque

documentaliste indexe ainsi les documents de son domaine de spécialité en se demandant à quelles questions le

document donnera une réponse pertinente et en s'assurant que les notions appropriées gurent dans l'indexation. Il

s'appuiera pour cela sur des principes garantissant une indexation de qualité (UNISIST,1975 ), parmi lesquels le

principe de spécicité, de conformité, d'homogénéité, d'impartialité, d'exhaustivité, tels que rappelés ci-dessous

(Guinchat & Skouri,1996 ) :

Spécificité :chaque document doit être indexé, si possible, au niveau le plus spécifique, en choisissant ce niveau

en relation avec l'originalité du document dans le fonds documentaire et le type de questions pouvant être

posées. Il peut parfois être nécessaire d'accompagner un terme spécique de son terme générique pour le

resituer dans son contexte.

Conformité :l"indexation doit se conformer au langage documentaire utilisé, tout en intégrant des mots-clés

libres si le contenu du document le nécessite.

Homogénéité :le documentaliste doit s"efforcer de traiter de manière homogène le même type de documents

et d'indexer les mêmes concepts toujours de la même façon.

Impartialité :l"indexation doit être le résultat d"une procédure objective qui se garde de toute évaluation

personnelle.

Exhaustivité :l"indexation doit prendre en compte tous les aspects d"un document, dans la mesure où ils

paraissent importants. Les concepts implicitement contenus dans le document seront également indexés an

de replacer les mots-clés dans un contexte approprié.

Pour réaliser cette tâche, les documentalistes peuvent s'appuyer sur des grilles d'indexation qui leur permettent

d'identier les notions importantes à indexer en fonction du domaine traité et de la problématique du document.

c

2017 ISTE OpenScience - Published by ISTE Science Publishing, London, UK - openscience.frP age2

Elles servent de canevas au documentaliste qui reste seul juge pour décider de la pertinence et du poids d"une

notion par rapport à la problématique de l'article. Par exemple, pour un document traitant d'un point grammatical

en linguistique, le documentaliste devra rechercher le nom de la langue concernée, le nom du phénomène étudié, le

domaine d'analyse, la méthodologie adoptée et le paradigme théorique dans lequel se situe l'étude.

D'autre part, an de faciliter la tâche d'indexation face au ux important de documents à intégrer dans les bases de

données, un outil de pré-indexation est proposé comme aide au documentaliste. Cet outil, développé par l'Inist,

génère des mots-clés en se basant sur des règles de correspondance établies entre des mots-clés du vocabulaire

contrôlé du domaine et leurs variantes à retrouver dans le texte. Par exemple, l'outil de pré-indexation proposera le

mot-cléacquisition d"une langue secondeprésent dans le référentielENSEIGNEMENT ET APPRENTISSAGE DES

LANGUES, lorsqu"il rencontrera la forme fléchieacquisition des langues secondesou la variante comportant une

insertion d'un modieuracquisition d"une nouvelle langue secondedans le document à indexer. Le documentaliste

intervient en validant, ou pas, les propositions d'indexation de l'outil dans le document, en les complétant le cas

échéant et en mettant à jour régulièrement les référentiels contenant les règles de correspondance mot-clé/formes

échies et variantes à rechercher.

Le documentaliste doit résoudre les problèmes liés aux notions implicites et aux ambiguïtés. Les notions implicites

sont celles qui sont présentes dans le texte sans être nommées, et qui sont présentes dans le vocabulaire contrôlé.

Plus le documentaliste sera expert des référentiels d'indexation, plus il sera à même de résoudre ce problème.

L'ambiguïté apparaît lorsqu'un mot clé du référentiel et son occurrence dans le document différent dans leurs sens.

Par exemple, un texte dans le domaine de la linguistique sur l'inuence de la langue maternelle dans la perception

des sons du langage comportant le mot-clésurdité phonologiquene devra pas être indexé avec le mot-clésurdité

présent dans le vocabulaire contrôlé du domaine despathologies du langage. Les résultats de la pré-indexation

sont variables d'un domaine à l'autre.Bougouin et al.(2014) ont observé une échelle croissante de difculté

d'extraction de mots clés pour cinq domaines, allant de la plus facile, l'archéologie, à la plus difcile, la chimie, et

des difcultés moyennes proches pour la linguistique, la psychologie et les sciences de l'information.

Les notices utilisées dans le Dé sont le résultat de ces pratiques d'indexation. Dans le cadre du projet Termith1

dont l"objectif était l"amélioration de l"indexation automatique dans les disciplines des sciences humaines, les

notices ont bénécié d'une révision supplémentaire. Lors de celle-ci, l'accent a été mis essentiellement sur le

principe de spécicité an de s'assurer que les notices n'ont pas fait l'objet d'une indexation trop générique comme

cela a pu être le cas ponctuellement, et sur le principe de conformité par rapport au langage contrôlé. En effet, le

langage documentaire ayant évolué depuis la date où ont été produites les premières notices du corpus (1983), les

mots-clés ont été actualisés en prenant en compte les mises à jour des vocabulaires contrôlés.

3 Indexation automatique de mots-clés

Il existe deux catégories d"indexation automatique par mots-clés : l"une libre, l"autre contrôlée. L"indexation

quotesdbs_dbs7.pdfusesText_5