Extension lexicale de déﬁnitions grâce à des corpus annotés

Mots les plus fréquents de la langue écrite française (XIXe et XXe siècles) Table hiérarchique 1 le dét 1050561 de prép 862100 un dét 419564 être verbe 351960 et conj 362093 à prép 293083 il pron 270395 avoir verbe 248488 ne adv 186755 je pron 184186 son dét 181161 que conj 176161

Liste orthographique - Document de référence

À partir des 2735 121 mots recensés dans le corpus, créer une base de données comportant les 5000 mots utilisés le plus fréquemment, c’est-à-dire ceux auxquels les élèves sont possiblement les plus exposés Centre d’analyse et de traitement informatique (CATIFQ)

Les mots les plus utilisés - miamiuniquelimocom

Les mots les plus utilisés Bienvenue à nouveau sur Espagnol pas à pas Comme ce n'est pas la 1ère fois que vous venez ici, vous voudrez sans doute lire mon e-book gratuit qui vous explique comment apprendre l'espagnol pas à pas et efficacement : cliquez ici pour télécharger le livre gratuitement Le vocabulaire est une des difficultés des apprenants en

Italien - Académie de Grenoble

résultats est de se concentrer sur les mots les plus utilisés et, donc, plus utiles Saviez-vous, par exemple, que les 100 mots anglais les plus courants représentent la moitié de tous les écrits anglais ? Incroyable, n’est-ce pas ? Il sufﬁt donc d’apprendre en priorité les termes les plus fréquemment utilisés pour

Langues - EDUmobile

Les Entraîneurs de Mots vous aideront à apprendre le néerlandais de manière rapide, pratique et surtout agréable Chaque application contient 25 catégories avec les mots les plus utilisés dans la langue choisie Atouts: •Permet d’écouter la prononciation de tous les mots

Les 100 verbes les plus fréquents en français (source CRNS) 1

Les 100 verbes les plus fréquents en français (source CRNS) 1er groupe 2ième groupe 3ième groupe 14 Trouver 15 Donner 17 Parler 18 Aimer 19 Passer 21 Demander 23 Sembler 24 Laisser 25 Rester 26 Penser 28 Regarder 33 Arriver 37 Chercher 40 Porter 42 Entrer 45 Appeler 46 Tomber 48 Commencer 50 Montrer 55 Arrêter 57 Jeter

Extension lexicale de déﬁnitions grâce à des corpus annotés

les plus fréquents et les plus ambigus de l’anglais Selon les auteurs, la couverture correspond à environ 20 des occurrences de noms et de verbes en anglais — Le SemCor (Miller et al , 1993) est un sous-ensemble du Corpus de Brown (Francis & Kucera,ˇ 1964) Sur les 700 000 mots de ce dernier, environ 230 000 sont annotés avec des synsets

Vocabulaire anglais courant

« classique » et un lexique spécialisé plus actuel Chaque chapitre classe les mots – avec variantes américaines – par listes thématiques Beaucoup de ces listes s’accompagnent d’encadrés regroupant le plus possible d’expressions et de phrases complètes Le voca-bulaire se trouve de ce fait mis en situation, ce qui constitue le

Les 100 mots les plus utilisés à l’écrit en anglais

Les 100 mots les plus utilisés à l’écrit en anglais Ces 100 mots = 50 du contenu écrit en anglais a about all an and are as at be been but by call can come could day did do down each find first for from get go had has have he her him his how I if in into is it its like long look made make many may more my no not now number of oil on one or

[PDF] les 52 etats des etats unis pdf

[PDF] les 6 étapes du cycle de l'eau

[PDF] les 6 médias

[PDF] les 600 questions réponses sur la bible

[PDF] les 7 degrés de l'amour

[PDF] les 7 étapes de la négociation commerciale

[PDF] les 7 groupes d'aliments

[PDF] les 7 merveille du monde

[PDF] les 7 merveilles du mondes

[PDF] les 7 methodes de la prise de notes

[PDF] les 7 modes de conjugaison

[PDF] les 7 niveaux de mecanismes de defense

[PDF] les 7 paroles de jesus sur la croix

[PDF] les 7 paroles de jésus sur la croix pdf

[PDF] les 7 péchés capitaux

Extensionlexicalede définitionsgrâceà descorpus annotésen sens

LoïcVial

1 ,AndonTchechmedjie v 1 ,DidierSchw ab 1 1

LIG-GETALP,UniversitéGrenobleAlpes, France

E-mail:{loic.vial,andon.tchechmedjie v,didier .schwab}@imag.fr http://getalp.imag.fr/WSD

RÉSUMÉ

Pouruncertain nombredetâches oud'applicationsdu TALN,il estnécessairede déterminerla proximitésémantiqueentre dessens,des motsoudes segmentste xtuels. Danscetarticle, nousnous

intéressonsàune mesurebaséesur dessav oirs,lamesure deLesk. Laproximitésémantique dedeux

définitionsestév aluéeencomptant lenombredemotscommunsdans lesdéfinitionscorrespondantes

dansundictionnaire. Danscetarticle, nousétudions plusparticulièrementl'e xtensiondedéfinitions

grâceàdes corpusannotésen sens.Ils'agit deprendreen comptelesmots quisont utilisésdansle voisinaged'uncertainsenset d'étendrelexicalement ladéfinitioncorrespondante. Nousmontrons uneaméliorationcertaine desperformances obtenuesendésambiguïsation lexicalequi dépassent l'étatdel'art.

ABSTRACT

LexicalExpansionof definitionsbasedon sense-annotatedcorpus Formanynaturallanguage processingtasksandapplications,it isnecessaryto determinethesemantic relatednessbetweensenses, words ortext segments.Inthisarticle, wefocuson aknowledge-based measure,theLesk measure,which iscertainlyamong themostcommonly used.Thesimilarity betweentwo sensesiscomputedasthenumber ofov erlappingwords inthe definitionsofthe senses fromadictionary .Inthis article,westudytheexpansion ofdefinitionsthrough theuse ofsense- annotatedcorpora.The ideaisto takeinto accountwords thatare mostfrequentlyused arounda particularsenseand touse thetopof thefrequencydistributionto extend thecorrespondingdefinition. Weshowbetterperformances onaWordSenseDisambiguation tasksurpassingstate-of-the-art. MOTS-CLÉS:Extensionlexicale, mesuredeLesk,corpusannotésen sens,désambiguïsation lexicale. KEYWORDS:LexicalExpansion,Leskmeasure,sense-annotated corpus,Word SenseDisambigua- tion.

1Introduction

Pouruncertain nombredetâches oud'applicationsdu TraitementAutomatique desLangues,il est

nécessairede déterminerlaproximité sémantiqueentredes sens,desmots oudesse gmentste xtuels.

Danscetarticle, nousnousintéressons àune mesurebasée surdessa voirs.Pour unétatde l'artplus

complet,lelecteur pourraseréférer à(Budanitsky &Hirst,2006), (Pedersenetal.,2005),(Cramer Actesdela conférence conjointeJEP-TALN-RECIT AL2016,volume2:T ALN 167
etal.,2010)ou (Navigli,2009). Lamesurede Lesk(connueég alementsousle nomderecouvrement dedéfinitions)est certainement

l'unedesplus utilisée.La proximitésémantiquede deuxdéfinitionsest évaluéeen comptantle

nombredemots communs(prissimple mentcommeles chaînesdecaractères entreles espaces)dans lesdéfinitionscorrespondant esdansun dictionnaire.Plusieursvariantesdecette mesureexistent comme,pare xemple,l 'utilisationdesrelationsdansunréseaulexical, lalemmatisationdesmotsde ladéfinition,l'utilisation d'unanti-dictionnairepour filtrercertainsmots, etc.

Danscetarticle, nousétudionsplus particulièrementl'extension dedéfinitionsgrâce àplusieurs

corpusannotésen sens.Il s'agitdeprendre encompteles motsquisont utilisésdansle voisinage d'uncertainsens etd'étendre lexicalementla définitioncorrespondante.

Nousprésentonsdans unpremier tempslesmesures deproximitésémantique etplusparticulièrement

celledeLesk aucentrede cestrav aux.Nousabordons lescorpusannotés ensenset expliquons commentnousnous enservons pourenrichirles définitionsdessens. Enfinnousévaluonsnotre

approchesurune tâchede désambiguïsationlex icaleetmontrons uneaméliorationsnette desrésultats

obtenus.

2Proximité sémantique

2.1Généralités

Unemesurede proximitésémantiquepermet d'estimeràquel pointdeuxsens demots (oumots,ou segmentstextuels,oute xtes)sontprochessémantiquementl'unde l'autre.Ons'attend, parexemple,

àceque !docteur"et!hôpital"soientévalués commeplusprochesque!chien"et!avion".Ile xistedes

dizainesdemesures peut-êtremêm edesmilliers sionconsidère leursvariantes.Onpeutdistinguer plusieursdomainesd'arri vée: - [0,1]:cesont dessimilaritéspour lesquellesunev aleurtendantv ers1indi quedes sens prochesalors qu'unevaleur tendantvers 0indiquedessenséloignés.C'est lecas, parexemple desmesuresv ectoriellescommedans LSA(Deerwesteretal.,1990)ou Word2Vec (Mikolov etal.,2013); - [0,#/2]ou[0,90]:unangle mesuréenradians ouende gréscommec'est lecas,par ex emple, pourlesv ecteursd'idées(Schw ab,2005).Unangleproche de0 (0radian)correspondalors à dessensv oisinsetun angleprochede90 (#/2radians)correspondà dessens trèséloignés ; - N ,unnombre entierpositif,comme c'estle caspourles mesurescommecelle deLesk (Lesk,1986).

2.2Évaluation delaproximitésémantique

Ilestcommunément admisqu'ile xistetrois manièresd'évaluer desmesuresde proximitésémantique

(Budanitsky&Hirst,2006):

- d'unpointde vuethéorique,par l'étudedeleurs propriétésmathématiques (similaritémathé-

matique,distance. ..) ; - parlacomparaison avec lejugementhumain surdesensemblesdecouplesdemotsév alués; - parl'étudedes performancesobtenuespar uneapplicationparticulière grâceàces mesures. Actesdela conférenceconjointe JEP-TALN-RECIT AL2016,volume2:T ALN 168
Danscetarticle, nousutilisonscette dernièreapprocheen évaluantnos mesuressur unetâchede désambiguïsationlexicale.

2.3Mesures deLesk

Danscettesection, nousdécriv onslamesure deLesket quelquesunesdesesvariantesclassiques.

2.3.1Mesure deLeskoriginale

Ilya 30ans,Lesk (1986)aproposé, unalgorithmetrès simplequiév aluelaproximité sémantique

entredeuxsens (S 1 ,S 2 )commele nombrede motscommunsdans lesdéfinitionscorrespondantes (D(s 1 ),D(s 2 ))issuesd'un dictionnaire: sim lesk (s 1 ,s 2 )=|D(s 1 )!D(s 2

2.3.2Variantes delamesuredeLesk

Lamesurede Leskestainsi sensibleàla présenceoul'absence desmotsdans lesdéfinitions. En effet,lamesuretientseulement comptedescorrespondances exactesentre lesformesde surface des motsdesdéfinitions. Sidesmots manquentousi dessynonymes sontutilisés,tout oupartie des

correspondancespotentiellesne pourrontêtretrouvées. Commelesdéfinitions issuesdesdictionnaires

sontsouvent assezconcises,ilestplusdif ficilededistinguer desdif férencesfines entredéfinitions.

Lesvariantes delamesuredeLeskles plusencourageantessont ainsibaséessur l'enrichissementdes

définitions.Nousne nousintéresseronsdonc pasici, niàd'autres manièresde calculerlescore, nià

lalemmatisationou laracinisationdes mots,nià l'utilisationd'antidictionnaires.

L'extensionlaplusclassiquementutiliséeest leLeskétendu (appeléégalement adapté)de Banerjee

&Pedersen(2002). Cettemesurenécessite uneressourcecomposée dedéfinitionspour lessensde

motsmaiség alementdeliens reliantsémantiquementcessens.Il s'agitainsid'enrichir ladéfinition

initialedusens parlesmots desdéfinitiondes sensquilui sontliés,soit : Lesk etendu (s 1 ,s 2 !(R1,R2)"RELPAIRS 2 (|D(R 1 (s 1 ))!D(R 2 (s 2 oùRELPAIRS estl'ensembledesliensreliantsém antiquementlessens s 1 ets 2 .Cettee xtensiona étéutiliséedans denombreuxtra vaux((V asilescuetal.,2004)ou (Schwabetal.,2011))ainsi que

l'ensembledesautres articlescités danscettesection parex emple)etson efficacité n'estplus discutée,

seulslestypes desrelationsutilisées diffèrent. Milleretal.(2012)utilisent(1) unLeskétendu et(2)un thésaurusdistributionnel pourétendre les

définitionseny ajoutantles termesassociésà chacundesmots deladéfinition. Lesrésultatssont les

meilleurspourles définitionsles pluslonguestestées (extensionsde 100mots). Baldwinetal.(2010)comparentplusieurs manièresd'étendreles définitionssur undictionnaire

japonaisdontles définitionssontannotées ensens.I lsenrichissentainsi chaquedéfinition (1)parles

Actesdela conférenceconjointe JEP-TALN-RECITAL 2016,volume2:TALN 169
définitionsdessens desmotsqui lacomposentet (2)commedans Leskétendu parlesdéfinitions des sensliésdans leréseaule xical(uniquementles relationssynonymes, hyperonyme, hyponyme).Les

résultatsduLesk utilisantlesdéfinitions lesplusenrichies sonticiaussi lesmeilleures suruncorpus

japonaisannotéen sens. Ilsembleainsi quepourla mesuredeLesk plusgrandessont lesdéfinitions,meilleurs sontles

résultatsobtenus.Nous étudionsdans cetarticlel'enrichissement desdéfinitionsde WordNetà l'aide

deplusieurscorpus annotésensens decettemême baselexicale.

3Extensionde définitionsparcor pusannotésen sens

Danscetarticl e,nous utilisonsPrincetonWor dNet(Fellbaum,1998), unebasele xicalepourl'anglais danslaquelleles sensde mots(lessynsets, desensemblesde synomymes)sontdécrit parunedéfinition etsontreliés entreeuxpar desrelations (hyperonymie, hyponymie, antonymie,etc.). Chaqueentrée lexicaledeWordNetest ainsiliée àunouplusieurssynsetsqui correspondentàautant desenspour cemot.P arhabitude,on nomme!cat#n#3"letroisièmesens dunom!cat".

3.1Corpus annotésensenspourl'anglais

Ilexiste plusieurscorpuspourl'anglaisannotésen sens.Nousne présentonsicique ceuxqui sont annotésav ecdessensduPrincetonWordNet: - LaDefenseScienceOr ganisation(Ng&Lee, 1996)aprodu itun corpusnondisponible librement.192800 motsontétéannotéavecdessynsetsduWordNet.L'annotationseconcentre sur121 noms(113000 occurences)et70 verbes(79 800occurences)qui ontétéchoisis parmi lesplusfréquents etles plusambigusde l'anglais.Selonles auteurs,lacouv erturecorrespond àenviron 20%desoccurrencesdenomset deverbes enanglais. - LeSemCor(Milleretal.,1993)est unsous-ensembledu CorpusdeBro wn(Francis &K uˇcera,

1964).Surles 700000mots decedernier ,envi ron230000 sontannotés avec dessynsets

duWordNet. L'annotationporteautotalsur 352textes.Pour186d'entre eux,192 639mots (soitl'ensembledes noms,verbes, adjectifsetadv erbes)sontannotés. Surles166autres, seulement41 497verbes sontannotés. - LeGroningenMeaningBank(Basileetal.,2012)inclus desannotationsen sensmais aussilesparties dudiscours,les entitésnommées,les rôlesthématiqueset les sens.Ila étéconstruitsemi-automatiquement grâce àunecombinaison d'outildeTALN,d'experts et decrowdsourcing (jeuxavecunb ut).Sadernière version 1 (2.2.0)ests ortie le4juillet2014et inclus10000 documentset 1354149 motsdont666 562sontannotés ensens(s oit49,22% decouverture). - Lecorpusdes définitionsdeW ordNet 2 quicontientles définitiondeW ordNetannotéesen sens.Ilcontient 1504077 motsdont 458825sont annotés(couverture de30,5%). - Lescorpusdes campagnesd'évaluation dedésambiguïsationle xicalepourl'anglais SemEval- SensEval.Cescorpussontcomposés depeu detextes etdépassentrarement les5000mots.

Danscetarticle, nousétendonsnos définitionsgrâceaux quatrepremierset comparonsleurs résultats

surlatâche 7dela campagneSeme val2007.

1.http://gmb.let.rug.nl/data.php

Actesdela conférenceconjointe JEP-TALN-RECITAL 2016,volume2:TALN 170
SCDSOWNGT GMBNombreNombre demotsNombre desensNombre d'annotationsuniquesannotés uniquesannotésde sens/mot

X23413621153353991.67

X177478 1881421 7.55

XX41161421153356201.68

X444781 3875265 6871.69

XX67891746233825381.78

XX622 25938752 658451.69

XXX85639546233825891.78

X665391 1319215 3951.16

XX899527 26322421341.6

XX842 86913192 16583 1.25

XXX1077005 26322423531.6

XX1 11017242 33672 4531.71

XXX1344308 49088871891.77

XXX 1287650 42336 726041.71

XXXX1521786 49088872401.77

TABLE1-Statistiquessurles différentescombinaisons decorpus. Latable1 récapitulelesstatistiques desdif férentescombinaisonsde corpus.

3.2Extensionde définitions

Notreméthodeconsiste àétendreles définitionsgrâceaux plusfréquentsv oisinsd'un sensdansun

oudescorpus annotésensens. Nousconsidéronsici commevoisin, unmottrouvé danslamême phraseque lesensconsidéré. Pourunsens demotdonné, ellenécessiteainsi troisétapes:

1.extrairelesphrasesoù setrouve cesens;

2.calculerlafréquences d'apparitiondechacun desvoisins etles trierenfonction decette

fréquence;

3.étendreladéfinition decesens avec lesnvoisinslesplusfréquents.

Parexemple, considéronsquenousvoulonsétendreladeuxièmedéfinitiondunom!stone"(!stone#n#2")

de10mots. Nousextrayons dansunpremier tempslesphrase descorpusquicontiennentce sens.Nous classonsl'ensemblede sesvoisins enfonctionde leurfréquence d'apparitionpuisnoussélectionnons les10premiers quenousrajoutons à!stone#n#2"deWordNet.

3.3Donnéespr oduites

Nousav onsproduitledictionnairequiseranotreréférencec'est-à-dire sansextension baséesurdes

corpus.Ils'agit desdéfinitionsenrichies desdéfinitionsliées dansWordNet (extensionà la(Banerjee

&Pedersen, 2003)).Nousutilisons égalementun anti-dictionnaire 3 pourfiltrercertains motsdes définitionsetnous appliquonsuneracinisations surles motsrestantsgrâce àSnowballStemmer 4

3.Laplus longuelistede http://www.ranks.nl/stopwords.

4.http://snowball.tartarus.org

Actesdela conférence conjointeJEP-TALN-RECIT AL2016,volume2:T ALN 171
Nousav onségalementproduitles90dictionnairescorrespondantaux combinaisonsdesquatrecorpus annotésensens utilisés(SemCor ,corpusde laDefenceScience Organization,corpusdes définition deWordNet, corpusGroningenMeaningBank)etdes sixlongueursd'e xtensionstestées(de 0à300 motsparpas de50).

Undépôtdisponible àl'adresse

- lesdeuxmeilleurs dictionnaires; - lessortiesdes 2730exécutions (30exécutions pourchacunedes 91combinaisons); - lecodepermettant decalculer desmesuresde proximitésémantiqueet deréaliserla désambi- guïsationlexicale detextesenanglais.

Cettemiseà dispositionpermettra:

- l'utilisationdesmesures deproximitésémantique parlacommunauté ; - l'exploitationdecesdictionnairesenrichis pourd'autresapplications ; - lareproductibilitédes résultats.

4Évaluation desmesuresbaséessurles définitionsétendues

Commenousle disionsdans lapartie2.2, ilexiste troismanièresd'év aluerunemesure deproximitésé-

quotesdbs_dbs13.pdfusesText_19

[PDF] Extension lexicale de déﬁnitions grâce à des corpus annotés