Mots les plus fréquents de la langue écrite française (XIXe
Mots les plus fréquents de la langue écrite française (XIXe et XXe siècles) Table hiérarchique 1 le dét 1050561 de prép 862100 un dét 419564 être verbe 351960 et conj 362093 à prép 293083 il pron 270395 avoir verbe 248488 ne adv 186755 je pron 184186 son dét 181161 que conj 176161
Liste orthographique - Document de référence
À partir des 2735 121 mots recensés dans le corpus, créer une base de données comportant les 5000 mots utilisés le plus fréquemment, c’est-à-dire ceux auxquels les élèves sont possiblement les plus exposés Centre d’analyse et de traitement informatique (CATIFQ)
Les mots les plus utilisés - miamiuniquelimocom
Les mots les plus utilisés Bienvenue à nouveau sur Espagnol pas à pas Comme ce n'est pas la 1ère fois que vous venez ici, vous voudrez sans doute lire mon e-book gratuit qui vous explique comment apprendre l'espagnol pas à pas et efficacement : cliquez ici pour télécharger le livre gratuitement Le vocabulaire est une des difficultés des apprenants en
Italien - Académie de Grenoble
résultats est de se concentrer sur les mots les plus utilisés et, donc, plus utiles Saviez-vous, par exemple, que les 100 mots anglais les plus courants représentent la moitié de tous les écrits anglais ? Incroyable, n’est-ce pas ? Il suffit donc d’apprendre en priorité les termes les plus fréquemment utilisés pour
Langues - EDUmobile
Les Entraîneurs de Mots vous aideront à apprendre le néerlandais de manière rapide, pratique et surtout agréable Chaque application contient 25 catégories avec les mots les plus utilisés dans la langue choisie Atouts: •Permet d’écouter la prononciation de tous les mots
Les 100 verbes les plus fréquents en français (source CRNS) 1
Les 100 verbes les plus fréquents en français (source CRNS) 1er groupe 2ième groupe 3ième groupe 14 Trouver 15 Donner 17 Parler 18 Aimer 19 Passer 21 Demander 23 Sembler 24 Laisser 25 Rester 26 Penser 28 Regarder 33 Arriver 37 Chercher 40 Porter 42 Entrer 45 Appeler 46 Tomber 48 Commencer 50 Montrer 55 Arrêter 57 Jeter
Extension lexicale de définitions grâce à des corpus annotés
les plus fréquents et les plus ambigus de l’anglais Selon les auteurs, la couverture correspond à environ 20 des occurrences de noms et de verbes en anglais — Le SemCor (Miller et al , 1993) est un sous-ensemble du Corpus de Brown (Francis & Kucera,ˇ 1964) Sur les 700 000 mots de ce dernier, environ 230 000 sont annotés avec des synsets
Vocabulaire anglais courant
« classique » et un lexique spécialisé plus actuel Chaque chapitre classe les mots – avec variantes américaines – par listes thématiques Beaucoup de ces listes s’accompagnent d’encadrés regroupant le plus possible d’expressions et de phrases complètes Le voca-bulaire se trouve de ce fait mis en situation, ce qui constitue le
Les 100 mots les plus utilisés à l’écrit en anglais
Les 100 mots les plus utilisés à l’écrit en anglais Ces 100 mots = 50 du contenu écrit en anglais a about all an and are as at be been but by call can come could day did do down each find first for from get go had has have he her him his how I if in into is it its like long look made make many may more my no not now number of oil on one or
[PDF] les 6 étapes du cycle de l'eau
[PDF] les 6 médias
[PDF] les 600 questions réponses sur la bible
[PDF] les 7 degrés de l'amour
[PDF] les 7 étapes de la négociation commerciale
[PDF] les 7 groupes d'aliments
[PDF] les 7 merveille du monde
[PDF] les 7 merveilles du mondes
[PDF] les 7 methodes de la prise de notes
[PDF] les 7 modes de conjugaison
[PDF] les 7 niveaux de mecanismes de defense
[PDF] les 7 paroles de jesus sur la croix
[PDF] les 7 paroles de jésus sur la croix pdf
[PDF] les 7 péchés capitaux
Extensionlexicalede définitionsgrâceà descorpus annotésen sens
LoïcVial
1 ,AndonTchechmedjie v 1 ,DidierSchw ab 1 1LIG-GETALP,UniversitéGrenobleAlpes, France
E-mail:{loic.vial,andon.tchechmedjie v,didier .schwab}@imag.fr http://getalp.imag.fr/WSDRÉSUMÉ
Pouruncertain nombredetâches oud'applicationsdu TALN,il estnécessairede déterminerla proximitésémantiqueentre dessens,des motsoudes segmentste xtuels. Danscetarticle, nousnousintéressonsàune mesurebaséesur dessav oirs,lamesure deLesk. Laproximitésémantique dedeux
définitionsestév aluéeencomptant lenombredemotscommunsdans lesdéfinitionscorrespondantesdansundictionnaire. Danscetarticle, nousétudions plusparticulièrementl'e xtensiondedéfinitions
grâceàdes corpusannotésen sens.Ils'agit deprendreen comptelesmots quisont utilisésdansle voisinaged'uncertainsenset d'étendrelexicalement ladéfinitioncorrespondante. Nousmontrons uneaméliorationcertaine desperformances obtenuesendésambiguïsation lexicalequi dépassent l'étatdel'art.ABSTRACT
LexicalExpansionof definitionsbasedon sense-annotatedcorpus Formanynaturallanguage processingtasksandapplications,it isnecessaryto determinethesemantic relatednessbetweensenses, words ortext segments.Inthisarticle, wefocuson aknowledge-based measure,theLesk measure,which iscertainlyamong themostcommonly used.Thesimilarity betweentwo sensesiscomputedasthenumber ofov erlappingwords inthe definitionsofthe senses fromadictionary .Inthis article,westudytheexpansion ofdefinitionsthrough theuse ofsense- annotatedcorpora.The ideaisto takeinto accountwords thatare mostfrequentlyused arounda particularsenseand touse thetopof thefrequencydistributionto extend thecorrespondingdefinition. Weshowbetterperformances onaWordSenseDisambiguation tasksurpassingstate-of-the-art. MOTS-CLÉS:Extensionlexicale, mesuredeLesk,corpusannotésen sens,désambiguïsation lexicale. KEYWORDS:LexicalExpansion,Leskmeasure,sense-annotated corpus,Word SenseDisambigua- tion.1Introduction
Pouruncertain nombredetâches oud'applicationsdu TraitementAutomatique desLangues,il estnécessairede déterminerlaproximité sémantiqueentredes sens,desmots oudesse gmentste xtuels.
Danscetarticle, nousnousintéressons àune mesurebasée surdessa voirs.Pour unétatde l'artplus
complet,lelecteur pourraseréférer à(Budanitsky &Hirst,2006), (Pedersenetal.,2005),(Cramer Actesdela conférence conjointeJEP-TALN-RECIT AL2016,volume2:T ALN 167etal.,2010)ou (Navigli,2009). Lamesurede Lesk(connueég alementsousle nomderecouvrement dedéfinitions)est certainement
l'unedesplus utilisée.La proximitésémantiquede deuxdéfinitionsest évaluéeen comptantle
nombredemots communs(prissimple mentcommeles chaînesdecaractères entreles espaces)dans lesdéfinitionscorrespondant esdansun dictionnaire.Plusieursvariantesdecette mesureexistent comme,pare xemple,l 'utilisationdesrelationsdansunréseaulexical, lalemmatisationdesmotsde ladéfinition,l'utilisation d'unanti-dictionnairepour filtrercertainsmots, etc.Danscetarticle, nousétudionsplus particulièrementl'extension dedéfinitionsgrâce àplusieurs
corpusannotésen sens.Il s'agitdeprendre encompteles motsquisont utilisésdansle voisinage d'uncertainsens etd'étendre lexicalementla définitioncorrespondante.Nousprésentonsdans unpremier tempslesmesures deproximitésémantique etplusparticulièrement
celledeLesk aucentrede cestrav aux.Nousabordons lescorpusannotés ensenset expliquons commentnousnous enservons pourenrichirles définitionsdessens. Enfinnousévaluonsnotreapprochesurune tâchede désambiguïsationlex icaleetmontrons uneaméliorationsnette desrésultats
obtenus.2Proximité sémantique
2.1Généralités
Unemesurede proximitésémantiquepermet d'estimeràquel pointdeuxsens demots (oumots,ou segmentstextuels,oute xtes)sontprochessémantiquementl'unde l'autre.Ons'attend, parexemple,àceque !docteur"et!hôpital"soientévalués commeplusprochesque!chien"et!avion".Ile xistedes
dizainesdemesures peut-êtremêm edesmilliers sionconsidère leursvariantes.Onpeutdistinguer plusieursdomainesd'arri vée: - [0,1]:cesont dessimilaritéspour lesquellesunev aleurtendantv ers1indi quedes sens prochesalors qu'unevaleur tendantvers 0indiquedessenséloignés.C'est lecas, parexemple desmesuresv ectoriellescommedans LSA(Deerwesteretal.,1990)ou Word2Vec (Mikolov etal.,2013); - [0,#/2]ou[0,90]:unangle mesuréenradians ouende gréscommec'est lecas,par ex emple, pourlesv ecteursd'idées(Schw ab,2005).Unangleproche de0 (0radian)correspondalors à dessensv oisinsetun angleprochede90 (#/2radians)correspondà dessens trèséloignés ; - N ,unnombre entierpositif,comme c'estle caspourles mesurescommecelle deLesk (Lesk,1986).2.2Évaluation delaproximitésémantique
Ilestcommunément admisqu'ile xistetrois manièresd'évaluer desmesuresde proximitésémantique
(Budanitsky&Hirst,2006):- d'unpointde vuethéorique,par l'étudedeleurs propriétésmathématiques (similaritémathé-
matique,distance. ..) ; - parlacomparaison avec lejugementhumain surdesensemblesdecouplesdemotsév alués; - parl'étudedes performancesobtenuespar uneapplicationparticulière grâceàces mesures. Actesdela conférenceconjointe JEP-TALN-RECIT AL2016,volume2:T ALN 168Danscetarticle, nousutilisonscette dernièreapprocheen évaluantnos mesuressur unetâchede désambiguïsationlexicale.
2.3Mesures deLesk
Danscettesection, nousdécriv onslamesure deLesket quelquesunesdesesvariantesclassiques.2.3.1Mesure deLeskoriginale
Ilya 30ans,Lesk (1986)aproposé, unalgorithmetrès simplequiév aluelaproximité sémantique
entredeuxsens (S 1 ,S 2 )commele nombrede motscommunsdans lesdéfinitionscorrespondantes (D(s 1 ),D(s 2 ))issuesd'un dictionnaire: sim lesk (s 1 ,s 2 )=|D(s 1 )!D(s 22.3.2Variantes delamesuredeLesk
Lamesurede Leskestainsi sensibleàla présenceoul'absence desmotsdans lesdéfinitions. En effet,lamesuretientseulement comptedescorrespondances exactesentre lesformesde surface des motsdesdéfinitions. Sidesmots manquentousi dessynonymes sontutilisés,tout oupartie descorrespondancespotentiellesne pourrontêtretrouvées. Commelesdéfinitions issuesdesdictionnaires
sontsouvent assezconcises,ilestplusdif ficilededistinguer desdif férencesfines entredéfinitions.
Lesvariantes delamesuredeLeskles plusencourageantessont ainsibaséessur l'enrichissementdesdéfinitions.Nousne nousintéresseronsdonc pasici, niàd'autres manièresde calculerlescore, nià
lalemmatisationou laracinisationdes mots,nià l'utilisationd'antidictionnaires.L'extensionlaplusclassiquementutiliséeest leLeskétendu (appeléégalement adapté)de Banerjee
&Pedersen(2002). Cettemesurenécessite uneressourcecomposée dedéfinitionspour lessensdemotsmaiség alementdeliens reliantsémantiquementcessens.Il s'agitainsid'enrichir ladéfinition
initialedusens parlesmots desdéfinitiondes sensquilui sontliés,soit : Lesk etendu (s 1 ,s 2 !(R1,R2)"RELPAIRS 2 (|D(R 1 (s 1 ))!D(R 2 (s 2 oùRELPAIRS estl'ensembledesliensreliantsém antiquementlessens s 1 ets 2 .Cettee xtensiona étéutiliséedans denombreuxtra vaux((V asilescuetal.,2004)ou (Schwabetal.,2011))ainsi quel'ensembledesautres articlescités danscettesection parex emple)etson efficacité n'estplus discutée,
seulslestypes desrelationsutilisées diffèrent. Milleretal.(2012)utilisent(1) unLeskétendu et(2)un thésaurusdistributionnel pourétendre lesdéfinitionseny ajoutantles termesassociésà chacundesmots deladéfinition. Lesrésultatssont les
meilleurspourles définitionsles pluslonguestestées (extensionsde 100mots). Baldwinetal.(2010)comparentplusieurs manièresd'étendreles définitionssur undictionnairejaponaisdontles définitionssontannotées ensens.I lsenrichissentainsi chaquedéfinition (1)parles
Actesdela conférenceconjointe JEP-TALN-RECITAL 2016,volume2:TALN 169définitionsdessens desmotsqui lacomposentet (2)commedans Leskétendu parlesdéfinitions des sensliésdans leréseaule xical(uniquementles relationssynonymes, hyperonyme, hyponyme).Les
résultatsduLesk utilisantlesdéfinitions lesplusenrichies sonticiaussi lesmeilleures suruncorpus
japonaisannotéen sens. Ilsembleainsi quepourla mesuredeLesk plusgrandessont lesdéfinitions,meilleurs sontlesrésultatsobtenus.Nous étudionsdans cetarticlel'enrichissement desdéfinitionsde WordNetà l'aide
deplusieurscorpus annotésensens decettemême baselexicale.3Extensionde définitionsparcor pusannotésen sens
Danscetarticl e,nous utilisonsPrincetonWor dNet(Fellbaum,1998), unebasele xicalepourl'anglais danslaquelleles sensde mots(lessynsets, desensemblesde synomymes)sontdécrit parunedéfinition etsontreliés entreeuxpar desrelations (hyperonymie, hyponymie, antonymie,etc.). Chaqueentrée lexicaledeWordNetest ainsiliée àunouplusieurssynsetsqui correspondentàautant desenspour cemot.P arhabitude,on nomme!cat#n#3"letroisièmesens dunom!cat".3.1Corpus annotésensenspourl'anglais
Ilexiste plusieurscorpuspourl'anglaisannotésen sens.Nousne présentonsicique ceuxqui sont annotésav ecdessensduPrincetonWordNet: - LaDefenseScienceOr ganisation(Ng&Lee, 1996)aprodu itun corpusnondisponible librement.192800 motsontétéannotéavecdessynsetsduWordNet.L'annotationseconcentre sur121 noms(113000 occurences)et70 verbes(79 800occurences)qui ontétéchoisis parmi lesplusfréquents etles plusambigusde l'anglais.Selonles auteurs,lacouv erturecorrespond àenviron 20%desoccurrencesdenomset deverbes enanglais. - LeSemCor(Milleretal.,1993)est unsous-ensembledu CorpusdeBro wn(Francis &K uˇcera,1964).Surles 700000mots decedernier ,envi ron230000 sontannotés avec dessynsets
duWordNet. L'annotationporteautotalsur 352textes.Pour186d'entre eux,192 639mots (soitl'ensembledes noms,verbes, adjectifsetadv erbes)sontannotés. Surles166autres, seulement41 497verbes sontannotés. - LeGroningenMeaningBank(Basileetal.,2012)inclus desannotationsen sensmais aussilesparties dudiscours,les entitésnommées,les rôlesthématiqueset les sens.Ila étéconstruitsemi-automatiquement grâce àunecombinaison d'outildeTALN,d'experts et decrowdsourcing (jeuxavecunb ut).Sadernière version 1 (2.2.0)ests ortie le4juillet2014et inclus10000 documentset 1354149 motsdont666 562sontannotés ensens(s oit49,22% decouverture). - Lecorpusdes définitionsdeW ordNet 2 quicontientles définitiondeW ordNetannotéesen sens.Ilcontient 1504077 motsdont 458825sont annotés(couverture de30,5%). - Lescorpusdes campagnesd'évaluation dedésambiguïsationle xicalepourl'anglais SemEval- SensEval.Cescorpussontcomposés depeu detextes etdépassentrarement les5000mots.Danscetarticle, nousétendonsnos définitionsgrâceaux quatrepremierset comparonsleurs résultats
surlatâche 7dela campagneSeme val2007.1.http://gmb.let.rug.nl/data.php
Actesdela conférenceconjointe JEP-TALN-RECITAL 2016,volume2:TALN 170SCDSOWNGT GMBNombreNombre demotsNombre desensNombre d'annotationsuniquesannotés uniquesannotésde sens/mot
X23413621153353991.67
X177478 1881421 7.55
XX41161421153356201.68
X444781 3875265 6871.69
XX67891746233825381.78
XX622 25938752 658451.69
XXX85639546233825891.78
X665391 1319215 3951.16
XX899527 26322421341.6
XX842 86913192 16583 1.25
XXX1077005 26322423531.6
XX1 11017242 33672 4531.71
XXX1344308 49088871891.77
XXX 1287650 42336 726041.71
XXXX1521786 49088872401.77
TABLE1-Statistiquessurles différentescombinaisons decorpus. Latable1 récapitulelesstatistiques desdif férentescombinaisonsde corpus.3.2Extensionde définitions
Notreméthodeconsiste àétendreles définitionsgrâceaux plusfréquentsv oisinsd'un sensdansun
oudescorpus annotésensens. Nousconsidéronsici commevoisin, unmottrouvé danslamême phraseque lesensconsidéré. Pourunsens demotdonné, ellenécessiteainsi troisétapes:1.extrairelesphrasesoù setrouve cesens;
2.calculerlafréquences d'apparitiondechacun desvoisins etles trierenfonction decette
fréquence;3.étendreladéfinition decesens avec lesnvoisinslesplusfréquents.
Parexemple, considéronsquenousvoulonsétendreladeuxièmedéfinitiondunom!stone"(!stone#n#2")
de10mots. Nousextrayons dansunpremier tempslesphrase descorpusquicontiennentce sens.Nous classonsl'ensemblede sesvoisins enfonctionde leurfréquence d'apparitionpuisnoussélectionnons les10premiers quenousrajoutons à!stone#n#2"deWordNet.3.3Donnéespr oduites
Nousav onsproduitledictionnairequiseranotreréférencec'est-à-dire sansextension baséesurdes
corpus.Ils'agit desdéfinitionsenrichies desdéfinitionsliées dansWordNet (extensionà la(Banerjee
&Pedersen, 2003)).Nousutilisons égalementun anti-dictionnaire 3 pourfiltrercertains motsdes définitionsetnous appliquonsuneracinisations surles motsrestantsgrâce àSnowballStemmer 43.Laplus longuelistede http://www.ranks.nl/stopwords.
4.http://snowball.tartarus.org
Actesdela conférence conjointeJEP-TALN-RECIT AL2016,volume2:T ALN 171Nousav onségalementproduitles90dictionnairescorrespondantaux combinaisonsdesquatrecorpus annotésensens utilisés(SemCor ,corpusde laDefenceScience Organization,corpusdes définition deWordNet, corpusGroningenMeaningBank)etdes sixlongueursd'e xtensionstestées(de 0à300 motsparpas de50).
Undépôtdisponible àl'adresse
- lesdeuxmeilleurs dictionnaires; - lessortiesdes 2730exécutions (30exécutions pourchacunedes 91combinaisons); - lecodepermettant decalculer desmesuresde proximitésémantiqueet deréaliserla désambi- guïsationlexicale detextesenanglais.Cettemiseà dispositionpermettra:
- l'utilisationdesmesures deproximitésémantique parlacommunauté ; - l'exploitationdecesdictionnairesenrichis pourd'autresapplications ; - lareproductibilitédes résultats.4Évaluation desmesuresbaséessurles définitionsétendues
Commenousle disionsdans lapartie2.2, ilexiste troismanièresd'év aluerunemesure deproximitésé-
quotesdbs_dbs13.pdfusesText_19