Un modèle pour prédire la complexité lexicale et graduer les mots PDF

Liste de préfixes de la langue française

(Les cases colorées indiquent les suffixes les plus fréquemment utilisés.) Suffixes. Signification. Exemples. -able -ible

TABLEAU 1.1 Lexique des préfixes et suffixes

Lexique des préfixes et suffixes. Préfixe. Suffixe. Sens général. A. < ab-. < abs-. < éloignement écart

Les suffixes

Tableaux des suffixes français. Les suffixes nominaux. SIGNIFIÉ. FORME. EXEMPLES 2 http://www.etudes-litteraires.com/prefixes.php euse (is)seuse.

TABLEAU DES PRÉFIXES ET DES SUFFIXES 1. Les préfixes

Préfixes. Sens. Exemples a-. Négation dépourvu de. Amoralité

(Suffixes et préfixes)

2) Forme des mots dérivés en ajoutant un préfixe. prudent : content : connu : paraître : régulier : prendre : ______. 3) Sépare les suffixes par

Progression des apprentissages - Français langue denseignement

24 août 2009 à partir d'une liste de mots qui commencent ou qui finissent par les mêmes lettres trouver ceux qui contiennent un préfixe ou un suffixe (ex.

Préfixes et suffixes grecs ou latins: tableau

2 nov. 2020 ... préfixes et suffixes les plus courants ou les plus ... 2/ Mots grecs servant de préfixes ou entrant dans la composition des mots français.

CM2 Français Les préfixes et les suffixes

Exercice 3 : Dans chaque liste surligne en vert le mot qui n'est pas formé d'un radical et d'un suffixe : • insupportable – librement – rayonnage – page.

prefixes suffixes et racines de la terminologie medicale

Path pathie. Maladie. Pathologie : science qui étudie les maladies. -pénie. Pauvreté

Liste de préfixes de la langue française

(Les cases colorées indiquent les suffixes les plus fréquemment utilisés.) Suffixes. Signification. Exemples. -able -ible

La dérivation (préfixes et suffixes)

La dérivation consiste à former un mot à partir d'un autre mot qui sert de base et auquel on ajoute des éléments non autonomes appelés préfixes ou suffixes.

CM2 Français Les préfixes et les suffixes

Exercice 1 : Surligne l'intrus dans chaque liste : • dégeler – démeubler – dépeupler – délirer – délivrer. ? C'est l'intrus car le radical « lirer » n

Radical préfixe et suffixe

Le dictionnaire regroupe tous les mots de la langue française. Il nous sert quand on cherche à savoir la signification d'un mot à avoir des informations sur un

Suffixes

Préfixes suffixes et racines savantes. Les principaux SUFFIXES signifiant «qui se caractérise par». Suffixes. Exemples. Sens. -ant

Liste des publications de Françoise Dubois-Charlier

Jul 10 2020 Liste des publications de Françoise Dubois-Charlier »

Un modèle pour prédire la complexité lexicale et graduer les mots

Fréquence minimale des affixes (préfixes et suffixes) : nombre de mots liste du Français Fondamental dans sa version longue (qui comprend 8 875 lemmes).

Saisir les nuances des mots - Leçon 11 – Racines préfixes

https://www.ccdmd.qc.ca/media/lect_3_3-11Lecture.pdf

Dérivation et composition

Ainsi la langue française comporte des Préfixe. Suffixe a- (ac-

Introduction Le titre de notre recherche est (Analyse des difficultés

1- Découvrir les difficultés d'usage du préfix et suffixe du mot français. 2- Faciliter à l'étudiant de élaborer des mots corrects. Méthodes :.

[O-L1.2] 9121
èmeTraitement Automatique des Langues Naturelles, Marseille, 2014 Un modèle pour prédire la complexité lexicale et graduer les mots

Núria Gala

1Thomas François2Delphine Bernhard3Cédrick Fairon2

(1) LIF-CNRS UMR 7279, Aix Marseille Université, (2) CENTAL, Université Catholique de Louvain, (3) LILPA, Université de Strasbourg nuria.gala@lif.univ-mrs.fr, tfrancois@uclouvain.be, dbernhard@unistra.fr, cfairon@uclouvain.be

Résumé.Analyser la complexité lexicale est une tâche qui, depuis toujours, a principalement retenu l"attention de

psycholinguistes et d"enseignants de langues. Plus récemment, cette problématique a fait l"objet d"un intérêt grandissant

dans le domaine du traitement automatique des langues (TAL) et, en particulier, en simplification automatique de textes.

L"objectif de cette tâche est d"identifier des termes et des structures difficiles à comprendre par un public cible et de

proposer des outils de simplification automatisée de ces contenus. Cet article aborde la question lexicale en identifiant

un ensemble de prédicteurs de la complexité lexicale et en évaluant leur efficacité via une analyse corrélationnelle. Les

meilleures de ces variables ont été intégrées dans un modèle capable de prédire la difficulté lexicale dans un contexte

d"apprentissage du français.

Abstract.Analysing lexical complexity is a task that has mainly attracted the attention of psycholinguists and

language teachers. More recently, this issue has seen a growing interest in the field of Natural Language Processing (NLP)

and, in particular, that of automatic text simplification. The aim of this task is to identify words and structures which

may be difficult to understand by a target audience and provide automated tools to simplify these contents. This article

focuses on the lexical issue by identifying a set of predictors of the lexical complexity whose efficiency are assessed with

a correlational analysis. The best of those variables are integrated into a model able to predict the difficulty of words for

learners of French. Mots-clés :complexité lexicale, analyse morphologique, mots gradués, ressources lexicales. Keywords:lexical complexity, morphological analysis, graded words, lexical resources.

1 Introduction

La complexité lexicale n"est pas une notion qui puisse être définie dans l"absolu. En effet, un terme est perçu différemment

en fonction du public qui y est confronté (apprenants de langue maternelle, apprenants de langue seconde, personnes avec

une difficulté ou une pathologie liée au langage, etc.), d"où le terme de "difficulté" (complexité subjective, (Blache, 2011)).

De même, s"appuyer sur le seul critère de la fréquence pour appréhender la complexité du lexique semble réducteur : bien

que ce critère se soit avéré très efficace dans la littérature (voir section 2), cette variable ne peut seule expliquer l"ensemble

des problèmes rencontrés par différentes catégories de lecteurs. La notion de "complexité" est, ainsi, multidimensionnelle

(vitesse d"accès au lexique mental, compréhension, mémorisation, prononciation, activation du sens, orthographe, etc.),

difficilement saisissable à partir de critères uniquement statistiques et très liée aux caractéristiques du public envisagé.

Dans le cadre de cet article, nous visons un public d"apprenants du français langue maternelle (L1) ou de français langue

étrangère (FLE). En tenant compte de plusieurs ressources existantes, nous avons identifié un ensemble de variables intra-

lexicales et statistiques que nous avons intégrées dans un modèle statistique cherchant à prédire le degré de complexité de

mots dont la difficulté a été annotée par ailleurs. Notre hypothèse est que la combinaison de plusieurs variables intralexi-

cales fines, associées à des informations statistiques, peut donner des indications plus précises sur le degré de complexité

d"un mot. Dans ce sens, après un état de l"art introductif à la section 2, nous présentons la méthodologie et les ressources

que nous avons utilisées pour identifier des variables susceptibles de caractériser la complexité lexicale (section 3). Dans

un deuxième temps, nous présentons ces variables et nous discutons de leur impact à la section 4. À la section 5, nous

décrivons le modèle de difficulté intégrant ces prédicteurs et nous analysons les résultats obtenus. Enfin, nous concluons

l"article par une discussion sur notre approche et les résultats obtenus à la section 6, avant de proposer quelques futures

améliorations à la section 7. [O-L1.2]

2 État de l"art

Analyser la complexité lexicale est une tâche qui, depuis toujours, a principalement intéressé les psycholinguistes et les

pédagogues. En effet, de nombreux travaux sont décrits dans la littérature et se basent, par exemple, sur des tâches telles

que la décision lexicale, la catégorisation sémantique, etc. pour explorer les propriétés du lexique. Ainsi, l"un des critères

majeurs pour considérer qu"un mot est simple ou complexe est celui de la fréquence : de nombreux travaux démontrent

la corrélation étroite entre la haute fréquence d"un terme et le fait que celui-ci soit perçu comme plus "simple" (Howes

& Solomon, 1951; Monsell, 1991). C"est d"ailleurs le critère que plusieurs auteurs avaient utilisé dans la première moitié

du 20e siècle pour construire les premières ressources de lexique 'simplifié", par exemple la liste de Thorndike (1921), le

Teachers" Book of Words, qui reprend les 20 000 mots les plus courants de la langue anglaise assortis de leur fréquence

d"usage, ou encore leFrançais fondamentalde Gougenheim (1958) qui comprend 1 500 mots usuels pour l"apprentissage

du français, aussi bien en tant que langue étrangère que maternelle. La liste de Thorndike reste une référence dans le

domaine de la lisibilité (avant l"apparition des listes obtenues par traitement informatisé). Elle s"avère un instrument de

mesure objectif de la difficulté lexicale des textes et ce malgré quelques faiblesses, comme la mauvaise estimation des

fréquences des mots appelésdisponibles(mots avec fréquence variée selon les corpus mais usuels et utiles1).

D"autres critères avancés dans la littérature pour identifier des mots "simples" concernent plutôt la familiarité d"un terme

(Gernsbacher, 1984) ou encore son âge d"acquisition (Brysbaertet al., 2000). La familiarité lexicale a été utilisée pour la

constitution d"une liste de mots simples par Dale (1931). Dans l"expérience menée par Dale et ses collègues, la mesure

de familiarité a été définie comme suit : dans une liste de 10 000 mots, n"ont été retenus que les termes connus par

au moins 80% des élèves de quatrième primaire (CM1), ce qui a réduit la liste à 3 000 mots. Le nombre de voisins

orthographiques (nombre d"unités de même longueur ne se différenciant que par une seule lettre) a aussi été envisagé par

Coltheartet al.(1977) comme une mesure discriminante de la difficulté d"accès au lexique mental, même si les résultats

dans des tâches de décision lexicale semblent varier selon les langues. Enfin, la longueur (en nombre de syllabes et/ou

caractères) apparaît aussi comme un facteur déterminant dans la façon de percevoir les unités lexicales, en particulier parce

qu"un mot plus long augmente la probabilité de fixer la fovéa (zone de la rétine où la vision des détails est la plus précise)

sur un point de position non optimal, ce qui engendre une perte de temps à la lecture (Vituet al., 1990). Plus récemment,

Schreuder & Baayen (1997) démontrent que le nombre de morphèmes et la taille de la famille morphologique jouent

un rôle dans la décision lexicale visuelle (reconnaissance de mots parmi une série de mots et non-mots). Laufer (1997),

pour sa part, identifie une série de facteurs linguistiques influençant l"acquisition du lexique, parmi lesquels la familiarité

des phonèmes, la régularité dans la prononciation, la cohérence graphème-phonème, la transparence morphologique ou la

polysémie. Potentiellement, ces facteurs contribuent tous à la façon dont les mots sont perçus.

Les répercussions de ces travaux sont d"abord théoriques, aidant, par exemple, à comprendre l"organisation du lexique

mental et comment il se distribue dans les différentes zones du cerveau. D"un point de vue plus pratique, certaines de ces

études ont cependant débouché sur la construction de listes utilisées pour l"enseignement des langues. Plus récemment,

la question de l"évaluation de la difficulté lexicale a fait l"objet d"un intérêt grandissant dans le domaine du traitement

automatique des langues (TAL) et, en particulier, en simplification automatique de textes. Dans ce domaine, le but reste

d"identifier des termes et des structures difficiles à comprendre par un public cible et de proposer des outils de simplifica-

tion automatisée de ces contenus. Bien que la plupart des travaux en simplification de textes se focalisent sur des aspects

syntaxiques (par exemple (Chandrasekaret al., 1996)), certains auteurs ont mis en oeuvre des systèmes qui visent le traite-

ment du lexique. Dans ce cas, différents aspects doivent être pris en compte : (i) la détection des mots ou termes complexes

à remplacer, (ii) l"identification de substituts et (iii) l"adéquation au contexte. Ces trois aspects ne sont pas toujours pris

en compte de manière conjointe. Sous sa forme la plus simple, la substitution lexicale se fait en fonction de la fréquence

des synonymes extraits d"une ressource comme WordNet, sans prise en compte du contexte (Carrollet al., 1998). Ré-

cemment, des travaux ont fait appel à des corpus comparables comme Wikipedia et sa version simplifiée pour l"anglais

(Simple English Wikipedia) pour acquérir des ressources utiles pour la simplification lexicale : ainsi, Biranet al.(2011)

proposent une mesure de la complexité d"un mot qui est fonction de sa fréquence dans les deux versions de Wikipedia

et de sa longueur. D"une manière générale, les critères utilisés pour sélectionner le meilleur substitut restent relativement

simples. Pour la tâche de simplification lexicale organisée lors de la campagne SemEval 2012 (Speciaet al., 2012), la

baselinecorrespondant à une simple mesure de fréquence dans un gros corpus n"a été battue que par un seul système.

Ce résultat rend compte de la difficulté de la tâche : même si les travaux en psycholinguistique ont mis en évidence des

facteurs complexes, leur intégration dans des systèmes automatisés n"est pas encore résolue.1. Par exemple "fourchette", "coude", etc.

[O-L1.2]

93TALN 2014

3 Exploitation de ressources existantes

Pour réaliser les différentes expériences présentées dans cet article, nous avons eu recours à un ensemble de ressources qui

ont été utilisées en vue de deux objectifs : certaines ressources lexicales ont servi de liste de référence pour l"apprentissage

du modèle, tandis que les autres ressources ont été employées pour récupérer diverses informations linguistiques utilisées

dans nos variables.

3.1 Ressources d"apprentissage

Pour entraîner un modèle statistique capable de prédire ou comparer la difficulté de mots, il importe de disposer d"un

nombre suffisant de mots dont la difficulté est connue et exprimée en fonction d"une unité pratique. En psycholinguistique,

il est commun d"associer le temps de réponse nécessaire pour réaliser une tâche associée à un mot à la difficulté de ce

mot (Ferrand, 2007). Cependant, cette approche nécessite de disposer d"un nombre important de sujets et de moyens,

en particulier lorsqu"on envisage un large vocabulaire. C"est pourquoi nous avons choisi de constituer notre ressource

d"entraînement d"une autre façon : en nous basant sur l"association des mots à des niveaux scolaires déterminés, calculés

sur la base de l"apparition de ces mots dans des manuels scolaires. Notre hypothèse est qu"un mot facile apparaîtra en

général plus tôt dans les manuels scolaires qu"un mot plus complexe. Par chance, il existe deux ressources pour le français

qui recensent les mots utilisés dans des manuels scolaires de différents niveaux, à savoir Manulex (Létéet al., 2004) et

FLELex (Françoiset al., 2014).

Manulex

2a été créée à partir de 54 manuels scolaires (pour un total de 1,9 millions d"occurrences). Il décrit la distribution

d"unités lexicales en fonction de leur apparition dans des manuels qui ont été classés en trois niveaux : (1) la première

année de primaire ou CP (6 ans), (2) la deuxième année ou CE1 (7 ans) et (3) une catégorie qui regroupe les trois

années suivantes (CE2-CM2, 8-11 ans). Ce choix se justifie en termes de volume d"acquisition de vocabulaire : au CP, se

construit le lexique de l"enfant sur la base de la médiation phonologique; au CE1, se construit le lexique orthographique

par automatisation progressive de la reconnaissance du mot écrit et au cycle 3, le stock lexical se consolide et s"enrichit par

exposition répétée à l"écrit

3. La ressource, librement disponible, totalise 23 812 lemmes, mais nous n"avons conservés

que les mots lexicaux (noms, adjectifs, adverbes et verbes), ce qui réduit le nombre de lemmes à 19 038. Il faut aussi

signaler que les fréquences associées à chaque mot de la ressource ne correspondent pas aux valeurs absolues observées

dans les manuels, mais à des valeurs adaptées en fonction d"un indice de dispersion qui augmente l"importance des termes

en fonction du nombre de documents dans lesquels ils sont apparus. La Figure 1 présente un exemple d"entrées issues de

Manulex.lemmePOSFréq. N1Fréq N2Fréq. N3

pommeN724306224 vieillardN-1368 patriarcheN--1 cambrioleurN2-33

TABLE1 - Exemple d"entrées de Manulex

FLELex, quant à lui, a été obtenu à l"aide d"une méthodologie similaire, mais sur la base d"un corpus de 28 manuels de

français langue étrangère (FLE) et de 29 livres simplifiés également destinés à des lecteurs en FLE. Ces ouvrages étaient

classés selon l"échelle de difficulté proposée par le cadre européen commun de référence pour les langues (Conseil de

l"Europe, 2001) ou CECR, qui définit six niveaux de maîtrise communicationnelle : A1 (niveau introductif ou de survie);

A2 (niveau intermédiaire); B1 (niveau seuil); B2 (niveau avancé ou utilisateur indépendant); C1 (niveau autonome ou

de compétence opérationnelle effective) et C2 (maîtrise). La ressource totalise 14 053 lemmes lexicaux et 183 lemmes

grammaticaux, dont les fréquences ont été estimées sur 777 835 occurrences.

Dans les deux cas, et comme le montre la Table 1, le problème de ces ressources par rapport à notre propre objectif de

recherche est qu"elles offrent la distribution des fréquences de chaque mot par niveau, mais n"associent pas strictement un

mot à un niveau donné. C"est pourquoi nous avons dû transformer ces distributions en un niveau. Trois techniques ont été

testées pour ce faire. La plus simple d"entre elles consiste à attribuer à un mot le premier niveau où il a été observé dans

le corpus. Ainsi pour Manulex,pommeetcambrioleurse voient attribuer le niveau 1, tandis quepatriarcheest associé au2.http://www.manulex.org

[O-L1.2]

niveau 3. On comprend aisément que cette façon de faire, qui assimile la distribution depommeà celle decambrioleur

n"est pas optimale. C"est pourquoi nous avons également considéré chaque distribution comme une série statistique (ex.

aux trois niveaux scolaires, voir Table 1) et pris comme valeur représentative soit son premier quartile, soit sa moyenne

(ce qui donne alors une échelle continue, comprise entre 1 et 3 pour Manulex et 1 et 6 pour FLELex).

3.2 Ressources pour l"extraction de variables

Pour l"extraction de variables, nous avons mobilisé plusieurs ressources contenant différentes informations linguistiques.

Leur usage particulier au sein de nos variables est décrit plus en détail dans la section 4, cette section présentant ces

ressources de façon plus générale.

La première d"entre elles est Lexique 3

4(Newet al., 2001). il s"agit d"une ressource librement accessible qui contient

un grand nombre d"informations linguistiques (transcription phonétique, structure syllabique, flexion, etc.) et statistiques

(nombre de phonèmes, de syllabes, de morphèmes, fréquence dans des corpus de livres et de sous-titre de films, etc.). Elle

contient 142 728 mots correspondant à 47 342 lemmes.

Polymots

5(Gala & Rey, 2008) est un lexique morphologique. Les mots ont été segmentés morphologiquement en bases

et affixes, des informations sur les familles morphologiques et sur des unités de sens associées sont également disponibles.

La version 3 contient 19 510 lemmes et 2 364 familles. La segmentation morphologique et le regroupement en familles ont

été effectués manuellement, ce qui a comme répercussion une couverture assez faible (par rapport à d"autres ressources

comme Lexique3, par exemple). Ainsi, l"intersection entre Manulex (restreint aux mots lexicaux) et Polymots est de

55,75 %, c"est-à-dire qu"il y a 10 614 mots communs entre les deux ressources

6. De ce fait, nous avons décidé d"utiliser

une méthode par apprentissage non supervisé pour l"obtention des variables morphologiques. Les lemmes de Polymots,

tout comme ceux de Morphalou 2.0 (Romaryet al., 2004), nous ont servi à enrichir notre corpus d"apprentissage pour

l"analyse morphologique.

Nous avons également utilisé un corpus issu d"enregistrements de patients atteints de la maladie de Parkinson (2 271

formes pour 373 lemmes). Il s"agit d"une vingtaine d"enregistrements (correspondant à une tâche de description d"une

image de la vie quotidienne) de patients en état "off", c"est-à-dire, sans médicaments qui pourraient inhiber les effets de

la maladie sur la parole. Nous nous sommes intéressés à ce type de parole pathologique car la maladie de Parkinson, bien

qu"elle soit plus connue pour des symptômes moteurs (tremblements, rigidité musculaire, etc.), entraîne également des

difficultés au niveau de la parole (Pintoet al., 2010). Par conséquent, nous postulons que ce type de parole pathologique

peut être représentative d"une langue plus simple et donc d"un lexique plus simple. La classification que nous proposons

des structures syllabiques (variable 8, section 4) est issue d"observations faites sur ce corpus. Les données de ce corpus

ont aussi servi à enrichir le corpus d"apprentissage pour l"extraction des informations morphologiques.

7(Lafourcade,2007)

et BabelNet (Navigli & Ponzetto, 2010). JeuxdeMots contient à ce jour 314 494 termes, dont 136 421 ont au moins une

relation de type idée associée (synonymie, hyperonymie, etc.). Des 19 037 lemmes de Manulex, 6 068 sont étiquetés

comme polysémiques (31,2%). Nous avons utilisé cette ressource pour extraire des synonymes pour les mots de Manulex.

Quant à BabelNet, il s"agit d"un réseau multilingue construit à partir de WordNet et Wikipédia. Nous avons utilisé les

informations sur les 23 242 lemmes du français, en particulier le nombre de synsets associés.

4 Analyse de variables pour caractériser la complexité lexicale

4.1 Typologie

Dans cette section nous introduisons un ensemble de variables présentées ci-dessous. Nous mettons l"accent (en gras)

sur les variables morphologiques et sémantiques, qui constituent les deux apports principaux de cet article par rapport à4.http://www.lexique.org/

5.http://polymots.lif.univ-mrs.fr

6. À la base, Polymots ne contient pas des mots composés ("mainmise"), ni des noms avec tiret ("amour-propre"), des mots originaires d"autres

langues ("mortadelle"), des mots grammaticaux ("tellement") ou encore des mots techniques ("dyoxide"). La création manuelle ainsi que l"écart de ces

mots justifient sa faible couverture par rapport à Manulex

7.http://www.jeuxdemots.org/

[O-L1.2]

95TALN 2014

des approches proches dans ce domaine (Galaet al., 2013). C"est pourquoi, la section 4.2 est consacrée à la description

détaillée de l"implémentation des variables morphologiques, les autres étant directement décrites dans la liste ci-dessous.

4.1.1 Critères orthographiques

1.Nombre de lettres: nombre de caractères alphabétiques dans un mot;

2.Nombre de phonèmes: pour calculer le nombre de phonèmes dans un mot, un système mixte a été mis en place.

Pour les mots présents dans Lexique3, nous avons simplement récupéré l"information issue de cette ressource.

Pour les mots absents de Lexique3, nous avons généré leur représentation phonétique au vol viaeSpeak8;

3.Nombre de syllabes: comme pour le nombre de phonèmes, le nombre de syllabes d"un mot a soit été récupéré

directement dans Lexique3, quand l"information était disponible, soit a été calculé automatiquement en deux

étapes. Tout d"abord, la forme phonétique a été générée (comme au point précédent), avant d"y appliquer l"outil

de syllabification de Pallier (1999);

4.Voisinage orthographique: les informations concernant le nombre ou la fréquence des voisins orthographiques9

proviennent également de Lexique 3 et nous les avons déclinées en 3 variables : (4a) nombre de voisins, (4b)

fréquence cumulée de tous les voisins, (4c) nombre des voisins les plus fréquents;

5.Cohérence phonème-graphie: le nombre de phonèmes et de lettres dans un mot ont été comparés sur la base de

la classification suivante : 0 pour l"absence de différence (c"est-à-dire, une transparence parfaite), par exemple

abruti[abRyti]; 1 pour une différence de 1 ou 2 caractères, par exempleabriter[abRite]; 2 pour une différence

supérieure à 2 caractères, par exemple danslentement[l@t-m@]10;

6.Patrons orthographiques: 5 variables ont été définies autour de la présence de graphèmes complexes dans les

mots, à savoir (6a) des voyelles orales (par ex. "au" [o]), (6b) des voyelles nasales (par ex; "in" [E]), (6c) des

doubles consonnes (par ex. "pp"), (6d) des doubles voyelles (par ex. "éé"), (6e) ou encore des digrammes (par ex.

"ch"[S]);

7.Structure syllabique: trois niveaux de complexité pour les structures syllabiques présentes dans les mots ont

été définis sur la base des fréquences de ces structures dans le corpus de parole " simple » Parkinson : (7a) les

structures les plus fréquentes

11(CYV, V, CVC, CV), (7b) les structures relativement fréquentes (CCVC, VCC,

VC, YV, CVY, CYVC, CVCC, CCV), (7c) et les structures peu fréquentes (combinaisons de plusieurs consonnes,

par exemple CCCVC);

4.1.2 Critères morphologiques

8.Nombre de morphèmes: nombre total de préfixes, suffixes et de bases dans le mot;

9.Fréquence minimale des affixes (préfixes et suffixes): nombre de mots différents (types) dans lesquels apparaît

le préfixe / suffixe le moins fréquent;

10.Fréquence moyenne des affixes (préfixes et suffixes): moyenne des fréquences absolues des préfixes / suffixes;

11.Préfixation: attestation ou non de la présence de préfixes;

12.Suffixation: attestation ou non de la présence de suffixes;

13.Composition: attestation ou non de la présence de deux bases ou plus;

14.Taille de la famille morphologique: voir section 4.2;

4.1.3 Critères sémantiques

15.Polysémie selon JeuxdeMots: booléen indiquant si le mot est polysémique ou non;

16.Polysémie selon BabelNet: nombre de synsets répertoriés dans BabelNet;8. http ://espeak.sourceforge.net

9. Les voisins orthographiques regroupent l"ensemble des mots de même longueur ne se différenciant que par une seule lettre tels que, pour SAGE,

les mots MAGE, SALE, etc.).

10. La transcription est celle de Lexique 3 qui utilise l"alphabet SAMPA (Speech Assessment Methods Phonetic Alphabet).

11. La notation utilisée est la suivante : C pour consonne, V pour voyelle, Y pour les glides[j],[w]et[4].

[O-L1.2]

4.1.4 Critères statistiques

17.Fréquence dans Lexique3: logarithme des fréquences extraites de Lexique3 (calculées à partir d"un corpus de

sous-titres de films). Pour traiter les mots absents de la ressource, nous avons appliqué un algorithme de lissage

par Good-Turing (Gale & Sampson, 1995) afin d"attribuer une log-probabilité très petite par défaut à ces termes

hors vocabulaire ;

18.Présence/absence dans la liste de Gougenheim: pour chaque mot, un booléen indique s"il appartient ou non à la

liste duFrançais Fondamentaldans sa version longue (qui comprend 8 875 lemmes). Comme il est bien connu en

quotesdbs_dbs47.pdfusesText_47

[PDF] liste des prépositions en anglais pdf

[PDF] liste des prépositions en français pdf

[PDF] liste des prepositions grammaire

[PDF] liste des présidents africains actuels pdf

[PDF] liste des principaux préfixes et suffixes

[PDF] liste des principaux préfixes et suffixes pdf

[PDF] liste des problemes de santé

[PDF] liste des produits d'entretien

[PDF] liste des propositions subordonnées

[PDF] liste des risques environnementaux

[PDF] liste des risques professionnels document unique

[PDF] liste des risques professionnels par métier

[PDF] liste des rythmes musicaux

[PDF] liste des sensations sentiments

[PDF] liste des soldats français morts en algérie

[PDF] Un modèle pour prédire la complexité lexicale et graduer les mots

Núria Gala

1Thomas François2Delphine Bernhard3Cédrick Fairon2

1 Introduction

2 État de l"art

93TALN 2014

3 Exploitation de ressources existantes

3.1 Ressources d"apprentissage

FLELex (Françoiset al., 2014).

Manulex

2a été créée à partir de 54 manuels scolaires (pour un total de 1,9 millions d"occurrences). Il décrit la distribution

3. La ressource, librement disponible, totalise 23 812 lemmes, mais nous n"avons conservés

Manulex.lemmePOSFréq. N1Fréq N2Fréq. N3

TABLE1 - Exemple d"entrées de Manulex

3.2 Ressources pour l"extraction de variables

La première d"entre elles est Lexique 3

4(Newet al., 2001). il s"agit d"une ressource librement accessible qui contient

Polymots

5(Gala & Rey, 2008) est un lexique morphologique. Les mots ont été segmentés morphologiquement en bases

55,75 %, c"est-à-dire qu"il y a 10 614 mots communs entre les deux ressources

6. De ce fait, nous avons décidé d"utiliser

7(Lafourcade,2007)

4 Analyse de variables pour caractériser la complexité lexicale

4.1 Typologie

5.http://polymots.lif.univ-mrs.fr

6. À la base, Polymots ne contient pas des mots composés ("mainmise"), ni des noms avec tiret ("amour-propre"), des mots originaires d"autres

7.http://www.jeuxdemots.org/

95TALN 2014

4.1.1 Critères orthographiques

1.Nombre de lettres: nombre de caractères alphabétiques dans un mot;

2.Nombre de phonèmes: pour calculer le nombre de phonèmes dans un mot, un système mixte a été mis en place.

3.Nombre de syllabes: comme pour le nombre de phonèmes, le nombre de syllabes d"un mot a soit été récupéré

4.Voisinage orthographique: les informations concernant le nombre ou la fréquence des voisins orthographiques9

5.Cohérence phonème-graphie: le nombre de phonèmes et de lettres dans un mot ont été comparés sur la base de

6.Patrons orthographiques: 5 variables ont été définies autour de la présence de graphèmes complexes dans les

7.Structure syllabique: trois niveaux de complexité pour les structures syllabiques présentes dans les mots ont

11(CYV, V, CVC, CV), (7b) les structures relativement fréquentes (CCVC, VCC,

4.1.2 Critères morphologiques

8.Nombre de morphèmes: nombre total de préfixes, suffixes et de bases dans le mot;

9.Fréquence minimale des affixes (préfixes et suffixes): nombre de mots différents (types) dans lesquels apparaît

10.Fréquence moyenne des affixes (préfixes et suffixes): moyenne des fréquences absolues des préfixes / suffixes;

11.Préfixation: attestation ou non de la présence de préfixes;

12.Suffixation: attestation ou non de la présence de suffixes;

13.Composition: attestation ou non de la présence de deux bases ou plus;

14.Taille de la famille morphologique: voir section 4.2;

4.1.3 Critères sémantiques

15.Polysémie selon JeuxdeMots: booléen indiquant si le mot est polysémique ou non;

16.Polysémie selon BabelNet: nombre de synsets répertoriés dans BabelNet;8. http ://espeak.sourceforge.net

9. Les voisins orthographiques regroupent l"ensemble des mots de même longueur ne se différenciant que par une seule lettre tels que, pour SAGE,

10. La transcription est celle de Lexique 3 qui utilise l"alphabet SAMPA (Speech Assessment Methods Phonetic Alphabet).

11. La notation utilisée est la suivante : C pour consonne, V pour voyelle, Y pour les glides[j],[w]et[4].

4.1.4 Critères statistiques

17.Fréquence dans Lexique3: logarithme des fréquences extraites de Lexique3 (calculées à partir d"un corpus de

18.Présence/absence dans la liste de Gougenheim: pour chaque mot, un booléen indique s"il appartient ou non à la