[PDF] [PDF] Classification automatique de dictées selon leur niveau de difficulté

dictée est de devoir percevoir du code oral et de le retranscrire via le code écrit À savoir les dictées du Balfroid, de la Fondation Paul Gérin-Lajoie, du Lions 



Previous PDF Next PDF





[PDF] Recueil de dictées - Fondation Paul Gérin-Lajoie

Recueil de dictées Niveau : 1re année Niveau : 2e année http://fondationpgl ca/audio/dictee © 2013 La Fondation Paul Gérin-Lajoie Tous droits réservés



[PDF] Classification automatique de dictées selon leur niveau de difficulté

dictée est de devoir percevoir du code oral et de le retranscrire via le code écrit À savoir les dictées du Balfroid, de la Fondation Paul Gérin-Lajoie, du Lions 



[PDF] BOITE À IDÉES - Centre de services scolaire de Laval

FONDATION PAUL GÉRIN-LAJOIE : Ce site permet d'écouter des dictées et de pratiquer une démarche de correction Les dictées sont adaptées pour les élèves de secondaire 1 et 2 AMUSEZ- VOUS Elles sont tirées du recueil Dictées



[PDF] Le retour des méduses - UQAM

La Fondation de l'UQAM est fière de souligner l'initiative des étudiants des cours dictée P G L , l'un des volets de la fondation, a rejoint La dictée de pauL gérin-Lajoie Book of Poetry/Recueil de poésie, ont remporté ex-æquo le premier



[PDF] DOSSIER SPéCIAL éTHIQUE ET CULTURE RELIGIEUSE

Des recueils de dictées pour travailler avec vos Recueil de dictées pour accompagner Depuis plus de 30 ans, la Fondation Paul Gérin-Lajoie s'investit pour 



[PDF] 16MB - UNIVERSITÉ DU QUÉBEC MÉMOIRE PRÉSENTÉ À L

comité préconise la fondation d'écoles normales, d'un bureau Une ardoise encadrée servait à s'entraîner, à prendre les dictées et à inscrire Plus tard, Paul-Gérin Lajoie, alors ministre libéral de la Jeunesse, RECUEIL PÈRIODUlUE a -

[PDF] Dictées et Histoire des arts

[PDF] Dictée de syllabes fiches période 1 3ème - GRe10

[PDF] Liste des mots difficiles

[PDF] ENGLISH-ARABIC DICTIONARY

[PDF] قاموس اكسفورد The Oxford English - Arabic Dictionary

[PDF] Oxford and the Dictionary - Oxford English Dictionary

[PDF] English–French Glossary — Lexique Anglais - Social Security

[PDF] Download Books English To French Dictionary Free , Download

[PDF] Oxford and the Dictionary - Oxford English Dictionary

[PDF] Dictionnaire Ados Francais PDF - Telecharger, Lire - taugatafodi

[PDF] Dictionnaire français-anglais des ressources humaines1

[PDF] Dictionnaire anglais/français - The Linux Documentation Project

[PDF] Lexique trilingue de l'assurance - Office québécois de la langue

[PDF] BIOLOGIE

[PDF] Dictionnaire de biologie francais-anglais PDF - Telecharger, Lire

[PDF] Classification automatique de dictées selon leur niveau de difficulté Classificationautomatiquede dictéesselonleur niveau dedifficultéde compréhensionet orthographique

AdelineMüller

1

ThomasFrançois

1,2

SophieRoekhaut

1

CédrickFairon

1 (1)CENTAL, IL&C,UCL,1348Louvain-la-Neuv e,Belgium (2)Chargé derechercheFNRS

RÉSUMÉ

Cetarticleprésente uneapprochevisant àévaluer automatiquementladif ficultéde dictéesenvue de

lesintégrerdans uneplateformed'apprentissage del'orthographe.La particularitédel'e xercice dela

dictéeestde dev oirpercev oirducodeoraletdeleretranscrirevia lecodeécrit.Nousenvisageons cedoubleni veaude difficultéàl'aidede375variablesmesurant ladifficulté decompréhension d'untexte ainsiquelesphénomènesorthographiqueset grammaticauxcomplex esqu'ilcontient. Un sous-ensembleoptimalde cesv ariablesestcombiné àl'aided'un modèleparmachinesàvecteurs desupport(SVM) quiclassecorrectement 56%deste xtes.Lesv ariablesle xicalesbaséessur laliste orthographiquedeCatach (1984)serévèlent lesplusinformati vespour lemodèle.

ABSTRACT

Automaticclassificationofdictationsaccording totheircomplexity forcompr ehensionand writingproduction. Thispaperintroduces ane wapproachthat aimstoautomatically assessthedifficultyofte xtsintended tobedictation exercises withina weblearningplateform.Themostremarkablefeatureaboutthe dictationex erciseisthewrittentranscriptionofapercei vedoral code.To modelthisprocess, wetake intoaccount375 featuresaimingat measuringthedif ficultyof atext atthe comprehensionlev elas wellasat thespellingand grammaticalle vel.Based onanoptimal subset offeatures,threesupport vectormachine(SVM)modelsare trained,thebest ofwhichis ableto correctlyclassify56% ofthe dictations.Themost predictive featuresarethose basedontheCatach(1984)'sword list. MOTS-CLÉS:dictée,lisibilité,orthographe, ALAO.

KEYWORDS:dictation,readability, spelling,CALL.

1Introduction

Malgrélesnombreux débatsdont elleaf aitl'objet,la dictéeresteune activitéincontournable à

l'école(Delabarre& Devillers, 2015).Lesmanuels etlesprogrammesproposentdèslors différents typesdedictées, essayantdemettre envaleur cetteactivité commeun apprentissagepermettant auxélèv esd'êtreacteursetnonseulement "copistes» (Brissaud& Mortamet,2015).T outefois,la dictéecommeacti vitédedrill restenécessaireaurenforcementdesapprentissages etgagnerait à

êtreautomatiséeafin delibérer dutempsd'enseignement pourdesacti vitésplusréfle xives. C'est

Actesdela conférenceconjointe JEP-TALN-RECITAL 2016,volume2:TALN 372
unobjectifqui entredansle cadredel'enseignement deslanguesassisté parordinateur(ELA O)et

dutraitementautomatique dulangage (TAL)et quiadéjà étéabordéàplusieursreprises ausein

decesdomaines (SantiagoOriola,1998; Ruggia,2000;Beaufort &Roekhaut,2011). Parmices

travaux,leseffortsontsurtout portésurl'implémentation d'uneméthodepréciseetpédagogiquede

correctionautomatique desdictées.Notrearticles'attaqueà uneautref acettede l'automatisationdes

dictées,àsa voirla sélectiondesdictées.Silesenseignantssontgénéralementcapables desélectionner

untexte àdicteradaptéàleurpublic, uneplateformed'apprentissage automatiséerequiert,de son

côté,dedisposer d'uncorpus detextes, préalablementannotéselon leniv eaudedif ficultépardes

experts.Cettecaractéristiquelimitel'adaptabilité dece typedesystème, qui,pare xemple,ne pourra

sélectionnerdeste xtesd'actualité ouadaptésauprofild'unapprenant entermesde connaissances grammaticalesouthématique quesisa basededictées encontient.C'est pourquoicet articleexplore lespossibilitésde déterminerautomatiquementle niveau dedifficulté d'unedictée.

L'articleestarticuléentrois sectionsprincipales.T outd'abord,nous décrironslesétudes liéesà

l'évaluationdetexteset auxdifficultés orthographiques(Section2).Ensuite,nousprésenterons la

méthodologieutiliséepour élaborernotre modèle,endétaillant lecorpusutilisé, lesvariables mises

aupointpour capturerlesphénomènes orthographiquesardus,et lemodèlestatistique quisertà les

combiner(Section3). Enfin,lesrésultats obtenusseronte xposésetdiscutés àlasection 4.

2Contexte

Réaliserunedictée constitueunetâche particulièrementcomplex e,parcequ'elle nécessitedechanger

decanalde communication.Le texte,oralisé parunenseignant ouunagent informatique,doitêtre comprisettransposé parécritpar l'étudiant.Comme l'ontmontréSchelstraete &Maillart(2004), cepassagede l'oralvers l'écritconstitueune activitécogniti vecomplex e,quipeut entrainer,dans certainscas,une surchargecogniti ve,en raisondetroisgrandsfacteurs : - Leralentissementdu débitlors dupassageà l'écrit:cela supposequele scripteurdoitg arder enmémoiredif férentesinformationsassez longtemps. - Lecontrôlede l'activitégrapho-motrice :laréali sationgraphiqueelle-mêmepeutdemander denombreusesressources attentionnelles,en particulierchezles scripteursdébutants. - L'orthographe:gérerles problèmesd'orthographedemande defaire appelàdes ressources Selonlese xpériencesdeBourdin (1994),lesdeuxderniersf acteurssontles pluspr oblématiques,

mêmepourles scripteursadultes. Sil'évaluation del'activité grapho-motricesortdu champdenotre

étude,notremodèle viseparcontre àprendreen considérationlesdeux autresaspects.

Lepremierd'entre euxpeut êtreassociéà lacapacitéde compréhensiond'unte xteetà sareprésenta-

tionen mémoire.Ladiscipline quiviseà évaluerautomatiquement ladiffi cultédecompréhension

d'untexte estlalisibilité.De nombreuxtrav auxontporté surl'évaluationautomatiquedela difficulté

destextes àlalecture.Pourl'anglais,on comptedes formulesbienconnues tellesque cellesdeFlesch (1948),deDale &Chall(1948) ou,plusrécemment, deCollins-Thompson& Callan(2005),Feng etal.(2010)ouV ajjala&Meurers (2012).Tandisquelespremières sebasent surdesv ariablessimples (nombredemots, etc.),lessecondes s'appuientsurdes techniquesdeT ALet combinentunnombre plusimportantde variablesde différentsni veauxlinguistiques(lexical,syntaxique, sémantiqueou discursif).Pourle français,lesformules deKandel& Moles(1958)et Henry(1975)sont plutôt Actesdela conférence conjointeJEP-TALN-RECIT AL2016,volume2:T ALN 373

typiquesducourant classique,tandisque desmodèlesreposant surleT ALont étédéveloppés par

François&F airon(2013)ou Dascalu(2014).Bienquelalisibilité prenneaussien comptelaphase dedécodagedu codegraphique,absent dansnotrecas, nouspensonsque cetypede varia blespourrait

êtretransposépour évaluerle niveau decompréhensibilitédenosdictées,d'autant que,à notre

connaissance,iln'e xistepasde recherchesspécifiquementdédiéesàl'évaluation automatiquedu

niveaudecomplexitédedictées.

Quantàla secondedimension, quiconsisteà déterminerlacomple xitédesdif férentsphénomènes

orthographiquesetgrammaticaux présentsdansune dictée,onpeut sereposer surdenombreux travauxenlinguistiqueetenpédagogie. Danslecadre decetarticle, l'accentestprincipalement

missurles difficultésorthographiques décritesd'aprèsle plurisystèmegraphiquedufrançaisde

Catach(1978).Son systèmeorg anise,encercles concentriques,lesgraphèmes denotresystème graphique.Aucentre setrouv entlesarchigraphèmes, quisonttransparents etsimplesàappréhender,

maispluson s'éloigneducentre, plusonrencontre desphénomènescomple xes,qui nousintéressent

plusparticulièrement.On trouveainsi lesclassesdes morphogrammes(lesmarquesdeflexion etde dérivation),deslogogrammes(représentationsgraphiques diverses pourunemême prononciationet

nonjustifiéespar lesystème), etleslettres étymologiquesethistoriques. Lesystèmede NinaCatach

esttoujoursutilisé dansdenombreuses recherchesaujourd'hui.Il estconsidérécomme l'undes modèlesayantpermis dechanger lereg ardsurl'orthographe, selonAngoujard(2001).

Enparallèle,Nina Catachpropose égalementune grilled'év aluationdesdifficultésqui sebasesurson

système(Catach,1980). Elleorg aniseleserreurs enplusieursclasses, allantdeserreursàdominante phonétique(casoù l'enfantne maitrisepasencore laprononciationd'unmot,qu'ilne peutdonc pas retranscrirecorrectement)jusqu'aux erreursàdominante nonfonctionnelle(associées auxlettres étymologiquesethistoriques). Cesontles erreurslesplus complex esquinous intéressentdanscet article.

3Méthodologie

Danscettesection, nousprésentons laf açondontle corpusdedictéesservantpour l'entrainement

dumodèlestatistique aétécollecté (section3.1). Lasection3.2 listeensuiteles variablesvisant

àcapturerles difficultésde compréhensionetles difficultésorthographiquesetgrammaticales des

textes.Enfin,nousdécriv ons,àla section3.3,le modèlestatistiqueutilisépourprédireleniveau de

difficultédesdictées.

3.1Collectedu corpus

Pourentrainernotre modèleprédisantla difficultédes dictées,ilétait nécessairede disposerd'un

corpusde dictéesdéjàclassées parniv eaux.Nousa vonscollecté desdictéesdepuis différentssites

internetderéférence quipeuvent êtreregroupées endeuxcatégories :lesdictéesdeconcours et

lesdictéesd'apprentissage. Lesdictéesde concoursontété reprisesdedi vers concoursorg anisés

danslafrancophonie 1 .Bienque cesdictéesrisquent demodifier lacohérencedes niveaux, en élevantsacomplexité,ilestintéressant delesconserv erdanslecorpus,caril s'agitd'uneautre

1.Àsa voirles dictéesduBalfroid,delaFondationPaul Gérin-Lajoie,duLions ClubGembloux, duchampionnatde

Belgique,d'Orthosport,des Dicosd'or ,duchampionnat suissed'orthographe,du championnatduCameround'orthographe,

desTimbrés del'orthographe,duCampusEiffel, delagrande dictéeEric-F ournieretde ladictéedes Amériques.

Actesdela conférence conjointeJEP-TALN-RECIT AL2016,volume2:T ALN 374
visiondel'orthographe etcertainesdif ficultéspeuvent êtreabsentesdes textes lesplussimpleset

surreprésentéesdansles pluscomplex es.Quantaux dictéesd'apprentissage,ces dernièresproviennent

duBescherelle,de manuelsd'orthographe sursupportinformatisé, etpeuvent parfoisêtreciblées sur

unedifficulté.

NiveauConcoursApprentissage

Primaire88114

Fin3 e secondaire14153 Fin6 e secondaire28125

Expert8335

TABLE1-Descriptif ducorpus: nombredete xtesparni veauet partypede dictées.

Cesdictéesont étéclassées enquatrecatégories, ensuiv antlesindications deniv eauprésentessur

chacundessites consultés.Ces 4catégoriescorrespondent àdes" niveaux »scolairesbelges :(1)

findesprimaires, (2)finde la3 e secondaire,(3)fin dela6 e secondaireet(4) unniv eauexpert, qui

correspondàdes dictéesplutôt destinéesà unpublicuni versitaire. Latable1décritladistrib utiondes

dictéessurles 4niv eauxeten fonctiondeleur type(concoursouapprentissage).

3.2Variables

Unefoisle corpusconstitué,nous noussommespenchés surl'identificationdes facteurs textuels susceptiblesd'influencer(1) labonne compréhensiond'unte xteet(2) saréalisationorthographique.

Pourlapremière dimension,nousnous sommesbaséssur lestrav auxen lisibilitéetnous avons repris

unensemblede variablesdestinées àévaluer lacomplexitéd'untexte àFrançois (2011).Celles-ci

sontsurtoutde deuxtypes: desvariables lexicales,comme lafréquencele xicale,la longueurdesmots ouladensité duvoisinage orthographique;et desvariables syntaxiques,incluantdesinformations surlaconjug aison,lalongueur desunitéssyntaxiquesetlesrati osdecatégories dudiscours.S'y

ajoutentquelquesv ariablessémantiques(cohésion moyenneinterphrastique)etdiscursiv es(présence

dedialogue),pour untotal de344v ariables.

Encequi concernelesv ariablesspécifiquesaux difficultés orthographiquesetgrammaticales typiques

desdictées,nous noussommes baséssurla littératuresurle sujet(cf.Section2),qui apermisde mettreena vantcinq famillesdevariablesàimplémenter: Leshomophones:ils'agit deprendreen compteladensité deshomophones,grammaticaux ou lexicaux,dansuntexte. Pluscelui-cicomporte d'homophones,plusil estsusceptibled'êtrecomplex e,

carlarésolution decesambigüités mobilisedav antagederessources cogni tiv es.Pourdétecter lesho-

mophones,nousa vonsmis aupointunelisted'homophonesgrammaticauxetuneliste d'homophones lexicauxennousbasantsur div erseslistestrouvées surinternet.Les critèresretenussont lenombre totald'homophones,le nombred'homophones lexicaux,le nombred'homophonesgrammaticaux, tousnormalisésen fonctionde lalongueurdu texte.

Lesparticipespassés :lesrègles d'accorddesparticipes passéssont connuespourêtre complexes en

français.Lesparticipes passéssontdistingués selonleur" catégorie»(emplo yéseul, avec être,av ec

avoiroupronominal).Denouveau,plus untexte comprenddeparticipes passés,plus sadifficulté

augmente,enparticulier sicesparticipes passésappartiennentaux catégories"emplo yésa veca voir»

Actesdela conférenceconjointe JEP-TALN-RECITAL 2016,volume2:TALN 375
ou"a vecunverbepronominal».Letaggerutilisé,TreeT agger(Schmid,1994), neprécisantpasle

typedeparticipe passé,des règlesontété développéespourlesdistinguer. Sontconsidérés comme

employésavec" avoir»ou"être»,les participespassésprécédésdecesdeuxauxiliairesdanslestrois

motsprécédantle participepassé.Pour lesparticipespassés pronominaux,lesrègles vérifientqu'a vant

leverbe "être»,ilya biendeuxpronoms (lesujetetlaparticulepronominale correspondante,oula simpleprésencede "se»). Tousles autrescassontconsidéréscommeétantseuls. Lesterminaisonsv erbaleshomophoniques :lesterminaisons verbalesles plusfréquentes sont aussilesplus complexes, carplusieursréalisations graphiquessontpossiblespourunmêmephonème. Lesterminaisons considéréessontcellesen[e],[E],[i],[˜o]et[y].Laterminaison en[e]ad'ailleurs

étéconsidéréepar Brissaudetal.(2006)commeune difficultétrès importantepourl'apprentissage

dufrançais.Pour chacunedes 5terminaisons,nous avons calculélerat iodunombre deverbes se terminantav eclaterminaisonsurlenombretotalde verbesdans ladictée. Lacorr espondancephonème-graphème:dansun systèmed'écriture" simple»,un phonème correspondàun seulgraphème. C'estparce stadeque passechaqueenf antquiapprend l'alphabet.

Malheureusement,lesystème dufrançais estloind'être aussisimple: àunphonème correspondent

plusieursgraphiesdif férentes.Ennous reposantsurlatypologiedeCatach (1978),nous avons défini unensemblede variablesqui prennentencompte lesgraphèmesflexionnelsdupluriel etdu féminin,

lesdoublesconsonnes etleslettres étymologiques(y, hetses dérivés). Lechoixde nemodéliserque

lesgraphèmesfle xionnelsetnon touslestypesdemorphogrammes(tels quelesdéri vés,par exemple)

estdûau faitqu'il s'agitsansdoute desélémentsquiprésenterontlesplus grossesdifficultés, etqui

sontaussiplus facilesà détecter. Lasimplicitédes mots:cette dernièrevariable s'intéresseauxmots considéréscommelesplus

simplesdela languefrançaise.Il s'agitd'unev ariableassezproche desvariables delisibilité reposant

quotesdbs_dbs2.pdfusesText_2