[PDF] Vers un treebank du français parlé



Previous PDF Next PDF







QUELQUES ASPECTS SOCIOLINGUISTIQUES DES LANGUES DES SIGNES

divergence entre les langues, ici, cette ancienneté se trouve considérablement suresti-mée » (HYMES, 1971 : 198 ) Les signes sont comparables aux mots des langues orales et la rapidité d'évolution des signes de base est comparable à celle observée pour les langues orales (GUDS-CHINSKY, 1964)



Minnesota Satisfactoriness scales PR SENTATION SEULEMENTdocx)

Avec tous ces éléments en tête, comment classeriez-vous cette personne par rapport aux autres dans l’entreprise qui font le même travail actuellement (ou, si elle est la seule personne à faire ce travail, comment se compare-t-elle avec ceux et celles qui ont fait le même travail qu’elle dans le passé)?



Résultats de l’IPS - World Bank

mathématiques a été de 78 pourcent, ce qui n’est pas loin du double du score national moyen de 45 pourcent Performance et absences des élèves §La performance des élèves malgaches en classe de huitième est comparable à celle de l’élève moyen de l’ensemble des pays IPS avec un score de 51 pourcent Ils ont eu une meilleure



Vers un treebank du français parlé

quettes morphologiques est relativement riche (218 catégories) alors qu’on compte 12 étiquettes de syntagmes et 8 étiquettes de fonctions Les choix généraux d’annotation reposent sur un schéma surfaciste d’annotation de constituants majeurs qui se veut compatible avec plusieurs théories syntaxiques



LA RÉPLICATION DE L’ADN

première étape de la réplication, qui est l’ouverture de l’hélice Plusieurs sous-unités de DnaA se lient aux 9mères Cette étape est indispensable à la transformation localisée de l’ADN double brin en ADN simple brin Cette étape facilite la liaison des protéines DnaB et DnaC qui ouvrent et déstabilisent l’hélice



LES INDICATEURS DE PERFORMANCE EN HOTELLERIE - RESTAURATION

9 A l’origine, ce terme est employé par les transporteurs pour désigner un passager ayant acheté un titre de transport mais qui se retrouve absent à l’embarquement Ce terme a été repris par les hôteliers pour désigner un client ayant réservé une chambre mais qui se retrouve absent lors la période de réservation



La diglossie au Maroc : un paradoxe culturel vers une

en plusieurs dialectes selon les régions 3 Première contradiction pour ce qui est de l’usage quotidien La La deuxième, et non la moindre, est la production écrite qui se partage entre arabe



Le Camp des justes - storagegoogleapiscom

quand il abordait l’actualité politique le « juste », c’est celui qui fait passer l’humanité avant les idées, les personnes avant les dogmes, politiques ou autres c’est la position la plus pénible, la plus complexe, la plus vulné-rable car le « juste » se retrouve avec de curieux compagnons

[PDF] ansm charte pour la communication et la promotion des produits de santé PDF Cours,Exercices ,Examens

[PDF] ansm publicité dispositifs médicaux PDF Cours,Exercices ,Examens

[PDF] antagoniste partiel PDF Cours,Exercices ,Examens

[PDF] Antecedant 3ème Mathématiques

[PDF] Antécedants 2nde Mathématiques

[PDF] antecedants et images 2nde Mathématiques

[PDF] Antécedants pour demain !!!!! 2nde Mathématiques

[PDF] Antécédent 2nde Mathématiques

[PDF] Antécédent 3ème Français

[PDF] Antecedent d'un nombre 3ème Mathématiques

[PDF] antécédent d'une fonction PDF Cours,Exercices ,Examens

[PDF] antecedent de PDF Cours,Exercices ,Examens

[PDF] antecedent de fonction par le calcul 2nde Mathématiques

[PDF] Antécédent et image d'un nombre par une fonction (Urgent) 3ème Mathématiques

[PDF] antécédent et image d'une fonction PDF Cours,Exercices ,Examens

Versuntreebankdufrançais parlé

AnneAbeillé

1,2

BenoitCrabbé

1,3 (1)LLF, CNRS-UniversitéParisDiderot,75013 Paris,PRES SorbonneParisCité,IUF (2)Alpage,INRIA, UniversitéParis Diderot,75013P aris,PRESSorbonne ParisCité

RÉSUMÉ

Nousprésentonsles premiersrésultatsd'un corpusarborépour lefrançaisparlé. Ila étéréalisé

danslecadre duprojet ANREtape(resp. G.Gravier)en 2011et2012. Contrairementàd'autres languescommel'anglais (voirle Switchboardtreebankde (Meteer,1995)),il n'existepasde grandcorpusoral dufrancaisannoté etvalidépour lesconstituantset lesfonctions syntaxiques. Noussouhaitonsconstruire uneressource comparable,quiserait uneextensionnaturelle du Corpusarboréde Paris7 (FTB:(Abeillé etal.,2003)))basé surdestextes dujournalLe Monde. Nousseronsainsi enmesure decomparer, avecdesannotations comparables,l'écritet l'oral.Les

premiersrésultats,qui consistentà réutiliserl'analyseurde (Petrovetal.,2006)entraîné sur

l'écrit,avecune phasede correctionmanuelle,sont encourageants.

ABSTRACT

Towardsatreebankofspoken French

Wepresentthefirstresults ofan attempttobuild aspokentreebank forFrench.It hasbeen conductedaspart ofthe ANRprojectEtape (resp.G.Gravier). Contrarytoother languagessuch asEnglish(see theSwitchboard treebank(Meteer,1995)), thereisno sizablespokencorpus for Frenchannotatedfor syntacticconstituents andgrammaticalfunctions. Ourprojectis tobuild sucharesource whichwillbe anaturalextension oftheP aris7treebank (FTB: (Abeilléetal.,

2003)))forwritten French,in ordertobe abletocompare withsimilarannotations writtenand

spokenFrench.W ehave reusedandadaptedtheparser(P etrovetal.,2006)which hasbeen trainedonthe writtentreebank,with manualcorrectionand validation.Thefirst resultsare promising. MOTS-CLÉS:Corpusarboré,français parlé,corpusoral, analysesyntaxiqueautomatique. KEYWORDS:Treebank,spokenFrench,spokencorpus, parsing.

1Introduction

Nousprésentonsles premiersrésultats d'uncorpusarboré pourlefrançais parlé.Ila étéréalisé

danslecadre duprojetANR Etape(resp. G.Gravier)entre 2010et2012. Lescorpusarborés (Treebank)pourlesautres languesontune partieécriteet unepartieorale :Penn Treebank (Switchboard(Meteer,1995)), Verbmobil pourl'allemand,Prague DependencyTreebankpourle tchèque(Mikulova,2008). Anotreconnaissance, iln'existepas degrandcorpus oraldu français

TALN-RÉCITAL2013,17-21Juin,LesSables d'Olonne

174c?ATALA

annotéetvalidé pourles constituantsetles fonctionssyntaxiques.Les corpusorauxannotés existantspourle françaissuiventdes schémasspécifiques: annotationenmicro etmacro syntaxe pourlecorpus Rhapsodie(cite Deulofeu2011),annotation endépendancesde (Cerisaraetal.,

2010),annotationen chunksdu corpusOtim(Blache etal.,2010)Nous souhaitonsconstruire

uneressourcequi soitune extensionnaturelledu Corpusarboréde Paris7 (FTB(Abeilléetal.,

2003))basésur destextes dujournalLeMonde.Nousserons ainsienmesure decomparer, avec

desannotationscomparables, l'écritet l'oral.Nousprocédons entroistemps :unephase de prétraitementavecponctuation etbalisagedes dysfluences,unephase d'analyseautomatique, unephasede correctionmanuelle.P ourla secondephase,nous avonsadaptéle parseurde (Petrovetal.,2006)entraîné surleFTB ;pourla troisièmephase,nous avonsadaptéet enrichi lesconsignesdu Corpusarboré deParis 7(Abeilleetal.,2013).

2Del'écrit àl'oral

Contrairementàd'autres languescommel'anglais (Switchboard(Meteer,1995)) iln'existepas de grandcorpusoral dufrançais annotéetvalidé pourlesconstituants etlesfonctions syntaxiques. Noussouhaitonsconstruire uneressource comparable,quiserait uneextensionnaturelle du Corpusarboréde Paris7 (FTB(Abeilléetal.,2003))basé surdestextes dujournalLeMonde.Une extensionàl'oral devraitpermettre àtermede menerdesétudes comparativessurdes données comparablesdela syntaxedu françaisécritet dufrançaisoral.

Lecorpusécrit estannoté lexicalement(lemme,catégories etsous-catégorieslexicales, morpho-

logieflexionnelle,mots composés),enconstituants etenfonctions eta étévalidémanuellement. Ilestdist ribué depuis2001etestaccompagnéd'unguided'annotation(135pp).Lejeu d'éti- quettesmorphologiquesest relativementriche (218catégories)alors qu'oncompte12 étiquettes desyntagmeset 8étiquettesde fonctions.Leschoix générauxd'annotationreposent surun schémasurfacisted'annotation deconstituants majeursquise veutcompatibleavec plusieurs théoriessyntaxiques.Contrairement auPenn Treebank(Marcus etal.,1993)le corpusfrançais necomportepas decatégoriesvides nideconstituants discontinus. Contrairementàd'autres initiativesd'annotationpour lefrançais(Deulofeu etal.,2010),et suivantencela lesinitiativespour d'autreslangues(Meteer, 1995;Mikulova,2008) lareprésen- tationdedonnées oralesproposée icireposesur l'hypothèsequela syntaxedela phraseorale nenécessitepas unréaménagement enprofondeurdu schémad'annotationde l'écrit,mêmesi desaménagementslégers sontnécessaires.Ce choixapour conséquencederendre disponible

l'outillagedéjàexistant (analyseurs,outils d'éditiondetreebank) pourfaciliteret accélérerle

travaild'annotation. Plusieursversionsdu FrenchT reebanksontactuellement utilisées(Schluteret vanGenabith,

2007;Blacheet Rauzy,2012).Nous nousappuyonssur lareprésentationsimplifiée décrite

notammentpar(Crabbé etCandito, 2008)quipermet l'analyseautomatiqueavec lesalgorithmes d'analyseenconstituants àl'étatde l'art.Enparticulier nousnousappuyons surun jeudecatégo- rieslexicalesréduit (28catégories)et unelistede motscomposésréduite auxmots composés grammaticaux.Cetteversion réduitea l'avantagedese convertirdemanière déterministevers unereprésentationen dépendancessyntaxiquesprojectives (Canditoetal.,2009)qui estde plusenplus utilisée.Annoteren constituantspermetdonc debénéficierdes deuxtypes de représentations.

175c?ATALA

3Les donnéesorales

Lesdonnéesorales quenous utilisonssontdes donnéesducorpus ESTER3issuesduprojet ETAPE (Gravieretal.,2012)dédié àl'évaluationde systèmesdereconnaissance automatiquedela

parole.Lesdonnées sontconstituéesd'extraits dedébats detélévisionet deradiofrançaises.

Lesdonnéesannotées iciconstituentun sous-ensembledece corpusconstituédes émissions radiophoniquesde FranceInterdel'année2010 :cinq émissionsdeuntempsde pauchonetune émissionduMasqueetla plume,cequi représenteprèsd'une heuretrente detempsde parole. Danslepremier casil s'agitd'interviewsnon préparéesdonnantla paroleàdes inconnus.Dans lesecond,il s'agitd'un débatpublictrès animéavecau moinsdixjournalistes surleplateau, plusdescommentaires despectateurs. Nousavonségalement unextraitdu corpusfrançais deCORAL-ROM(Crestietal.,2004).L 'extraitannoté estL'allumage(Poitiers2001).CORAL-ROM présenteuntype deconversation informeletspontané entredeuxamies :quireprésente 14 minutesdeparole. Lesdonnées deréférenceESTER3sonttranscritesorthographiquement, ponctuéesetenrichies avecunbalisage desdiffluences,selon leformattranscriber(Barras etal.,1998).De manièreà uniformisernosdonnées detravail,nous avonségalementrefor- matélesdonnées CORAL-ROMdanscemême format.Au vudel' extraitdonnéen Figure1,on

constatequeles donnéesde départsontdéjà structurées,enparticulier onobserveque l'onaun

balisagepourla musique etlesbruits parasites,unbalisage pourlesdisfluences commepourles marqueursde dis- cours maisaussiles répétitions,les révisions etleshésitations ainsiqu'unesegmentation entoursde parole.Ondistingue troistypes decaractéristiques desdonnéesorales quitouchentà lasegmentation,la présencede chevauchementsetà laprésencede disfluences. SegmentationNouspartonsici d'unetranscriptionenrichie, c'est-à-direavecdes ponctuations fortes,maisavec peudeponctuations faibles,etpas demotscomposés. Onvoitsur l'exemple qu'untourde paroleESTERpeutcomporterplusieurs phrasesouaucune. Onaégalement observé quecertainesphrases recouvrentplusieurstours deparole.On notefinalementque laponctuation renseignéedansles transcriptionsde départn'apas unstatutclair :lesannotateurs larenseignent plutôtpourindiquer despauses dansleflux deparoleque commemarquesyntaxique. C'est pourquoinousavons revulasegmentation manuellementavant l'analyseautomatique. LeschevauchementsOntrouveen particulierdansles transcriptionsduMasqueetla plume unnombrenon négligeablede chevauchements.Ceux-cisont annotésdansle formatESTERen suivantunschéma commeillustréen Figure1: oùlabalise XMLencodelaportée d'unchevauchement.L 'attributtypeindiquelelocuteur quidominel'échange parlavaleur primaryetceluique l'onentendmoins estrenseignépar lavaleurbackchannel. LesdisfluencesOutrelesquestions desegmentationet dechevauchements,les disfluencessont typiquesdel'oral. LatranscriptionESTERlesrenseignesous formedebalises XML,onrecense ainsiquatretypes dedisfluences: -Hésitations: euh

-Répétitionsquiconcernentla répétitionàl'identique :quiaretardé unpeunoscommen-

taires,quiavait étésérieusement amochéaumasqueet laPlume, aétébluffé parlejeu

deMorganFreeman. .. ) -Révisionsquiconcernentdes révisionsdeforme :lagrandiloquence,beaucoup d'auditeurs,autrechose qu'uneguerre

176c?ATALA

si ilyavait pasune route quidesservaitce terrain quoi nonily avait pasuneroute . FIGURE1-Extrait d'unfichierLe Masqueetla plumeauformat Transcriber -Marqueursdediscours quisont desmotsou deslocutionsqui ontunevaleur illocutoiresans avoirdefonction syntaxiquedans l'énoncécommepar exempleah,bref,maisbonvoilà, non nonnon,na nana. .. L'annotationdesmarqueursde discoursn'étantpas toujourscohérente,nous l'avonsreprise, avecuneliste de115marqueurs (simplesoucomposés). Enparticulierles connecteurs,les conjonctionsdecoordination endébut dephrase,ou lespronomsdisloqués, nesontpas traités commedesmarqueurs dediscours.De façongénérale, noustraitonsles balisesdediffluences commedesétiquettes desyntagmes,qui peuventavoirune structureinterne.

4Le schémad'annotation

Nousindiquonsdans cettesectionles lignesdirectriceset lesconventionsadoptées pourl'annota-

tionensyntaxe desdonnées del'oral.Le schémad'annotationest dérivéduschéma d'annotation

pourletreebank écrit(Abeilléetal.,2003). Onsupprimeles informationsayant traitaubruit etàla musiqueconsidéréescomme extra- linguistiques.Par contreonpréservelesbalisesde synchronisationavecla pistesonore, notées dansESTER3(Figure1) encodéespar dessous-arbresde racineSyncattachésavecles mêmesconventionsque lesdisfluences.Nous présentonsplusen détailsdansla suitede cette sectionleschoix quantà lasegmentationet àlagestion desdysfluences.

4.1Linéarisationet segmentationdesdonnées orales

Commepourl'écrit, unedes premièresdécisions àprendrelorsqu'on annoteuncorpus ensyntaxe portesurla segmentationenmots. Contrairementau corpusécrit,la segmentationpourle corpus oralminimisele nombrede motscomposés.Nous noussommespour celaappuyéssur lestravaux

177c?ATALA

antérieursde(Crabbé etCandito, 2008)enne retenantqu'unnombre minimaldemots composés, enparticulierdes motscomposés grammaticauxcommedes conjonctionsdesubordination, de coordinations,desdéterminants, prépositions.. .etquelques motscompo séspropresàl'oral n'est-cepas,s'il vousplaît, tantpis.. .quiontun impactsurla syntaxeetl'analyse delaphrase. Lalisteexacte desmotscomposés estdéfinieet documentéedans(Abeille etal.,2013). Nousnousappuyons égalementsurune segmentationenphrases, mêmesile choixde telou teldécoupagene vapasde soi.Plusieursnotions sontpossibles: unenotionphonétique oula phraseestdélimitée parladurée despauses,ce quiestle casde latranscriptionESTER3,une notiondialogiqueoù laphrase correspondàun tourdeparole, unenotiondiscursive oùlaphrase correspondàun actede langage,etune notionsyntaxiqueoù laphrasecorrespond àuneplus

grandeunitésyntaxique complète(avec enchâssementpossible).Ici nousavonsconsidéré qu'un

tourdeparole nonconstituéuniquement debruitou demusiquecorrespond aumoins àune phrase,mêmefragmentaire. Unt ourdeparole peutlui-mêmeêtre découpéenplusieursphrases racines.Nousnous appuyonspourcela surdescritères syntaxiques,discursifset prosodiques.Une séquenceautonomeassociée àun actedelangage formeunephrase racine.Enrevanche, nousne considéronspasqu'une phraserecouvre destoursde parolesdifférents,c'est-à-dire qu'unemême phrasecommencéepar unlocuteursoit terminéeparun autrelocuteur 1 .Encas d'interruptionet pourrepérerles syntagmesinachevésnous utilisonsplutôtune annotationd'inachèvement( -INA) commeétiquettesupplémentaire surlesnoeuds racinedessyntagmes jugésinachevés. Cescritèresétant donnés,voyonscomment sonttraitésles casdechevauchements. Lesstructures àchevauchementsESTER3suiventunschéma telqu'illustréen figure2à gauche(oùle balisage XMLestsimplifié).P ourgérer lescasdechevauchementdansl'annotation syntaxique,leprincipe aétéde fusionnerlesparties enbackchannelassociéesàun locuteurXautourde parole suivant(resp.précédent selonles cas)dece locuteurXdanslesdonnées transcrites,cequi permetd'éviterde découperartificiellementune phrasecomplèteénoncée parcelocuteur X. Parcontre,pourpréserverl'information, nousavonségalement introduitdesmarques dans lesarbressous formede noeudsfeuillespour indiquerlaportée duchevauchementsuivant le schémadonnéen figure2. Chacundesquatre noeudsfeuillesainsi introduitdansles arbresest w[y,1]...w [y,b-1] w[y,b+1]... w[y,e-1] w[y,e+1]...w[ y,n] w[x,1]... w[x,e-1] w[x,e+1]... w[x,n] Y SENT w y,l ...w y,e-1

OverlapEidw

y,e+1 ...w y,n SENT w y,1 ...w y,b-1

OverlapB-idw

y,b+1 ...w y,k X SENT w x,l ...w x,e-1

BackchannelE-idw

x,e+1 ...w x,n SENT

BackchannelB-idw

x,2 ...w x,k

FIGURE2-Encodage deschevauchementsdans lesarbres

1.Lesannotations ESTER3comportentparfoisplusieurs toursdeparoles consécutifspourun mêmelocuteur .Nous

avonsrefusionnéces séquencesde manièreàéviter qu'unephraseprononcée parunmême locuteurnesoit artificiellement

découpée.

TALN-RÉCITAL2013,17-21Juin,LesSables d'Olonne

178c?ATALA

deplusannoté parun identifiantunique(noté iddansleschéma) permettantd'identifierà quel chevauchementcenoeud faitréférence. Cequipermet degérerdes chevauchementsmultiples dansunmême documentetdans unmêmetour deparole.Notons quecoderle chevauchement sousformed'un noeudnon terminaldansles arbresneserait passuffisammentgénéral, carcela empêchedecoder deschevauchements quiportentsur plusieursphrasesou deschevauchements quiprésententdes structuresàcroisement 2

4.2La gestiondesdisfluences

SENT w e ...w n D w b ...w e-1 w 1 ...w b-1

FIGURE3-Disfluences

Lesdisfluencessont annotéesdans lesdonnéesETAPE pardesbalises XMLquigroupentune séquencede motscommeétant disfluente.Schématiquement pourune phrasew 1 ...w n ,unedisfluence àlaforme suivante: w 1 ...w b-1 ?D?w b ...w e-1 ?/D?w e ...w n .OùDreprésenteun codeXMLpourhésitation,révision, répétitionoumarqueur dediscours.Les disfluencessont intra-phrastiques,peuvent avoirunestructure interne(dansle casderépétions oude révisionsparexemple) maisneprésentent pasdeschémas decroisementnon projectifs.Nous lesreprésentonscomme desnoeudssyntagmatiques dansles arbres,commeillustré enFigure3. L'attachementdesdisfluencesdansles arbresdeconstituants n'étantpasnaturellement détermi- niste,nouschoisissons d'attacherles répétitionsaupremier syntagmequicontient lematériel

répété,etles révisionsaupremier syntagmequicontient lematérielrévisé. Encas d'hésitation

surlenoeud auquelattacher ladisfluence,on tranchepourl'attachement aunoeudle plushaut dansl'arbre.

4.3Les catégoriesutilisées

CatégoriessyntagmatiquesAdP,AP,COORD,NP ,PP,VN,VPinf ,VPpart Sint(parenthétiqueou incise),Srel (relative),Ssub(subordonnée), SENT(racine) CatégorieslexicalesADJ,ADJINT(adjectif interrogatif),ADV ,ADVINT (adverbeinterrogatif), ADVEX(adverbeexclamatif),(V(indicatif quiinclutconditionnel), VINF(infinitif) VIMP(impératif),VPP (partpassé), VPR(partprésent), VS(subjonctif) NC(nomcommun), NPP(nom propre),CC(conj coord),CS (conjsub) CLS(clitiquesujet), CLO(clitique objetoucomplément), CLR(clitiqueréfléchi) P(préposition),P +D(au,du, des),P+PRO(auquel,duquel, desquels)PROquotesdbs_dbs12.pdfusesText_18