QUELQUES ASPECTS SOCIOLINGUISTIQUES DES LANGUES DES SIGNES
divergence entre les langues, ici, cette ancienneté se trouve considérablement suresti-mée » (HYMES, 1971 : 198 ) Les signes sont comparables aux mots des langues orales et la rapidité d'évolution des signes de base est comparable à celle observée pour les langues orales (GUDS-CHINSKY, 1964)
Minnesota Satisfactoriness scales PR SENTATION SEULEMENTdocx)
Avec tous ces éléments en tête, comment classeriez-vous cette personne par rapport aux autres dans l’entreprise qui font le même travail actuellement (ou, si elle est la seule personne à faire ce travail, comment se compare-t-elle avec ceux et celles qui ont fait le même travail qu’elle dans le passé)?
Résultats de l’IPS - World Bank
mathématiques a été de 78 pourcent, ce qui n’est pas loin du double du score national moyen de 45 pourcent Performance et absences des élèves §La performance des élèves malgaches en classe de huitième est comparable à celle de l’élève moyen de l’ensemble des pays IPS avec un score de 51 pourcent Ils ont eu une meilleure
Vers un treebank du français parlé
quettes morphologiques est relativement riche (218 catégories) alors qu’on compte 12 étiquettes de syntagmes et 8 étiquettes de fonctions Les choix généraux d’annotation reposent sur un schéma surfaciste d’annotation de constituants majeurs qui se veut compatible avec plusieurs théories syntaxiques
LA RÉPLICATION DE L’ADN
première étape de la réplication, qui est l’ouverture de l’hélice Plusieurs sous-unités de DnaA se lient aux 9mères Cette étape est indispensable à la transformation localisée de l’ADN double brin en ADN simple brin Cette étape facilite la liaison des protéines DnaB et DnaC qui ouvrent et déstabilisent l’hélice
LES INDICATEURS DE PERFORMANCE EN HOTELLERIE - RESTAURATION
9 A l’origine, ce terme est employé par les transporteurs pour désigner un passager ayant acheté un titre de transport mais qui se retrouve absent à l’embarquement Ce terme a été repris par les hôteliers pour désigner un client ayant réservé une chambre mais qui se retrouve absent lors la période de réservation
La diglossie au Maroc : un paradoxe culturel vers une
en plusieurs dialectes selon les régions 3 Première contradiction pour ce qui est de l’usage quotidien La La deuxième, et non la moindre, est la production écrite qui se partage entre arabe
Le Camp des justes - storagegoogleapiscom
quand il abordait l’actualité politique le « juste », c’est celui qui fait passer l’humanité avant les idées, les personnes avant les dogmes, politiques ou autres c’est la position la plus pénible, la plus complexe, la plus vulné-rable car le « juste » se retrouve avec de curieux compagnons
[PDF] ansm publicité dispositifs médicaux PDF Cours,Exercices ,Examens
[PDF] antagoniste partiel PDF Cours,Exercices ,Examens
[PDF] Antecedant 3ème Mathématiques
[PDF] Antécedants 2nde Mathématiques
[PDF] antecedants et images 2nde Mathématiques
[PDF] Antécedants pour demain !!!!! 2nde Mathématiques
[PDF] Antécédent 2nde Mathématiques
[PDF] Antécédent 3ème Français
[PDF] Antecedent d'un nombre 3ème Mathématiques
[PDF] antécédent d'une fonction PDF Cours,Exercices ,Examens
[PDF] antecedent de PDF Cours,Exercices ,Examens
[PDF] antecedent de fonction par le calcul 2nde Mathématiques
[PDF] Antécédent et image d'un nombre par une fonction (Urgent) 3ème Mathématiques
[PDF] antécédent et image d'une fonction PDF Cours,Exercices ,Examens
Versuntreebankdufrançais parlé
AnneAbeillé
1,2BenoitCrabbé
1,3 (1)LLF, CNRS-UniversitéParisDiderot,75013 Paris,PRES SorbonneParisCité,IUF (2)Alpage,INRIA, UniversitéParis Diderot,75013P aris,PRESSorbonne ParisCitéRÉSUMÉ
Nousprésentonsles premiersrésultatsd'un corpusarborépour lefrançaisparlé. Ila étéréalisé
danslecadre duprojet ANREtape(resp. G.Gravier)en 2011et2012. Contrairementàd'autres languescommel'anglais (voirle Switchboardtreebankde (Meteer,1995)),il n'existepasde grandcorpusoral dufrancaisannoté etvalidépour lesconstituantset lesfonctions syntaxiques. Noussouhaitonsconstruire uneressource comparable,quiserait uneextensionnaturelle du Corpusarboréde Paris7 (FTB:(Abeillé etal.,2003)))basé surdestextes dujournalLe Monde. Nousseronsainsi enmesure decomparer, avecdesannotations comparables,l'écritet l'oral.Lespremiersrésultats,qui consistentà réutiliserl'analyseurde (Petrovetal.,2006)entraîné sur
l'écrit,avecune phasede correctionmanuelle,sont encourageants.ABSTRACT
Towardsatreebankofspoken French
Wepresentthefirstresults ofan attempttobuild aspokentreebank forFrench.It hasbeen conductedaspart ofthe ANRprojectEtape (resp.G.Gravier). Contrarytoother languagessuch asEnglish(see theSwitchboard treebank(Meteer,1995)), thereisno sizablespokencorpus for Frenchannotatedfor syntacticconstituents andgrammaticalfunctions. Ourprojectis tobuild sucharesource whichwillbe anaturalextension oftheP aris7treebank (FTB: (Abeilléetal.,2003)))forwritten French,in ordertobe abletocompare withsimilarannotations writtenand
spokenFrench.W ehave reusedandadaptedtheparser(P etrovetal.,2006)which hasbeen trainedonthe writtentreebank,with manualcorrectionand validation.Thefirst resultsare promising. MOTS-CLÉS:Corpusarboré,français parlé,corpusoral, analysesyntaxiqueautomatique. KEYWORDS:Treebank,spokenFrench,spokencorpus, parsing.1Introduction
Nousprésentonsles premiersrésultats d'uncorpusarboré pourlefrançais parlé.Ila étéréalisé
danslecadre duprojetANR Etape(resp. G.Gravier)entre 2010et2012. Lescorpusarborés (Treebank)pourlesautres languesontune partieécriteet unepartieorale :Penn Treebank (Switchboard(Meteer,1995)), Verbmobil pourl'allemand,Prague DependencyTreebankpourle tchèque(Mikulova,2008). Anotreconnaissance, iln'existepas degrandcorpus oraldu françaisTALN-RÉCITAL2013,17-21Juin,LesSables d'Olonne
174c?ATALA
annotéetvalidé pourles constituantsetles fonctionssyntaxiques.Les corpusorauxannotés existantspourle françaissuiventdes schémasspécifiques: annotationenmicro etmacro syntaxe pourlecorpus Rhapsodie(cite Deulofeu2011),annotation endépendancesde (Cerisaraetal.,2010),annotationen chunksdu corpusOtim(Blache etal.,2010)Nous souhaitonsconstruire
uneressourcequi soitune extensionnaturelledu Corpusarboréde Paris7 (FTB(Abeilléetal.,2003))basésur destextes dujournalLeMonde.Nousserons ainsienmesure decomparer, avec
desannotationscomparables, l'écritet l'oral.Nousprocédons entroistemps :unephase de prétraitementavecponctuation etbalisagedes dysfluences,unephase d'analyseautomatique, unephasede correctionmanuelle.P ourla secondephase,nous avonsadaptéle parseurde (Petrovetal.,2006)entraîné surleFTB ;pourla troisièmephase,nous avonsadaptéet enrichi lesconsignesdu Corpusarboré deParis 7(Abeilleetal.,2013).2Del'écrit àl'oral
Contrairementàd'autres languescommel'anglais (Switchboard(Meteer,1995)) iln'existepas de grandcorpusoral dufrançais annotéetvalidé pourlesconstituants etlesfonctions syntaxiques. Noussouhaitonsconstruire uneressource comparable,quiserait uneextensionnaturelle du Corpusarboréde Paris7 (FTB(Abeilléetal.,2003))basé surdestextes dujournalLeMonde.Une extensionàl'oral devraitpermettre àtermede menerdesétudes comparativessurdes données comparablesdela syntaxedu françaisécritet dufrançaisoral.Lecorpusécrit estannoté lexicalement(lemme,catégories etsous-catégorieslexicales, morpho-
logieflexionnelle,mots composés),enconstituants etenfonctions eta étévalidémanuellement. Ilestdist ribué depuis2001etestaccompagnéd'unguided'annotation(135pp).Lejeu d'éti- quettesmorphologiquesest relativementriche (218catégories)alors qu'oncompte12 étiquettes desyntagmeset 8étiquettesde fonctions.Leschoix générauxd'annotationreposent surun schémasurfacisted'annotation deconstituants majeursquise veutcompatibleavec plusieurs théoriessyntaxiques.Contrairement auPenn Treebank(Marcus etal.,1993)le corpusfrançais necomportepas decatégoriesvides nideconstituants discontinus. Contrairementàd'autres initiativesd'annotationpour lefrançais(Deulofeu etal.,2010),et suivantencela lesinitiativespour d'autreslangues(Meteer, 1995;Mikulova,2008) lareprésen- tationdedonnées oralesproposée icireposesur l'hypothèsequela syntaxedela phraseorale nenécessitepas unréaménagement enprofondeurdu schémad'annotationde l'écrit,mêmesi desaménagementslégers sontnécessaires.Ce choixapour conséquencederendre disponiblel'outillagedéjàexistant (analyseurs,outils d'éditiondetreebank) pourfaciliteret accélérerle
travaild'annotation. Plusieursversionsdu FrenchT reebanksontactuellement utilisées(Schluteret vanGenabith,2007;Blacheet Rauzy,2012).Nous nousappuyonssur lareprésentationsimplifiée décrite
notammentpar(Crabbé etCandito, 2008)quipermet l'analyseautomatiqueavec lesalgorithmes d'analyseenconstituants àl'étatde l'art.Enparticulier nousnousappuyons surun jeudecatégo- rieslexicalesréduit (28catégories)et unelistede motscomposésréduite auxmots composés grammaticaux.Cetteversion réduitea l'avantagedese convertirdemanière déterministevers unereprésentationen dépendancessyntaxiquesprojectives (Canditoetal.,2009)qui estde plusenplus utilisée.Annoteren constituantspermetdonc debénéficierdes deuxtypes de représentations.175c?ATALA
3Les donnéesorales
Lesdonnéesorales quenous utilisonssontdes donnéesducorpus ESTER3issuesduprojet ETAPE (Gravieretal.,2012)dédié àl'évaluationde systèmesdereconnaissance automatiquedelaparole.Lesdonnées sontconstituéesd'extraits dedébats detélévisionet deradiofrançaises.
Lesdonnéesannotées iciconstituentun sous-ensembledece corpusconstituédes émissions radiophoniquesde FranceInterdel'année2010 :cinq émissionsdeuntempsde pauchonetune émissionduMasqueetla plume,cequi représenteprèsd'une heuretrente detempsde parole. Danslepremier casil s'agitd'interviewsnon préparéesdonnantla paroleàdes inconnus.Dans lesecond,il s'agitd'un débatpublictrès animéavecau moinsdixjournalistes surleplateau, plusdescommentaires despectateurs. Nousavonségalement unextraitdu corpusfrançais deCORAL-ROM(Crestietal.,2004).L 'extraitannoté estL'allumage(Poitiers2001).CORAL-ROM présenteuntype deconversation informeletspontané entredeuxamies :quireprésente 14 minutesdeparole. Lesdonnées deréférenceESTER3sonttranscritesorthographiquement, ponctuéesetenrichies avecunbalisage desdiffluences,selon leformattranscriber(Barras etal.,1998).De manièreà uniformisernosdonnées detravail,nous avonségalementrefor- matélesdonnées CORAL-ROMdanscemême format.Au vudel' extraitdonnéen Figure1,onconstatequeles donnéesde départsontdéjà structurées,enparticulier onobserveque l'onaun
balisagepourla musique-Répétitionsquiconcernentla répétitionàl'identique :quiaretardé unpeu
taires,quiavait étésérieusement amoché
176c?ATALA
4Le schémad'annotation
Nousindiquonsdans cettesectionles lignesdirectriceset lesconventionsadoptées pourl'annota-tionensyntaxe desdonnées del'oral.Le schémad'annotationest dérivéduschéma d'annotation
pourletreebank écrit(Abeilléetal.,2003). Onsupprimeles informationsayant traitaubruit etàla musiqueconsidéréescomme extra- linguistiques.Par contreonpréservelesbalisesde synchronisationavecla pistesonore, notées4.1Linéarisationet segmentationdesdonnées orales
Commepourl'écrit, unedes premièresdécisions àprendrelorsqu'on annoteuncorpus ensyntaxe portesurla segmentationenmots. Contrairementau corpusécrit,la segmentationpourle corpus oralminimisele nombrede motscomposés.Nous noussommespour celaappuyéssur lestravaux177c?ATALA
antérieursde(Crabbé etCandito, 2008)enne retenantqu'unnombre minimaldemots composés, enparticulierdes motscomposés grammaticauxcommedes conjonctionsdesubordination, de coordinations,desdéterminants, prépositions.. .etquelques motscompo séspropresàl'oral n'est-cepas,s'il vousplaît, tantpis.. .quiontun impactsurla syntaxeetl'analyse delaphrase. Lalisteexacte desmotscomposés estdéfinieet documentéedans(Abeille etal.,2013). Nousnousappuyons égalementsurune segmentationenphrases, mêmesile choixde telou teldécoupagene vapasde soi.Plusieursnotions sontpossibles: unenotionphonétique oula phraseestdélimitée parladurée despauses,ce quiestle casde latranscriptionESTER3,une notiondialogiqueoù laphrase correspondàun tourdeparole, unenotiondiscursive oùlaphrase correspondàun actede langage,etune notionsyntaxiqueoù laphrasecorrespond àuneplusgrandeunitésyntaxique complète(avec enchâssementpossible).Ici nousavonsconsidéré qu'un
tourdeparole nonconstituéuniquement debruitou demusiquecorrespond aumoins àune phrase,mêmefragmentaire. Unt ourdeparole peutlui-mêmeêtre découpéenplusieursphrases racines.Nousnous appuyonspourcela surdescritères syntaxiques,discursifset prosodiques.Une séquenceautonomeassociée àun actedelangage formeunephrase racine.Enrevanche, nousne considéronspasqu'une phraserecouvre destoursde parolesdifférents,c'est-à-dire qu'unemême phrasecommencéepar unlocuteursoit terminéeparun autrelocuteur 1 .Encas d'interruptionet pourrepérerles syntagmesinachevésnous utilisonsplutôtune annotationd'inachèvement( -INA) commeétiquettesupplémentaire surlesnoeuds racinedessyntagmes jugésinachevés. Cescritèresétant donnés,voyonscomment sonttraitésles casdechevauchements. Lesstructures àchevauchementsESTER3suiventunschéma telqu'illustréen figure2à gauche(oùle balisage XMLestsimplifié).P ourgérer lescasdechevauchementdansl'annotation syntaxique,leprincipe aétéde fusionnerlesparties enbackchannelassociéesàun locuteurXautourde parole suivant(resp.précédent selonles cas)dece locuteurXdanslesdonnées transcrites,cequi permetd'éviterde découperartificiellementune phrasecomplèteénoncée parcelocuteur X. Parcontre,pourpréserverl'information, nousavonségalement introduitdesmarques dans lesarbressous formede noeudsfeuillespour indiquerlaportée duchevauchementsuivant le schémadonnéen figure2. Chacundesquatre noeudsfeuillesainsi introduitdansles arbresestOverlapEidw
y,e+1 ...w y,n SENT w y,1 ...w y,b-1OverlapB-idw
y,b+1 ...w y,k X SENT w x,l ...w x,e-1BackchannelE-idw
x,e+1 ...w x,n SENTBackchannelB-idw
x,2 ...w x,kFIGURE2-Encodage deschevauchementsdans lesarbres
1.Lesannotations ESTER3comportentparfoisplusieurs toursdeparoles consécutifspourun mêmelocuteur .Nous
avonsrefusionnéces séquencesde manièreàéviter qu'unephraseprononcée parunmême locuteurnesoit artificiellement
découpée.TALN-RÉCITAL2013,17-21Juin,LesSables d'Olonne
178c?ATALA
deplusannoté parun identifiantunique(noté iddansleschéma) permettantd'identifierà quel chevauchementcenoeud faitréférence. Cequipermet degérerdes chevauchementsmultiples dansunmême documentetdans unmêmetour deparole.Notons quecoderle chevauchement sousformed'un noeudnon terminaldansles arbresneserait passuffisammentgénéral, carcela empêchedecoder deschevauchements quiportentsur plusieursphrasesou deschevauchements quiprésententdes structuresàcroisement 24.2La gestiondesdisfluences
SENT w e ...w n D w b ...w e-1 w 1 ...w b-1FIGURE3-Disfluences
Lesdisfluencessont annotéesdans lesdonnéesETAPE pardesbalises XMLquigroupentune séquencede motscommeétant disfluente.Schématiquement pourune phrasew 1 ...w n ,unedisfluence àlaforme suivante: w 1 ...w b-1 ?D?w b ...w e-1 ?/D?w e ...w n .OùDreprésenteun codeXMLpourhésitation,révision, répétitionoumarqueur dediscours.Les disfluencessont intra-phrastiques,peuvent avoirunestructure interne(dansle casderépétions oude révisionsparexemple) maisneprésentent pasdeschémas decroisementnon projectifs.Nous lesreprésentonscomme desnoeudssyntagmatiques dansles arbres,commeillustré enFigure3. L'attachementdesdisfluencesdansles arbresdeconstituants n'étantpasnaturellement détermi- niste,nouschoisissons d'attacherles répétitionsaupremier syntagmequicontient lematérielrépété,etles révisionsaupremier syntagmequicontient lematérielrévisé. Encas d'hésitation
surlenoeud auquelattacher ladisfluence,on tranchepourl'attachement aunoeudle plushaut dansl'arbre.