[PDF] La définition des annotations linguistiques selon les corpus: de l





Previous PDF Next PDF



Méthodologie du mémoire de Master - Archive ouverte HAL

05?/01?/2021 En septembre ou octobre vous devez avoir délimité un sujet précis et un corpus suffisamment restreint pour être maîtrisé en quelques mois; car.



Quest-ce quun corpus? Compte-rendu de la journée détudes

04?/10?/2017 Toutefois jamais une définition de « corpus » n'est proposée dans les 127 articles concernés. Figure 1: Chronologie des occurrences du mot « ...



A. DÉFINIR UN CORPUS 1. Une question qui resurgit dans le

Le texte qui suit est un extrait de la thèse de Bénédicte Pincemin. en fonction de la définition du corpus et de l'application envisagée.



Introduction 1. Présentation du corpus

La définition de l'adverbe qu'on retrouve chez Gustave Guillaume et que reprend Gérard Moignet (1981 : 50) est la suivante : « une forme linguistique desti- née 



La définition des annotations linguistiques selon les corpus: de l

05?/01?/2016 La définition des annotations linguistiques selon les corpus : de l'écrit journalistique à l'oral. MÉMOIRE présenté pour l'obtention de.



Constitution dun corpus de traduction de la parole: augmentation du

19?/02?/2018 Mémoire de master 2 mention Sciences du langage - 20 crédits. Parcours : Industries de la langue. Année universitaire 2016-2017 ...



Méthodologie de la recherche documentaire : principes clés

Définition : C'est l'ensemble des étapes exposé mémoire



Twitter comme `` corpus en sciences du langage: questions

10?/10?/2017 Le corpus pour la thèse en SDL : Définition de base : ensemble ... analyse du corpus antérieure à la formulation d'hypothèses.



DE LA PRESENTATION DU CORPUS

Quelle(s) méthode(s) pour appréhender un corpus en bac ? 1. Découvrir le corpus. 2. Caractériser les documents. 3. Hiérarchiser les documents. 4. Rédiger la 



Constitution dun corpus oral deFLE: enjeux théoriques et

30?/04?/2015 nous étudions en détail afin de proposer une définition du corpus linguistique. Le troisième et dernier chapitre.

Twitter comme "corpus» en sciences du langage : questions méthodologiques et pistes de rechercheLaurent Gautier, Centre Interlangues Texte Image Langage (UBFC, EA 4182) & MSH Dijon (USR uB-CNRS 3516)

Structure de la communication1.Contexte2.Problématique et objectifs3.Quelles données ? Le défi de la constitution du corpus4.Quels cadres méthodologiques ?5.Discussion6.Perspectives2

1.ContexteLa linguistique ? de corpus...•Résultatduchangementdeparadigmedelarechercheensciencesdulangage=>linguistiquedelaparolevs.delalangue/linguistiquedel'intuitionvs.del'observationCORPUS = réservoir d'exemples non fabriqués•Ausenstechniquequiprévautaujourd'hui:undesobjetsmêmedelarechercheCORPUS = objet scientifique obéissant à des règles et établi sur la base de principe3

Vous êtes plutôt basedou driven?•"(...)Corpus-basedlinguistsadopta'confident'standwithrespecttotherelationshipbetweentheoryanddatainthattheybringwiththemmodelsoflanguageanddescriptionswhichthebelievetobefundamentallyadequate,theyperceiveandanalysethecorpusthroughthesecategoriesandsievethedataaccordingly.Thecorpusisconsideredusefulbecause,onoccasions,itindicateswhereminorcorrectionsandadjustmentscanbemadetothemodelandadoptedand,ofcourse,itcanalsobevaluableasasourceofquantitativeevidence.»(TogniniBonelli2001:66)-utilisationducorpuspostérieureàlaformulationdeshypothèses-rôleessentieldevérification/validation5

•"In a corpus driven approach the commitment of the linguist is to the integrity of the data as a whole, and descriptions aim to be comprehensive with respect to corpus evidence. The corpus, therefore, is seen as more than a repository of examples to back pre-existing theories or a probabilistic extension to an already well defined system.» (TogniniBonelli2001 : 85)-analyse du corpus antérieure à la formulation d'hypothèses-tout fait relevé doit être considéré comme pertinent-phénomènes absents aussi importants que phénomènes présents6

Nouveaux usages, nouveaux objets de recherche, nouveaux corpus•Lesdonnéesnumériquesnativescommenouveauxcorpus(Longhi2012,Paveau2013,2015)=>"écologiedudiscoursnumérique»-Nouveauxtypesdediscoursanalysés/d'acteurs/d'interactions-Facilitéd'accèstrompeuse(droit,technique)•Lesréseauxsociauxcommenouveauxobjetsderecherchetransdisciplinaire-Communicationmédiéeparordinateur(CMC)(Herring/Stein/Virtanen2013)-Approchequalitraditionnellefacilementdoubléeparquanti(Guilbert2014,HSdeCorela)7

2.Problématique et objectifsLes corpus de twitts: pour des approches intégrées•Approche intégrée nécessite une approche(micro-)linguistique des tweets :-considérésdansleurfacesignifiante;-envisagéscomme'micro-textes'(doncsoumisaux/àdesrèglesdetextualité);-insérésdansundispositifsociotechniqueinteragissantavecdesformesdecommunicationplustraditionnelles9

Double problématique :•Théorique:-Quelssontlesimpactsdudispositifsociotechniquesurlamiseenoeuvredessystèmeslinguistiquesconsidérés?-Quellesconséquencesdoit-onentirerpourl'appréhensiondelatextualitédutweet?ÞQuestionstestéesiciàpartirdeécriture,opérateursd'interactionetlinéarisation•Pratique:-Commentlesscripteursenvisagentetgèrent-ilslacohérencedeleurdiredansuncadrespatialementcontraintetfonctionnellementprédéfini(opérateurs)?=>Quellelittératienumériquepourle"locuteurnumérique»?10

3.Quelles données ? Le défi de la constitution du corpusDe nouvelles pratiques de collecte•Dimensionsjuridiqueetéthique:Twitternerevendiqueaucundroitdepropriétéintellectuellesurlescontenusproduitsparlesutilisateursduservice.(...)Mieuxencore,Twitterencouragesesutilisateursàverserlescontenusparanticipationdansledomainepublicouàlesplacersouslicenceslibrespourenfavoriserlaréutilisation.(BlogSILexdeLionelMaurel)•Dimensiontechnologique:compilationdesdonnéesvial'APIdetwitter•Dimension"archivistique»:gestiondesmétadonnées,structuration(TEI)12

L'indispensable phase d'annotation•Indexation des métadonnées pour la gestion des interactions•Annotation du contenu textuel => défi méthodopour opérateurs, gestion de l'orthographe + taggingespèces de mots + analyse syntaxique (cf. infra)13

Un corpus original : tee2014•MSHDijon(TIL,Cimeos,LE2i)+LeHavre+Metz+partenairesdans4payseuropéens=>5terrainsnationaux•Objet:communication"générée»parlescandidatsauxElectionsEuropéennesde2014=>80comptesparpays-LesmessagesenvoyéssurlescomptesTwitterdescandidats-Lesmessagesinclusdansles"conversations»entrecescomptesetd'autrestweetos(discourscitoyens,débatsinternes...);-Lesmessagescontenantles"hashtags"sélectionnés,liésàdesthématiquespolitiquesmajeuresdechaquepays•4semainesdecollecte:avantetjusteaprèslescrutin14

Extraction du corpus global sur 2 langues•Corpus"français»et"allemands»=>liésauxcomptesdescandidatsfrançaisetallemands(mêmesihétérogénéitélinguistique)-F:Plusde1millionsdetweets-D:720.000tweetsÞToujoursRTcompris•Traitementpourinterrogation(semi-)automatique•Deuxsorties:aspirationcomplèteavecméta-données+textebrut•InterrogationsousAntConc(passagedansTXMencours)15

Forces et faiblesses•Analysedutexte'brut':untweet=untexte,avecinsertionpossibledansdessériesd'interactions(cf.infra)•Pasdeprocédureon-/off-linedesaisiedesstratégiesdeproduction/réception•seulevoied'accès:toutcequirelèvedumétalinguistique+opérateurs#@RThttp(cf.infra)•Cohérencedanslestweets(politique(decampagneélectorale))16

Textualité comme clef d'entrée •Quelleestlavaliditédelanotionpourlacommunicationélectronique?•Commentlanotiondetextualités'articule-t-elleaveclesnormescommunicatives?•Pointdedépart:définitionclassiqueenling.text.:cequifaitd'unesuitedesignesuntexte•Notionsclefs:cohérence,cohésion,...(DeBeaugrande/Dressler1981)20

5.DiscussionEcrit ou oral ? Plutôt distance ou proximité...•Unproblèmemalposé•Saisieducontinuumécrit/oral(Koch/Österreicher2011,présentationenfrançaiscf.Modicom2015)reposantsurl'oppositionentre:•Niveaudumédia•Niveauconceptionnel21Modicom(2015 : 4)

•Double statut de @ comme marqueur d'adresse (9) et/ou mention (10) :(6) Merci @TomChevalier76 @Parsquiou@Pilouilleuh@Dragon76000 Thibaut Vs êtes la jeunesse européenne ! @UDIjeunes76 http://t.co/m4djWbScAX=> Décodage dépendant du remplissage textuel du tweet: vousd'adresse, acte de langage exclamatif + fonction phatique de merci(7) Ichlachmichtot."#AfD-AuffangbeckenfürDumme"Dankean @EinAugenschmausfürdieseherrlichtreffendeUmbezeichnung.=> Triple statut en contexte : mention + source + marqueur d'adresse

•#non intégré syntaxiquement, en position d'ouverture (rare) et/ou de clôture (en masse)(12)#Lille: "On a accusé l'Europe de ce qu'elle ne pouvait pas faire. L'Europe est 1 champion économique et démocratique "#LesEuropeenscc(13) #AfDStand vor demWittwer! Polizeihatbereitsden gesamten#Schillerplatzumstellt! #stuttgart#buntstatt#braun#wk14 #reclaimeurope•Fonction instructionnelle, "cadrative» impliquant/nécessitant un décodage segmenté•Participe à une cohérence de double niveau-Interne au texte-Supérieur au niveau du fil de tweets

Les # comme forme ultra-brève de problématisation et d'orientation du lecteur ?•Miseenoeuvred'untraitdudispositifsociotechniquedeTwitter(cf.infra):le#-Quellesfonctions?-Quelleinstrumentalisationpossible?-Démultiplicateurouréducteurdebrièveté?•Etudedecasencommunicationpolitique-Le#commenouvelleformede"petitephrase»?-Le#commeindicede"miseenformule»?31

Merci pour votreattention !Laurent GautierUniversité Bourgogne Franche-Comté (EA4182)laurent.gautier@ubfc.fr36

quotesdbs_dbs50.pdfusesText_50
[PDF] corpus poésie corrigé

[PDF] corpus roman bac

[PDF] corpus sur la mort au théâtre

[PDF] corpus sur la peine de mort

[PDF] corpus théatre

[PDF] corpus théatre 1ère

[PDF] corpus théatre corrigé

[PDF] corpus tragédie seconde

[PDF] correctievoorschrift nederlands 2017

[PDF] correctif ce1d 2013 francais

[PDF] correctif ce1d 2014 sciences

[PDF] correctif ce1d 2015 sciences

[PDF] correctif ce1d 2016 math

[PDF] correctif ce1d 2016 sciences

[PDF] correctif ce1d math 2014