[PDF] [PDF] Définir un corpus - Revue Texto

en fonction de la définition du corpus et de l'application envisagée (Pincemin, Assadi, Lemesle 1996, §7 1) (Péry-Woodley 1995, §3) 2 Le corpus : un 



Previous PDF Next PDF





[PDF] Définir un corpus - Revue Texto

en fonction de la définition du corpus et de l'application envisagée (Pincemin, Assadi, Lemesle 1996, §7 1) (Péry-Woodley 1995, §3) 2 Le corpus : un 



[PDF] TEXTE ET CORPUS :

LA NOTION DE CORPUS Quelles que soient la théorie et la méthodologie retenues, se pose à tout linguiste la question de la définition du corpus puisque c' est 



[PDF] Introduction à lutilisation des corpus 1 Quest-ce quun corpus?

➢ Quels types de corpus y a-t-il ? ➢ Quelques exemples ➢ A quoi peut servir un corpus ? ➢ Dans quel but doit-on constituer des corpus



[PDF] CONSTITUER UN CORPUS - Lexicometrica

Nous adoptons la définition plus restreinte de John Sinclair (1996, p 4) : « Un corpus est une collection de données langagières qui sont sélectionnées et 



[PDF] Des corpus représentatifs - Laboratoire ICAR - CNRS

Une DTD (Définition de Type de Document œ Document Type Definition) est dans cette optique une manière de formaliser un genre 28 T Todorov (Todorov,  



[PDF] Corpus en bac pro - Lettres-Histoire

Corpus : il s'agit d'un ensemble de documents (texte(s)-image(s)) Le corpus va plus loin que le groupement de textes car il peut comporter des images



[PDF] Introduction 1 Présentation du corpus - Université Côte dAzur

second temps, il sera question d'une présentation du corpus FPC et de l'analyse dis- La définition de l'adverbe qu'on retrouve chez Gustave Guillaume et que



[PDF] Définition, élaboration et exploitation dun corpus parallèle

French-Czech corpus : definition, design, build-up and Fratchèque est un corpus parallèle de ressources écrites dont les textes en français et en tchèque 

[PDF] corpus dénouement tragique

[PDF] corpus des connaissances en management de projet - 5e edition pdf

[PDF] corpus éducation des femmes

[PDF] corpus héros et antihéros

[PDF] corpus incipit romanesque

[PDF] corpus la condition féminine mercier sand beauvoir

[PDF] corpus la question de l'altérité

[PDF] corpus la question de l'homme dans les genres de l'argumentation du xvième siècle ? nos jours

[PDF] corpus mémoire définition

[PDF] corpus poésie corrigé

[PDF] corpus roman bac

[PDF] corpus roman français

[PDF] corpus sur la mort au théâtre

[PDF] corpus sur la peine de mort

[PDF] corpus sur le theatre

Le texte qui suit est un extrait de la thèse de Bénédicte Pincemin. Références complètes :

BOMMIER-PINCEMINBénédicte(1999)-Diffusioncibléeautomatiqued"informations : chapitre VII :"Caractérisationd"untextedansuncorpus :duquantitatifverslequalitatif",§ A "Définir un corpus", pp. 415-427.

A.DÉFINIR UN CORPUS

1.Une question qui resurgit dans le contexte du calcul

Lecorpusestnécessitéetorientéparletraitement :c"estbienlepréliminaireauxcalculs,et c"est sous cet angle qu"il est considéré dans ce chapitre. a)Les données s"agisse d"une étude qualitative ou quantitative. corpus :(ling.)ensemblelimitédeséléments(énoncés)surlesquelssebasel"étuded"un

phénomènelinguistique ;(lexicométrie)ensembledetextesréunisàdesfinsdecomparaison,servant

de base à une étude quantitative. (Lebart, Salem 1988, § Glossaire) Maislesdonnéesontunnomtrompeur :ellesnes"imposentpas,ellessontconstruites.Certes,

pasunetotalelibertéd"" inventer »sesdonnées,ilpartd"uneréalité-,maisilrestedesdécisionsdu

type :faut-ilconsidérertoutcequiestdisponibleouenextraireunsous-ensembleplussignificatifet équilibré ;commenttirerpartiducodagedisponible,commentéventuellementl"adapterautraitement envisagé.Lerapportauxdonnéestientd"uncompromis :faireavecceàquoionaaccès,maisfaireau mieux avec cela. dépendredubutdel"étude ;maissouvent,lestatisticiennepeutqu"accepterlesdonnées disponibles... (Benzécri & al. 1981, p. 137)

Les linguistiques de corpus

décisivepourledéveloppementd"uncourantlinguistiquerécent :lalinguistiqueàbasedecorpus (Habert, Nazarenko, Salem 1997). réels,desdonnéesattestées :lecorpuss"opposeiciauxexemplesadhocforgéspourlesbesoinsd"une théorie ou d"une étude.

" brut »n"obéitpasaujeuderèglesérigéesapriori,siélaborésoit-il.Ducôtédesoutils

informatiques, le corpus appelle des traitements robustes, des analyses partielles. b)Référentiel effectif globale.Lesélémentsprennentalorsunevaleurrelativeparrapportaucorpus :affinitéset associations, fréquence ou rareté, banalité ou spécificité, etc. adaptelesressourcestraditionnelles :ontologieetdictionnaire(limitésaudomaine),scripts(juste AutomatiquesdesLanguestrouventsoudainuneissue :l'ambiguïtés'estompe,cardansundomaine fixélalangueprenduntourunivoque ;l'impliciteestdévoilé,puisquelecorpusestancrédansun

cadrestéréotypédonné ;lagranularité(ouniveaudedétail)deladescriptiontrouveunejustemesure,

§7.1) (Péry-Woodley 1995, §3)

2.Le corpus : un ensemble de textes ?

a)Tout ensemble de textes n"est pas un corpus : propriétés recherchées unesuitedecaractèresalphanumériques.Ilvérifietroistypesdeconditions :desconditionsde signifiance, des conditions d'acceptabilité, et des conditions d'exploitabilité.

•Conditionsdesignifiance :Uncorpusestconstituéenvued'uneétudedéterminée(pertinence),

non sur plusieurs thèmes ou facettes indépendants, simultanément) (cohérence).

•Conditionsd"acceptabilité :Lecorpusdoitapporterunereprésentationfidèle(représentativité),

détail adaptés au degré de finesse et à la richesse attendue en résultat de l'analyse (complétude).

•Conditionsd"exploitabilité :Lestextesquiformentlecorpusdoiventêtrecommensurables comportements significatifs (au sens statistique du terme) (volume). linguistique structurale, etc.).

Pertinence

questiondesaréutilisabilité :àquellesconditionscequiaétérassemblépourservirunobjectifpeut

êtrerecyclépourenservirunautre ?Unepartiedelaréponsesetrouvedansl'explicitationdeschoix repris :lecorpusoriginalsertdesourcepourconstruireunautrecorpus,danslerespectdunouveau contexte d'analyse. Règledepertinence :Lesdocumentsretenusdoiventêtreadéquatscommesourced'information pour correspondre à l'objectif qui suscite l'analyse. (Bardin 1977, §III.I.1, p. 128)

Cohérence

se donne un corpus, et que l'on s'isole de toutes les problématiques générales ou étrangères.

linguistiques garantissant leur homogénéité, peuvent être constitués en corpus et que ce corpus pourra

être considéré comme suffisamment isotope. collectif,c'estunensembledecaractèrescommunsauxtestés :leurappartenanceàlamême communautélinguistique,àlamêmeclassed'âge ;c'estaussilemêmeniveauculturel,lamême " situation de testés ». (Greimas 1966, §VI.3, pp. 93-94)

Règled"homogénéité :lesdocumentsretenusdoiventêtrehomogènes,c'est-à-direobéiràdes

critères de choix précis et ne pas présenter trop de singularité en dehors de ces critères de choix.

Parexemple,desentretiensd'enquête,effectuéssurunthèmedonné,doivent :êtretous comparer les résultats individuels entre eux. (Bardin 1977, §III.I.1, p. 128) exposerons par la suite sont envisagés sur de tels corpus. (Chartron 1988, §II.1, p. 16) Lechoixd'uncorpusprésuppose...quececorpusconstituebienunobjetd'étude ;c'est-à-dire, univers référentiel. (Reinert 1990, §1.2, p. 27)

Représentativité

certain équilibre, une certaine composition, que le corpus doit d'efforcer de refléter. Règledereprésentativité :Onpeut,lorsquelematériels'yprête,effectuerl'analysesur l'ensemble. réduites pour l'échantillon). (Bardin 1977, §III.I.1, p. 127) redondante de la langue et la clôture des unités textuelles. même :autrementdit,lamanièred'êtredudiscoursporteenelle-mêmelesconditionsdesa représentativité. (Greimas 1966, §IX.1.b, p. 143) Quandl'étudeviseàdécrirelalangueoulefonctionnementdestextes" engénéral »,la tactiquessontobservables :lacourseàlaquantitéd'unepart(engrangerlemaximumdedonnées,le correspondantàtouslesaspectsrecensés).Lapremièretactique,dontladeviseest" moredatais

betterdata »(Péry-Woodley1995,§2.3.1),estmanifestementgrossière,maissouventelleestjustifiée

(enpartie)parlesdifficultésprofondesauxquellesseheurtedepleinfouetlasecondetactique :quel modèleadopterpourorganiserlasélectiondestextes,quineportepassapartd'aprioriréducteurs ? Plusgravement,laproblématiqueelle-mêmeapparaîtutopiqueirréaliste :iln'yapasdelangue générale,oustandard,oumoyenne ;etlestextessonttousprisdansdespratiquesquiles contextualisent 1. Larecherchedecorpuséquilibréssemblebienconstitueruneimpasse :lanotiond'équilibre s'apparenteàcellede" languegénérale »,etelleparaîttoutaussiinsaisissable.Ellesuppose

égalementunerechercheirréalisted'exhaustivité :lecorpuséquilibréestsansdouteceluiquia" de

toutunpeu »,maisencorefaudrait-ilsavoircequ'est" tout »,c'est-à-direquellessontlesclassesà

1 etdeproductiondesdiscours.Onsedonneunensembledeparamètres,telsque :lacommunicationdirecte

toujours, mais cette fois-ci indirectement, d'une certaine perception que l'on a des genres. Même si la statistique

morphosyntaxiques représentatifs). représentant. (Péry-Woodley 1995, §2.3.2, p. 218) décrire) et il conditionne tous les résultats de l'analyse. langue.(Note :Certainsauteurs,contretouteévidence,affirmentlecontraireetinvoquentdes

intrinsèque confère à l'élaboration du corpus une écrasante responsabilité.) (Lafon 1980, p. 137)

Régularité

permettre d'exceptions qui introduiraient des écarts locaux (manques, excès, éléments étrangers).

Règledel'exhaustivité :unefoisdéfinilechampducorpus(entretiensd'uneenquête,réponses sélectivité.

presse pendant une année. Toute annonce publicitaire répondant à ces critères doit être recensée.

(Bardin 1977, §III.I.1, p. 127) [Exigenced']exhaustivité :lesensembles[desindividusetdesvariables]représententun

§A.2.1.3, p. 21)

Complétude

Lecorpusdoitavoirunniveaudedétailadaptéauxbesoinsdel'analyse :lesadaptations discrétisation de la réalité à représenter réalisée à partir des données.

totalité de ses éléments implicitement contenus dans le corpus. (Greimas 1966, §IX.1.b, p. 143)

exhaustivité :l'exhaustivitédesdonnées(quiassureàl'analyseunebaseintrinsèque[...])peut,

& al. 1973, § Indice systématique)

Homogénéité

doit être aussi homogène que possible pour ses autres caractéristiques. [Exigenced']homogénéité :touteslesgrandeursrecensées[...]sontdesquantitésdemême nature. (Benzécri & al. 1973b, §A.2.1.3, p. 21)

homogénéité :pourdéfinirobjectivementletableaudesdonnéesétudiées[...],onviseà

l'homogénéitédesvariables :cequipermetl'adoptiond'uneunitédemesureunique[...] ; caractères d'un vivant (Benzécri & al. 1973, § Indice systématique)

Volume

caractéristiques et informatifs. LelogicielALCESTEestunoutild'aideàl'interprétationd'uncorpustextuel :entretiens, homogénéité et un volume minimum. [...] Ilyatoutefoisdeuxconditionspourobtenirunrésultatsignifiant :lapremièreestquelecorpus

présenteunecertainecohérencethématique[cf.conditiond'homogénéité].C'estlecas(engénéral !)

disparates, aussi intéressants soient-ils isolément... globale sur une documentation volumineuse qui serait autrement très longue à dépouiller. (Reinert, Piat 1995, cahier 1, §0, p.3)

1993)estdéplacé :levolumeetlareprésentativitésontdescaractéristiquesàpartentière,

complémentaires. à l'inverse de la maniabilité du corpus (Garcia-Debanc 1989, p. 44). b)Du texte, des textes données pour des études de la langue. NousemployonslemotcorpusdansuneacceptionrestreinteempruntéeàJ. Sinclair[...] :" Un critèreslinguistiquesexplicitespourservird'échantillondulangage. »(Habert,Nazarenko,Salem

1997, p. 11)

cechoixs'apparenteàunappauvrissementsystématiqueetinjustifié :toutemanifestationlinguistique

dimensions qui auraient permis sa redéfinition pour une autre étude ont été effacées. Notonsl'absenced'articledevantlemottextdanslaphrasedeK. ChurchetR. Mercercitée plushaut[...] :ils'agitd'analyserdutexteetnondestextes.Seposeicilaquestiondelapertinence del'unitétextedanslaconstitutionetl'analysedecorpus :unoudestextesparoppositionàdutexte.

soumettre ensuite à l'analyse un objet dont l'hétérogénéité est totalement opaque, c'est enfin se priver

delà sur le plan de sa réutilisabilité. (Péry-Woodley 1995, §2.3.3, pp. 218-219)

3.Constitution : une typologie des corpus en présence

a)Emboîtements un corpus ±un ensemble de textes±, mais à une série de corpus

2, qui ont chacun leur rôle.

·Lecorpusexistant(oucorpuslatent) :l'ensembledestextesauxquelsonpeutavoiraccès,donton peutdisposer.C'estgénéralementunemasse" informe »,nonsystématique,maldéfini,aux étrangères à l'étude, qui ne sont pas toutes connues ni maîtrisées.

·Lecorpusderéférence :ilestcomposéàpartirducorpusexistant,enadéquationavecl'objectifde

travail ;ilestclairementdéfinietéquilibré.C'estluiquifournitl'universlepluslargedanslequel linguistique ne s'arrêtant ni à la phrase, ni même au texte (Rastier 1998, §III.2). 2

l'ensembledestextesàdisposition(depréférenceàcorpusexistant) ;quantaucorpusdistingué,ilcorrespond

habituellement à ce que l'on appelle sous-corpus. souligner les usages contrastés du mot corpus. ·Lecorpusd'étude :c'estl'ensembledestextessurlesquelsporteeffectivementl'analyse,pour

corpusd'étudepeutêtreplusvolumineuxquelecorpusderéférence :cequiestdéfinitoire,cen'est

donc ni un rapport d'inclusion, ni un rapport de taille, mais la spécificité des rôles de chacun.

·Lecorpusdistingué :c'estungroupedetextesducorpusd'étudequel'onveutcaractériserdans leur cohésion d'ensemble, par rapport au reste du corpus d'étude. Exemples illustratifs, d'après des travaux actuels : corpus existantcorpus de référencecorpus d"étudecorpus distingué Etude d'Etienne

Brunet

(Brunet

1995)la base Frantext de

l'INaLF350 romans entre

1830 et 1970phrases de ces romans

comportant au moins une des 165 unités lexicales retenues pour définir la thématique du sentimentles éléments retenus dans les romans d'un romancier

Constructio

n des profils pour l'application

DECID de

diffusion cibléetextes enregistrés dans la base SPHERE de la

DER d'EDF, autres

textes électroniques collectés de façon centralisée.l'ensemble des textes d'Action, en version définitive, à partir de l'année 1990 jusqu©à l'année en cours.les textes d'Action pour une année (le cas

échéant, les textes en

version provisoire pour l'année suivante).les textes d'Action du corpus d'étude, dont le rédacteur (plus exactement le responsable) est rattaché à un

Département donné.

montre l'incidence de ce qui est pour nous le corpus de référence : significationilfautattribuerrespectivementauxtroiscorpuspossibles :lecorpusayantles

raisonnablement espérer retrouver entre les modèles qu'on pourra expliciter à partir de tels corpus.

inventairesdemodèlesimplicitespermettantlaconstructiondugenre" romanduXXèmesiècle » ;[...]

manifestationspouvantserviràlaconstructiond'ungenredésignésommairementcomme" stylede la personnalité » [...]. proprement bernanosienne. (Greimas 1966, §IX.1.f, pp. 148-149) exemple : discursif et d'espace discursif. Onentendrapar" universdiscursif »l'ensembledesénoncésdetoustypesquicoexistent,ou

plutôt interagissent, dans une conjoncture. Cet ensemble est nécessairement fini, mais irreprésentable,

essentiellement pour y découper des " champs discursifs ». Le" champdiscursif »estdéfinissablecommeunensembled'archivesquisetrouventen

grossières, de peu d'intérêt pour l'AD, qui est contrainte à prendre en compte de multiples paramètres

pour construire des champs pertinents. L'" espacediscursif »,enfin,délimiteunsous-ensembleduchampdiscursif,lieaumoinsdeux

archives dont il est permis de penser qu'elles entretiennent des relations privilégiées, cruciales pour la

partagentsonchamp :certainesoppositionssontfondamentales,d'autresnejouentpasdirectement un rôle essentiel dans la constitution et la préservation de l'archive considérée. Aucunchampdiscursifn'estinsulaire ;ilexisteunecirculationintensed'unerégionàuneautre del'universdiscursif,maislesvoiesqu'elleemprunten'ontriendestable ;selonlesdiscoursetles conjonctures concernés on aura affaire à des jeux d'échanges très différents. [...] contribuepaspeuàcetteefficacité :confrontéàundiscoursdetelchamp,unsujetretrouvedes

une" métaphore »,untransportgénéraliséd'unchampàl'autre(maispasden'importequelchampà

n'importequelautre)sansqu'ilsoitpossiblededéfinirunlieud'origine,unsens" propre » ;tout simplement parce que la question même de l'origine n'est pas pertinente ici. (Maingueneau 1991, §4.3, pp. 158-159) discursif) : Maingueneau :univers discursif,champ discursif,espace discursif. Pincemin :corpus existant,corpus de référence,corpus d'étude. qu'ilestdavantagequ'uncorpus :nonseulement,commesonnoml'indique,ilentretientunerelation

privilégiéeaveclecorpusdontilestextrait ;maisaussi,sanatureestdifférente±iln'estpastoujours

un ensemble de textes. sur le mode de contextualisation opérée par le corpus de référence. b)L"intertexte : le corpus comme contexte et comme totalité

qui est accessible, et même structurant, pour l'interprétation du texte, en dernière instance.

L'extension de corpus.

[...]lecontextesémantiqued'unsémèmen'ad'autreslimitesquecelledutexte ;[...]les n'importequelpointdutexte,avecuneffetcumulatif ;celaestparticulièrementclairaveclesnoms propres.Cetyped'extensionreposetoutefoissurunehypothèseforte :queletexteempiriqueest systématicité. affirmationreposeelleaussisurunehypothèseforte :l'identitéàsoidel'auteur±entenducomme idiolecte. (Rastier 1987, §IX.4.2.1, p. 252) étudié ; or, la linguistique nous avertit de trois totalités illusoires : ontologie :(i) Celledutexte[isolé][...].Lanotionde" clôturetextuelle »chezlescontemporains doitbeaucoupàcetunitarismeromantique[...].(ii) Celledel'oeuvre,àlaquellerépondlanotionde styleindividuel[...].(iii) Celledel'Intertexte,quidérivedelanotionschlegeliennedetotalité romantique des textes. (Rastier 1998, §III.2, pp. 107-108)

maisnonpasdestotalités" définitives ».Siparexempleonétudielesromansd'unauteurisolément,

ilfautavoirconsciencequel'onfaitabstractiond'unedimensionsignificative,la" profondeur »qui inverse d'extension (vs de focalisation), à la définition du corpus de référence. Apartird'untexte[note :Nousconvenonsqueletextepermetderecrutersonintertexte,cf. (Rastier1989,§ 2)],l'intertexteestceparquoil'onaccèdeparl'ensembledesréférences(ou

§III.2, p. 108)

Untexten'est[pas]interprété" hors-contexte »maisauseind'ununiversdetextes,quenous appelons anagnose et qui porte la trace d'une intention interprétative. [...]

interprétatifs, et qui sert à " soutenir » les relations sémantiques qu'il désire mettre en avant.

(Thlivitis 1998, §1.3 & 2.1.3, pp. 29 & 41) et de lecture. localité.Lesélémentspertinentsdelasituationsontrequisparl'analysedutexte :touttexte,parson

est à la fois un principe organisateur du texte et un mode sémiotique de la pratique en cours. [...]

mêmelangue)constitueun" bon »corpusauseinduquelilestpossibledecaractériseretd'analyserquotesdbs_dbs50.pdfusesText_50