[PDF] Linguistique de Corpus Dans un corpus de ré





Previous PDF Next PDF



Sémantique et corpus quelles rencontres possibles ?

22 mai 2015 La notion de genre textuel peut de ce point de vue



Découverte et caractérisation des corpus comparables spécialisés

20 avr. 2010 scientifique et le type de discours permet de filtrer le niveau de communication des documents du cor- pus garantissant un niveau de langue



Corpus et pathologies du langage : du recueil à lanalyse de

1 janv. 2019 2018) des types spécifiques d'interventions verbales (da Silva et al. 2012)



Dis-moi quel est ton corpus je te dirai quelle est ta problématique

15 nov. 2009 Les problèmes que pose la notion de corpus sont relativement bien connus pour avoir été longuement discutés dans le champ.



(En) - quête de lautre: recherches qualitatives et corpus numériques

Les données issues de la société civile doivent faire l'objet de mesures spécifiques de collecte de conservation pour constituer des corpus réutilisables par d 



Linguistique de Corpus

Dans un corpus de référence les documents constitutifs doivent être suffisamment représentatifs pour donner une image de la langue telle qu'elle est.



Les grands corpus du français moderne : des outils pour étudier le

En se focalisant sur les variétés diatopiques les mieux dotées en matière de corpus dans la francophonie du Nord (v. ci-dessous)



Le corpus lexicographique dans les langues à tradition orale: le cas

Résumé: Les corpus sont à la base de la plupart des recherches en linguistique et particulière- ment lexicographique. La compilation d'un corpus est une 



CONSTITUER UN CORPUS - Lexicometrica

Les corpus ou collections parallèles sont constitués d'un ou de plusieurs documents traduit(s) dans une ou plusieurs langues (cf. chapitre VI). L'exemple 



Explorer des corpus de tweets : du traitement informatique à l

15 déc. 2003 résultats scientifiques et la mise en place de différents types d'exploration de corpus. Nous reviendrons ainsi sur les enjeux de ...

Linguistique de Corpus

Elisabeth DELAIS-ROUSSARIE

elisabeth.roussarie@wanadoo.fr SEANCE 3 1

Rappel :Qu'est-ce qu'un corpus ? (1)

Le corpus est un ensemble homogène et significatif de données linguistiques observées et à partir desquelles pourra s'élaborer la description et la formalisation des faits linguistiques.

Il joue un rôle essentiel dans la linguistique structurale pour au moins une raison : dépasser la grammaire normative. 2

Rappel : définitions (1)

Définition généralement retenue :

La communauté linguistique considère, à la suite de

Sinclair (1996), qu'un corpus est "une collection de données langagièr es qui sont sélectionnées et organisées selon des critères linguistiques explicites pour servir d'échantillon de langage".

3

Rappel : définitions (2)

Une autre définition plus souple a donc été proposée (Gibbon et al (1998) : "A corpus is any collection of speech recordings

which is accessible in computer readable form and which comes with annotation and documentation sufficient to allow re-use of the data in-house, or by people in others organisations."

4

Rappel : représentativité (1)

Choisir entre tels ou tels corpus dépend des objectifs visés :

 étude de la grammaire  analyse terminologique  création et test d'un système de reconnaissance de la parole

(conversations téléphoniques)

 construction d'un dictionnaire d'une variante du français  recherche de néologismes  apprentissage par un programme d'étiquetag e morpho-

ssyntaxique (tagger)  étude comparative pour la traduction automatique 5

Rappel : représentativité (2)

Deux grandes catégories de corpus existent et se distinguent en fonction de leur contenu et de ce qu'il représente :

 les corpus de référence  les corpus spécialisés ou sous-langage Dans un corpus de référence, les documents constitutifs doivent être

suffisamment représentatifs pour donner une image de la langue telle qu'elle est dans toute sa diversité. Les données doivent provenir de différentes situations de communication, représenter plusieurs styles de documents écrits, etc. Un corpus de spécialité regroupe au contraire des données linguistiques sélectionnées pour représenter une dimension particulière : un domaine (français médical, etc.), un thème, une situation de communication (interactions de service, etc.)...

6

Rappel : représentativité (3)

 Le British National Corpus (BNC) : Pour la partie orale du BNC (10 millions de mots), deux composantes ont été définies pour collecter les données - une composante démographique qui est intervenue dans l'enregistrement des conversations " informelles

». Les locuteurs ont été choisis en fonction d'un échantillonnage socio-démographique et géographique ;

- une composante contextuelle qui a permis de sélectionner les données plus

formelles (enregistrements de conférences, de débats publiques, de séminaires, de meetings, d'émissions radiophoniques, etc.). Une classification par topique et par type d'interaction a été faite afin de ne pas sur-représenter certains sous-langages ou styles de communication.

 Frantext (corpus de textes en français) Une démarche analogue a été faite (20 % de textes non littéraires). 7

Plus sur la représentativité

Quelques principes définis par les tenants de la linguistique de corpus en vue de la constitution d'un corpus :

1. Le contenu d'un corpus devrait être choisi sans prendre en

considération la langue étudiée, mais plutôt l'usage et la fonction communicatifs des énoncés (privilégier les critères externes);

2. Il est essentiel de viser à la représentativité

8

Plus sur l'échantillon : comment le choisir

 L'orientation choisie dans la construction d'un corpus (normativité, etc.);  Les critères retenus :

 Le mode (comment a été véhiculé ce langage: parole, par écrit);  Le type des documents  Le domaine  L'origine géographique

Le choix des critères doit être précis et rigoureux afin de collecter un échantillon représentatif. 9

La question de la taille (1)

La taille minimum d'un corpus bien construit dépend de deux choses :  Le type des requêtes qui peuvent être faites par les utilisateurs;

 La méthodologie utilisée pour étudier les données Plusieurs critères peuvent être utilisés pour juger de la validité

d'un corpus en terme de taille 10

La question de la taille (2)

Les fréquences d'apparition des termes doivent respecter la loi de Zipf

 50 % des termes ne doivent apparaître qu'une fois  25% des termes ne doivent apparaître que deux fois, et ainsi

de suite 11

Les corpus oraux et les corpus de parole (1)

 Distinction est généralement faite entre :  Les corpus de parole : il s'agit de base de données contenant

des données orales. Le contenu peut être très variable : liste de logatomes, liste de mots, liste de phrase, liste de texte (etc).

 Les corpus oraux : Représentation de la dimension orale de la langue. Elle peut se faire sous forme écrite 12

Les corpus oraux et les corpus de parole (2)

 Les corpus de parole sont toujours accompagnés d'un enregistrement. Exemple : Eurom 1 - FR  Usage : Synthèse et reconnnaissance de la parole, linguistique, etc.  Présentation : audio et transcription souvent alignée sur le signal 13

Les corpus oraux et les corpus de parole (3)

 Les corpus oraux : représente la dimension orale de la langue, dans tous ces aspects (formel, informel, etc.).

 Corpus peut apparaître soit sous la forme d'une transcription orthographique, soit sous la forme d'une transcription alignée  Utilisation : étude sur la dimension sonore, mais également sur la syntaxe, le discours, etc. 14

Les corpus oraux et les corpus de parole (4)

 Exemples nombreux : ESTER, ACSYNT, C-ORAL-Rom, etc. 15

L0 : bon / ben pourrais-tu premièrement me dire quel genre de travail tu fais / m'expliquer ça un petit peu L1 ok je suis euh / ben mon titre comme j'ai indiqué sur ma feuille c'est coordinatrice administrative régionale / ça je m'occupe euh pis c'est en santé publique / ici à Moncton / puis euh je m'occupe: des budgets c'est moi qui fait les gen/ les forcasting pour les budgets / où on est rendu dans les finances / c'est moi qui s'occupe aussi beaucoup des ressources humaines là pour euh / l'embauche des gens pour euh / tous les bénéfices euh (xxx) tous ces choses là hum / puis je suis aussi pour l'informatique là pour la question de des ordinateurs pis tout ça là malgré que je suis pas un experte dans les ordinateurs mais je fais de mon mieux pis j'apprends au fur et à mesure là euh un peu de trouble shooting si tu veux ou des choses euh / techniques là si i-y-a des problèmes au niveau informatique pis même l'achat de l'équipement puis des choses comme ça

Les corpus oraux et les corpus de parole (5)

 L'opposition entre les corpus oraux et les corpus de parole tend à disparaître pour trois raisons :

 Capacité de mémoire des ordinateurs a énormément évolué et permet donc de stocker de nombreuses données, mais sous un format audio " lourd »;  Outils pour le traitement des données audio se développent, et permettent d'analyser un volume important de données;  Amélioration des outils d'enregistrement 16

Constituer un corpus (oral) (1)

Pour constituer un corpus, le linguiste doit définir une méthodologie et définir les critères prépondérants pour la sélection :

- les objectifs de recherche visés : si l'utilisateur veut construire un

corpus pour étudier le vocabulaire des jeunes, il ne choisira pas les situations d'enregistrement de la même façon que s'il veut travailler sur les interactions de service ;

- le type de corpus : si le but est de constituer un corpus de référence,

plusieurs critères interviennent en parallèle pour obtenir une meilleure représentativité possible (différences socio-économiques et géographiques entre les locuteurs, dif férentes situations de communication, des nombreux types de documents écrits (textes littéraires, rapports professionnelles, articles de presse, etc.).)

17

Constituer un corpus (oral) (2)

- les modalités d'enregistrement des données : si le corpus est construit pour travailler sur les caractéristiques acoustiques d'un son, il est important que les enregistrements soient faits dans des situations expérimentales optimales (utilisation d'une chambre sourde, enregistrement numérique, etc.). Si, au contraire, le linguiste veut avoir une idée de la langue parlée dans certains quartiers populaires, il est préférable qu'il enregistre les locuteurs dans leur milieu, voire avec un informateur (cf. paradoxe de l'expérimentateur, Labov).

18

Constituer un corpus (oral) (3)

Une fois que le chercheur sait pourquoi il veut construire un corpus, il peut clairement rédiger un protocole qui va lui permettre de définir :

- la façon dont doit s'effectuer la sélection/collecte des données; - les locuteurs/ types de documents qui doivent être recherchés. Le protocole d'enquête spécifie la démarche qui doit être utilisée pour collecter les données. Pour le corpus que vous avez à constituer, un protocole doit

être élaboré.

19

La définition des objectifs visés permet également de déterminer quels locuteurs enregistrer et dans quelle(s) situation(s) le faire

objectifs de cette tâche = gagner en représentativité réflexion sur l'échantillon à retenir. La réponse à ce point dépend crucialement des variables étudiées. 20

Avant de vous lancer dans l'enregistrements ou la saisie des documents pour vos corpus, il est donc capital :

 que vous formuliez des hypothèses sur votre objet d'étude;  que vous réfléchissiez à la meilleure façon de collecter des données compte tenu de votre objet d'étude;  que vous choisissiez quels locuteurs enregistrer (ou quels types de données collecter) et comment y parvenir. ----> Cela aboutira à la construction d'un protocole d'enquête. 21
Il ne suffit pas d'avoir enregistré des données pour avoir un corpus.  pour les corpus oraux, c'est assez évident (numérisation, transcription orthographique, etc.);  pour les corpus écrits, nous pourrions penser que l'essentiel est fait. En fait, dans un cas comme dans l'autre, il faut impérativement

documenter le corpus, c'est à dire élaborer une documentation dans laquelle seront exposés :

 les choix faits pour sélectionner les documents ou locuteurs ;  les principes d'annotation utilisés ;  le contenu des documents ou des enregistrements;  les accords/ droits. 22

" Sans une documentation jointe, un corpus est mort-né. L'un des dangers de la facilité actuelle de rassembler des textes électroniques est précisément que les objectifs de regroupement ainsi que ceux des annotations effectuées ne soient pas enregistrés : le corpus cesse d'être utilisable dès que se perd la mémoire de ces choix.

La documentation doit couvrir deux volets distincts : les

sources utilisées et la responsabilité éditoriale de constitution du corpus d'une part, les conventions d'annotation d'autre part. »

Habert et al. (1997b), p. 156

23

Pour construire un corpus, il est essentiel:

 d'élaborer un protocole dans lequel sont décrits les choix faits pour sélectionner les locuteurs, pour les enregistrer, etc.;  de prévoir une documentation et des conventions afin que les données définitives apparaissent dans un format comparable. 24

Documentation et transcription Quelques questions

25

Situation du problème (1)

L'intérêt d'un corpus est double :

 Qu'il puisse être annoté et enrichi pour en faciliter l'utilisation  Qu'il puisse facilement être réutilisable par d'autres que par ceux qui l'ont développé.

Situation du problème (2)

Pour que ces deux objectifs soient satisfaits, il est nécessaire :  de fournir une documentation pour tout corpus . Cette dernière doit

contenir des informations sur le contenu/ les textes du corpus (locuteur, situation modalité d'enregistrement), mais aussi sur les annotations (quels types d'annotation ? phonétique, POS, discours, etc. Comment ? quelles étiquettes ? etc.) ;

 de proposer un standard (ou au moins de tendre vers un standard) dans la

constitution des annotations (que transcrire ? Quelle orthog raphe ? Quelles étiquettes pour les formes d'annotation ?)

Situation du problème (3)

Depuis le début des années 90, des réflexions visant à la standardisation ont vu le jour :

 le TEI : il rassemble des chercheurs de différentes disciplines et de différentes

nationalités pour proposer des conventions sur la typologie des documents et des recommandations sur les choix des étiquettes pour annoter les corpus. Il propose un ensemble concret de Standard Generalised Markup Language (SGML) Document Type Definitions (DTDs).

 CES et EAGLES regroupent des chercheurs de la communauté européenne qui

tentent de proposer des recommandations en vue de la transcription et l'annotation de différents types de corpus . Les recommandations sont généralement en conformité avec les travaux du TEI, mais elles s'inspirent aussi des travaux anglo-saxons en linguistique de cor pus. The CES propose un niv eau minimal d'annotation que tout corpus doit satisfaire pour être jugé en conformité avec les standard.

Recommandations (1)

Les recommandations proposées portent aussi bien sur :

 Les annotations qui ajoutent des informations  La transcription orthographique. Dans tous les cas, elles insistent sur le fait que les annotations

ou informations doivent figurer sur des documents autres que les textes eux-mêmes.

Recommandations (2)

Pour ces informations, appelées METADATA, outre celles qui servent à identifier et caractériser le cor pus, une distinction peut être faite entre :

 Les metadata éditoriales qui donnent des infos sur l'édition du corpus (transcription, modalités, etc.);  Les métadata analytiques, notamment pour les annotations linguistiques;  Les metadata descriptives (information sur le corpus, les révisions, etc.)

Pourquoi des standards et des

recommandations (1)

 Les corpus , même oraux, existent dans de nombreux domaines : anal yse de con versation, Analyse du discours, pragmatique, linguistique des interactions, phonologie, etc.

 Ils sont utilisés à des fins div ers : description, dimension sociale, etc.  Plusieurs traditions sous jacentes, y compris le papier et le crayon;  Nécessité de trouv er des consensus en vue de traitement ultérieurs.

Exemples (1)

quotesdbs_dbs1.pdfusesText_1
[PDF] les types de credit documentaire pdf

[PDF] les types de culture cellulaire

[PDF] les types de familles

[PDF] les types de fichiers

[PDF] les types de financement international

[PDF] les types de flux economique

[PDF] les types de formation en entreprise

[PDF] les types de lartisanat marocain

[PDF] les types de lecture au lycée

[PDF] les types de médias pdf

[PDF] les types de recherche en methodologie

[PDF] les types de roches sedimentaires

[PDF] les types de textes exercices

[PDF] les types de textes exercices cm2

[PDF] les types de textes exercices corrigés