Établir un corpus oral de questions - SHS Web of Conferences PDF shsconf_cmlf2016

Établir un corpus oral de questions : L'analyse semi-automatisée avec Praat et Perl à l'exemple de cinq épisodes de Maya l'Abeille Reinhardt, Janina a

La question de corpus : cours et exemple Barème : Sur 4 points pour les séries S / ES et L, sur 6 points pour la série STG Elle consiste en une question qui

[PDF] Corpus en bac pro - Lettres-Histoire

Présenter le corpus » n'est pas faire un relevé, il ne faut donc pas se contenter de citer les sources par exemple des deux ou trois documents ○ « Présenter le

[PDF] Introduction 1 Présentation du corpus - Université Côte dAzur

ra question, par exemple, d'étudier les différentes valeurs de ce morphème Dans un second temps, il sera question d'une présentation du corpus FPC et de

[PDF] QUELQUES EXEMPLES DANALYSE DES CORPUS EN - CORE

Vetulani Grażyna, Quelques exemples d 'analyse des corpus en vue de la traduction [Some examples of corpus analysis on the way of translation] Studia

[PDF] Comment constituer un corpus détude - lacitocnrs

Comment constituer un corpus d'étude Exemple d'une enquête linguistique sur le birman vernaculaire 199 Introduction Le birman est la langue maternelle de

[PDF] TEXTE ET CORPUS :

ainsi toute grammaire ou tout dictionnaire arbore des « exemples » ; on ne parle pas pour autant, dans ces cas, de « corpus » : il semble que la notion

[PDF] Introduction à lutilisation des corpus 1 Quest-ce quun corpus?

Quels types de corpus y a-t-il ? ➢ Quelques exemples ➢ A quoi peut servir un corpus ? ➢ Dans quel but doit-on constituer des corpus dans le cadre du Master

[PDF] Corpus en classe de langue Exemple avec les - Scientext

Introduction des corpus corpus numériques pour rédiger Être capable d'utiliser les éléments Comment sélectionner les exemples trouvés dans Google ?

[PDF] CONSTITUER UN CORPUS - Lexicometrica

lieux » du texte particuliers (l'introduction par exemple) Cette technique de constitution des textes par échantillonnage est souvent pratiquée pour les corpus

Établir un corpus oral de questions - SHS Web of Conferences

Établir un corpus oral de questions : L'analyse semi-automatisée avec Praat et Perl à l'exemple de cinq épisodes de Maya l'Abeille Reinhardt, Janina a

Reinhardt, Janinaa

Résumé. Cette communication donne des directives pour la sélection

des textes ainsi que des propositions concernant l'usage des outils Praat et Perl, puis les applique à un exemple. À l'heure actuelle, le traitement par

ordinateur devient de plus en plus important pour l'analyse des corpus. oublier qu'un corpus doit tout d'abord être composé de manière adéquate. De plus, l'automatisation peut être très utile, mais il est impératif de l'utiliser uniquement pour ce qui est décidable par les ordinateurs. Par conséquent, la contribution de cet article est une annotation manuelle par Praat, joint à a trois objectifs : supporter et améliorer les recherches s'appuyant sur des corpus, développer une méthodologie pour établir et analyser un corpus de questions parlées, et enfin

petit corpus, à savoir cinq épisodes de l'émission télévisée Maya l'Abeille. Dans ce dernier, je démontre que les patrons intonatifs ne peuvent pas être

associés directement aux structures morphosyntaxiques. De surcroît, les être expliquée par une seule catégorie de variables (intralinguistiques, appartenant à ces trois catégories. Abstract. Building an oral corpus of questions. This article sheds light upon the question of how to build and analyse an oral corpus of questions. To this end, it provides directives for the selection of texts, makes suggestions for the usage of the tools Praat and Perl, and applies them to an example. At present, computer processing is becoming increasingly important for the analysis of corpora. However, tempted by the huge amount

of data offered by the internet, researchers sometimes forget that a corpus has to be composed in an adequate way. Also, it is imperative that

automation is only used for decisions which can be made correctly by computers. Consequently, this article proposes an analysis in two-steps: first, a manual annotation with Praat, and second, the application of a Perl script to execute the automatable part. This article has three goals: the support and improvement of corpus-based researches, the development of a

methodology to establish and analyse a corpus of spoken questions, and the exemplification of such a procedure through its application to a corpus of

five episodes of the TV series Maya l'Abeille. In the latter, I show that intonational patterns cannot be mapped to morphosyntactic structures. What is more, I give support to the notion that morphosyntactic variation should a janina.reinhardt@uni-konstanz.de , Web of Conferences (2016)DOI: 10.1051/

SHS2shsconf/2016277

Congrès Mondial de Linguistique Française - CMLF 2016

1100711007

License 4.0 (http://creativecommons.org/licenses/by/4.0/). not be reduced to either language-internal, sociolinguistic, or pragmatic factors, but is best described by incorporating all of these factors.

1 Introduction

Le but des corpus annotés sera toujours le même : rendre transparentes et interprétables la

quand il est enregistré et transcrit (voir Gadet 2007 : 45 [1]). De plus, la décontextualisation

Pour illustrer cela, regardons

une des questions du corpus qui sera analysé dans la sixième section de cet article : (1) Tu te promènes avec ta maison sur le dos ? Si on ne gardait que cette transcription, on laisserait de côté importantes : la situation communicative y compris les informations sur le locuteur et te, sa signification concrète (c.-à- d. sa fonction pragmatique). Pour pouvoir interpréter cet exemple, on doit absolument savoir que la locutrice de cet énoncé les enfants du même nom exprime une certaine surprise ou incrédulité. qui doivent être fournies de celles qui sont superflues, et dont l'annotation serait inutilement chronophage. Ainsi nous donne-t-elle souvent un chantier inachevé. Ce risque de se perdre dans des annotations superflues se retrouve encore augmenté dans les corpus de questions. Vu que le système interrogatif français complexité (Behnstedt 1973 : 207 ; Coveney 2012 : 1 ; Elsig 2009 : 1 sq. ; Gadet 1997 : 7 sq. [2-5]), on se voit contraint de donner de nombreuses précisions pour saisir le système entier.1

Cependant, une telle analyse incite à introduire une énorme quantité de chiffres qui provoque

En regardant les -

explicativité ainsi que la comparabilité des corpus laissent à désirer. Il est impossible de

déchiffrer les informations sur ces énoncés interrogatifs sans se mettre au courant des

systèmes de codage individuels. Dans le premier exemple, on n même pas à réconstruire la phrase : (i) [inf aff oui ]a SV 1 ESV VCL - ce était ! (Coveney 2002) : 253 [6]) (ii) Type IIB2c. S : pr + V + DO : n -> *S : pr + V + DO : que -> *DO : que + S : pr + V -> DO : que + Int : que + S : pr + V -ce qu-haut ? Cer2, p. 7 (Terry 1970 : 138 [7]) (iii)02 monsieur le maire 4 dois-je vous appeler par anticipation monsieur le premier ministre de 17 a cohabitation 6 (02 :22) (Lindqvist 2001) : 42 [8]2)

Dans cet article, je vais montrer comment

plus transparente. Plus précisément, cette communication a trois objectifs : supporter et

une méthodologie pour établir un corpus oral petit corpus. , Web of Conferences (2016)DOI: 10.1051/

SHS2shsconf/2016277

Congrès Mondial de Linguistique Française - CMLF 2016

11007110072

cturé de la manière suivante : dans la section qui suit cette introduction, je démontrerai la valeur potentielle des analyses de corpus tout en exposant leurs limitations.

Après, je donnerai des directives qui peuvent aider à faire le bon choix concernant la sélection

obtenir une bonne lisibilité et comparabilité. Dans la section quatre

Dans la section cinq, je

dévoilerai un script en Perl à disposition libre et gratuite. Ce script

permet de relever ce qui a été transcrit et annoté manuellement en Praat, il annote les types

de question sémantiques et morphosyntaxiques, et il trie les questions par ceux-ci. En dehors

de cela, il explicite les différences trouvées et il enregistre toutes les données dans un fichier

Finalement

Le corpus utilisé est composé de questions extraites de cinq épisodes de la série télévisée

. L permet de montrer qu'il existe des corrélations entre les formes et les fonctions des questions. Notamment, il sera démontré que les patrons intonatifs semblent être reliés plus aux types pragmatiques à la structure morphosyntaxique et que la variation morphosyntaxique pourrait être due à des conditions discursives - et extralinguistiques.

2 La place des corpus dans la recherche sur l

Dans cette section, je présicerai quelles chances une linguistique de corpus apporte à une on respecte les limitations de quelques directives. Pour clarifier les choses, je proposerai une manière de procéder dans une enquête sur les interrogatives. : Comme Jacques (2005 : 22-25

[9]) a déjà fait remarquer, elle permet " l'observation et la description des usages

authentiques de la langue », elle offre une méthodologie empirique qui s'appuie sur des tests

statistiques, elle aide à capter la variation d'une façon satisfaisante en déterminant non

grâce à elle ne sont pas toujours fiables.

Ces arguments

sondages ne semblent être capables de saisir ce phénomène dans toute sa complexité.

linguistique du français hexagonal est marquée par la standardisation linguistique à tel point

que la plupart des locuteurs hésitent à donner un avis personnel, ce qui les empêche de développer un sens intuitif de la langue. Les intuitions sur la langue maternelle sont parfois

remplacées par des normes intériorisées, processus qui ne devrait pas être sous-estimé. Pour

exemplifier cela, je fais référence à un questionnaire

sur les énoncés interrogatifs en français. Une des tâches consiste à cocher si la construction

erait dans le contexte précisé. Tableau 1. Extrait du questionnaire CONTEXTE VARIANTE

Un couple est en train de mettre la table pour

ses inǀitĠs. Yuand la femme dit ͞4a ǀa pas.", OUI NON , Web of Conferences (2016)DOI: 10.1051/

SHS2shsconf/2016277

Congrès Mondial de Linguistique Française - CMLF 2016

11007110073

Une personne participante a marqué " oui », mais elle a inséré la particule ne en rouge. statistiquement peu probable (cf. Coveney 2002 :

86 [6]), vu que la situation est très informelle. Une autre personne a même fait remarquer

" - ? », expression qui résulte hypercorrection3. Est-ce à dire que les locuteurs du français hexagonal ne prononcent que des interrogatives qui leur semblent normativement correctes ? Certainement

pas. Malgré ces indications, il serait précipité de supposer que les locuteurs se comportent

er que la conscience linguistique (cf. Adli 2015 [10])4. ; il ne sera donc pas surprenant que de nombreuses enquêtes sur les constructions interrogatives de la langue française englobent une analyse de corpus (p. ex. Behnstedt 1973, Coveney 2002, Néanmoins, on ne devrait pas non plus oublier d'interroger les locuteurs, de recourir à l'introspection et à des expérimentations, trois Il est possible que des soi-disant existants impossibles (Jacques 2005: 29 [9]), des erreurs de performance et des formes très restreintes ou marquées apparaissent, ce qui interdit de prendre chaque découverte comme point de départ pour une généralisation. De plus, aucun corpus ne pourra définir les limites du possible, on aura outil d'exploration systématique des possibles du

système » (Jacques 2005: 24 [9]). De la même façon, on doit prendre conscience du fait que

; la partie interprétative restera, au même titrtoujours subjective, du moins dans une certaine mesure (dans ce contexte, Garric et Léglise (2005 : 111 [14]) parle du " fantasme corpus nécessitent des vérifications par des questionnaires et des expérimentations. donner des premiers indices si une hypothèse peut être correcte ou non, mais elle ne peut pas être laboutissement . Pour confirmer ou refuser une hypothèse, on aura encore

3 Comment constituer un corpus de questions ?

Dans cette section, je traiterai les deux premières et la dernière des quatre phases de la

Delais-Roussarie 2003 : 92

[15]la -à-dire la sections 4 et 5. comment procéder. En conséquence, la

À la suite, il faut

(pour un aperçu sur les types de corpus, voir Delais- Roussarie 2003 : 93sq. [15]) qui est le mieux à même de donner des éclaircissements sur la question de recherche. Pour finir, on choisit le matériel linguistique en fonction de ce type.

La première phase de préparation consiste donc à déterminer les critères pour sélectionner

les textes à inclure dans le corpus.

Pour illustrer cela, le corpus qui

sera analysé dans cet article. Ce corpus a été construit comme étude préliminaire dans le

les corrélations entre les formes et les fonctions des énoncés

interrogatifs. Comme il s'agit d'une étude préliminaire, il a fallu se limiter. Cela implique que , Web of Conferences (2016)DOI: 10.1051/

SHS2shsconf/2016277

Congrès Mondial de Linguistique Française - CMLF 2016

11007110074

les résultats obtenus ne pourront pas conduire à des généralisations, mais seront le point de

départ pour une recherche plus élaborée. Pour déterminer toutes les corrélations entre les

constructions phono-morpho-syntaxiques et leurs sens pragmatiques, on aurait bien

évidemment représentatif.

enquête plus ample

suffit. Pour construire un corpus dans le but de faire des recherches sur les questions, il faut donc

concret mais aussi toutes les sélections qui en résultent : Quelle(s) variété(s) du français veut-on analyser - sur les questions ? Est-à un certain type de question ou préfère-t-on plutôt en comparer plusieurs ? -d par une question ? Pour présentée dans cet article, les réponses sont les suivantes : le but sera de trouver des rapports entre les marquages phonologiques, lexico-morphologiques et la réalisation morphosyntaxique/intonative et la signification. Cela on veut repérer les interrelations entre les marquages formels ainsi que les corrélations entre les marquages et les messages des questions. principal est donc

de systématiser les constructions interrogatives en détectant les simples tendances (c.-à-d. la

probabilité des occurrences de certaines structures) ainsi que les vraies contraintes (c.-à-d. . objectif ne permet pas la limitation à un seul type de question mais exige la comparaison entre plusieurs types. Pour ce qui est de la définition du terme de question, définition sémantique, à savoir : ant une certaine lacune tout énoncé marqué par c.-à-d. sujet postverbal) sans déclencheur, un mot interrogatif (p. ex. quand), une particule interrogative (est-ce que ou -tuquestionnante (dite montante, mais en fait il ) sera considéré comme interrogatif -ce pas (cf. Combettes 2016 [16]) ou tu vois .5 Une fois déterminés les objectifs et les limitations de la recherche, il faut obtenir des données. Pour cela, on peut choisir de faire des enregistrements soi-même ou prendre des

données existantes en sélectionnant des textes correspondants. Cette sélection est nécessaire

pour pouvoir prendre un échantillon d'une certaine variété linguistique qui sera exploitable

par ordinateur (qualité souvent incluse dans la définition de corpus, cf. Delais-Roussarie

2003 : 93, Scherer 2014 : 3 [15, 17]

formuler des hypothèses. Comme le français utilisé à la télévision varie fortement, il fallait se restreindre. Pour ce

premier essai, j pour le langage utilisé dans la série pour enfants . Ce

choix a été motivé par plusieurs raisons : premièrement, le langage utilisé devait être produit

dans des situations d'interaction directe avec des contextes variés mais bien délimités.

Deuxièmement, la qualité devait être assez bonne pour pouvoir détecter les phones prononcés

et la fréquence fondamentale. Troisièmement, le plus possible de types de question devrait

apparaître. Ces critères excluaient les shows où plusieurs candidats parlent spontanément

(mauvaise qualité et chevauchements de paroles) ainsi que les journaux télévisés et les talk-

shows (peu de variation discursive et donc moins de différents types de question). Par

conséquent, il fallait trouver une émission scénarisée où les situations décrites étaient faciles

à saisir et à

venue. Par ailleurs, autant que je sache,

utilisées dans le langage didactique télévisé, variété qui pourrait ouvrir de nouvelles

perspectives.6 , Web of Conferences (2016)DOI: 10.1051/

SHS2shsconf/2016277

Congrès Mondial de Linguistique Française - CMLF 2016

11007110075

Le corpus qui sera analysé ici n'est composé que de cinq épisodes de . Pour une vraie recherche, cela ne serait évidemment pas possible, mais pour une pré-étude, cela

suffira. Il faut simplement garder à l'esprit que les inter- et corrélations trouvées ne pourront

faut prendre conscience du fait que ces cinq épisodes seront au mieux un échantillon de cette série pour

enfants mais non du langage utilisé dans toutes les séries pour enfants voire du français parlé

à la télévision ou même du français en général. Ce qui

les énoncés interrogatifs et les informations sur les situations dans lesquelles ils ont été

produits. Pourtant, comme Jacques (2005 : 26 [9]) explique, " les données soumises à l'analyse

ne sont précisément pas des données au sens où elles résultent d'une sélection »

qui

est nécessaire si on veut avoir un corpus spécifique qui rende possible des observations et des

généralisations. Afin de minim devrait remplir quelques conditions (cf. Cappeau & Gadet 2007, Delais-Roussarie 2003 : 94-

97, Scherer 2014 : 5 sq. [18, 15, 17]

(le plus) représentatif (possible)-à- examine en restant fidèle jusque dans le détail (c.-à-d. mêmes proportions que la population entière). La deuxième exigence vient du caractère

scientifique souhaité : le corpus doit être accessible et compréhensible pour que son analyse

soit reproductible et amendable. Par conséquent, tous les choix et toutes les informations sur

Pour finir, il faut aussi séparer la

présentation des faits objectifs des données de ceux obtenus par que cela puisse poser des problèmes. Pour les corpus oraux, il est incontournable de publier non seulement les transcriptions et les annotations, mais encore les fichiers audio qui servaient de base.

parviennent aux mêmes conclusions. Ce dernier point nous mène à la quatrième phase de la constitution d corpus :

il va de soi q ne le permettent. Heureusement, il y a des plateformes hébergées par TGIR Huma-Num comme ORTOLANG (Outils et Ressources pour un Traitement Optimisé de la LANGue [19, 20]) et COCOON (COllections de COrpus Oraux Numériques [21]), qui facilitent la publication de

données orales7. En ce qui concerne le petit corpus présenté ici, on peut télécharger les

fichiers audio ainsi que les fichiers texte de Praat sur la première des deux

plateformes ; on les trouve http://hdl.handle.net/11403/maya/v1 [22]. Je conclus par un graphique résumant .

ans la section

Fig. 1. PREPARATION:

1. objectifs visés

2.limitations

3.c de corpusOBTENTION DES

DONNEES:

-enregistrements (scriptés ou non) ou sélection de données existantes ANALYSE: -annotation inclusivement transcriptionARCHIVAGE

PUBLIC:

-publication dans le

Web (p. ex. sur

ORTOLANG ou

COCOON) , Web of Conferences (2016)DOI: 10.1051/

SHS2shsconf/2016277

Congrès Mondial de Linguistique Française - CMLF 2016

11007110076

4 manuelle avec Praat

Retournons donc à la troisième phase de la constitution d Comme les énoncés sont des données acoustiques, il est recommandable de se servir doutils aligner les étiquetages directement sur le signal. Pour cela, nous avons décidé d'utiliser le logiciel PRAAT (Boersma & Weenink

2015 ; pour voir une introduction pratique, consultez Delais-Roussarie et al. 2003 [23-24]).

Cette phase de description peut être divisée en trois grandesquotesdbs_dbs6.pdfusesText_12

[PDF] Établir un corpus oral de questions - SHS Web of Conferences

Reinhardt, Janinaa

SHS2shsconf/2016277

1100711007

1 Introduction

Pour illustrer cela, regardons

En regardant les -

Dans cet article, je vais montrer comment

SHS2shsconf/2016277

11007110072

Dans la section cinq, je

Finalement

2 La place des corpus dans la recherche sur l

Ces arguments

Un couple est en train de mettre la table pour

SHS2shsconf/2016277

11007110073

86 [6]), vu que la situation est très informelle. Une autre personne a même fait remarquer

3 Comment constituer un corpus de questions ?

Delais-Roussarie 2003 : 92

À la suite, il faut

Pour illustrer cela, le corpus qui

SHS2shsconf/2016277

11007110074

évidemment représentatif.

2003 : 93, Scherer 2014 : 3 [15, 17]

à saisir et à

SHS2shsconf/2016277

11007110075

97, Scherer 2014 : 5 sq. [18, 15, 17]

Pour finir, il faut aussi séparer la

Fig. 1. PREPARATION:

2.limitations

DONNEES:

PUBLIC:

Web (p. ex. sur

ORTOLANG ou

SHS2shsconf/2016277

11007110076

4 manuelle avec Praat

2015 ; pour voir une introduction pratique, consultez Delais-Roussarie et al. 2003 [23-24]).