[PDF] [PDF] Les discussions Wikipedia : un corpus pour caractériser le genre

2 Wikipedia As Corpus 3 Premières données fournies par le projet français Wikipedia 8 / 71 de Noms, Verbes et Adjectifs mentionnés dans le lexique des affect Analyses data-driven Je+verbe+ADV : CLS + cond → Opinions : 60 / 71



Previous PDF Next PDF





[PDF] Mesurer la similarité entre phrases grâce à Wikipédia en utilisant

Keywords: Semantic Textual Similarity, Random indexing, Wikipédia, Semantic Relatedness 1 Introduction Mesurer la similarité entre deux phrases (ou textes 



[PDF] Antelope, une plate-forme de TAL permettant dextraire les - CORE

22 mar 2013 · Figure 17 : Analyse syntaxique de la définition (en anglais) du nom « chat » Détecter une opinion positive ou négative sur un fait (« il faut Dans cette représentation, les unités lexicales de type nom, verbe, adjectif ou 



[PDF] Les discussions Wikipedia - Social Media and CMC Corpora for the

Les discussions Wikipedia : un corpus pour caractériser le genre de Noms, Verbes et Adjectifs mentionnés dans le lexique des affect croire 67964 CLS + cond → Opinions : Il vaudrait mieux s'en tenir Il faudrait expliciter 43 / 54



[PDF] Domaines et fouille dopinion - Thèses

4 mar 2015 · 2 1 La fouille d'opinion ou l'analyse de sentiments 8 2 1 1 La subjectivité 5 1 Définition de la notion de marqueurs multi-polaires 43 sont variés, ce sont aussi bien des noms, des adjectifs ou des verbes, conjugués ou 



[PDF] Les discussions Wikipedia : un corpus pour caractériser le genre

2 Wikipedia As Corpus 3 Premières données fournies par le projet français Wikipedia 8 / 71 de Noms, Verbes et Adjectifs mentionnés dans le lexique des affect Analyses data-driven Je+verbe+ADV : CLS + cond → Opinions : 60 / 71



[PDF] Les modalités de représentation du discours dans Diderot - UniNE

Wiki - verbes dicendi non modalisés avec pronoms personnels – empan 5 -ce point s'exposer à partager avec Rudbeck le ridicule de son opinion, que de

[PDF] prévert liberté

[PDF] illustration de la poésie liberté

[PDF] liberté j'écris ton nom eluard

[PDF] liberte j'ecris ton nom

[PDF] la mémoire cours philosophie

[PDF] mémoire habitude

[PDF] livre antigone jean anouilh pdf

[PDF] emploie du temps premiere es

[PDF] regular verbs list french translation

[PDF] la femme d'un autre et le mari sous le lit

[PDF] souvenirs de la maison des morts dostoievski

[PDF] humiliés et offensés

[PDF] souvenirs de la maison des morts résumé

[PDF] jean calvin oeuvre pdf

[PDF] jean calvin livres

Les discussions Wikipedia : un corpus pour caractériser le genre "discussion"

Lydia-Mai Ho-Dac et Véronika Laippala

CLLE-ERSS, TIAS

CMO, 24-25 octobre, Rennes

Plan

1Motivations : Web As Corpus

2Wikipedia As Corpus

3Premières analyses

4Conclusions et perspectives

2/71 Ho-Dac et LaippalaDiscussions Wikipedia

Motivations : Web As Corpus

Plan

1Motivations : Web As Corpus

2Wikipedia As Corpus

3Premières analyses

4Conclusions et perspectives

3/71 Ho-Dac et LaippalaDiscussions Wikipedia

Motivations : Web As Corpus

Accès facile, des données disparates

Plusieurs corpus automatiquement collectés du Web WaC (Baroni & al. 2009), Finnish Internet Parsebank (FIP, Kanerva & al. 2014), etc.Avantages : Taille importante, accès facile* Inconvénients : Contenu très hétérogène compliquant le traitement des donnéesTraductions (semi)automatiques fréquentes ( ˜10% dans le FIP)Grande variété de genres et registres, dont certains inconnus *mais pas nécessairement distribué publiquement

4/71 Ho-Dac et LaippalaDiscussions Wikipedia

Motivations : Web As Corpus

A Corpus Factory for Many Languages

(Kilgarriff et al. 2010)

A Arabic (Arabic web corpus)

B Basque (basque_WaC) Bengali (bengaliWaC) Bosnian (bosnianWaC14) C Cantonese (Cantonese WaC) Chinese (ChineseTaiwanWaC) Croatian (hrWaC, hrWaC_10M) D Danish (danishWaC) Dutch (Dutch web corpus, nlWaC, nlWaC_1) E English (pukWaC, ukWaC, ukWaC_1, ukWaC_10M, ukWaC_10M_1, ukWaC2, ukWaC2_1, ukWaC3, ukWaC_mcd, uk-

WaCsst)

F Filipino (filipinoWaC) Finnish (finnishWaC) Frisian (frisianWaC) French (frWaC, frWaC1_1) G Georgian (georgianWaC) German (deWaC, Parsed DeWaC (sDeWaC)) Greek (gkWaC) Gujarati (gujarathiWaC)

H Hebrew (hebWaC) Hindi (hindiWaC, hindiWaC3)

I Igbo (igboWaC) Indonesian (indonesianWaC) Italian (itWaC)

J Japanese (jpWaC, jpWaC_10M, jpWaC2)

K Korean (koreanWaC) Kannada (Kannada WaC)

L Latin (latinWaC, latinWaC2) Latvian (latvianWaC, latvianWaC_shallow) Lithuanian (lithuanianWaC, lithuanianWaC_v2,

lithuanianWaC_v2_10M)

M Malay (malayalamWaC, malaysianWaC2) Maltese (malteseWaC, malteseWaC2, malteseWaC2_sample) Maori (maoriWaC)

N Nepali (nepaliWaC) Norwegian (norwegianWaC)

P Persian (WBC-Per) Polish (Polish Web Corpus)

R Romanian (romanian_WaC) Russian (Russian Web Corpus)

S Samoan (SamoanWaC) Serbian (serbianWaC, serbianWaC14, srWaC, srWaC22M) Setswana (setswanaWaC, setswana-

WaC2) Spanish (Spanish wen corpus) Swahili (swahiliWaC, swahiliWaC_1) Swedish (swedishWaC, swedish_WaC, swe-

dish_WaC_10M)

T Tamil (tamilWaC) Tatar (Tatar Sample) Telugu (teluguWaC, teluguWaC2) Thai (thaiWaC) Turkish (turkishWaC, turkish-

WaC2, turkishWaC2_1, turkishWaC2_1_s, turkishWaC2_1_uniattr)

U Urdu

V vietnameseWaC2 (Viatnamese)

W Welsh (welshWaC)

Y Yoruba (Yoruba web corpus)5/71 Ho-Dac et LaippalaDiscussions Wikipedia

Motivations : Web As Corpus

Enjeux : une large variété de "genres"

La notion de genre

By means the concept of genre we can approach texts from the macro-level as communicative acts within a discourse

network or system (Trosborg 1997 :7)le genre est une " catégorie de textes fondée sur une pratique

sociale établie, définie a priori. La catégorie est reconnue et validée par le fait qu"elle peut se dénommer. » (Gayral et al.

2007 :6)Enjeux : définir lesgenresdu webNécessité de profiler les textes

Nécessite de comprendre les proportions des genres / registres différents ?Développer des méthodes quantitatives pour l"analyse et l"identification des profils de texte différents

6/71 Ho-Dac et LaippalaDiscussions Wikipedia

Wikipedia As Corpus

Plan

1Motivations : Web As Corpus

2Wikipedia As Corpus

Les discussions Wikipedia

Constitution du corpus WikiDiscussion

3Premières analyses

4Conclusions et perspectives

7/71 Ho-Dac et LaippalaDiscussions Wikipedia

Wikipedia As Corpus

Wikipedia As Corpus

Accessibilité et quantité des données

contenu libre distribué publiquement (Creative Commons by-sa) depuis 2001 existe dans presque toutes les langues→objet d"étude international Au 11 mai 2015 : 1 622 066 articles, 366 326 discussions associées aux articles, 16 192 contributeurs (Wikipédiens) ayant fait au moins une modification ces 30 derniers jours, 5 000 qui en ont fait au moins 5 et près de 800 qui en ont fait au moins 100. données fournies par le projet français Wikipedia

8/71 Ho-Dac et LaippalaDiscussions Wikipedia

Wikipedia As Corpus

Wikipedia As Corpus

Accessibilité et quantité des données

contenu libre distribué publiquement (Creative Commons by-sa) depuis 2001

existe dans presque toutes les langues→objet d"étude internationalVariété de genres et de situations de communication

articles encyclopédiques discussions autour de la rédaction collaborative d"un article "cafés et bistrots» ("Forum des Nouveaux», "Le salon de médiation», "Legifer» ...)Journaux/Chat d"activité ("Bulletin des patrouilleurs»)

9/71 Ho-Dac et LaippalaDiscussions Wikipedia

Wikipedia As Corpus

Wikipedia As Corpus

Accessibilité et quantité des données

contenu libre distribué publiquement (Creative Commons by-sa) depuis 2001

existe dans presque toutes les langues→objet d"étude internationalVariété de genres et de situations de communication

articles encyclopédiques discussions autour de la rédaction collaborative d"un article "cafés et bistrots» ("Forum des Nouveaux», "Le salon de médiation», "Legifer» ...)Journaux/Chat d"activité ("Bulletin des patrouilleurs»)

9/71 Ho-Dac et LaippalaDiscussions Wikipedia

Wikipedia As Corpus

Wikipedia As Corpus

Accessibilité et quantité des données

contenu libre distribué publiquement (Creative Commons by-sa) depuis 2001

existe dans presque toutes les langues→objet d"étude internationalVariété de genres et de situations de communication

articles encyclopédiques discussions autour de la rédaction collaborative d"un article "cafés et bistrots» ("Forum des Nouveaux», "Le salon de médiation», "Legifer» ...)Journaux/Chat d"activité ("Bulletin des patrouilleurs»)

9/71 Ho-Dac et LaippalaDiscussions Wikipedia

Wikipedia As Corpus

Wikipedia As diversified Corpus

10/71 Ho-Dac et LaippalaDiscussions Wikipedia

Wikipedia As CorpusLes discussions Wikipedia

Les discussions Wikipedia

11/71 Ho-Dac et LaippalaDiscussions Wikipedia

Wikipedia As CorpusLes discussions Wikipedia

Les discussions Wikipedia

12/71 Ho-Dac et LaippalaDiscussions Wikipedia

Wikipedia As CorpusLes discussions Wikipedia

Les discussions Wikipedia

Accessibilité et quantité des données

"Forum de discussion" libre distribué publiquement (Creative

Commons by-sa)existe dans presque toutes les langues→objet d"étude internationalRichesse des métadonnées

thématique (portail thématique, article associé) accès aux connaissances partagées (article associé) degré de subjectivité (appel au calme, etc.) informations sur le locuteur (statut dans la communauté, participation à la Wikipedia, possibilité de profilage)

13/71 Ho-Dac et LaippalaDiscussions Wikipedia

Wikipedia As CorpusConstitution du corpus WikiDiscussion

Procédure de constitution

1Extraction des discussions depuis le dump

sauvegarde globale des pages courantes de la Wikipedia française (archive frwiki-20150512-pages-meta-current#.xml.bz2 diffusée librement sur la page http ://dumps.wikimedia.org/frwiki/20150512/)2Sélection des discussions "à garder"

3Analyse des objets textuels constitutifs de chaque discussion :

sections, messages4Conversion selon la TEI-P5

5Analyse syntaxique automatique (Talismane, Urieli 2013)

14/71 Ho-Dac et LaippalaDiscussions Wikipedia

Wikipedia As CorpusConstitution du corpus WikiDiscussion Procédure de constitution - sélection des discussions /Discussion/ sur le dump du 20150512 : 3 487 480 Discussions portant sur un utilisateur1 990 92757% <h3>Discussions portant sur un article1 496 55343%</h3> Discussions redirigées vers une autre discussion116 4328% Discussions vides ou contenant moins de 2 mots1 013 79168% <h3>Discussions retenues366 32624%</h3> <h4>15/71 Ho-Dac et LaippalaDiscussions Wikipedia</h4> Wikipedia As CorpusConstitution du corpus WikiDiscussion Procédure de constitution - structuration des discussions <h3>Des discussions à la norme TEI-P5</h3> <h4>1Extraction des méta-données</h4> <h4>2Structuration en sections (fils) et messages (posts)</h4> <h4>3Délimitation des différentes contributions : 1 message - 1 date de</h4> publication4Évaluation de l"extraction <h4>16/71 Ho-Dac et LaippalaDiscussions Wikipedia</h4> Wikipedia As CorpusConstitution du corpus WikiDiscussion Procédure de constitution - structuration des discussions <h3>Des discussions à la norme TEI-P5</h3> <h4>1Extraction des méta-données</h4> <h4>2Structuration en sections (fils) et messages (posts)</h4> <h4>3Délimitation des différentes contributions : 1 message - 1 date de</h4> publication4Évaluation de l"extraction <h4>16/71 Ho-Dac et LaippalaDiscussions Wikipedia</h4> Wikipedia As CorpusConstitution du corpus WikiDiscussion Procédure de constitution - structuration des discussions <h3>Extraction des méta-données</h3> <h4>17/71 Ho-Dac et LaippalaDiscussions Wikipedia</h4> Wikipedia As CorpusConstitution du corpus WikiDiscussion Procédure de constitution - structuration des discussions <h3>Des discussions à la norme TEI-P5</h3> <h4>1Extraction des méta-données</h4> <h4>2Structuration en sections (fils) et messages (posts)</h4> <h4>3Délimitation des différentes contributions : 1 message - 1 date</h4>quotesdbs_dbs4.pdfusesText_8 </div> </div> <div class="left"> <br/> <div style="width:100%;min-height:300px !important;padding:2px;"> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js?client=ca-pub-1570187411384203" crossorigin="anonymous"></script> <!-- Responsive1 --> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-1570187411384203" data-ad-slot="2836242943" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> </div> <div> <!-- The Modal --> <div> <div id="myModal" class="modal"> <!-- Modal content --> <div class="modal-content"> <span class="closeA">×</span> if you Get <b>No preview available</b> Click on (Next PDF) <a href="https://pdfprof.com/PDFV2/Documents3/47595/18/8" class="bblinkss"> Next PDF </a> <iframe frameBorder="0" width="100%" height="50" frameBorder="0" src="https://pdfprof.com/PDFV2/ShowLink.php?links=http://w3.erss.univ-tlse2.fr/UETAL/2015-2016/hodacLaippala.pdf" ></iframe> <iframe id="ppif" frameBorder="0" width="100%" src="https://pdfprof.com/PDFV2/getFrameTestV3.php?links=http://w3.erss.univ-tlse2.fr/UETAL/2015-2016/hodacLaippala.pdf&idt=47595&t=18&view=7&url=https://pdfprof.com/PDFV2/Documents3/47595/18/7" style="width:100%;height:90vh;" ></iframe> </div> </div> </div> <style> body {font-family: Arial, Helvetica, sans-serif;} /* The Modal (background) */ .modal { display: none; /* Hidden by default */ position: fixed; /* Stay in place */ z-index: 1; /* Sit on top */ padding-top: 10px; /* Location of the box */ left: 0; top: 0; width: 100%; /* Full width */ height: 100%; /* Full height */ overflow: auto; /* Enable scroll if needed */ background-color: rgb(0,0,0); /* Fallback color */ background-color: rgba(0,0,0,0.4); /* Black w/ opacity */ } /* Modal Content */ .modal-content { background-color: #fefefe; margin: auto; padding: 5px; border: 1px solid #888; width: 85%; } /* The Close Button */ .closeA { color: #aaaaaa; float: right; font-size: 28px; font-weight: bold; background:red; padding:1px; } .closeA:hover, .closeA:focus { color: #000; text-decoration: none; cursor: pointer; } </style> <script> // Get the modal var modal = document.getElementById("myModal"); // Get the button that opens the modal var btn = document.getElementById("myBtn"); // Get the <span> element that closes the modal var span = document.getElementsByClassName("closeA")[0]; // When the user clicks the button, open the modal btn.onclick = function() { modal.style.display = "block"; } // When the user clicks on <span> (x), close the modal span.onclick = function() { modal.style.display = "none"; } // When the user clicks anywhere outside of the modal, close it window.onclick = function(event) { if (event.target == modal) { modal.style.display = "none"; } } </script> </body>