[PDF] Normalisation orthographique de corpus bruités





Previous PDF Next PDF





passerelle-2005.pdf

fautes de syntaxe et d'orthographe l'irrespect des règles grammaticales et les impropriétés de langage pénaliseront les candidats.



Lorthographe du français : usages et représentations dadultes

25 oct. 2013 1.4.3 L'orthographe malmenée : à qui la faute? ... sus de milieu plus modeste et les élèves à l'heure sur ceux qui ont redoublé.



PGE PGO

fautes de syntaxe et d'orthographe l'irrespect des règles grammaticales l'Agence européenne du médicament qui ont jusqu'ici toujours conclu que sa ba-.



Poésie et politique dans lœuvre dAimé Césaire: contradictions

Toumson nous met en garde sur l'erreur de séparer l'écrivain du politique. 88 Présentation des travaux de Bâ Souley dans Poétique de Césaire



Comment rédiger un rapport un mémoire

https://www.unioviedo.es/ecrire/redigera.pdf



UNIVERSITE PARIS IV – SORBONNE ECOLE DOCTORALE IV

dat feller what worked in d'soap factory didn't I L'accent d'Astérix est retranscrit par des fautes d'orthographe par la suite explici-.



Normalisation orthographique de corpus bruités

23 oct. 2015 Une faute d'orthographe étant un type d'altération tout comme peut l'être par exemple une abréviation. Nous reviendrons sur ces notions dans ...



Bibliographie des éditions des de Tournes imprimeurs lyonnais

Réimpression pure et simple de l'édition de 1543 avec orthographe S'il i à des fautes [en cette nouvelle impression]



Orthographe et phonologie dans la perception des mots écrits

28 nov. 2018 MOTS CLEFS : Lecture perception

Université Paris Diderot - Sorbonne Paris Cité

École doctorale de Sciences du Langage n

o132

UFR Linguistique

Laboratoire Alpage (Inria - Université Paris Diderot)

Entreprise viavoo

Doctorat de Linguistique Théorique, Descriptive et Automatique

Marion Baranes

Normalisation orthographique

de corpus bruités Thèse dirigée par :LaurenceDanloset BenoîtSagot

Soutenue publiquement le 23 Octobre 2015

Composition du jury:

Dr DelphineBernhardUniversité de Strasbourg (Examinatrice) Pr. LaurenceDanlosUniversité Paris-Diderot (Paris 7) (Directrice) Pr. CédrickFaironUniversité Catholique de Louvain (Rapporteur) Pr. PhilippeLanglaisUniversité de Montréal (UdeM) (Rapporteur)

Dr BenoîtSagotInria (Co-Directeur)

i

Remerciements

Je tiens tout d"abord à remercier Thierry Desforges, directeur de l"entreprise via- voo, d"avoir rendu possible la réalisation de ce travail et de m"avoir accordé sa confiance. Un immense merci à Benoît Sagot qui a clairement enrichi la définition du mot encadrerdans le contexte de cette thèse. Je salue notamment l"intérêt constant qu"il a porté à ces travaux, sa disponibilité et ses conseils méticuleux. Je remercie Cédrick Fairon et Philippe Langlais qui m"ont fait l"honneur d"être rapporteurs de cette thèse et qui m"ont fait part de leurs commentaires précieux. Merci aussi à Delphine Bernhard qui a accepté de faire partie du Jury de cette soutenance. J"adresse une pensée particulière à Geoffrey Doucy qui m"a patiemment encadré au sein de viavoo pendant mes premières années de thèse. Sans lui cette thèse n"aurait jamais eu lieu. Merci aussi à Sébastien Louvet qui a su reprendre ce suivi avec justesse et qui a eu foi en mes délais parfois légèrement utopiques. J"ai eu la chance chez viavoo d"être entourée et encouragée, merci donc à mes collègues et ex-collègues et notamment à Anne-Charlotte, Aude, Goshia, Jeanne, Laurent, Stav. et Taoufik qui m"ont chacun prêté une oreille attentive et aidé, à leur manière, quand j"en avais besoin. Merci à Laurence Danlos et à tous les membres d"Alpage qui ont représenté pour moi de véritables bouffées d"oxygène. Travailler dans ce laboratoire m"a notam- ment permis de rencontrer Virginie Mouilleron, Damien Nouvel et Djamé Seddah dont les conseils m"ont été précieux. Ces mois passés sur cette thèse n"auraient jamais été les mêmes sans les docto- rants et ex-doctorants du labo : Charlotte, Chloé, Corentin, Emmanuel, Enrique, Juliette, Luc, Marianne, Maximin, Pierre, Rosa et Sarah. Des personnes rares qui ont su ensoleiller mes journées. Je remercie Valérie d"avoir été aux petits soins avec moi quand je me consumais à petit feu et pour son admirable talent à me rendre le sourire en toutes circons- tances. De manière plus générale, merci à mes amis et à ma famille. J"ai une chance incroyable de vous avoir et d"être si bien entourée. Je remercie enfin mes parents et mon frère pour être ce qu"ils sont et pour leur soutien sans faille. Merci à ma mère qui a eu le courage de lire l"intégralité de cette thèse dans le seul but d"en évincer les coquilles.

Table des matières

Résumé ix

Abstract xi

Introduction générale 1

IÉtat de l"art7

1 Les mots inconnus 9

1.1 Du mot connu au mot inconnu . . . . . . . . . . . . . . . . . . . .

10

1.2 Les lexiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

13

1.2.1 Quel est le contenu attendu d"un lexique? . . . . . . . . .

13

1.2.1.1 Un lexique peut-il être représentatif? . . . . . . .

13

1.2.1.2 Un lexique doit-il être exhaustif? . . . . . . . . .

15

1.2.2 Lexiques morphologiques existants . . . . . . . . . . . . .

16

1.2.2.1 Lexiques existants . . . . . . . . . . . . . . . . .

17

1.2.2.2 Comparatif des lexiques . . . . . . . . . . . . . .

19

1.3 Les tokens inconnus . . . . . . . . . . . . . . . . . . . . . . . . . .

20

1.3.1 Catégorisation des inconnus . . . . . . . . . . . . . . . . .

20

1.3.2 Représentation du lexique proposée par Tournier . . . . . .

22

1.3.3 Les inconnus dans la dynamique lexicale . . . . . . . . . .

24

1.3.3.1 Intégration des tokens dans le lexique réel . . . .

24

1.3.3.2 Tokens constituant le lexique réel . . . . . . . . .

26

2 Détection automatique des inconnus 29

2.1 Classification des inconnus . . . . . . . . . . . . . . . . . . . . . .

30

2.1.1 Détection des entités nommées . . . . . . . . . . . . . . . .

30
ivTable des matières

2.1.2 Détection des emprunts non adaptés . . . . . . . . . . . .

31

2.1.3 Détection des créations lexicales . . . . . . . . . . . . . . .

32

2.1.4 Détection des emprunts adaptés . . . . . . . . . . . . . . .

34

2.2 Systèmes par analogie . . . . . . . . . . . . . . . . . . . . . . . .

34

2.2.1 L"analogie . . . . . . . . . . . . . . . . . . . . . . . . . . .

35

2.2.1.1 Définition et propriétés . . . . . . . . . . . . . . .

35

2.2.1.2 Définition analogie formelle . . . . . . . . . . . .

36

2.2.2 Apprentissage par analogie en TAL . . . . . . . . . . . . .

37

2.2.2.1 Systèmes existants d"apprentissage par analogie .

38

2.2.2.2 Domaines exploitant l"analogie . . . . . . . . . .

40

3 Détection et interprétation automatique des altérations 43

3.1 Typologie des altérations . . . . . . . . . . . . . . . . . . . . . . .

44

3.1.1 Origine des altérations . . . . . . . . . . . . . . . . . . . .

45

3.1.2 Mécanismes d"altération . . . . . . . . . . . . . . . . . . .

46

3.1.3 Tokens résultants de ces altérations . . . . . . . . . . . . .

49

3.2 Traitement automatique des altérations . . . . . . . . . . . . . . .

50

3.2.1 Systèmes de normalisation . . . . . . . . . . . . . . . . . .

51

3.2.1.1 Normaliser via des techniques de reconnaissance

vocale . . . . . . . . . . . . . . . . . . . . . . . . 53

3.2.1.2 Normaliser via des techniques de traduction . . .

53

3.2.1.3 Normaliser via des techniques de correction auto-

matique . . . . . . . . . . . . . . . . . . . . . . . 53

3.2.1.4 Conclusion . . . . . . . . . . . . . . . . . . . . .

55

3.2.2 Systèmes de correction . . . . . . . . . . . . . . . . . . . .

56

3.2.2.1 Correction lexicale . . . . . . . . . . . . . . . . .

57

3.2.2.2 Correction grammaticale . . . . . . . . . . . . . .

59

3.2.2.3 Outils industriels d"aide à la rédaction . . . . . .

61

3.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

63
IIMise en place d"un système de normalisation65

4 Pré-traitements 71

4.1 La chaîne de traitementSxPipe . . . . . . . . . . . . . . . . . . .73

4.1.1 Format utilisé parSxPipe . . . . . . . . . . . . . . . . . .74

4.1.2 Fonctionnement global deSxPipe . . . . . . . . . . . . . .75

4.1.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . .

76

4.2 Normalisation des inconnus provenant de variantes graphiques stables

77

4.2.1 Erreurs d"apostrophe . . . . . . . . . . . . . . . . . . . . .

79

4.2.2 Fautes d"accentuation . . . . . . . . . . . . . . . . . . . . .

81

4.2.3 La réticence de plume . . . . . . . . . . . . . . . . . . . .

81

4.2.4 Décompositions . . . . . . . . . . . . . . . . . . . . . . . .

82

4.2.5 Agglutinations . . . . . . . . . . . . . . . . . . . . . . . .

83

4.2.6 Étirements . . . . . . . . . . . . . . . . . . . . . . . . . . .

83

Table des matièresv

4.2.7 Lexique de substitutions . . . . . . . . . . . . . . . . . . .

85

4.2.8 Intégration dansSxPipe . . . . . . . . . . . . . . . . . . .85

4.2.9 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . .

89

4.2.9.1 Données d"évaluation . . . . . . . . . . . . . . . .

89

4.2.9.2 Résultats . . . . . . . . . . . . . . . . . . . . . .

89

4.3 Détection des inconnus provenant du non-lexique . . . . . . . . .

92

4.4 Détection des inconnus provenant du xénolexique . . . . . . . . .

93

4.4.1 Mise en place du système de classification . . . . . . . . .

95

4.4.1.1 Données d"apprentissage . . . . . . . . . . . . . .

95

4.4.1.2 Systèmes de classification . . . . . . . . . . . . .

96

4.4.2 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . .

98

4.4.2.1 Données d"évaluation . . . . . . . . . . . . . . . .

98

4.4.2.2 Résultats . . . . . . . . . . . . . . . . . . . . . .

99

4.5 Détection des inconnus provenant du lexique potentiel . . . . . . .

101

4.5.1 Système de détection des néologismes . . . . . . . . . . . .

102

4.5.1.1 Atténuation de l"incomplétude lexicale . . . . . .

103

4.5.1.2 Détection des néologismes compositionnels . . . .

104

4.5.1.3 Détection des néologismes dérivationnels . . . . .

105

4.5.2 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . .

110

4.5.2.1 Données d"évaluation . . . . . . . . . . . . . . . .

111

4.5.2.2 Résultats . . . . . . . . . . . . . . . . . . . . . .

111

4.5.3 Normalisation des néologismes flexionnels . . . . . . . . . .

114

4.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

116

5 Normalisation des tokens inconnus altérés 119

5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

120

5.2 Système proposé . . . . . . . . . . . . . . . . . . . . . . . . . . .

121

5.2.1 Apprentissage des règles de correction . . . . . . . . . . . .

122

5.2.2 Génération de règles de correction génériques . . . . . . .

127

5.2.3 Application des différents jeux de règles . . . . . . . . . . .

127

5.2.3.1 Génération des candidats . . . . . . . . . . . . .

127

5.2.3.2 Pondération des candidats . . . . . . . . . . . . .

128

5.3 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

130

5.3.1 Données utilisées . . . . . . . . . . . . . . . . . . . . . . .

1 30

5.3.1.1 Corpus WiCoPaCo . . . . . . . . . . . . . . . . .

130

5.3.1.2 Corpus d"entraînement et d"évaluation . . . . . .

131

5.3.2 Résultats obtenus . . . . . . . . . . . . . . . . . . . . . . .

132

5.3.2.1 Évaluation de l"ensemble des candidats . . . . . .

132

5.3.2.2 Sélection des meilleurs candidats de normalisation

136

5.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

142

6 Normalisation des tokens connus altérés et désambiguïsation

contextuelle 149

6.1 Normalisation des altérations existantes . . . . . . . . . . . . . . .

151
viTable des matières

6.1.1 Étude en corpus des fautes grammaticales . . . . . . . . .

151

6.1.2 Détection des altérations existantes en contexte . . . . . .

153

6.1.3 Généralisation de candidats de normalisation pour les er-

reurs d"homophonie . . . . . . . . . . . . . . . . . . . . . . 154

6.1.3.1 Ressource lexicale utilisée . . . . . . . . . . . . .

154

6.1.3.2 Génération des candidats . . . . . . . . . . . . .

155

6.1.4 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . .

157

6.2 Désambiguïsation contextuelle . . . . . . . . . . . . . . . . . . . .

158

6.2.1 Nettoyage des DAG . . . . . . . . . . . . . . . . . . . . . .

158

6.2.1.1 Réécriture des formes annotées . . . . . . . . . .

160

6.2.1.2 Suppression des analyses redondantes . . . . . . .

160

6.2.1.3 Ajout des candidats de correction proposé par

SxPipe . . . . . . . . . . . . . . . . . . . . . . .161

6.2.2 Désambiguïsation d"un DAG . . . . . . . . . . . . . . . . .

162

6.2.2.1 Outil choisi pour la génération du modèle de langue

162

6.2.2.2 Modèles de langue construits . . . . . . . . . . .

163

6.2.2.3 Application du modèle de langue sur nos textes .

165

6.3 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

166

6.3.1 Corpus d"évaluation . . . . . . . . . . . . . . . . . . . . . .

166

6.3.2 Borne supérieure de notre système . . . . . . . . . . . . .

167

6.3.3 Évaluation de la chaîne entière . . . . . . . . . . . . . . . .

169

6.3.3.1 Sélection du modèle de langue utilisé . . . . . . .

170

6.3.3.2 Sélection du seuil minimum de fréquence utilisé

pour la détection des fautes d"homophonie . . . . 170

6.3.3.3 Pertinence de la correction proposée parSxPipe .174

6.3.3.4 Apport des informations contextuelles . . . . . .

175

6.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

176

7 Conclusion générale 179

7.1 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

179

7.2 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

182

IIIAnnexes185

A Détails des résultats obtenus pour la normalisation des altéra- tions inconnues 187 A.1 Résultats obtenus par les règles spécifiques seules . . . . . . . . . 187
A.2 Résultats obtenus par les règles larges seules . . . . . . . . . . . . 192
A.3 Résultats obtenus par les règles spécifiques puis larges . . . . . . . 197
A.4 Résultats obtenus par les règles spécifiques et larges . . . . . . . . 2 02 B Détails des résultats obtenus par notre module contextuel 209 B.1 Résultats obtenus pour le corpus Corp1 . . . . . . . . . . . . . . . 210
B.2 Résultats obtenus pour le corpus Corp2 . . . . . . . . . . . . . . . 213

Table des matièresvii

B.3 Résultats obtenus pour le corpus Corp3 . . . . . . . . . . . . . . . 216
C Exemples de sorties proposées par le système 219

Bibliographie 220

Résumé

L"information contenue dans les messages publiés par les internautes (forums, réseaux sociaux, sites d"avis, etc.) comporte un intérêt stratégique pour de nom- breuses entreprises. Néanmoins, peu d"outils ont été conçus pour faciliter l"analyse de ces messages, dont l"orthographe, la typographie et la syntaxe sont souvent bruitées. Cette thèse industrielle a été réalisée au sein de l"entreprise viavoo afin d"amé- liorer les résultats d"un outil d"extraction d"information qui fait abstraction de la variabilité flexionnelle. Nous avons ainsi développé une chaîne de traitements pour la normalisation orthographique de textes bruités. Son objectif est donc de transformer ces textes pour faire en sorte que tous les mots qui les composent obtiennent une orthographe standard, à la flexion près. L"approche présentée ici consiste tout d"abord à déterminer automatiquement, parmi les tokens du corpus traité qui sont inconnus d"un lexique de référence, ceux qui résultent d"altérationset qu"il conviendrait donc de normaliser, par opposi- tion aux autres (néologismes, emprunts, etc.). Des candidats de normalisation sont alors proposés pour ces tokens à l"aide de règles pondérées obtenues par des tech- niques d"apprentissage par analogie. Nous identifions ensuite des tokens connus du lexique de référence mais qui résultent néanmoins d"une altération (fautes grammaticales), et proposons des candidats de normalisation pour ces tokens. En- fin, des modèles de langue permettent de prendre en compte le contexte dans lequel apparaissent les différents types d"altérations pour lesquels des candidats de normalisation ont été proposés afin de choisir les plus probables. Différentes

expériences et évaluations sont réalisées sur le français à chaque étape et sur la

chaîne complète. Une attention particulière a été portée au caractère faiblement

dépendant de la langue des modules développés, ce qui permet d"envisager son adaptation à d"autres langues européennes. Mots-clefs :Normalisation, correction orthographique, mots inconnus, altéra- tions, données produites par l"utilisateur.

Abstract

The information contained in messages posted on the Internet (forums, social networks, review sites...) is of strategic importance for many companies. However, few tools have been designed for analysing such messages, the spelling, typogra- phy and syntax of which are often noisy. This industrial PhD thesis has been carried out within the viavoo company with the aim of improving the results of a lemma-based information retrieval tool. We have developed a processing pipeline for the normalisation of noisy texts. Its aim is to ensure that each word is assigned the standard spelling corresponding to one of its lemma"s inflected forms. First, among all tokens of the corpus that are unknown to a reference lexicon, we automatically determine which ones result fromalterations- and therefore should be normalised - as opposed to those that do not (neologisms, loan- words...). Normalisation candidates are then generated for these tokens using weighted rules obtained by analogy-based machine learning techniques. Next we identify tokens that are known to the reference lexicon but are nevertheless the re- sult of an alteration (grammatical errors), and generate normalisation candidates for each of them. Finally, language models allow us to perform a context-sensitive disambiguation of the normalisation candidates generated for all types of altera- tions. Numerous experiments and evaluations are carried out on French data for each module and for the overall pipeline. Special attention has been paid to keep all modules as language-independent as possible, which paves the way for future adaptations of our pipeline to other European languages. Keywords :Normalization, Spell-checking, unknown-word, spelling mistake, User-Generated Content, Natural Language Processing.quotesdbs_dbs25.pdfusesText_31
[PDF] BAchelor Global Business Coventry University - France

[PDF] BACHELOR IN ADMINISTRATION - Gestion De Données

[PDF] Bachelor in Hospitality Management en 10 mois - France

[PDF] Bachelor in Industrial Design

[PDF] Bachelor in Music - Classical Instrumental Performance

[PDF] Bachelor in Psychology - Université de Montréal - France

[PDF] Bachelor in Psychology and Sociology - Anciens Et Réunions

[PDF] Bachelor Management Marketing France-Chine - Gestion De Données

[PDF] Bachelor of Education - Français Langue Seconde - Anciens Et Réunions

[PDF] Bachelor of Fine Arts (BFA) – 120 credits (4 years) - Anciens Et Réunions

[PDF] Bachelor of Science Honours-International Hotel Management (324) - Anciens Et Réunions

[PDF] Bachelor Thesis of science course in Electrical engineering of

[PDF] bachelor tourisme - EFHT Montpellier - Gestion De Données

[PDF] Bachelor und Master - Prof Dr Joern Meissner

[PDF] bachelor webmarketing et relation client - Gestion De Données