[PDF] Université de Marne-la-Vallée





Previous PDF Next PDF



1 Noms composés au singulier et au pluriel

On peut consulter le livre Vadémécum de l'orthographe recommandée pour connaitre la liste de tous les mots touchés par les rectifications orthographiques 



Recensement et description des mots composés - méthodes et

16 oct. 2003 d'étiquettes œ la liste des mots simples du texte la liste des mots composés non ambigus



Rectifications de lorthographe

6 déc. 1990 pluriel des mots composés et des mots empruntés sur ... Mots composés : on écrit soudés également les noms de la liste suivante



Les noms composés - Blog31

Dans chaque liste un nom composé n'est pas formé de la même façon que les Forme des noms composés avec les mots proposés et complète les phrases : jour ...



6.4 Trait dunion

Dans plusieurs centaines de mots composés les éléments sont reliés par le trait Trouvez l'intrus mal orthographié parmi les listes suivantes et corrigez-le.



Liste de mots à segmenter en syllabes et en phonèmes Mots de 1

Liste de mots à segmenter en syllabes et en phonèmes. Mots de. 1 syllabe. Syllabes Phonèmes Mots de. 2 syllabes. Syllabes Phonèmes pot pot. /p-o/ soleil so-leil.



mots composés - e. bazile mots composés - e. bazile

Un exemple de base de mots composés accompagne le logiciel d'étude. Il s'agit d'une base de cinq fichiers de cinquante fiches chacun. Chaque enseignant peut la 



5 Autres soudures

Le trait d'union est remplacé par la soudure dans certains mots composés d'un verbe et d'un nom. Il s'agit cependant d'une liste restreinte limitée. Il faut la 



Les mots composés avec tiret ou trait dunion

Les élèves ont des difficultés pour analyser la nature des mots qui forment les mots composés. Former des noms composés en piochant un mot dans chaque liste ( ...



cm2-exercices-mots-composes.pdf cm2-exercices-mots-composes.pdf

Ecris les mots composés en associant un adjectif de la 1ère liste et un nom de la 2ème rond – belle – grands – haut – courte – plate – rouge - basse.



1 Noms composés au singulier et au pluriel

liste de tous les mots touchés par les rectifications orthographiques section B1. 1.1 Parmi les noms composés suivants



5 Autres soudures

Le trait d'union est remplacé par la soudure dans les mots composés d'un verbe et liste de tous les mots touchés par les rectifications orthographiques ...



Les rectifications de lorthographe

6 déc. 1990 Mots composés : on écrit soudés les noms de la liste suivante composés sur la base Dun élément verbal généralement suivi d'une forme nominale ...



Extraction automatique de traductions anglaises de mots composés

Ensuite pour chaque occurrence de la collocation



PROGRAMME DE FORMATION DE LÉCOLE QUÉBÉCOISE

pour la production de la liste orthographique et la répartition des mots de la 1re à la 6e année du primaire Mots simples et composés.



LE DICTIONNAIRE ÉLECTRONIQUE DES MOTS COMPOSÉS

Le Dictionnaire electronique des mots composes (DELAC) decrit la morphologic et A Tissue de l'etape de verification les listes de noms composes sont en ...



Le catalogage des noms africains : etude des noms senegalais et

senegalais et projet de norme : liste d'autorite ' a partir a ^ usage de leurs deux noms qui sont pris ainsi comme des noms composes mais.



corrigés-les-noms-composés.pdf

Les noms composés sont formés de plusieurs mots qui peuvent être de Dans chaque liste un nom composé n'est pas formé de la même façon que les autres.



Université de Marne-la-Vallée

5.6 Tailles et typologies du dictionnaire des mots composés anglais partir des listes des mots composés recensés par le professeur Maurice Gross (LADL).



Noms composés au singulier et au pluriel

Les noms avec trait d'union qui sont composés… – …d'un verbe et d'un nom (brise-glace). – …ou d'une préposition et 

>G A/, i2H@yyyyj839 ?iiTb,ffi?2b2bX?HXb+B2M+2fi2H@yyyyj839 am#KBii2/ QM Re P+i kyyj

Bb KmHiB@/Bb+BTHBM`v QT2M ++2bb

`+?Bp2 7Q` i?2 /2TQbBi M/ /Bbb2KBMiBQM Q7 b+B@

2MiB}+ `2b2`+? /Q+mK2Mib- r?2i?2` i?2v `2 Tm#@

HBb?2/ Q` MQiX h?2 /Q+mK2Mib Kv +QK2 7`QK

i2+?BM; M/ `2b2`+? BMbiBimiBQMb BM 6`M+2 Q` #`Q/- Q` 7`QK Tm#HB+ Q` T`Bpi2 `2b2`+? +2Mi2`bX /2biBMû2 m /ûT?¬i 2i ¨ H /BzmbBQM /2 /Q+mK2Mib b+B2MiB}[m2b /2 MBp2m `2+?2`+?2- Tm#HBûb Qm MQM-

Tm#HB+b Qm T`BpûbX

_2+2Mb2K2Mi 2i /2b+`BTiBQM /2b KQib +QKTQbûb @

Kûi?Q/2b 2i TTHB+iBQMb

hQ +Bi2 i?Bb p2`bBQM, ;i ap`vX _2+2Mb2K2Mi 2i /2b+`BTiBQM /2b KQib +QKTQbûb @ Kûi?Q/2b 2i TTHB+iBQMbX mi`2

Université de Marne-la-Vallée

Laboratoire d'Automatique Documentaire et Linguistique,

Université Paris 7

Recensement et description des mots

composés - méthodes et applications

Agata Savary

Thèse de doctorat en Informatique Fondamentale

soutenue le 14 décembre 2000

Directeur de thèse : Max Silberztein

Jury :

Gaston Gross (rapporteur)

Maurice Gross

Franz Guenthner

John Humbley

Christian Jacquemin (rapporteur)

Eric Laporte

Max Silberztein

1

Dedykuję moim najdroższym

Cyprienne

Tytusowi

Xavier

2

Remerciements

Je voudrais remercier les nombreuses personnes qui ont contribué de différentes façons à mon

travail et a mon évolution lors de mes études en thèse de doctorat.

Merci à Max Silberztein, mon directeur de thèse, qui a toujours été très disponible pour moi et

enthousiaste par rapport à mon travail. Merci aux membres, invités et amis du LADL pour l"ambiance chaleureuse, aide, patience,

soutient et amitié. Plus particulièrement, merci à Maurice Gross, Blandine Courtois, Cédrick

Fairon, Christian Leclère, Eric Laporte, Jean Senellart et Marianne.

Merci à Christian Jacquemin d"avoir été exigeant lors des lectures et des discussions sur ma

thèse, et de m"avoir encouragée à découvrir de nombreux aspects de mon domaine de recherche. Merci à Gaston Gross, John Humbley et Michel Mathieu-Colas pour leurs lectures, conseils et discussions concernant mon mémoire de thèse. Merci à Franz Guenthner, et son équipe du CIS de m"avoir fait découvrir le domaine de la linguistique informatique. Merci à Béatrice Daille, Chantal Enguehard, Didier Bourigault et Krzysztof Bogacki pour leur intérêt, aide et le temps qu"il m"ont consacré.

Merci à toute l"équipe informatique de la société LCI pour l"ambiance et l"aide. Merci à Tita

Kyriacopoulou et à Adrien Assous pour la confiance lors de la réalisation de mon projet. Merci spécialement à Smith Charles pour son assistance si patiente. Merci à Didier Arquès pour sa sagesse et sérénité lors de notre discussion. Dziękuję Xavier za wsparcie i cierpliwość, oraz za lekturę mojego doktoratu. 3

Table des matières

INTRODUCTION 7

Chapitre 1 Objectifs et état de l'art 8

1.1 Objectifs 8

1.2 Cadre du travail 8

1.3 Travaux apparentés 9

1.3.1 Composition nominale 9

1.3.2 Construction de dictionnaires électroniques 14

1.3.3 Outils à états finis 15

1.3.4 Morphologie flexionnelle des mots composés 17

1.3.5 Reconnaissance et acquisition de termes 17

1.3.6 Correction orthographique 18

Chapitre 2 Analyse lexicale des mots composés par le système INTEX 20

2.1 Introduction 20

2.2 Définitions 20

2.2.1 Lettres de l"alphabet et séparateurs 21

2.2.2 Mot simple et mot composé 21

2.2.3 Constituants caractéristiques des mots composés. 26

2.3 Dictionnaires des mots simples et transducteurs de flexion 28

2.4 Dictionnaires des mots composés 33

2.5 Description des mots et expressions composés par expressions rationnelles et

automates finis 35

2.6 Compactage des dictionnaires 37

2.7 Couverture 41

2.8 Mots composés ambigus et non ambigus 41

2.9 Algorithmes de l"analyse lexicale des mots composés 43

2.10 Représentation des composés par transducteurs 44

2.11 Conclusion 45

PREMIERE PARTIE

MOTS COMPOSES - PROBLEMES LINGUISTIQUES ET

METHODES DE RECENSEMENT

47
Chapitre 3 Propriétés linguistiques des noms composés 48

3.1 Introduction 48

3.2 Inexistence et irrégularités des constituants caractéristiques 48

3.3 Inexistence et irrégularités des formes fléchies 50

3.4 Irrégularités de la mise au pluriel en anglais 53

3.4.1 Nom Adjectif 53

4 3.4.2

Nom Nom 53

3.4.3 Composés déverbaux 54

3.4.4 Nom Préposition Nom 54

3.4.5 Phrases nominales avec une conjonctions 55

3.4.6 Emprunts 55

3.5 Irrégularités des numéraux cardinaux polonais 55

3.6 Morphologie dérivationnelle et conversion 57

3.7 Variantes orthographiques 59

3.8 Variations de l"ordre des constituants 60

3.9 Autres variantes terminologiques 60

3.10 Conclusion 62

Chapitre 4 Flexion automatique des mots composés 63

4.1 Introduction 63

4.2 Contenu d"une entrée du DELAC 63

4.3 Fichiers de flexion 64

4.4 Fichiers-dictionnaires 65

4.4.1 Français 65

4.4.2 Anglais 68

4.4.3 Polonais 71

4.5 Algorithme de flexion 74

4.5.1 Exploration d"un transducteur de flexion 74

4.5.2 Flexion des mots simples 77

4.5.3 Flexion des mots composés 80

4.5.4 Complexité 85

4.6 Conclusion 88

Chapitre 5 Construction d'un dictionnaire électronique des mots composés anglais 90

5.1 Introduction 90

5.2 Dictionnaires usuels et dictionnaires électroniques pour le traitement automatique

du langage naturel 90

5.3 Recensement et description des formes lemmatisées 92

5.3.1 Séparation des catégories 92

5.3.2 Elimination des doublons 94

5.3.3 Marquage de la structure syntaxique et des composants caractéristiques 94

5.3.4 Existence du pluriel 95

5.4 Etiquetage des composants simples 96

5.4.1 Nouveaux mots simples communs 96

5.4.2 Noms propres 97

5.4.3 Emprunts 97

5.4.4 Conversions et dérivations 98

5.5 Génération automatique du DELACF 99

5.6 Tailles et typologies du dictionnaire des mots composés anglais 99

5.7 Conclusion 100

Chapitre 6 Description des déterminants numéraux anglais par des outils

à états finis 102

6.1 Introduction 102

6.2 Déterminants numéraux cardinaux 102

5

6.3 La description des cardinaux par transducteurs finis 105

6.4 Déterminants numéraux ordinaux 109

6.5 Emplois des étiquettes grammaticales des déterminants numériques 109

6.6 Extension de la grammaire 109

6.7 Reconnaissance des numéraux par Intex 111

6.8 Conclusion 112

Chapitre 7 Construction d'un dictionnaire électronique terminologique 113

7.1 Introduction 113

7.2 Termes composés - mots composés du langage spécialisé ? 113

7.3 Base terminologique LexPro CD Databank 114

7.4 Adaptation des dictionnaires techniques de traduction au traitement automatique du

langage naturel 114

7.5 Construction d"un dictionnaire électronique anglais de l"informatique pour le

TALN. 117

7.5.1 Construction d"un DELAS spécialisé de termes informatiques 118

7.5.2 Construction du DELAC de termes informatiques 120

7.5.3 Termes contenant des caractères spéciaux 122

7.5.4 Recherche automatique des termes et de leurs traductions dans des textes 123

7.6 Conclusion 124

DEUXIEME PARTIE

APPLICATIONS DES DICTIONNAIRES ELECTRONIQUES DES

MOTS COMPOSES

126

Chapitre 8 Acquisition de termes 127

8.1 Introduction 127

8.2 Pourquoi cette approche ? 128

8.3 Extraction terminologique au service d"un traducteur technique 129

8.4 Principes de la méthode 129

8.5 Phases de l"extraction 130

8.5.1 Etiquetage du texte 132

8.5.2 Recherche de patrons 133

8.5.3 Validation 135

8.6 Premiers résultats 136

8.7 Comparaison avec Acabit 137

8.7.1 Résultats de LexProTerm 137

8.7.2 Résultats d"Acabit 141

8.7.3 Comparaison 143

8.8 Aspects novateurs 145

8.9 Perspectives 147

8.10 Conclusion 148

Chapitre 9 Correction orthographique 149

9.1 Introduction 149

9.2 Opérations élémentaires sur des lettres 149

9.3 Exemple 149

6

9.4 Algorithme 151

9.5 Erreurs multiples dans un mot 152

9.6 Application à la reconnaissance de formes composées 153

9.7 Complexité de l"algorithme 157

9.8 Comparaison avec l"algorithme d"Oflazer 157

9.9 Conclusion 158

Chapitre 10 Conclusion 159

Références 160

ANNEXE A.

ANNEXE B.

ANNEXE C.

ANNEXE D.

ANNEXE E.

ANNEXE F.

7

Introduction

8

Chapitre 1 Objectifs et état de l'art

1.1 Objectifs

De nombreux travaux de référence dans le domaine du traitement automatique du langage naturel, comme par exemple les étiqueteurs grammaticaux, tiennent rarement compte du

problème de composition dans les langues naturelles, ou bien le font à une petite échelle. En

revanche, des applications du domaine de la terminologie computationnelle, comme l"extraction de termes, la reconnaissance de termes et de leurs variantes dans des textes, l"alignement de termes pour la création automatique de lexiques bilingues, etc., sont très concernés par le phénomène de composition dans les langages techniques. Souvent dans des telles applications on propose des algorithmes qui n"emploient pas ou très peu de connaissances linguistiques et terminologiques initiales. Leurs auteurs argumentent ce choix par le fait que la création de bases de telles connaissances est trop coûteuse. Pourtant, des bases de connaissances linguistiques et terminologiques existent - ce sont de nombreux dictionnaires traditionnels de la langue générale et des langages techniques, qu"il faut convertir en des formats utilisables par des programmes informatiques. Dans l"étude décrite ci-dessous nous nous sommes penchée sur le recensement des mots composés à grande échelle, qui est selon nous indispensable pour les bons résultats de l"analyse automatique de textes. Nous avons essayé d"approfondir les questions suivantes :

1) Comment ce recensement peut être effectué ?

2) Est-il utile de le réaliser ?

Ces deux questions se reflètent dans la structure du mémoire. Dans la première partie, nous analysons différents problèmes posés par la description de mots composés dans des dictionnaires électroniques. Dans la deuxième partie, nous décrivons l"application des dictionnaires obtenus dans les tâches d"extraction terminologique et de correction orthographique de termes.

1.2 Cadre du travail

Les recherches décrites ci-dessous ont été menées par l"auteur dans le Laboratoire d"Automatique Documentaire et Linguistique (LADL) de l"Université Paris 7, et dans la société LCI Informatique, dans le domaine des mots composés et plus spécialement de la composition nominale en anglais. Au sein du LADL, nous avons effectué des travaux concernant la construction de dictionnaires électroniques et l"analyse lexicale des textes. Nous nous sommes basée sur le système INTEX qui a été créé par Max Silberztein en tant que cadre informatique pour la théorie linguistique du LADL. Ce système emploie des outils à états finis (automates et transducteurs) pour l"analyse lexicale des grands corpus. Il comprend entre autres un

étiqueteur basé sur les lexiques DELA

1 , un module de levée d"ambiguïtés à l"aide de grammaires locales, celui de la recherche de patrons syntaxiques dans un texte, et celui d"aide à la création de nouveaux lexiques électroniques au format DELA. Le programme de flexion automatique des mots composés que nous proposons dans le chapitre 4 de ce mémoire, a été 1

Dictionnaires Electroniques du LAdl

9 destiné à compléter ce dernier module d"INTEX dans la tâche de construction automatique d"un dictionnaire électronique de mots composés fléchis, le DELACF, à partir d"un dictionnaire de mots composés sous formes lemmatisées, le DELAC. Pour ceci nous étudions

les comportements flexionnels des mots composés en trois langues : le français, l"anglais et le

polonais. Nous proposons une définition d"une flexion régulière et irrégulière des composés,

basée sur la notion de constituants caractéristiques (tête), ainsi qu"une méthodologie de

classement des composés selon la façon dont ils se fléchissent. Le programme de flexion

obtenu est testé pour les noms composés du polonais et ensuite appliqué à la création du

DELACF anglais de la langue générale et du DELACF anglais de termes informatiques.

Le dictionnaire DELAC de l"anglais d"environ 60 000 entrées a été mis en forme par nous à

partir des listes des mots composés recensés par le professeur Maurice Gross (LADL), Mme McCarthy-Hamani, Katia Zellagui (Université de Besançon), Michael Walsh (Université de Dublin) et David Harte (Université de Dublin). Le système INTEX permet, dans son module d"étiquetage, d"appliquer à un texte des

dictionnaires sous trois formats différents : textuels, compactés, et des outils à états finis

(automates et transducteurs). Ce dernier format facilite la description des composés productifs comme dates, déterminants, numéraux, etc. Nous avons construit une bibliothèque d"automates et transducteurs finis pour les numéraux cardinaux et ordinaux de l"anglais. Grâce aux symboles de sortie de ces transducteurs, nous pouvons attribuer à chaque numéral écrit en toutes lettres son correspondant en chiffres. Ceci permet de rendre compte de

certaines ambiguïtés et équivalences entre ces deux types de représentation des numéraux.

Les trois derniers chapitres du mémoire décrivent les travaux effectués au sein de la société

LCI Informatique dans le domaine de la terminologie. Il s"agit de la participation au projet LEXPERT (financé par l"ANVAR) de création d"une base de données terminologiques multilingues. Cette base, commercialisée sous le nom LexPro CD Databank (appelée aussi

LexPro), versions 1.0 et 2.0, a été créée à partir de plusieurs dizaines de dictionnaires

techniques de traduction mis sur un support informatique. Pour la version 3.0 de ce logiciel nous avons participé au développement des modules d"accès employant des techniques du traitement automatique du langage naturel, telles que la lemmatisation des termes et la correction orthographique (chapitre 9). Pour une version future, nous avons préparé unquotesdbs_dbs47.pdfusesText_47
[PDF] liste musique acrosport

[PDF] liste musique de film

[PDF] liste notions arts plastiques

[PDF] liste officielle des manuels scolaires au cameroun 2017-2018

[PDF] liste outils

[PDF] liste outils bricolage base

[PDF] liste participe passé des verbes

[PDF] liste pays colonisés et colonisateurs

[PDF] liste pays organisateur jo

[PDF] liste phénomène physique

[PDF] liste points faibles entretien d'embauche

[PDF] liste pour et contre couple

[PDF] liste pour l'arrivée de bébé

[PDF] liste prépositions français

[PDF] liste principale cpge 2015