[PDF] Traduction assistée par ordinateur et corpus comparables





Previous PDF Next PDF



Gemengeblat

E-mail: henri.bausch@boevange-attert.lu crampes au niveau des bras des jambes



Vascularisation et cancer du pancréas : importance pour le chirurgien

paroi abdominale postérieure dans l'espace rétropéritonéal. En règle générale



Danse émotions et pensée en mouvement: contribution à une

9 Jul 2015 des anciens » aussi le Traité est pour lui un moyen de repenser cette question ... sensible à ces rencontres entre personnages et danseurs



Traduction assistée par ordinateur et corpus comparables

5 Mar 2014 cela a toujours été un plaisir de venir aux réunions d'équipe. ... Lepage (2003) nous apprend que l'analogie est un concept ancien ...



Insuline – lhormone du diabète FODMAP – Hilfe bei Reizdarm

14 Nov 2017 rapport aux anciennes insulines humaines de ... gigen Grundbedarf des Körpers an Insulin ab. ... ren Resorption (Aufnahme) in den Bauch.



ÉTUDE : LERRANCE DES CARNIVORES DOMESTIQUES À LA

E. MATHERY - Stagiaire en charge de l'errance animale - DAAF Réunion chien rachitique à l'abdomen ballonné



HEMOPERITOINE NON-OPERATOIRE DANS LES

Hémoperitoine non-operatoire dans les traumatismes fermés de l'abdomen au personnel infirmier 02 salles de réunion



2001-Bioforma-23-parasites-sanguins.pdf

paludisme a disparu d'Afrique du sud de l'Ile Maurice et de la Réunion



T ta »kaprati h» n.f. [ ]

https://www.austriaca.at/0xc1aa5576%200x002e4f24.pdf



Commotion Cardiaque

lorsqu'elle entend ses anciennes étudiantes dire : « Madame Ricard ne serait pas fière de ça ! Au terme d'une réunion de haut niveau qui s'est tenue les.

UNIVERSIT´E DE NANTES

FACULT´E DES SCIENCES ET DES TECHNIQUES

´ECOLE DOCTORALE STIM

N ◦attribu´e par la biblioth`eque

Ann´ee 2013

Traduction assist´ee par ordinateur et corpus

comparables

Contributions

`a la traduction compositionnelle

TH`ESE DE DOCTORAT

Discipline : Informatique

Sp´ecialit´e : Traitement Automatique des Langues

Pr´esent´ee

et soutenue publiquement par

Estelle DELPECH

Le 2 juillet 2013, devant le jury ci-dessous

Pr´esident NabilHathout, Directeur de recherche, Centre National de la Recherche Scientifique

Rapporteurs

´ElisabethLavault-Oll´eon, Professeure, Universit´e Stendhal Grenoble 3 MichelSimard, Agent de recherche principal, Conseil National de Recherches du Canada Examinateurs B´eatriceDaille, Professeure, Universit´e de Nantes NabilHathout, Directeur de recherche, Centre National de la Recherche Scientifique EmmanuelMorin, Professeur, Universit´e de Nantes Invit´e EmmanuelPlanas, Maˆıtre de Conf´erences, Universit´e Catholique de l"Ouest

Directrice de th`ese : Prof. B´eatriceDaille

Co-encadrant de th`ese : Prof. EmmanuelMorin

`A´Elia

Remerciements

Je tiens

`a remercier de tout coeur B´eatrice Daille et Emmanuel Morin d"avoir respectivement dirig

´e et co-encadr´e ce travail de th`ese. J"ai´et´e tr´es honor´ee de travailler et d"apprendre`a

leurs c ˆot´es. Ils ont tous deux fait preuve d"un savant m´elange d"exigence acad´emique et de p ´edagogie qui m"a permis de progresser durant ces trois ann´ees. Je les remercie tous deux de m"avoir propos ´e un sujet de th`ese si int´eressant et d"avoir su se rendre disponibles malgr´e leurs emplois du temps charg

´es.

Je remercie chaleureusement Nabil Hathout,

´Elisabeth Lavault-Oll´eon, Emmanuel Planas

et Michel Simard de m"avoir fait l"honneur d"

ˆetre membres de mon jury. Leurs remarques

constructives m"ont ´et´e particuli`erement utiles. Je suis heureuse d"avoir pu b´en´eficier de points de vue autant compl ´ementaires sur mon travail. Merci sp´ecialement`a Michel Simard d"avoir fait le d

´eplacement jusqu"`a Nantes depuis le Canada!

Je suis particuli

`erement reconnaissante envers Emmanuel Planas, ancien directeur scientifique de Lingua et Machina, pour m"avoir fait confiance et embauch

´ee comme ing´enieure

de recherche. Sans cela, je n"aurais tr `es probablement pas eu l"opportunit´e d"effectuer une th `ese au LINA ni de travailler sur un sujet de recherche dans un cadre industriel aussi stimulant.

Plusieurs personnes ont contribu

´e, de pr`es ou de loin, au travail pr´esent´e dans ce document. Je remercie en premier lieu Claire Lemaire de l"Universit

´e Stendhal de Grenoble, d"abord

parce qu"elle a ´et´e une coll`egue et co-th´esarde formidable; ensuite pour son travail de qualit´e concernant la cr ´eation des ressources pour le traitement et l"´evaluation de l"allemand. Cela n"aurait pas ´et´e possible sans elle et je lui en suis tr`es reconnaissante. Je remercie aussi Geoffrey Williams et Pierre Zweigenbaum d"avoir accept

´e d"ˆetre membres

de mon comit ´e de suivi de th`ese. Leurs retours et conseils avis´es m"ont guid´e tout au long de ce travail.

Mes remerciements vont

´egalement`a L´ea Laporte de l"Institut de Recherche en Informatique de Toulouse et Damien Franc¸ois de l"Universit

´e Catholique de Louvain pour avoir

r ´epondu`a mes questions concernant le traitement statistique des donn´ees. Merci aussi`a Van

Dang, de l"Universit

´e du Massachusetts, pour avoir r´epondu`a mes questions quant`a l"utilisation des algorithmes delearning-to-rank.

J"ai beaucoup de gratitude envers Cl

´emence de Baudus, Kiril Isakov, Mathieu Delage de l"Institut Sup ´erieur de Traduction et d"Interpr´etation et Nicolas Auger qui ont effectu´e un minutieux travail d"annotation, ce qui a rendu possible l"

´evaluation du syst`eme de traduction.

J"ai une pens

´ee pour mes coll`egues de Lingua et Machina, Franc¸ois,´Etienne et Jean-

Franc¸ois, aupr

`es de qui j"ai beaucoup appris et que je remercie pour leurs encouragements.

Les conseils et l"exp

´erience de Franc¸ois m"ont´et´e pr´ecieux pour ma derni`ere ann´ee de th`ese. Je n"ai malheureusement pas beaucoup eu l"occasion d"

ˆetre pr´esente au laboratoire mais

cela a toujours´et´e un plaisir de venir aux r´eunions d"´equipe. L"accueil et l"ambiance du LINA est

formidable et j"ai beaucoup appr ´eci´e de discuter avec mes coll`egues, notamment Amir Hazem et Prajol Shrestha qui ont

´et´e d"agr´eables camarades de th`ese.

Enfin, je remercie mon compagnon Nicolas pour son soutien sans faille; mes amies

´Emilie

et Nathalie et ma soeur Laureen pour leur compr ´ehension quant`a mon manque de disponibilit´e et pour leur pr ´esence et leur soutien logistique le jour de la soutenance. Merci`a Loki qui est un formidable r

´eveille-matin.

Traduction assist´ee par ordinateur et corpus

comparables

Contributions

`a la traduction compositionnelle1

Estelle Delpech

Version finale 23 f

´evrier 2014

1. Travail financ

´e par l"Agence Nationale de la Recherche (subvention ANR-08-CORD-013), l"Association Nationale de la Recherche et de la Technologie (convention CIFRE n o2010/270) et la soci´et´e

LINGUA ETMACHINA.

R´esum´e

Notre travail concerne l"extraction de lexiques bilingues `a partir de corpus comparables, avec une application `a la traduction sp´ecialis´ee. Nous avons d"abord´evalu´e les m´ethodes classiques d"acquisition de lexiques en corpus comparables (bas

´ees l"hypoth`ese distributionnelle : plus

deux termes apparaissent dans des contextes similaires, plus il y a de chances qu"ils soient des traductions) d"un point de vue applicatif. L" ´evaluation a montr´e que les traducteurs sont mal`a l"aise avec les lexiques extraits : la traduction correcte est trop souvent noy ´ee dans une liste de traductions candidates et ils pr

´ef`ereraient utiliser un lexique plus petit mais plus pr´ecis. Partant de ce constat, nous nous

sommes orient ´es vers une autre approche qui a fait r´ecemment ses preuves pour l"exploitation des corpus comparables et produit des lexiques plus adapt

´es aux besoins des traducteurs : la

traduction compositionnelle (la traduction du terme source est fonction de la traduction de ses parties).

Nous nous sommes concentr

´es sur la traduction d"unit´es monolexicales : le terme source est d

´ecoup´e en morph`emes, les morph`emes sont traduits puis recompos´es en un terme cible. Dans

ce cadre, nous avons poursuivi trois axes de recherche : la g

´en´eration de traductions fertiles

(cas o `u le terme cible contient plus de mots lexicaux que le terme source), l"ind´ependance aux structures morphologiques et l"ordonnancement des traductions candidates.

Mots-cl

´es :traduction assist´ee par ordinateur, corpus comparables, compositionnalit´e, learning-to-rank,´evaluation centr´ee utilisateur, morphologie computationnelle

Abstract

Our work deals with the extraction of bilingual lexicons from comparable corpora with an application to specialized translation. We started by evaluating classical methods based on the distributional hypothesis (the more two terms appear in similar contexts, the more likely they are translations of each other) in a user-oriented fashion. This evaluation raised the fact that translators feel very uncomfortable with this kind of lexicon:they feel correct translations are uneasy to spot in the lists of candidate translations and would rather use a smaller lexicon but with higher precision rates. Based on this observation, we turned to another approach for term translation which has been recently and successfully experimented on comparable corpora and produce lexicons that meet the demands of the translators:compositional translation. In this framework, the translation of a term is composed of the translation of its parts. We concentrated on the translation of monolexical terms:the source term is decomposed into morphemes, morphemes are translated into the target language and recomposed as a target term. We investigated three lines of research:generation of fertile translations (cases in which the target term has more lexical words than the source term), independence to morphological structure and candidate translation ranking. Keywords :computer-aided translation, comparable corpora, compositionality, learning- to-rank, user-centered evaluation, computational morphology I II Liste des publications et communicationsExtraction automatique de lexiques bilingues E. DELPECH, B. DAILLE, E. MORINet C. LEMAIRE: Extraction of domain-specific bilingual lexicon from comparable corpora : compositional translation and ranking.In Proceedings of the 24th International Conference on Computational Linguistics (Long papers), pages 745-762,

Mumbai, Inde, 2012.

E. DELPECH, B. DAILLE, E. MORINet C. LEMAIRE: Identification of Fertile Translations in Medical Comparable Corpora : a Morpho-Compositional Approach.In Proceedings of the 10th biennial conference of the Association for Machine Translation in the Americas, 10 pages, San

Diego,

´Etats-Unis d"Am´erique, 2012.

E. DELPECH: Bilingual terminology mining.The 4th Intensive Summer school and collaborative workshop on Natural Language Processing (Franco-Thai Workshop 2010),

Bangkok, Tha

¨ılande, 2010.

Evaluation applicative

E. DELPECH: Un Protocole d"´Evaluation Applicative des Terminologies Bilingues Destin´ees a la Traduction Sp´ecialis´ee.Revue des Nouvelles Technologies de l"Information (RNTI) - Num ´ero sp´ecial : Qualit´e des Donn´ees et des Connaissances / Evaluation des m´ethodes d"Extraction de Connaissances dans les Donn

´ees (Eval"ECD), pages 23-48, 2011.

E. DELPECH: Evaluation of terminologies acquired from comparable corpora : an application perspective.In Proceedings of the 18th Nordic Conference of Computational Linguistics, pages

66-73, Riga, Lettonie, 2011.

E. DELPECH: Un Protocole d"´Evaluation Applicative des Terminologies Bilingues Destin´ees

a la Traduction Sp´ecialis´ee.In Actes de l"atelier´Evaluation des m´ethodes d"Extraction

de Connaissances dans les Donn ´ees (EvalECD"11) - 11`eme Conf´erence Internationale Francophone sur l"Extraction et la Gestion des Connaissances EGC, pages 37-48, Brest,

France, 2011.

Outils de Traduction Assist

´ee par Ordinateur

F. BROWN DECOLSTOUN, E. DELPECHet E. MONNERET: Libellex : une plateforme multiservices pour la gestion des contenus multilingues.In Actes de la 18`eme conf´erences sur le traitement automatique des langues naturelles (d

´emonstrations logicielles), page 319,

Montpellier, France, 2011.

E. DELPECHet B. DAILLE: Dealing with lexicon acquired from comparable corpora : validation and exchange.In Proceedings of the 2010 Terminology and Knowledge Engineering

Conference, pages 211-223, Dublin, Irlande, 2010.

F. BROWN DECOLSTOUNet E. DELPECH: Libellex, environnement de gestion collaborative en ligne de terminologie au sein de communaut ´es ferm´ees.Terminologie & Ontologie : Th´eories et applications (TOTh), Annecy, France, 2010. III IV

Table des mati`eres

Introduction1

I Contexte scientifique et applicatif5

1 Exploitation des corpus comparables pour la traduction assist

´ee par ordinateur 7

1.1 Perspective historique : des premiers traducteurs automatiques aux corpus

comparables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.1.1 Premi

`eres recherches en traduction automatique . . . . . . . . . . . . . . 8

1.1.2 Le d

´eveloppement de l"aide`a la traduction . . . . . . . . . . . . . . . . . 9

1.1.3 Limites des corpus parall

`eles et avantages des corpus comparables . . . 11

1.1.4 Difficult

´es de la traduction technique . . . . . . . . . . . . . . . . . . . . . 13

1.1.5 Contexte industriel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.2 Techniques d"alignement de termes en corpus comparables . . . . . . . . . . . . 19

1.2.1 Principe de l"approche distributionnelle . . . . . . . . . . . . . . . . . . . 19

1.2.2´Evaluation des techniques d"alignement en corpus comparables . . . . . 22

1.2.3 Am

´eliorations et variantes de l"approche distributionnelle . . . . . . . . . 23

1.2.4 Influence des donn

´es et du param´etrage sur la qualit´e des r´esultats . . . 31

1.2.5 Limites de l"approche distributionnelle . . . . . . . . . . . . . . . . . . . . 33

1.3 Prototypage d"un outil de TAO destin

´e aux corpus comparables . . . . . . . . . . 34

1.3.1 Implantation d"une m

´ethode d"acquisition de lexiques bilingues . . . . . . 34

1.3.2 Extraction de fiches terminologiques . . . . . . . . . . . . . . . . . . . . . 38

1.3.3 Interface de consultation des lexiques extraits . . . . . . . . . . . . . . . . 39

1.4 Synth

`ese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 2

´Evaluation applicative des lexiques issus de corpus comparables 432.1 M´ethodologies d"´evaluation de la qualit´e des traductions . . . . . . . . . . . . . . 44

2.1.1 L"

´evaluation en traduction automatique . . . . . . . . . . . . . . . . . . . . 44

2.1.2 L"

´evaluation en traductologie . . . . . . . . . . . . . . . . . . . . . . . . . 48

2.1.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

2.2 Conception et exp

´erimentation d"un protocole d"´evaluation applicative . . . . . . 51 V

2.2.1 Reflexions m´ethodologiques . . . . . . . . . . . . . . . . . . . . . . . . . 51

2.2.2 Exp

´erimentation du protocole . . . . . . . . . . . . . . . . . . . . . . . . . 54

2.2.3 R

´esultats obtenus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

2.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

3 G ´en´eration automatique de traductions de termes 67

3.1 Approches compositionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

3.1.1 Principe de la traduction compositionnelle . . . . . . . . . . . . . . . . . . 68

3.1.2 Traduction compositionnelle d"unit

´es polylexicales . . . . . . . . . . . . . 69

3.1.3 Traduction compositionnelle d"unit

´es monolexicales . . . . . . . . . . . . 74

3.1.4 Filtrage des traductions g

´en´er´ees . . . . . . . . . . . . . . . . . . . . . . 78

3.2 Approches empiriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

3.2.1 Traduction par inf

´erence analogique . . . . . . . . . . . . . . . . . . . . . 81

3.2.2 Apprentissage de r

`egles de r´e´ecriture de caract`eres . . . . . . . . . . . . 83

3.2.3 Traitement de la variation morphologique . . . . . . . . . . . . . . . . . . 84

3.3

´Evaluation des m´ethodes de g´en´eration de traductions . . . . . . . . . . . . . . . 86

3.4 Perspectives de recherche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

II Contributions

`a la traduction compositionnelle 93

4 Cadre m

´ethodologique de la traduction morpho-compositionnelle 95 4.1 M ´ethode de traduction morpho-compositionnelle . . . . . . . . . . . . . . . . . . 96

4.1.1 Positionnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

4.1.2 D

´efinitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

4.1.3 Hypoth

`eses sous-jacentes . . . . . . . . . . . . . . . . . . . . . . . . . . 101

4.1.4 Int

´erˆet de l"approche pour l"exploitation des corpus comparables et la traduction sp ´ecialis´ee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

4.2 Probl

´ematiques abord´ees et contributions . . . . . . . . . . . . . . . . . . . . . . 102

4.2.1 G

´en´eration de traductions fertiles . . . . . . . . . . . . . . . . . . . . . . . 103

4.2.2 Vari

quotesdbs_dbs25.pdfusesText_31
[PDF] BAUCHER Johanna - Anciens Et Réunions

[PDF] Bauchtrainer seitlich Entraînement des abdominaux

[PDF] Bauchwasser bei Krebspatienten - Eierstockkrebs

[PDF] bauchweg-übungen

[PDF] BAUD CINEMA LE CELTIC 1 RUE DE LA LIBERATION 56150 - France

[PDF] baud communauté fin de l`opah mais toujours des aides en faveur - Gestion De Projet

[PDF] BAUD – S 26 Scrabble Baldivien ancien collège rue des écoles - Anciens Et Réunions

[PDF] baudekin a la lance }} de hainaut - Ogn

[PDF] Baudelaire au Paradis: invitation au Voyage

[PDF] Baudelaire et Modigliani

[PDF] Baudelaire et Paris - France

[PDF] Baudelaire Poetry Analysis - Anciens Et Réunions

[PDF] Baudelaire Vin du Solitaire - markus - Anciens Et Réunions

[PDF] Baudelaire, Charles - Grande Inquisitore - France

[PDF] Baudelaire, Correspondances