[PDF] Contribution au résumé automatique multi-documents - TEL





Previous PDF Next PDF



Untitled

résumé des contributions écrites soumises par d'autres parties prenantes (y compris des membres de la société civile)2 également établi par le HCDH.



Forum mondial sur la concurrence LUTILISATION DÉTUDES DE

Sep 2 2020 toutes les contributions écrites qui lui seront communiquées. Je vous rappelle que le Secrétariat compilera des résumés succincts des ...



Résumé des discussions

certain nombre de contributions écrites ont également été reçues. 4. Le présent résumé ne traduit pas nécessairement l'opinion de chaque participant ou du 



RÉSUMÉS DES CONTRIBUTIONS

RÉSUMÉS DES CONTRIBUTIONS. Maria de Jesus Cabral « ( S')écrire entre deux Conformément à ses écrits théoriques



Examen Périodique Universel EPU (quatrième cycle) Informations et

prenantes aux fins de la rédaction des contributions écrites à 3. le résumé des communications des parties prenantes (contenant des informations.



Modalités de participation Décision relative aux modalités de

Jul 5 2002 Les contributions écrites sur le fond



Contribution écrite des ONG pour lExamen Périodique Universel

Des extraits de contributions des ONG peuvent être sélectionnés par le HCDH et inclus dans son résumé d'informations des parties prenantes (connu sous le nom de 



Compte rendu de la session plénière du 20 décembre 2017

Dec 20 2017 Résumé. Le CNDSI s'est réuni en session plénière pour la 11e fois le 20 ... invités à compléter leur propos via des contributions écrites ...



Contribution au résumé automatique multi-documents - TEL

Mar 4 2011 tion contribution to the summaries quality. CBSEAS and the three modules ... Les résumés de référence sont en effet écrits en respectant.



Examen Périodique Universel EPU (quatrième cycle) Informations et

rédaction des contributions écrites à l'EPU. I. A propos de l'EPU 3. le résumé des communications des parties prenantes (contenant des.



RÉSUMÉS DES CONTRIBUTIONS - u-paris2fr

RÉSUMÉS DES CONTRIBUTIONS Avant-propos Transparence et démocratie : généalogie d’un succès C’est à Jeremy Bentham que les juristes doivent le concept de transparence Pour le fondateur de l’utilitarisme la transparence qu’il recommandait aux élus d’observer dans leurs discours signifiait simplicité Elle tenait pour beau-

Département d"informatique

Institut GaliléeÉcole doctorale Galilée

Contribution au résumé

automatique multi-documentsTHÈSE présentée et soutenue publiquement le 12/07/2010 pour l"obtention du

Doctorat de l"Université Paris-Nord - Paris 13

(spécialité informatique) par

Aurélien Bossard

Composition du jury

Rapporteurs :Guy Lapalme, Professeur, Université de Montréal Juan-Manuel Torres Moreno, Maître de conférences HDR, Université d"Avignon Examinateurs :Anne Vilnat, Professeur, IUT d"Orsay Céline Rouveirol, Professeur, Université Paris 13

Daniel Kayser, Professeur, Université Paris 13

Directeur :Thierry Poibeau, Chargé de recherche CNRS, LaTTiCeLaboratoire d"Informatique de Paris-Nord - CNRS UMR 7030

Remerciements

Je tiens à remercier tout d"abord Thierry Poibeau, qui m"a encadré depuis le Master

2, soit plus de 4 années, pour ses conseils, sa présence et son suivi qui m"ont permis de

suivre ma propre voie tout en veillant à ce que je ne m"égare pas. Il a contribué à faire de

mes années de thèse une expérience enrichissante. Je n"oublie pas Daniel Kayser, dont l"expérience, les conseils et les relectures attentives ont été une aide précieuse. Je remercie Juan-Manuel Torres Moreno et Guy Lapalme pour avoir accepté d"être les rapporteurs de cette thèse, ainsi qu"Anne Vilnat et Céline Rouveirol pour leur parti- cipation au jury. Mes remerciements vont également aux personnes de mon équipe, RCLN, qui ont su me guider depuis mes premiers pas en recherche. De plus, la qualité des formations qu"ils ont su mettre en place dans le master MICR m"ont fourni les outils nécessaires à la réalisation d"une thèse dans un domaine aussi ouvert que le traitement automatique du langage naturel. Je remercie également le LIPN, pour m"avoir fait confiance et permis d"accomplir une thèse dans d"aussi bonnes conditions de travail. Comment ne pas citer mes collègues de bureau et amis, Christophe et Thibault, qui ont réussi à rendre l"atmosphère de travail à la fois saine et joviale. Merci à eux! Je tiens aussi à exprimer toute ma gratitude à ma famille, notamment mes parents qui m"ont toujours soutenu durant mes études et dans toutes mes activités, ma petite soeur dont la rigueur a été d"une graide aide lorsqu"elle a relu ma thèse d"un oeil extérieur au TAL, et à la dernière venue, Maroussia, dont la patience a été rudement mise à l"épreuve. Je finirai par remercier mes amis pour leur joie de vivre et les aventures que l"on aura pu vivre ensemble : Jeff, Christophe, Charlotte et tous les autres qui ont contribué et contribueront encore, je l"espère, à rendre la vie plus agréable. iii

Résumé

Résumer un texte consiste à réduire ce texte en un nombre limité de mots. Le texte ainsi réduit doit rester fidèle aux informations et idées du texte original. Que ce soit pour des professionnels qui doivent prendre connaissance du contenu de documents en un temps limité ou pour un particulier désireux de se renseigner sur un sujet donné sans

disposer du temps nécessaire pour lire l"intégralité des textes qui en traitent, le résumé

est une aide contextuelle importante. Avec l"augmentation de la masse documentaire disponible électroniquement, résumer des textes automatiquement est devenu un axe de recherche important dans le domaine du traitement automatique de la langue. La

production automatique de résumés pose le problème de la détection et de la modélisation

des informations contenues dans les textes. Elle suppose également la hiérarchisation de ces informations afin d"intégrer au résumé les plus importantes. Cette thèse de doctorat propose une méthode statistique pour le résumé automatique par extraction ainsi que l"intégration d"analyses linguistiques au processus de sélection de phrases. La méthode que nous proposons est fondée sur une classification des phrases à résumer

en classes sémantiques en utilisant des calculs de similarité entre les phrases. Cette étape

nous permet d"identifier les phrases qui risquent de présenter des éléments d"informa- tion similaires et ainsi de supprimer toute redondance du résumé généré. Une seconde étape vise à sélectionner une phrase par classe, en tenant compte de la similarité des phrases à une éventuelle requête utilisateur, de la longueur des phrases ainsi que de la

centralité dans leur classe. Les résumés ainsi générés doivent maximiser la centralité et la

diversité des informations. Cette méthode a été évaluée sur deux tâches de la campagne

d"évaluation TAC 2008 : le résumé de dépêches et le résumé d"opinions issues de blogs.

Les résultats mitigés sur la première tâche et encourageants sur la deuxième nous ont

poussé à prendre en compte des critères de sélection de phrases spécifiques aux types de

documents traités. Nous avons alors proposé d"établir une catégorisation des dépêches

de presse ainsi que l"annotation automatique de leur structure afin d"améliorer la qualité

des résumés générés par notre système. Nous avons également étudié l"apport de l"anno-

tation en entités nommées et de la résolution d"anaphores pour le résumé automatique.

Le système et ces trois derniers modules ont été évalués sur la tâche de résumé et mise à

jour de résumé de dépêches de la campagne TAC 2009, se classant dans le premier quart

des participants. Notre méthode de résumé a également fait l"objet d"une intégration à

un système applicatif plus large visant à aider un possesseur de corpus à visualiser les axes essentiels et à en retirer automatiquement les informations importantes. v

Abstract

Summarizing a textual document consists in compressing the text in a limited number of words. The compressed text must remain faithful to the information and ideas from the initial text. Professionals who have to peruse documents in a limited amount of time or private individuals who want to be informed about a specific topic without having the time to read all the texts about it both need summaries. The increase in electronic documents available have made the research in automatic summarization an important domain in the field of natural language processing. Producing automatic summaries depends on textual information detection and modelling. Generating good automatic summaries also depends on information hierarchization in order to put only the most important information in the summaries. This PhD Thesis proposes a statistical method to generate automatic extracts, and the integration of linguistic analysis to the sentences selection process. The method we propose is based on a sentence classification in semantic clusers, using similarity calculation between sentences. This step allows us to identify the sentences which convey the same information and to remove redundancy from the automatically generated summaries. A second step aims to select one sentence per cluster, taking into account the similarity to a user query, the sentences length and the centrality within their cluster. The generated summaries must maximize the centrality and diversity of the information they convey. This method has been evaluated on two different tasks of the evaluation campaign TAC 2008 : news summarization and opinion summarization. The mixed results on the first task led us all the more to take in account sentences se- lection criterion specific to the documents to summarize, since the results on the second task were encouraging. We then proposed to establish a newswire articles categorization as well as automatic structure tagging in order to improve the quality of the summaries produced by CBSEAS. We also studied the named entity tagging and anaphora resolu- tion contribution to the summaries quality. CBSEAS and the three modules described above have been evaluated on the " Update » summarization task for newswire articles of the TAC 2009 evaluation campaign, ranking itself among the the first quarter of the TAC 2009 participating systems. Our summarization method has also been integrated to a larger application which aims to help the user to visualize the main topics of a corpus and to automatically extract the essential information. vii

Table des matières

Introduction

1

Problématique

2

Apports

3

Plan de thèse

3

I. État de l"art

5

1. État de l"art du résumé automatique

9

1.1. Types de résumés visés dans la thèse

10

1.1.1. Le résumé indicatif

10

1.1.2. Le résumé informatif

11

1.1.3. Le résumé synthétique

11

1.1.4. L"Extrait

12

1.2. Domaines d"application et enjeux du résumé automatique

12

1.3. Méthodes d"analyse de surface

13

1.4. Résumé et apprentissage

17

1.5. Minimiser la redondance tout en maximisant la pertinence

18

1.6. Méthodes à base de graphe

19

1.7. Résumé automatique et structure rhétorique

20

1.8. Extraction et fusion d"information

21

1.9. Post-traitements

21

1.9.1. Compression de phrases

21

1.9.2. Réordonnancement

22

1.10. Conclusion

23

2. L"Evaluation de résumés informatifs

25

2.1. ROUGE

27

2.1.1. ROUGE-n

27

2.1.2. ROUGE-L

28

2.1.3. ROUGE-SUn

28

2.2. BE-HM

28

2.3. Evaluation de résumés et théorie de l"information

29

2.4. La méthode Pyramide

30

2.5. Évaluation de la forme

31
ix

Table des matières

2.6. Conclusion

32

II. Approche

33

3. CBSEAS, Une Approche Générique pour le Résumé Automatique

37

3.1. Intuitions

38

3.2. Le système CBSEAS

40

3.2.1. Architecture

40

3.2.2. Préparation des documents

42

Annotation morpho-syntaxique

42

Découpage des documents en phrases

42

Annotation en entités nommées

43

Calcul d"un score requête

43

Calcul d"un score centroïde

43

Pré-sélection de phrases

44

3.2.3. Calcul des Similarités entre Phrases

44

3.2.4. Classification des Phrases en Classes Sémantiques

45

3.2.5. Sélection des Phrases

46

Centralité locale

47

Centralité globale

48

Taille des phrases

50

3.2.6. Réordonnancement

50

3.3. Apprentissage Automatique de Paramètres pour le Résumé Automatique

52

3.3.1. Problématique

52

3.3.2. Choix d"un algorithme d"optimisation

53

3.3.3. Notre algorithme génétique

53

Méthode de sélection des individus

53

Opérateur de mutation

54

Opérateur de croisement

54

Création d"une nouvelle génération

54

3.3.4. Paramètres expérimentaux

54

3.3.5. Résultats

55

3.3.6. Evaluations

57

Evaluation automatique

57

Evaluation manuelle

59

3.3.7. Conclusion

60

3.4. Discussion

60

3.5. Bilan

61

4. Analyse discursive de documents pour le résumé automatique

63

4.1. Reconnaissance des entités nommées, résolutions d"anaphore et de co-

référence 64

4.1.1. Enjeux

64
x

Table des matières

4.1.2. Réalisations

67

Etiquetage d"entités nommées

67

Résolution d"anaphore et de co-référence

67

4.1.3. Evaluation

69

4.1.4. Conclusion

71

4.2. Utilisation de la Structure Rhétorique pour le Résumé Automatique

73

4.2.1. Introduction

73

4.2.2. Etat de l"Art

73

4.2.3. Structure des Dépêches

75

Dépêches " classiques »

77

Micro-trottoirs

77

Chronologies

quotesdbs_dbs42.pdfusesText_42
[PDF] SYNTHESE DE LA LOI DU 28 JUILLET 2011 POUR LE DEVELOPPEMENT DE L ALTERNANCE

[PDF] APT POSITION PAPER A. INSTITUTIONS NATIONALES DES DROITS DE L'HOMME (INDH)

[PDF] Mode d emploi pour télécharger votre manuel numérique simple

[PDF] Mention Biologie Intégrative et Physiologie (BIP) School BASE Biodiversité, Agriculture et Alimentation, Société et Environnement

[PDF] Module Article. Plate-forme de gestion de contenu. PubliShare utilise la librairie javascript (AJAX - Web 2.0)

[PDF] Colloque du 40 ème anniversaire du Cerat (CNRS) Les " sciences " de l action publique : genèses, pratiques, usages.

[PDF] Manuel d utilisation du formulaire «Exonération Énergie»

[PDF] Les contributions relatives à l apprentissage

[PDF] UNIVERSITÉ PIERRE ET MARIE CURIE - PARIS 6 Faculté de Médecine Site Web : http://www.fmpmc.upmc.fr/fr/index.html

[PDF] Contrat d objectifs et de moyens relatif au développement de l apprentissage dans la région Languedoc Roussillon 2005-2009

[PDF] Thème 2 : la monnaie et les banques : le carburant de notre économie

[PDF] CONTRIBUTION DU CESER

[PDF] Bulletin statistique de l éducation

[PDF] LA TRANSITION NUMÉRIQUE EN AFRIQUE : ENJEUX TECHNOLOGIQUES, FRÉQUENCES ET DIVIDENDE NUMÉRIQUE

[PDF] La rentabilité socio économique et financière de la LGV PACA