[PDF] [PDF] Classification Automatique des textes

développement d'outils d'analyse et de traitement automatique des textes, notamment 6 5 1- Environnement de développement comme étant « les espèces les plus générales de ce qui est signifié par un mot simple » permettent l'intégration et l'apparition ou la disparition d'agents en cours même de 38 Palm-oil



Previous PDF Next PDF





[PDF] Le marché de la mobilité en France et à linternational - Cigref

Ces publications peuvent être obtenues en se connectant sur le site web du Cigref Palm 79 5 7 Positionnement et stratégie des fabricants de À travers le développement des technologies sans fil et la l'utilisateur et son environnement de travail en entreprise ; voie hertzienne à un point d'accès du réseau internet



[PDF] Système dInformation Géographique - partenaire BEEP IRD

B DEPARTEMENT DE SANTE PUBLIQUE ET ENVIRONNEMENT PDESO : Projet de Développement de l'Elevage au Sénégal Oriental J2ME : Java 2 Micro Edition Tableau II : Principales espèces végétales de la CR de Kouthiaba et la mobilité ; cette situation se traduit par la disparition progressive des zones de



[PDF] Etude technique, économique et réglementaire de l - Arcep

(D'après Séminaire « Journée J2ME » Le développement de gammes de services nouveaux : l'essor des services réseaux Voix/données et Fixe/Mobile ; ces réseaux permettront de Concernant la couche réseau en environnement métropolitain, la présence Sauf France et Espagne 4 disparition à moyen terme



[PDF] UNIVERSITE MONTESQUIEU – BORDEAUX IV - Thèses

5 jan 2011 · Concrètement, ce nouvel environnement s'appuie Avant les services mobiles : le développement de la téléphonie Pour pouvoir saisir ces nouvelles opportunités technologiques, les Pénard, 2000], la disparition des monopoles pouvant entrainer la multiplication de Pour ouvrir la voie à une in-



[PDF] Classification Automatique des textes

développement d'outils d'analyse et de traitement automatique des textes, notamment 6 5 1- Environnement de développement comme étant « les espèces les plus générales de ce qui est signifié par un mot simple » permettent l'intégration et l'apparition ou la disparition d'agents en cours même de 38 Palm-oil



[PDF] Usages et stratégies dappropriation du téléphone - Corpus UL

accordé tout au long de ces années, pour avoir cru en mes capacités et développement de nouveaux usages du téléphone portable et des nouvelles pratiques fonctions programmées du téléphone portable (transmission de la voix, des messages Liens avec l'environnement socioprofessionnel, la famille et l'espace 



[PDF] Enjeux économiques de lUMTS - Conseil dAnalyse Economique

4 déc 1998 · des licences de cotiser à un fonds européen de développement de Michel Charpin, jugent que c'est la voie de la sagesse Ce sont ces trois techniques qui devraient se rejoindre dans l'UMTS : la certitude sur l'environnement ( ARPU, coût des équipements) a de paquets / disparition progressive



Michel Didier et Jean-Hervé Lorenzi - Université Paris-Dauphine

estiment quant à eux qu'en ces matières où règne l'incertitude technologi- que, l' État ne des licences de cotiser à un fonds européen de développement de l' UMTS) Cela pose la Michel Charpin, jugent que c'est la voie de la sagesse Michel certitude sur l'environnement (ARPU, coût des équipements) a moins d' ef-

[PDF] Environnement de travail - Linguistique

[PDF] Environnement de travail IF-104 - Mathieu Faverge - Enseirb - Science

[PDF] Environnement des couples serr es : disques et jets, connexion accr

[PDF] Environnement du repas Constat La vaisselle La salle de restaurant

[PDF] Environnement d`apprentissage pour le diagnostic en cardiologie

[PDF] Environnement économique et managérial du notariat

[PDF] Environnement Environment

[PDF] Environnement et développement durable

[PDF] ENVIRONNEMENT ET GÉNIE CLIMATIQUE*

[PDF] Environnement et identité

[PDF] environnement et innovation - Chambre d`agriculture d`Alsace

[PDF] Environnement et maladies respiratoires

[PDF] Environnement et mobilités géographiques - Prodig - France

[PDF] Environnement et paix

[PDF] Environnement et progrès Série S

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE

MINISTERE DE L'ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE

UNIVERSITE ABOUBEKR BELKAID-TLEMCEN

FACULTE DES SCIENCES

DEPARTEMENT D'INFORMATIQUE

Mémoire présenté pour l'obtention du diplôme de

Magister

en

INFORMATIQUE

Option :

Intelligence Artificielle et Aide à la Décision CCllaassssiiffiiccaattiioonn AAuuttoommaattiiqquuee ddee TTeexxtteess AApppprroocchhee OOrriieennttééee AAggeenntt

Présenté par

MMAATTAALLLLAAHH HHoocciinnee

Soutenu en Février 2011 devant la commission du jury composée de : Président Mr M. BOUCHEKIF PROFESSEUR, UNIVERSITE DE TLEMCEN

Directeur de thèse

Mr M.A. CHIKH MAITRE DE CONFERENCES A, UNIVERSITE DE TLEMCEN Examinateur Mme F. DIDI MAITRE DE CONFERENCES A, UNIVERSITE DE TLEMCEN Invité Mr M.A. ABDERAHIM MAITRE DE CONFERENCES B, UNIVERSITE DE TLEMCEN

Abstract /

==Résumé/

Avec l'avènement de l'informatique et l'accroissement du nombre de documents électroniques stockés

sur les divers supports électroniques et sur le Web, particulièrement les données textuelles, le

développement d'outils d'analyse et de traitement automatique des textes, notamment la classification

automatique de textes, est devenu indispensable, pour assister les utilisateurs, de ces collections de

documents, à explorer et à répertorier toutes ces immenses banques de données textuelles.

Ainsi la catégorisation automatique de textes, qui consiste à assigner un document à une ou plusieurs

catégories, s'impose de plus en plus comme une technologie clé dans la gestion de l'intelligence, les

résultats obtenus sont utiles aussi bien pour la recherche d'information que pour l'extraction de

connaissance soit sur internet (moteurs de recherche), qu'au sein des entreprises (classement de

documents internes, dépêches d'agences, etc.).

À l'égard des différentes approches de classification automatique de textes, décrites dans l'état de

l'art, se reposant sur une architecture classique basée sur un seul point de vue, nous avons introduit

une nouvelle utilisation du classifieur " Naïve Bayes » avec des textes codés en "N-grammes », basée

sur une architecture Multi-Agent.

L'objectif principal de nos travaux, est d'améliorer les performances et l'efficacité du modèle de

classification.

Le corpus de référence Reuters, va servir à mener une étude comparative des résultats obtenus.

Mots Clés : Catégorisation, Classification, Texte, Apprentissage, Evaluation, N-grammes, Naïve

Bayes, SMA, Reuters.

" Naïve Bayes » "" N-Grams » " SMA » "Reuters» With the advent of computers and the increasing number of electronic documents stored on various

electronic media and web, especially text data, development of analysis tools and automatic

processing of texts, including automatic text classification has become essential to assist users of these

document collections, to explore and identify all these huge banks of textual data. And automatic categorization of text, which is to assign a document to one or more categories, is becoming increasingly recognized as a key technology in the management of intelligence, the results are useful both for the search information to extract knowledge or on the Internet (search engines), and at the company (ranking of internal documents, news agencies, etc.).

In respect of different approaches to automatic text classification, described in the prior art, relying

on a conventional architecture based on a single point of view, we introduced a novel use of the classifier "Naïve Bayes" with texts coded "N-grams, based on Multi-Agent architecture. The main objective of our work is to improve the performance and efficiency of the classification model. The reference corpus Reuters will be used to conduct a comparative study of results. Keywords : Categorization, Classification, Text, Learning, Evaluation, N-gram, Naive Bayes, SMA,

Reuters.

A mon père et mon frère Abdelhadi

Que Dieu les accueille dans son vaste paradis

A ma chère mère

A ma chère femme

A mes enfants

A mes soeurs et mon frère

A toutes les personnes qui m'aiment

Qu'ils trouvent ici l'expression de ma sincère gratitude

Remerciements

Aucune oeuvre humaine ne peut se réaliser sans l'aide de Dieu. Je le remercie en premier lieu

de m'avoir donné la santé, le courage ainsi qu'une grande volonté pour aboutir à ce travail.

Entreprendre une thèse en informatique après 18 ans de rupture avec l'univers d'études et de

recherche, c'était plus qu'un défi pour moi. Les premiers mois de la thèse étaient

extrêmement ardus et réussir à surpasser l'épreuve c'était un vrai challenge que j'ai entamé.

Comme toute thèse, ce mémoire est le fruit de longues heures de lecture, de recherches, de

réflexion et le résultat d'un effort constant, cet effort n'aurait pu aboutir sans la contribution

d'un nombre de personnes que je tiens à remercier. Tout d'abord, j'exprime ma double gratitude à Mr CHIKH Mohamed Amine, en tant que

directeur de thèse pour ses conseils et orientations en dépit d'un emploi du temps chargé, et en

tant que responsable de ce magister pour tous les efforts fournis durant cette année théorique qui était pleine et d'une extrême richesse d'enseignements qui m'a permis personnellement de me recycler et d'actualiser mes connaissances. Ce magister qui a été pour moi la clé et la chance de me relancer dans une deuxième carrière. Je suis très reconnaissant à Dr BOUCHEKIF Mohamed de me faire l'honneur de présider le jury et mes plus sincères remerciements à l'égard de Mme DIDI Fedoua, et Mr ABDERAHIM Mohamed Amine de me faire l'honneur de juger mon travail. Un grand merci aux Ingénieurs d'Etats en Informatique (Promo 2010) Semmoud A., Bouhassoune L., Mogtit S., qui m'ont accompagné dans la phase d'implémentation, leur aide a été extrêmement précieuse.

Je tiens ensuite à remercier Mr Hadjila F., Pour avoir contribué à la réflexion lors de

l'élaboration du mémoire.

Je remercie chaleureusement toute l'équipe du département d'informatique et à tous ceux qui

m'ont était une source d'aide ou de motivation importante, en particulier je cite parmi eux Mrs Benamar A., El Yebdri Z., Belabed A., Bentaallah M.A., etc.. Il serait trop long de tous les nommer mais je remercie chaleureusement tous mes proches,

amis, et collègues de travail qui m'ont toujours soutenu et encouragé au cours de la réalisation

de ce mémoire. Je pense particulièrement à ceux de la Wilaya de Tlemcen, de la Soitex et mon club de Foot-Ball C.S.R que je préside.

Enfin, ce travail de recherche n'aurait jamais été terminé sans le soutien de plusieurs

personnes qui n'ont pas hésité à me donner le courage et le dynamisme pour l'accomplir. Qu'ils trouvent ici l'expression de mes sincères remerciements.

Merci à tous et à toutes.

Introduction

1- Problématique et contexte du mémoire .................................................................. 2

2- Contribution .............................................................................................................. 3

3- Organisation du mémoire ........................................................................................ 4

Chapitre 1 - Classification automatique de textes

1.1- Introduction ........................................................................................................... 8

1.2- Pourquoi automatiser la classification ? .............................................................. 9

1.3- Historique de la Catégorisation de textes .......................................................... 10

1.4- Les systèmes de classification et vocabulaire utilisé ......................................... 10

1.4.1- Catégorisation (Supervisé) ......................................................................................... 11

1.4.2- Clustering (Non supervisé) ........................................................................................ 11

1.5- Définition de la Catégorisation de textes ........................................................... 12

1.6- La notion de classe pour les systèmes de classification .................................... 13

1.7- Les différents contextes de classification ........................................................... 14

1.7.1- Classification bi-classe et multi-classes ..................................................................... 14

1.7.1.1- La classification bi-classe ................................................................................... 14

1.7.1.2- La classification multi-classes disjointes ............................................................ 14

1.7.1.3- La classification multi-classes ............................................................................ 14

1.7.2- Catégorisation déterministe et floue .......................................................................... 14

1.7.2.1- Catégorisation déterministe ................................................................................ 14

1.7.2.2- Catégorisation floue ou le ranking ...................................................................... 14

1.8- Objectifs et intérêts .............................................................................................. 15

1.9- Classification de textes et Text Mining .............................................................. 16

1.10- Classification de textes et Recherche d'informations .................................... 16

1.11- Démarche à suivre pour la catégorisation de textes ....................................... 17

1.12- Problèmes de la catégorisation de textes ......................................................... 18

1.12.1- Redondance(Synonymie) ......................................................................................... 18

1.12.2- Polysémie (Ambiguïté) ............................................................................................ 19

1.12.3- L'homographie ......................................................................................................... 19

1.12.4- La graphie ................................................................................................................ 19

1.12.5- Les variations morphologiques ................................................................................ 19

1.12.6- Les mots composés ................................................................................................. 20

Table des matières

1.12.7- Présence-Absence de termes .................................................................................... 20

1.12.8- Complexité de l'algorithme d'apprentissage ........................................................... 20

1.12.9- Sur-apprentissage ..................................................................................................... 20

1.12.10- Subjectivité de la décision ..................................................................................... 20

1.13- Conclusion .......................................................................................................... 21

Chapitre 2 - Codage des textes : Etat de l'art

2.1- Introduction ......................................................................................................... 24

2.2- Le texte .................................................................................................................. 24

2.3- Prétraitements ...................................................................................................... 25

2.3.1- La segmentation ......................................................................................................... 25

2.3.2- Suppression des mots fréquents ou élimination des "Mots Outils" ........................... 26

2.3.3- Suppression des mots rares ........................................................................................ 28

2.3.4- Le traitement morphologique ..................................................................................... 28

2.3.5- Le traitement syntaxique ............................................................................................ 29

2.3.6- Le traitement sémantique ........................................................................................... 29

2.4- Définition de descripteurs ................................................................................... 29

2.4.1- Représentation en " sac de mots » " bag of words » ............................................... 30

2.4.2- Représentation des textes par des collocations .......................................................... 31

2.4.3- Représentation des textes par des phrases.................................................................. 32

2.4.4- Représentation des textes avec des racines lexicales (stemming).............................. 32

2.4.5- Représentation des textes avec des lemmes (lemmatisation)..................................... 33

2.4.6- Représentation des textes avec la méthode des n-grammes ....................................... 33

2.4.7- Représentation des textes par des combinaisons de termes ....................................... 34

2.4.8- Représentation des textes basée sur les concepts ....................................................... 34

2.5- Sélection de descripteurs ..................................................................................... 35

2.5.1- Besoin de la sélection de descripteurs........................................................................ 35

2.5.2- Le nombre de descripteurs conservés ........................................................................ 36

2.5.3- Les méthodes de sélection de descripteurs ................................................................ 37

2.5.3.1- Principales méthodes .......................................................................................... 37

2.5.3.2- Inconvénient commun (Association de termes) .................................................. 38

2.5.3.2- Autres approches ................................................................................................. 39

2.5.4- Sélection des termes par rapport la classe ou tout le corpus ...................................... 39

2.6- Pondération ou calcul de poids ........................................................................... 40

2.6.1- Le modèle vectoriel .................................................................................................... 41

2.6.1.1- Représentation binaire ........................................................................................ 41

2.6.1.2- Représentation fréquentielle ............................................................................... 41

2.6.1.3- Représentation fréquentielle normalisée ............................................................. 42

2.6.1.4- Vecteur TF-IDF .................................................................................................. 42

2.6.2- Le modèle probabiliste ............................................................................................... 45

2.6.3- Représentation séquentielle........................................................................................ 45

2.7- Conclusion ............................................................................................................ 46

Chapitre 3 - Approches de classification : Etat de l'art

3.1- Introduction ......................................................................................................... 49

3.1.1- L'apprentissage automatique ..................................................................................... 49

3.1.2- L'apprentissage supervisé .......................................................................................... 49

3.1.3- La catégorisation est un problème de classification supervisée ................................. 50

3.1.4- Comment classer ? ..................................................................................................... 50

3.2- Différents modèles de classifieurs ...................................................................... 50

3.2.1- Machines à Vecteurs Support - SVM ........................................................................ 51

3.2.1.1- Présentation de l'approche .................................................................................. 51

3.2.1.2- Critiques de l'approche ....................................................................................... 53

3.2.2- Rocchio ...................................................................................................................... 53

3.2.2.1- Présentation de l'approche .................................................................................. 53

3.2.2.2- Critiques de l'approche ....................................................................................... 54

3.2.3- Méthode du centroïde ................................................................................................ 54

3.2.3.1- Présentation de l'approche .................................................................................. 54

3.2.3.2- Critiques de l'approche ....................................................................................... 55

3.2.4- K plus proches voisins - kPPV ................................................................................... 55

3.2.4.1- Présentation de l'approche .................................................................................. 55

3.2.4.2- Critiques de l'approche ....................................................................................... 57

3.2.5- Arbres de décision ...................................................................................................... 58

3.2.5.1- Présentation de l'approche .................................................................................. 58

3.2.5.2- Architecture d'un arbre de décision ..................................................................... 59

3.2.5.3- Algorithme de construction ................................................................................. 59

3.2.5.4- L'entropie et le gain d'information ..................................................................... 60

3.2.5.5- Évaluation des arbres de décision ....................................................................... 60

3.2.6- Les approches neuronales .......................................................................................... 61

3.2.6.1- Présentation de l'approche .................................................................................. 61

3.2.6.2- Le perceptron ...................................................................................................... 62

3.2.6.3- Autres réseaux à couches .................................................................................... 63

3.2.6.4- Classification à base des réseaux de neurones .................................................... 63

3.2.6.5- Critiques de l'approche ....................................................................................... 64

3.2.7- Naïve Bayes ............................................................................................................... 64

3.2.7.1- Description de l'approche .................................................................................... 64

3.2.7.2- Critiques de l'approche ....................................................................................... 65

3.2.8- Les méthodes mixtes et Boosting .............................................................................. 66

3.2.8.1- Présentation de l'approche .................................................................................. 66

3.2.8.2- Evaluation de l'approche .................................................................................... 66

3.2.9- Autres méthodes ......................................................................................................... 67

3.3- Mesures de similarité et formules pour calcul de distance .............................. 67

3.3.1- Calcul de distance ...................................................................................................... 68

3.3.1.1- Définition de la distance ..................................................................................... 68

3.3.1.2- Variantes de distance .......................................................................................... 68

3.3.2- Mesures de similarité ................................................................................................. 69

3.3.2.1- Cosinus ................................................................................................................ 69

3.3.2.2- Kullback&Liebler (la mesure d'entropie relative) .............................................. 70

3.3.2.3- Synthèse sur les mesures de similarité ................................................................ 72

3.4- Conclusion ............................................................................................................ 72

Chapitre 4 - Evaluation des classifieurs

4.1- Introduction ......................................................................................................... 74

4.2- Méthodologies de comparaison de classifieurs ................................................. 74

4.2.1- Différentes approches sur le même corpus ................................................................ 74

4.2.1.1- Même corpus avec des découpages différents .................................................... 74

4.2.1.2- Les différentes techniques de représentation de textes ....................................... 75

4.2.1.3- Les différentes mesures utilisées pour l'évaluation ............................................ 75

4.2.2- Différentes approches par le même auteur ................................................................. 75

4.2.3- Difficultés approuvées pour juger les capacités d'une méthode ................................ 75

4.2.4- TREC ......................................................................................................................... 76

4.3- Mesures de performance de classifieurs ............................................................ 76

4.3.1- Classification déterministe à deux classes ................................................................. 76

4.3.1.1- Matrice de contingence ....................................................................................... 76

4.3.1.2- Précision et Rappel ............................................................................................. 77

4.3.1.3- Bruit et silence .................................................................................................... 78

4.3.1.4- Taux de succès et taux d'erreur .......................................................................... 79

4.3.1.5- Taux de chute et la spécificité ............................................................................. 79

4.3.1.6- L'overlap et la généralité .................................................................................... 79

4.3.1.7- F-measure ............................................................................................................ 79

4.3.2- Classification déterministe à plusieurs classes .......................................................... 81

4.3.2.1- Matrice de contingence globale .......................................................................... 81

4.3.2.2- La micro-moyenne .............................................................................................. 82

4.3.2.3- La macro-moyenne ............................................................................................. 82

4.3.2.4- Une mesure issue de TREC : l'utilité .................................................................. 83

4.3.3- Classification floue ou Ranking ................................................................................. 83

4.4- Autres critères de comparaison de classifieurs ................................................. 84

4.5- Conclusion ............................................................................................................ 84

Chapitre 5 - Les Systèmes Multi-Agents

5.1- Introduction ......................................................................................................... 88

5.1.1- Historique ................................................................................................................... 88

5.1.2- Pourquoi distribuer l'intelligence? ............................................................................. 88

5.1.3- Qu'est que l'intelligence artificielle distribuée (IAD) ? ............................................. 91

5.1.4- Le monde est ouvert ................................................................................................... 93

5.1.5- Domaines d'intérêts .................................................................................................... 93

5.2- Concepts de base .................................................................................................. 93

5.2.1- Agent .......................................................................................................................... 93

5.2.1.1- Définitions ........................................................................................................... 93

5.2.1.2- Des Objets aux Agents ........................................................................................ 96

5.2.2- Système Multi-Agents ............................................................................................... 97

5.2.2.1- Qu'est-ce qu'un système multi-agents ? ............................................................. 97

5.2.2.2- Utilité des systèmes multi-agents ........................................................................ 97

5.2.2.3- Un premier exemple ............................................................................................ 98

5.2.2.4- Vue intuitive d'un Agent dans un SMA ............................................................. 99

5.2.2.5- Variables globales et locales et les SMA ............................................................ 99

5.2.2.6- Niveaux d'organisation ....................................................................................... 99

5.2.3- Propriétés d'un agent intelligent .............................................................................. 100

5.2.3.1- Autonomie ......................................................................................................... 100

5.2.3.2- Réactivité .......................................................................................................... 100

5.2.3.3- Proactivité ......................................................................................................... 101

5.2.3.4- Adaptabilité ....................................................................................................... 101

5.2.3.5- Sociabilité ......................................................................................................... 101

5.2.3.6- Apprentissage .................................................................................................... 101

5.2.3.7- Sécurité ............................................................................................................. 102

5.2.4- Propriétés des systèmes multi-agents ....................................................................... 102

5.2.4.1- Interactions entre agents ................................................................................... 102

5.2.4.2- Coopération ....................................................................................................... 103

5.2.4.3- Coordination ..................................................................................................... 103

5.2.4.4- La compétition .................................................................................................. 104

5.2.4.5- Délégation ......................................................................................................... 104

5.2.4.6- Communication ................................................................................................. 105

5.2.4.7- Une Recherche de Compromis ......................................................................... 105

5.3- Les différents modèles d'agents (Architecture) .............................................. 105

5.3.1- Les agents réactifs .................................................................................................... 107

5.3.1.1- Agents à réflexes simples .................................................................................. 107

5.3.1.2- Agents conservant une trace du monde ............................................................ 108

5.3.2- Les agents délibératifs .............................................................................................. 109

5.3.2.1- Agents ayant des buts ........................................................................................ 110

5.3.2.2- Agents utilisant une fonction d'utilité .............................................................. 110

5.3.2.3- Le modèle BDI .................................................................................................. 111

5.3.3- Les agents hybrides .................................................................................................. 112

5.4- Apprentissage des agents et des SMA .............................................................. 113

5.4.1- Apprentissage des Agents ........................................................................................ 113

5.4.1.1- Définitions et Différentes formes d'apprentissage ............................................ 113

5.4.1.2- Apprentissage des agents .................................................................................. 114

5.4.1.2- L'apprentissage par renforcement ..................................................................... 116

5.4.2- Apprentissage des SMA ........................................................................................... 117

5.5- Méthodologies de conception d'un SMA ........................................................ 117

5.5.1- Problématique .......................................................................................................... 117

5.5.2- Méthodologie ........................................................................................................... 118

5.5.2.1- Phase d'analyse ................................................................................................. 118

5.5.2.2- Phase de conception .......................................................................................... 119

5.5.2.3- Les étapes de réalisation d'un SMA .................................................................. 120

5.5.3- Plates-formes de développement ............................................................................. 120

5.6- Conclusion .......................................................................................................... 121

quotesdbs_dbs9.pdfusesText_15