[PDF] Outils d’extraction d’informations à partir de documents



Previous PDF Next PDF







FACTURES (PARTIE 2) - Maths & tiques

Yvan Monka – Académie de Strasbourg – www maths-et-tiques FACTURES (PARTIE 2) TP info sur tableur Objectif : Utilisation du tableur pour automatiser les calculs de réductions dans les factures Etape 1 : L’organisateur d’un camp de vacances effectue une commande de fruits et légumes



FACTURES (PARTIE 1) - maths et tiques

Yvan Monka – Académie de Strasbourg – www maths-et-tiques FACTURES (PARTIE 1) TP info sur tableur Objectif : Initiation au tableur à partir de factures à compléter et à inventer Etape 1 : Un enseignant effectue une commande groupée pour la rentrée 1) Dans une feuille de calcul, reproduire le tableau ci-dessous :



Outils d’extraction d’informations à partir de documents

tiques Ainsi la classification permet de mettre en évidence des regroupements sans connaissance à priori sur les données traitées Dans ce travail afin d’avancer dans la recherche, il faut prendre des données d’entrées qui ont la même nature mais sont différentes dans leur conception Les



N° 32 DÉCEMBRE 92 4 n par an : 30 F

tiques en option (*) Le programme de première (partie obligatoire) devrait paraître sous peu En terminale : 4 heures, uniquement pour ceux qui choisissent math en option(*) ; rien pour les autres Série ES (Economique et Sociale) En première : 3 heures (maths appliquées à l’économie et aux sciences sociales)



BCPST 1ère année 2015-2016 - Maths Spé

ration possible en maths et en physique, et progresser tout au long de l'année : Au total : 80 h de cours et examens en maths + 48 h de cours et examens en physique + polycopiés + assistance téléphonique 30 séances de 2h de maths, soit 60h de cours, par petits groupes de niveau CYCLE ANNUEL BCPST 1ère année 2015-2016



Coralie Ladavid et Dr Benjamin Fauquert Pas de chômage, pas

tiques de l’ULB A l’âge de 12 ans, il li-sait déjà des manuels universitaires de mathématiques qu’il avait reçus d’un ami chez les scouts dont le père était prof de maths Deligne a consacré sa vie aux mathématiques abstraites parce qu’elles sont belles Il revendique l’im-portance des mathématiques indépen-



Collège Léon FLASH BLUM N°1- 2016

tiques Après douze ans de coopération, M Sa-lanon décide de ren-trer en France où il Le parcours de M Salanon, notre principal « J’ai énormément d’ambition pour les élèves » FLASH BLUM Page 2 Avis de Monsieur Salanon sur Léon Blum «J'aime bien Léon Blum et j'aimerais que nous ayons les meilleurs résultats de la ville



Guide pédagogique - le changement climatique

• Lire et étudier les factures de consommation ménagère (électricité, gaz) • Lire les indications données sur la consommation des appareils domes-tiques • Etudier les différentes énergies renou-velables : énergie solaire, énergie éolienne, énergie hydraulique, énergie géothermique, bioénergie



CONDITIONS GÉNÉRALES D’UTILISATION DU PROGRAMME DE FIDÉLITÉ

CONDITIONS GÉNÉRALES D’UTILISATION DU PROGRAMME DE FIDÉLITÉ MES GALERIES En vigueur au 01/12/2019 1 Préambule Soucieuse de toujours mieux répondre aux attentes de ses clients, la société 44 GALERIES LAFAYETTE

[PDF] Guide pédagogique CE1 1ère partie - La Librairie des Ecoles

[PDF] Nouvelle-Calédonie mars 2016 Corrigé - Apmep

[PDF] Corrigé du baccalauréat S Polynésie 7 juin 2013 - Apmep

[PDF] Télécharger Maths pour économistes : L 'analyse en économie et

[PDF] Source : Manuel HACHETTE Education Première S #8211 Collection

[PDF] Source : Manuel HACHETTE Education Première S #8211 Collection

[PDF] livre du professeur - Fichier-PDFfr

[PDF] Le second degré - Le livre du prof

[PDF] Le second degré - Le livre du prof

[PDF] Mathématiques Sciences physiques et chimiques - Educationgouv

[PDF] Mathématiques Sciences physiques et chimiques - Educationgouv

[PDF] Le second degré - Le livre du prof

[PDF] Chapitre II : Repères/Coordonnées/Configurations du plan - Free

[PDF] Nouvelle collection INDICE - Le livre du prof

[PDF] Mathématiques (10 points)

UNIVERSITÉ DE LARÉUNION- M2INFORMATIQUE

RAPPORT DE STAGE DEMASTERM2-INFORMATIQUEOutils d"extraction d"informations à partir de documents numérisésAuteur :

MANGATA Nicky

31001630Encadrants :

Jean DIATTA

Cynthia PITOU

9 juin 2015

1

Resume

Ce document est un rapport de stage dans le cadre d"un master 2 informatique à l"Université de la Réunion située à St-Denis. Ce travail d"étude et de recherche concerne un projet informatique et se fait sur une durée de 6 mois. Le projet informatique effectué est encadré par deux experts en analyse de données et en recherche : Cynthia PITOU et Jean DIATTA, ce projet concerne la mise en place d"outils d"extraction d"informations à partir de documents numérisés et d"études de méthodes de classifications sur ces informations. Ainsi dans une génération où l"information numérisées joue un rôle primordial et où son volume ne cesse de croitre, tirer le maximum de bénéfice de ces données par le biais de techniques, d"outil et de technologies serait un atout considérable. Ce rapport mets donc en avant plusieurs dispositifs permettant de générer des documents numérisés, d"or- ganiser, de stocker, d"extraire et d"analyser des masses d"informations de ces do- cuments numérisés afin de localiser celles qui seraient pertinentes relativement à sur son emplacement. Mots clés : Data Mining , JAVA , classification supervisée, classification non supervisée, méthodes d"évalutations, R, SQL.

Abstract

This paper is an internship report in connection with a last-year master"s degree in computer sciences at the University of Reunion Island located in Saint-Denis. This work of study and research involves a computer project and was done over a period of six months. The IT project done was provided by two data mining and research experts : Cynthia Pitou and Jean DIATTA, this project talk about the implementation of data extract tool from scanned document and the study of classifications methods on it. In this way, within a generation where scanned data plays an crucial role and has a volume which are becoming more and more important, obtaining the maximum of benefits of this data through methods, tools, technologies will be a considerable asset. This report is therefore highlighting devices allowing to generate scanned documents, organize, record, extract and analyze wealth of information in order to locate those relevant in the context in an informations needs to a user without any indications about the location. Key-words : DataMining, java, clusterings, evaluation methods, r, sql. 2

Table des matières

1 Introduction 5

1.1 Contexte de l"étude . . . . . . . . . . . . . . . . . . . . . . . . .

5

1.2 Description du laboratoire d"accueil . . . . . . . . . . . . . . . .

6

2 Analyse des besoins et spécifications 8

2.1 Définition du problème . . . . . . . . . . . . . . . . . . . . . . .

8

2.2 Existant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8

2.3 Solutions apportées au projet . . . . . . . . . . . . . . . . . . . .

9

3 Développement 10

3.1 Outil de génération de facture automatisées . . . . . . . . . . . .

10

3.2 Base de données . . . . . . . . . . . . . . . . . . . . . . . . . . .

15

3.3 Générateur de fichier csv . . . . . . . . . . . . . . . . . . . . . .

17

4 Les méthodes de classification non supervisées 20

4.1 La méthode de classification ascendante hiérarchique . . . . . . .

20

4.1.1 Mise en oeuvre de la CAH avec la fonction agnes et le

critère d"agregation : "lien complet" . . . . . . . . . . . . 22

4.1.2 Mise en oeuvre de la CAH avec la fonction agnes et le

critère d"agregation : ward . . . . . . . . . . . . . . . . . 25

4.1.3 Comparaison entre la librairie agnes et la librairie stats . .

26

4.1.4 Exploitation des résultats . . . . . . . . . . . . . . . . . .

28

4.2 L"analyse en composante principale . . . . . . . . . . . . . . . .

30

4.2.1 Mise en oeuvre de l"ACP . . . . . . . . . . . . . . . . . .

30

4.3 K-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

34

4.3.1 Mise en oeuvre de la méthode K-means . . . . . . . . . .

35

4.4 K-medoids . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

36

4.4.1 Mise en oeuvre de la méthode K-medoids . . . . . . . . .

36

5 Les méthodes de classification supervisées 38

5.1 Les Forêts aléatoires (ou Forêt Decisionnels) . . . . . . . . . . .

38
3

5.1.1 Mise en oeuvre de la forêt aléatoire . . . . . . . . . . . .39

5.2 Les arbres de décisions . . . . . . . . . . . . . . . . . . . . . . .

41

5.2.1 Mise en oeuvre des arbres de décisions . . . . . . . . . .

42

5.3 Classification naïve bayésienne . . . . . . . . . . . . . . . . . . .

47

5.3.1 Mise en oeuvre de la classification naives bayésienne . . .

47

5.4 Les Règles d"Associations . . . . . . . . . . . . . . . . . . . . .

48

5.5 Mise en oeuvre des règles d"associations . . . . . . . . . . . . . .

48

5.6 Les méthodes d"évaluations . . . . . . . . . . . . . . . . . . . . .

49

5.6.1 Le taux d"erreur . . . . . . . . . . . . . . . . . . . . . . .

49

5.6.2 Mesure de performance . . . . . . . . . . . . . . . . . . .

49

6 Le résultat 50

7 Conclusion 52

8 Annexe 53

8.1 Fonctions codées sous R . . . . . . . . . . . . . . . . . . . . . .

53

Table des figures 56

Bibliographie 57

4

Chapitre 1

Introduction

1.1 Contexte de l"étude

De nos jours, l"information joue un rôle primordial dans le quotidien des indivi- dus et dans l"essor des entreprises. Cependant, le développement de technologies dans tous les domaines ont conduit à la production d"un volume d"informations numérisés sans précédent. Il est par conséquent, de plus en plus difficile de loca- liser précisément ce que l"on recherche dans cette masse d"informations numéri- sées. Il est alors intéressant de mettre en place un dispositif permettant de stocker et d"organiser des masses d"informations de ces documents numérisés et de loca- liser celles qui seraient pertinentes relativement à un besoin en information d"un utilisateur. L"objectif de ce travail est donc de mettre en place des outils permettant l"ex- traction et la classification de données à partir de documents numérisés. Toutes les traitées, pour cela il existe ce qu"on appelle les méthodes de classifications. Ces méthodes vont permettre d"analyser de gros corpus de données quelque soit le do- maine. En procédant à une classification, on construit des ensembles homogènes d"individus, c"est-à-dire partageant un certain nombre de caractéristiques iden- tiques. Ainsi la classification permet de mettre en évidence des regroupements sans connaissance à priori sur les données traitées. Dans ce travail afin d"avancer dans la recherche, il faut prendre des données d"entrées qui ont la même nature mais sont différentes dans leur conception. Les factures étant un type de document qui répond à cette attente, nous considérons donc que les données d"entrées seront des factures. Pour produire une masse de factures il est nécessaire de développer un outil permettant la génération automa- 5 tique de factures numérisées qui soit proche de la réalité et d"y tester les méthodes de classifications. Les méthodes de classifications utilisées dans ce travail sont :

La Class ificationAscendante Hiérarchique.

K-means

K-medoids

F orêtAléat oire

Les arbres de décisions

Naïv esBayes

Les Règles d"associations

Ce travail comporte deux grandes étapes, une partie développement pour pré- parer les données d"entrées et une partie d"analyse de données pour classifier ces données d"entrées.

1.2 Description du laboratoire d"accueil

Le Laboratoire d"informatique et de Mathématiques (LIM) de l"université de la Réunion (UR) est une équipe d"accueil (EA2525) structurée en trois axes : - Epistémologie et Didactique de l"Informatique et des Mathématiques (EDIM) - InformaTique et Applications (ITA) - Mathématiques (MATHS) Mon stage se situe dans l"axe ITA, plus précisément dans le thème des données, des connaissances et de la décision (DCoD). Selon le lim, [2] des études récentes ont montré que la quantité de données numériques créées va doubler tous les deux ans d"ici 2020 où elle atteindra 40 zettaoctets, soit plus de 5 200 gigaoctets par personne.quotesdbs_dbs4.pdfusesText_8