[PDF] [PDF] thèse finale - Université Paris-Dauphine

23 nov 2016 · permet de prendre en compte la variabilité interne aux classes et C'est une unité statistique qui peut être un sujet (être libre, motivé, etc ) ou Le taux de bonne affectation représenté par l'équation 3 1 Acc = ∑ c i=1 Mii N



Previous PDF Next PDF





[PDF] SIMMAC - Universidad de Costa Rica

de la economıa de libre mercado en el cumplimiento del objetivo de pleno sometimes to account for a terminating event (such as death), and sometimes to



[PDF] AGRADECIMIENTOS - simmac - Universidad de Costa Rica

25 fév 2020 · situaciones cuando los conjuntos w-límite en el plano libre de tumor son los puntos de equilibrio del sistema Comptes Rendus Mathématique We give account of the applications of this decomposition in the study of the 



[PDF] thèse finale - Université Paris-Dauphine

23 nov 2016 · permet de prendre en compte la variabilité interne aux classes et C'est une unité statistique qui peut être un sujet (être libre, motivé, etc ) ou Le taux de bonne affectation représenté par l'équation 3 1 Acc = ∑ c i=1 Mii N



[PDF] CURRICULUM VITÆ de Pierre LAFAYE DE MICHEAUX Table des

Je compte également poursuivre les recherches que j'ai entamées 2012 - Mouloud Belbahri, mémoire de maıtrise avec stage, ADTR - Acc`es `a distance Informatisation du fonds documentaire du LabSAD `a l'aide du logiciel libre Koha



[PDF] A Visualization of Null Geodesics for the Bonnor - gandreolivaorg

12 fév 2014 · Software Libre 1Escuela de Fısica is also important to take into account, since several of these massive objects (black holes or neutron 



[PDF] Recueil des Notices Et Mémoires de la Société - Forgotten Books

gnifie hommes libres) et par le genèse Scha him tien s pa s compte évidemmen t des quelques G é pi dè S comte G uilla ume de Provence s' empa ra en 975 du lignes cre uses n ettemen t acc usées et disposées en éven ta il 7



[PDF] RAPPORT DACTIVITE ANNEE 2006 - CREST

Professeur à l'Université Libre de Bruxelles Costas MEGHIR rendre compte des traits les plus spécifiques isolés dans le premier article Current Account Reversals and Long Term Imbalances: Application to the Central and Eastern

[PDF] Simple et rapide. Cesu en. adhérez au ligne. www.cesu.urssaf.fr

[PDF] Single User. Guide d Installation

[PDF] Site Internet. Maintenance

[PDF] Site internet. Vous voulez faire réaliser votre site internet par une agence web? 21 points à passer en revue pour rédiger votre cahier des charges

[PDF] SITE RH DE L INSERM MODE D EMPLOI

[PDF] Site vitrine / Boutique en ligne Site mobile / Hébergement / Nom de domaine E-mail / Référencement / Multilangues

[PDF] Site www.gentlemanselections.fr CONDITIONS GENERALES DE VENTE E-BOUTIQUE

[PDF] SITUATION FINANCIERE DE LA COMMUNE DE LA VERNAZ

[PDF] Situation sanitaire. en Nouvelle-Calédonie. www.dass.gouv.nc

[PDF] SNCF Agence Immobilière Régionale Communauté D Agglomération Dracénoise

[PDF] SNI Sud-Ouest opérateur immobilier globai au service de l intérêt général

[PDF] sociales (pour information) CIRCULAIRE DGS(SD6/A)/DGAS/DSS/2002/551 / du 30 octobre 2002 relative aux appartements de coordination thérapeutique (ACT)

[PDF] Société Aéroport Toulouse-Blagnac Service environnement / Aide à l insonorisation CS 90103 31703 Blagnac Cedex

[PDF] Société anonyme Sicafi publique de droit belge Uitbreidingstraat 18 2600 Berchem-Anvers Numéro d entreprise 0431.391.860

[PDF] SOCIÉTÉ D HABITATION DU QUÉBEC

THÈSE DE DOCTORAT

de l'Université de recherche Paris Sciences et Lettres

PSL Research University

Préparée àl'Université Paris-Dauphine

COMPOSITION DU JURY :

Soutenue le

par cole Doctorale de Dauphine - ED 543

Spécialité

Dirigée parApprentissage Supervisé de Données Symboliques et l'Adaptation aux Données Massives et Distribuées.

23.11.2016

Raja HADDAD

Witold LITWIN

University of California, Santa CruzM. Darrell LONG

Université Paris Dauphine

M. Edwin DIDAY

M. Philippe Rigaux

CNAM

Mme Rosanna VERDE

Second University of Naples

Mme. Daniela GRIGORI

Université Paris Dauphine

M. Filipe AFONSO

Syrokko

Informatique

Président du jury

Membre du jury

Rapporteur

Rapporteure

Membre du jury

Membre du jury

Table des mati`eres

Introduction g´en´erale1

1 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

2 Probl

´ematiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2.1 Extraction des Histogrammes

`a partir d"une Variable Continue . 2

2.2 Extension de la m

´ethode d"Arbre de D´ecision aux Donn´ees Symboliques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2.3 Extension de l"ADS aux Big Data . . . . . . . . . . . . . . . . . . . 3

3 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

4 Plan de la th

`ese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1 Analyse des donn´ees symboliques7

1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2 Notions de base de l"ADS . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.1 Des individus aux classes d"individus . . . . . . . . . . . . . . . . 9

2.2 Donn

´ees, variables, objets et tableaux symboliques . . . . . . . . 10 3

´Etapes de l"ADS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133.1 Construction des donn´ees symboliques . . . . . . . . . . . . . . . 13

3.2 Extension des m

´ethodes d"analyses classiques aux Donn´ees

Symboliques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

4 Outils d"ADS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

4.1 Le logiciel SODAS (Symbolic Official Data Analysis System) . . . . 16

4.1.1 Le module d"extraction de donn

´ees symboliques DB2SO 16

4.1.2 M

´ethodes Symboliques impl´ement´ees dans SODAS . . 18

4.2 Le logiciel SYR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

4.2.1 Le module de construction et de manipulation de

donn ´ees symboliques TabSyr . . . . . . . . . . . . . . . . 20 iiTable des mati`eres

4.2.2 Modules d"ADS impl´ement´es dans SYR . . . . . . . . . 25

4.3 Les librairies d"ADS dans R . . . . . . . . . . . . . . . . . . . . . . 28

4.3.1 RSDA- R to Symbolic Data Analysis . . . . . . . . . . . 29

4.3.2 Clamix . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

4.3.3 HistDAWass : Histogram-Valued Data Analysis . . . . . 30

4.4 Comparaison entre les diff

´erents outils d"ADS . . . . . . . . . . . 30

5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2 Extraction des histogrammes les plus discriminants `a partir d"une variable

continue (HistSyr)35

1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

2 Discr

´etisation d"une variable continue :´etat de l"art . . . . . . . . . . . . 37

2.1 Discr

´etiser? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.2 M ´ethodes de discr´etisation . . . . . . . . . . . . . . . . . . . . . . 38

2.2.1 M

´ethodes de discr´etisation non supervis´ee . . . . . . . . 38

2.2.2 M

´ethodes de discr´etisation supervis´ee . . . . . . . . . . 45

3 HistSyr : conversion d"une variable continue en histogrammes les plus

discriminants pour les classes d"individus . . . . . . . . . . . . . . . . . . 52

3.1 Pr

´esentation de la probl´ematique . . . . . . . . . . . . . . . . . . . 52

3.1.1 Une variable histogramme? . . . . . . . . . . . . . . . . 53

3.1.2 Discrimination entre les descriptions des classes d"indi-

vidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

3.2 Pr

´esentation de la solution . . . . . . . . . . . . . . . . . . . . . . 56

3.2.1 Le crit

`ere d"HistSyr . . . . . . . . . . . . . . . . . . . . . 56

3.2.2 L"algorithme d"HistSyr . . . . . . . . . . . . . . . . . . . 57

3.3 Les cas d"utilisation d"HistSyr . . . . . . . . . . . . . . . . . . . . . 61

3.3.1 Utilisation d"HistSyr pour la conversion d"une variable

continue en histogrammes . . . . . . . . . . . . . . . . . 62

3.3.2 R

´eduction du nombre de modalit´es des histogrammes . 64

3.4 HistSyr Vs autres m

´ethodes de discr´etisation . . . . . . . . . . . . 69

3.4.1 Tests sur des donn

´ees du r´epertoire UCI . . . . . . . . . 70

3.4.2 Tests sur des donn

´ees issues des´etudes de Syrokko . . . 76

4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

3 Arbre de d´ecision symbolique SyrTree81

Table des mati`eresiii

1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

2 Arbres de d´ecision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

2.1 D ´efinitions et notions de base . . . . . . . . . . . . . . . . . . . . . 83

2.1.1 Variables explicatives et la variable

`a expliquer . . . . . 84

2.1.2 Les nœuds terminaux/non terminaux . . . . . . . . . . 85

2.1.3 Ensembles d"apprentissage / de test . . . . . . . . . . . 86

2.1.4 Entr

´ees / sorties d"un arbre de d´ecision . . . . . . . . . 86

2.1.5 Construction et

´elagage d"un arbre . . . . . . . . . . . . 87

2.1.6 Matrice de confusion et taux de bonne affectation . . . . 89

2.2 M ´ethodes d"arbre de d´ecision existantes . . . . . . . . . . . . . . . 91

2.2.1 M

´ethodes classiques . . . . . . . . . . . . . . . . . . . . . 91

2.2.2 M

´ethodes symboliques . . . . . . . . . . . . . . . . . . . 92

3 Nouvelle m

´ethode d"arbres de d´ecision symbolique : SyrTree . . . . . . . 93

3.1 Algorithme de construction d"un arbre de d

´ecision en utilisant

SyrTree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

3.1.1 Conditions d"arr

ˆet du d´ecoupage d"un nœud . . . . . . 94

3.1.2 Crit

`eres de d´ecoupage . . . . . . . . . . . . . . . . . . . . 94

3.2 Classe d"affectation . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

3.3 M ´ethode d"´elagage de l"arbre SyrTree . . . . . . . . . . . . . . . . 113

3.4 Le module de test et de validation de SyrTree . . . . . . . . . . . . 114

3.4.1 Affectation d"un individu classique (de premier ordre) . 114

3.4.2 Affectation d"individus symboliques (de deuxi

`eme ordre)117

4 Strat

´egies de construction d"arbres`a partir de donn´ees classiques en utilisant SyrTree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

4.1 Strat

´egie 1 : la construction des arbres sur les classes d"individus symboliques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

4.1.1 Les

´etapes . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

4.2 Exemple illustratif en utilisant les donn

´ees des Iris de Fisher . . . 125

4.2.1 Avantages et inconv

´enients de l"arbre sur les classes

d"individus symboliques . . . . . . . . . . . . . . . . . . 127

4.3 Strat

´egie 2 : Construction des arbres en se basant sur le r´esultat d"une classification . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

4.3.1 Les

´etapes . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 ivTable des mati`eres

4.3.2 Exemple illustratif sur les donn´ees UCI de la base "

breast-cancer-wisconsin" . . . . . . . . . . . . . . . . . . 129

5 SyrTree Vs autres m

´ethodes d"arbres de d´ecisions . . . . . . . . . . . . . 131

6 Application de SyrTree sur des donn

´ees r´eelles . . . . . . . . . . . . . . . 134 6.1

´Etude de l"influence des conditions environnementales sur lesmesures de corrosion . . . . . . . . . . . . . . . . . . . . . . . . . . 134

6.2 L"

´etude sur la d´egradation des tours d"a´eror´efrig´erants d"EDF . 135

7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

4 CloudHistSyr : extension d"HistSyr aux Big Data 137

1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

2 Algorithmes distribu

´es de data mining :´etat de l"art et pr´esentation des principaux outils de programmation . . . . . . . . . . . . . . . . . . . . . 139

2.1´Etat de l"art : Algorithmes distribu´es de data mining . . . . . . . 139

2.2 Outils de programmation . . . . . . . . . . . . . . . . . . . . . . . 141

2.2.1 Hadoop . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

2.2.2 Mahout . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

2.2.3 Les librairies R . . . . . . . . . . . . . . . . . . . . . . . . 143

3 Composants Map/Reduce de CloudHistSyr . . . . . . . . . . . . . . . . . 143

3.1 Le module de calcul des bornes fronti

`ere . . . . . . . . . . . . . . 144

3.1.1 L"algorithme . . . . . . . . . . . . . . . . . . . . . . . . . 144

3.1.2 Exemple d"application . . . . . . . . . . . . . . . . . . . 145

3.2 Le module de calcul d"histogrammes . . . . . . . . . . . . . . . . 147

3.2.1 L"algorithme . . . . . . . . . . . . . . . . . . . . . . . . . 147

3.2.2 Exemple d"application . . . . . . . . . . . . . . . . . . . 147

3.2.3´Etude de la complexit´e . . . . . . . . . . . . . . . . . . . 149

3.2.4 Tests et

´etude de la scalabilit´e en utilisant Elastic Map Reduce (EMR) d"Amazon . . . . . . . . . . . . . . . . . . 151

4 CloudHistSyr : Impl

´ementation et tests du programme global . . . . . . 155

4.1 Premi

`ere approche : lancement du job "Calcul histogramme"Cki fois . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

4.1.1 Test du lancement s

´equentiel de jobs . . . . . . . . . . . 157

4.1.2 Le test du lancement parall

`ele de jobs sur diff´erents clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157

Table des mati`eresv

4.1.3 Avantages et inconv´enients de la premi`ere approche . . 158

4.2 Deuxi

`eme approche : lancer le "Calcul Histogramme" en utilisant toutes les bornes possibles . . . . . . . . . . . . . . . . . . . . . . . 158

4.2.1 Test de la deuxi

`eme approche sur les donn´ees des Iris . 159

4.2.2 Avantages et inconv

´enients de la deuxi`eme approche . 160

5 ApplicationdeCloudHistSyrsurlesdonn

´eesr´eellesduportiquedeNantes161

5.1 Pr

´esentation des donn´ees initiales . . . . . . . . . . . . . . . . . . 161

5.2 Pr

´esentation des tests en utilisant CloudHistSyr . . . . . . . . . . 162

5.2.1 Mise en forme des donn

´ees initiales . . . . . . . . . . . . 162

5.2.2 R

´esultats du module de calcul des bornes . . . . . . . . 162

5.2.3 R

´esultats du module de calcul d"histogrammes . . . . . 163

5.2.4 R

´esultats du module de recherche des histogrammes les plus discriminants . . . . . . . . . . . . . . . . . . . . . . 166

6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171

5 Conclusion et perspectives173

1 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

2 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174

2.1 ´Evaluation de l"utilit´e de HistSyr . . . . . . . . . . . . . . . . . . . 174

2.2 Arbres de d

´ecision symboliques . . . . . . . . . . . . . . . . . . . 174

2.3 Extension de l"ADS aux Big Data . . . . . . . . . . . . . . . . . . . 175

1 La m

´ethode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178

2 Exemple illustratif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178

3 R ´esultats sur les diff´erentes bases UCI test´ees . . . . . . . . . . . . . . . . 179 viTable des mati`eres

Introduction1 Contexte

Le volume des donn

´ees circulant sur le Web, ou stock´ees par les entreprises est en croissance continue. Afin de pouvoir exploiter cette richesse, il est n

´ecessaire

d"extraire des connaissances `a partir de tr`es grands volumes d"informations. Le domaine ayant pour but de r ´esoudre cette probl´ematique est la science des donn´ees (Data Science) [

33]. La science des donn´ees a pour but d"extraire des connaissances

a partir de tous types de donn´ees (structur´ees ou non, de sources homog`enes ou h ´et´erog`enes, etc.). Elle repr´esente l"intersection de plusieurs disciplines comme la statistique, les math ´ematiques, l"intelligence artificielle et la fouille de donn´ees (Data Mining). Ledata miningoffre des m´ethodes d"analyses tr`es utiles pour l"extraction de connaissances. Ces m ´ethodes se divisent en deux cat´egories dites supervis´ees et non supervis ´ees. Ces derni`eres ont pour but de regrouper les unit´es statistiques suivant leurs caract ´eristiques. Les m´ethodes supervis´ees proposent des mod`eles pour pr´edire une action ou une d ´ecision concernant de nouveaux individus en se basant sur leurs descriptions.

Afin de rendre accessible l"

´etude des donn´ees sur plusieurs niveaux d"agr´egation, le domaine de l"Analyse de Donn

´ees Symboliques (ADS) est apparu [

40]. Depuis, ce

domaine s"est d ´evelopp´e en proposant plusieurs m´ethodes d"analyse sp´ecifiques`a l"ADS ([

12,37,42,43,45], [44]). Ces m´ethodes ont´et´e impl´ement´ees dans des outils

comme Sodas [

46], Syr [5] et des libraires R [85,6,62] permettant leurs tests et leurs

applications sur de nouvelles bases de donn

´ees.

L"ADS traite un nouveau type d"unit

´es statistiques [

44] : les classes d"individus et

de variables appel ´ees "symboliques". Une donn´ee symbolique (un intervalle, un histogramme, etc.) permet de prendre en compte la variabilit

´e interne aux classes et

ne peut donc pas ˆetre r´eduite`a un seul nombre. Une variable est dite "symbolique" si elle associe `a chaque classe d"individus une donn´ee symbolique.

Le principe de base de l"ADS est l"

´etude des donn´ees suivant diff´erents niveaux d"agr ´egation. Ceci en passant de l"´etude des individus (ou unit´e statistiques de premier

2Introduction

ordre)`a l"´etude de "classes d"individus" (consid´er´ees comme des unit´es statistiques de second ordre). L"utilisation de classes pr

´esente deux avantages : le premier est que

les classes r ´eduisent la taille des donn´ees ce qui est´evidemment important dans un contexte de grande bases de donn ´ees et le second est que souvent elles repr´esententquotesdbs_dbs20.pdfusesText_26