[PDF] Modélisation intégratrice du traitement BigData





Previous PDF Next PDF



Modélisation des traitements Merise

Créer un Modèle de Processus Métiers (MPM). • Exporter et importer des données vers et depuis un MCD et un MPD. • Importer un Modèle Conceptuel de Communication 



Biostatistique traitement et modélisation des données biologiques

1 janv. 2019 ÉVALUATION DE L'UNITÉ : Biostatistique traitement et modélisation des données biologiques (BioSTM). SOUS TUTELLE DES ÉTABLISSEMENTS ET.



Modélisation intégratrice du traitement BigData

10 oct. 2016 sans failles de traitement ; d'autre part le support de la volatilité par un modèle intelligent prenant en compte des données clé seulement.



Utilisation et traitement des données MNT LiDAR pour la

illustration 1). – La modélisation hydraulique offre une une approche plus mathématique pour connaître les hauteurs d'eau en fonction des débits d'un tronçon d 



Ingénieur de Projet en modélisation numérique et traitement de

Ingénieur de Projet en modélisation numérique et traitement de données en océanographie physique – H/F. Lieu : Brest (29).



Modélisation de données expérimentales ?

Si les incertitudes expérimentales sont connues les logiciels de traitement de données (Synchronie



– LES MÉTIERS DE LA DATA

1 oct. 2020 stockage des données celui du traitement et de la modélisation des données



Diplôme Universitaire « Acquisition des Données Aéroportées et

Traitement du signal et des images. La formation « Acquisition des Données Aéroportées et Modélisation 3D » (ADAM3D) permet de compléter l'offre avec une 



Introduction à la modélisation statistique

pré-traitements des données qui sont indispensables avant toute mo- délisation statistique. Enfin nous donnons une formalisation plus.



Modélisation et Traitements Numériques

1 déc. 2009 échantillons jusqu'au traitement des données issues des mesures. Cette action est menée dans le cadre des réglementations nationales et ...

Modélisation intégratrice du traitement BigData Modélisation intégratrice du traitement BigData 2

7LPUH 0RGpOLVMPLRQ LQPpJUMPULŃH GX PUMLPHPHQP %LJGMPM

0RPV ŃOpV PRGpOLVMPLRQ LQPpJUMPULŃH %LJGMPM UMLVRQQHPHQP j NMVH GH ŃMV

PXOPLSOHV MŃPHXUV GH OM PHŃOQRORJLH QXPpULTXH SURGXLVHQP GHV TXMQPLPpV LQILQLHV GH GRQQpHVB FMSPHXUV UpVHMX[ VRŃLMX[ RX HŃRPPHUŃH LOV

PHPSVUpHO VHORQ OHV 3 9 GH *MUPQHU HQ 9ROXPH

HIILŃMŃHPHQP HP GXUMNOHPHQP ŃHV GRQQpHV LO HVP LPSRUPMQP GH UHVSHŃPHU OM G\QMPLŃLPp GH OHXU pYROXPLRQ ŃOURQRORJLTXH MX PR\HQ GH GHX[ VXSSRUPHU OH ŃOMQJHPHQP GH P\SH j ŃOMTXH LQVPMQP GH OM YROMPLOLPp SMU XQ PRGqOH LQPHOOLJHQP SUHQMQP

HQ ŃRPSPH GHV GRQQpHV ŃOp VHXOHPHQP

LQPHUSUpPMNOHV j XQ LQVPMQP © P ª MX OLHX GH PUMLPHU PRXPH OM YROXPpPULH GHV GRQQpHV MŃPXHOOH HP

OLVPRULTXHB

pPMNOLU MX PR\HQ GH ŃHV MSSURŃOHV XQH YLVLRQ LQPpJUMPULŃH GX Ń\ŃOH GH YLH GHV GRQQpHV TXL

GRQQpHV YLM OM VpOHŃPLRQ GHV YMOHXUVŃOpV GHV PLŃURGRQQpHV MŃTXLVHV SMU OHV GLIIpUHQPV

RSpUMPHXUV MX QLYHMX GH OM VRXUŃH 2 OM IXVLRQ

HQ IMLVMQP OH PUL GHV YMOHXUVŃOpV VpOHŃPLRQQpHV HP

OHV GXSOLTXMQP VXLYMQP XQ MVSHŃP GH Gp

UMSLGH GHV GRQQpHV HP 3 OM PUMQVIRUPMPLRQ HQ XQ

IRUPMP SMUPLŃXOLHU GH ŃMUPH GH ŃMUPHV GH ŃMUPHV YLM +MGRRS GMQV OH SURŃHVVXV ŃOMVVLTXH GH

OM ŃRXŃOH MSSOLŃMPLYHB

FHPPH UpIOH[LRQ HVP HQ RXPUH VRXPHQXH SMU XQ SURPRP\SH ORJLŃLHO PHPPMQP HQ °XYUH OHV

RSpUMPHXUV GH PRGpOLVMPLRQ VXVGpŃULPV HP

MNRXPLVVMQP j XQH NRvPH j RXPLOV GH PRGpOLVMPLRQ

ŃRPSMUMNOH j XQ $*I HP SHUPHPPMQP XQH PLVH

HQ SOMŃH MVVLVPpH G

XQ RX SOXVLHXUV PUMLPHPHQPV

VXU %LJGMPMB

7LPOH HQPHJUMPLYH PRGHOLQJ RI %LJ GMPM SURŃHVVLQJ

.H\RRUGV LQPHJUMPLYH PRGHOLQJ %LJGMPM ŃMVHNMVHG UHMVRQQLQJ $NVPUMŃP 1RRMGM\V PXOPLSOH MŃPRUV RI HQPHUQHP PHŃOQRORJ\ MUH SURGXŃLQJ YHU\ OMUJH MPRXQPV RI GMPMB 6HQVRUV VRŃLMO PHGLM RU HŃRPPHUŃH MOO

JHQHUMPH UHMOPLPH H[PHQGLQJ LQIRUPMPLRQ NMVHG RQ

POH 3 9V RI *MUPQHU 9ROXPH 9HORŃLP\ MQG

9MULHP\B HQ RUGHU PR HIILŃLHQPO\ H[SORLP POLV GMPM LP

LV LPSRUPMQP PR NHHS PUMŃN RI POH G\QMPLŃ MVSHŃP RI POHLU ŃOURQRORJLŃMO HYROXPLRQ N\ PHMQV RI PRR PMLQ MSSURMŃOHV POH SRO\PRUSOLVP M G\QMPLŃ PRGHO MNOH PR VXSSRUP P\SH ŃOMQJHV HYHU\ VHŃRQG RLPO M VXŃŃHVVIXO SURŃHVVLQJ MQG VHŃRQG POH

VXSSRUP RI GMPM YROMPLOLP\ N\ PHMQV RI MQ

LQPHOOLJHQP PRGHO PMNLQJ LQ ŃRQVLGHUMPLRQ NH\GMPM VMOLHQP MQG YMOXMNOH MP M VSHŃLILŃ PRPHQP RLPORXP SURŃHVVLQJ MOO YROXPHV RI OLVPRU\ MQG XS PR GMPH GMPMB

7OH SULPMU\ JRMO RI POLV VPXG\ LV PR HVPMNOLVO NMVHG RQ POHVH MSSURMŃOHV MQ LQPHJUMPLYH YLVLRQ

RI GMPM OLIH Ń\ŃOH VHP RQ 3 VPHSV 1 GMPM V\QPOHVLV N\ VHOHŃPLQJ NH\YMOXHV RI PLŃURGMPM MŃTXLUHG N\ GLIIHUHQP GMPM VRXUŃH RSHUMPRUV 2 GMPM IXVLRQ N\ VRUPLQJ MQG GXSOLŃMPLQJ POH

VHOHŃPHG NH\YMOXHV NMVHG RQ M GHQRUPMOL]MPLRQ

MVSHŃP LQ RUGHU PR JHP M IMVPHU SURŃHVVLQJ RI GMPM MQG 3 POH GMPM PUMQVIRUPMPLRQ LQPR M VSHŃLILŃ

IRUPMP RI PMS RI PMSV RI PMSV YLM +MGRRS LQ

POH VPMQGMUG 0MS5HGXŃH SURŃHVV LQ RUGHU PR

GHILQH POH UHOMPHG JUMSO LQ MSSOLŃMPLYH OM\HUB

HQ MGGLPLRQ POLV VPXG\ LV VXSSRUPHG N\ M VRIPRMUH

SURPRP\SH XVLQJ POH MOUHMG\ GHVŃULNHG PRGHOLQJ

PRROV MV M PRRONR[ ŃRPSMUHG PR MQ MXPRPMPLŃ

SURJUMPPLQJ VRIPRMUH MQG MOORRLQJ PR ŃUHMPH M

ŃXVPRPL]HG SURŃHVVLQJ ŃOMLQ RI %LJGMPMB

Modélisation intégratrice du traitement BigData 3 Modélisation intégratrice du traitement BigData 4 Modélisation intégratrice du traitement BigData 5

Remerciements

Je tiens à remercier Madame Ana Rosa CAVALLI, directrice de thèse et Monsieur Daniel RANC, co-encadrant, de m'avoir soutenu durant toute la période de préparation de mon travail.

Je remercie la présidente du jury, madame Karine ZEITOUNI, Professeure de l'UniǀersitĠ de

Versailles Saint-Quentin à Vélizy, ainsi que les membres du jury :

1- Madame Michelle SIBILLA, Professeure de l'UniǀersitĠ Toulouse 3 - Paul Sabatier à Toulouse.

2- Monsieur Laurent D'ORAZIO, Professeur de l'UniǀersitĠ Blaise-Pascal à Clermont-Ferrand.

3- Madame Noémie SIMONI, Professeure de Télécom ParisTech à Paris.

4- Madame Genoveva VARGAS-SOLAR, Chercheuse au Centre National de Recherche

5- Monsieur Florent MASSEGLIA, Chercheur ă l'Institut National de Recherche en Informatique

et en Automatique à Montpellier.

Je les remercie de leurs directiǀes, de leurs prĠcieudž conseils et d'aǀoir donnĠ l'attention

nécessaire pour évaluer mon travail.

J'adresse mes remerciements ă Télécom SudParis et particulièrement au Département Réseaux

avec ses membres. Enfin, je remercie ma petite famille et toutes les personnes formidables autour travail. Modélisation intégratrice du traitement BigData 6 Modélisation intégratrice du traitement BigData 7

Table des matières

Introduction de la thèse .................................................................................................... 21

1. La problématique et le contexte du travail ........................................................................ 21

2. Les objectifs de la thèse ...................................................................................................... 22

3. Le plan de la thèse .............................................................................................................. 23

Partie 1. Etat de l'art ............................................................................................................ 27

Chapitre 1. Le traitement des données BigData ................................................................. 29

1.1 Introduction au chapitre ................................................................................................... 29

1.2 Les bases de données NoSQL ............................................................................................ 30

1.2.1 Le mouǀement NoSYL et l'Ġlaboration du terme ...................................................... 30

1.2.2 La définition NoSQL et les avantages pour les développeurs .................................... 30

1.2.3 Les caractéristiques des bases de données NoSQL ................................................... 31

1.2.4 Les limitations des bases de données NoSQL ............................................................ 32

1.2.5 Conclusion .................................................................................................................. 32

1.3 NewSQL en route vers la base de données moderne ....................................................... 33

1.3.1 L'architecture NewSYL .............................................................................................. 34

1.3.2 Les avantages de la solution NewSQL ........................................................................ 34

1.2.3 Les limitations des bases de données NewSQL ......................................................... 34

1.3.4 Conclusion .................................................................................................................. 34

1.4 L'efficacitĠ des moteurs de traitement edžistants ............................................................. 35

1.4.1 MapReduce ................................................................................................................ 35

1.4.2 Apache Hadoop .......................................................................................................... 36

1.4.3 Les bases de données non-relationnelles .................................................................. 36

1.4.4 BigTable et HBase ...................................................................................................... 36

1.4.5 GFS et HDFS ............................................................................................................... 37

1.4.6 Conclusion .................................................................................................................. 38

1.5 Les modèles de données non-relationnels ....................................................................... 39

1.5.1 Le stockage clé-valeur ................................................................................................ 39

1.5.2 La base de données BigTable ..................................................................................... 40

1.5.3 Le modèle de données orienté document................................................................. 40

1.5.4 Le modèle de données orienté graphe ...................................................................... 41

1.5.5 La base de données multi-modèle ............................................................................. 43

1.5.6 Conclusion .................................................................................................................. 43

1.6 L'actiǀitĠ principale des systğmes distribuĠs .................................................................... 44

Modélisation intégratrice du traitement BigData 8

1.6.1 La consistance des données ....................................................................................... 44

1.6.2 La création des données ............................................................................................ 44

1.6.3 La coordination des systèmes .................................................................................... 44

1.6.4 La capacité à répartir la charge .................................................................................. 45

1.6.5 La tolérance aux pannes ............................................................................................ 45

1.6.6 La haute disponibilité ................................................................................................. 45

1.6.8 Conclusion .................................................................................................................. 47

1.7 Conclusion du chapitre ..................................................................................................... 48

Chapitre 2. La problématique étudiée ............................................................................... 51

2.1 Introduction au chapitre ................................................................................................... 51

2.1.1 MapReduce et Cloud Computing ............................................................................... 51

2.1.2 Les idées de départ .................................................................................................... 52

2.1.3 L'importance du MapReduce

..................................................................................... 54

2.2 Les notions de base ........................................................................................................... 55

2.2.1 Le Framework d'edžĠcution ........................................................................................ 55

2.2.2 L'architecture de la couche de données .................................................................... 56

2.2.3 Conclusion .................................................................................................................. 56

2.3 Le concept MapReduce..................................................................................................... 57

2.3.1 Les patrons de conception ......................................................................................... 57

2.3.2 Les jointures relationnelles ........................................................................................ 58

2.3.3 Conclusion .................................................................................................................. 59

2.4 Le traitement par indexation inversée ............................................................................. 60

2.4.1 L'indedžation ............................................................................................................... 60

2.4.2 L'indedžation inǀersĠe

................................................................................................. 60

2.4.3 Le classement ............................................................................................................. 62

2.4.4 Conclusion .................................................................................................................. 62

2.5 Le traitement des graphes ................................................................................................ 63

2.5.1 L'application ............................................................................................................... 63

2.5.2 La représentation ....................................................................................................... 63

2.5.3 La recherche initiale parallèle .................................................................................... 64

2.5.4 L'algorithme PageRank .............................................................................................. 65

2.5.5 Les problèmes rencontrés ......................................................................................... 66

2.5.6 Conclusion .................................................................................................................. 66

Modélisation intégratrice du traitement BigData 9

2.6 Les algorithmes EM de traitement de texte ..................................................................... 67

2.6.1 L'estimation de ǀraisemblance madžimale ................................................................. 67

2.6.2 Les variables latentes ................................................................................................. 67

2.6.3 Le modèle HMM ........................................................................................................ 67

2.6.4 L'application dans MapReduce .................................................................................. 68

2.6.5 La traduction automatique statistique ...................................................................... 69

2.6.6 Conclusion .................................................................................................................. 69

2.7 La nouvelle génération de MapReduce ............................................................................ 70

2.7.1 Les avantages de YARN .............................................................................................. 70

2.7.2 Conclusion .................................................................................................................. 71

2.8 Apache Storm.................................................................................................................... 72

2.8.1 La puissante combinaison de Storm et de YARN ....................................................... 72

2.8.2 Les limitations de Storm ............................................................................................ 73

2.8.3 Storm Trident ............................................................................................................. 73

2.8.4 Conclusion .................................................................................................................. 73

2.9 Apache Spark .................................................................................................................... 74

2.9.1 L'Ġcosystğme de Spark ............................................................................................... 74

2.9.2 Les avantages de Spark .............................................................................................. 75

2.9.3 Les limitations de Spark ............................................................................................. 75

2.9.4 Conclusion .................................................................................................................. 76

2.10 Conclusion du chapitre ................................................................................................... 77

2.10.1 Les limitations de MapReduce ................................................................................. 77

2.10.2 Les solutions alternatives ........................................................................................ 77

2.10.3 Au-delàs de MapReduce .......................................................................................... 77

2.10.4 Tableau comparatif des technologies Hadoop ........................................................ 78

Chapitre 3. Les recherches prĠcĠdentes et les motiǀations de l'approche de la modĠlisation

intégratrice ............................................................................................................................ 81

3.1 Introduction au chapitre ................................................................................................... 81

3.2 Les techniques de modélisation ....................................................................................... 82

3.2.1 La modélisation conceptuelle .................................................................................... 82

3.2.2 La modélisation générale ........................................................................................... 85

3.2.3 La modélisation hiérarchique .................................................................................... 91

3.2.4 Conclusion .................................................................................................................. 96

3.3 L'approche de la modĠlisation intĠgratrice ...................................................................... 97

Modélisation intégratrice du traitement BigData 10

3.3.1 La modification de la chaîne de traitement ............................................................... 97

3.3.2 Conclusion .................................................................................................................. 98

3.4 Conclusion du chapitre ..................................................................................................... 99

Chapitre 4. Les algorithmes de modélisation avec Hadoop MapReduce ............................ 101

4.1 Introduction au chapitre ................................................................................................. 101

4.1.1 L'algorithme MapReduce (rappel)

........................................................................... 101

4.2 Les algorithmes correspondant aux principaux opérateurs de modélisation ................ 103

4.2.1 La transformation .................................................................................................... 103

4.2.2 Le filtre ..................................................................................................................... 104

4.2.3 Le découpage ........................................................................................................... 105

4.2.4 La fusion ................................................................................................................... 106

4.2.5 Conclusion ................................................................................................................ 106

4.3 Les patrons basiques MapReduce .................................................................................. 107

4.3.1 Le comptage et l'addition ........................................................................................ 107

4.3.2 L'assemblage ............................................................................................................ 108

4.3.3 Les filtres, l'analyse et la ǀalidation ......................................................................... 108

4.3.4 L'edžĠcution des tąches distribuĠes .......................................................................... 108

4.3.5 Le tri ......................................................................................................................... 109

4.3.6 Conclusion ................................................................................................................ 109

4.4 Les patrons non-basiques MapReduce ........................................................................... 110

4.4.1 Le traitement des graphes ....................................................................................... 110

4.4.2 Les valeurs distinctes ............................................................................................... 112

4.4.3 La corrélation croisée............................................................................................... 114

4.4.4 Conclusion ................................................................................................................ 115

4.5 Les patrons relationnels MapReduce ............................................................................. 116

4.5.1 La sélection .............................................................................................................. 116

4.5.2 La projection ............................................................................................................ 116

4.5.3 L'union ..................................................................................................................... 116

4.5.4 L'intersection ........................................................................................................... 116

4.5.5 La différence ............................................................................................................ 117

4.5.6 Le groupement et l'agrĠgation ................................................................................ 117

4.5.7 Les jointures ............................................................................................................. 117

4.5.8 Conclusion ................................................................................................................ 119

4.6 Les opérations Trident .................................................................................................... 120

Modélisation intégratrice du traitement BigData 11

4.6.1 Les opérations locales .............................................................................................. 120

4.6.2 Les opérations de re-partitionnement .................................................................... 128

4.6.3 Les opĠrations d'agrĠgation .................................................................................... 128

4.6.4 Les opérations correspondant aux flux groupés...................................................... 129

4.6.5 Les opérations de fusion et de jointure ................................................................... 129

4.6.6 Conclusion ................................................................................................................ 130

4.7.3 Les facteurs de pertinence et d'efficacité ................................................................ 132

4.7.5 Conclusion ................................................................................................................ 134

4.8 Conclusion du chapitre ................................................................................................... 135

Partie 2. La modélisation intégratrice du traitement BigData ............................................... 137

Chapitre 5. Le pré-traitement par étude de cas ................................................................ 139

5.1 Introduction au chapitre ................................................................................................. 139

5.1.1 Les idées de départ .................................................................................................. 139

5.1.2 Le format JSON ........................................................................................................ 139

5.1.3 Le schéma de données implicite .............................................................................. 140

5.1.4 Le concept de pré-traitement .................................................................................. 141

5.2 Les systèmes experts ...................................................................................................... 143

5.2.1 Les notions de base des systèmes experts .............................................................. 143

5.2.2 La connexion SGBD et SE ......................................................................................... 146

5.2.3 Les règles de traitement .......................................................................................... 147

5.2.4 Le moteur d'infĠrence ............................................................................................. 147

5.2.5 Le pré-traitement par étude de cas ......................................................................... 149

5.2.7 Conclusion ................................................................................................................ 151

5.3 La surveillance des réseaux sociaux ................................................................................ 152

5.3.1 La nature et les avantages des réseaux sociaux ...................................................... 152

5.3.2 La surveillance des réseaux sociaux ......................................................................... 154

5.3.3 La surveillance par étude de cas .............................................................................. 156

5.3.4 Conclusion ................................................................................................................ 159

Modélisation intégratrice du traitement BigData 12

5.4.1 L'architecture du modğle ă dĠfinir .......................................................................... 160

5.4.2 Conclusion ................................................................................................................ 160

5.5 Conclusion du chapitre ................................................................................................... 161

Chapitre 6. Les résultats expérimentaux .......................................................................... 163

6.1 Introduction au chapitre ................................................................................................. 163

6.1.1 L'approche de la modĠlisation intĠgratrice ............................................................. 163

6.2 Les perspectives de la modélisation intégratrice ........................................................... 164

6.2.1 Les données Twitter ................................................................................................. 164

6.2.2 BigData Workbench ................................................................................................. 165

6.2.3 Conclusion ................................................................................................................ 167

6.3 Le pré-traitement par étude de cas ................................................................................ 168

6.3.1 Cas d'emploi 1 ͗ L'Ġǀaluation du profil reǀendeur ................................................... 168

6.3.2 Cas d'emploi 2 : Les changements dans le trafic routier ......................................... 171

6.3.3 Cas d'emploi 3 ͗ La dĠtection d'un taudž d'attrition ĠleǀĠ ........................................ 172

6.3.4 Conclusion ................................................................................................................ 173

6.4 Conclusion du chapitre ................................................................................................... 174

Partie 3. Conclusion et perspectives .................................................................................... 177

Conclusion ...................................................................................................................... 179

Les perspectives ............................................................................................................. 181

Bibliographie ...................................................................................................................... 183

Liste des abréviations ......................................................................................................... 189

Annexes ............................................................................................................................. 193

Annexe 1. La solution BigQuery de Google ...................................................................... 195

1.1 Introduction .................................................................................................................... 195

......................................................................................... 195

1.2 Les critğres d'analyse de BigYuery ................................................................................. 196

1.2.1 Les avantages de BigQuery ...................................................................................... 196

1.2.2 Les inconvénients de BigQuery ................................................................................ 196

1.2.3 Les quotas ................................................................................................................ 197

1.2.4 Le mode de facturation............................................................................................ 197

1.3.1 L'architecture en arbre ............................................................................................ 197

1.3.2 La base de données orientée colonne ..................................................................... 198

1.4 Les composants de BigQuery .......................................................................................... 198

Modélisation intégratrice du traitement BigData 13

1.4.1 Les projets ................................................................................................................ 198

1.4.2 Les Datasets ............................................................................................................. 198

1.4.3 Les tables ................................................................................................................. 198

1.5 Le mode d'accğs ă BigYuery ........................................................................................... 199

1.6 Le chargement des données ........................................................................................... 199

1.7 BigQuery SQL .................................................................................................................. 200

1.8 Les cas d'emploi .............................................................................................................. 200

1.9 Conclusion ....................................................................................................................... 201

Annexe 2. L'Ġǀaluation du modğle de donnĠes orientĠ document de NoSYL .................... 203

2.1 Introduction .................................................................................................................... 203

2.2 Le modèle orienté document ......................................................................................... 203

2.3 Les critğres d'Ġǀaluation du modğle ............................................................................... 204

2.3.1 La nature des données ............................................................................................. 204

2.3.2 La relation ................................................................................................................ 204

2.3.3 Le cycle de vie .......................................................................................................... 205

2.3.4 Le schéma et les opérations CRUD .......................................................................... 205

2.3.5 La consistance des données ..................................................................................... 206

2.3.6 La performance ........................................................................................................ 207

2.3.7 La volumétrie ........................................................................................................... 208

2.3.8 L'agrĠgation des donnĠes ........................................................................................ 208

2.3.9 La persistance et la résilience .................................................................................. 210

2.3.10 La confidentialité ................................................................................................... 210

2.4 Conclusion ....................................................................................................................... 211

Annexe 3. Le modèle orienté graphe de NoSQL comparé au model relationnel................. 213

3.1 Introduction .................................................................................................................... 213

3.1.1 Les bases de données NoSQL

213

3.2 Le modèle orienté graphe ............................................................................................... 214

3.3 Les critğres d'Ġǀaluation des modğles ............................................................................ 215

3.3.1 La nature des données ............................................................................................. 215

3.3.2 La relation entre les données .................................................................................. 215

3.3.3 Le cycle de vie .......................................................................................................... 217

3.3.4 Le schéma et les opérations CRUD .......................................................................... 217

3.3.5 La consistance des données ..................................................................................... 219

3.3.6 La performance ........................................................................................................ 220

Modélisation intégratrice du traitement BigData 14

3.3.7 L'analyse .................................................................................................................. 222

3.4 Conclusion ....................................................................................................................... 223

Annexe 4. Les publications dans des conférences et des journaux internationaux ............ 225

4.1 Introduction .................................................................................................................... 225

4.2 Les publications par ordre chronologique ...................................................................... 225

4.3 Le développement des publications ............................................................................... 227

4.4 Conclusion ....................................................................................................................... 227

Modélisation intégratrice du traitement BigData 15 Modélisation intégratrice du traitement BigData 16 Modélisation intégratrice du traitement BigData 17

Table des illustrations

Les figures

Figure 1 : Expansion exponentielle des données échangées sur Internet ..................................... 29

Figure 2 : Naissance du NewSQL à partir de 3 architectures .......................................................... 33

Figure 3 : Performance des moteurs de traitement ....................................................................... 35

Figure 4 : Piles de Hadoop et de Google ......................................................................................... 37

Figure 5 : Architecture HDFS ........................................................................................................... 38

Figure 6 : Disposition orientée colonne des stockages clé-valeur .................................................. 40

Figure 7 : Comparaison entre le modèle BigTable et le modèle orienté document ...................... 41

Figure 8 : Exemple du modèle orienté graphe ............................................................................... 42

Figure 9 : Exemple de traitement MapReduce ............................................................................... 52

Figure 10 : Traitement séquentiel .................................................................................................. 53

Figure 11 : Framework MapReduce ................................................................................................ 53

Figure 12 : Evolutivité en souplesse ............................................................................................... 54

Figure 13 : Vue simplifiée de MapReduce ...................................................................................... 54

Figure 14 : Architecture HDFS ......................................................................................................... 56

Figure 15 : Vue complète de MapReduce....................................................................................... 57

Figure 16 : Illustration simple des index inversés ........................................................................... 60

Figure 17 : Algorithme avancé des index inversés.......................................................................... 61

Figure 18 ͗ Graphe sous forme de matrices et de listes d'adjacence ............................................. 64

Figure 19 ͗ Edžemple d'algorithme de Dijkstra ................................................................................. 64

Figure 20 : Algorithme PR ............................................................................................................... 65

Figure 21 : Algorithme PR avec MapReduce ................................................................................... 65

Figure 22 : Utilisation des algorithmes progressif et rétrogressif .................................................. 68

Figure 23 : Traduction automatique statistique avec MapReduce ................................................ 69

Figure 24 : Comparaison entre l'architecture Hadoop 1.0 et l'architecture Hadoop 2.0 ............... 70

Figure 25 : Combinaison d'Apache Storm et de YARN ................................................................... 72

Figure 26 : Agrégation d'entités ..................................................................................................... 84

Figure 27 : Agrégation et jointures ................................................................................................. 84

Figure 28 : Usage des agrégations atomiques ................................................................................ 85

Figure 29 : Clés énumérables .......................................................................................................... 86

Figure 30 : Mécanisme Geohash .................................................................................................... 87

Figure 31 ͗ Edžemple de table d'indedž .............................................................................................. 87

Figure 32 : Clé d'index composite ................................................................................................... 88

Figure 35 ͗ AgrĠgation d'arborescence ........................................................................................... 91

Modélisation intégratrice du traitement BigData 18

Figure 36 ͗ Chemins ĠnumĠrĠs de la hiĠrarchie des catĠgories d'un site marchand ..................... 92

Figure 37 : Utilisation des expressions régulières pour parcourir les chemins énumérés ............. 92

Figure 38 ͗ ModĠlisation d'un catalogue de site marchand en utilisant les ensembles imbriqués 93

Figure 39 : Problème des documents imbriqués ............................................................................ 94

Figure 40 : Modélisation des documents imbriqués par numérotation des noms de champs ...... 94

Figure 41 : Modélisation des documents imbriqués par requêtes de proximité ........................... 95

Figure 42 : Technique de traitement des graphes avec MapReduce ............................................. 96

Figure 43 : Concept de pré-traitement ........................................................................................... 97

Figure 44 : Chaîne de pré-traitement ............................................................................................. 98

Figure 45 : Framework MapReduce .............................................................................................. 102

Figure 46 : Schéma implicite des données météo de type JSON .................................................. 140

Figure 47 : Dataset correspondant aux données météo de type JSON ........................................ 141

Figure 48 : Pré-traitement des données météo de type JSON ..................................................... 142

Figure 49 : Connexion SGBD et SE ................................................................................................ 146

Figure 50 : Processus de résolution du CBR .................................................................................. 151

Figure 51 ͗ Edžemple d'implĠmentation d'un moteur d'infĠrence pour prĠ-traitement .............. 151

Figure 52 : Flux d'information sociale entre hier et aujourd'hui .................................................. 152

Figure 53 : Bases de la gestion des communautés ....................................................................... 154

Figure 54 ͗ Structure d'un Tweet .................................................................................................. 164

Figure 55 ͗ Diagramme d'actiǀitĠ du traitement des donnĠes Twitter ........................................ 165

Figure 56 : BigData Workbench .................................................................................................... 166

Figure 57 : Graphe récapitulatif du traitement avec BigData Workbench ................................... 167

Figure 58 : Evaluation du profil revendeur avec un pré-traitement par étude de cas ................. 169

quotesdbs_dbs31.pdfusesText_37
[PDF] LE CONSEIL D ADMINISTRATION ET LA DIRECTION DE RESSOURCERIE BERNARD-HAMEL

[PDF] ADDENDA RELATIF À L IMMOBILISATION DES FONDS AGF

[PDF] ORGANISATION DE LA NATATION SCOLAIRE PISCINE DE LA KIBITZENAU DOCUMENT PROVISOIRE 2014 / 2015

[PDF] D ENSEIGNEMENT SECONDAIRE

[PDF] N 3661 ASSEMBLÉE NATIONALE

[PDF] Mieux trier et recycler ses emballages en Nord-Pas de Calais : les chiffres de la région

[PDF] PROJET PEDAGOGIQUE DE LA PISCINE DE VERNOUILLET

[PDF] L ÉCONOMIE QUI A DU SENS!

[PDF] RENTRÉE DES ELEVES DE 3 ème ANNEE

[PDF] VOS CONTACTS. G Par Internet Pour gérer votre contrat et retrouver vos factures sur votre espace Client 24h/24 et 7j/7 : espaceclient.edf. filetype:pd

[PDF] Chromatys Demande de rachat total ou partiel

[PDF] Communication Financière. 04 juin 2013

[PDF] Aréas CONSEIL. MULTISUPPORT 3 Aréas. Une assurance vie qui vous accompagne tout au long de vos projets

[PDF] Document d accompagnement relatif à la participation des intervenants extérieurs en éducation physique et sportive

[PDF] Wordpress - Créer un site Web