[PDF] [PDF] Bases de données documentaires et distribuées - Cours de bases

25 sept 2018 · Les bases relationnelles ont SQL, nous verrons que la recherche L'application cliente de base est l'interpréteur de commandes cqlsh, ce



Previous PDF Next PDF





[PDF] Télécharger le cours SQL

Cours SQL ______ Base du langage SQL et des bases de données Auteur Tony Archambeau Site web http://sql sh Date 24 mai 2014 Licence Mis à 



[PDF] BigData - Semaine 5

Le cours de cette semaine présente le SGBD Cassandra, conçu pour à SQL, mais beaucoup plus limité et certains aspects sont très prompt$ cqlsh master



[PDF] 1 Cassandra en ligne de commande

à SQL mais il y a quelques spécificités cruciales Ensuite Lancez le shell de Cassandra en tapant cqlsh master Relire le cours concernant l'injection de CSV



[PDF] Intéraction avec une base Cassandra - Chewbiicom

La console pour CQLSH (voir plus bas) devra être ouverte séparément CREATE INDEX fk_Enseignement_Enseignant_idx ON Cours ( Responsable ) ; de SQL Pour la suite des exercices, exprimer en CQL la requête demandée :



[PDF] NoSQL Etat de lart et benchmark - CORE

Les bases de données NoSQL, qui signifie « not only SQL » sont des types de base voient la base de données dans un état cohérent, les données en cours de Ensuite, il était intéressant de voir les deux clients (Cassandra-cli et CQLSH ) 



[PDF] le modèle de données Cassandra - Cours de bases de données

en mode multi-nœuds Dans ce cours, nous étudions le modèle de données 2 Interpréteur de commandes (cqlsh) • DevCenter (Datastax), le Insertions A la SQL insert into artists (id, last_name, first_name, birth_date) values ('artist1' 



[PDF] Bases de données documentaires et distribuées - Cours de bases

25 sept 2018 · Les bases relationnelles ont SQL, nous verrons que la recherche L'application cliente de base est l'interpréteur de commandes cqlsh, ce



[PDF] BasesDonneesLinuxpdf - X-Files

il a beaucoup travaillé avec les bases de données sous Unix/C/C++/SQL Il a cour des grands tels que Oracle, Informix, IBM, Sun, Dell, Compaq et beau- charger sqsh, un outil beaucoup plus agréable pour des fonctionnalités simi- laires



Memento SQL - uniportedung

10 avr 2020 · It will unquestionably ease you to look guide Memento S Q L as you such as Si l'on veut a cher la table elevenotedu cours par notes d ecroissantes, Aide mémoire SQL ©sqlsh Requêtes SQL SELECT * # Sélection des 

[PDF] COURS COMPLET STATIQUE

[PDF] Statistique : Résumé de cours et méthodes 1 - Xm1 Math

[PDF] Première ES - Statistiques descriptives - Variance et écart - Parfenoff

[PDF] Cours de statistiques - 1 ère S - B Sicard

[PDF] I Etude d 'une série statistique : le vocabulaire II - college-therouanne

[PDF] Statistique et calcul de probabilité

[PDF] Cours de Statistiques inférentielles

[PDF] Probabilités et Statistiques, polycopié de L3 - Département de

[PDF] Probabilités et Statistique

[PDF] 10h45-11h: Les statistiques sanitaires et la santé publique Dr - HCP

[PDF] Statistique : Résumé de cours et méthodes 1 - Xm1 Math

[PDF] Statistique : Résumé de cours et méthodes 1 - Xm1 Math

[PDF] Statistique spatiale

[PDF] Statistiques : moyenne, médiane et étendue - KeepSchool

[PDF] Première S - Statistiques descriptives - Variance et écart - Parfenoff

Bases de données documentaires et

distribuées

Version Février 2023

Philippe Rigaux

févr. 07, 2023

Table des matières

1 Introduction3

1.1 Sujet du cours

4

1.2 Contenu et objectifs du cours

5

1.3 Organisation

6

2 Préliminaires : Docker

7

2.1 Introduction à Docker

9

2.2 Docker en ligne de commande

11

2.3 Le tableau de bord (dashboard)

17

3 Modélisation de bases NoSQL

21

3.1 S1 : documents structurés

22

3.2 S2. Modélisation des collections

30

3.3 S3 : Cassandra, une base relationnelle étendue

41

3.4 S4 : MongoDB, une base JSON

51

3.5 Exercices

55

4 Interrogation de bases NoSQL

59

4.1 S1 : HTTP, REST, et CouchDB

59

4.2 S2 : requêtes Cassandra

71

4.3 S3 : requêtes avec MongoDB

75

5 MapReduce, premiers pas

81

5.1 S1 : MapReduce démystifié

82

5.2 S2 : MapReduce et CouchB

90

5.3 S3 :FrameworksMapReduce : MongoDB. . . . . . . . . . . . . . . . . . . . . . . . . . . 94

5.4 Exercices

102

6 Cassandra - Travaux Pratiques

107

6.1 Partie 1 : Approche relationnelle

108

6.2 Partie 2 : modélisation spécifique NoSQL

111

7 MongoDB - Travaux Pratiques

113 i

7.1 Manipulation de base. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

7.2 Pratique de Map/Reduce

115

7.3 Bonus / Pour aller plus loin

116

8 Introduction à la recherche d"information

119

8.1 S1 : les principes

119

8.2 S2 : Bases documentaires et moteur de recherche

127

8.3 S3 : la pratique : requêtes booléennes

134

8.4 Exercices

138

9 Recherche d"information : l"indexation

141

9.1 S1 : L"analyse de documents

141

9.2 S2 : L"indexation dans ElasticSearch

144

10 Recherche avec classement

157

10.1 S1 : recherche avec classement

157

10.2 S2 : recherche plein texte

160

10.3 S3 : l"algorithme PageRank

166

10.4 Exercices

169

10.5 Implémenter le classement dans un moteur de recherche

173

11 Recherche d"information - TP ElasticSearch

175

11.1 Mise en place d"ElasticSearch

175

11.2 Interrogation

177

11.3 Agrégats

178

11.4 Bonus : Agrégats via mapping spécifique

179

12 Recherche d"information - TP ElasticSearch : pertinence

181

12.1 Elasticsearch et la pertinence

181

12.2 À vous de jouer

186

13 Lecloud, une nouvelle machine de calcul187

13.1 S1 :cloudet données massives. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188

13.2 S2 : La scalabilité

196

13.3 S3 : anatomie d"une grappe de serveurs

200

13.4 Exercices

204

14 Systèmes NoSQL : la réplication

207

14.1 S1 : réplication et reprise sur panne

207

14.2 S2 : réplication dans MongoDB

217

14.3 S3 : ElasticSearch

221

14.4 S4 : Cassandra

228

14.5 Exercices

236

15 Systèmes NoSQL : le partitionnement

241

15.1 S1 : les bases

241

15.2 S2 : partitionnement par intervalle

248

15.3 S3 : partitionnement par hachage

257

15.4 Exercices

270 ii

16 Calcul distribué : Hadoop et MapReduce275

16.1 S1 : MapReduce

276

16.2 S2 : Une brève introduction à Hadoop

283

16.3 S3 : langages de traitement : Pig

295

16.4 Exercices

301

17 Traitement de données massives avec Apache Spark

305

17.1 S1 : Introduction à Spark

306

17.2 S2 : Spark en pratique

312

17.3 S3 : Traitement de données structurées avec Cassandra et Spark

320

17.4 Exercices

325

18 Traitement de flux massifs avec Apache Flink

327

18.1 S1 : Apache Flink

328

18.2 S2 : l"API de streaming Flink

337

18.3 S3 : Le fenêtrage

345

19 Pig : Travaux pratiques

351

19.1 Première partie : analyse de flux multiples

351

19.2 Deuxième partie : analyse de requêtes

353

20 Projets NFE204361

20.1 Les étapes

362

20.2 Les données

363

20.3 Le système NoSQL

363

20.4 Le rapport

364

21 Annales des examens

365

21.1 Examen du 3 février 2015

365

21.2 Examen du 14 avril 2015

367

21.3 Examen du 15 juin 2015

368

21.4 Examen du 1er juillet 2016 (FOD)

370

21.5 Examen du 1er février 2017 (Présentiel)

374

21.6 Examen du 6 février 2018 (Présentiel)

377

21.7 Examen du 30 juin 2020

381

21.8 Examen du 5 septembre 2020

383

22 Indices and tables

387 iii

iv Bases de données documentaires et distribuées, Version Février 2023

Tout le matériel proposé ici sert de support au cours " Bases de données documentaires et distribuées »

proposé par le département d"informatique du Cnam. Le code du cours est NFE204 (voir le site http: pour des inf ormationspratiq ues).Il es tdonné en Cours présentiel (premier semes tre,mardi soir) Cours à dis tance(second semes tre,a vecsuppor tsaudio visuels)

Par ailleurs, le document que vous commencez à lire fait partie de l"ensemble des supports d"apprentissage

proposés sur le site http:// www.bdpedia.fr .R eportez-vousà ce site pour plus d"e xplications.

Ce cours fait partie d"un ensemble d"enseignements consacrés à l"analyse de données massives, permettant

éventuellement d"obtenir un Certificat de Spécialisation au Cnam. Vous êtes invités à consulter :

Le site du cer tificat:

http:// donneesmassives.cnam.fr/

La fic hedu cer tificat:

http:// formation.cnam.fr/rechercher-par-discipline/ La présentation du cours R CP216sur la f ouillede données dis tribuée http:// cedric.cnam.fr/vertigo/

Cours/RCP216/preambule.html

La présentation du projet de synthèse (U ASB03)q uiconclut le Cer tificatde données massiv es,

http: //cedric.cnam.fr/vertigo/Cours/UASB03/uasb03.htmlTable des matières1 Bases de données documentaires et distribuées, Version Février 2023

2Table des matières

CHAPITRE1Introduction

Supports complémentaires :

Diapositiv es:Présentation du cours

V idéode présentation du cours Les bases relationnelles sont adaptées à des informations bien structurées, décomposables en unités simples

(chaînes de caractères, numériques), et représentables sous forme de tableaux. Beaucoup de données ne

satisfont pas ces critères : leur structure est complexe, variable, et elles ne se décomposent par aisément

en attributs élémentaires. Comment représenter le contenu d"un livre par exemple? d"une image ou d"une

vidéo? d"une partition musicale?

Les bases relationnelles répondent à cette question en multipliant le nombre de tables, et de lignes dans ces

tables, pour représenter ce qui constitue conceptuellement une même " entité ». Cette décomposition en

fragment " plats » (les lignes) est la fameusenormalisation(relationnelle) qui impose, pour reconstituer l"in-

formation complète, d"effectuer une ou plusieurs jointures assemblant les lignes stockées indépendamment

les unes des autres.Note :Ce cours suppose une connaissance solide des bases de données relationnelles. Si ce n"est pas le cas,

vous risquez d"avoir des lacunes et des difficultés à assimiler les nouvelles connaissances présentées. Je vous

recommande au préalable de consulter les cours suivants : le cours

Bases relationnelles, modèles et lang ages

, pour tout savoir sur la conception d"une base relationnelle et le langage SQL. le cours

Sy stèmesrelationnels

, pour les aspects systèmes : indexation, optimisation, concurrence

d"accès.Cette approche, qui a fait ses preuves, ne convient cependant pas dans certains cas. Les données de nature es-

Bases de données documentaires et distribuées, Version Février 2023

de certains objets dont la stucture est très flexible; enfin,l"échange de donnéesdans un environnement dis-

tribué se prête mal à une représentation éclatée en plusieurs constituants élémentaires qu"il faut ré-assembler

pour qu"ils prennent sens. Toutes ces raisons mènent à des modes de représentation plus riches permettant

la réunion, en une seule structure, de toutes les informations relatives à un même objet conceptuel. C"est ce

que nous appelleronsdocument, dans une acception élargie un peu abusive mais bien pratique. 1.1

Suje tdu cour s

Dans tout ce qui suit nous désignons donc par le terme générique dedocumenttoute paire(i, v)oùiest

l"identifiant du document etvunevaleur structuréecontenant les informations caractérisant le document.

Nous reviendrons plus précisément sur ces notions dans le cours.

La gestion d"ensembles de documents selon les principes des bases de données, avec notamment des outils

de type " cloud ». L"usage est maintenant établi d"appeler ces systèmes " NoSQL » pour souligner leurs

différences avec les systèmes relationnels. Le fait qu"ils ne suivent pas le modèle relationnel est d"ailleurs à

peu près leur seul point commun. De manière générale, et avec de grandes variantes quand on se penche sur

les détails, ils partagent également :

la représentation des données sous f ormed"unités d"inf ormationindépendantes les unes des unes, (ce

que nous appelons justementdocument) organisées encollections;

des méthodes d"accès aux collections basées soit sur des pr imitivesassez simplis tes,soit sur des

quotesdbs_dbs18.pdfusesText_24