[PDF] BigData - Semaine 1 Tout ce module vise à enseigner





Previous PDF Next PDF



Maîtrisez lutilisation des technologies Hadoop

Aux consultants BI/big data data scientists



Introduction à MapReduce/Hadoop et Spark

paradigmes classiques de traitement de données et nécessite l'utilisation de plateformes distribuées de calcul. Introduction à Hadoop. Introduction à Spark.



BigData - Semaine 7

Pig sert à lancer les programmes Pig Latin dans l'environnement Hadoop. 2 / 43. Pierre Nerzic. Page 3. BigData - Semaine 7.



Big Data et ses technologies

? Hadoop: circa 2006. ? D'où le“Big Data”: pas strictement plus de data Page 16. Big Data - Les applications. Page 17 ...



Outils pour le BigData

03?/02?/2016 1.2 Hadoop File System (HDFS) . ... API pour utiliser HDFS en Java . ... hdfs dfs -rm -f -r dossier (pas d'option -fr).



Chapitre II

Le Big Data (en français "Grandes données") regroupe une famille d'outils qui PDF. [6]Benjamin Renaut Hadoop/Big Data



BigData - Semaine 1

Tout ce module vise à enseigner la programmation d'applications sur un cluster à l'aide des outils Hadoop. 10 / 64. Pierre Nerzic. Page 11. BigData - Semaine 1.



Hadoop / Big Data

langue Française. L'intérêt du modèle MapReduce est qu'il nous suffit de développer les deux opérations réellement importantes du traitement: MAP et REDUCE.



TRAÎTEMENT DISTRIBUÉ DES DONNÉES

1 Données Massive MapReduce. 1.1 Propriétés et limites des bases SQL. 1.2 Paradigme MapReduce. 1.3 Hadoop et HDFS. 1.4 Hive et HiveQL. 1.5 Java 8 



Avantages du système de fichiers HDFS en termes de performances

28?/12?/2015 Le serveur Hadoop contient un système HDFS pour le stockage des données ainsi que les moteurs Hive



Big Data Analytics et Hadoop : une révolution - SAS

« Hadoop nous permet de penser l'entreprise di?éremment : il faut tenter des choses nouvelles tester les modèles et laisser parler la donnée La décision vient ensuite : si la data dit que ça ne marche pas eh bien on tente autre chose » Un monde catalysé par la donnée où disparaîtrait la peur de l'échec Chiche ?



Tout savoir sur Hadoop : Vulgarisation de la technologie et

Hadoop : un framework modulaire Hadoop n’a pas été conçu pour traiter de grandes quantités de données structurées à grande vitesse Cette mission reste largement l’apanage des grands systèmes de Datawarehouse et de datamart reposant sur des SGBD traditionnelles et faisant usage de SQL comme langage de requête



HDFS Architecture Guide - Apache Hadoop

The Hadoop Distributed File System (HDFS) is a distributed file system designed to runon commodity hardware It has many similarities with existing distributed file systems However the differences from other distributed file systems are significant HDFS is highlyfault-tolerant and is designed to be deployed on low-cost hardware



hive - riptutorialcom

• Hive est un outil d'entrepôt de données construit sur Hadoop • Il fournit un langage de type SQL pour interroger les données Nous pouvons exécuter presque toutes les requêtes SQL dans Hive à la seule différence que cela exécute un travail de réduction de carte au niveau du serveur principal pour



apache-pig - riptutorialcom

Connexion à Hadoop Si Hadoop1 x ou 2 x est installé sur le cluster et que la variable d'environnement HADOOP_HOME est configurée vous pouvez connecter pig à Hadoop en ajoutant la ligne dans le fichier bashrc comme avant export PIG_CLASSPATH = $HADOOP_HOME/conf Porc Courir Modes d'exécution



MapReduce Tutorial - Apache Hadoop

1 Purpose This document comprehensively describes all user-facing facets of the Hadoop MapReduce framework and serves as a tutorial 2 Prerequisites Ensure that Hadoop is installed configured and is running More details: • Single Node Setup for first-time users



Hadoop/MapReduce - University of Colorado Boulder Computer

Hadoop Distributed File System (HFDS) • Inspired by Google File System • Scalable distributed portable filesystem written in Java for Hadoop framework Primary distributed storage used by Hadoop applications • HFDS can be part of a Hadoop cluster or can be a stand-alone general purpose distributed file system



HADOOP ECOSYSTEM - National Institute of Technology Srinagar

Hadoop Distributed File System is the core component or you can say the backbone of Hadoop Ecosystem HDFS is the one which makes it possible to store different types of large data sets (i e structured unstructured and semi structured data) HDFS creates a level of abstraction over the resources from where we can see the



Commands Guide - Apache Hadoop

2 User Commands Usage: hadoop version 2 11 CLASSNAME hadoop script can be used to invoke any class Usage: hadoop CLASSNAME Runs the class named CLASSNAME 2 12 classpath Prints the class path needed to get the Hadoop jar and the required libraries Usage: hadoop classpath 3 Administration Commands



wwwit-ebooks - Internet Archive

Managing Hadoop Processes 195 Starting and Stopping Processes with Init Scripts 195 Starting and Stopping Processes Manually 196 HDFS Maintenance Tasks 196 Adding a Datanode 196 Decommissioning a Datanode 197 Checking Filesystem Integrity with fsck 198 Balancing HDFS Block Data 202 Dealing with a Failed Disk 204 MapReduce Maintenance Tasks 205



Hadoop Introduction - IIT Roorkee

Hadoop Java JSF 2 PrimeFaces Servlets JSP Ajax jQuery Spring Hibernate RESTful Web Services Android Developed and taught by well-known author and developer At public venues or onsite at your location Hadoop Introduction Originals of slides and source code for examples: http://www coreservlets com/hadoop-tutorial/



Getting Started with Hadoop - Inria

2 1 A Brief History of Hadoop Hadoop was created by Doug Cutting the creator of Apache Lucene a widely used text search library The Apache Nutch project an open source web search engine had a signi?cant contribution to building Hadoop [1] Hadoop is not an acronym; it is a made-up name



Searches related to hadoop pdf francais filetype:pdf

Using Hadoop Professionally Staying Sane State of Big Data and Hadoop Conclusion Introduction I Hi I’m Casey I I work at Explorys I I work with Hadoop and the Hadoop ecosystem daily I I’m going to talk about some of the best practices that I’ve seen I Some of these are common knowledge I Some of these don’t show up until you’ve been

BigData - Semaine 1

BigData - Semaine 1

Pierre Nerzic

février-mars 2019

1/64Pierre Nerzic

BigData - Semaine 1

Le cours de cette semaine présente les concepts suivants :

But du cours

Mégadonnées

Système de fichiers distribués

Programmation " map-reduce » sur Hadoop

2/64Pierre Nerzic

BigData - Semaine 1

Introduction

Introduction

3/64Pierre Nerzic

BigData - Semaine 1

Introduction

Pourquoi ce cours ?

Selon

Link edIn

, les compétences les plus recherchées depuis

plusieurs années sont :1)Cloud and Distributed Computing(Hadoop, Big Data)2)Statistical Analys isand Data Mining (R, Data Analysis)

10)

Sto rageSystems and Management (SQL)

Voir ce ttepage p ourla liste en F rance,qui est très similaire.

4/64Pierre Nerzic

BigData - Semaine 1

Introduction

Préfixes multiplicatifs

Avant de parler de BigData, connaissez-vous les

p réfixes ? signe préfixe facteur exemple représentatif k kilo 10

3une page de texte

M méga 10

6vitesse de transfert par seconde

G giga 10

9DVD, clé USB

T téra 10

12disque dur

Ppéta1015

Eexa1018FaceBook, Amazon

Zzetta1021internet tout entier depuis 20105/64Pierre Nerzic

BigData - Semaine 1

Introduction

Mégadonnées ?

Les mégadonnées ou Big Datasont des collections d"informations qui auraient été considérées comme gigantesques, impossible à

stocker et à traiter, il y a une dizaine d"années.Internet: Google en 2015 : 10 Eo (10 milliards de Go),

Facebook

en 2018 : 1 Eo de données, 7 P ode nouvelles données par jour, Amazon : 1 Eo.BigScience: télescopes (1 Po/jour),CERN (2 P olus et écrits/jour, 280 Po de stockage), génome, environnement... NB: ces informations sont très difficiles à trouver.

La raison est quetoutest enregistré sans discernement, dans l"idéeque ça pourra être exploité. Certains prêchent pour que les données

collectées soient pertinentes (smart data) plutôt que volumineuses.6/64Pierre Nerzic

BigData - Semaine 1

Introduction

Distribution données et traitements

Le traitement d"aussi grandes quantités de données impose desméthodes particulières. Un SGBD classique, même haut de gamme,

est dans l"incapacité de traiter autant d"informations.Répartir les données sur plusieurs machines (jusqu"à plusieurs

millions d"ordinateurs) dans desData Centers •système de fichiers spécial permettant de ne voir qu"un seul espace pouvant contenir des fichiers gigantesques et/ou très nombreux (HDFS), •bases de données spécifiques (HBase, Cassandra, ElasticSearch).Traitements du type " map-reduce » : •algorithmes faciles à écrire, •exécutions faciles à paralléliser.7/64Pierre Nerzic

BigData - Semaine 1

Introduction

UnData Center

Imaginez 5000 ordinateurs connectés entre eux formant uncluster:8/64Pierre Nerzic

BigData - Semaine 1

Introduction

Serveur " lame »

Chacun de ces

PC lames

( blade computer) ourack serverpeut

ressembler à ceci (4 CPU multi-coeurs, 1 To de RAM, 24 To dedisques rapides, 5000e, prix et technologie en constante évolution) :Il semble que Google utilise des ordinateurs assez basiques, peu

chers mais extrêmement nombreux (10

6), consulterwikip edia.9/64Pierre Nerzic

BigData - Semaine 1

Introduction

Machines connectées

Toutes ces machines sont connectées entre elles afin de partager l"espace de stockage et la puissance de calcul. LeCloudest un exemple d"espace de stockage distribué : des fichiers sont stockés sur différentes machines, généralement en double pour prévenir une panne. L"exécution des programmes est également distribuée : ils sont

exécutés sur une ou plusieurs machines du réseau.Tout ce module vise à enseigner la programmation d"applications sur

un cluster, à l"aide des outilsHadoop.10/64Pierre Nerzic

BigData - Semaine 1

Introduction

Hadoop ?

Hadoop

est un système de gestion de données et de traitemen ts distribués. Il contient de beaucoup de composants, dont : HDFS un système de fichier qui répa rtitles données sur de nombreuses machines, YARN un mécanisme d"o rdonnancementde p rogrammesde type MapReduce. On va d"abord présenter HDFS puis YARN/MapReduce.

11/64Pierre Nerzic

BigData - Semaine 1

Hadoop File System (HDFS)

Hadoop File System (HDFS)

12/64Pierre Nerzic

BigData - Semaine 1

Hadoop File System (HDFS)

Présentation

HDFS est un système de fichiers distribué. C"est à dire :les fichiers et dossiers sont organisés en arbre (comme Unix)

ces fichiers sont stockés sur un grand nombre de machines de manière à rendre invisible la position exacte d"un fichier. L"accès est transparent, quelle que soient les machines qui contiennent les fichiers.les fichiers sont copiés en plusieurs exemplaires pour la fiabilité et permettre des accès simultanés multiples HDFS permet de voir tous les dossiers et fichiers de ces milliers de machines comme un seul arbre, contenant des Po de données, comme s"ils étaient sur le disque dur local.

13/64Pierre Nerzic

BigData - Semaine 1

Hadoop File System (HDFS)

Organisation des fichiers

Vu de l"utilisateur, HDFS ressemble à un système de fichiers Unix : il y a une racine, des répertoires et des fichiers. Les fichiers ont un propriétaire, un groupe et des droits d"accès comme avec ext4.

Sous la racine/, il y a :des répertoires pour les services Hadoop :/hbase,/tmp,/varun répertoire pour les fichiers personnels des utilisateurs :

/user(attention, ce n"est ni/home, ni/userscomme sur d"autres systèmes Unix). Dans ce répertoire, il y a aussi trois dossiers système :/user/hive,/user/historyet /user/spark. un répertoire pour déposer des fichiers à partager avec tous les utilisateurs :/share Vous devrez distinguer les fichiers HDFS des fichiers "normaux».

14/64Pierre Nerzic

BigData - Semaine 1

Hadoop File System (HDFS)

Commandehdfs dfs

La commandehdfs dfset ses options permet de gérer les fichiers et dossiers :hdfs dfs -help hdfs dfs -ls [noms...](pas d"option-l)hdfs dfs -cat nom hdfs dfs -mv ancien nouveau hdfs dfs -cp ancien nouveau hdfs dfs -mkdir dossier

hdfs dfs -rm -f -r dossier(pas d"option-fr)Il faut toutefois noter que les commandes mettent un certain temps

à réagir, voir

cette page : ce sont des logiciels écrits en Ja vaavec chargement de très nombreux jars. D"autre part, nos machines ne sont pas très rapides.

15/64Pierre Nerzic

BigData - Semaine 1

Hadoop File System (HDFS)

Échanges entre HDFS et le monde

Pour placer un fichier dans HDFS, deux commandes équivalentes :hdfs dfs -copyFromLocal fichiersrc fichierdst

hdfs dfs -put fichiersrc [fichierdst] Pour extraire un fichier de HDFS, deux commandes possibles :hdfs dfs -copyToLocal fichiersrc dst hdfs dfs -get fichiersrc [fichierdst]

Exemple :hdfs dfs -mkdir -p livres

wget http://www.textfiles.com/etext/FICTION/dracula hdfs dfs -put dracula livres hdfs dfs -ls livres hdfs dfs -get livres/center_earth

16/64Pierre Nerzic

BigData - Semaine 1

Hadoop File System (HDFS)

Comment fonctionne HDFS ?

Comme avec de nombreux systèmes, chaque fichier HDFS est découpé en blocs de taille fixe. Un bloc HDFS = 256Mo (à l"IUT,

j"ai réduit à 64Mo). Selon la taille d"un fichier, il lui faudra uncertain nombre de blocs. Sur HDFS, le dernier bloc d"un fichier fait

la taille restante. Les blocs d"un même fichier ne sont pas forcément tous sur la même machine. Ils sont copiés chacun sur différentes machines afin d"y accéder simultanément par plusieurs processus. Par défaut, chaque bloc est copié sur 3 machines différentes (c"est configurable). Cette réplication des blocs sur plusieurs machines permet aussi de se prémunir contre les pannes. Chaque fichier se trouve donc en plusieurs exemplaires et à différents endroits.

17/64Pierre Nerzic

BigData - Semaine 1

Hadoop File System (HDFS)

Organisation des machines pour HDFS

Un cluster HDFS est constitué de machines jouant différents rôles exclusifs entre eux :L"une des machines est le maître HDFS, appelé lenamenode. Cette machine contient tous les noms et blocs des fichiers, comme un gros annuaire téléphonique.Une autre machine est lesecondary namenode, une sorte de namenodede secours, qui enregistre des sauvegardes de l"annuaire à intervalles réguliers.Certaines machines sont desclients. Ce sont des points

d"accès au cluster pour s"y connecter et travailler.Toutes les autres machines sont desdatanodes. Elles stockent

les blocs du contenu des fichiers.18/64Pierre Nerzic

BigData - Semaine 1

Hadoop File System (HDFS)

Un schéma des nodes HDFS

Lesdatanodescontiennent des blocs (A, B, C...), lenamenode sait où sont les fichiers : quels blocs et sur quelsdatanodes.

Consulter

cette page p ourdes explications complètes.

19/64Pierre Nerzic

BigData - Semaine 1

Hadoop File System (HDFS)

Explications

Lesdatanodescontiennent des blocs. Les mêmes blocs sont dupliqués (replication) sur différentsdatanodes, en général 3 fois.

Cela assure :fiabilité des données en cas de panne d"undatanode,accès parallèle par différents processus aux mêmes données.

Lenamenodesait à la fois :sur quels blocs sont contenus les fichiers, sur quelsdatanodesse trouvent les blocs voulus.

On appelle cela lesmetadata.

Inconvénient majeur : panne dunamenode= mort de HDFS, c"est pour éviter ça qu"il y a lesecondary namenode. Il archive les metadata, par exemple toutes les heures.

20/64Pierre Nerzic

BigData - Semaine 1

Hadoop File System (HDFS)

Modehigh availability

Comme lenamenodeest absolument vital pour HDFS mais unique, Hadoop propose une configuration appeléehigh availabilitydans laquelle il y a 2 autresnamenodesen secours, capables de prendre le relais instantanément en cas de panne dunamenodeinitial. Lesnamenodesde secours se comportent comme des clones. Ils sont en état d"attente et mis à jour en permanence à l"aide de services appelésJournalNodes. Lesnamenodesde secours font également le même travail que le secondary namenode, d"archiver régulièrement l"état des fichiers, donc ils rendent ce dernier inutile.

21/64Pierre Nerzic

BigData - Semaine 1

API Java pour HDFS

API Java pour HDFS

22/64Pierre Nerzic

BigData - Semaine 1

API Java pour HDFS

API pour utiliser HDFS en Java

Hadoop propose une API Java complète pour accéder aux fichiers

de HDFS. Elle repose sur deux classes principales :FileSystemreprésente l"arbre des fichiers (file system). Cette

classe permet de copier des fichiers locaux vers HDFS (et inversement), renommer, créer et supprimer des fichiers et des dossiersFileStatusgère les informations d"un fichier ou dossier : •taille avecgetLen(), •nature avecisDirectory()etisFile(), Ces deux classes ont besoin de connaître la configuration du cluster HDFS, à l"aide de la classeConfiguration. D"autre part, les noms complets des fichiers sont représentés par la classePath23/64Pierre Nerzic

BigData - Semaine 1

API Java pour HDFS

Exemple

Voici quelques manipulations sur un fichier :importorg.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoop.fs.Path;

Configuration conf =

new

Configuration();

FileSystem fs = FileSystem.get(conf);

Path nomcomplet =

new Path( "/user/etudiant1" "bonjour.txt"

FileStatus infos = fs.getFileStatus(nomcomplet);

" octets" fs.rename(nomcomplet, new Path( "/user/etudiant1" "salut.txt" Dans la suite,import ...;correspondra à ces importations.24/64Pierre Nerzic

BigData - Semaine 1

API Java pour HDFS

Informations sur les fichiers

Exemple complet, afficher la liste des blocs d"un fichier :import...; public class

HDFSinfo {

public static void main(String[] args) throws

IOException {

Configuration conf =

new

Configuration();

FileSystem fs = FileSystem.get(conf);

Path nomcomplet =

quotesdbs_dbs21.pdfusesText_27
[PDF] hager eh111 manual

[PDF] hager et 221 mode d'emploi

[PDF] hager et221

[PDF] hager programmateur

[PDF] hager thermostat

[PDF] haiku francais 6eme

[PDF] haiti colonie francaise

[PDF] haiti est un pays agricole

[PDF] haiti pauvreté wikipedia

[PDF] haïti pib par habitant

[PDF] haïti produit intérieur brut

[PDF] haiti statistiques

[PDF] hall 3 gare de lyon

[PDF] halle aux blés paris

[PDF] halle charolais