Maîtrisez lutilisation des technologies Hadoop
Aux consultants BI/big data data scientists
Introduction à MapReduce/Hadoop et Spark
paradigmes classiques de traitement de données et nécessite l'utilisation de plateformes distribuées de calcul. Introduction à Hadoop. Introduction à Spark.
BigData - Semaine 7
Pig sert à lancer les programmes Pig Latin dans l'environnement Hadoop. 2 / 43. Pierre Nerzic. Page 3. BigData - Semaine 7.
Big Data et ses technologies
? Hadoop: circa 2006. ? D'où le“Big Data”: pas strictement plus de data Page 16. Big Data - Les applications. Page 17 ...
Outils pour le BigData
03?/02?/2016 1.2 Hadoop File System (HDFS) . ... API pour utiliser HDFS en Java . ... hdfs dfs -rm -f -r dossier (pas d'option -fr).
Chapitre II
Le Big Data (en français "Grandes données") regroupe une famille d'outils qui PDF. [6]Benjamin Renaut Hadoop/Big Data
BigData - Semaine 1
Tout ce module vise à enseigner la programmation d'applications sur un cluster à l'aide des outils Hadoop. 10 / 64. Pierre Nerzic. Page 11. BigData - Semaine 1.
Hadoop / Big Data
langue Française. L'intérêt du modèle MapReduce est qu'il nous suffit de développer les deux opérations réellement importantes du traitement: MAP et REDUCE.
TRAÎTEMENT DISTRIBUÉ DES DONNÉES
1 Données Massive MapReduce. 1.1 Propriétés et limites des bases SQL. 1.2 Paradigme MapReduce. 1.3 Hadoop et HDFS. 1.4 Hive et HiveQL. 1.5 Java 8
Avantages du système de fichiers HDFS en termes de performances
28?/12?/2015 Le serveur Hadoop contient un système HDFS pour le stockage des données ainsi que les moteurs Hive
Big Data Analytics et Hadoop : une révolution - SAS
« Hadoop nous permet de penser l'entreprise di?éremment : il faut tenter des choses nouvelles tester les modèles et laisser parler la donnée La décision vient ensuite : si la data dit que ça ne marche pas eh bien on tente autre chose » Un monde catalysé par la donnée où disparaîtrait la peur de l'échec Chiche ?
Tout savoir sur Hadoop : Vulgarisation de la technologie et
Hadoop : un framework modulaire Hadoop n’a pas été conçu pour traiter de grandes quantités de données structurées à grande vitesse Cette mission reste largement l’apanage des grands systèmes de Datawarehouse et de datamart reposant sur des SGBD traditionnelles et faisant usage de SQL comme langage de requête
HDFS Architecture Guide - Apache Hadoop
The Hadoop Distributed File System (HDFS) is a distributed file system designed to runon commodity hardware It has many similarities with existing distributed file systems However the differences from other distributed file systems are significant HDFS is highlyfault-tolerant and is designed to be deployed on low-cost hardware
hive - riptutorialcom
• Hive est un outil d'entrepôt de données construit sur Hadoop • Il fournit un langage de type SQL pour interroger les données Nous pouvons exécuter presque toutes les requêtes SQL dans Hive à la seule différence que cela exécute un travail de réduction de carte au niveau du serveur principal pour
apache-pig - riptutorialcom
Connexion à Hadoop Si Hadoop1 x ou 2 x est installé sur le cluster et que la variable d'environnement HADOOP_HOME est configurée vous pouvez connecter pig à Hadoop en ajoutant la ligne dans le fichier bashrc comme avant export PIG_CLASSPATH = $HADOOP_HOME/conf Porc Courir Modes d'exécution
MapReduce Tutorial - Apache Hadoop
1 Purpose This document comprehensively describes all user-facing facets of the Hadoop MapReduce framework and serves as a tutorial 2 Prerequisites Ensure that Hadoop is installed configured and is running More details: • Single Node Setup for first-time users
Hadoop/MapReduce - University of Colorado Boulder Computer
Hadoop Distributed File System (HFDS) • Inspired by Google File System • Scalable distributed portable filesystem written in Java for Hadoop framework Primary distributed storage used by Hadoop applications • HFDS can be part of a Hadoop cluster or can be a stand-alone general purpose distributed file system
HADOOP ECOSYSTEM - National Institute of Technology Srinagar
Hadoop Distributed File System is the core component or you can say the backbone of Hadoop Ecosystem HDFS is the one which makes it possible to store different types of large data sets (i e structured unstructured and semi structured data) HDFS creates a level of abstraction over the resources from where we can see the
Commands Guide - Apache Hadoop
2 User Commands Usage: hadoop version 2 11 CLASSNAME hadoop script can be used to invoke any class Usage: hadoop CLASSNAME Runs the class named CLASSNAME 2 12 classpath Prints the class path needed to get the Hadoop jar and the required libraries Usage: hadoop classpath 3 Administration Commands
wwwit-ebooks - Internet Archive
Managing Hadoop Processes 195 Starting and Stopping Processes with Init Scripts 195 Starting and Stopping Processes Manually 196 HDFS Maintenance Tasks 196 Adding a Datanode 196 Decommissioning a Datanode 197 Checking Filesystem Integrity with fsck 198 Balancing HDFS Block Data 202 Dealing with a Failed Disk 204 MapReduce Maintenance Tasks 205
Hadoop Introduction - IIT Roorkee
Hadoop Java JSF 2 PrimeFaces Servlets JSP Ajax jQuery Spring Hibernate RESTful Web Services Android Developed and taught by well-known author and developer At public venues or onsite at your location Hadoop Introduction Originals of slides and source code for examples: http://www coreservlets com/hadoop-tutorial/
Getting Started with Hadoop - Inria
2 1 A Brief History of Hadoop Hadoop was created by Doug Cutting the creator of Apache Lucene a widely used text search library The Apache Nutch project an open source web search engine had a signi?cant contribution to building Hadoop [1] Hadoop is not an acronym; it is a made-up name
Searches related to hadoop pdf francais filetype:pdf
Using Hadoop Professionally Staying Sane State of Big Data and Hadoop Conclusion Introduction I Hi I’m Casey I I work at Explorys I I work with Hadoop and the Hadoop ecosystem daily I I’m going to talk about some of the best practices that I’ve seen I Some of these are common knowledge I Some of these don’t show up until you’ve been
BigData - Semaine 1
BigData - Semaine 1
Pierre Nerzic
février-mars 20191/64Pierre Nerzic
BigData - Semaine 1
Le cours de cette semaine présente les concepts suivants :But du cours
Mégadonnées
Système de fichiers distribués
Programmation " map-reduce » sur Hadoop
2/64Pierre Nerzic
BigData - Semaine 1
Introduction
Introduction
3/64Pierre Nerzic
BigData - Semaine 1
Introduction
Pourquoi ce cours ?
SelonLink edIn
, les compétences les plus recherchées depuisplusieurs années sont :1)Cloud and Distributed Computing(Hadoop, Big Data)2)Statistical Analys isand Data Mining (R, Data Analysis)
10)Sto rageSystems and Management (SQL)
Voir ce ttepage p ourla liste en F rance,qui est très similaire.4/64Pierre Nerzic
BigData - Semaine 1
Introduction
Préfixes multiplicatifs
Avant de parler de BigData, connaissez-vous les
p réfixes ? signe préfixe facteur exemple représentatif k kilo 103une page de texte
M méga 10
6vitesse de transfert par seconde
G giga 10
9DVD, clé USB
T téra 10
12disque dur
Ppéta1015
Eexa1018FaceBook, Amazon
Zzetta1021internet tout entier depuis 20105/64Pierre NerzicBigData - Semaine 1
Introduction
Mégadonnées ?
Les mégadonnées ou Big Datasont des collections d"informations qui auraient été considérées comme gigantesques, impossible àstocker et à traiter, il y a une dizaine d"années.Internet: Google en 2015 : 10 Eo (10 milliards de Go),
La raison est quetoutest enregistré sans discernement, dans l"idéeque ça pourra être exploité. Certains prêchent pour que les données
collectées soient pertinentes (smart data) plutôt que volumineuses.6/64Pierre NerzicBigData - Semaine 1
Introduction
Distribution données et traitements
Le traitement d"aussi grandes quantités de données impose desméthodes particulières. Un SGBD classique, même haut de gamme,
est dans l"incapacité de traiter autant d"informations.Répartir les données sur plusieurs machines (jusqu"à plusieurs
millions d"ordinateurs) dans desData Centers •système de fichiers spécial permettant de ne voir qu"un seul espace pouvant contenir des fichiers gigantesques et/ou très nombreux (HDFS), •bases de données spécifiques (HBase, Cassandra, ElasticSearch).Traitements du type " map-reduce » : •algorithmes faciles à écrire, •exécutions faciles à paralléliser.7/64Pierre NerzicBigData - Semaine 1
Introduction
UnData Center
Imaginez 5000 ordinateurs connectés entre eux formant uncluster:8/64Pierre NerzicBigData - Semaine 1
Introduction
Serveur " lame »
Chacun de ces
PC lames
( blade computer) ourack serverpeutressembler à ceci (4 CPU multi-coeurs, 1 To de RAM, 24 To dedisques rapides, 5000e, prix et technologie en constante évolution) :Il semble que Google utilise des ordinateurs assez basiques, peu
chers mais extrêmement nombreux (106), consulterwikip edia.9/64Pierre Nerzic
BigData - Semaine 1
Introduction
Machines connectées
Toutes ces machines sont connectées entre elles afin de partager l"espace de stockage et la puissance de calcul. LeCloudest un exemple d"espace de stockage distribué : des fichiers sont stockés sur différentes machines, généralement en double pour prévenir une panne. L"exécution des programmes est également distribuée : ils sontexécutés sur une ou plusieurs machines du réseau.Tout ce module vise à enseigner la programmation d"applications sur
un cluster, à l"aide des outilsHadoop.10/64Pierre NerzicBigData - Semaine 1
Introduction
Hadoop ?
Hadoop
est un système de gestion de données et de traitemen ts distribués. Il contient de beaucoup de composants, dont : HDFS un système de fichier qui répa rtitles données sur de nombreuses machines, YARN un mécanisme d"o rdonnancementde p rogrammesde type MapReduce. On va d"abord présenter HDFS puis YARN/MapReduce.11/64Pierre Nerzic
BigData - Semaine 1
Hadoop File System (HDFS)
Hadoop File System (HDFS)
12/64Pierre Nerzic
BigData - Semaine 1
Hadoop File System (HDFS)
Présentation
HDFS est un système de fichiers distribué. C"est à dire :les fichiers et dossiers sont organisés en arbre (comme Unix)
ces fichiers sont stockés sur un grand nombre de machines de manière à rendre invisible la position exacte d"un fichier. L"accès est transparent, quelle que soient les machines qui contiennent les fichiers.les fichiers sont copiés en plusieurs exemplaires pour la fiabilité et permettre des accès simultanés multiples HDFS permet de voir tous les dossiers et fichiers de ces milliers de machines comme un seul arbre, contenant des Po de données, comme s"ils étaient sur le disque dur local.13/64Pierre Nerzic
BigData - Semaine 1
Hadoop File System (HDFS)
Organisation des fichiers
Vu de l"utilisateur, HDFS ressemble à un système de fichiers Unix : il y a une racine, des répertoires et des fichiers. Les fichiers ont un propriétaire, un groupe et des droits d"accès comme avec ext4.Sous la racine/, il y a :des répertoires pour les services Hadoop :/hbase,/tmp,/varun répertoire pour les fichiers personnels des utilisateurs :
/user(attention, ce n"est ni/home, ni/userscomme sur d"autres systèmes Unix). Dans ce répertoire, il y a aussi trois dossiers système :/user/hive,/user/historyet /user/spark. un répertoire pour déposer des fichiers à partager avec tous les utilisateurs :/share Vous devrez distinguer les fichiers HDFS des fichiers "normaux».14/64Pierre Nerzic
BigData - Semaine 1
Hadoop File System (HDFS)
Commandehdfs dfs
La commandehdfs dfset ses options permet de gérer les fichiers et dossiers :hdfs dfs -help hdfs dfs -ls [noms...](pas d"option-l)hdfs dfs -cat nom hdfs dfs -mv ancien nouveau hdfs dfs -cp ancien nouveau hdfs dfs -mkdir dossierhdfs dfs -rm -f -r dossier(pas d"option-fr)Il faut toutefois noter que les commandes mettent un certain temps
à réagir, voir
cette page : ce sont des logiciels écrits en Ja vaavec chargement de très nombreux jars. D"autre part, nos machines ne sont pas très rapides.15/64Pierre Nerzic
BigData - Semaine 1
Hadoop File System (HDFS)
Échanges entre HDFS et le monde
Pour placer un fichier dans HDFS, deux commandes équivalentes :hdfs dfs -copyFromLocal fichiersrc fichierdst
hdfs dfs -put fichiersrc [fichierdst] Pour extraire un fichier de HDFS, deux commandes possibles :hdfs dfs -copyToLocal fichiersrc dst hdfs dfs -get fichiersrc [fichierdst]Exemple :hdfs dfs -mkdir -p livres
wget http://www.textfiles.com/etext/FICTION/dracula hdfs dfs -put dracula livres hdfs dfs -ls livres hdfs dfs -get livres/center_earth16/64Pierre Nerzic
BigData - Semaine 1
Hadoop File System (HDFS)
Comment fonctionne HDFS ?
Comme avec de nombreux systèmes, chaque fichier HDFS est découpé en blocs de taille fixe. Un bloc HDFS = 256Mo (à l"IUT,j"ai réduit à 64Mo). Selon la taille d"un fichier, il lui faudra uncertain nombre de blocs. Sur HDFS, le dernier bloc d"un fichier fait
la taille restante. Les blocs d"un même fichier ne sont pas forcément tous sur la même machine. Ils sont copiés chacun sur différentes machines afin d"y accéder simultanément par plusieurs processus. Par défaut, chaque bloc est copié sur 3 machines différentes (c"est configurable). Cette réplication des blocs sur plusieurs machines permet aussi de se prémunir contre les pannes. Chaque fichier se trouve donc en plusieurs exemplaires et à différents endroits.17/64Pierre Nerzic
BigData - Semaine 1
Hadoop File System (HDFS)
Organisation des machines pour HDFS
Un cluster HDFS est constitué de machines jouant différents rôles exclusifs entre eux :L"une des machines est le maître HDFS, appelé lenamenode. Cette machine contient tous les noms et blocs des fichiers, comme un gros annuaire téléphonique.Une autre machine est lesecondary namenode, une sorte de namenodede secours, qui enregistre des sauvegardes de l"annuaire à intervalles réguliers.Certaines machines sont desclients. Ce sont des pointsd"accès au cluster pour s"y connecter et travailler.Toutes les autres machines sont desdatanodes. Elles stockent
les blocs du contenu des fichiers.18/64Pierre NerzicBigData - Semaine 1
Hadoop File System (HDFS)
Un schéma des nodes HDFS
Lesdatanodescontiennent des blocs (A, B, C...), lenamenode sait où sont les fichiers : quels blocs et sur quelsdatanodes.Consulter
cette page p ourdes explications complètes.19/64Pierre Nerzic
BigData - Semaine 1
Hadoop File System (HDFS)
Explications
Lesdatanodescontiennent des blocs. Les mêmes blocs sont dupliqués (replication) sur différentsdatanodes, en général 3 fois.Cela assure :fiabilité des données en cas de panne d"undatanode,accès parallèle par différents processus aux mêmes données.
Lenamenodesait à la fois :sur quels blocs sont contenus les fichiers, sur quelsdatanodesse trouvent les blocs voulus.On appelle cela lesmetadata.
Inconvénient majeur : panne dunamenode= mort de HDFS, c"est pour éviter ça qu"il y a lesecondary namenode. Il archive les metadata, par exemple toutes les heures.20/64Pierre Nerzic
BigData - Semaine 1
Hadoop File System (HDFS)
Modehigh availability
Comme lenamenodeest absolument vital pour HDFS mais unique, Hadoop propose une configuration appeléehigh availabilitydans laquelle il y a 2 autresnamenodesen secours, capables de prendre le relais instantanément en cas de panne dunamenodeinitial. Lesnamenodesde secours se comportent comme des clones. Ils sont en état d"attente et mis à jour en permanence à l"aide de services appelésJournalNodes. Lesnamenodesde secours font également le même travail que le secondary namenode, d"archiver régulièrement l"état des fichiers, donc ils rendent ce dernier inutile.21/64Pierre Nerzic
BigData - Semaine 1
API Java pour HDFS
API Java pour HDFS
22/64Pierre Nerzic
BigData - Semaine 1
API Java pour HDFS
API pour utiliser HDFS en Java
Hadoop propose une API Java complète pour accéder aux fichiersde HDFS. Elle repose sur deux classes principales :FileSystemreprésente l"arbre des fichiers (file system). Cette
classe permet de copier des fichiers locaux vers HDFS (et inversement), renommer, créer et supprimer des fichiers et des dossiersFileStatusgère les informations d"un fichier ou dossier : •taille avecgetLen(), •nature avecisDirectory()etisFile(), Ces deux classes ont besoin de connaître la configuration du cluster HDFS, à l"aide de la classeConfiguration. D"autre part, les noms complets des fichiers sont représentés par la classePath23/64Pierre NerzicBigData - Semaine 1
API Java pour HDFS
Exemple
Voici quelques manipulations sur un fichier :importorg.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoop.fs.Path;Configuration conf =
newConfiguration();
FileSystem fs = FileSystem.get(conf);
Path nomcomplet =
new Path( "/user/etudiant1" "bonjour.txt"FileStatus infos = fs.getFileStatus(nomcomplet);
" octets" fs.rename(nomcomplet, new Path( "/user/etudiant1" "salut.txt" Dans la suite,import ...;correspondra à ces importations.24/64Pierre NerzicBigData - Semaine 1
API Java pour HDFS
Informations sur les fichiers
Exemple complet, afficher la liste des blocs d"un fichier :import...; public classHDFSinfo {
public static void main(String[] args) throwsIOException {
Configuration conf =
newConfiguration();
FileSystem fs = FileSystem.get(conf);
Path nomcomplet =
quotesdbs_dbs21.pdfusesText_27[PDF] hager et 221 mode d'emploi
[PDF] hager et221
[PDF] hager programmateur
[PDF] hager thermostat
[PDF] haiku francais 6eme
[PDF] haiti colonie francaise
[PDF] haiti est un pays agricole
[PDF] haiti pauvreté wikipedia
[PDF] haïti pib par habitant
[PDF] haïti produit intérieur brut
[PDF] haiti statistiques
[PDF] hall 3 gare de lyon
[PDF] halle aux blés paris
[PDF] halle charolais