Big Data et ses technologies
? Hadoop: circa 2006. ? D'où le“Big Data”: pas strictement plus de data Page 16. Big Data - Les applications. Page 17 ...
Master [120] en science des données orientation statistique
Le Master en Science des Données propose une formation en méthodes scientifiques et Le programme de 120 crédits du master en data science orientation ...
Niveau :
Objectifs de la formation et débouchés : ? Objectifs. Avec la vague Big Data l'exploitation des données en entreprise est devenue une véritable source d'
AU CŒUR DU BIG DATA
L'ENS Paris-Saclay Atos et le CEA ont créé fin 2016 la Chaire « Industrial Data. Analytics & Machine Learning ». La formation
BIG DATA POUR LES SYSTÈMES DINFORMATION/DE
à partir des données est l'objectif principal de l'analyse des Big Data. Centre européen pour le développement de la formation professionnelle (Cedefop) ...
Lexploration du Big Data par sa visualisation – Application au projet
Introduction au Big Data découverte de connaissance à partir de données [document PDF]. Support de cours : Cours « Data Mining »
Plan Big Data - Feuille de route_pour publi vfinale
2 juil. 2014 Curriculum et label « data science ». On définira précisément un curriculum général de formation de data scientists ainsi que de formations ...
MASTER MENTION ÉCONOMIE DE LENTREPRISE ET DES
Page 1 / 6. MASTER MENTION ÉCONOMIE DE L'ENTREPRISE ET DES MARCHÉS PARCOURS BIG DATA ANALYSE ET. BUSINESS INTELLIGENCE. RÉSUMÉ DE LA FORMATION.
Big Data & Analytics en Afrique
Le Big Data & Analytics est déjà une réalité en Afrique . structurées (texte vidéo
DU Analyste Data Science Présentation Programme
Machine Learning » et la « Data Science » pour des professionnels ayant une formation de base en statistique et/ou en informatique de#cisionnelle (bases de
Philippe
travail de Bachelor pour analyse par le logiciel conclusions et recommandations formulées dans le travail de Bachelor, seulJe tiens à
ireMr. Jean
Genève, et Michael Chrusciel, étudiant en
.s pistes disponibles Une multitude de données sont créées grâce à différents outils. laisse une trace digitale. Des données peuvent également être créées passivementTout ceci
mondiales ont été créées au cours des deux dernières années. parcourir chaque enregistrement un à un. Il faut pouvoir trou par Twitter.Déclaration
Remerciements
Résumé
Liste des figures
1. -1.1 Qui utilise le Big Data
1.1.1 Histoire 1970
1.1.2 Histoire 1980
1.1.3 Histoire 1990
1.1.4 Histoire 2015
1.1.5 Impact sociologique
1.1.6 Les 4 V
1.1.7 Définition
2. Quelles sont les catégories existantes
2.1 Catégorisation générale
2.1.1 Structurée et semi
2.1.2 Non
2.2 Catégorisation IBM
3.Big Data
3.1 Affichage classique
3.2 Affichage moderne
3.2.1 Carte
3.2.2 Texte
3.2.3 Données
3.2.3.1 Comparaison
3 Entre les instances
3.2.3.1.2 En fonction du temps
3.2.3.2 Distribution
3.2.3.2.1 Une variable
3.2.3.2.2 Deux variables
3.2.3.3 Relation
3.2.3.3.1 Deux variables
3.2.3.3.2 Trois variables
3.2.3.4 Composition
3.2.3.4.1 Statique dans le temps
3.2.3.4.2 Evoluant dans le temps
3.2.3.5 Connexion
3.2.3 Cartographique de fond
3.2.3.7 Animation
3.2.3.8 Infographie
3.2.4 Choisir le bon graphique
3.2.5 Bonnes pratiqu
3.2.6 Erreurs à ne pas commettre
3.2.6.1 Comment fausser un graphique
4. Quelles sont les technologies
5.5.1 Besoins
5.2 GEoTweet et le Big Data
5.2.1 4 V
5.2.2 Catégorisation IBM
5.3 Interfaces pertinentes
5.3.1 Répartition des langues à Genève
5.3.1.1 Thermique
5.3.1.1.1 Carte
5.3.1.1.2 Classement
5.3.1.1.3 Chronologie
5.3.1.1.4 Rejouer
5.3.1.2 Quartiers
5.3.1.2.1 Carte
5.3.1.2.2 Classement
5.3.1.2.3 Chronologie
5.3.1.2.4 Derniers tweets
5.3.1.2.5 Ecrire un tweet
5.3.2 Rayonnement de Genève dans le monde
5.4 Proposition de vues
5.4.1 Répartition des langues à Genève
5.4.2 Rayonnem
5.5 Choix technologiques
5.66. Conclusion
Bibliographie
Figure 1
Figure 2
Figure 3
Figure 4
Figure 5
Figure 6
Figure 7
Figure 8
Figure 9
Figure 10
Figure 11
Figure 12
Figure 13
Figure 14
Figure 15
Figure 16
Figure 17
Figure 18
Figure 19
Figure 20
Figure 21
Figure 22
Figure 23
Figure 24
Figure 25
Figure 26
Figure 27
1.FHTXHOH%LJ'DWD
1.1 1.1.1 Dans les années 1970, les principaux fabricants de produits de grande consommation, Cette dernière expédiait des employés dans plusieurs boutiques réparties dans douzeet les rabais qui y étaient liés. Ces données étaient ensuite transmises aux fabricants et
pro 1.1.2 A la fin des années 1980, la société IRI répandit les scanners de codes onnées récoltées par transformer son modèle économique en se basant sur le Big Data. devenue un modèle économique durable en grande p Sam Walton a partagé ces données en temps rée 1 exiger la (amélioration du rendement) et les promotions à mettre en place. aux fabricants via son serv en adaptant leur stratégie. 1.1.3 t ouverte aux commerces aux e 1.1.4 sociaux, les téléphones portable encore plus rapidement avec le client en se basant sur la géolocalisation et ainsi lui 1 grills si ces derniers sont enGoogle, Facebook et Wal
1.1.5 effet, le Big Data est souvent sujets à controverseGoogle Trends
recherche en fonction des annéesSource
Il est évident que le Big Data est lié à des questions socioet cette origine partagée conduit à de multiples définitions, ambigües et parfois
par le passé. Dès lors, en quoi le Big Data diffère techniques classiques de traitement des données qui travaillent sur des échantillons plus Figure 1 : Google Trend sur le terme " Big Data » définition apparaît. 1.1.6 Le conseil et de recherche) qui, dans un rapport de 2001, ne faisait aucune mention expliciteGartner a proposé une déf
trois propriétés permettent néanmoi pour " Véracité ». Cet indice aborde la question concernant lVolume
Data.Vélocité
Variété
est possible de catégoriser ces données. Ce point sera détaillé au chapitreVéracité
Ex : à partir
1.1.7 civilisation et 2010, un. débuté en 2000 avec un tél qui ont été sauvegardés, ce qui é c nous faisons ou entreprenons dans nos vies laisse ou laissera une trace digitale qui 2. Nous avons vu précédemment que le Big Data pouvait être constitué de références onomie, etc. Il est évident que régulièrement. Il faut donc trouver un moyen pertinent pour regrouper les données de 2.1La plupart des publ
ou externes. David Meer, partenaire à Strategy's consumer et auteur de plusieurs 2.1.1 seront caractérisés par leurConcernant le semi
sont structurées : auteur, date, position géographique, longueur du mesDonnées crées
form ou une étude de marché. LDonnées provoquées
Données transactionnelles
achète quelque chose ou cli rendu compte il y a quelques années que la vente de transactionnelles sont généralement structurées et internes.Données compilées
se chargeront de les analyser. Les données cDonnées expérimentales
e monde réel mieux 2.1.2Les données de type non
aucune limite et que quasiment toutes les données récoltées sont utilisables.Données capturées
Facebook, Tweets, vidéos mises en ligne sur YouTube et commentaires 2.2IBM, qui a déjà démontré son intérêt pour le Big Data au travers de sa définition des 4 V
Les 4 V) requerra une analyse en temps réel, alors que des données deMéthodologie de traitement
prédictive, analytique, requêtes ad hoc ou rapportsFréquence des données et taille
données : o o oType de données
Format du contenu
Source des données -
o o o o o o o oClient des données
o o e moyen des o des chiffres de statistiques de vente o o : visites). oMatériel
matériel peutSource
Figure 2 : Classification du Big Data selon IBM
3.SRXUYLVXDOLVHUOHV%LJ'DWD
peutà comprendre les informations véhiculées et les idées qui en découlent. Selon
de Big Data, le for 3.1 Traditionnellement, les rapports analysant les Big Data utilisent différents types deDiagramme circulaire
Graphe à barres
Graphique en courbe
La visualisation de données au travers de graphiques ne leurs octroient pas uniquement breusesSource
Actuellement, à cause de la quantité énorme de données, une feuille de calcul ne permet Figure 3 : Feuille de calcul représentant des statistiques de ventesSource
Les données affiché
Au contraire,
trop de segments le rendent illisible. Les données sont bien plus rapidement est plus rapide de se horizontales si cellesFigure 4 :
Source
Placées côte à côte, il devient facile de savoir quel 3.2 ent nFigure 5 : Graphe à barres des ventes
3.2.1 Une carte fournit déjà une forte représentation visuelle. Le gain en termes plusieurs décimales àSource
géographiques pures et les données plus complexes liées à des coordonnées. CetteSource
Figure 6 : Carte avec de simples points
géographiquesFigure 7 : NYC Crime Map
3.2.2 La visualisation de mots la plus courante passe au travers de nuages de mots. Un amas a notre produit ou compagnie et offre un moyen rap s t domineraient le nuage.Source
3.2.3 fasse sens sans être ui existe entre les données : Figure 8 : Nuage de mot du discours prononcé par Obama lors de sa victoire aux élections de 20083.2.3.1
Le principal critère pour choisir un graphique qui doit effectuer une comparaison dépend représent3.2.3.1.1
Graphique en colonne
sement entre lesSource
variables en même temps pour autant que ces variables partagent le même axe des X ison de villes en fonction de leur population, millioFigure 9 : Graphique en colonne
Graphique à barres horizontales
colonned de cinquante villes.Graphique en colonnes
De plus, la chronologie sur laquelle les données sont réparties ne doit pas être trop tailles égales rupture da variables, pour autant que les axes des X et Y soient identiques.Source
3.2.3.2
Une distribution est un jeu de données possédant une seule instance et une ou plusFigure 10 : Graphique à lignes
Ex : millimètres de pluies par mois à Londres.Histogramme à ligne
seul unSource
Figure 11 : Histogramme
3.2.3.2.2
Nuage de points
précision du graphique. critère.Source
3.2.3.3
Il existe deux graphiques pour visualiser la relation entre des variables. Une relation3.2.3.3.1
Nuage de points
Figure 12 : Nuage de points
3.2.3.3.2
Graphique à bulles
sSource
3.2.3.4
Une composition représente un
3.2.3.4.1
Diagramme circulaire
partie forme un cercle complet. Nous avons déjà vu précédemment que les diagrammes variables.Figure 13 : Nuage de points
3.2.3.4.2
Diagramme de zone
Source
Figure 14 : Diagramme de zones empilées
3.2.3.5
Le Big Data a ouvert un nouveau type de lien entre les données : la connexion. En effet, compréhensible pour voir où un rapport existe.Source
Figure 15 : Regroupement en cercles
s accord les instances entreSource
sFigure 16 :
3.2.3.6
Ce tSource : DEMAJ Damien, 26
Figure 17 : Cartographie de fond
3.2.3.7
Les animations ne sont pas un type de graphique à part entière, mais une propriété deSource
Figure 18 : Animation des vents
3.2.3.8
propreSource
Figure 19 : Infographie de la politique américaine 3.2.4Les pistes ci
Abela, professeur de marketing
s ne sont pas forcémenSource
Figure 20 : Quel graphique choisir
3.2.5 CExploration
Explicatio
o o non 3.2.6 Il y a également des choses communes à tous les Underwood, analyste de marchés chez Microsoft, a créé une liste des erreurs les plusVarier les tableaux simplement pour les varier
Design pauvre
Insérer des données erronées
Placement et ordre inconsistant
Echelles inconsistantes ou inversées
Echelles des axes proportionnelles
3.2.6.1
où chaque courbe représente une récession passée. LSource
Figure 21 :
Figure 22 :
Relevons que
Axe vertical
a chute de la courbe.Valeurs absolues -
Contexte réduit
fait que ces deux récessionsSource
Figure 23 : Graphique manipulé présent sur le site du partiRépublicain
4. Il existe des technologies pour visualiser le Big Data qui sont orientées métier, comme données semi graphique graphiques différents que de données. (nucléaire, pét cSource
Cet exemple démontre clairement à quel point les technologies web ont diversifié lesFigure 24 : Diagramme de Sankey
5. 5.1 Twitter, avec ses 500 millions de tweets quotidiens, est un outil de choix pour observer eur du ce thème au travers des possibilités offertes par Twitter. Un outil mis en place par ur le territoire du Granddeux directions ont été définies. Premièrement, pouvoir observer la répartition des
5.2 projet GEoTweet par rapport aux aspects théoriques étudiés au début de ce document. 5.2.1 st expliqué au débutVolume
peut être considéré commeVélocité
manqué, qui se trouve être enVariété
Véracité
Ex : il y a cinquante tweets par jour ayant comme hashtag #météo à Versoix. Il serait en par une station météo De plus, les interfaces choisies travailleront essentiellement avec la géolocalisation doit avoir activé la géolocalisation dans les paramètres de28'000 tweets hebdomadaires sur Genève. Malgré le fait que les données soient pures,
n sur lequel nous travaillons représente 5.2.2 avec plus de précisions capturé en streaming, mais il pourra être ajouté à un graphique en différé en dans la pMéthodologie de traitement
Ex : on prend toutes les coordonnées géographiques pour les disposer sur uneFréquence des données et taille
Type de données
o oFormat du contenu -
Source des données
Client des données
potentiellement Twitter ou du moins connaissent la plateforme. 5.3 Les g visite. Il 5.3.1 sous5.3.1.1
ns poser5.3.1.1.1
visuel de des coordonnées géographiques disponibles parmi toutes celles qui ont été récoltées et un tweets en français seraient affichées en rouge alors que les tweets sporadiques le savoir à combien de tweets correspond le rouge ou le vert puisque nous nous adressons Un clic sur une agglomération de points géographiques afficherait une fenêtre exactement ce que nous recherchons comme effet dans le cadre de notre expos Exemple : un amas de tweets se forme à un endroit de la carte, un clic dessus nousIl serait possible d
uniquement, en ignorant au passage les déterminants, etc.5.3.1.1.2
Il est pertinent de connaître les langues principales utilisées globalement au niveau du premières suffiraient amplement avec une catégorisation " autres » pour le reste. Cettequotesdbs_dbs50.pdfusesText_50[PDF] big data pour les nuls pdf
[PDF] big data tutorial pdf
[PDF] bilan admission post bac lyon
[PDF] bilan apb 2016
[PDF] bilan arjel 2016
[PDF] bilan biochimique sang
[PDF] bilan biochimique sang pdf
[PDF] bilan cm2 systeme solaire
[PDF] bilan comptable marocain excel
[PDF] bilan comptable marocain exemple
[PDF] bilan comptable marocain exercice corrigé
[PDF] bilan dune macrocytose
[PDF] bilan de cycle eps
[PDF] bilan des omd en afrique