[PDF] Lexploration du Big Data par sa visualisation – Application au projet





Previous PDF Next PDF



Big Data et ses technologies

? Hadoop: circa 2006. ? D'où le“Big Data”: pas strictement plus de data Page 16. Big Data - Les applications. Page 17 ...



Master [120] en science des données orientation statistique

Le Master en Science des Données propose une formation en méthodes scientifiques et Le programme de 120 crédits du master en data science orientation ...



Niveau :

Objectifs de la formation et débouchés : ? Objectifs. Avec la vague Big Data l'exploitation des données en entreprise est devenue une véritable source d' 



AU CŒUR DU BIG DATA

L'ENS Paris-Saclay Atos et le CEA ont créé fin 2016 la Chaire « Industrial Data. Analytics & Machine Learning ». La formation



BIG DATA POUR LES SYSTÈMES DINFORMATION/DE

à partir des données est l'objectif principal de l'analyse des Big Data. Centre européen pour le développement de la formation professionnelle (Cedefop) ...



Lexploration du Big Data par sa visualisation – Application au projet

Introduction au Big Data découverte de connaissance à partir de données [document PDF]. Support de cours : Cours « Data Mining »



Plan Big Data - Feuille de route_pour publi vfinale

2 juil. 2014 Curriculum et label « data science ». On définira précisément un curriculum général de formation de data scientists ainsi que de formations ...



MASTER MENTION ÉCONOMIE DE LENTREPRISE ET DES

Page 1 / 6. MASTER MENTION ÉCONOMIE DE L'ENTREPRISE ET DES MARCHÉS PARCOURS BIG DATA ANALYSE ET. BUSINESS INTELLIGENCE. RÉSUMÉ DE LA FORMATION.



Big Data & Analytics en Afrique

Le Big Data & Analytics est déjà une réalité en Afrique . structurées (texte vidéo



DU Analyste Data Science Présentation Programme

Machine Learning » et la « Data Science » pour des professionnels ayant une formation de base en statistique et/ou en informatique de#cisionnelle (bases de 

$SSOLFDWLRQDXSURMHW*(R7ZHHW par

Philippe

travail de Bachelor pour analyse par le logiciel conclusions et recommandations formulées dans le travail de Bachelor, seul

Je tiens à

ire

Mr. Jean

Genève, et Michael Chrusciel, étudiant en

.s pistes disponibles Une multitude de données sont créées grâce à différents outils. laisse une trace digitale. Des données peuvent également être créées passivement

Tout ceci

mondiales ont été créées au cours des deux dernières années. parcourir chaque enregistrement un à un. Il faut pouvoir trou par Twitter.

Déclaration

Remerciements

Résumé

Liste des figures

1. -

1.1 Qui utilise le Big Data

1.1.1 Histoire 1970

1.1.2 Histoire 1980

1.1.3 Histoire 1990

1.1.4 Histoire 2015

1.1.5 Impact sociologique

1.1.6 Les 4 V

1.1.7 Définition

2. Quelles sont les catégories existantes

2.1 Catégorisation générale

2.1.1 Structurée et semi

2.1.2 Non

2.2 Catégorisation IBM

3.

Big Data

3.1 Affichage classique

3.2 Affichage moderne

3.2.1 Carte

3.2.2 Texte

3.2.3 Données

3.2.3.1 Comparaison

3 Entre les instances

3.2.3.1.2 En fonction du temps

3.2.3.2 Distribution

3.2.3.2.1 Une variable

3.2.3.2.2 Deux variables

3.2.3.3 Relation

3.2.3.3.1 Deux variables

3.2.3.3.2 Trois variables

3.2.3.4 Composition

3.2.3.4.1 Statique dans le temps

3.2.3.4.2 Evoluant dans le temps

3.2.3.5 Connexion

3.2.3 Cartographique de fond

3.2.3.7 Animation

3.2.3.8 Infographie

3.2.4 Choisir le bon graphique

3.2.5 Bonnes pratiqu

3.2.6 Erreurs à ne pas commettre

3.2.6.1 Comment fausser un graphique

4. Quelles sont les technologies

5.

5.1 Besoins

5.2 GEoTweet et le Big Data

5.2.1 4 V

5.2.2 Catégorisation IBM

5.3 Interfaces pertinentes

5.3.1 Répartition des langues à Genève

5.3.1.1 Thermique

5.3.1.1.1 Carte

5.3.1.1.2 Classement

5.3.1.1.3 Chronologie

5.3.1.1.4 Rejouer

5.3.1.2 Quartiers

5.3.1.2.1 Carte

5.3.1.2.2 Classement

5.3.1.2.3 Chronologie

5.3.1.2.4 Derniers tweets

5.3.1.2.5 Ecrire un tweet

5.3.2 Rayonnement de Genève dans le monde

5.4 Proposition de vues

5.4.1 Répartition des langues à Genève

5.4.2 Rayonnem

5.5 Choix technologiques

5.6

6. Conclusion

Bibliographie

Figure 1

Figure 2

Figure 3

Figure 4

Figure 5

Figure 6

Figure 7

Figure 8

Figure 9

Figure 10

Figure 11

Figure 12

Figure 13

Figure 14

Figure 15

Figure 16

Figure 17

Figure 18

Figure 19

Figure 20

Figure 21

Figure 22

Figure 23

Figure 24

Figure 25

Figure 26

Figure 27

1.FHTXHOH%LJ'DWD

1.1 1.1.1 Dans les années 1970, les principaux fabricants de produits de grande consommation, Cette dernière expédiait des employés dans plusieurs boutiques réparties dans douze

et les rabais qui y étaient liés. Ces données étaient ensuite transmises aux fabricants et

pro 1.1.2 A la fin des années 1980, la société IRI répandit les scanners de codes onnées récoltées par transformer son modèle économique en se basant sur le Big Data. devenue un modèle économique durable en grande p Sam Walton a partagé ces données en temps rée 1 exiger la (amélioration du rendement) et les promotions à mettre en place. aux fabricants via son serv en adaptant leur stratégie. 1.1.3 t ouverte aux commerces aux e 1.1.4 sociaux, les téléphones portable encore plus rapidement avec le client en se basant sur la géolocalisation et ainsi lui 1 grills si ces derniers sont en

Google, Facebook et Wal

1.1.5 effet, le Big Data est souvent sujets à controverse

Google Trends

recherche en fonction des années

Source

Il est évident que le Big Data est lié à des questions socio

et cette origine partagée conduit à de multiples définitions, ambigües et parfois

par le passé. Dès lors, en quoi le Big Data diffère techniques classiques de traitement des données qui travaillent sur des échantillons plus Figure 1 : Google Trend sur le terme " Big Data » définition apparaît. 1.1.6 Le conseil et de recherche) qui, dans un rapport de 2001, ne faisait aucune mention explicite

Gartner a proposé une déf

trois propriétés permettent néanmoi pour " Véracité ». Cet indice aborde la question concernant l

Volume

Data.

Vélocité

Variété

est possible de catégoriser ces données. Ce point sera détaillé au chapitre

Véracité

Ex : à partir

1.1.7 civilisation et 2010, un. débuté en 2000 avec un tél qui ont été sauvegardés, ce qui é c nous faisons ou entreprenons dans nos vies laisse ou laissera une trace digitale qui 2. Nous avons vu précédemment que le Big Data pouvait être constitué de références onomie, etc. Il est évident que régulièrement. Il faut donc trouver un moyen pertinent pour regrouper les données de 2.1

La plupart des publ

ou externes. David Meer, partenaire à Strategy's consumer et auteur de plusieurs 2.1.1 seront caractérisés par leur

Concernant le semi

sont structurées : auteur, date, position géographique, longueur du mes

Données crées

form ou une étude de marché. L

Données provoquées

Données transactionnelles

achète quelque chose ou cli rendu compte il y a quelques années que la vente de transactionnelles sont généralement structurées et internes.

Données compilées

se chargeront de les analyser. Les données c

Données expérimentales

e monde réel mieux 2.1.2

Les données de type non

aucune limite et que quasiment toutes les données récoltées sont utilisables.

Données capturées

Facebook, Tweets, vidéos mises en ligne sur YouTube et commentaires 2.2

IBM, qui a déjà démontré son intérêt pour le Big Data au travers de sa définition des 4 V

Les 4 V) requerra une analyse en temps réel, alors que des données de

Méthodologie de traitement

prédictive, analytique, requêtes ad hoc ou rapports

Fréquence des données et taille

données : o o o

Type de données

Format du contenu

Source des données -

o o o o o o o o

Client des données

o o e moyen des o des chiffres de statistiques de vente o o : visites). o

Matériel

matériel peut

Source

Figure 2 : Classification du Big Data selon IBM

3.

SRXUYLVXDOLVHUOHV%LJ'DWD

peut

à comprendre les informations véhiculées et les idées qui en découlent. Selon

de Big Data, le for 3.1 Traditionnellement, les rapports analysant les Big Data utilisent différents types de

Diagramme circulaire

Graphe à barres

Graphique en courbe

La visualisation de données au travers de graphiques ne leurs octroient pas uniquement breuses

Source

Actuellement, à cause de la quantité énorme de données, une feuille de calcul ne permet Figure 3 : Feuille de calcul représentant des statistiques de ventes

Source

Les données affiché

Au contraire,

trop de segments le rendent illisible. Les données sont bien plus rapidement est plus rapide de se horizontales si celles

Figure 4 :

Source

Placées côte à côte, il devient facile de savoir quel 3.2 ent n

Figure 5 : Graphe à barres des ventes

3.2.1 Une carte fournit déjà une forte représentation visuelle. Le gain en termes plusieurs décimales à

Source

géographiques pures et les données plus complexes liées à des coordonnées. Cette

Source

Figure 6 : Carte avec de simples points

géographiques

Figure 7 : NYC Crime Map

3.2.2 La visualisation de mots la plus courante passe au travers de nuages de mots. Un amas a notre produit ou compagnie et offre un moyen rap s t domineraient le nuage.

Source

3.2.3 fasse sens sans être ui existe entre les données : Figure 8 : Nuage de mot du discours prononcé par Obama lors de sa victoire aux élections de 2008

3.2.3.1

Le principal critère pour choisir un graphique qui doit effectuer une comparaison dépend représent

3.2.3.1.1

Graphique en colonne

sement entre les

Source

variables en même temps pour autant que ces variables partagent le même axe des X ison de villes en fonction de leur population, millio

Figure 9 : Graphique en colonne

Graphique à barres horizontales

colonned de cinquante villes.

Graphique en colonnes

De plus, la chronologie sur laquelle les données sont réparties ne doit pas être trop tailles égales rupture da variables, pour autant que les axes des X et Y soient identiques.

Source

3.2.3.2

Une distribution est un jeu de données possédant une seule instance et une ou plus

Figure 10 : Graphique à lignes

Ex : millimètres de pluies par mois à Londres.

Histogramme à ligne

seul un

Source

Figure 11 : Histogramme

3.2.3.2.2

Nuage de points

précision du graphique. critère.

Source

3.2.3.3

Il existe deux graphiques pour visualiser la relation entre des variables. Une relation

3.2.3.3.1

Nuage de points

Figure 12 : Nuage de points

3.2.3.3.2

Graphique à bulles

s

Source

3.2.3.4

Une composition représente un

3.2.3.4.1

Diagramme circulaire

partie forme un cercle complet. Nous avons déjà vu précédemment que les diagrammes variables.

Figure 13 : Nuage de points

3.2.3.4.2

Diagramme de zone

Source

Figure 14 : Diagramme de zones empilées

3.2.3.5

Le Big Data a ouvert un nouveau type de lien entre les données : la connexion. En effet, compréhensible pour voir où un rapport existe.

Source

Figure 15 : Regroupement en cercles

s accord les instances entre

Source

s

Figure 16 :

3.2.3.6

Ce t

Source : DEMAJ Damien, 26

Figure 17 : Cartographie de fond

3.2.3.7

Les animations ne sont pas un type de graphique à part entière, mais une propriété de

Source

Figure 18 : Animation des vents

3.2.3.8

propre

Source

Figure 19 : Infographie de la politique américaine 3.2.4

Les pistes ci

Abela, professeur de marketing

s ne sont pas forcémen

Source

Figure 20 : Quel graphique choisir

3.2.5 C

Exploration

Explicatio

o o non 3.2.6 Il y a également des choses communes à tous les Underwood, analyste de marchés chez Microsoft, a créé une liste des erreurs les plus

Varier les tableaux simplement pour les varier

Design pauvre

Insérer des données erronées

Placement et ordre inconsistant

Echelles inconsistantes ou inversées

Echelles des axes proportionnelles

3.2.6.1

où chaque courbe représente une récession passée. L

Source

Figure 21 :

Figure 22 :

Relevons que

Axe vertical

a chute de la courbe.

Valeurs absolues -

Contexte réduit

fait que ces deux récessions

Source

Figure 23 : Graphique manipulé présent sur le site du parti

Républicain

4. Il existe des technologies pour visualiser le Big Data qui sont orientées métier, comme données semi graphique graphiques différents que de données. (nucléaire, pét c

Source

Cet exemple démontre clairement à quel point les technologies web ont diversifié les

Figure 24 : Diagramme de Sankey

5. 5.1 Twitter, avec ses 500 millions de tweets quotidiens, est un outil de choix pour observer eur du ce thème au travers des possibilités offertes par Twitter. Un outil mis en place par ur le territoire du Grand

deux directions ont été définies. Premièrement, pouvoir observer la répartition des

5.2 projet GEoTweet par rapport aux aspects théoriques étudiés au début de ce document. 5.2.1 st expliqué au début

Volume

peut être considéré comme

Vélocité

manqué, qui se trouve être en

Variété

Véracité

Ex : il y a cinquante tweets par jour ayant comme hashtag #météo à Versoix. Il serait en par une station météo De plus, les interfaces choisies travailleront essentiellement avec la géolocalisation doit avoir activé la géolocalisation dans les paramètres de

28'000 tweets hebdomadaires sur Genève. Malgré le fait que les données soient pures,

n sur lequel nous travaillons représente 5.2.2 avec plus de précisions capturé en streaming, mais il pourra être ajouté à un graphique en différé en dans la p

Méthodologie de traitement

Ex : on prend toutes les coordonnées géographiques pour les disposer sur une

Fréquence des données et taille

Type de données

o o

Format du contenu -

Source des données

Client des données

potentiellement Twitter ou du moins connaissent la plateforme. 5.3 Les g visite. Il 5.3.1 sous

5.3.1.1

ns poser

5.3.1.1.1

visuel de des coordonnées géographiques disponibles parmi toutes celles qui ont été récoltées et un tweets en français seraient affichées en rouge alors que les tweets sporadiques le savoir à combien de tweets correspond le rouge ou le vert puisque nous nous adressons Un clic sur une agglomération de points géographiques afficherait une fenêtre exactement ce que nous recherchons comme effet dans le cadre de notre expos Exemple : un amas de tweets se forme à un endroit de la carte, un clic dessus nous

Il serait possible d

uniquement, en ignorant au passage les déterminants, etc.

5.3.1.1.2

Il est pertinent de connaître les langues principales utilisées globalement au niveau du premières suffiraient amplement avec une catégorisation " autres » pour le reste. Cettequotesdbs_dbs50.pdfusesText_50
[PDF] big data pdf en francais

[PDF] big data pour les nuls pdf

[PDF] big data tutorial pdf

[PDF] bilan admission post bac lyon

[PDF] bilan apb 2016

[PDF] bilan arjel 2016

[PDF] bilan biochimique sang

[PDF] bilan biochimique sang pdf

[PDF] bilan cm2 systeme solaire

[PDF] bilan comptable marocain excel

[PDF] bilan comptable marocain exemple

[PDF] bilan comptable marocain exercice corrigé

[PDF] bilan dune macrocytose

[PDF] bilan de cycle eps

[PDF] bilan des omd en afrique