[PDF] [PDF] Introduction data science - LISIC

Processus en data science Contenu Général A Machine learning : Bases du data scientist regression linéaire, logistique, bayesien naif, etc Les outils avancés



Previous PDF Next PDF





[PDF] Faites de la data science - livre gratuit

apprendrez comment fonctionnent les outils et algorithmes les plus fondamentaux de la data science, en les réalisant à partir de zéro Si vous êtes fort en maths 



[PDF] Introduction data science - LISIC

Processus en data science Contenu Général A Machine learning : Bases du data scientist regression linéaire, logistique, bayesien naif, etc Les outils avancés



[PDF] DATA SCIENTISTS - Data Analytics Post

Boîte à outils d'algos 26 Rendre les données visibles 28 De man of science à scientist 30 L'hybridation des compétences 31 Des data scientists au 



[PDF] Projet tutoré : Data Science - IDMC

tique et de prédiction, le tout avec l'aide de l'outil informatique Nous allons Kaggle[7] est un site internet communautaire basé sur le data science A la fin de la compétition, le classement est bloqué et les récompenses sont distribuées



[PDF] Data Scientist : Les fondamentaux de la Data Science

7 jui 2018 · Vous découvrirez les méthodes et les outils du Data Scientist et partagerez les retours d'expériences des formateurs Des exercices pratiques et 



[PDF] Data Science - Institut luxembourgeois des actuaires

Afin de cerner les enjeux de la Data Science, de mieux comprendre, grâce à des données), ses concepts, les outils utilisés l'Institut Luxembourgeois des



[PDF] Parcours - Data Scientist - OpenClassrooms - HubSpot

Programmer des algorithmes de Machine Learning à l'aide du langage Python Déployer des algorithmes dans le cloud avec les outils du Big Data



[PDF] Gestion et analyse des données massives Introduction - Licence 3

Big Data (en français « déluge des données » ou « données massives »), • Data Science (sciences des données), • Machine Learning (apprentissage), • Artificial  



[PDF] Machine Learning - Outils pour lenseignement

18 oct 2019 · Statistique, Data mining, Machine Learning INFORMATIQUE Maîtriser les outils pour accéder et manipuler les données, développer des 



[PDF] Mémoire présenté devant lUniversité Paris Dauphine pour l

4 Le gradient boosting est un algorithme de machine learning qui repose sur une en se penchant plus finement sur les migrations prédites, cet outil apparait 

[PDF] Introduction_sur_l_i.. - Divorce

[PDF] Introductory Course : propagation overview, antennas design

[PDF] introductory information - Flüchtlingsrat Niedersachsen

[PDF] Introductory note - Ahmed Mahiou, Membre de l`Institut de droit

[PDF] introduisant la nouvelle passerelle pour conseiller - Anciens Et Réunions

[PDF] Introduzione - antenne handicap - Gestion De Projet

[PDF] Introduzione - Vittimologia

[PDF] Intronisation d`André Combalié à Saint-Ferme

[PDF] intronisation d`un nouveau membre - DOQ

[PDF] Introspection de Peter Handke Mise en scène : Michel Vuillermoz - France

[PDF] introToTimeML - Anciens Et Réunions

[PDF] INTRUDER C1500T 49 INTRUDER M1800R/ R2 - Anciens Et Réunions

[PDF] intrusion - ADI

[PDF] Intrusion - Siemens Schweiz AG

[PDF] Intrusion Intrunet SI420 pour une sécurité perfectionnée! - La Technologie Informatique Et

Introduction data science

Data science

Master 2 ISIDIS

S ebastien Verel verel@lisic.univ-littoral.fr http://www-lisic.univ-littoral.fr/ ~verel

Universite du Littoral C^ote d'Opale

Laboratoire LISIC

Equipe OSMOSE

Data scienceData scientistBig dataProcessus en data science

Information

But, evaluation, objectifs, support de cours, bibliographie : cf. siteweb Data scienceData scientistBig dataProcessus en data science

Bibliographie

Le cours et les supports reposent principalement sur ces sources bibliographiques :Data Science : fondamentaux et etudes de cas

Machine Learning avec Python et R

Eric Biernat, Michel Lutz, 2015.

Data scienceData scientistBig dataProcessus en data science

Bibliographie

Big Data et Machine Learning

Manuel du data scientist Pirmin Lemberger, Marc Batty, 2015. Data scienceData scientistBig dataProcessus en data science

Bibliographie

Que les auteurs en soient remercies chaleureusement! Data scienceData scientistBig dataProcessus en data science

Contenu General

A

Machine lea rning:

Bases du data scientist

regression lineaire, logistique, bayesien naif, etc.Les outils avances random forest, gradient boosting, SVM, etc.Concepts generaux grandes dimensions, evaluation de modeles, etc. B

Hado opavec Map-reduce : Systeme HDFS

Map-reduce : exemples de bases

Map-reduce : exemples avances

Framework pig

C NoSQL p ourle big data : Presentation, dierence SQP/noSQL Quelques implementations : Hbase, Sqoop, Hive, etc.

Machine learning en big data (mahout, Mllib)

Data scienceData scientistBig dataProcessus en data science

Resoudre des problemes

ah! resoudre des problemes...

Panne d'une voiture

Connaitre l'opinion sur un sujet dans les reseaux sociaux

Prevoir la consommation electrique

Data scienceData scientistBig dataProcessus en data science

Une denition

Data science

"Demarche empirique qui se base sur des donnees pour apporter une reponse a des problemes" Data science : fondamentaux et etudes de cas, E. Biernat, M.

Lutz, Eyrolles, 2015.

Data scienceData scientistBig dataProcessus en data science

Le metier de Data scientist

Data scientist

Apparu en 2008, DJ. Patil et Je Hammerbacher de Facebook et LinkedIn, ce sont appeles "data scientist"Generalise a partir de 2012 : "Data scientist : The sexiest Job of the 21th Century", T.H. Davenport, DJ. Patil, Harvard Buissiness Review, oct. 2012.R^ole du data scientist gagne en importance dans les entreprises :Augmentation (explosion!) du volume des donnees non structurees (big data)Dans les 10 prochaines annees, prol data scientist sera tres recherche Data scienceData scientistBig dataProcessus en data science

Les competences

On peut aussi aller lire un post de Alex Woodie :

http://www.datanami.com/2015/01/07/ Data scienceData scientistBig dataProcessus en data science

Les jobs

Exercices

Sur google trends : observer l'usage de "data scientist" Rechercher des ores d'empli prols "big data", "business intelligence"...Consulter le referentiel metier de l'apec "data scientist" Data scienceData scientistBig dataProcessus en data science

Big data

Undelugede donneesSource des donnees :

Activite humaine

emails, photos, video, logs, likes, etc.Activite des machines capteurs en tout genre, compteurs en tout genre (electrique, etc.), vehicules, electro-menagerOpen data des institutions, des entreprises horaires, statistiques sur les regions, geolocalisation, etc.open API de twitter, google, etc. http://www.programmableweb.com/Le web! Avertissement, data science ne se reduit pas au big data Data scienceData scientistBig dataProcessus en data science

Big data

Undelugede donneesSource des donnees :

Activite humaine

emails, photos, video, logs, likes, etc.Activite des machines capteurs en tout genre, compteurs en tout genre (electrique, etc.), vehicules, electro-menagerOpen data des institutions, des entreprises horaires, statistiques sur les regions, geolocalisation, etc.open API de twitter, google, etc. http://www.programmableweb.com/Le web! Avertissement, data science ne se reduit pas au big data Data scienceData scientistBig dataProcessus en data science

Causes economiques

Les co^uts baisses exponentiellement

Capacite de stockage

Capacite de calcul

Bande passante

)Emergence de data centers : Google, Amazon, LinkedIn,

Yahoo!, OVH, etc.

Data scienceData scientistBig dataProcessus en data science

How big?

Internet :>10 PoData center :>100 ToDisque dur :10 ToRAM :<100 Go Frontiere big data : lorsque les donnees ne peuvent ^etre traitees en temps "raisonnable" ou "utile"Calculer le temps necessaire pour lire un disque dur de 1 To a

100Mo=s?Attention : donnees6= information

Data scienceData scientistBig dataProcessus en data science

How big?

Internet :>10 PoData center :>100 ToDisque dur :10 ToRAM :<100 Go Frontiere big data : lorsque les donnees ne peuvent ^etre traitees en temps "raisonnable" ou "utile"Calculer le temps necessaire pour lire un disque dur de 1 To a

100Mo=s?Attention : donnees6= information

Data scienceData scientistBig dataProcessus en data science

Les fameux 3V (Gartner)

Schema d'apres "Big data et Machine Learning", Dunod, 2015. Data scienceData scientistBig dataProcessus en data science

Champs d'application

Nombreux champs d'applications actuels et futurs

Tous les domaines de la science :

climat, physique, epidemiologie, medical, etc.En politique

Campagne Obama, etc.Secteur prive :

Relation clients, marketing cible, frequentation, etc.Secteur public : amelioration des services, adaptation aux besoins, etc. Beaucoup de perspectives en vue!Nouveaux besoins, nouveaux outils... Data scienceData scientistBig dataProcessus en data science

Quelques remarques ethiques

Attention aux droits sur les donnees :

a qui appartient les donnees, leur exploitations, etc.Toutes les donnees ont un co^ut

Une donnee peut ^etre juste mais l'analyse fausse

Une analyse de donnees n'est jamais neutre au sens objective!

Une donnee n'est jamais neutre :

Une donnee est recoltee et exploitee dans un but precis Data scienceData scientistBig dataProcessus en data science

Demarche en data science

Demarche globale

1Imaginer un produit, ou une question

2Collecter les donnees

3Preparer les donnees

4Concevoir un modele predictif

5Visualiser les resultats

6Optimiser le modele (calibration)

7Deploiement, industrialisation

Le gros volume de donnees n'est pas une contrainte mais une opportunite! Data scienceData scientistBig dataProcessus en data science

Contenu General

A

Machine lea rning:

Bases du data scientist

regression lineaire, logistique, bayesien naif, etc.Les outils avances random forest, gradient boosting, SVM, etc.Concepts generaux grandes dimensions, evaluation de modeles, etc. B

Hado opavec Map-reduce : Systeme HDFS

Map-reduce : exemples de bases

Map-reduce : exemples avances

Framework pig

C NoSQL p ourle big data : Presentation, dierence SQP/noSQL Quelques implementations : Hbase, Sqoop, Hive, etc.

Machine learning en big data (mahout, Mllib)

quotesdbs_dbs6.pdfusesText_12