[PDF] Bases du data scientist - LISIC





Previous PDF Next PDF



Bases du data scientist - Data science Master 2 ISIDIS

Ce cours repose principalement sur ce livre : Data Science : fondamentaux et études de cas. Machine Learning avec Python et R. Eric Biernat Michel Lutz



Bases du data scientist - Data science Master 2 ISIDIS

Ce cours repose principalement sur ce livre : Data Science : fondamentaux et études de cas. Machine Learning avec Python et R. Eric Biernat Michel Lutz



Introduction data science - Data science Master 2 ISIDIS

A Machine learning (F. Teytaud 15h) : Bases du data scientist regression linéaire



Introduction data science - Data science Master 2 ISIDIS

Rechercher des offres d'empli profils ”big data” ”business intelligence” Consulter le référentiel métier de l'apec ”data scientist”. Page 12. Data science.



Introduction à NoSQL - Data science Master 2 ISIDIS

Data science. Master 2 ISIDIS ”A relationnel Model of Data for Large Shared Data Banks” ... Syst`eme de gestion de données basé sur GFS : BigTable.



Projet Data Science

15 janv. 2016 Projet Data Science. Master 2 ISiDIS 2015 / 2016 ... ce projet est de mettre en œuvre la démarche d'un data scientist qui doit analyser un.



Les survivants du Titanic

Master 2 ISiDIS et Michel Lutz ”Data Science : fondamentaux et études de cas. ... un mod`ele rapide `a concevoir qui sert de base de comparaison aux.



Moon Landing at 50: The Impact of UT Geology on Apollo and Beyond

1 janv. 2020 scientists at the Institute for Geophysics ... geosciences graduate students for ... their brains using CT-imaging data of two elephant.



GAC®-MAC 2021 :: London Canada

1 nov. 2021 applied to mineral data reveal striking temporal and ... and scientists NWMO is working to ensure that this combined knowledge contributes ...



From Cave Man to Cave Martian From Cave Man to Cave Martian

17 oct. 2017 This book is dedicated to all those scientists and students who ... Someday there will be real data for caves in the Moon and Mars



Bases du data scientist - LISIC

Ce cours repose principalement sur ce livre : Data Science : fondamentaux et etudes de cas Machine Learning avec Python et R Eric Biernat Michel Lutz Eyrolles 2015 Que les auteurs en soient remerci es chaleureusement! Les donn ees Machine learning Algorithmes de r egression Algorithmes de classi cation



Introduction data science

Bases du data scientist regression lin eaire logistique bayesien naif etc Les outils avanc es random forest gradient boosting SVM etc Concepts g en eraux grandes dimensions evaluation de mod eles etc BHadoop avec Map-reduce : Syst eme HDFS Map-reduce : exemples de bases Map-reduce : exemples avanc es Framework pig CNoSQL pour le big



Data Science - Master of Science (MS) - catalogcoloradoedu

2 Data Science - Master of Science (MS) determined by the graduate committee upon a review of the student’s prior experience Potential Additional Curriculum The graduate committee may require students in this pathway to complete one or more of the following courses (up to 7 credits) Courses



MASTER DATA SCIENCE - Centrale Lille

This Master program in 2y aims at preparing high level scientist for research in a laboratory possibly by pursuing a PhD program in data science machine learning signal processing etc or in a company as a research engineer All classes are given in English so that foreign students are welcome



DATA SCIENTIST MASTER’S PROGRAM - Simplilearn

Gain an in-depth understanding of Data Science processes data wrangling data exploration data visualization hypothesis building and testing You will also learn the basics of statistics Install the required Python environment and other auxiliary tools and libraries



The role of the Data Scientist within Smart Cities - IEEE

data scientist is based on this analyzed information 2 1 1The Data Scientist from the scientific community standpoint Figure 1 shows the different main ideas and concepts regarding the data scientist profession Each concept (blue globe) is associated with an author or authors and the

Bases du data scientist - LISIC

Bases du data scientist

Data science

Master 2 ISIDIS

S ebastien Verel verel@lisic.univ-littoral.fr http://www-lisic.univ-littoral.fr/ ~verel

Universite du Littoral C^ote d'Opale

Laboratoire LISIC

Equipe OSMOSE

Bibliographie

Ce cours repose principalement sur ce livre :

Data Science : fondamentaux et etudes de cas

Machine Learning avec Python et R

Eric Biernat, Michel Lutz,

Eyrolles, 2015.

Que les auteurs en soient remercies chaleureusement!

Une denition

Data science

"Demarche empirique qui se base sur des donnees pour apporter une reponse a des problemes" Data science : fondamentaux et etudes de cas, E. Biernat, M.

Lutz, Eyrolles, 2015.Remarque

Il faut des donnees!

Accessibilite juridique, technique, materielle

Une denition

Data science

"Demarche empirique qui se base sur des donnees pour apporter une reponse a des problemes" Data science : fondamentaux et etudes de cas, E. Biernat, M.

Lutz, Eyrolles, 2015.Remarque

Il faut des donnees!

Accessibilite juridique, technique, materielle

Donnees

Denition

"Le resultat d'une observation faite sur une population ou sur un echantillon"

Statistique, dictionnaire encyclopedique, Springer (Dodge, 2007)Une donnee est unnombre, ou unecaracteristiquequi apporte

uneinformationsur un individus, un objet ou une observationExemple

Florian : "J'ai 10 ans"

Variable

Lien entre une variable et des donnees :

Le nombre/caracteristique varie avec les individus/objets

Notations :VariableXjpour les individus/objets/observationsi:Xij.VariableXagepour les individus 1;2;::::X1age;X2age;:::

Type de donnees

Donneequantitative

quantite mesurable, repond au "combien?" calculs possibles (moyenne, etc.),

comparaisons (egalite, dierence, inf/superieure)Continues :2IRDiscretes : nombre de valeurs "limitees"

DonneesQualitative

qualite ou caracteristiques repond a la "categorie"Nominale (categorielle) couleur des yeux comparaison (egalite / dierence)Ordinale

Possede un ordre (degre a un test d'opinion etc.)

comparaison superieure / inferieure possible

Representation matricielle des donnees

Plusieurs variablesX1;X2;:::;Xjpourjde 1 an

peuvent decrire un m^eme individus/objet/observation.

Grand nombre d'individuside 1 am.

La valeur de la variablejsur un individusise notexijX=0 B @x

11x1n.........

x m1xmn1 C A

Apprentissage automatique (Machine Learning)

Denition informelle

Etude et conception de systemes (methodes executees par une machine) qui sont capables d'apprendre a partir de donnees.Exemple un systeme qui distinguent les courriels spam et non-spam.

Apprentissage automatique (Machine Learning)

E: l'ensemble de toutes les t^aches possibles.

S: un systeme (une machine)Denition un peu plus formelle [T.M. Mitchell, 1997]

TE: ensemble de taches appeletraining set

P:S E!IR: mesure de performance d'un syst. sur des t^aches.

Un systemeSapprendlo rsd'une exp erienceExp si

la performance deSsur les tachesT, mesuree parP, s'ameliore.

P(Savant Exp;T)P(Sapres Exp;T)Exemple

Taches T : Classier des emails recus durant une journee Performance P : Taux de rejet correct des spams parS Experience Exp : 1 semaine exposition aux courriels d'un utilisateur

Types d'apprentissage

Apprentissage supervise :

Apprentissage sur un ensemble d'exemples etiquetes : (xi;yi)Apprentissage non supervise : Apprentissage sur un ensemble d'exemples non etiquetes (cf. clustering) x iApprentissage semi-supervise : Apprentissage sur un ensemble d'exemples etiquetes / non etiquetesApprentissage par renforcement : Apprentissage ou les actions sur l'environnement se mesurent par une recompense...

Types d'apprentissage

Apprentissage supervise :

Apprentissage sur un ensemble d'exemples etiquetes : (xi;yi)Apprentissage non supervise : Apprentissage sur un ensemble d'exemples non etiquetes (cf. clustering) x iApprentissage semi-supervise : Apprentissage sur un ensemble d'exemples etiquetes / non etiquetesApprentissage par renforcement : Apprentissage ou les actions sur l'environnement se mesurent par une recompense...

Typologie des problemes

Regression : (xi;yi) avecyi2IRClassication : (xi;yi) avecyiquelques valeurs possibles

Liste des algorithmes

Regression lineaire univariee (fait?)

Regression lineaire multivariee (fait?)

Regression polynomiale

Regression regularisee

Naive Bayes

Regression logistique

Clustering (fait en partie)

Arbres de decision (fait)

Regression lineaire univariee

Denition de la fonction hypothese

hypotheseh valeur d'entreex!valeur de sortiey

Dans le cas de la regression lineaire univariee :

h(X) =0+1XTrouver le couple (0;1) tel queh(X) soit le plus proche deYErreur d'approximation

J(0;1) =12mm

X i=1(h(xi)yi)2Descente de gradient :j:=j@@ jJ(0;1)

Exercice

A partir du jeu de donneecarsfournis dans R,Realiser l'analyse de statistique descriptive de la vitesse et la

distance d'arr^et (mean, distribution, etc.).Calculer le modele lineaire entre la vitesse et la distance

d'arr^etTracer la droite de regression lineaire.

Regression lineaire multivariee

Denition de la fonction hypothese

hypotheseh valeur d'entreex!valeur de sortiey Dans le cas de la regression lineaire multivariee : h(X) =0+1X1+2X2+:::+nXnErreur d'approximation

J(0;1) =12mm

X i=1(h(xi)yi)2Descente de gradient :j:=j@@ jJ(0;1) Normalisation (scaling) : par centrage reduction, ou entre 0 et 1

Exercice

A partir des jeux de donnee contenu dansdata02.zip,Realiser l'analyse de statistique descriptive

Calculer le modele multilineaire

Regression polynomiale

Denition de la fonction hypothese

Dans le cas de la regression lineaire polynomiale : h(X) =0+1X1+2X2+3X21+4X22Erreur d'approximation

J() =12mm

X i=1(h(xi)yi)2Descente de gradient :j:=j@J@ j()

Exercice

A partir du jeu de donneecarsfournis dans R,Calculer une regression polynomiale de degre 2.

Tracer la droite de regression lineaire.

model <- lm(distpoly(speed, 2, raw = TRUE), data = cars) model <- lm(distspeed + I(speed2), data = cars) lines(cars$speed, predict(model, cars))

Les erreurs

Relation entre erreurs

Erreur d'apprentissage : taux d'erreur sur l'ensemble des exemples d'apprentissageErreur "vraie" : erreur sur l'ensemble de tous les exemples possibles

Sur-apprentissage

Exces d'apprentissage

Sur-specialisation du modele sur l'ensemble d'entrainement )Perte de capacite de generalisation

Apprentissage "par coeur"

Exemple de mesure de complexite : degre du polyn^ome

Sur-apprentissage : compromis biais-variance

Erreur due aubiais:

dierence entre la prediction du modele et la valeur correcte.Erreur due a lavariance: la variabilite d'une prediction de modele pour un pointx de donneeSource Scott Fortmann-Roe : excellent billet

Evaluation d'un modele d'apprentissage

Technique

Partitionner l'ensemble des exemples en :

un ensemble d'apprentissage (70%)un ensembleindependantde test (30%) Le taux d'erreur est estime (sans biais) sur l'ensemble de test.Inconvenient

Requiert un nombre important d'exemples

Dilemme :

Plus on met d'exemples dans le test, plus l'estimation est precisePlus on met d'exemples dans l'apprentissage, meilleur est le modele (a priori)

Methode de re-echantillonnage

Permet d'estimer l'erreur de generalisation.

K-folds cross-validationPartitionner aleatoirement l'echantillon enKblocs

Pour chaque block,

Construire le modele sur lesk1 autres blocs

Calculer l'erreur en testeksur le blockk

Calculer l'erreur moyenne des erreursekAutres techniques :

Leave-one-out (K=n)Bootstrap, bagging, etc.

Exercice : sur-apprentissage

x <- 1:10 y <- x + c(-0.5, 0.5) plot(x, y) Calculer trois regressions avec des polyn^omes de degre 1, 3 et 9. Tracer les regressions obtenues en utilisant en abscisse le vecteur z <- seq(1, 10, length.out = 250) Recommencer les regression avec des donnees legerement modiees : x <- c(1:10, 10:15) y <- x + c(-0.5, 0.5)

Conclure.

Selection de modeles

Comment selectionner un modele parmi un ensemble possible de modeles?Sub-diviser l'ensemble d'apprentissage en ensemble d'apprentissage et de validationEntrainer les dierents modeles sur le nouvel ensemble d'apprentissageUtiliser une mesure de qualite du modele sur l'ensemble de validation pour selectionner le modele.

Regression regularisee

Fonction objectif pour trouver les parametres du modele

J() =L() +

()L() :erreur d'entrainement, mesure comment le modele est proche des donnees () :regularisation, mesure la complexite du modeleBut Contr^oler la complexite du modele pour reduire la variance des predictions, et rendre les predictions plus stable.

Regression regularisee

Fonction objectif pour trouver les parametres du modele

J() =L() +

()L() :erreur d'entrainement, mesure comment le modele est proche des donnees () :regularisation, mesure la complexite du modeleErreur d'entrainement

Erreur sur les donnees d'entrainement :L=Pm

i=1`(yi;h(xi))Erreur quadratique :`(yi;^yi) = (yi^yi)2Erreur logistique : `(yi;^yi) =yiln(1 +e^yi) + (1yi)ln(1 +e^yi)

Regression regularisee

Fonction objectif pour trouver les parametres du modele

J() =L() +

()L() :erreur d'entrainement, mesure comment le modele est proche des donnees () :regularisation, mesure la complexite du modeleRegularisationquotesdbs_dbs31.pdfusesText_37
[PDF] R Programming for Data Science - Computer Science Department

[PDF] Sashelp Data Sets - SAS Support

[PDF] Introduction au domaine du décisionnel et aux data warehouses

[PDF] DESIGNING AND IMPLEMENTING A DATA WAREHOUSE 1

[PDF] Datawarehouse

[PDF] Definition • a database is an organized collection of - Dal Libraries

[PDF] DBMS tutorials pdf

[PDF] DATAR 11b:Mise en page 1 - Ministère de la Cohésion des territoires

[PDF] Territoires 2040 n_2

[PDF] L'adaptation des territoires au changement climatique - CGET

[PDF] la France puissance industrielle - Les Echosfr

[PDF] Indicateurs de développement durable pour les territoires

[PDF] Datawarehouse

[PDF] Le Data Warehouse et les Systèmes Multidimensionnels

[PDF] Procédure APB - ESITC Caen