[PDF] [PDF] Bases du data scientist - Data science Master 2 ISIDIS - LISIC

scientist Data science Master 2 ISIDIS ”Démarche empirique qui se base sur des données Data science : fondamentaux et études de cas, E Biernat, M



Previous PDF Next PDF





[PDF] Bases du data scientist - Data science Master 2 ISIDIS - LISIC

scientist Data science Master 2 ISIDIS ”Démarche empirique qui se base sur des données Data science : fondamentaux et études de cas, E Biernat, M



[PDF] Introduction data science - Data science Master 2 ISIDIS - LISIC

Master 2 ISIDIS Data science Data scientist Big data Processus en data science Information ”Démarche empirique qui se base sur des données



[PDF] intelligence artificielle - Kayak Communication

7 sept 2018 · Annexe 2 : Impacts sur emplois et compétences – détail La frontière, dans les faits, entre l'intelligence artificielle, le big data, La formation à l'IA en France, au niveau master, semble répondre charges à la phase d'apprentissage ( structuration de la base de Le nombre d'emplois de data scientists



[PDF] Application of wavelet transforms to geosciences: Extraction - ORBi

1 3 2 Wavelet leaders-based multifractal formalism 18 practical aspect of wavelet-based methods for natural data analyses, the theoretic part



[PDF] Application of wavelet transforms to geosciences: Extraction - ORBi

1 3 2 Wavelet leaders-based multifractal formalism 18 practical aspect of wavelet-based methods for natural data analyses, the theoretic part



[PDF] YEAR THREE ANNUAL REPORT 2016 - CORE

30 août 2019 · SSERVI provides a unique environment for scientists and Central Office that focus on: 1) Supporting Our Teams 2) data sharing, through use of our social networks, shared Dedicated parallel conferences for graduate students and young future possible lunar bases, involvement with the nascent



[PDF] 1981-1982 Catalog - CORE

graduate; 2) open to any student with 60 units of college work The College of Arts Sciences (CAS) offers programs in the areas Church of Christ Scientist, Episcopal Diocese of Chicago, INTRODUCES STUDENTS TO lAF&E DATA BASES AMD fACTDPS TO BE CONSID ACAOEIlC AD,tSDI AID THE DI'ISIDI CHAI



[PDF] Arachnologische Arachnology

workshop announced, Experimental design and modern data analysis I would like to dedicate this paper to two scientists who passed away in 2015: Roger Norman Bamber, tory pockets at the base to the possibility of a synonymy between Eucta isidis, E rei- BIOSIS Previews, Thomson Reuters Master Journal List 



Download book PDF

working in information processing, IFIP's aim is two-fold: to support information processing within its 28 Managing systemic meta-data for creating QoS- adaptive CORBA mobiware The platform is programmable and runs on mobile devices, base stations Chair: Steven Pink, Swedish Institute of Computer Science

[PDF] R Programming for Data Science - Computer Science Department

[PDF] Sashelp Data Sets - SAS Support

[PDF] Introduction au domaine du décisionnel et aux data warehouses

[PDF] DESIGNING AND IMPLEMENTING A DATA WAREHOUSE 1

[PDF] Datawarehouse

[PDF] Definition • a database is an organized collection of - Dal Libraries

[PDF] Evaluating database management systems - Semantic Scholar

[PDF] (DBMS) Purpose of Database System Purpose of - Videnio

[PDF] DBMS tutorials pdf

[PDF] 199 - Les + de Studio Telecom

[PDF] DATAR 11b:Mise en page 1 - Ministère de la Cohésion des territoires

[PDF] Territoires 2040 n_2

[PDF] DATAR 11b:Mise en page 1 - Ministère de la Cohésion des territoires

[PDF] la France puissance industrielle - Les Echosfr

[PDF] DATAR 11b:Mise en page 1 - Ministère de la Cohésion des territoires

[PDF] Bases du data scientist - Data science Master 2 ISIDIS - LISIC

Bases du data scientist

Data science

Master 2 ISIDIS

S ebastien Verel verel@lisic.univ-littoral.fr http://www-lisic.univ-littoral.fr/ ~verel

Universite du Littoral C^ote d'Opale

Laboratoire LISIC

Equipe OSMOSE

Bibliographie

Ce cours repose principalement sur ce livre :

Data Science : fondamentaux et etudes de cas

Machine Learning avec Python et R

Eric Biernat, Michel Lutz,

Eyrolles, 2015.

Que les auteurs en soient remercies chaleureusement!

Une denition

Data science

"Demarche empirique qui se base sur des donnees pour apporter une reponse a des problemes" Data science : fondamentaux et etudes de cas, E. Biernat, M.

Lutz, Eyrolles, 2015.Remarque

Il faut des donnees!

Accessibilite juridique, technique, materielle

Une denition

Data science

"Demarche empirique qui se base sur des donnees pour apporter une reponse a des problemes" Data science : fondamentaux et etudes de cas, E. Biernat, M.

Lutz, Eyrolles, 2015.Remarque

Il faut des donnees!

Accessibilite juridique, technique, materielle

Donnees

Denition

"Le resultat d'une observation faite sur une population ou sur un echantillon"

Statistique, dictionnaire encyclopedique, Springer (Dodge, 2007)Une donnee est unnombre, ou unecaracteristiquequi apporte

uneinformationsur un individus, un objet ou une observationExemple

Florian : "J'ai 10 ans"

Variable

Lien entre une variable et des donnees :

Le nombre/caracteristique varie avec les individus/objets

Notations :VariableXjpour les individus/objets/observationsi:Xij.VariableXagepour les individus 1;2;::::X1age;X2age;:::

Type de donnees

Donneequantitative

quantite mesurable, repond au "combien?" calculs possibles (moyenne, etc.),

comparaisons (egalite, dierence, inf/superieure)Continues :2IRDiscretes : nombre de valeurs "limitees"

DonneesQualitative

qualite ou caracteristiques repond a la "categorie"Nominale (categorielle) couleur des yeux comparaison (egalite / dierence)Ordinale

Possede un ordre (degre a un test d'opinion etc.)

comparaison superieure / inferieure possible

Representation matricielle des donnees

Plusieurs variablesX1;X2;:::;Xjpourjde 1 an

peuvent decrire un m^eme individus/objet/observation.

Grand nombre d'individuside 1 am.

La valeur de la variablejsur un individusise notexijX=0 B @x

11x1n.........

x m1xmn1 C A

Apprentissage automatique (Machine Learning)

Denition informelle

Etude et conception de systemes (methodes executees par une machine) qui sont capables d'apprendre a partir de donnees.Exemple un systeme qui distinguent les courriels spam et non-spam.

Apprentissage automatique (Machine Learning)

E: l'ensemble de toutes les t^aches possibles.

S: un systeme (une machine)Denition un peu plus formelle [T.M. Mitchell, 1997]

TE: ensemble de taches appeletraining set

P:S E!IR: mesure de performance d'un syst. sur des t^aches.

Un systemeSapprendlo rsd'une exp erienceExp si

la performance deSsur les tachesT, mesuree parP, s'ameliore.

P(Savant Exp;T)P(Sapres Exp;T)Exemple

Taches T : Classier des emails recus durant une journee Performance P : Taux de rejet correct des spams parS Experience Exp : 1 semaine exposition aux courriels d'un utilisateur

Types d'apprentissage

Apprentissage supervise :

Apprentissage sur un ensemble d'exemples etiquetes : (xi;yi)Apprentissage non supervise : Apprentissage sur un ensemble d'exemples non etiquetes (cf. clustering) x iApprentissage semi-supervise : Apprentissage sur un ensemble d'exemples etiquetes / non etiquetesApprentissage par renforcement : Apprentissage ou les actions sur l'environnement se mesurent par une recompense...

Types d'apprentissage

Apprentissage supervise :

Apprentissage sur un ensemble d'exemples etiquetes : (xi;yi)Apprentissage non supervise : Apprentissage sur un ensemble d'exemples non etiquetes (cf. clustering) x iApprentissage semi-supervise : Apprentissage sur un ensemble d'exemples etiquetes / non etiquetesApprentissage par renforcement : Apprentissage ou les actions sur l'environnement se mesurent par une recompense...

Typologie des problemes

Regression : (xi;yi) avecyi2IRClassication : (xi;yi) avecyiquelques valeurs possibles

Liste des algorithmes

Regression lineaire univariee (fait?)

Regression lineaire multivariee (fait?)

Regression polynomiale

Regression regularisee

Naive Bayes

Regression logistique

Clustering (fait en partie)

Arbres de decision (fait)

Regression lineaire univariee

Denition de la fonction hypothese

hypotheseh valeur d'entreex!valeur de sortiey

Dans le cas de la regression lineaire univariee :

h(X) =0+1XTrouver le couple (0;1) tel queh(X) soit le plus proche deYErreur d'approximation

J(0;1) =12mm

X i=1(h(xi)yi)2Descente de gradient :j:=j@@ jJ(0;1)

Exercice

A partir du jeu de donneecarsfournis dans R,Realiser l'analyse de statistique descriptive de la vitesse et la

distance d'arr^et (mean, distribution, etc.).Calculer le modele lineaire entre la vitesse et la distance

d'arr^etTracer la droite de regression lineaire.

Regression lineaire multivariee

Denition de la fonction hypothese

hypotheseh valeur d'entreex!valeur de sortiey Dans le cas de la regression lineaire multivariee : h(X) =0+1X1+2X2+:::+nXnErreur d'approximation

J(0;1) =12mm

X i=1(h(xi)yi)2Descente de gradient :j:=j@@ jJ(0;1) Normalisation (scaling) : par centrage reduction, ou entre 0 et 1

Exercice

A partir des jeux de donnee contenu dansdata02.zip,Realiser l'analyse de statistique descriptive

Calculer le modele multilineaire

Regression polynomiale

Denition de la fonction hypothese

Dans le cas de la regression lineaire polynomiale : h(X) =0+1X1+2X2+3X21+4X22Erreur d'approximation

J() =12mm

X i=1(h(xi)yi)2Descente de gradient :j:=j@J@ j()

Exercice

A partir du jeu de donneecarsfournis dans R,Calculer une regression polynomiale de degre 2.

Tracer la droite de regression lineaire.

model <- lm(distpoly(speed, 2, raw = TRUE), data = cars) model <- lm(distspeed + I(speed2), data = cars) lines(cars$speed, predict(model, cars))

Les erreurs

Relation entre erreurs

Erreur d'apprentissage : taux d'erreur sur l'ensemble des exemples d'apprentissageErreur "vraie" : erreur sur l'ensemble de tous les exemples possibles

Sur-apprentissage

Exces d'apprentissage

Sur-specialisation du modele sur l'ensemble d'entrainement )Perte de capacite de generalisation

Apprentissage "par coeur"

Exemple de mesure de complexite : degre du polyn^ome

Sur-apprentissage : compromis biais-variance

Erreur due aubiais:

dierence entre la prediction du modele et la valeur correcte.Erreur due a lavariance: la variabilite d'une prediction de modele pour un pointx de donneeSource Scott Fortmann-Roe : excellent billet

Evaluation d'un modele d'apprentissage

Technique

Partitionner l'ensemble des exemples en :

un ensemble d'apprentissage (70%)un ensembleindependantde test (30%) Le taux d'erreur est estime (sans biais) sur l'ensemble de test.Inconvenient

Requiert un nombre important d'exemples

Dilemme :

Plus on met d'exemples dans le test, plus l'estimation est precisePlus on met d'exemples dans l'apprentissage, meilleur est le modele (a priori)

Methode de re-echantillonnage

Permet d'estimer l'erreur de generalisation.

K-folds cross-validationPartitionner aleatoirement l'echantillon enKblocs

Pour chaque block,

Construire le modele sur lesk1 autres blocs

Calculer l'erreur en testeksur le blockk

Calculer l'erreur moyenne des erreursekAutres techniques :

Leave-one-out (K=n)Bootstrap, bagging, etc.

Exercice : sur-apprentissage

x <- 1:10 y <- x + c(-0.5, 0.5) plot(x, y) Calculer trois regressions avec des polyn^omes de degre 1, 3 et 9. Tracer les regressions obtenues en utilisant en abscisse le vecteur z <- seq(1, 10, length.out = 250) Recommencer les regression avec des donnees legerement modiees : x <- c(1:10, 10:15) y <- x + c(-0.5, 0.5)

Conclure.

Selection de modeles

Comment selectionner un modele parmi un ensemble possible de modeles?Sub-diviser l'ensemble d'apprentissage en ensemble d'apprentissage et de validationEntrainer les dierents modeles sur le nouvel ensemble d'apprentissageUtiliser une mesure de qualite du modele sur l'ensemble de validation pour selectionner le modele.

Regression regularisee

Fonction objectif pour trouver les parametres du modele

J() =L() +

()L() :erreur d'entrainement, mesure comment le modele est proche des donnees () :regularisation, mesure la complexite du modeleBut Contr^oler la complexite du modele pour reduire la variance des predictions, et rendre les predictions plus stable.

Regression regularisee

Fonction objectif pour trouver les parametres du modele

J() =L() +

()L() :erreur d'entrainement, mesure comment le modele est proche des donnees () :regularisation, mesure la complexite du modeleErreur d'entrainement

Erreur sur les donnees d'entrainement :L=Pm

i=1`(yi;h(xi))Erreur quadratique :`(yi;^yi) = (yi^yi)2Erreur logistique : `(yi;^yi) =yiln(1 +e^yi) + (1yi)ln(1 +e^yi)

Regression regularisee

Fonction objectif pour trouver les parametres du modele

J() =L() +

()L() :erreur d'entrainement, mesure comment le modele est proche des donnees () :regularisation, mesure la complexite du modeleRegularisationquotesdbs_dbs31.pdfusesText_37