Big Data et ses technologies
? Hadoop: circa 2006. ? D'où le“Big Data”: pas strictement plus de data Page 16. Big Data - Les applications. Page 17 ...
itandsi
Les défis du stockage lié à Big Data au sein de l'entreprise……..….8 NoSQL signifie ''Not Only SQL'' ' pas seulement SQL en francais'' Ce terme.
AU CŒUR DU BIG DATA
C'est dans les années 1990 que le terme Big Data prend sa signification actuelle : un défi technologique à par le mathématicien français Pierre-Simon.
Big Data Machine Learning : quest-ce que la science des données
18 janv. 2017 4. Quel Machine Learning pour les Big Data? 5. Les Big Data le Machine learning et la loi. 6. Enseignement des sciences des données.
Étude sur les mégadonnées (big data)
pour la réalisation de l'«Étude sur l'éthique des mégadonnées (Big Data) – équilibrer les avantages sous forme de document PDF ou texte.
Lapport des big data pour létude de la mobilité en Région de
De ces trois termes le plus général est celui de machine learning (algorithme apprenant en français)
Big Data : un changement de paradigme peut en cacher un autre
8 déc. 2015 Nous employons le terme anglais Big Data parce qu'il est le plus populaire et celui utilisé au sein des entreprises. Le terme français dont ...
Data science : fondamentaux et études de cas
Big Data Analytics chez. OCTO Technology l'un des leaders français sur le marché de la data science et des big data. Il a embrassé le mouvement.
Les bases de données NoSQL et le Big Data
Il est l'auteur ou coauteur de plusieurs ouvrages français et anglais sur SQL Server et SQL dont Optimiser SQL Server. (éditions Dunod) et SQL. (éditions
Information Communication & Society CRITICAL QUESTIONS FOR
10 mai 2012 To cite this article: danah boyd & Kate Crawford (2012) CRITICAL QUESTIONS. FOR BIG DATA Information
Big Data, Machine Learning :
qu'est-ce que la science des donnees ?Journee de l'IREM, BordeauxAurelien Garivier
18 janvier 2017
Institut de Mathematiques de Toulouse
LabeX CIMI
Universite Paul Sabatier
Plan de la presentation
1. Un monde numerique
2. Qu'est-ce que le machine learning ?
3. Le phenomene Big Data
4. Quel Machine Learning pour les Big Data?
5. Les Big Data, le Machine learning et la loi
6. Enseignement des sciences des donnees
2Un monde numerique
Un monde numerique
Nous vivons aujourd'hui dans une "ere du numerique": Les donnees sont partout : sondages, indices de popularite, scores electoraux, statistiques economiques voire sportives... Nous produisons nous-m^emes des donnees de notre plein gre : photos, interactions sur les reseaux sociaux, objets connectes... sans le vouloir vraiment : recherches sur Internet, traces laissees par nos actions (achats, reseaux sociaux ...), ou en echange de services (pas si) gratuits. 4Un monde numerique
Notre vie est de plus en plus dirigee par ce monde numerique : Societe de consommation (prediction des go^uts et des achats) Notre relation avec les banques, assurances (scoring pour determiner credit, avantages) Algorithmes pour la carte scolaire, pour l'orientation scolaire...Surveillance policiere...
Choix d'un conjoint par sites de rencontre...
Voitures qui roulent seule et reagissent a leur environnement ...Tout cela gr^ace avec des algorithmes...
5Un monde numerique : le mythe du Big Data
Des chires tous les jours dans tous les media, chires sur lesquels s'appuie la pensee : Economie quantitative, psychologie quantitative mais aussi decisions politiques.6Un monde numerique : points positifs
Une donnee quantitative (un
nombre) ca ne se discute pas c'est serieux c'est facile a interpreter c'est synthetique ..7Un monde numerique : points positifs
Une donnee quantitative (un
nombre) ca ne se discute pas c'est serieux c'est facile a interpreter c'est synthetique ..Bref ...c'est ecace! 7Points negatifs
Peut-on faire mentir les nombres ?
Disraeli : Il y a les mensonges, les gros mensonges, et les statistiques. Par manque de temps , de connaissances, on s'expose a des erreurs d'interpretation. Necessite de comprendre l'usage de la statistique et leur signication : la verite mathematique est-elle verite au sens usuel ? HG. Wells : Le jugement statistique sera un jour aussi necessaire a l'exercice de base des fonctions du citoyen que la capacite de lire et d'ecrire. 8 La science historique des donnees : la statistique La statistique est l'etude de la collecte de donnees, leur analyse, leur traitement, l'interpretation des resultats et leur presentation an de rendre les donnees comprehensibles par tous. C'est a la fois une science, une methode et un ensemble de techniques.Source : Wikipedia
La statistique est utilisee dans presque tous les domaines de l'activite humaine : sciences sociales, economie, medecine, biologie, industrie ... Mais aujourd'hui, Open Data, Big Data, Big Science... changent les regles du jeu. 9Qu'est-ce que le machine learn-
ing ?Plan de la presentation
1. Un monde numerique
2. Qu'est-ce que le machine learning ?
Intelligence articielle
Machine Learning
3. Le phenomene Big Data
4. Quel Machine Learning pour les Big Data?
5. Les Big Data, le Machine learning et la loi
6. Enseignement des sciences des donnees
11Intelligence Articielle (IA) : denition
Intelligence des machines
simuler les capacites cognitives des humains (big data: les humains apprennent en utilisant des sources de donnees tres abondantes et diverses). une machine mime les fonctions cognitives que les humains associent a l'esprit humain, tels queapprendreouresoudre un probleme.Machine intelligente ideale = agent rationnel exible quipercoitson environnement et quiprend desdecisionsqui maximisent ses chances de succes pour un but donne.Fonde sur le postulat que l'intelligence humaine
peut ^etre decrite si precisement qu'on peut construire une machine la simulant.12Intelligence Articielle: Tension
Buts operationnels
Robots autonomes pour realiser des t^aches pas trop specialisees En particulier, vision + comprehension et production de langage (naturel)Tension entre les objectifs operationnels et les buts philosophiques Au fur et a mesure que les machines accomplissent de plus en plus de t^aches, des competences qu'on pensait relever de l'intelligence sont progressivement retirees de la liste. Par exemple, la reconnaissance de caracteres n'est plus consideree comme relevant de l'IA, mais comme une technologie de routine. Parmi les competences encore classees en IA, il y a le jeu de go ou les voitures autonomes...13AI: principaux themes
Principaux objectifs de l'IA:
raisonnement connaissance planication apprentissage traitement des langues naturelles perception intelligence "generale"Approches centrales de l'IA:
approche symbolique traditionnelle (cf. logique) methodes d'inspiration statistique soft computingS'appuie sur: informatique mathematiques linguistique philosophie neurosciences psychologie (articielle)Outils:
optimisation mathematique logique algorithmes d'inspiration probabiliste theorie des jeux14Plan de la presentation
1. Un monde numerique
2. Qu'est-ce que le machine learning ?
Intelligence articielle
Machine Learning
3. Le phenomene Big Data
4. Quel Machine Learning pour les Big Data?
5. Les Big Data, le Machine learning et la loi
6. Enseignement des sciences des donnees
15Machine Learning (ML): Denition
Arthur Samuel (1959)
Champ d'etude qui donne aux ordinateurs la capacite d'apprendre sans avoir ete programmes explicitementTom M. Mitchell (1997) On dit qu'un programmeapprend d'une experience Epar rapport a une classe de t^aches T et a une mesure de performance P si sa performance sur T, mesuree par P, augmente avec l'experience E.16 ML: Apprendre des donnees et faire des predictions Les algorithmes construisent un modele a partir d'exemplesdonnes en entree, dans but de faire despredictionsou de prendre des decisions... ...plut^ot que de suivre strictement une suite statique d'instructions : c'est utile quand il serait impossible ou inecace de concevoir et de programmer de tels algorithmes.Analyse de donnees (Data Analytics) Le Machine Learning est utilise pour concevoir des modeles complexes et des algorithmes qui conduisent eux-m^eme a des predictions - le mot commercial est souventpredictive analytics. www.sas.com: "Produce reliable, repeatable decisions and results" and uncover "hidden insights" through learning from historical relationships and trendsin the data. evolution a partir de la reconnaissance de motifs (pattern recognition) de la computational learning theory en IA.17Machine Learning: problemes-types
ltrage de spams, classication de textes reconnaissance de caracteres (OCR) moteurs de recherche plateformes de recommandation outils de reconnaissance de la parole vision par ordinateur bio-informatique, analyse du genome, medecine (predictive) Pour chacune de ces t^aches, il est possible mais inecace d'ecrire des programmes explicitement destines a resoudre les buts recherches. Il appara^t beaucoup plus fecond d'apprendre a des machines a inferer elles-m^eme les bonnes regles de decision. 18Disciplines connexes
Statistique computationnelle: centre sur la prediction obtenue par l'usage de modeles statistiques necessitant des calculs numeriques intensifs (ex: methodes bayesiennes) Apprentissage statistique: ML base sur des methodes statistiques, avec un point de vue statistique (garanties probabilistes: consistence, inegalites oracles, minimax...) !plus axes sur lacorrelation, et moins sur lacausalite Data Mining(apprentissage non supervise) centre plut^ot sur l'analyse exploratoire des donnees et la decouverte de proprietes inconnues des donnees. Importance des methodes basees sur lesprobabiliteset les statistiques!Data Science(Michael Jordan) Liens tres forts avec l'optimisation mathematique, qui fournit des methodes, des concepts et des applications au ML. 19Classication supervisee : cadre statistique
Denition (terme anglais)ex: reconnaissance de chires Input spaceX6464 imagesOutput spaceYf0;1;:::;9gJoint distributionP(x;y)? Prediction functionh2 HRiskR(h) =P(h(X)6=Y)Samplef(xi;yi)gni=1MNIST datasetEmpirical risk
Rn(h) =1n
P n i=11fh(xi)6=yigLearning algorithm n: (X Y)n! HNN,boosting... Expected riskRn() =En[R(n)]Empirical risk minimizer hn= argminh2H^Rn(h)Regularized empirical risk minimizer hn= argminh2H^Rn(h) +C(h)20Minimisation du risque empirique
Inegalite de Hoeding: avec probabilite au moins 1,R(h)^Rn(h)s1
2nlog2
Probleme: vrai pourchaquehxemaispas pour^hn!
Ex: Prediction of 10 lancers de Pile ou Face
Ex: regression polynomiale!sur-apprentissage
Fleau de la dimension
21Minimisation structurelle du risque
!loi des grands nombresuniforme| inegalite de Vapnik-Chervonenkis : siHa unedimension de VCdH, alors sup h2HR(h)^Rn(h)O
s12nlog2
+dHn lognd HStructure:
H=[ mH m Ex: polyn^omes/splines de degrem, arbres de decision de profondeurm,...Decompotion du risque en biais{variance
Minimisation structurelle du risque :
hn= argmin h2H^Rn(h) +K(h) ou ^hn= argminK(h)C^Rn(h)
22Structural Risk Minimization Tradeo
Source: Bottou et al. tutorial on optimization
23Machine Learning et Statistique
L'analyse de donnees (inference, description) est le but des statistiques depuis longtemps. Le Machine Learning a des buts plusoperationels(ex: la consistence est importante en statistique mais moins en ML).Les modeles (quand il y en a) sontinstrumentaux.
Ex: modele lineaires (jolie theorie mathematique) vs Random Forests (utilisation massive de modeles pauvres et sans signication propre). Machine Learning pour les big data: plus de separation entre modelisation stochastique et optimisation (contrairement aux statistiques classiques). En ML, les donnees sont souvent la a priori (malheureusement). Pas de frontiere infranchissable (la statistique aussi evolue). 24Le phenomene Big Data
SurlesiteduCNRS
04/03/14 12:30Big Data, la déferlante des octets | CNRS le journal
Page 1 sur 10file:///Users/Mokrane-CNRS/Desktop/Big%20Data,%20la%20déferlante%20des%20octets%20%7C%20CNRS%20le%20journal.webarchive
Donner du sens à la science
Suivre
quotesdbs_dbs50.pdfusesText_50[PDF] big data tutorial pdf
[PDF] bilan admission post bac lyon
[PDF] bilan apb 2016
[PDF] bilan arjel 2016
[PDF] bilan biochimique sang
[PDF] bilan biochimique sang pdf
[PDF] bilan cm2 systeme solaire
[PDF] bilan comptable marocain excel
[PDF] bilan comptable marocain exemple
[PDF] bilan comptable marocain exercice corrigé
[PDF] bilan dune macrocytose
[PDF] bilan de cycle eps
[PDF] bilan des omd en afrique
[PDF] bilan dysgraphie orthophonie