Introduction au Data Mining et à lapprentissage statistique PDF

Introduction au Data Mining et à l'apprentissage statistique. Gilbert Saporta. Chaire de Statistique Appliquée & CEDRIC CNAM

Analyse discriminnate

http://cedric.cnam.fr/~saporta Tufféry: « Data Mining et statistique décisionnelle »Technip

Data Mining Machine Learning and Official Statistics

22 mars 2020 Gilbert Saporta CEDRIC-CNAM

UNE COMPARAISON DE QUATRE TECHNIQUES DINFÉRENCE

Laboratoire Cédric - CNAM 292 rue Saint Martin

utilisation conjointe des règles dassociation - et de la classification

Association rules discovery variables clustering

Unsupervised and Semi-supervised Clustering: a Brief Survey

15 août 2005 recognition information retrieval

Apprentissage statistique: modélisation décisionnelle et

10 févr. 2022 Introduction à l'apprentissage supervisé ... 2 Fouille de données (data mining) : (sens strict) recherche de régularités ou de relations.

Cdric

1 oct. 2008 Tél./fax +33 01 40 27 22 96 – http://cedric.cnam.fr. RAPPORT ... Méthodes Statistiques de Data Mining et Apprentissage.

Apprentissage statistique: modélisation descriptive et introduction

Fouille de données (data mining) : recherche de régularités ou de relations inconnues a priori dans de grands volumes de données.

These Didier NAKACHE CIREA

26 sept. 2007 Extraction automatique des diagnostics à partir des comptes rendus ... 1.1 Présentation du sujet de la thèse. ... Applying data mining.

Data Mining Machine Learning and Official Statistics

1 Introduction Data mining (as statisticians call it) or knowledge discovery (as computer scientists prefer to label) has developed rapidly over the last two decades and is becoming increasingly significant in the assemblage of official statistics Despite the fact that data mining is being utilized and introduced in many

DATA MINING AND OFFICIAL STATISTICS: - Cédric

Introduction Data mining (as statisticians call it) or knowledge dis-covery (as computer scientists prefer to label) has developed rapidly over the last two decades and is becoming increas-ingly signi?cant in the assemblage of of?cial statistics 1 De-spite the fact that data mining is being utilized and

Data Mining and Official Statistics

Abstract:Data mining is a new field at the frontiers of statistics and informationtechnologies (database management artificial intelligence machine learning etc ) which aimsat discovering structures and patterns in large data sets We examine here its definitions toolsand how data mining could be used in official statistics

Combined use of association rules mining and clustering

To illustrate our approach each section contains a detailedexample using industrial data 1 Association rules mining 1 1 Algorithms to mine association rules Association rules mining has been developed to analyse basket data in a marketing environment

Empirical advances with text mining of electronic health records

1The experiment design with monitored (textual SQL and classification) and unsupervised (PCA MCA HC and textmining) techniques 2- removing some overlapping CN; 3- excluding meaningless words or expressions CNusing ORACLE® queries with the SQL LIKE functionand wildcards to perform pattern matching [21];

Searches related to introduction au data mining cedric/cnam filetype:pdf

databases could be analysed by means of data-mining techniques to help both the improvement of these tools on their usage and the proof automation they provide We suggest a technique for the analysis frequent subtree mining review the popular algorithms and suggest some adaptation to their speci cations towards our appli-cation

Introduction au Data Mining et

à l'apprentissage statistique

Gilbert SaportaChaire de Statistique Appliquée & CEDRIC, CNAM, 292 rue Saint Martin, F-75003 Parisgilbert.saporta@cnam.frhttp://cedric.cnam.fr/~saporta

2 Plan

1. Qu'est-ce que le data mining?

2. Trois méthodes emblématiques

2.1 Règles d'associations

2.2 Arbres de décision

2.3 Scoring

3. Performance des méthodes de prévision

4. Construction et choix de modèles: théorie de

l'apprentissage

5. Le DM, une nouvelle conception de la statistique et

du rôle des modèles 3

1. Qu'est-ce que le Data

Mining?

Le Data Mining est un nouveau champ situé au

croisement de la statistique et des technologies de l'information (bases de données, intelligence artificielle, apprentissage etc.) dont le but est de découvrir des structures dans de vastes ensembles de données.

Deux types: modèles et "

patterns (ou comportements) (D.Hand) 4

1.1 Définitions:

U.M.Fayyad, G.Piatetski-Shapiro :

" Data Mining is the nontrivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data "

D.J.Hand :

" I shall define Data Mining as the discovery of interesting, unexpected, or valuable structures in large data sets" 5 La métaphore du Data Mining signifie qu'il y a des trésors ou pépites cachés sous des montagnes de données que l'on peut découvrir avec des outils spécialisés. Le Data Mining analyse des données recueillies à d'autres fins: c'est une analyse secondaire de bases de données, souvent conçues pour la gestion de données individuelles (Kardaun, T.Alanko,1998)

Le Data Mining ne se préoccupe donc pas de

collecter des données de manière efficace (sondages, plans d'expériences) (Hand, 2000) 6 7 L'idée de découvrir des faits à partir des données est aussi vieille que la statistique

"Statistics is the science of learning from data. Statistics is essential for the proper running of government, central to decision making in industry,and a core component of modern educational curricula at all levels "

(J.Kettenring, 1997, ancien président de l'ASA). Dans les années 60: Analyse Exploratoire (Tukey, Benzécri)"

L'analyse des données est un outil pour dégager de la gangue des données le pur diamant de la véridique nature.

(J.P.Benzécri 1973)

Est-ce nouveau? Est-ce une révolution ?

1.2 le Data Mining est né de :

L'évolution des SGBD vers l'informatique décisionnelle avec les entrepôts de données (Data Warehouse).

La constitution de giga bases de données : transactions de cartes de crédit, appels téléphoniques, factures de supermarchés: terabytes de données recueillies automatiquement.

Développement de la Gestion de la Relation Client (CRM)

Marketing client au lieu de marketing produit

Attrition, satisfaction, etc.

Recherches en Intelligence artificielle, apprentissage, extraction de connaissances 9

Le défi de l'explosion du volume

de données (Michel Béra, 2009)

In the 90s

•Today

Web transactions At

Yahoo ! (Fayyad, KDD 2007)

16 B events - day, visitors

month, 10 Tb data / day • Radio-frequency identification (Jiawei, Adma 2006)

A retailer

with

3,000 stores, selling

10,000 items a day

per store

300 million events per day (after

redundancy removal)

Social network (Kleinberg, KDD 2007)

4.4-million-node network of declared

friendships on blogging community

240-million-node network of all IM communication over one month

on Microsoft Instant Messenger

Cellular networks

A telecom carrier generates

hundreds of millions of CDRs / day The network generates technical data : events / day in a large city 9 10 http://www.kdnuggets.com 11 http://www.kdnuggets.com 12

1.3 Objectifs et outilsLe Data Mining cherche des structures de deux

types : modèles et patterns

Patterns

une structure caractéristique possédée par un petit nombre d'observations: niche de clients à forte valeur, ou au contraire des clients à haut risque Outils: classification, visualisation par réduction de dimension (ACP, AFC etc.), règles d'association. 13 modèles

Construire des modèles a toujours été une activité des statisticiens. Un modèle est un résumé global

des relations entre variables, permettant de comprendre des phénomènes, et d'émettre des prévisions

Tous les modèles sont faux, certains

sont utiles » (G.Box) * * Box, G.E.P. and Draper, N.R.: Empirical Model-Building and Response Surfaces, p. 424, Wiley, 1987 14

Modèles

Le DM ne traite pas d'estimation et de tests de

modèles préspécifiés, mais de la découverte de modèles à l'aide d'un processus de recherche algorithmique d'exploration de modèles: linéaires ou non, explicites ou implicites: réseaux de neurones, arbres de décision, SVM, régression logistique, réseaux bayesiens.... Les modèles ne sont pas issus d'une théorie mais de l'exploration des données. 15

Autre distinction: prédictif (supervisé) ou

exploratoire (non supervisé) 16 Des outils ou un process?Le DM est souvent présenté comme un ensemble intégré d'outils permettant entre autres de comparer plusieurs techniques sur les mêmes données. Mais le DM est bien plus qu'une boîte à outils:

Données Information Connaissance

prétraitementsanalyse 17 " Le Data Mining est une étape dans le processus

d'extraction des connaissances, qui consiste à appliquer des algorithmes d'analyse des données »

Data mining et KDD

18 19

2. Trois techniques

emblématiques du Data Mining

Une méthode non supervisée:

Règles d'association

Deux méthodes supervisées

Arbres de décision

Scores

2.1 La recherche de règles

d'association ou l'analyse du panier de la ménagère

Illustré avec un exemple industriel provenant

de PSA Peugeot-Citroen . (Thèse CIFRE de Marie Plasse). 21

PROBLEMATIQUE INDUSTRIELLE

Plus de 80000 véhicules décrits par plus de 3000 attributs binaire s

Véhicules

Attributs présents

{A1, A4} {A3, A4} {A2, A5} {A1, A5} {A2, A5, Ap} {A2, A5} {A3}

Les données

Trouver des corrélations entre les attributs...

Véhicules

A1 A2 A3 A4 A5 Ap

100100

001100

010010

100010

010011

010010

001000

Véhicules

A1 A2 A3 A4 A5 Ap 1 001 00 0 011 00 0 100
10 1 000 10 0 100
11 0 100
10 0 010 00 Matrice de données binairesDonnées de transaction ...grâce à la recherche de règles d'association 22
s(A

C) = 30 %

30% des transactions

contiennent à la fois c(A

C) = 90 %

90% des transactions

qui contiennent + contiennent aussi

LA RECHERCHE DE REGLES D'ASSOCIATION

sup(AC)P(AC)P(C/A)P(A)

Rappel de la méthode

"lorsqu'un client achète du pain et du beurre, il achète 9 fois sur 10 du lait en même temps" où A ŀ

C = Ø

A C

Origine marketing : analyser les ventes des supermarchésFormalisation : Fiabilité : Support : % de transactions contenant A et C

P(AC)sup(AC)conf(AC)P(C/A)P(A)sup(A)

Précision : Confiance : % de transactions contenant C sachant qu'elles ont A

Algorithmes :

Recherche des sous-ensembles fréquents (avec minsup)Extraction des règles d'association (avec minconf)

•Apriori (Agrawal & Srikant, 1994) •Partition (Saverese et al., 1995) •Sampling (Brin & Motwani, 1997) •Eclat (Zaki, 2000) •FP-Growth (Han & Pei, 2003) 23
LA RECHERCHE DE REGLES D'ASSOCIATIONSpécificités des données Des données clairsemées :Répartition des 100 attributs les plus fréquents :

2 %16214 %32426 %48638 %648510 %810612 %9727 Nombre de

véhicules2 %16214 %32426 %48638 %648510 %810612 %9727 Nombre de véhicules Nombre et % d'apparition des 100 attributs les plus fréquents

Nombre d'attributs présents par

véhicule :

80000 véhicules décrits par 3000 attributs binaires : environ 4 mo

is de production

4 attributs en moyenne

LA RECHERCHE DE REGLES D'ASSOCIATION

Règles extraites :

Extraction des règles

Support minimum

(nb de véhicules vérifiant la règle)

Confiance

minimum

Nombre de

règles

Taille maximum des

règles obtenues

50050 %163

Support minimum

(nb de véhicules vérifiant la règle)

Confiance

minimum

Nombre de

règles

Taille maximum des

règles obtenues 500
50 %
16 3 400
50 %
29
3

Support minimum

(nb de véhicules vérifiant la règle)

Confiance

minimum

Nombre de

règles

Taille maximum des

règles obtenues 500
50 %
16 3 400
50 %
29
3 300
50 %
194
5 250
50 %
1299
6 200
50 %

102 981

10 100
50 %

1 623 555

Nombre de

règles

Complexité

maximum

Réduction du nombre

de règles

Sans classification : Rappel premier résultat

1 623 555

Sans classification : regroupement manuel

600636

12 60%

Avec classification préalable

218
4 99%

A B

F G

J DM K

L C E V W U T

A B

F G

J DM K

L C E V W U T

A B

F G

J DM K

L C E V W U T

A B

F G

J DM K

L C E V W U T

Réalisation d'une classification de variables préalable (Plasse et al., 2005) Réduire le nombre et la

complexité des règle tout en gardant une valeur faible pour le support minimumRésultats :Recherche des règles à l'intérieur de chaque groupe : 25

LES INDICES DE PERTINENCE

Pour faire valider les règles par un expert du terrain, il faut sé lectionner les "meilleures" règles On peut les classer par ordre décroissant de leur intérêt stati stique Il existe plusieurs indices pour évaluer la pertinence des règles Un des plus connus et utilisés : le lift (Brin et al., 1997)

Sélection des "meilleures" règles

AClift( A C )

P (A).P(C) 26

2.2 Arbres de décision

Développées autour de 1960 (AID de Morgan & Sonquist) et très utilisées en marketing, ces méthodes délaissées par les statisticiens ont connu un regain d'intérêt avec les travaux de

Breiman & al. (1984)

qui en ont renouvelé la problématique: elles sont devenues un des outils les plus populaires du data mining en raison de la lisibilité des résultats. On peut les utiliser pour prédire une variable Y quantitative (arbres de régression) ou qualitative (arbres de décision, de classification, de segmentation) à l'aide de prédicteurs quantitatifs ou qualitatifs. Les termes de partitionnement récursif ou de segmentation sont parfois utilisés 27
logiciel gratuit SIPINA http://eric.univ-lyon2.fr 28

Résolution des problèmes de discrimination et de régression en divisant successivement l 'échantillon en sous-groupes.

Il s'agit de sélectionner parmi les variables explicatives celle qui est la plus liée à la variable à expliquer. Cette variable fournit une première division de l 'échantillon en plusieurs sous-ensembles appelés segments.Puis on réitère cette procédure à l'intérieur de chaque segment en recherchant la deuxième meilleure variable, et ainsi de suite ...

Il s'agit donc d'une classification descendante à but prédictif opérant par sélection de variables : chaque classe doit être la plus homogène possible vis à vis de Y

Arbres binaires ou non?

En présence d'un prédicteur qualitatif, on

pourrait utiliser des arbres non binaires en découpant en m sous ensembles : cette idée

n'est en général pas bonne car elle conduit à des subdivisions avec trop peu d'observations et souvent non pertinentes.

L'intérêt des arbres binaires est de pouvoir regrouper les modalités qui ne se distinguent pas vis à vis de

y 30

La méthode CART

La méthode CART permet de construire un arbre de décision binaire par divisions successives de l 'échantillon en deux sous-ensembles.quotesdbs_dbs31.pdfusesText_37

[PDF] Defining a Data Model - CA Support

[PDF] Learning Data Modelling by Example - Database Answers

[PDF] Nouveaux prix à partir du 1er août 2017 Mobilus Mobilus - Proximus

[PDF] règlement général de la consultation - Inventons la Métropole du

[PDF] Data science : fondamentaux et études de cas

[PDF] Bases du data scientist - Data science Master 2 ISIDIS - LISIC

[PDF] R Programming for Data Science - Computer Science Department

[PDF] Sashelp Data Sets - SAS Support

[PDF] Introduction au domaine du décisionnel et aux data warehouses

[PDF] DESIGNING AND IMPLEMENTING A DATA WAREHOUSE 1

[PDF] Datawarehouse

[PDF] Definition • a database is an organized collection of - Dal Libraries

[PDF] DBMS tutorials pdf

[PDF] DATAR 11b:Mise en page 1 - Ministère de la Cohésion des territoires

[PDF] Territoires 2040 n_2

[PDF] Introduction au Data Mining et à lapprentissage statistique

Introduction au Data Mining et

à l'apprentissage statistique

1. Qu'est-ce que le data mining?

2. Trois méthodes emblématiques

2.1 Règles d'associations

2.2 Arbres de décision

2.3 Scoring

3. Performance des méthodes de prévision

4. Construction et choix de modèles: théorie de

5. Le DM, une nouvelle conception de la statistique et

1. Qu'est-ce que le Data

Mining?

Le Data Mining est un nouveau champ situé au

Deux types: modèles et "

1.1 Définitions:

U.M.Fayyad, G.Piatetski-Shapiro :

D.J.Hand :

Le Data Mining ne se préoccupe donc pas de

Est-ce nouveau? Est-ce une révolution ?

1.2 le Data Mining est né de :

Marketing client au lieu de marketing produit

Attrition, satisfaction, etc.

Le défi de l'explosion du volume

In the 90s

Web transactions At

Yahoo ! (Fayyad, KDD 2007)

16 B events - day, visitors

A retailer

3,000 stores, selling

10,000 items a day

300 million events per day (after

Social network (Kleinberg, KDD 2007)

4.4-million-node network of declared

240-million-node network of all IM communication over one month

Cellular networks

A telecom carrier generates

1.3 Objectifs et outilsLe Data Mining cherche des structures de deux

Patterns

Tous les modèles sont faux, certains

Modèles

Le DM ne traite pas d'estimation et de tests de

Autre distinction: prédictif (supervisé) ou

Données Information Connaissance

Data mining et KDD

2. Trois techniques

Une méthode non supervisée:

Règles d'association

Deux méthodes supervisées

Arbres de décision

Scores

2.1 La recherche de règles

Illustré avec un exemple industriel provenant

PROBLEMATIQUE INDUSTRIELLE

Véhicules

Attributs présents

Les données

Véhicules

100100

001100

010010

100010

010011

010010

001000

Véhicules

C) = 30 %

30% des transactions

C) = 90 %

90% des transactions

LA RECHERCHE DE REGLES D'ASSOCIATION

Rappel de la méthode

C = Ø

P(AC)sup(AC)conf(AC)P(C/A)P(A)sup(A)

Algorithmes :

2 %16214 %32426 %48638 %648510 %810612 %9727 Nombre de

Nombre d'attributs présents par

80000 véhicules décrits par 3000 attributs binaires : environ 4 mo

4 attributs en moyenne

LA RECHERCHE DE REGLES D'ASSOCIATION