[PDF] tdr522 Rappel sur le rapport de corr elation et Exemple



Previous PDF Next PDF







tdr522 Rappel sur le rapport de corr elation et Exemple

1 2 Le rapport de corr elation Pour etudier la relation entre une variable qualitative et une variable quan-titative, on calcule le rapport de corr elation not e 2: 2 = P p k=1 n k(x k x) 2 P n i=1 (x i x)2: Si le rapport est proche de 0, les deux variables ne sont pas li ees Si le rapport est proche de 1, les variables sont li ees Sous , on



RAPPORT DE CORRÉLATION DIDENTITÉ

RAPPORT DE CORRÉLATION D'IDENTITÉ GÉREZ EN TOUTE CONFIANCE LES EFFORTS DE SUIVI DES CONTACTS AVEC UNE TECHNOLOGIE UNIFIÉE DE CONTRÔLE D'ACCÈS ET DE VIDÉOSURVEILLANCE Le rapport de corrélation d'identité dans la solution Avigilon Access Control Manager (ACM) est un outil fiable et précis pour faciliter le suivi des



Analyse de corrélation - Laboratoire ERIC

Ricco Rakotomalala Analyse de corrélation Étude des dépendances - Variables quantitatives ersionV 1 1 Université Lumière Lyon 2 Page:1 job:Analyse_de_Correlation macro:svmono cls date/time:27-Dec-2017/1:55



CORRÉLATIONS DUALES - Inria de Paris

2 4 Corrélation partielle Le coefficient de corrélation partielle [13] par rapport à une variable C, permet de connaître la valeur de la corrélation entre deux variables A et B, si la variable C était demeurée constante pour la série d’observations considérées C’est le coefficient de corrélation totale entre les variables A et



QUATORZIÈME RÉUNION DU SOUS-COMITÉ OUEST ET CENTRE AFRICAIN

Quatorzième réunion du Sous-Comité ouest et centre africain de corrélation des sols 1 Introduction La Quatorzième Réunion du Sous-Comité ouest et centre africain de corrélation des sols pour la mise en valeur des terres s’est tenue à Abomey, République du Bénin, du 9 au 13 octobre 2000



UNIVERSITE DE TECHNOLOGIE DE COMPIEGNE

compréhension de la suite de ce rapport, particulièrement en ce qui concerne le T2* L’étude de la validité de la corrélation T2*/DMO fera l’objet de la troisième partie La quatrième partie concernera la conception et la réalisation du fantôme



TP de Statistiques Descriptives – STID Corrigé TP5

Un rapport de corrélation de 0 indique qu'il n'existe aucun lien entre les deux variables étudiées, un rapport de 1 signifie que le lien entre les deux variables est très fort, c'est à dire que les deux variables sont dépendantes Ici, rapport de corrélation est de 0 18, ce qui signifie que la part de variabilité des salaires est



Seance 3: Liaisons entre variables´ - univ-toulouse

Le coefficient de concordance des rangs se definit par´ W = 12S p2(n3 −n) La statistique W verifie :´ W ∈ [0;1] W faible correspond a l’ind` ependance des classements ´ Si r s designe les coefficients de rangs de Spearman, on obtient la´ relation r¯ s = pW −1 p−1 ou` r¯ s est la moyenne des C2 p coefficients de Spearman

[PDF] coefficient de corrélation - interprétation

[PDF] régression linéaire

[PDF] coefficient de corrélation r2

[PDF] régression statistique

[PDF] nuage de points statistique

[PDF] exercice covariance statistique corrigé

[PDF] psychologie et pédagogie jean piaget

[PDF] pédagogie et éducation différence

[PDF] spallation cosmique

[PDF] nucléosynthèse primordiale

[PDF] la personne que j'admire le plus est ma mere

[PDF] nucléosynthèse des éléments chimiques

[PDF] nucléosynthèse interstellaire

[PDF] nucléosynthèse dans les étoiles

[PDF] nucléosynthèse explosive

Fiche TD avec le logiciel:tdr522

Rappel sur le rapport de correlation

et

Exemple d'analyse des correspondances multiples

A.B. Dufour

Dans cette seance, nous presentons le rapport de correlation an de mieux apprehender les objectifs des analyses des correspondances et des methodes inter et intra tableaux.

Table des matieres

1 Rapport de correlation 2

1.1 La notion de variation . . . . . . . . . . . . . . . . . . . . . . . .

2

1.2 Le rapport de correlation . . . . . . . . . . . . . . . . . . . . . .

3

1.3 Remarque : la variation intra-groupe . . . . . . . . . . . . . . . .

3

1.4 Representation Graphique . . . . . . . . . . . . . . . . . . . . . .

4

1.5 Exercice, extrait de Dodge [2003] . . . . . . . . . . . . . . . . . .

5

2 Analyse des correspondances multiples 5

2.1 Rappel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5

2.2 Presentation des donnees . . . . . . . . . . . . . . . . . . . . . .

5

2.3 Quelques questions autour de ces donnees . . . . . . . . . . . . .

7

References 11

1

A.B. Dufour

1 Rapport de correlation

Pour etudier le relation entre une variable qualitative et une variable quanti- tative, on decompose la variation totale en variation intergroupe et en variation intragroupe. Pour mesurer l'intensite de la relation, on peut calculer un para- metre appele rapport de correlation.

1.1 La notion de variation

La variance d'une variable quantitative est, par denition, la moyenne des carres des ecarts a la moyenne. On denit : - la variation totale c'est-a-dire la somme des carres des ecarts a la moyenne : vartot=nX i=1(xix)2

Sous, on l'ecrit :

vartot <- function(x) {res <- sum((x - mean(x))^2)return(res)} Exemple.On considere la variable quantitativeX, note obtenue par 15etudiants. notes <- c(13, 11, 10, 11, 12, 5, 8, 7, 2, 4, 16, 17, 13, 16, 15) vartot(notes) [1] 301.3333 - La variation intergroupe Reprenons la variablenoteprecedente. Les 15 etudiants sont repartis dans p= 3 groupes : (1) ceux qui ont suivi la moitie des cours, (2) ceux qui ne sont jamais venus, (3) ceux qui ont suivi tous les cours. Maintenant, l'objectif est de savoir si la note est liee au choix des etudiants de participer ou non aux cours. Supposons que tous les etudiants aient la m^eme note, qu'ils participent beaucoup, moyennement, ou pas du tout au cours. Alors cette valeur commune serait egale a la moyenne calculee sur l'echantillon global. Pour evaluer l'erreur realisee si on considere que les etudiants ont la m^eme note, on calcule le carre des ecarts entre les valeurs mesurees et la moyenne globale, c'est-a-dire la variation totale vue ci-dessus. Si on considere que la note depend du choix des etudiants de participer ou non aux cours, alors la valeur est la moyenne du groupe d'appartenance. Pour evaluer l'erreur realisee si on considere que la note des etudiants est liee au suivi des cours, on va calculer le carre des ecarts entre la moyenne du groupe et la moyenne globale. varinter=pX k=1n k(x kx)2Logiciel R version 2.10.0 (2009-10-26) { tdr522.rnw { Page 2/11 { Compile le 2009-11-17 Maintenance : S. Penel, URL :http://pbil.univ-lyon1.fr/R/pdf/tdr522.pdf

A.B. Dufour

oux kdesigne la note des etudiants du groupeketnk, le nombre d'etudiants appartenant a ce m^eme groupe.

Sous, on ecrit :

varinter <- function(x, gpe) { moyennes <- tapply(x, gpe, mean) effectifs <- tapply(x, gpe, length) res <- (sum(effectifs * (moyennes - mean(x))^2)) return(res)} Exemple.On considere que les etudiants sont classes ici par groupe de 5. suivi <- as.factor(rep(c("1", "2", "3"), rep(5, 3))) varinter(notes, suivi) [1] 264.1333

1.2 Le rapport de correlation

Pour etudier la relation entre une variable qualitative et une variable quan- titative, on calcule le rapport de correlation note2: 2=P p k=1nk(x kx)2P n i=1(xix)2: Si le rapport est proche de 0, les deux variables ne sont pas liees. Si le rapport est proche de 1, les variables sont liees.

Sous, on ecrit :

eta2 <- function(x, gpe) { res <- varinter(x, gpe)/vartot(x) return(res)} Exemple.Que peut-on dire nalement des notes et du suivi des cours par les etudiants? tapply(notes, suivi, mean)

1 2 311.4 5.2 15.4

tapply(notes, suivi, sd)

1 2 31.140175 2.387467 1.516575

eta2(notes, suivi) [1] 0.8765487 Oui, nous le reconnaissons, l'exemple est un peu demagogique.

1.3 Remarque : la variation intra-groupe

D'une maniere generale, la variation totale est la somme de la variation inter- groupes et de la variation intragroupe. Cette derniere est la somme ponderee des variances calculees a l'interieur de chaque groupe. varintra=pX k=1n ks2k=pX k=1(nk1)c2kLogiciel R version 2.10.0 (2009-10-26) { tdr522.rnw { Page 3/11 { Compile le 2009-11-17 Maintenance : S. Penel, URL :http://pbil.univ-lyon1.fr/R/pdf/tdr522.pdf

A.B. Dufour

ous2kest la variance descriptive au sein du groupek,c2kest la variance estimee de la populationk. Elle s'obtient facilement par dierence entre la variation to- tale et la variation inter-groupes. On a alors la relation suivante, fondamentale en statistique :Variation Totale = Variation Inter-groupes + Variation intragroupe

Exemple.Calculs de la variation intra-groupe

vartot(notes) - varinter(notes, suivi) [1] 37.2 effectifs <- tapply(notes, suivi, length) varest <- tapply(notes, suivi, var) sum((effectifs - 1) * varest) [1] 37.2

1.4 Representation Graphique

An de bien visualiser la relation entre une variable quantitative et une variable qualitative, on construit la representation suivante. ?Les groupes sont representes en vertical, la variable quantitative en hori- zontal. ?Un carre blanc represente un individu. ?Les points rouges representent les moyennes dans chaque groupe. ?La ligne en pointille represente la moyenne de l'ensemble des individus. ?Les traits bleus representent les ecarts entre les moyennes des groupes et la moyenne de l'ensemble soit une visualisation de la variation intergroupe. graphnf <- function(x, gpe) { stripchart(x ~ gpe) points(tapply(x, gpe, mean), 1:length(levels(gpe)), col = "red", pch = 19, cex = 1.5) abline(v = mean(x), lty = 2) moyennes <- tapply(x, gpe, mean) traitnf <- function(n) segments(moyennes[n], n, mean(x), n, col = "blue", lwd = 2)sapply(1:length(levels(gpe)), traitnf) }graphnf(notes, suivi)51015 1 2 3 x l l lLogiciel R version 2.10.0 (2009-10-26) { tdr522.rnw { Page 4/11 { Compile le 2009-11-17 Maintenance : S. Penel, URL :http://pbil.univ-lyon1.fr/R/pdf/tdr522.pdf

A.B. Dufour

1.5 Exercice, extrait de Dodge [2003]

On etudie le lien entre la duree de ch^omage (exprimee en semaines) et trois categories socio-professionnelles (cadres - CA, ouvriers qualies - OQ et ouvriers non qualies - ONQ). Les donnees sont resumees dans les commandes ci-dessous. semaine <- 2:14 effCA <- c(5, 3, 8, 7, 2, 1, rep(0, 7))

effOQ <- c(1, 2, 2, 5, 5, 13, 10, 3, 5, 1, 2, 1, 0)effONQ <- c(2, 4, 4, 7, 6, 22, 21, 13, 13, 6, 7, 3, 1)donCA <- rep(semaine, effCA)

donOQ <- rep(semaine, effOQ) donONQ <- rep(semaine, effONQ) chomage <- c(donCA, donOQ, donONQ) profession <- factor(rep(c("CA", "OQ", "NOQ"), c(length(donCA), length(donOQ), length(donONQ)))) 1. D onnerl amo yennee tl av arianced ela du reedu c h^omage,t outescat egories confondues. 2. D onnerl esmo yennese tl esv ariancesp arcat egories ocio-professionnelle. 3. Ex iste-t-ilu ned ierencede d ureed uc h^omagee ntrecat egoriess ocio- professionnelles?

2 Analyse des correspondances multiples

2.1 Rappel

En analyse des correspondances multiples, on recherche une combinaison lineaireydespvariables qualitativesqpmaximisant la somme des rapports de correlations :pX j=1

2(y;qj)

2.2 Presentation des donnees

Les donnees proviennent d'une enqu^ete realisee dans des supermarches ange- vins et parisiens entre 1996 et 1998 dans le but de conna^tre l'avis de consomma- teurs quant aux produits biologiques et aux produits dietetiques. Elles nous sont proposees par Gilles Hunault de l'universite d'Angers et se trouvent originale- ment a l'adressehttp://www.info.univ-angers.fr/~gh/Datasets/pbio.txt avec une copie sur le site pedagogiquehttp://pbil.univ-lyon1.fr/R/donnees/ pbio.txt.

419 individus ont repondu aux questions suivantes :

CONNAITRE

Con naissez-vousl espr oduitsb iologiques?

0 n onr eponse 1 ou i 2 n on DIFF Y a-t -ilun edi erenceen trep roduitb iologiquee tp roduitd ietetique? 0 n onr eponse 1 ou iLogiciel R version 2.10.0 (2009-10-26) { tdr522.rnw { Page 5/11 { Compile le 2009-11-17 Maintenance : S. Penel, URL :http://pbil.univ-lyon1.fr/R/pdf/tdr522.pdf

A.B. Dufour

2 n on

CONSOM

Av ez-vousd ejac onsommede sp roduitsb iologiques? 1 n onj amais 2 ou iu nese ulefoi s 3 ou ir arement 4 ou id et empse nt emps 5 ou ip lusieursfoi spar moi s 6 ou ip lusieursfoi spar se maine 7 n ese pr ononcep as

MARQUE

P armile sm arquess uivantes,l aquellecon naissez-vous? 0 n onr eponse 1 b iov ivre 2 b jorg 3 car refourb io 4 l av ie 5 v rai 6 p rosain 7 f avrichon

CONSVIE

Av ez-vousd ejacon sommed espr oduits' lav ie'?

0 n onr eponse 1 ou iu nef ois 2 ou io ccasionnellement 3 ou ir egulierement 4 n onj amais SEXE

Se xed el ap ersonne

1 h omme 2 f emme AGE

Cl assed' ^age

1 moi nsd e25 an s 2 en tre25 et 35 an s 3 en tre35 et 45 an s 4 en tre45 et 55 an s 5 en tre55 et 65 an s 6 p lusd e65 an s

ETATCIVIL

E tatCi vil

0 au tre 1 mar ie 2 c elibataire 3 d ivorce 4 en con cubinage 5 v euf NBENF

Nom bred' enfants

1 san se nfant 2

1 en fant

3

2 en fants

4

3 en fants

5 p lusd e3 e nfants

SITPROF

S ituationP rofessionnelle

1 agr iculteur 2 ar tisanLogiciel R version 2.10.0 (2009-10-26) { tdr522.rnw { Page 6/11 { Compile le 2009-11-17 Maintenance : S. Penel, URL :http://pbil.univ-lyon1.fr/R/pdf/tdr522.pdf

A.B. Dufour

3 cad res uperieur 4 cad remo yen 5 em ploye 6 ou vrier 7 r etraite 8 au tre 9 n onr eponse

REVENU

C lassede re venusm ensuels

0 n onr eponse 1 moi nsd e5 k F 2 en tre5 et 10 k F 3 en tre10 et 15 k F 4 en tre15 et 20 k F 5 p lusd e20 k F 6 n ese pr ononcep as La premiere colonne CODE correspond a l'identiant associe a la personne in- terrogee. pbio <- read.table("http://pbil.univ-lyon1.fr/R/donnees/pbio.txt", h = T, row.names = 1)

2.3 Quelques questions autour de ces donnees

1.

Q uelleest l ad imensionde ce dat af rame?

2. Ec rirel er esumes tatistiqued udat af ramepbio. Que constate-t-on? Modifer- le pour le rendre conforme a la realite des donnees. 3. Ec rirel enou veaur esumes tatistique.D onnerl en ombred' enqu^etescon nais- sant la marquecarrefour bio. 4. O nn oteq uec ertainsen qu^etesn 'ontpas r eponduau xq uestionsp osees mais que la non reponse n'obeit pas toujours au m^eme codage. On modie le data frame (1) en remplacant les modalites 'non reponse' codees par 0 (sauf dans un cas par 7) par des 'NA' et (2) en ne conservant qu'un data frame des donnees completes. int <- read.table("http://pbil.univ-lyon1.fr/R/donnees/pbio.txt", h = T, row.names = 1)temp <- which(int == 0, arr.ind = TRUE) for (i in 1:100) int[temp[i, 1], temp[i, 2]] <- NA for (i in 1:419) if (int[i, 3] == 7) int[i, 3] <- NAfor (j in 1:11) int[, j] <- factor(int[, j]) pbio.cc <- int[complete.cases(int), ] summary(pbio.cc)

CONNAITRE DIFF CONSOM MARQUE CONSVIE SEXE AGE ETATCIVIL NBENF1:305 1:251 1:76 1: 1 1: 9 1: 96 1:46 1:168 1:1762: 9 2: 63 2:12 2:135 2: 47 2:218 2:93 2: 89 2: 593:70 3: 23 3: 16 3:51 3: 16 3: 534:94 4: 91 4:242 4:77 4: 33 4: 165:20 5: 46 5:24 5: 8 5: 106:42 6: 5 6:237: 13SITPROF REVENU8 :94 1:185 :87 2:794 :64 3:647 :31 4:493 :25 5:832 : 9 6:21(Other): 4Logiciel R version 2.10.0 (2009-10-26) { tdr522.rnw { Page 7/11 { Compile le 2009-11-17

Maintenance : S. Penel, URL :http://pbil.univ-lyon1.fr/R/pdf/tdr522.pdf

A.B. Dufour

On constate que, apres avoir enleve les donnees manquantes, la modalite agriculteurde la variableSITPROFvaut 0. summary(pbio.cc$SITPROF)

1 2 3 4 5 6 7 80 9 25 64 87 4 31 94

levels(pbio.cc$SITPROF) [1] "1" "2" "3" "4" "5" "6" "7" "8" Il faut donc redenir les modalites de cette variable. pbio.cc$SITPROF <- factor(pbio.cc$SITPROF) levels(pbio.cc$SITPROF) [1] "2" "3" "4" "5" "6" "7" "8" 5. Comm enterle sr esultatsd el 'analysede sc orrespondancesm ultiplesr eali- see sur l'ensemble des variables du tableau. library(ade4) acmtot <- dudi.acm(pbio.cc, scannf = F) barplot(acmtot$eig)0.00 0.05 0.10 0.15 0.20

0.25On note que le nombre important des valeurs propres (liees on le rappelle

non aux variables mais aux modalites de ces variables) ne permet pas d'enoncer un critere de selection du nombre de facteurs a conserver. On conserve 4 valeurs propres mais on ne detaillera dans la presentation quequotesdbs_dbs42.pdfusesText_42