[PDF] [PDF] Chapitre V Liaisons et ind´ependance

La liaison entre deux variables X et Y exprime l'information que donne la connaissance 1 Les distributions conditionnelles de X en fréquences sont égales entre elles, c'est-`a-dire observations, et analyser la forme du nuage ainsi formé



Previous PDF Next PDF





[PDF] Chapitre 1 Etude de la liaison entre deux variables Analyse

Chapitre 1 Etude de la liaison entre deux variables Analyse descriptive des données et tests d'indépendance 1re partie Introduction générale Dans ce cours 



[PDF] Chapitre 3 Etude de la liaison entre deux variables Analyse

On note xi et yi les valeurs de X et Y observées sur le i e individu tiré au sort On dispose ainsi de deux échantillons appariés de mesures individu n◦i 1 ···



[PDF] Chapitre V Liaisons et ind´ependance

La liaison entre deux variables X et Y exprime l'information que donne la connaissance 1 Les distributions conditionnelles de X en fréquences sont égales entre elles, c'est-`a-dire observations, et analyser la forme du nuage ainsi formé



[PDF] Analyse de corrélation - Université Lumière Lyon 2

Étude des dépendances - Variables quantitatives L'objectif de la covariance est de quantifier la liaison entre deux variables X et Y , de compatible avec les données, essayer d'obtenir un résumé de l'information via une ACP serait vain



[PDF] Etude des dépendances - Variables qualitatives – Tableau de

10 sept 2007 · 1 Liaison entre 2 variables qualitatives nominales la corrélation entre deux variables dichotomisées artificiellement (Howell, page 181) Autrement dit, l' étude du profil ligne relève d'une analyse différente de l'étude du profil colonne De fait, les mesures que nous étudierons dans ce chapitre se 



[PDF] Statistique descriptive bidimensionnelle

Résumé Liaisons entre variables quantitatives (corrélation et nuages de points) Dans cette section, on s'intéresse à l'étude simultanée de deux variables X



[PDF] Analyse des données - Chapitre 1: Préliminaires - Mohamed

Chapitre 4 : Analyse Discriminante 4 Mesures de liaison entre deux variables 5 Tableaux mathématique du terme) concerné par une étude statistique On



[PDF] Chapitre 3 Les distributions à deux variables - Laboratoire Jean

Autour des tableaux de contingence Etude de la liaison entre deux variables 1 Autour des tableaux de contingence Définition Distributions conditionnelles



[PDF] Corrélation et régression linéaire

Chap 9 1 La corrélation linéaire 2 La régression linéaire 1 La corrélation linéaire Liaison linéaire entre 2 variables quantitatives gaussiennes: on parlera 



[PDF] Chapitre 3 RÉGRESSION ET CORRÉLATION - Mathématiques

L'explication de cette liaison est-elle une information utile à la politique commerciale de l'entreprise ? Dans le texte qui suit, les deux variables considérées 

[PDF] Analyse de corrélation - Université Lyon 2

[PDF] : tdr208 ————— Croisement d'une variable qualitative et d'une

[PDF] Page 1 53 LA PROCÉDURE FREQ DE SAS" TESTS D

[PDF] Introduction à SPSS Statistics 22 - Université de Limoges

[PDF] Séance 3: Liaisons entre variables - Analyse des individus

[PDF] Analyse de corrélation - Université Lyon 2

[PDF] Corrélations génétiques, héritabilités et possibilités de - Hal

[PDF] Autocorrelation and Crosscorrelation in Matlab

[PDF] Help - corr :: Functions (Statistics Toolbox)

[PDF] Régression multiple : principes et exemples d'application

[PDF] 243 Le coefficient de corrélation multiple (ou coefficient de

[PDF] le coefficient de corrélation

[PDF] Commandes SPSS associées aux outils - OER-UCLouvain

[PDF] le coefficient de corrélation

[PDF] les indices d'auto-correlation spatiale - OASIS

Chapitre V. Liaisons et ind

´ependance

La liaison entre deux variables X et Y exprime l" information que donne la connaissance de l"une pour la connaissance de l"autre. On distingue 3 types de liaisons: Ind ´ependance (information nulle): la connaissance de la valeurxi mesur ´ee sur l"individu num´eroine donne aucune information sur la valeuryi. Liaison fonctionnelle (information totale): la connaissance dexi permet de d ´eterminer sans ambigu¨ıt´e la valeuryi(grˆace`a une fonction). Liaison partielle (information partielle): la connaissance dexidonne une information incompl `ete suryi. 1

1) Notion d"ind

´ependance entre deux variables

D

´efinition:Les variablesXetYsont

ind

´ependantes

si l"une des propri

´et´es

ci-dessous est v ´erifi´ee (les propri´et´es sont´equivalentes donc si l"une est v´erifi´ee, les autres le sont automatiquement). 1. Les distributions conditionnelles deXen fr´equences sont´egales entre elles, c"est- `a-direni1=n²1=ni2=n²2=:::=niK0=n²K0, pour tout i= 1;¢¢¢;K. 2. Les distributions conditionnelles deYen fr´equences sont´egales entre elles, c"est- `a-diren1j=n1²=n2j=n2²=:::=nKj=nK², pour tout j= 1;¢¢¢;K0. 3. Les distributions conditionnelles de X (resp. Y) en effectifs sont proportionnelles entre elles. 4.

Pour toutiet toutj,nij=ni²£n²j

n 2

Remarques:

On peut montrer que la propri

´et´e 1 (resp. propri´et´e 2) implique que les distributions conditionnelles en fr

´equences deX(resp. deY) sont

toutes ´egales`a la distribution marginale en fr´equences deX(resp. de Y).

La propri

´et´e 3 indique que les variablesXetYsont ind´ependantes si les distributions conditionnelles deX(ou deY) en effectifs sont proportionnelles; cela revient `a dire que les colonnes (ou les lignes) de la distribution conjointe en effectifs sont proportionnelles, puisque les distributions conditionnelles en effectifs sont effectivement les colonnes (pourX) ou les lignes (pourY).

La propri

´et´e 4 peut aussi s"exprimer au moyen des fr´equences: pour toutiet toutj,fij=fi²£f²j. 3 D"apr `es la propri´et´e 4, les variablesXetYsont ind´ependantes si, pour tous les couples de modalit

´es(mi;m0j)ou pour toutes les cellules du

tableau de contingence (distribution conjointe), les effectifs observ

´esnij

sont

´egaux aux quantit´esni²£n²j

n ; il suffit que cette´egalit´e ne soit pas v ´erifi´ee dans une seule cellule pour que les deux variables ne soient pas ind

´ependantes.

La quantit

´e n i²£n²j n est donc l"effectif qu"on devrait observer pour queX etYsoient ind´ependantes; on l"appelle l"effectif d"ind´ependance ou effectif th

´eorique (d"ind´ependance)

de la modalit

´e(mi;m0j), et on le

note ~nij ("n tilde i j"). Le tableau de contigence contenant les effectifs th

´eoriques~nijs"appelle

tableau de contigence sous hypoth `ese d"ind´ependance 4

2) Test d"ind

´ependance du Khi2

Distribution th

´eorique d"ind´ependance

NotonsDla distribution conjointe (observ´ee) deXetY. D

´efinition:La

distribution th

´eorique d"ind´ependance d"une distribution

conjointeD est la distribution conjointe not

´ee

D dont les effectifs sont les effectifs th

´eoriques

~nij=ni²£n²j n ; c"est la distribution qu"on devrait observer si

X et Y

´etaient ind´ependantes.~Da les mˆemes marges queD, et ses distributions conditionnelles en fr

´equence sont´egales.

D"apr `es la propri´et´e 4,XetYsont donc ind´ependantes si la distribution conjointe Dest´egale`a sa distribution th´eorique d"ind´ependance~D. Le taux de liaison d"un couple de modalit

´es(mi;m0j)

mesure l"

´ecart (relatif)

entre l"effectif observ ´e et l"effectif qu"on devrait observer sous hypoth`ese d"ind ´ependance (l"effectif th´eorique). Sa valeur est: t ij=nij¡~nij p ~nij 5 Statistique duÂ2: distance entre distribution observ´ee et distribution th

´eorique (d"ind´ependance).

Dans la pratique, la distribution observ

´eeDn"est presque jamais identique`a la

distribution d"ind ´ependance~D, mˆeme quand on sait queXetYsont ind ´ependantes. Ceci est dˆu aux "fluctuations d"´echantillonnage": les "effets du hasard" font que, m ˆeme pour des variables en th´eorie ind´ependantes dans une population, les observations issues de ces variables (qui sont mesur

´ees sur un

echantillon pris au hasard) ont une distributionDqui n"est pas exactement la m ˆeme que la distribution d"ind´ependance~D. Pour´etudier l"ind´ependance deXet Y, nous allons doncˆetre conduits`a juger de la proximit´e deDavec~D. La statistique duÂ2est une mesure de l"´ecart entre une distribution conjointe observ ´ee et sa distribution th´eorique d"ind´ependance. Sa valeur est la somme des carr

´es des taux de liaisons:

2(D) =KX

i=1K 0X j=1t

2ij=KX

i=1K 0X j=1(nij¡~nij)2 ~nij 6

LesK£K0termes positifs ou nuls

t

2ij=(nij¡~nij)2

~nij s"appellent contributions (des couples de modalit

´es(mi;m0j)) auÂ2

2(D)est nul si et seulement siD=~D. En effet,Â2(D)´etant une

somme de nombres positifs ou nuls, il ne peut s"annuler que si tous les termes sont nuls, autrement dit si les effectifs observ

´esnijsont´egaux aux

effectifs th ´eoriques~nij. Cette derni`ere remarque permet d"´enoncer une cinqui `eme d´efinition´equivalente de l"ind´ependance:XetYsont ind

´ependantes siÂ2(D) = 0.

Comme on l"a

´evoqu´e pr´ec´edemment, en pratique il est tr`es rare d"avoir

2(D)nul pour une distributionDobserv´ee sur un´echantillon pris au

hasard, m ˆeme si les variablesXetYsont r´eellement ind´ependantes dans la population. On va donc introduire une notion d"ind

´ependance moins

stricte, l"ind

´ependance statistique

7

XetYsont dites

statistiquement ind

´ependantes

si les

´ecarts entre les

n ijet~nijsont "petits" et peuventˆetre consid´er´es comme "l"effet du hasard induit par l" ´echantillonnage". Ceci´equivaut`a dire queXetYsont statistiquement ind ´ependantes si et seulement si leÂ2de la distribution est "petit" et peut ˆetre consid´er´e comme une cons´equence des "fluctuations de l"

´echantillonnage".

Le test duÂ2d"ind´ependance vise `a d´ecider siXetYpeuventˆetre consid ´er´ees comme statistiquement ind´ependantes dans une population,`a partir de leur mesure conjointe sur un

´echantillon.

On souhaite donc tester l"hypoth

`ese: H: Les variablesXetYsont statistiquement ind´ependantes. On calcule leÂ2de la distribution conjointe observ´eeD, et on voit si cette valeur est "suffisament petite". 8

Si X et Y sont ind

´ependantes, la distribution des distances duÂ2 d" ´echantillons choisis au hasard est une loi connue: la distribution (th ´eorique) duÂ2; elle d´epend du nombre(K¡1)£(K0¡1), son degr ´e de libert

´e (ddl)

. Cette distribution est g

´en´eralement donn´ee par des

quantiles dans une table (voir table duÂ2sur le site internet). Par exemple, siK=K0= 2, on a un ddl de(2¡1)£(2¡1) = 1et le 95
`eme centile est´egal`a3:8415, le99`eme`a6:6349; cela signifie que si on mesurait(X;Y)sur un grand nombre d"´echantillons, sous les hypoth`eses queXetYsont ind´ependantes dans la population et les´echantillons sont "choisis au hasard", alors5%des´echantillons auraient une valeur duÂ2 (dont la formule est donn ´ee en bas de la page 6) sup´erieure`a3:8415,1% sup

´erieure`a6:6349

9 Proc ´edure pour appliquer le test d"ind´ependance duÂ2 1. Calcul deÂ2(D), la distance duÂ2de la distribution conjointe observ´eeD (calcul du tableau des effectifs th

´eoriques~nij, calculs et addition des

contributions), puis de son degr

´e de libert´eddl= (K¡1)£(K0¡1).

2. Choix d"un quantile d"ordre1¡®, not´eq1¡®, de la distribution th´eorique du

2comme seuil de la d´ecision. On prendra g´en´eralement le95`eme (q:95) ou

le99`eme (q:99) centile (1¡®= 0:95ou1¡®= 0:99). 3. Calcul de la valeurlddl(1¡®)du quantileq1¡®`a partir de la table duÂ2et du degr

´e de libert´eddl.

4.

Prise de d

´ecision en comparantÂ2(D)`alddl(1¡®): SiÂ2(D)¸lddl(1¡®), on rejette l"hypoth`eseHd"ind´ependance deX etYdans la population, en les consid´erant comme li´ees. SiÂ2(D)< lddl(1¡®), on ne rejette pas l"hypoth`ese d"ind´ependance en consid

´erant comme plausible qu"elles le soient.

10 Remarque: Pour le choix du quantile de la distribution duÂ2, q

1¡®=lddl(1¡®), la quantit´e®est appel´ee

l"erreur de 1 `ere esp`ece et repr ´esente la probabilit´e de se tromper lorsqu"on rejette l"hypoth`ese d"ind ´ependanceH(alors que celle-ci est en fait vraie). Exemple:Parmi un groupe de 200 malades qui se plaignent de ne pas bien dormir, certains ont pris un somnif `ere sous forme de cachet, d"autres ont pris un cachet de sucre; tous pensaient prendre un somnif `ere. Apr`es la nuit, on leur a demand ´e si le cachet avait´et´e efficace. Le tableau suivant donne la r´epartition des r ´eponses (on suppose que tous les malades ont dit la v´erit´e) : R

´eponse

Ont bien dormi

N"ont pas bien dormi

Somnif

`ere 52
12 Sucre 96
40
11

On calcule tout d"abord les effectifs marginaux:

XnY

Ont bien dormi

N"ont pas bien dormi

Total X

Somnif

`ere 52
12 64
Sucre 96
40
136

Total Y

148
52
n=200

Les effectifs th

´eoriques~nijsont donn´es dans le tableau ci-dessous: XnY

Ont bien dormi

N"ont pas bien dormi

Somnif

`ere 47.36
16.64 Sucre

100.64

35.36
12 D"o `u la valeur de la distance duÂ2:

2(D) =(52¡47:36)2

47:36+(96¡100:64)2

100:64+(12¡16:64)2

16:64+(40¡35:36)2

35:36
= 2:57

Ici le degr

®= 5%par exemple, d"apr`es la table duÂ2, le quantile est l

1(95%) = 3:8415. On ne rejette donc pas l"hypoth`ese d"ind´ependanceH

et on consid `ere qu"il est possible que les variables soient ind´ependantes. 13

3) Cas de deux variables quantitatives: le coefficient de

corr

´elation lin´eaire

Dans ce paragraphe nous

´etudions la

liaison entre deux variables quantitatives . On peut, bien entendu, appliquer aux deux variables les proc ´edures d´evelopp´ees dans le paragraphe pr´ecedent. La particularit´e est que chaque observation ´etant un couple de nombres(xi;yi), elle peutˆetre repr ´esent´ee graphiquement par un point d"un plan; on peut alors faire appel `a des proc´edures g´eom´etriques pour visualiser l"ensemble des observations, et analyser la forme du nuage ainsi form

´e. Pour´etudier

l"existence d"une liaison entre les deux variables, nous introduisons la notion de covariance (d"un couple de variables) puis le coefficient de corr

´elation lin´eaire

, un indice de covariation lin

´eaire des deux variables.

14

Nuage des observations

Sur un plan, on place un rep

`ere orthonorm´e: l"axe horizontal gradu´e des abscisses qui identifie les valeurs de la variableX, et l"axe vertical gradu´e des ordonn ´ees qui identifie celles de la variableY; l"observation de l"individu num ´eroiest repr´esent´ee par le point d"abscissexiet d"ordonn ´eeyi. L"ensemble des points est le nuage des observations. Le point "moyen" M de coordonn ´ees¹xet¹yest le centre de gravit´e du nuage.

Exemple: Notes de partiel et de TD

Dans le tableau ci-dessous, on a relev

´e les notes de TD (X) et les notes de

partiel (Y) obtenues en statistique par un groupe de 15´etudiants. X 8 13 10 10 9 15 16 13 10 13quotesdbs_dbs7.pdfusesText_13