[PDF] [PDF] Régression linéaire simple





Previous PDF Next PDF



[PDF] Cours 12 : Corrélation et régression - uOttawa

Test sur le coefficient de corrélation de Pearson explique la variance en Y et cette quantité est donnée par r2 Autrement dit si nous



[PDF] Méthode des moindres carrés

son coefficient de corrélation linéaire défini par Parfois on préf`ere calculer non plus rxy mais son carré noté R2 = rxyrxy car on a la relation



[PDF] Régression linéaire simple

(8) Coefficient de détermination R2 ou carré du coefficient de corrélation 4 Inférence 4 1 Loi des paramètres Les estimateurs ?



[PDF] Chapitre 4 : Régression linéaire

Remarque : La régression di ère de l'analyse de la corrélation où toutes les une valeur de R2 proche de 1 (voir chapitre corrélation de Pearson) est 



[PDF] Analyse de corrélation - GILLES HUNAULT (giluno)

Le coefficient de corrélation linéaire simple dit de Bravais-Pearson (ou de avec ˆr2 = 0 81 on peut dire que 81 de la variance de Y est expliquée par 



[PDF] 12 Régression linéaire simple - GERAD

Le coefficient R2 mesure le pourcentage de la variabilité totale SY Y qui est expliquée par le mod`ele Si R2 est proche de 1 alors le mod`ele semble adéquat



[PDF] Value of r2 in Statistical Analysis by Pearson Correlation Coefficient

1 nov 2017 · During interpretation of correlation coefficient we should consider the coefficient of determination (r2) value along with r and p values The 



[PDF] Grain 7 : Régression Linéaire - Fun Mooc

Dans le grain 2 la notion de corrélation entre deux variables a été abordée Un indicateur de la qualité est le coefficient de détermination R2 défini 



[PDF] Le modèle linéaire avec R : fonction lm()

R2 : coefficient de determination avant de le définir il faut définir 3 sommes de carrés On partitionne la variation totale de Y (SST) en 2 composantes 



[PDF] 243 Le coefficient de corrélation multiple (ou coefficient de

r2 = 0 9699 La matrice de variance-covariance des coefficients b est: b0 24 75 0 9 -22 5 Page 40 2 Corrélation et régression 40 b1 0 9 0 36 -3 6 b2 -22 5 



[PDF] Cours 12 : Corrélation et régression

Pour calculer le coefficient de corrélation il faut premièrement pouvoir calculer la covariance entre deux échantillons On se rappelle que la variance 



[PDF] Chapitre 4 : Régression linéaire

- si R2 = 1 les points sont alignés sur la droite la relation linéaire explique toute la variation - une valeur de R2 proche de 1 (voir chapitre corrélation 



[PDF] Méthode des moindres carrés

Ces jeux de données ont été choisit de mani`ere a définir la même droite de regressions et avec le même coefficient de corrélation R2 De gauche `a droite et 



[PDF] Régression linéaire

Exemples : Voici quatre jeux de données choisis de mani`ere `a définir la même droite de régression et avec le même coefficient de corrélation linéaire ? De 



[PDF] Régression linéaire - LPSM

Le coefficient de détermination R2 est égal au carré du coefficient de corrélation linéaire entre les variables x et y ce qui donne : R2 =



[PDF] 12 Régression linéaire simple - GERAD

Le coefficient de corrélation ? est estimé ponctuellement par r Exemple 1 : r ? 99 81 MTH2302D: régression 45/46 Page 



[PDF] Régression linéaire multiple ou modèle gaussien

Le coefficient de détermination R2 = 1?SSE/SST directement lié à la dé- viance (SSE) est aussi un indice de qualité mais qui a la propriété d'être mono- tone 



[PDF] Régression linéaire simple

(8) Coefficient de détermination R2 ou carré du coefficient de corrélation 4 Inférence 4 1 Loi des paramètres Les estimateurs ?



coefficient de détermination Lexique de mathématique

Le coefficient de détermination (R² soit le carré du coefficient de corrélation linéaire r) est un indicateur qui permet de juger la qualité d'une 

  • Comment interpréter le R2 ?

    Interprétation des valeurs de R carré? Ce coefficient est compris entre 0 et 1, et croît avec l'adéquation de la régression au modèle: – Si le R² est proche de zéro, alors la droite de régression colle à 0% avec l'ensemble des points donnés.
  • Comment calculer le coefficient de corrélation R2 ?

    Par ailleurs, dans le cas de la régression linéaire simple, le R2 est égal au coefficient de corrélation de Pearson au carré, entre la variable réponse (Y), et la variable prédictive (X).
  • Comment calculer coefficient de corrélation R ?

    Le coefficient de corrélation �� détermine l'intensité de la corrélation entre deux variables �� et �� et est calculé en utilisant la formule �� = �� ? �� �� ? ? ? �� ? �� ? ? �� ? �� ? ? ? �� ? ? �� ? �� ? ? ? �� ? , ? ? ? ? où �� est le nombre de valeurs appariées de �� et �� .
  • Le coefficient de détermination est noté R². Dans le cas d'une corrélation linéaire, R² = r², où r est le coefficient de corrélation linéaire. À noter que R² n'est le carré du coefficient de corrélation r que dans le cas particulier de la régression linéaire.

Régression linéaire simple

Régression linéaire simple

Résumé

Ce chapitre introduit la notion de modèle linéaire par la version la plus élémentaire : expliquerYpar une fonction affine deX. Après avoir expliciter les hypothèses nécessaires et les termes du modèle, les notions d"estimation des paramètres du modèle, de prévision par intervalle de confiance, la signification des tests d"hypothèse sont discutées. Enfin une attention particulière est faite aux outils de diagnostics disponibles : valeurs influentes, et surtout graphe des résidus.

Retour au

plan du cour s

1 Introduction

Ce chapitre est une introduction à la modélisation linéaire par le modèle le plus élémentaire, la régression linéaire simple où une variableXest ex- pliquée, modélisée par une fonction affine d"une autre variabley. La finalité d"un tel modèle est multiple et dépend donc du contexte et surtout des ques- tions sous-jacentes. Ce peut-être juste une approche exploratoire ou alors la recherche d"une réponse à une question du type : une variable quantitativeX (e.g. la concentration d"une molécule) a-t-elle une influence sur la variable quantitativeY(e.g. une culture bactérienne)? Ou enfin la recherche d"un mo- dèle de prévision deYen fonction deX: calibration d"un appareil de mesure d"une concentration à partir d"une mesure optique. Des concepts clefs : mo- dèle, estimations, tests, diagnostics sont introduits et déclinés dans ce contexte élémentaire. Leur emploi et leur signification dépendent des objectifs. Ils se re- trouvent dans une présentation plus général du modèle de régression multiple et ce chapitre sert donc d"introduction. Avant tout travail de modélisation, une approche descriptive ou exploratoire est nécessaire pour dépister au plus tôt des difficultés dans les données : dis- symétrie des distributions, valeurs atypiques, liaison non linéaire entre les va- riables. En fonction des résultats obtenus, une transformation préalable des va- riables peut s"avérer nécessaire. Dans l"exemple de la figure 1 , le choix d"uneFIGURE1 -Exemple de régression du poids d"un arbre en fonction de la variable diamètrehauteur et diamètrehauteur au carré variable explicative homogène à un volume semble plus judicieux pour estimer le poids d"un arbre.

2 Modèle

On noteYla variable aléatoire réelle à expliquer (variable endogène, dé- pendante ou réponse) etXla variable explicative ou effet fixe (exogène). Le modèle revient à supposer, qu"en moyenne,E(Y), est une fonction affine de X. L"écriture du modèle suppose implicitement une notion préalable decau- salitédans le sens oùYdépend deXcar le modèle n"est pas symétrique.

E(Y) =f(X) =0+1XouY=0+1X+"

Remarque: Nous supposerons pour simplifier queXest déterministe. Dans le cas contraire,Xaléatoire, le modèle s"écrit alors conditionnellement aux observations deX:E(YjX=x) =0+1xet conduit aux mêmes estima- tions. Leshypothèsesrelatives à ce modèle sont les suivantes : 1. la distrib utionde l"erreur "est indépendante deXouXest fixe, 2. l"erreur est centrée et de v arianceconstante (homoscédasticité) :

8i= 1;:::;n E("i) = 0;Var("i) =2:

3.0et1sont constants, pas de rupture du modèle.1

Régression linéaire simple

4. Hypothèse complémentaire pour les inférences : " N(0;2).

3 Estimation

3.1 Paramètres

L"estimation des paramètres0;1;2est obtenue en maximisant la vrai- semblance, sous l"hypothèse que les erreurs sont gaussiennes, ou encore par minimisation de la somme des carrés des écarts entre observations et modèle (moindres carrés). Les deux approches conduisent aux mêmes estimation tan- dis que le maximum de vraisemblance induit de meilleure propriétés des es- timateurs. Pour une séquence d"observationsf(xi;yi)i= 1:::;ng, le critère des moindres carrés s"écrit : min 0;1n X i=1(yi01xi)2:

On pose :

x=1n n X i=1x i;y=1n n X i=1y i; s

2x=1n1n

X i=1(xix)2; s2y=1n1n X i=1(yiy)2; s xy=1n1n X i=1(xix)(yiy); r=sxys xsy;

Les moindres carrés sont minimisés par :

b

1=sxys

2x; b

0= yb1x

qui sont les réalisations des estimateurs c0etc1. On montre que ces estima- teurs sans biais et de variance minimum parmi les estimateurs fonctions li- néaires desyi(resp. parmi tous les estimateurs dans le cas gaussien). À chaque valeur deXcorrespond la valeurestiméeou ajustée deY: byi=b0+b1xi;lesrésiduscalculés ou estimés sont : e i=yibyi: La variance2est estimée par la variation résiduelle : s

2=1n2n

X i=1e 2i: Exemple : Analyse de régression : Poids en fonction de D2xH

L"équation de régression est

Poids = 0,0200 + 0,00829 D2xH

Régresseur Coef Er-T coef T P

Constante 0,01999(1) 0,01365(3) 1,46 0,160

D2xH 0,0082897(2) 0,0002390(4) 34,68 0,000(1)b0

(2)b1 (3) écart-type de c0:sb0 (4) écart-type dec1:sb13.2 Qualité d"ajustement Il est d"usage de décomposer les sommes de carrés des écarts à la moyenne sous la forme ci-dessous; les notations sont celles de la plupart des logiciels :

Total sum of squaresSST= (n1)s2y;

Regression sum of squaresSSR= (n1)s2

xys 2x;

Error sum of squaresSSE= (n2)s2;

et on vérifie : SST=SSR+SSE. On appellecoefficient de déterminationla quantité R

2=r2=s2xys

2xs2y= 1n2n1s

2s

2y=SSRSST

qui exprime le rapport entre la variance expliquée par le modèle et la variance totale.2

Régression linéaire simple

Exemple : Analyse de régression : Poids en fonction de D2xH

Analyse de variance

Source DL SC CM F P

Régression 1(1) 1,8108(2) 1,8108(5) 1202,89 0,000

Erreur résid 18 0,0271(3) 0,0015(6)

Total 19 1,8379(4)

S = 0,03880(7) R-carré = 98,5%(8) R-carré (ajust) = 98,4%(1) degrés de liberté de la loi de Fisher du test global (H0:1= 0)

(2) SSR (3) SSE ou déviance (4) SST=SSE+SSR (5) SSR/DF (6)s2=MSE=SSE/DF est l"estimation de2" (7)s=racine de MSE (8) Coefficient de déterminationR2ou carré du coefficient de corrélation.4 Inférence

4.1 Loi des paramètres

Les estimateurs

c0etc1sont des variables aléatoires réelles de matrice de covariance : 2"1n +x2(n1)s2xx(n1)s2xx(n1)s2x1(n1)s2x# qui est estimée en remplaçant2par son estimations2. Sous l"hypothèse que les résidus sont gaussiens, on montre que (n2)S2

22(n2)

et donc que les statistiques c00), s1n +x2(n1)s2x 1=2 et(c11), s1(n1)s2x 1=2 suivent des lois de Student à(n2)degrés de liberté. Ceci permet de tes-

ter l"hypothèse de nullité d"un de ces paramètres ainsi que de construire lesintervalles de confiance :

b

0t=2;(n2)s1n

+x2(n1)s2x 1=2 b

1t=2;(n2)s1(n1)s2x

1=2 Attention: une inférence conjointe sur0et1ne peut être obtenue en consi- dérant séparément les intervalles de confiance. La région de confiance est en effet une ellipse d"équation : n(b00)2+2(b00)(b11)nX i=1x i+(b11)2nX i=1x

2i= 2s2F;2;(n2)

qui est inclue dans le rectangle défini par les intervalles. Un grande part des valeurs du couple(0;1)est donc exclue de la région de confiance et ce d"autant plus queb0etb1sont corrélés.

Sous l"hypothèse :1= 0, la statistique

(n2)R21R2= (n2)SSRSSE suit une distribution de FisherF1;(n2). Cette statistique est le carré de la sta- tistique de Student correspondant à la même hypothèse.

4.2 Prévision par intervalle de confiance

Connaissant une valeurx0, on définit deuxintervalles de confiance de pré- visionà partir de la valeur préditeby0=b0+b1x0. Le premier encadreE(Y) sachantX=x0; le deuxième, qui encadreby0est plus grand car il tient compte de la variance totale :2+Var(by0): by0t=2;(n2)s1n +(x0x)2(n1)s2x 1=2 by0t=2;(n2)s 1 +1n +(x0x)2(n1)s2x 1=2 Les logiciels proposent également unebande de confianceentre deux arcs d"hyperboles pour la droite de régression. À chaque point(b0;b1)de l"ellipse3

Régression linéaire simple

ces droites sont comprises entre les bornes : bysqF

1;(n2)1n

+(xx)2(n1)s2x 1=2 Ceci signifie que cette bande recouvre la "vraie" ligne avec une probabilité

1. Elle est plus grande que celle associée aux intervalles de confiance des

E(Y). Attention: la prévision par intervalle n"est justifiée que pour des observa- tions appartenant à la population échantillonnée et à condition que les hypo- thèses : linéarité, erreurs i.i.d., (normalité), homoscédasticité, soient valides.

Éviter les extrapolations.

4.3 Tests d"hypothèse

Les tests précédents prennent une signification particulière avec un objectif "explicatif";désigne le niveau des tests, souvent= 5%. Comme pour tous les tests usuels de comparaison d"échantillon, les logiciels fournissent les probabilités critiques ouP-valeurs qui, en pratique, sont comparées avec le seuil prédéterminé. Le test de Fisher s"intéresse à la significativité globale d"un modèle. Dans le cas de la régression simple, seul le paramètre1est concerné :

F= (n2)R21R2= (n2)SSRSSE

suit une loi de Fisher à(1;n2)degrés de liberté. L"hypothèseH0:1= 0, est rejetée siF > f1;n2;1=2ou si laP-valeur associée est inférieure à. Plus précisément, l"hypothèseH0:1= 0répond aussi à la question de l"influence deXsurY. La réponse est négative siH0est acceptée : la pente de la droite de régression est nulle, le nuage de point est réparti sans structure linéaire significative. La réponse est positive lorsque le test est significatif et donc l"hypothèse rejetée. Ce paramètre suit une loi de Student etH0rejetée lorsquet1=jb1js b1> tn2;1=2ou si laP-valeur associée est inférieure à. Ce test est strictement équivalent au test de Fisher précédent, il conduit à la mêmeP-valeur.Enfin, le test de l"hypothèseH0:0= 0qui signifie : "la droite passe par l"origine", a un intérêt limité à des situations très particulières comme la calibration du "zéro" d"un appareil de mesure. Elle est rejetée sit0=jb0js b0> t n2;1=2

5 Influence

tribution gaussienne douteuse, est très sensible à des observations atypiques, hors "norme" (outliers) c"est-à-dire qui présentent des valeurs trop singulières. L"étude descriptive initiale permet sans doute déjà d"en repérer mais c"est in- suffisant. Un diagnostic doit être établi dans le cadre spécifique du modèle recherché afin d"identifier les observationsinfluentesc"est-à-dire celles dont une faible variation du couple(xi;yi)induisent une modification importante des caractéristiques du modèle. Ces observations repérées, il n"y a pas de remède universel : supprimer un valeur aberrante, corriger une erreur de mesure, construire une estimation ro- buste (en normeL1), ne rien faire..., cela dépend du contexte et doit être négocié avec le commanditaire de l"étude.

5.1 Effet levier

Une première indication est donnée par l"éloignement dexipar rapport à la des observations : byi=b0+b1xi=nX j=1h ijyjavechij=1n +(xix)(xjx)P n j=1(xjx)2; en notantHla matrice (hat matrix) deshijceci s"exprime encore matricielle- ment : b y=Hy: Les éléments diagonauxhiide cette matrice mesurent ainsi l"impact ou l"im- portance du rôle que joueyidans l"estimation debyi.

5.2 Résidus et PRESS

Différents types de résidus sont définis afin d"affiner leurs propriétés. 4

Régression linéaire simple

Résidus :ei=yibyi

Résidus

(i):e(i)i=yidy(i)i=ei1hiioùdy(i)iest la prévision deyicalculée sans laième observation(xi;yi).

Ce type de résidu conduit à la définition du PRESS (predicted residual sum of squares) dit de Allen :

PRESS=1n

n X i=1e

2(i)i=1n

n X i=1 ei1hii 2 C"est une estimation sans biais de la qualité de prévision d"un modèle car une même observation n"est pas utilisée, à la fois, pour estimer le mo- dèle et l"erreur de prévision. Le PRESS est très utile pour comparer les qualités prédictives de plusieurs modèles. Ce point important sera déve- loppé dans le cas du modèle linéaire multiple : le coefficientR2permet de comparer les qualités d"ajustement mais la meilleure prévision n"est pas nécessairement fournie par un modèle deR2maximum. Le PRESS encore appeléleave one out cross validation (loo CV)est plus pertinent pour atteindre cet objectif.Remarquerque dans le cas particulier du mo- et des termes diagonauxhiide la matriceH. Pour d"autres modèles, le calcul du PRESS nécessite l"estimation, éventuellement coûteuse, den modèles. Résidus standardisés :Même si l"hypothèse d"homoscédasticité est vérifiée, ceux-ci n"ont pas la même variance :E(ei) = 0et Var(ei) =2(1hii). Il est donc d"usage d"en calculer des versionsstandardiséesafin de les rendre comparables : r i=eis p1hii: Résidus studentisés :La standardisation ("interne") dépend deeidans le cal- cul desestimation de Var(ei). Une estimation non biaisée de cette va- riance est basée sur s 2(i)= (n2)s2e2i1hii =(n3) qui ne tient pas compte de laième observation. On définit alors les résidus studentiséspar : t i=eis (i)p1hii:Sous hypothèse de normalité, on montre que ces résidus suivent une loi de Student à(n3)degrés de liberté. Il est ainsi possible de construire un test afin tester la présence d"uneobser- vation atypique ou de plusieurs en utilisant l"inégalité de Bonferroni. Plus concrètement, en pratique, les résidus studentisés sont comparés aux bornes 2.

6 Diagnostics

6.1 Distance de Cook

Les deux critères précédents contribuent à déceler des observations poten- tiellement influentes par leur éloignement àxou la taille des résidus. Ces in- formations sont synthétisées dans des critères évaluant directement l"influence d"une observation sur certains paramètres : les prévisionsbyi, les paramètres b

0;b1, le déterminant de la matrice de covariance des estimateurs. Tous ces

indicateurs proposent de comparer un paramètre estimé sans lai-ème observa- tion et ce même paramètre estimé avec toutes les observations. Le plus couramment utilisé est la distance de Cook : D i=P n j=1(dy(i)jbyj)22s2=hii2(1hii)r2ipouri= 1;:::;n qui mesure donc l"influence d"une observation sur l"ensemble des prévisions en prenant en compte effet levier et importance des résidus. La stratégie de détection consiste le plus souvent à repérer les points aty- piques en comparant les distances de Cook avec la valeur1puis à expliquer cette influence en considérant, pour ces observations, leur résidu ainsi que leur effet levier.

6.2 Graphe des résidus

Attention: la présentation "pédagogique" des concepts de la régression li- néaire ne doit pas faire négliger l"étape de diagnostic des résidus. Concrète- ment, le graphe des résidus est la première chose à consulter après l"estima- tion d"un modèle linéaire. L"appréciation de sa forme, même si celle-ci reste "subjective", renseigne précisément sur la validité des hypothèses implicites 5

Régression linéaire simple

FIGURE2 -Les résidus (à gauche) de la régression du poids en fonction du produit (diamètrehauteur) montre clairement un problème de linéarité. La transformation de la variable diamètre (carré) améliore ce diagnostic mais soulève (à droite) une problème d"hétéroscédasticité du modèle dont surtout celle de linéarité et celle d"homoscédasticité. Dans le cas contraire, toutes les décisions issues de tests et les intervalles de confiances n"ont plus de légitimité. Si certaines des hypothèses ne sont pas vérifiées, des mesures s"imposent comme la recherche de transformation des variables. L"homoscédasticité et la linéarité du modèle sont évalués par un graphique des résidus studentisés ou non :(xi;ti)qui doit se disperser "normalement" de part et d"autre de l"axey= 0: symétriquement et sans forme particulière. Des formes d""entonnoir", ou de "diabolo" du nuage font suspecter une hété- roscédasticité des résidus, celle d"une "banane" indique une possible relation non linéaire entreYetX. Même si cette hypothèse est moins sensible, le modèle est robuste surtout en cas de grand échantillon, il est sage de vérifier la normalité des résidus en étudiant leur distribution par exemple par une simple droite de Henri. Enfin l"auto-corrélation des résidus dans le cas par exemple où la variable explicative est le temps pose également des problèmes. Une modélisation de type série chronologique (ARMA, SARIMA) des résidus serait à tester.quotesdbs_dbs42.pdfusesText_42
[PDF] régression statistique

[PDF] nuage de points statistique

[PDF] exercice covariance statistique corrigé

[PDF] psychologie et pédagogie jean piaget

[PDF] pédagogie et éducation différence

[PDF] spallation cosmique

[PDF] nucléosynthèse primordiale

[PDF] la personne que j'admire le plus est ma mere

[PDF] nucléosynthèse des éléments chimiques

[PDF] nucléosynthèse interstellaire

[PDF] nucléosynthèse dans les étoiles

[PDF] nucléosynthèse explosive

[PDF] nucléosynthèse stellaire pdf

[PDF] recettes du 18ème siècle

[PDF] menu du 19 siecle