Régression linéaire simple PDF Ce chapitre est une introduction à

Chapitre 4 : Régression linéaire

Remarque : La régression di ère de l'analyse de la corrélation où toutes les variables jouent un rôle symé- trique (pas de variable dépendante versus

Modèles de régression linéaire

1 avr. 2010 cédure de régression linéaire multiple puis deux procédures de régression linéaires simples

13 Régression linéaire simple

Il y a 3 tests possibles pour une régression linéaire simple (une seule variable explicative). ;. • un test pour le coefficient β1 par la table de l'analyse de

MODELES LINEAIRES

Selon la forme de la matrice X on est dans le cas de la régression linéaire (X est alors composée de la variable constante 1 et des p variables explicatives)

Premi`eres notions de statistique Régression Linéaire

aléatoires. F. Picard 11/59. Page 12. Généralités. Régression. Régression Linéaire. Régression simple. Tests. Table ANOVA. Résidus. Régression Multiple.

Régression linéaire multiple

Considérer plusieurs variables explicatives. Exemple : La température et la vitesse du vent. Frédéric Bertrand. Régression linéaire multiple. Page

Régression linéaire avec la calculatrice TI-Nspire

Utilisons la calculatrice TI-Nspire pour vérifier par régression linéaire la loi d'Arrhénius et déterminer la valeur de l'énergie d'activation d'une

Compléments sur la régression linéaire simple et inférence sur les

12 juin 2015 mesure le pourcentage d'explication du modèle par la régression linéaire. 2. Le rapport cmres = scres n − 2 est l'estimation de la variance ...

Régression sur variables qualitatives Analyse de la variance

Solution : contrainte linéaire identifiante sur les cœfficients → reparamétrisation du mod`ele. 1. Contrainte de type analyse par cellule : µ = 0. On pose

Chapitre 4 : Régression linéaire

Remarque : La régression di ère de l'analyse de la corrélation où toutes les variables jouent un rôle symé- trique (pas de variable dépendante versus

13 Régression linéaire simple

Il y a 3 tests possibles pour une régression linéaire simple (une seule variable explicative). ;. • un test pour le coefficient ?1 par la table de l'analyse de

Régression linéaire simple

Ce chapitre est une introduction à la modélisation linéaire par le modèle le plus élémentaire la régression linéaire simple où une variable X est ex-.

Premi`eres notions de statistique Régression Linéaire

5 Tests intervalles de confiance

Fiche synthèse sur la régression linéaire simple.pdf

26 mars 2010 L'analyse de régression linéaire simple permet de quantifier le lien de causalité entre deux variables pour entre autre

Corrélation et régression linéaire simple

En statistique le terme de corrélation est réservé pour désigner la liaison entre 2 variables QUANTITATIVES (le plus souvent continues). Corrélation /

Interpréter les coefficients dune régression linéaire Modèle niveau

Pour des raisons pédagogiques nous utiliserons une application de la régression linéaire par moindres carrés afin d'apprendre à interpréter les

Régression linéaire simple dans Excel

L'analyse de régression linéaire simple permet de quantifier le lien de causalité entre deux variables pour entre autre

COLINÉARITÉ ET RÉGRESSION LINÉAIRE Thierry FOUCART1 1

Les conséquences de la colinéarité statistique entre les variables explicatives sont les suivantes : - les coefficients de régression estimés peuvent être

Régression linéaire

Régression linéaire. Arnaud Guyader. Ce cours est tiré des quatre premiers chapitres du livre de Pierre-André Cornillon et Eric Matzner-.

[PDF] Chapitre 4 : Régression linéaire

Chapitre 4 : Régression linéaire I Introduction Le but de la régression simple (resp multiple) est d'expliquer une variable Y à l'aide d'une variable X

[PDF] Régression linéaire - LPSM

Régression linéaire Arnaud Guyader Ce cours est tiré des quatre premiers chapitres du livre de Pierre-André Cornillon et Eric Matzner-

[PDF] Régression linéaire simple

Ce chapitre est une introduction à la modélisation linéaire par le modèle le plus élémentaire la régression linéaire simple où une variable X est ex-

[PDF] 13 Régression linéaire simple - Université du Québec

La régression linéaire est une méthode de modélisation permettant d'établir une rela- tion linéaire entre une variable continue dite "variable expliquée" ou

[PDF] 12 Régression linéaire simple - GERAD

Régression linéaire simple 3 Estimation des param`etres 4 Intervalles de confiance et tests 5 Analyse des résidus 6 Corrélation

[PDF] Modèles de régression linéaire

1 avr 2010 · Master Statistique Appliquée Mention Statistique pour l'Entreprise Modèles de régression linéaire Magalie Fromont Renoir

[PDF] Cours : Régression Linéaire simple et multiple

étudierons la régression linéaire multiple qui représente la relation linéaire entre une variable endogène et plusieurs variables exogènes

[PDF] Introduction à la Régression Linéaire - BioSP

logistique analyse de la variance régression linéaire Estimation : description de l'influence Régression linéaire : On suppose que pour tout i :

[PDF] REGRESSION LINEAIRE

Regression linéaire Nous allons étudier ici un modèle statistique d'usage fréquent : la régression linéaire De nombreux modèles

Chapitre 7 : LA REGRESSION LINEAIRE

7 1 LE CALCUL DE LA DROITE DE REGRESSION Y=aX+b Un exemple pédagogique de régression linéaire Pour rendre les choses plus claires nous partirons d'un exemple

Régression linéaire simple

Résumé

Ce chapitre introduit la notion de modèle linéaire par la version la plus élémentaire : expliquerYpar une fonction affine deX. Après avoir expliciter les hypothèses nécessaires et les termes du modèle, les notions d"estimation des paramètres du modèle, de prévision par intervalle de confiance, la signification des tests d"hypothèse sont discutées. Enfin une attention particulière est faite aux outils de diagnostics disponibles : valeurs influentes, et surtout graphe des résidus.

Retour au

plan du cour s

1 Introduction

Ce chapitre est une introduction à la modélisation linéaire par le modèle le plus élémentaire, la régression linéaire simple où une variableXest ex- pliquée, modélisée par une fonction affine d"une autre variabley. La finalité d"un tel modèle est multiple et dépend donc du contexte et surtout des ques- tions sous-jacentes. Ce peut-être juste une approche exploratoire ou alors la recherche d"une réponse à une question du type : une variable quantitativeX (e.g. la concentration d"une molécule) a-t-elle une influence sur la variable quantitativeY(e.g. une culture bactérienne)? Ou enfin la recherche d"un mo- dèle de prévision deYen fonction deX: calibration d"un appareil de mesure d"une concentration à partir d"une mesure optique. Des concepts clefs : mo- dèle, estimations, tests, diagnostics sont introduits et déclinés dans ce contexte élémentaire. Leur emploi et leur signification dépendent des objectifs. Ils se re- trouvent dans une présentation plus général du modèle de régression multiple et ce chapitre sert donc d"introduction. Avant tout travail de modélisation, une approche descriptive ou exploratoire est nécessaire pour dépister au plus tôt des difficultés dans les données : dis- symétrie des distributions, valeurs atypiques, liaison non linéaire entre les va- riables. En fonction des résultats obtenus, une transformation préalable des va- riables peut s"avérer nécessaire. Dans l"exemple de la figure 1 , le choix d"uneFIGURE1 -Exemple de régression du poids d"un arbre en fonction de la variable diamètrehauteur et diamètrehauteur au carré variable explicative homogène à un volume semble plus judicieux pour estimer le poids d"un arbre.

2 Modèle

On noteYla variable aléatoire réelle à expliquer (variable endogène, dé- pendante ou réponse) etXla variable explicative ou effet fixe (exogène). Le modèle revient à supposer, qu"en moyenne,E(Y), est une fonction affine de X. L"écriture du modèle suppose implicitement une notion préalable decau- salitédans le sens oùYdépend deXcar le modèle n"est pas symétrique.

E(Y) =f(X) =0+1XouY=0+1X+"

Remarque: Nous supposerons pour simplifier queXest déterministe. Dans le cas contraire,Xaléatoire, le modèle s"écrit alors conditionnellement aux observations deX:E(YjX=x) =0+1xet conduit aux mêmes estima- tions. Leshypothèsesrelatives à ce modèle sont les suivantes : 1. la distrib utionde l"erreur "est indépendante deXouXest fixe, 2. l"erreur est centrée et de v arianceconstante (homoscédasticité) :

8i= 1;:::;n E("i) = 0;Var("i) =2:

3.0et1sont constants, pas de rupture du modèle.1

Régression linéaire simple

4. Hypothèse complémentaire pour les inférences : " N(0;2).

3 Estimation

3.1 Paramètres

L"estimation des paramètres0;1;2est obtenue en maximisant la vrai- semblance, sous l"hypothèse que les erreurs sont gaussiennes, ou encore par minimisation de la somme des carrés des écarts entre observations et modèle (moindres carrés). Les deux approches conduisent aux mêmes estimation tan- dis que le maximum de vraisemblance induit de meilleure propriétés des es- timateurs. Pour une séquence d"observationsf(xi;yi)i= 1:::;ng, le critère des moindres carrés s"écrit : min 0;1n X i=1(yi01xi)2:

On pose :

x=1n n X i=1x i;y=1n n X i=1y i; s

2x=1n1n

X i=1(xix)2; s2y=1n1n X i=1(yiy)2; s xy=1n1n X i=1(xix)(yiy); r=sxys xsy;

Les moindres carrés sont minimisés par :

1=sxys

2x; b

0= yb1x

qui sont les réalisations des estimateurs c0etc1. On montre que ces estima- teurs sans biais et de variance minimum parmi les estimateurs fonctions li- néaires desyi(resp. parmi tous les estimateurs dans le cas gaussien). À chaque valeur deXcorrespond la valeurestiméeou ajustée deY: byi=b0+b1xi;lesrésiduscalculés ou estimés sont : e i=yibyi: La variance2est estimée par la variation résiduelle : s

2=1n2n

X i=1e 2i: Exemple : Analyse de régression : Poids en fonction de D2xH

L"équation de régression est

Poids = 0,0200 + 0,00829 D2xH

Régresseur Coef Er-T coef T P

Constante 0,01999(1) 0,01365(3) 1,46 0,160

D2xH 0,0082897(2) 0,0002390(4) 34,68 0,000(1)b0

(2)b1 (3) écart-type de c0:sb0 (4) écart-type dec1:sb13.2 Qualité d"ajustement Il est d"usage de décomposer les sommes de carrés des écarts à la moyenne sous la forme ci-dessous; les notations sont celles de la plupart des logiciels :

Total sum of squaresSST= (n1)s2y;

Regression sum of squaresSSR= (n1)s2

xys 2x;

Error sum of squaresSSE= (n2)s2;

et on vérifie : SST=SSR+SSE. On appellecoefficient de déterminationla quantité R

2=r2=s2xys

2xs2y= 1n2n1s

2y=SSRSST

qui exprime le rapport entre la variance expliquée par le modèle et la variance totale.2

Régression linéaire simple

Exemple : Analyse de régression : Poids en fonction de D2xH

Analyse de variance

Source DL SC CM F P

Régression 1(1) 1,8108(2) 1,8108(5) 1202,89 0,000

Erreur résid 18 0,0271(3) 0,0015(6)

Total 19 1,8379(4)

S = 0,03880(7) R-carré = 98,5%(8) R-carré (ajust) = 98,4%(1) degrés de liberté de la loi de Fisher du test global (H0:1= 0)

(2) SSR (3) SSE ou déviance (4) SST=SSE+SSR (5) SSR/DF (6)s2=MSE=SSE/DF est l"estimation de2" (7)s=racine de MSE (8) Coefficient de déterminationR2ou carré du coefficient de corrélation.4 Inférence

4.1 Loi des paramètres

Les estimateurs

c0etc1sont des variables aléatoires réelles de matrice de covariance : 2"1n +x2(n1)s2xx(n1)s2xx(n1)s2x1(n1)s2x# qui est estimée en remplaçant2par son estimations2. Sous l"hypothèse que les résidus sont gaussiens, on montre que (n2)S2

22(n2)

et donc que les statistiques c00), s1n +x2(n1)s2x 1=2 et(c11), s1(n1)s2x 1=2 suivent des lois de Student à(n2)degrés de liberté. Ceci permet de tes-

ter l"hypothèse de nullité d"un de ces paramètres ainsi que de construire lesintervalles de confiance :

0t=2;(n2)s1n

+x2(n1)s2x 1=2 b

1t=2;(n2)s1(n1)s2x

1=2 Attention: une inférence conjointe sur0et1ne peut être obtenue en consi- dérant séparément les intervalles de confiance. La région de confiance est en effet une ellipse d"équation : n(b00)2+2(b00)(b11)nX i=1x i+(b11)2nX i=1x

2i= 2s2F;2;(n2)

qui est inclue dans le rectangle défini par les intervalles. Un grande part des valeurs du couple(0;1)est donc exclue de la région de confiance et ce d"autant plus queb0etb1sont corrélés.

Sous l"hypothèse :1= 0, la statistique

(n2)R21R2= (n2)SSRSSE suit une distribution de FisherF1;(n2). Cette statistique est le carré de la sta- tistique de Student correspondant à la même hypothèse.

4.2 Prévision par intervalle de confiance

Connaissant une valeurx0, on définit deuxintervalles de confiance de pré- visionà partir de la valeur préditeby0=b0+b1x0. Le premier encadreE(Y) sachantX=x0; le deuxième, qui encadreby0est plus grand car il tient compte de la variance totale :2+Var(by0): by0t=2;(n2)s1n +(x0x)2(n1)s2x 1=2 by0t=2;(n2)s 1 +1n +(x0x)2(n1)s2x 1=2 Les logiciels proposent également unebande de confianceentre deux arcs d"hyperboles pour la droite de régression. À chaque point(b0;b1)de l"ellipse3

Régression linéaire simple

ces droites sont comprises entre les bornes : bysqF

1;(n2)1n

+(xx)2(n1)s2x 1=2 Ceci signifie que cette bande recouvre la "vraie" ligne avec une probabilité

1. Elle est plus grande que celle associée aux intervalles de confiance des

E(Y). Attention: la prévision par intervalle n"est justifiée que pour des observa- tions appartenant à la population échantillonnée et à condition que les hypo- thèses : linéarité, erreurs i.i.d., (normalité), homoscédasticité, soient valides.

Éviter les extrapolations.

4.3 Tests d"hypothèse

Les tests précédents prennent une signification particulière avec un objectif "explicatif";désigne le niveau des tests, souvent= 5%. Comme pour tous les tests usuels de comparaison d"échantillon, les logiciels fournissent les probabilités critiques ouP-valeurs qui, en pratique, sont comparées avec le seuil prédéterminé. Le test de Fisher s"intéresse à la significativité globale d"un modèle. Dans le cas de la régression simple, seul le paramètre1est concerné :

F= (n2)R21R2= (n2)SSRSSE

suit une loi de Fisher à(1;n2)degrés de liberté. L"hypothèseH0:1= 0, est rejetée siF > f1;n2;1=2ou si laP-valeur associée est inférieure à. Plus précisément, l"hypothèseH0:1= 0répond aussi à la question de l"influence deXsurY. La réponse est négative siH0est acceptée : la pente de la droite de régression est nulle, le nuage de point est réparti sans structure linéaire significative. La réponse est positive lorsque le test est significatif et donc l"hypothèse rejetée. Ce paramètre suit une loi de Student etH0rejetée lorsquet1=jb1js b1> tn2;1=2ou si laP-valeur associée est inférieure à. Ce test est strictement équivalent au test de Fisher précédent, il conduit à la mêmeP-valeur.Enfin, le test de l"hypothèseH0:0= 0qui signifie : "la droite passe par l"origine", a un intérêt limité à des situations très particulières comme la calibration du "zéro" d"un appareil de mesure. Elle est rejetée sit0=jb0js b0> t n2;1=2

5 Influence

tribution gaussienne douteuse, est très sensible à des observations atypiques, hors "norme" (outliers) c"est-à-dire qui présentent des valeurs trop singulières. L"étude descriptive initiale permet sans doute déjà d"en repérer mais c"est in- suffisant. Un diagnostic doit être établi dans le cadre spécifique du modèle recherché afin d"identifier les observationsinfluentesc"est-à-dire celles dont une faible variation du couple(xi;yi)induisent une modification importante des caractéristiques du modèle. Ces observations repérées, il n"y a pas de remède universel : supprimer un valeur aberrante, corriger une erreur de mesure, construire une estimation ro- buste (en normeL1), ne rien faire..., cela dépend du contexte et doit être négocié avec le commanditaire de l"étude.

5.1 Effet levier

Une première indication est donnée par l"éloignement dexipar rapport à la des observations : byi=b0+b1xi=nX j=1h ijyjavechij=1n +(xix)(xjx)P n j=1(xjx)2; en notantHla matrice (hat matrix) deshijceci s"exprime encore matricielle- ment : b y=Hy: Les éléments diagonauxhiide cette matrice mesurent ainsi l"impact ou l"im- portance du rôle que joueyidans l"estimation debyi.

5.2 Résidus et PRESS

Différents types de résidus sont définis afin d"affiner leurs propriétés. 4

Régression linéaire simple

Résidus :ei=yibyi

Résidus

(i):e(i)i=yidy(i)i=ei1hiioùdy(i)iest la prévision deyicalculée sans laième observation(xi;yi).

Ce type de résidu conduit à la définition du PRESS (predicted residual sum of squares) dit de Allen :

PRESS=1n

n X i=1e

2(i)i=1n

n X i=1 ei1hii 2 C"est une estimation sans biais de la qualité de prévision d"un modèle car une même observation n"est pas utilisée, à la fois, pour estimer le mo- dèle et l"erreur de prévision. Le PRESS est très utile pour comparer les qualités prédictives de plusieurs modèles. Ce point important sera déve- loppé dans le cas du modèle linéaire multiple : le coefficientR2permet de comparer les qualités d"ajustement mais la meilleure prévision n"est pas nécessairement fournie par un modèle deR2maximum. Le PRESS encore appeléleave one out cross validation (loo CV)est plus pertinent pour atteindre cet objectif.Remarquerque dans le cas particulier du mo- et des termes diagonauxhiide la matriceH. Pour d"autres modèles, le calcul du PRESS nécessite l"estimation, éventuellement coûteuse, den modèles. Résidus standardisés :Même si l"hypothèse d"homoscédasticité est vérifiée, ceux-ci n"ont pas la même variance :E(ei) = 0et Var(ei) =2(1hii). Il est donc d"usage d"en calculer des versionsstandardiséesafin de les rendre comparables : r i=eis p1hii: Résidus studentisés :La standardisation ("interne") dépend deeidans le cal- cul desestimation de Var(ei). Une estimation non biaisée de cette va- riance est basée sur s 2(i)= (n2)s2e2i1hii =(n3) qui ne tient pas compte de laième observation. On définit alors les résidus studentiséspar : t i=eis (i)p1hii:Sous hypothèse de normalité, on montre que ces résidus suivent une loi de Student à(n3)degrés de liberté. Il est ainsi possible de construire un test afin tester la présence d"uneobser- vation atypique ou de plusieurs en utilisant l"inégalité de Bonferroni. Plus concrètement, en pratique, les résidus studentisés sont comparés aux bornes 2.

6 Diagnostics

6.1 Distance de Cook

Les deux critères précédents contribuent à déceler des observations poten- tiellement influentes par leur éloignement àxou la taille des résidus. Ces in- formations sont synthétisées dans des critères évaluant directement l"influence d"une observation sur certains paramètres : les prévisionsbyi, les paramètres b

0;b1, le déterminant de la matrice de covariance des estimateurs. Tous ces

indicateurs proposent de comparer un paramètre estimé sans lai-ème observa- tion et ce même paramètre estimé avec toutes les observations. Le plus couramment utilisé est la distance de Cook : D i=P n j=1(dy(i)jbyj)22s2=hii2(1hii)r2ipouri= 1;:::;n qui mesure donc l"influence d"une observation sur l"ensemble des prévisions en prenant en compte effet levier et importance des résidus. La stratégie de détection consiste le plus souvent à repérer les points aty- piques en comparant les distances de Cook avec la valeur1puis à expliquer cette influence en considérant, pour ces observations, leur résidu ainsi que leur effet levier.

6.2 Graphe des résidus

Attention: la présentation "pédagogique" des concepts de la régression li- néaire ne doit pas faire négliger l"étape de diagnostic des résidus. Concrète- ment, le graphe des résidus est la première chose à consulter après l"estima- tion d"un modèle linéaire. L"appréciation de sa forme, même si celle-ci reste "subjective", renseigne précisément sur la validité des hypothèses implicites 5

Régression linéaire simple

FIGURE2 -Les résidus (à gauche) de la régression du poids en fonction du produit (diamètrehauteur) montre clairement un problème de linéarité. La transformation de la variable diamètre (carré) améliore ce diagnostic mais soulève (à droite) une problème d"hétéroscédasticité du modèle dont surtout celle de linéarité et celle d"homoscédasticité. Dans le cas contraire, toutes les décisions issues de tests et les intervalles de confiances n"ont plus de légitimité. Si certaines des hypothèses ne sont pas vérifiées, des mesures s"imposent comme la recherche de transformation des variables. L"homoscédasticité et la linéarité du modèle sont évalués par un graphique des résidus studentisés ou non :(xi;ti)qui doit se disperser "normalement" de part et d"autre de l"axey= 0: symétriquement et sans forme particulière. Des formes d""entonnoir", ou de "diabolo" du nuage font suspecter une hété- roscédasticité des résidus, celle d"une "banane" indique une possible relation non linéaire entreYetX. Même si cette hypothèse est moins sensible, le modèle est robuste surtout en cas de grand échantillon, il est sage de vérifier la normalité des résidus en étudiant leur distribution par exemple par une simple droite de Henri. Enfin l"auto-corrélation des résidus dans le cas par exemple où la variable explicative est le temps pose également des problèmes. Une modélisation de type série chronologique (ARMA, SARIMA) des résidus serait à tester.

7 ExemplesFIGURE3 - Distribution des variables revenus et nombre d"appartementsFIGURE4 -Les résidus de la régression du revenu sur le nombre d"apparte-

ments (à gauche) met nettement en évidence un problème d"hétéroscédasticité; problème résolu (à droite) par des transformations des variables.

7.1 Revenu fonction du nombre d"appartements

La variableYest le revenu d"un immeuble exprimé en fonction de la va- riablex, nombre d"appartement;47observations sont disponibles. L"erreur naïve consiste à se précipiter sur le premier modèle venu. Les résultats numé- riques ci-dessous sont satisfaisants, le modèle est significatif avec une qualité correcte d"ajustement (R2proche de 0,8). Maisle graphique des résidus (figure4 ) est nettement moins sympathique. Le statisticien amateur est allé trop vite, il a sauté l"étape descriptive des va- riables. Les diagrammes boites (figurequotesdbs_dbs42.pdfusesText_42

[PDF] coefficient de corrélation r2

[PDF] régression statistique

[PDF] nuage de points statistique

[PDF] exercice covariance statistique corrigé

[PDF] psychologie et pédagogie jean piaget

[PDF] pédagogie et éducation différence

[PDF] spallation cosmique

[PDF] nucléosynthèse primordiale

[PDF] la personne que j'admire le plus est ma mere

[PDF] nucléosynthèse des éléments chimiques

[PDF] nucléosynthèse interstellaire

[PDF] nucléosynthèse dans les étoiles

[PDF] nucléosynthèse explosive

[PDF] nucléosynthèse stellaire pdf

[PDF] recettes du 18ème siècle