Régression linéaire PDF Régression linéaire. Arnaud

Chapitre 4 : Régression linéaire

Remarque : La régression di ère de l'analyse de la corrélation où toutes les variables jouent un rôle symé- trique (pas de variable dépendante versus

Modèles de régression linéaire

1 avr. 2010 cédure de régression linéaire multiple puis deux procédures de régression linéaires simples

13 Régression linéaire simple

Il y a 3 tests possibles pour une régression linéaire simple (une seule variable explicative). ;. • un test pour le coefficient β1 par la table de l'analyse de

MODELES LINEAIRES

Selon la forme de la matrice X on est dans le cas de la régression linéaire (X est alors composée de la variable constante 1 et des p variables explicatives)

Régression linéaire simple

Ce chapitre est une introduction à la modélisation linéaire par le modèle le plus élémentaire la régression linéaire simple où une variable X est ex-.

Premi`eres notions de statistique Régression Linéaire

aléatoires. F. Picard 11/59. Page 12. Généralités. Régression. Régression Linéaire. Régression simple. Tests. Table ANOVA. Résidus. Régression Multiple.

Régression linéaire multiple

Considérer plusieurs variables explicatives. Exemple : La température et la vitesse du vent. Frédéric Bertrand. Régression linéaire multiple. Page

Régression linéaire avec la calculatrice TI-Nspire

Utilisons la calculatrice TI-Nspire pour vérifier par régression linéaire la loi d'Arrhénius et déterminer la valeur de l'énergie d'activation d'une

Compléments sur la régression linéaire simple et inférence sur les

12 juin 2015 mesure le pourcentage d'explication du modèle par la régression linéaire. 2. Le rapport cmres = scres n − 2 est l'estimation de la variance ...

Régression sur variables qualitatives Analyse de la variance

Solution : contrainte linéaire identifiante sur les cœfficients → reparamétrisation du mod`ele. 1. Contrainte de type analyse par cellule : µ = 0. On pose

Chapitre 4 : Régression linéaire

Remarque : La régression di ère de l'analyse de la corrélation où toutes les variables jouent un rôle symé- trique (pas de variable dépendante versus

13 Régression linéaire simple

Il y a 3 tests possibles pour une régression linéaire simple (une seule variable explicative). ;. • un test pour le coefficient ?1 par la table de l'analyse de

Régression linéaire simple

Ce chapitre est une introduction à la modélisation linéaire par le modèle le plus élémentaire la régression linéaire simple où une variable X est ex-.

Premi`eres notions de statistique Régression Linéaire

5 Tests intervalles de confiance

Fiche synthèse sur la régression linéaire simple.pdf

26 mars 2010 L'analyse de régression linéaire simple permet de quantifier le lien de causalité entre deux variables pour entre autre

Corrélation et régression linéaire simple

En statistique le terme de corrélation est réservé pour désigner la liaison entre 2 variables QUANTITATIVES (le plus souvent continues). Corrélation /

Interpréter les coefficients dune régression linéaire Modèle niveau

Pour des raisons pédagogiques nous utiliserons une application de la régression linéaire par moindres carrés afin d'apprendre à interpréter les

Régression linéaire simple dans Excel

L'analyse de régression linéaire simple permet de quantifier le lien de causalité entre deux variables pour entre autre

COLINÉARITÉ ET RÉGRESSION LINÉAIRE Thierry FOUCART1 1

Les conséquences de la colinéarité statistique entre les variables explicatives sont les suivantes : - les coefficients de régression estimés peuvent être

Régression linéaire

Régression linéaire. Arnaud Guyader. Ce cours est tiré des quatre premiers chapitres du livre de Pierre-André Cornillon et Eric Matzner-.

[PDF] Chapitre 4 : Régression linéaire

Chapitre 4 : Régression linéaire I Introduction Le but de la régression simple (resp multiple) est d'expliquer une variable Y à l'aide d'une variable X

[PDF] Régression linéaire - LPSM

Régression linéaire Arnaud Guyader Ce cours est tiré des quatre premiers chapitres du livre de Pierre-André Cornillon et Eric Matzner-

[PDF] Régression linéaire simple

Ce chapitre est une introduction à la modélisation linéaire par le modèle le plus élémentaire la régression linéaire simple où une variable X est ex-

[PDF] 13 Régression linéaire simple - Université du Québec

La régression linéaire est une méthode de modélisation permettant d'établir une rela- tion linéaire entre une variable continue dite "variable expliquée" ou

[PDF] 12 Régression linéaire simple - GERAD

Régression linéaire simple 3 Estimation des param`etres 4 Intervalles de confiance et tests 5 Analyse des résidus 6 Corrélation

[PDF] Modèles de régression linéaire

1 avr 2010 · Master Statistique Appliquée Mention Statistique pour l'Entreprise Modèles de régression linéaire Magalie Fromont Renoir

[PDF] Cours : Régression Linéaire simple et multiple

étudierons la régression linéaire multiple qui représente la relation linéaire entre une variable endogène et plusieurs variables exogènes

[PDF] Introduction à la Régression Linéaire - BioSP

logistique analyse de la variance régression linéaire Estimation : description de l'influence Régression linéaire : On suppose que pour tout i :

[PDF] REGRESSION LINEAIRE

Regression linéaire Nous allons étudier ici un modèle statistique d'usage fréquent : la régression linéaire De nombreux modèles

Chapitre 7 : LA REGRESSION LINEAIRE

7 1 LE CALCUL DE LA DROITE DE REGRESSION Y=aX+b Un exemple pédagogique de régression linéaire Pour rendre les choses plus claires nous partirons d'un exemple

Université Rennes 2Master de Statistique

Année 2012/2013

Premier Semestre

Régression linéaire

ArnaudGuyader

Ce cours est tiré des quatre premiers chapitres du livre de Pierre-André Cornillon et Eric Matzner-

Løber,Régression avecR, paru chez Springer en 2010.

Table des matières

1 La régression linéaire simple1

1.1 Modélisation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2 Moindres Carrés Ordinaires. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2.1 Calcul des estimateurs deβ1etβ2. . . . . . . . . . . . . . . . . . . . . . . 3

1.2.2 Quelques propriétés des estimateursˆβ1etˆβ2. . . . . . . . . . . . . . . . . 4

1.2.3 Calcul des résidus et de la variance résiduelle. . . . . . . . . . . . . . . . . 7

1.2.4 Prévision. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.3 Interprétations géométriques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.3.1 Représentation des variables. . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.3.2 Le coefficient de déterminationR2. . . . . . . . . . . . . . . . . . . . . . . 10

1.4 Cas d"erreurs gaussiennes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.4.1 Estimateurs du maximum de vraisemblance. . . . . . . . . . . . . . . . . . 11

1.4.2 Rappels sur les lois usuelles. . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.4.3 Lois des estimateurs et régions de confiance. . . . . . . . . . . . . . . . . . 13

1.4.4 Prévision. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.5 Exemple. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.6 Exercices. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.7 Corrigés. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2 La régression linéaire multiple29

2.1 Modélisation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.2 Estimateurs des Moindres Carrés Ordinaires. . . . . . . . . . . . . . . . . . . . . . 31

2.2.1 Calcul deˆβ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.2.2 Quelques propriétés. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.2.3 Résidus et variance résiduelle. . . . . . . . . . . . . . . . . . . . . . . . . . 35

2.2.4 Prévision. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

2.3 Interprétation géométrique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

2.4 Exemple. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.5 Exercices. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.6 Corrigés. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

3 Le modèle gaussien49

3.1 Estimateurs du Maximum de Vraisemblance. . . . . . . . . . . . . . . . . . . . . . 49

3.2 Lois des estimateurs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3.2.1 Quelques rappels. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3.2.2 Nouvelles propriétés. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

3.2.3 Intervalles et régions de confiance. . . . . . . . . . . . . . . . . . . . . . . . 53

3.2.4 Prévision. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

3.3 Tests d"hypothèses. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

3.3.1 Introduction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

i iiTable des matières

3.3.2 Tests entre modèles emboîtés. . . . . . . . . . . . . . . . . . . . . . . . . . 56

3.3.3 Test de Student de signification d"un coefficient. . . . . . . . . . . . . . . . 60

3.3.4 Test de Fisher global. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

3.3.5 Lien avec le Rapport de Vraisemblance Maximale. . . . . . . . . . . . . . . 60

3.4 Estimation sous contraintes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

3.5 Exemple. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

3.6 Exercices. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3.7 Corrigés. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

4 Validation du modèle81

4.1 Analyse des résidus. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

4.1.1 Résidus et valeurs aberrantes. . . . . . . . . . . . . . . . . . . . . . . . . . 81

4.1.2 Analyse de la normalité. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

4.1.3 Analyse de l"homoscédasticité. . . . . . . . . . . . . . . . . . . . . . . . . . 85

4.1.4 Analyse de la structure des résidus. . . . . . . . . . . . . . . . . . . . . . . 85

4.2 Analyse de la matrice de projection. . . . . . . . . . . . . . . . . . . . . . . . . . . 88

4.3 Autres mesures diagnostiques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

A Annales93

B Rappels d"algèbre131

B.1 Quelques définitions. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

B.2 Quelques propriétés. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

B.2.1 Les matricesn×p. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 B.2.2 Les matrices carréesn×n. . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 B.2.3 Les matrices symétriques. . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 B.2.4 Les matrices semi-définies positives. . . . . . . . . . . . . . . . . . . . . . . 132

B.3 Propriétés des inverses. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

B.4 Propriétés des projections. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

B.4.1 Généralités. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

B.4.2 Exemple de projection orthogonale. . . . . . . . . . . . . . . . . . . . . . . 133 B.4.3 Trace et éléments courants. . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

B.5 Dérivation matricielle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

C Rappels de probabilité135

C.1 Généralités. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

C.2 Vecteurs aléatoires gaussiens. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

C.3 Tables des lois usuelles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 C.3.1 Loi NormaleX≂ N(0,1). . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 C.3.2 Loi de StudentX≂ Tν. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 C.3.3 Loi du Khi-deux àνddlX≂χ2ν. . . . . . . . . . . . . . . . . . . . . . . . 139

C.3.4 Loi de Fisher àν1,ν2ddlX≂ Fν1ν2. . . . . . . . . . . . . . . . . . . . . . . 140

D Quelques données141

Bibliographie143

Arnaud Guyader - Rennes 2Régression

Chapitre 1La régression linéaire simpleIntroductionCommençons par un exemple afin de fixer les idées. Pour des raisons de santé publique, on s"in-

téresse à la concentration d"ozoneO3dans l"air (en microgrammes par millilitre). En particulier,

on cherche à savoir s"il est possible d"expliquer le taux maximal d"ozone de la journée par la températureT12à midi. Les données sont : Température à 12h23.8 16.3 27.2 7.1 25.1 27.5 19.4 19.8 32.2 20.7 O3max115.4 76.8 113.8 81.6 115.4 125 83.6 75.2 136.8 102.8 Table1.1 - 10 données journalières de température et d"ozone. D"un point de vue pratique, le but de cette régression est double : - ajuster un modèle pour expliquerO3en fonction deT12; - prédire les valeurs d"O3pour de nouvelles valeurs deT12. Avant toute analyse, il est intéressant de représenter les données, comme sur la figure 1.1.

10 15 20 25 30

80 90 100 110 120 130

T12 O3 Figure1.1 - 10 données journalières de température et d"ozone. Pour analyser la relation entre lesxi(température) et lesyi(ozone), nous allons chercher une fonctionftelle que : y i≈f(xi).

Pour préciser le sens de≈, il faut se donner un critère quantifiant la qualité de l"ajustement de la

fonctionfaux données. Il conviendra aussi de se donner une classe de fonctionsFdans laquelle est supposée vivre la vraie fonction inconnue.

2Chapitre 1. La régression linéaire simple

Le problème mathématique peut alors s"écrire de la façon suivante : argmin f?Fn i=1L(yi-f(xi)),

oùnreprésente le nombre de données disponibles (taille de l"échantillon) etL(.)est appelée fonction

de coût ou fonction de perte (Lossen anglais).

1.1 Modélisation

Dans de nombreuses situations, en première approche, une idée naturelle est de supposer que la

variable à expliqueryest une fonction affine de la variable explicativex, c"est-à-dire de chercher

fdans l"ensembleFdes fonctions affines de ?dans?. C"est le principe de la régression linéaire simple. On suppose dans la suite disposer d"un échantillon denpoints(xi,yi)du plan.

Définition 1 (Modèle de régression linéaire simple)Un modèle de régression linéaire simple

est défini par une équation de la forme : ?i? {1,...,n}yi=β1+β2xi+εi

Les quantitésεiviennent du fait que les points ne sont jamais parfaitement alignés sur une droite.

On les appelle les erreurs (ou bruits) et elles sont supposées aléatoires. Pour pouvoir dire des choses

pertinentes sur ce modèle, il faut néanmoins imposer des hypothèses les concernant. Voici celles

que nous ferons dans un premier temps : (H)?(H1) : ?[εi] = 0pour tout indicei (H2) : Cov(εi,εj) =δijσ2pour tout couple(i,j)

Les erreurs sont donc supposées centrées, de même variance (homoscédasticité) et non corrélées

entre elles (δijest le symbole de Kronecker, i.e.δij= 1sii=j,δij= 0sii?=j). Notons que le modèle de régression linéaire simple de la définition

1peut encore s"écrire de façon vectorielle :

Y=β1

?+β2X+ε, où : - le vecteurY= [y1,...,yn]?est aléatoire de dimensionn, - le vecteur ?= [1,...,1]?est le vecteur de?ndont lesncomposantes valent toutes 1, - le vecteurX= [x1,...,xn]?est un vecteur de dimensionndonné (non aléatoire),

- les coefficientsβ1etβ2sont les paramètres inconnus (mais non aléatoires!) du modèle,

- le vecteurε= [ε1,...,εn]?est aléatoire de dimensionn. Cette notation vectorielle sera commode notamment pour l"interprétation géométrique du pro- blème. Nous y reviendrons en Section

1.3et elle sera d"usage constant en régression linéaire mul-

tiple, c"est pourquoi il convient d"ores et déjà de s"y habituer.

1.2 Moindres Carrés Ordinaires

Les points(xi,yi)étant donnés, le but est maintenant de trouver une fonction affineftelle que

la quantité?ni=1L(yi-f(xi))soit minimale. Pour pouvoir déterminerf, encore faut-il préciser la

fonction de coûtL. Deux fonctions sont classiquement utilisées : - le coût absoluL(u) =|u|;

Arnaud Guyader - Rennes 2Régression

1.2. Moindres Carrés Ordinaires3

- le coût quadratiqueL(u) =u2.

Les deux ont leurs vertus, mais on privilégiera dans la suitela fonction de coût quadratique. On

parle alors de méthode d"estimation par moindres carrés (terminologie due à Legendre dans un

article de 1805 sur la détermination des orbites des comètes). Définition 2 (Estimateurs des Moindres Carrés Ordinaires)On appelle estimateurs des Moindres

Carrés Ordinaires (en abrégé MCO)ˆβ1etˆβ2les valeurs minimisant la quantité :

S(β1,β2) =n?

i=1(yi-β1-β2xi)2.

Autrement dit, la droite des moindres carrés minimise la somme des carrés des distances verticales

des points(xi,yi)du nuage à la droite ajustéey=ˆβ1+ˆβ2x.

1.2.1 Calcul des estimateurs deβ1etβ2

La fonction de deux variablesSest une fonction quadratique et sa minimisation ne pose aucun problème, comme nous allons le voir maintenant. Proposition 1 (Estimateursˆβ1etˆβ2)Les estimateurs des MCO ont pour expressions :

β1= ¯y-ˆβ2¯x,

avec :

β2=?

n i=1(xi-¯x)(yi-¯y) ?ni=1(xi-¯x)2=? n i=1(xi-¯x)yi?ni=1(xi-¯x)2.

Preuves.La première méthode consiste à remarquer que la fonctionS(β1,β2)est strictement

convexe, donc qu"elle admet un minimum en un unique point(ˆβ1,ˆβ2), lequel est déterminé en

annulant les dérivées partielles deS. On obtient les "équations normales" : ?∂S ∂β1=-2n? i=1(yi-ˆβ1-ˆβ2xi) = 0 ∂S ∂β2=-2n? i=1x i(yi-ˆβ1-ˆβ2xi) = 0

La première équation donne :

β1n+ˆβ2n

i=1x i=n? i=1y i d"où l"on déduit immédiatement :

β1= ¯y-ˆβ2¯x,(1.1)

où¯xet¯ysont comme d"habitude les moyennes empiriques desxiet desyi. La seconde équation donne :

β1n

i=1x i+ˆβ2n i=1x 2 i=n? i=1x iyi

RégressionArnaud Guyader - Rennes 2

4Chapitre 1. La régression linéaire simple

et en remplaçantˆβ1par son expression (1.1), nous avons :

β2=?xiyi-?xi¯y

La seconde méthode consiste à appliquer la technique de Gauss de réduction des formes quadra-

tiques, c"est-à-dire à décomposerS(β1,β2)en somme de carrés, carrés qu"il ne restera plus qu"à

annuler pour obtenir les estimateursˆβ1etˆβ2. Dans notre cas, après calculs, ceci s"écrit :

S(β1,β2) =n(β1-(¯y-β2¯x))2+?

n? i=1(xi-¯x)2? 2-? n i=1(xi-¯x)(yi-¯y) ?ni=1(xi-¯x)2? 2 n? i=1(yi-¯y)2??

1-(?ni=1(xi-¯x)(yi-¯y))2

?ni=1(xi-¯x)2?ni=1(yi-¯y)2?

où apparaissent deux carrés et un troisième terme indépendant deβ1etβ2: ce dernier est donc

incompressible. Par contre, le second est nul si et seulement siβ2=ˆβ2. Ceci étant fait, le premier

est alors nul si et seulement siβ1=ˆβ1.

L"expression (

1.2) deˆβ2suppose que le dénominateur?ni=1(xi-¯x)2est non nul. Or ceci ne peut

arriver que si tous lesxisont égaux, situation sans intérêt pour notre problème et que nous ex-

cluons donc a priori dans toute la suite.

Remarques :

1. La relation

ˆβ1= ¯y-ˆβ2¯xmontre que la droite des MCO passe par le centre de gravité du nuage(¯x,¯y).

2. Les expressions obtenues pour

ˆβ1etˆβ2montrent que ces deux estimateurs sont linéaires par rapport au vecteurY= [y1,...,yn]?.

3. L"estimateur

ˆβ2peut aussi s"écrire comme suit (exercice!) :

β2=β2+?(xi-¯x)εi

?(xi-¯x)2.(1.3)

Si cette décomposition n"est pas intéressante pour le calcul effectif deˆβ2puisqu"elle fait

intervenir les quantités inconnuesβ2etεi, elle l"est par contre pour démontrer des propriétés

théoriques des estimateurs (biais et variance). Son avantage est en effet de mettre en exergue la seule source d"aléa du modèle, à savoir les erreursεi.

Avant de poursuivre, notons que le calcul des estimateurs des moindres carrés est purement déter-

ministe : il ne fait en rien appel aux hypothèses(H1)et(H2)sur le modèle. Celles-ci vont en fait

servir dans la suite à expliciter les propriétés statistiques de ces estimateurs.

1.2.2 Quelques propriétés des estimateurs

ˆβ1etˆβ2

Sous les seules hypothèses(H1)et(H2)de centrages, décorrélations et homoscédasticités des er-

reursεidu modèle, on peut déjà donner certaines propriétés des estimateursˆβ1etˆβ2des moindres

carrés.

Théorème 1 (Estimateurs sans biais)ˆβ1etˆβ2sont des estimateurs sans biais deβ1etβ2.

Arnaud Guyader - Rennes 2Régression

1.2. Moindres Carrés Ordinaires5

Preuve.Partons de l"écriture (1.3) pourˆβ2:

β2=β2+?(xi-¯x)εi

?(xi-¯x)2.

Dans cette expression, seuls les bruitsεisont aléatoires, et puisqu"ils sont centrés, on en déduit

bien que ?[ˆβ2] =β2. Pourˆβ1, on part de l"expression :

β1= ¯y-ˆβ2¯x,

d"où l"on tire : ?[ˆβ1] =?[¯y]-¯x?[ˆβ2] =β1+ ¯xβ2-¯xβ2=β1. On peut également exprimer variances et covariance de nos estimateurs. Théorème 2 (Variances et covariance)Les variances des estimateurs sont : Var(

ˆβ1) =σ2?x2i

& Var(

ˆβ2) =σ2?(xi-¯x)2,

tandis que leur covariance vaut : Cov(

ˆβ1,ˆβ2) =-σ2¯x

?(xi-¯x)2. Preuve.On part à nouveau de l"expression deˆβ2utilisée dans la preuve du non-biais :

β2=β2+?(xi-¯x)εi

?(xi-¯x)2,

or les erreursεisont décorrélées et de même varianceσ2donc la variance de la somme est la somme

des variances : Var(

ˆβ2) =?(xi-¯x)2σ2

(?(xi-¯x)2)2=σ2?(xi-¯x)2. Par ailleurs, la covariance entre¯yetˆβ2s"écrit :

Cov(¯y,ˆβ2) = Cov?

?yi n,?(xi-¯x)εi?(xi-¯x)2? =σ2?(xi-¯x)n?(xi-¯x)2= 0, d"où il vient pour la variance de

ˆβ1:

Var(

ˆβ1) = Var?

?yi n-ˆβ2¯x? c"est-à-dire : Var(

ˆβ1) =σ2

Enfin, pour la covariance des deux estimateurs :

Cov(

ˆβ1,ˆβ2) = Cov(¯y-ˆβ2¯x,ˆβ2) = Cov(¯y,ˆβ2)-¯xVar(ˆβ2) =-σ2¯x

?(xi-¯x)2.

RégressionArnaud Guyader - Rennes 2

6Chapitre 1. La régression linéaire simple

Remarques :

1. On a vu que la droite des MCO passe par le centre de gravité dunuage(¯x,¯y). Supposons

celui-ci fixé et¯xpositif, alors il est clair que si on augmente la pente, l"ordonnée à l"origine

va baisser et vice versa, on retrouve donc bien le signe négatif pour la covariance entreˆβ1

etˆβ2.

2. En statistique inférentielle, la variance d"un estimateur décroît typiquement de façon inver-

sement proportionnelle à la taille de l"échantillon, c"est-à-dire en1/n. En d"autres termes,

sa précision est généralement en1/⎷ n. Ceci ne saute pas aux yeux si l"on considère par exemple l"expression obtenue pour la variance deβ2: Var(

ˆβ2) =σ2

?(xi-¯x)2. Pour comprendre que tout se passe comme d"habitude, il suffit de considérer que lesxi

sont eux-mêmes aléatoires, avec écart-typeσx. Dans ce cas très général, le dénominateur

est d"ordrenσ2xet l"on retrouve bien une variance en1/n.

Les estimateurs des moindres carrés sont en fait optimaux enun certain sens, c"est ce que précise

le résultat suivant.

Théorème 3 (Gauss-Markov)Parmi les estimateurs sans biais linéaires eny, les estimateursˆβjsont de variances minimales.

Preuve.L"estimateur des MCO s"écritˆβ2=?ni=1piyi,avecpi= (xi-¯x)/?(xi-¯x)2. Considérons

un autre estimateur˜β2linéaire enyiet sans biais, c"est-à-dire :

β2=n?

i=1λ iyi.

Montrons que

?λi= 0et?λixi= 1. L"égalité ?(˜β2) =β1?λ i+β2?λ ixi+?λquotesdbs_dbs42.pdfusesText_42

[PDF] coefficient de corrélation r2

[PDF] régression statistique

[PDF] nuage de points statistique

[PDF] exercice covariance statistique corrigé

[PDF] psychologie et pédagogie jean piaget

[PDF] pédagogie et éducation différence

[PDF] spallation cosmique

[PDF] nucléosynthèse primordiale

[PDF] la personne que j'admire le plus est ma mere

[PDF] nucléosynthèse des éléments chimiques

[PDF] nucléosynthèse interstellaire

[PDF] nucléosynthèse dans les étoiles

[PDF] nucléosynthèse explosive

[PDF] nucléosynthèse stellaire pdf

[PDF] recettes du 18ème siècle

[PDF] Régression linéaire Régression linéaire. Arnaud

Université Rennes 2Master de Statistique

Année 2012/2013

Premier Semestre

Régression linéaire

ArnaudGuyader

Table des matières

1 La régression linéaire simple1

1.1 Modélisation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2 Moindres Carrés Ordinaires. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2.1 Calcul des estimateurs deβ1etβ2. . . . . . . . . . . . . . . . . . . . . . . 3

1.2.2 Quelques propriétés des estimateursˆβ1etˆβ2. . . . . . . . . . . . . . . . . 4

1.2.3 Calcul des résidus et de la variance résiduelle. . . . . . . . . . . . . . . . . 7

1.2.4 Prévision. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.3 Interprétations géométriques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.3.1 Représentation des variables. . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.3.2 Le coefficient de déterminationR2. . . . . . . . . . . . . . . . . . . . . . . 10

1.4 Cas d"erreurs gaussiennes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.4.1 Estimateurs du maximum de vraisemblance. . . . . . . . . . . . . . . . . . 11

1.4.2 Rappels sur les lois usuelles. . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.4.3 Lois des estimateurs et régions de confiance. . . . . . . . . . . . . . . . . . 13

1.4.4 Prévision. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.5 Exemple. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.6 Exercices. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.7 Corrigés. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2 La régression linéaire multiple29

2.1 Modélisation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.2 Estimateurs des Moindres Carrés Ordinaires. . . . . . . . . . . . . . . . . . . . . . 31

2.2.1 Calcul deˆβ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.2.2 Quelques propriétés. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.2.3 Résidus et variance résiduelle. . . . . . . . . . . . . . . . . . . . . . . . . . 35

2.2.4 Prévision. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

2.3 Interprétation géométrique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

2.4 Exemple. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.5 Exercices. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.6 Corrigés. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

3 Le modèle gaussien49

3.1 Estimateurs du Maximum de Vraisemblance. . . . . . . . . . . . . . . . . . . . . . 49

3.2 Lois des estimateurs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3.2.1 Quelques rappels. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3.2.2 Nouvelles propriétés. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

3.2.3 Intervalles et régions de confiance. . . . . . . . . . . . . . . . . . . . . . . . 53

3.2.4 Prévision. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

3.3 Tests d"hypothèses. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

3.3.1 Introduction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

3.3.2 Tests entre modèles emboîtés. . . . . . . . . . . . . . . . . . . . . . . . . . 56

3.3.3 Test de Student de signification d"un coefficient. . . . . . . . . . . . . . . . 60

3.3.4 Test de Fisher global. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

3.3.5 Lien avec le Rapport de Vraisemblance Maximale. . . . . . . . . . . . . . . 60

3.4 Estimation sous contraintes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

3.5 Exemple. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

3.6 Exercices. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3.7 Corrigés. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

4 Validation du modèle81

4.1 Analyse des résidus. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

4.1.1 Résidus et valeurs aberrantes. . . . . . . . . . . . . . . . . . . . . . . . . . 81

4.1.2 Analyse de la normalité. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

4.1.3 Analyse de l"homoscédasticité. . . . . . . . . . . . . . . . . . . . . . . . . . 85

4.1.4 Analyse de la structure des résidus. . . . . . . . . . . . . . . . . . . . . . . 85

4.2 Analyse de la matrice de projection. . . . . . . . . . . . . . . . . . . . . . . . . . . 88

4.3 Autres mesures diagnostiques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

A Annales93

B Rappels d"algèbre131

C Rappels de probabilité135

D Quelques données141

Bibliographie143

Arnaud Guyader - Rennes 2Régression

10 15 20 25 30

80 90 100 110 120 130

2Chapitre 1. La régression linéaire simple

1.1 Modélisation

1peut encore s"écrire de façon vectorielle :

Y=β1

1.3et elle sera d"usage constant en régression linéaire mul-

1.2 Moindres Carrés Ordinaires

Arnaud Guyader - Rennes 2Régression

1.2. Moindres Carrés Ordinaires3

S(β1,β2) =n?

1.2.1 Calcul des estimateurs deβ1etβ2

β1= ¯y-ˆβ2¯x,