[PDF] [PDF] Introduction à la régression multiple

Le modèle de régression linéaire multiple est l'outil statistique le plus ha- bituellement mis en œuvre pour l'étude de données multidimensionnelles Cas



Previous PDF Next PDF





[PDF] NOTION DE MULTIPLE, DIVISEUR ET NOMBRE - maths et tiques

Propriété : La somme de deux multiples d'un entier a est un multiple de a Démonstration au programme : avec a = 3 Vidéo https://youtu be/4an6JTwrJV4 Soit b 



[PDF] Régression multiple : principes et exemples dapplication

fait appel à l'analyse par régression linéaire multiple selon différentes simultanément les structures multiples liant différentes variables (n → n, analyse



[PDF] Introduction à la régression multiple

Le modèle de régression linéaire multiple est l'outil statistique le plus ha- bituellement mis en œuvre pour l'étude de données multidimensionnelles Cas



[PDF] Régression linéaire multiple - Université Lumière Lyon 2

Régression linéaire multiple • Se restreindre à une famille de fonction de prédiction linéaire • Et à des exogènes quantitatives (éventuellement des qualitatives 



[PDF] Pratique de la Régression Linéaire Multiple - Université Lumière

Ricco Rakotomalala Pratique de la Régression Linéaire Multiple Diagnostic et sélection de variables Version 2 1 Université Lumière Lyon 2 Page: 1



[PDF] Chapitre II Régression linéaire multiple

Commentaires : - La désignation “multiple” fait référence au fait qu'il y a plusieurs variables explicatives xj pour expliquer y 



[PDF] Quest ce quun multiple, quest ce quun diviseur

Un multiple est tout simplement le résultat d'une multiplication de nombres entiers (Les nombres entiers sont : 1, 2, 3, 4, 5, 6 100 500 ) Exemples :



[PDF] Les multiples

Les multiples Un multiple d'un chiffre est un nombre qui appartient à la table de multiplication de ce chiffre Par exemple, 35 est un multiple de 5 car 35 = 7 x 5



[PDF] Item 166 : Myélome multiple des os

Le Myélome Multiple (MM) des os ou maladie de Kahler est une hémopathie maligne caractérisée par le développement d'un clone de plasmocytes tumoraux  

[PDF] multiple de 19

[PDF] fonction de bessel j0

[PDF] table de 13

[PDF] fonction de bessel pdf

[PDF] fonction de bessel modifiée

[PDF] introduction ? la microéconomie varian pdf

[PDF] cours microeconomie 1 pdf

[PDF] cours de microéconomie licence 1 pdf

[PDF] corrélation multiple

[PDF] correlation multiple r

[PDF] exercice fonction cout de production

[PDF] corrélation multiple définition

[PDF] corrélation multiple spss

[PDF] coefficient de détermination multiple excel

[PDF] definition fonction de cout total

[PDF] Introduction à la régression multiple

Introduction à la régression multiple

Introduction à la régression multiple

Résumé

A la suite de la

régr essionlinéair esimple , cette vignette introduit le modèle linéaire multidimensionnel dans lequel une variable quan- titativeYest expliquée, modélisée, par plusieurs variables quanti- tativesXj(j= 1;:::;p). Après avoir expliciter les hypothèses né- cessaires et les termes du modèle, les notions d"estimation des pa- ramètres du modèle (moindres carrés), de prévision par intervalle de confiance, la signification des tests d"hypothèse sont discutées de même que les outils de diagnostics (graphe des résidus, colinéarité). Des développements complémentaires sont à rechercher dans une présentation plus complète du modèle linéair e

Retour au

plan du cour s

1 Introduction

Le modèle de régression linéaire multiple est l"outil statistique le plus ha- bituellement mis en oeuvre pour l"étude de données multidimensionnelles. Cas particulier de modèle linéaire, il constitue la généralisation naturelle de la ré- gression simple.

2 Modèle

Une variable quantitativeYditeà expliquer(ou encore, réponse, exogène, dépendante) est mise en relation avecpvariables quantitativesX1;:::;Xp ditesexplicatives(ou encore de contrôle, endogènes, indépendantes, régres- seurs). Les données sont supposées provenir de l"observation d"un échantillon sta- tistique de taillen(n > p+ 1) deR(p+1): (x1i;:::;xj i;:::;xp i;yi)i= 1;:::;n: L"écriture dumodèle linéairedans cette situation conduit à suppo-

ser que l"espérance deYappartient au sous-espace deRnengendré parf1;X1;:::;Xpgoù1désigne le vecteur deRnconstitué de "1" . C"est-à-

dire que les(p+ 1)variables aléatoires vérifient : y i=0+1x1i+2x2i++pxp i+"ii= 1;2;:::;n avec les hypothèses suivantes : 1. Les "isont des termes d"erreur, non observés, indépendants et identique- ment distribués;E("i) = 0;V ar(") =2I. 2. Les termes xjsont supposés déterministes (facteurs contrôlés)ou bien

l"erreur"est indépendante de la distribution conjointe deX1;:::;Xp.On écrit dans ce dernier cas que :

E(YjX1;:::;Xp) =0+1X1+2X2++pXpet Var(YjX1;:::;Xp) =2: 3. Les paramètres inconnus 0;:::;psont supposés constants. 4. En option, pour l"étude spécifique des lois des estimateurs, une quatrième hypothèse considère la normalité de la variable d"erreur"(N(0;2I)).

Les"isont alors i.i.d. de loiN(0;2).

Les données sont rangées dans une matriceX(n(p+ 1))de terme gé- néralxj i, dont la première colonne contient le vecteur1(xi0= 1), et dans un vecteurYde terme généralyi. En notant les vecteurs"= ["1"p]0et = [01p]0, le modèle s"écrit matriciellement : y=X+":

3 Estimation

Conditionnellement à la connaissance des valeurs desXj, les paramètres inconnus du modèle : le vecteuret2(paramètre de nuisance), sont es- timés par minimisation du critère des moindres carrés (M.C.) ou encore, en supposant (iv), par maximisation de la vraisemblance (M.V.). Les estimateurs ont alors les mêmes expressions, l"hypothèse de normalité et l"utilisation de la vraisemblance conférant à ces derniers des propriétés complémentaires. Attention, de façon abusive mais pour simplifier les notations, estimateurs et estimations des paramètres, c"est-à-dire la réalisation de ces estimateurs sur l"échantillon, sont notés de la même façonb.1

Introduction à la régression multiple

3.1 Estimation par M.C.

L"expression à minimiser sur2Rp+1s"écrit :

n X i=1(yi01x1i2x2i pxp i)2=kyXk2 = (yX)0(yX) =y0y20X0y+0X0X: Par dérivation matricielle de la dernière équation on obtient les"équations normales": X

0yX0X= 0

dont la solution correspond bien à un minimum car la matrice hessienne2X0X est semi définie-positive. Nous faisons l"hypothèse supplémentaire que la matriceX0Xest inversible, c"est-à-dire que la matriceXest de rang(p+ 1)et donc qu"il n"existe pas de il suffit de supprimer des colonnes deXet donc des variables du modèle. Des diagnostics de colinéarité et des aides au choix des variables sont explicités dans une présentation détaillée du modèle linéaire Alors, l"estimation des paramètresjest donnée par : b= (X0X)1X0y et les valeurs ajustées (ou estimées, prédites) deyont pour expression : b y=Xb=X(X0X)1X0y=Hy oùH=X(X0X)1X0est appelée "hat matrix"; elle met un chapeau ày. Géométriquement, c"est la matrice de projection orthogonale dansRnsur le sous-espace Vect(X) engendré par les vecteurs colonnes deX.

On note

e=yby=yXb= (IH)y le vecteur des résidus; c"est la projection deysur le sous-espace orthogonal de Vect(X) dansRn.OX 1X 2X pY b Y" FIGURE1 - Géométriquement, la régression est la projectionbYdeYsur l"es- pace vectoriel Vectf1;X1;:::;Xpg; de plusR2= cos2().

3.2 Propriétés

Les estimateurs des M.C.b0;b1;:::;bpsont des estimateurs sans biais : E(b) =, et, parmi les estimateurs sans biais fonctions linéaires desyi, ils sont de variance minimum (propriété de Gauss-Markov); ils sont donc "BLUE" :best linear unbiaised estimators. Sous hypothèse de normalité, les atteint la borne inférieure de Cramer-Rao. On montre que la matrice de covariance des estimateurs se met sous la forme

E[(b)(b)0] =2(X0X)1;

celle des prédicteurs est

E[(byX)(byX)0] =2H

et celle des estimateurs des résidus est

E[(e")((e"))0] =2(IH)2

Introduction à la régression multiple

tandis qu"un estimateur sans biais de2est fourni par : s

2=kek2np1=kyXk2np1=SSEnp1:

Ainsi, les termess2hiisont des estimations des variances des prédicteursbyi.

3.3 Sommes des carrés

SSE est la somme des carrés des résidus (sum of squared errors),

SSE=kybyk2=kek2:

On définit également la somme totale des carrés (total sum of squares) par

SST=kyy1k2=y0yny

2 et la somme des carrés de la régression (regression sum of squares) par

SSR=kbyy1k2=by0byny

2=y0Hyny

2=b0X0yny

2:

On vérifie alors : SST=SSR+SSE.

3.4 Coefficient de détermination

On appellecoefficient de déterminationle rapport R

2=SSRSST

qui est donc la part de variation deYexpliquée par le modèle de régression. Géométriquement, c"est un rapport de carrés de longueur de deux vecteurs. C"est donc le cosinus carré de l"angle entre ces vecteurs :yet sa projectionby sur Vect(X). Attention, dans le cas extrême oùn= (p+ 1), c"est-à-dire si le nombre de variables explicatives est grand comparativement au nombre d"observations, R

2= 1. Ou encore, il est géométriquement facile de voir que l"ajout de va-

riables explicatives ne peut que faire croître le coefficient de détermination. Ce critère n"est qu"une indication de laqualité d"ajustementdu modèle mais unquotesdbs_dbs2.pdfusesText_2