[PDF] Introduction à la régression multiple





Previous PDF Next PDF



MX2 MANUEL DUTILISATION

AVERTISSEMENT AVERTISSEMENT : Lors d'un événement d'erreur si l'alarme est ration et une décélération contrôlées



Manuel V.3.6.0 Build 99 Solar-Log™

14.7 Configuration du Solar-Log™ à l'aide de l'assistant de configuration. la cause la plus fréquente d'erreur lors de la mise en service du Solar-Log™.



Méthodologie des enquêtes alimentaires

Erreurs liées à la table de composition (erreur systématique) . enregistrement alimentaire de 3 jours destiné à vérifier les données recueillies lors de.



Méthodes de mesure du débit - Cahier 7

10.7 Causes d'erreur de la méthode utilisant la capacité d'une pompe d'un Tableau 43 : Recommandations à appliquer lors de l'injection du traceur .



Introduction aux probabilités et à la statistique Jean Bérard

nombreux détails et approfondissements par rapport à ce qui est présenté lors des séances de cours. À la fin de chaque chapitre avant les exercices



Introduction à la régression multiple

En option pour l'étude spécifique des lois des estimateurs



Outils de sécurisation et dauto-évaluation de ladministration des

Où trouver l'information dans le guide ? Communiquer pour sensibiliser les professionnels à l'erreur médicamenteuse lors de l'administration des médicaments.



Guide de validation des méthodes danalyses

28 oct. 2015 Tableau 5 - Intervalle de confiance à 95% d'un pourcentage de Sp. 42. Tableau 6 Synthèse des résultats obtenus lors de l'étude de ...



NS-Series Manuel de paramétrage

Lors du déballage des unités vérifiez l'absence de toute éraflure externe Reliez l'unité à la terre afin d'éviter toute erreur de fonctionnement due à ...



Guide de prise en main de ClimaWin

7 juil. 2021 Condition de mise à jour – droits d'administration. 53. 13.2. Mise à jour ... ainsi tout problème lors de la réouverture de ClimaWin.

Introduction à la régression multiple

Introduction à la régression multiple

Résumé

A la suite de la

régr essionlinéair esimple , cette vignette introduit le modèle linéaire multidimensionnel dans lequel une variable quan- titativeYest expliquée, modélisée, par plusieurs variables quanti- tativesXj(j= 1;:::;p). Après avoir expliciter les hypothèses né- cessaires et les termes du modèle, les notions d"estimation des pa- ramètres du modèle (moindres carrés), de prévision par intervalle de confiance, la signification des tests d"hypothèse sont discutées de même que les outils de diagnostics (graphe des résidus, colinéarité). Des développements complémentaires sont à rechercher dans une présentation plus complète du modèle linéair e

Retour au

plan du cour s

1 Introduction

Le modèle de régression linéaire multiple est l"outil statistique le plus ha- bituellement mis en oeuvre pour l"étude de données multidimensionnelles. Cas particulier de modèle linéaire, il constitue la généralisation naturelle de la ré- gression simple.

2 Modèle

Une variable quantitativeYditeà expliquer(ou encore, réponse, exogène, dépendante) est mise en relation avecpvariables quantitativesX1;:::;Xp ditesexplicatives(ou encore de contrôle, endogènes, indépendantes, régres- seurs). Les données sont supposées provenir de l"observation d"un échantillon sta- tistique de taillen(n > p+ 1) deR(p+1): (x1i;:::;xj i;:::;xp i;yi)i= 1;:::;n: L"écriture dumodèle linéairedans cette situation conduit à suppo-

ser que l"espérance deYappartient au sous-espace deRnengendré parf1;X1;:::;Xpgoù1désigne le vecteur deRnconstitué de "1" . C"est-à-

dire que les(p+ 1)variables aléatoires vérifient : y i=0+1x1i+2x2i++pxp i+"ii= 1;2;:::;n avec les hypothèses suivantes : 1. Les "isont des termes d"erreur, non observés, indépendants et identique- ment distribués;E("i) = 0;V ar(") =2I. 2. Les termes xjsont supposés déterministes (facteurs contrôlés)ou bien

l"erreur"est indépendante de la distribution conjointe deX1;:::;Xp.On écrit dans ce dernier cas que :

E(YjX1;:::;Xp) =0+1X1+2X2++pXpet Var(YjX1;:::;Xp) =2: 3. Les paramètres inconnus 0;:::;psont supposés constants. 4. En option, pour l"étude spécifique des lois des estimateurs, une quatrième hypothèse considère la normalité de la variable d"erreur"(N(0;2I)).

Les"isont alors i.i.d. de loiN(0;2).

Les données sont rangées dans une matriceX(n(p+ 1))de terme gé- néralxj i, dont la première colonne contient le vecteur1(xi0= 1), et dans un vecteurYde terme généralyi. En notant les vecteurs"= ["1"p]0et = [01p]0, le modèle s"écrit matriciellement : y=X+":

3 Estimation

Conditionnellement à la connaissance des valeurs desXj, les paramètres inconnus du modèle : le vecteuret2(paramètre de nuisance), sont es- timés par minimisation du critère des moindres carrés (M.C.) ou encore, en supposant (iv), par maximisation de la vraisemblance (M.V.). Les estimateurs ont alors les mêmes expressions, l"hypothèse de normalité et l"utilisation de la vraisemblance conférant à ces derniers des propriétés complémentaires. Attention, de façon abusive mais pour simplifier les notations, estimateurs et estimations des paramètres, c"est-à-dire la réalisation de ces estimateurs sur l"échantillon, sont notés de la même façonb.1

Introduction à la régression multiple

3.1 Estimation par M.C.

L"expression à minimiser sur2Rp+1s"écrit :

n X i=1(yi01x1i2x2i pxp i)2=kyXk2 = (yX)0(yX) =y0y20X0y+0X0X: Par dérivation matricielle de la dernière équation on obtient les"équations normales": X

0yX0X= 0

dont la solution correspond bien à un minimum car la matrice hessienne2X0X est semi définie-positive. Nous faisons l"hypothèse supplémentaire que la matriceX0Xest inversible, c"est-à-dire que la matriceXest de rang(p+ 1)et donc qu"il n"existe pas de il suffit de supprimer des colonnes deXet donc des variables du modèle. Des diagnostics de colinéarité et des aides au choix des variables sont explicités dans une présentation détaillée du modèle linéaire Alors, l"estimation des paramètresjest donnée par : b= (X0X)1X0y et les valeurs ajustées (ou estimées, prédites) deyont pour expression : b y=Xb=X(X0X)1X0y=Hy oùH=X(X0X)1X0est appelée "hat matrix"; elle met un chapeau ày. Géométriquement, c"est la matrice de projection orthogonale dansRnsur le sous-espace Vect(X) engendré par les vecteurs colonnes deX.

On note

e=yby=yXb= (IH)y le vecteur des résidus; c"est la projection deysur le sous-espace orthogonal de Vect(X) dansRn.OX 1X 2X pY b Y" FIGURE1 - Géométriquement, la régression est la projectionbYdeYsur l"es- pace vectoriel Vectf1;X1;:::;Xpg; de plusR2= cos2().

3.2 Propriétés

Les estimateurs des M.C.b0;b1;:::;bpsont des estimateurs sans biais : E(b) =, et, parmi les estimateurs sans biais fonctions linéaires desyi, ils sont de variance minimum (propriété de Gauss-Markov); ils sont donc "BLUE" :best linear unbiaised estimators. Sous hypothèse de normalité, les atteint la borne inférieure de Cramer-Rao. On montre que la matrice de covariance des estimateurs se met sous la forme

E[(b)(b)0] =2(X0X)1;

celle des prédicteurs est

E[(byX)(byX)0] =2H

et celle des estimateurs des résidus est

E[(e")((e"))0] =2(IH)2

Introduction à la régression multiple

tandis qu"un estimateur sans biais de2est fourni par : s

2=kek2np1=kyXk2np1=SSEnp1:

Ainsi, les termess2hiisont des estimations des variances des prédicteursbyi.

3.3 Sommes des carrés

SSE est la somme des carrés des résidus (sum of squared errors),

SSE=kybyk2=kek2:

On définit également la somme totale des carrés (total sum of squares) par

SST=kyy1k2=y0yny

2 et la somme des carrés de la régression (regression sum of squares) par

SSR=kbyy1k2=by0byny

2=y0Hyny

2=b0X0yny

2:

On vérifie alors : SST=SSR+SSE.

3.4 Coefficient de détermination

On appellecoefficient de déterminationle rapport R

2=SSRSST

qui est donc la part de variation deYexpliquée par le modèle de régression. Géométriquement, c"est un rapport de carrés de longueur de deux vecteurs. C"est donc le cosinus carré de l"angle entre ces vecteurs :yet sa projectionby sur Vect(X). Attention, dans le cas extrême oùn= (p+ 1), c"est-à-dire si le nombre de variables explicatives est grand comparativement au nombre d"observations, R

2= 1. Ou encore, il est géométriquement facile de voir que l"ajout de va-

riables explicatives ne peut que faire croître le coefficient de détermination. Ce critère n"est qu"une indication de laqualité d"ajustementdu modèle mais un R

2proche de 1 n"est pas synonyme de bonne qualité de prévision. La quantité

Rest encore appeléecoefficient de corrélation multipleentreYet les variables explicatives, c"est le coefficient de corrélation usuel entreyet sa prédiction (ou projection) by.4 Inférences dans le cas gaussien En principe, l"hypothèse optionnelle (iv) de normalité des erreurs est néces- saire pour cette section. En pratique, des résultats asymptotiques, donc valides pour de grands échantillons, ainsi que des études de simulation, montrent que cette hypothèse n"est pas celle dont la violation est la plus pénalisante pour la fiabilité des modèles.

4.1 Inférence sur les coefficients

Pour chaque coefficientjon montre que la statistique b jj bj où2b j, variance debjest lej-ième terme diagonal de la matrices2(X0X)1, suit une loi de Student à(np1)degrés de liberté. Cette statistique est donc utilisée pour tester une hypothèseH0:j=aou pour construire un intervalle de confiance de niveau100(1)%: b jt=2;(np1)bj: Attention, cette statistique concerne un coefficient et ne permet pas d"inférer conjointement sur d"autres coefficients car ils sont corrélés entre eux; de plus elle dépend des absences ou présences des autres variablesXkdans le modèle. Par exemple, dans le cas particulier de deux variablesX1etX2très corrélées, chaque variable, en l"absence de l"autre, peut apparaître avec un coefficient si- gnificativement différent de 0; mais, si les deux sont présentes dans le modèle, elles peuvent chacune apparaître avec des coefficients insignifiants. De façon plus générale, sicdésigne un vecteur non nul de(p+1)constantes réelles, il est possible de tester la valeur d"une combinaison linéairec0bdes paramètres en considérant l"hypothèse nulleH0:c0b=a;aconnu. Sous H

0, la statistique

c

0ba(s2c0(X0X)1c)1=2

suit une loi de Student à(np1)degrés de liberté.3

Introduction à la régression multiple

4.2 Inférence sur le modèle

Le modèle peut être testé globalement. Sous l"hypothèse nulleH0:1=

2=:::=p= 0, la statistique

SSR=pSSE=(np1)=MSRMSE

suit une loi de Fisher avecpet(np1)degrés de liberté. Les résultats sont habituellement présentés dans un tableau"d"analyse de la variance"sous la forme suivante :

Source de

variation d.d.l.Somme des carrésVarianceFRégressionpSSR MSR=SSR/pMSR/MSE

Erreurnp1SSE MSE=SSE/(np1)

Totaln1SST4.3 Inférence sur un modèle réduit Le test précédent amène à rejeterH0dès que l"une des variablesXjest liée àY. Il est donc d"un intérêt limité. Il est souvent plus utile de tester un modèle réduit c"est-à-dire dans lequel certains coefficients sont nuls (à l"exception du terme constant) contre le modèle complet avec toutes les variables. En ayant éventuellement réordonné les variables, on considère l"hypothèse nulleH0:

1=2=:::=q= 0;q < p.

Notons respectivement SSR

quotesdbs_dbs14.pdfusesText_20
[PDF] Erreur matérielle : acquisition de deux bennes à ordures ménagères

[PDF] Erreur répandues dans la purification - Anciens Et Réunions

[PDF] Erreur, échec. Objets de savoir. Objets du - SITE Patrick ROBO

[PDF] Erreurs à Delphes. La tholos de Marmaria au fil des interprétations

[PDF] Erreurs courantes de conception dans les hôtels

[PDF] Erreurs de script de LiveCycle® Designer

[PDF] Erreurs des acheteurs d`une première maison et comment les éviter

[PDF] Erreurs d`exécution SET_VM_STATUS

[PDF] Erreurs et décisions de gestion

[PDF] Erreurs JavaScript (bogues) : - Javascript

[PDF] Erreurs judiciaires

[PDF] Erreurs médicamenteuses - Agences Régionales de Santé - Anciens Et Réunions

[PDF] Erreurs, mensonges et manipulations autour des 35 heures

[PDF] erri De Luca - par Imagine - France

[PDF] ERRICHTUNG DES HOTELS EDEN IN SEEFELD IN TIROL