PDFprof.com Search Engine



Sélection de modèle en régression linéaire

PDF
Images
List Docs
  • Comment valider un modèle de régression linéaire ?

    Si les résidus sont disposés de manière aléatoire autour de la droite horizontale centrée sur zéro (en rouge), alors on peut considérer que le modèle est linéaire (voir la figure 2.2).

  • Quels sont les modèles linéaires ?

    ANOVA, ANCOVA, MANOVA, MANCOVA, la Régression linéaire, les t-test et F-test font appel à des modèles linéaires.

  • C'est quoi un modèle de régression ?

    En statistiques, en économétrie et en apprentissage automatique, un modèle de régression linéaire est un modèle de régression qui cherche à établir une relation linéaire entre une variable, dite expliquée, et une ou plusieurs variables, dites explicatives.

  • Modèle de régression linéaire : modèle le plus simple qui exprime la relation entre Y et X à l'aide une fonction linéaire.
    Graphiquement, la relation est représentée par une droite d'équation y = b0 + b1x.
Résumé. Le modèle linéaire gaussien ou régression multiple est considéré avec pour objectif la prévision d'une variable quantitative par.Autres questions

Sélection de modèle en régression linéaire
LANALYSE DE RÉSEAUX
Introduction à lanalyse réseau
INTRODUCTION À LANALYSE DES RÉSEAUX
Introduction à lanalyse des réseaux sociaux
Introduction à la méthode danalyse des réseaux sociaux
Introduction : où en est lanalyse de réseaux en histoire?
Analyse de réseaux de pouvoir au sein dune organisation sociale
Lanalyse des réseaux personnels dans les organisations
LANALYSE DES RESEAUX SOCIAUX
Contributions à la Modélisation des Réseaux Complexes
Next PDF List

Sélection de modèle en régression linéaire

1Sélection de modèle en rég ressionlinéaire Sélection de modèle en régressionlinéaireRésuméLe modèle linéaire gaussien ou régression multiple est considéréavec pour objectif la prévision d"une variable quantitative parun ensemble de variables quantitatives ou un mélande de quan-titatives et qualitatives (analyse de covariance).

Recherche d"unmodèle parcimonieux assurant un bon équilibre entre la qualitéde l"ajustement et la variance des paramètres afin de minimiserle risque empirique.

Algorithmes (backward, forward, stepwise )de sélection de modèle par sélection de variables et minimisationde critères pénalisés (Cp, AIC, BIC).

Algorithmes de sélection demodèle par pénalisationridge, Lasso,elastic net.Retour àl"intr oduction.Tous les tutoriels sont disponibles sur le dépôt :github.com/wikistat1 Régression multipleLes modèles classiques de régession (linéaire, logistique) sont anciens etmoins l"occasion de battage médiatique que ceux récents issus de l"appren-tissage machine.

Néanmoins, compte tenu de leur robustesse, de leur stabilitéface à des fluctuations des échantillons, de leur capacité à passer à l"échelle desdonnées massives tout ceci fait qu"ils restent toujours très utilisés en produc-tion notamment lorsque la fonction à modéliser est bien linéaire et qu"il seraitcontre productif de chercher plus compliqué.1.

1) ModèleUne variable quantitativeYditeà expliquer(ou encore, réponse, exogène,dépendante) est mise en relation avecpvariables quantitativesX1;:::;Xpditesexplicatives(ou encore de contrôle, endogènes, indépendantes, régres-seurs, prédicteurs).Les données sont supposées provenir de l"observation d"un échantillon sta-tistique de taillen(n > p+ 1) deR(p+1):(x1i;:::;xji;:::;xpi;yi)i= 1;:::;n:L"écriture dumodèle linéairedans cette situation conduit à supposer quel"espérancedeYappartientausous-espacedeRnengendréparf1;X1;:::;Xpgoù1désigne le vecteur deRnconstitué de 1s.

C"est-à-dire que les(p+ 1)va-riables aléatoires vérifient :Yi=0+1X1i+2X2i++pXpi+"ii= 1;2;:::;navec les hypothèses suivantes :1.Les "isont des termes d"erreur indépendants et identiquement distri-bués;E("i) = 0;V ar(") =2I.2.Les termes Xjsont supposés déterministes (facteurs contrôlés)oubienl"erreur"estindépendantedeladistributionconjointedeX1;:::;Xp.On écrit dans ce dernier cas que :E(YjX1;:::;Xp) =0+1X1+2X2++pXpetV ar(YjX1;:::;Xp) =2:3.Les paramètres inconnus 0;:::;psont supposés constants.4.En option, pour l"étude spécifique des lois des estimateurs, une qua- trièmehypothèseconsidèrelanormalitédelavariabled"erreur"(N(0;2I)).Les"isont alors i.i.d. de loiN(0;2).Les données sont rangées dans une matriceX(n(p+ 1))de terme gé-néralXji, dont la première colonne contient le vecteur1(Xi0= 1), et dansun vecteurYde terme généralYi.

En notant les vecteurs"= ["1"p]0et= [01p]0, le modèle s"écrit matriciellement :Y=X+":1.

2) EstimationConditionnellement à la connaissance des valeurs desXj, les paramètresinconnus du modèle : le vecteuret2(paramètre de nuisance), sont esti-més par minimisation des carrés des écarts (M.C.) ou encore, en supposant(4.), par maximisation de la vraisemblance (M.V.).

Les estimateurs ont alorsles mêmes expressions, l"hypothèse de normalité et l"utilisation de la vraisem-blance conférant à ces derniers des propriétés complémentaires.

2) Sélection de modèle en rég ressionlinéaire 1.

3) Estimation par moindres carrésL"expression à minimiser sur2Rp+1s"écrit :nXi=1(Yi01X1i pXpi)2=kYXk2=Y0Y20X0Y+0X0X:Par dérivation matricielle de la dernière équation on obtient leséquations nor-males:X0YX0X= 0dont la solution correspond bien à un minimum car la matrice hessienne2X0Xest semi définie-positive.Nous faisons l"hypothèse supplémentaire que la matriceX0Xest inver-sible, c"est-à-dire que la matriceXest de rang(p+ 1)et donc qu"il n"existepas de colinéarité entre ses colonnes.

Si cette hypothèse n"est pas vérifiée, ilsuffit en principe de supprimer des colonnes deXet donc des variables du mo-dèle.

Une approche de réduction de dimension (régressionridge, Lasso, PLS ) est à mettre en oeuvre.Alors, l"estimation des paramètresjest donnée par :b= (X0X)1X0Yet les valeurs ajustées (ou estimées, prédites) deYont pour expression :bY=Xb=X(X0X)1X0Y=HYoùH=X(X0X)1X0(hat matrix).

Géométriquement, c"est la matrice deprojection orthogonale dansRnsur le sous-espace Vect(X) engendré par lesvecteurs colonnes deX.On notee=YbY=YXb= (IH)Yle vecteur des résidus; c"est la projection deYsur le sous-espace orthogonalde Vect(X) dansRn.1.

4) PropriétésLes estimateurs des M.C.b0;b1;:::;bpsont des estimateurs sans biais :E(b) =, et, parmi les estimateurs sans biais fonctions linéaires desYi, ilssont de variance minimum (théorème de Gauss-Markov); ils sont donc BLUE :best linear unbiaised estimators.

Sous hypothèse de normalité, les estimateursdu M.V. sont uniformément meilleurs (efficaces) et coïncident avec ceux desmoindres carrés.On montre que la matrice de covariance des estimateurs se met sous laformeE[(b)(b)0] =2(X0X)1;celle des prédicteurs estE[(bYX)(bYX)0] =2Het celle des estimateurs des résidus estE[ee0] =2(IH)tandis qu"un estimateur sans biais de2est fourni par :b2=kek2np1=kYXk2np1=SSEnp1:Ainsi, les termesb2hiisont des estimations des variances des prédicteursbYi.Conséquence importante: si la matriceX0Xest mal conditionnée (déter-minant proche de 0), son inversion fait apparaître des termes très élevés sur ladiagonale et conduit donc à des variances très importantes des estimations desparamètres.1.

5) Sommes des carrésSSE est la somme des carrés des résidus (sum of squared errors),SSE=YbY2=kek2:On définit également la somme totale des carrés (total sum of squares) parSST=YY12=Y0YnY23Sélection de modèle en rég ressionlinéaire et la somme des carrés de la régression (regression sum of squares) parSSR=bYY12=bY0bYnY2=Y0HYnY2=b0X0YnY2:On vérifie alors : SST=SSR+SSE.1.

6) Coefficient de déterminationOn appellecoefficient de déterminationle rapportR2=SSRSSTqui est donc la part de variation deYexpliquée par le modèle de régression.Géométriquement, c"est un rapport de carrés de longueur de deux vecteurs.C"est donc le cosinus carré de l"angle entre ces vecteurs :Yet sa projectionbYsur Vect(X).La quantitéRest appeléecoefficient de corrélation multipleentreYet lesvariables explicatives, c"est le coefficient de corrélation usuel entreYet saprévisionbY.Par construction, le coefficient de détermination croît avec le nombrepdevartiables.1.

7) Inférence dans le cas gaussienEnprincipe,l"hypothèseoptionnelle(4.)denormalitédeserreursestnéces-saire pour cette section.

En pratique, des résultats asymptotiques, donc validespour de grands échantillons, ainsi que des études de simulation, montrent quecette hypothèse n"est pas celle dont la violation est la plus pénalisante pour lafiabilité des modèles.Inférence sur les coefficientsPour chaque coefficientjon noteb2jl"estimateur de la variance debjobtenu en prenantj-ème terme diagonal de la matriceb2(X0X)1.

On montreque la statistiquebjjbjsuit une loi de Student à(np1)degrés de liberté.

Cette statistique estdonc utilisée pour tester une hypothèseH0:j=aou pour construire unintervalle de confiance de niveau100(1)%:bjt=2;(np1)b2j:Attention, cette statistique concerne un coefficient et ne permet pas d"infé-rer conjointement sur d"autres coefficients car leurs estimateurs sont corrélés.De plus elle dépend des absences ou présences des autres variablesXkdansle modèle.

Par exemple, dans le cas particulier de deux variablesX1etX2très corrélées, chaque variable, en l"absence de l"autre, peut apparaître avecun coefficient significativement différent de 0; mais, si les deux sont présentesdans le modèle, l"une peut apparaître avec un coefficient insignifiant.Defaçonplusgénérale,sicdésigneunvecteurnonnulde(p+1)constantesréelles, il est possible de tester la valeur d"une combinaison linéairec0des pa-ramètres en considérant l"hypothèse nulleH0:c0=a;aconnu.

SousH0,la statistiquec0ba(b2c0(X0X)1c)1=2suit une loi de Student à(np1)degrés de liberté.Inférence sur le modèleLe modèle peut être testé globalement.

Sous l"hypothèse nulleH0:1=2=:::=p= 0, la statistiqueSSR=pSSE=(np1)=MSRMSEsuit une loi de Fisher avecpet(np1)degrés de liberté.

Les résultatssont habituellement présentés dans un tableaud"analyse de la variance"sousla forme suivante :Source devariationd.d.l.Somme descarrésVarianceFRégressionpSSR MSR=SSR/pMSR/MSEErreurnp1SSE MSE=SSE/(np1)Totaln1SST4Sélection de modèle en rég ressionlinéaire Inférence sur un modèle réduitLe test précédent amène à rejeterH0dès que l"une des variablesXjestliée àY.

Il est donc d"un intérêt limité.

Il est souvent plus utile de tester unmodèle réduit c"est-à-dire dans lequel certains coefficients, à l"exception dela constante, sont nuls contre le modèle complet avec toutes les variables.

Enayant éventuellement réordonné les variables, on considère l"hypothèse nulleH0:1=2=:::=q= 0;q < p.Notons respectivement SSRq, SSEq,R2qles sommes de carrés et le coef-ficient de détermination du modèle réduit à(pq)variables.

SousH0, lastatistique(SSRSSRq)=qSSE=(np1)=(R2R2q)=q(1R2)=(np1)suit une loi de Fisher àqet(np1)degrés de liberté.Dans le cas particulier oùq= 1(j= 0), laF-statistique est alors le carréde lat-statistique de l"inférence sur un paramètre et conduit donc au mêmetest.1.

8) PrévisionConnaissant les valeurs des variablesXjpour une nouvelle observation :x00= [x10;x20;:::;xp0]appartenant au domaine dans lequel l"hypothèse de li-néarité reste valide, une prévision, notéeby0deYouE(Y)est donnée par :by0=b0+b1x10++bpxp0:Les intervalles de confiance des prévisions deYetE(Y), pourunevaleurx02Rpet en posantv0= (1jx00)02Rp+1, sont respectivementby0t=2;(np1)b(1 +v00(X0X)1v0)1=2;by0t=2;(np1)b(v00(X0X)1v0)1=2:Les variances de ces prévisions, comme celles des estimations des para-mètres, dépendent directement du conditionnement de la matriceX0X.1.

9) DiagnosticsLa validité d"un modèle de régression multiple et donc la fiabilité des pré-visions, dépendent de la bonne vérification des hypothèses :homoscédasticité : variance2des résidus constante,linéarité du modèle : paramètresjconstant,absence de points influents par la distance de Cook :Di=1s2(p+ 1)(byby(i))0(byby(i));éventuellement la normalité des résidus,le conditionnement de la matriceX0X.Tracerlegraphedesrésidusstandardisésenfonctiondesvaleursajustésmontreleur plus ou moins bonne répartition autour de l"axey= 0.

La forme de cenuage est susceptible de dénoncer une absence de linéarité ou une hétéroscé-dasticité.Le conditionnement de la matriceX0Xest indiqué par le rapport=1=poù1;:::;psont les valeurs propres de la matrice des corrélationsRrangées par ordre décroissant.

Ainsi, des problèmes de variances excessivesvoire même de précision numérique apparaissent dès que les dernières valeurspropres sont relativement trop petites.1.10 ExempleLes données sont extraites de Jobson (1991)[3] et décrivent les résultatscomptables de 40 entreprises du Royaume Uni.RETCAP Return on capital employedWCFTDT Ratio of working capital flow to total debtLOGSALE Log to base 10 of total salesLOGASST Log to base 10 of total assetsCURRAT Current ratioQUIKRAT Quick ratioNFATAST Ratio of net fixed assets to total assetsFATTOT Gross sixed assets to total assetsPAYOUT Payout ratioWCFTCL Ratio of working capital flow to total current liabilitiesGEARRAT Gearing ratio (debt-equity ratio)CAPINT Capital intensity (ratio of total sales to total assets)INVTAST Ratio of total inventories to total assetsModèle completLa procédure SAS/REG fournit les résultats classiques de la régressionmultiple.

5) Sélection de modèle en rég ressionlinéaire Analysis of VarianceSum of MeanSource DF Squares Square F Value Prob>F(1)Model 12 0.55868 (2) 0.04656 (5) 8.408 (7) 0.0001 (8)Error 27 0.14951 (3) 0.00554 (6)C Total 39 0.70820 (4)Root MSE 0.07441 (.

9) R-square 0.7889 (12)Dep Mean 0.14275 (1.

0) Adj R-sq 0.6951 (13)C.V. 52.12940 (11)(1) degrés de liberté de la loi de Fisher du test global(.

2) SSR(. 3) SSE ou déviance(. 4) SST=SSE+SSR(. 5) SSR/DF(. 6) MSE=SSE/DF est l"estimation de2(.

7) StatistiqueFdu test de Fisher du modèle global(8)P(fp;np1> F);H0est rejetée au niveausiP < (9)s=racine de MSE(10) moyenne empirique de la variable à expliquée(1.

1) Coefficient de variation100(9)/(10)(1. 2) Coefficient de déterminationR2(1.

3) Coefficient de détermination ajustéR02Parameter EstimatesParameter Standard T for H0: VarianceVariable DF Estimate Error Parameter=0 Prob>|T| Tolerance Inflation(1) (2) (3) (4) (5) (6)INTERCEP 1 0.188072 0.13391661 1.404 0.1716 . 0.00000000WCFTCL 1 0.215130 0.19788455 1.087 0.2866 0.03734409 26.77799793WCFTDT 1 0.305557 0.29736579 1.028 0.3133 0.02187972 45.70441500GEARRAT 1 -0.040436 0.07677092 -0.527 0.6027 0.45778579 2.18442778LOGSALE 1 0.118440 0.03611612 3.279 0.0029 0.10629382 9.40788501LOGASST 1 -0.076960 0.04517414 -1.704 0.0999 0.21200778 4.71680805 (1) estimations des paramètres(bj)(2) écarts-types de ces estimationsbj(3) statistiqueTdu test de Student deH0:j= 0(4)P(tnp1> T);H0est rejetée au niveausiP < (5)1R2(j)(.

6) VIF=1=(1R2(j))Ces résultats soulignent les problèmes de colinéarités.

De grands VIF (fac-teurs d"inflation de la variance) sont associés à de grands écart-types des esti-mationsdesparamètres.D"autrepartlesnombreuxtestsdeStudentnonsignifi-catifs montrent que trop de variables sont présentes dans le modèle.

Cette idéeest renforcée par le calcul de l"indice de conditionnement : 8.76623/0.00125.

2) Analyse de covariance (AnCoVaL"analyse de covariancese situe encore dans le cadre général du modèlelinéaire et où une variable quantitative est expliquée par plusieurs variables à lafois quantitatives et qualitatives.

Les cas les plus complexes associent plusieursfacteurs(variablesqualitatives)avecunestructurecroiséeouhiérarchiqueainsiqueplusieursvariablesquantitativesintervenantdemanièrelinéaireoupolyno-miale.

Le principe général, dans un but explicatif ou décisionnel, est toujoursd"estimer des modèlesintra-groupeset de faire apparaître (tester) des effetsdifférentielsinter-groupesdes paramètres des régressions.

Ainsi, dans le casplus simple où seulement une variable parmi les explicatives est quantitative,des tests interrogent l"hétérogénéité des constantes et celle des pentes (interac-tion) entre différents modèles de régression linéaire.Ce type de modèle permet également, avec un objectif prédictif, de s"in-téresser à la modélisation d"une variable quantitative par un ensemble de va-riables explicatives à la fois quantitatives et qualitatives.La possible prise en compte d"interactionsentre les variables complique laprocédure de sélection de variables.2.

1) ModèleLe modèle est explicité dans le cas élémentaire où une variable quantitativeYest expliquée par une variable qualitativeTàJniveaux et une variablequantitative, appelée encore covariable,X.

Pour chaque niveaujdeT, onobservenjvaleursX1j;:::;XnjjdeXetnjvaleursY1j;:::;YnjjdeY;n=PJj=1njest la taille de l"échantillon.En pratique, avant de lancer une procédure de modélisation et tests, unedémarche exploratoire s"appuyant sur une représentation en couleur (une parmodalitéjde T) du nuage de points croisantYetXet associant les droites derégression permet de se faire une idée sur les effets respectifs des variables :parallélisme des droites, étirement, imbrication des sous-nuages.On suppose que les moyennes conditionnellesE[YjT], c"est-à-dire calcu-lées à l"intérieur de chaque cellule, sont dans le sous-espace vectoriel engendrépar les variables explicatives quantitatives, iciX.

Ceci s"écrit :Yij=0j+1jXij+"ij;j= 1;:::;J;i= 1;;nj6Sélection de modèle en rég ressionlinéaire où les"ijsont i.i.d. suivant une loi centrée de variance2qui sera supposéeN(0;2)pour la construction des tests.NotonsYle vecteur des observations[Yijji= 1;nj;j= 1;J]0mis encolonne,xle vecteur[Xijji= 1;nj;j= 1;J]0,"= ["ijji= 1;nj;j= 1;J]0le vecteur des erreurs,1jles variables indicatrices des niveaux et1la colonnede 1s.

On note encorex:1jle produit terme à terme des deux vecteurs, c"est-à-dire le vecteur contenant les observations dexsur les individus prenant leniveaujdeTet des zéros ailleurs.La résolution simultanée desJmodèles de régression est simplement ob-tenue en considérant globalement le modèle :Y=X+"dans lequelXest la matricen2Jconstituée des blocs[1jjX:1j] ;j=1;:::;J.

L"estimation de ce modèle global conduit, par bloc, à estimer lesmodèles de régression dans chacune des cellules.Comme pour l"analyse de variance (AnOVa), les logiciels opèrent une re-paramétrisation faisant apparaître des effets différentiels par rapport au dernierniveau ou par rapport à un effet moyen, afin d"obtenir directement les bonneshypothèses dans les tests