CorReg : Préselection de variables en régression linéaire avec PDF

variables explicatives Xj et la variable expliquée Y. Le vecteur b = (b1 b2

Variables explicatives indépendantes

Que faire des variables explicatives très corrélées ? Il va sans dire que choisir une méthode statistique de prédiction nécessite dans la plupart des cas une

GLMs : En pratique

Multicolinéarité entre variables explicatives. Page 25. 25. Le problème. Lorsque les variables explicatives sont corrélées entre elles on rencontre plusieurs

La résolution dun problème de multicolinéarité au sein des études

25 avr. 2012 l'une des variables explicatives parmi celles qui sont parfaitement corrélées entre elles. ... variable explicative par variable explicative ...

MODELES LINEAIRES

Cette situation se produit lorsque les variables explicatives sont très corrélées entre-elles. en faisant la régression de chaque variable explicative sur les ...

Les liaisons fallacieuses : quasi-colinéarité et « suppresseur

DEUX VARIABLES EXPLICATIVES PEU CORRÉLÉES AVEC LA. VARIABLE DÉPENDANTE ET TRÈS CORRÉLÉES ENTRE ELLES. La régression simple estime une relation linéaire entre

Les liaisons fallacieuses: quasi-colinéarité et suppresseur

24 févr. 2012 Cet article montre qu'une régression multiple avec deux variables explicatives très corrélées entre elles et dont les corrélations simples ...

Comment bien régresser: La statistique peut-elle se passer d

28 nov. 2011 transformant des variables corrélées en variables non corrélées. ... tout est corrélé dans les variables explicatives et on va quand même essayer.

Correlation et importance des variables dans les forêts aléatoires

La sélection de variables dans un contexte de grande dimension est une tache difficile en particulier lorsque les variables explicatives sont corrélées. L

Régression linéaire multiple : lecture en pratique

Variables Xi très corrélées (multicolinéarité). => pouvoir prédictif OK mais explicatives « ajusté » sur les autres variables explicatives. ▫ Prédiction ...

COLINÉARITÉ ET RÉGRESSION LINÉAIRE Thierry FOUCART1 1

Le facteur d'inflation fj est donc d'autant plus grand que la variable Xj est corrélée à une combinaison linéaire des autres variables explicatives.

CorReg : Préselection de variables en régression linéaire avec

La régression linéaire est pénalisée par l'usage de variables explicatives corrélées situation fréquente pour les bases de données d'origine industrielle

La régression logistique

Régression logistique : variable explicative qualitative Régression logistique : variables explicatives mixtes ... corrélées ou non-corrélées).

Correlation et importance des variables dans les forêts aléatoires

tache difficile en particulier lorsque les variables explicatives sont corrélées. L'algorithme des forêts aléatoires est une méthode tr`es compétitive pour

Comment bien régresser: La statistique peut-elle se passer d

28 nov. 2011 autres variables qui sont en revanche très corrélées entre elles. ... la dispersion de la variable explicative (variance expliquée par le ...

La résolution dun problème de multicolinéarité au sein des études

25 avr. 2012 l'une des variables explicatives parmi celles qui sont parfaitement corrélées entre elles. Ce. 3 Cet article étant prioritairement consacré ...

Introduction à la régression multiple

variables explicatives est grand comparativement au nombre d'observations dans le cas particulier de deux variables X1 et X2 très corrélées

Variables explicatives indépendantes

Que faire des variables explicatives très corrélées ? Il va sans dire que choisir une méthode statistique de prédiction nécessite dans la plupart des cas une

GLMs : En pratique

qu'on a enlevé l'effet des autres variables avec lesquelles elle sont corrélées. Multicolinéarité entre variables explicatives

Sélection de modèle en régression linéaire

variables explicatives c'est le coefficient de corrélation usuel entre Y et sa sur d'autres coefficients car leurs estimateurs sont corrélés.

[PDF] MODELES LINEAIRES

Cette situation se produit lorsque les variables explicatives sont très corrélées entre-elles On parle alors de multi-colinéarité et cela conduit à des

[PDF] Variables explicatives indépendantes - Université Lyon 1

Que faire des variables explicatives très corrélées ? Il va sans dire que choisir une méthode statistique de prédiction nécessite dans la plupart des cas une

[PDF] Chapitre 3 Etude de la liaison entre deux variables Analyse

Deux variables quantitatives sont corrélées si elles tendent à varier l'une en fonction de l'autre On parle de corrélation positive si elles tendent à

[PDF] Chapitre 4 : Régression linéaire

La variable X : variable âge; c'est la variable explicative appelée également régresseur les variables X et Y ne sont pas corrélées linéairement

[PDF] Chapitre 7 MODÈLE LINÉAIRE - Free

MODÈLE DE RÉGRESSION SIMPLE 1 1 Variable explicative et variable expliquée On étudie en régression deux variables quantitatives dont l'une appelée variable

[PDF] Introduction `a léconométrie Notes sur la Régression Multiple

omise qui est incluse dans le terme d'erreur du mod`ele est corrélée avec la variable explicative du mod`ele X Autrement dit l'hypoth`ese

[PDF] COLINÉARITÉ ET RÉGRESSION LINÉAIRE Thierry FOUCART1

Les conséquences de la colinéarité statistique entre les variables explicatives sont les suivantes : - les coefficients de régression estimés peuvent être

[PDF] Lanalyse en composantes explicatives - Numdam

De nombreuses méthodes d'analyse de données ont pour objet l'étude des relations entre un groupe de variables dites explicatives et un autre groupe de

[PDF] 243 Le coefficient de corrélation multiple (ou coefficient de

Quand les variables explicatives sont aussi sujettes à erreur les coefficients estimés par régression sont biaisés Les choses deviennent beaucoup plus

Multicolinéarité dans la régression

Si des variables colinéaires sont de facto fortement corrélées entre elles deux variables corrélées ne sont pas forcément colinéaires En termes non

Quelles sont les variables explicatives ?
Que signifie Variable explicative ? On parle d'une variable explicative lorsque la variable explique la variable expliquée, la variable expliquée étant une variable qu'une théorie cherche à expliquer. Les économistes évaluent la capacité de la variable explicative à expliquer une situation.
Comment identifier les variables explicatives ?
Les variables explicatives sont généralement représentées sur l'axe des abscisses.
Comment savoir si deux variables sont corrélés ?
Deux variables quantitatives sont corrélées si elles tendent à varier l'une en fonction de l'autre. On parle de corrélation positive si elles tendent à varier dans le même sens, de corrélation négative si elles tendent à varier en sens contraire.
Une variable expliquée est souvent appelée variable endogène et représente une variable qui est expliquée par la théorie ou le modèle que l'on étudie. Elle est provoquée par une ou plusieurs forces internes au système considéré.

CorReg : Pr

eselection de variablesen regression lineaire avec fortes correlations

Clement Thery

1& Christophe Biernacki2& Gaetan Loridant3

1 ArcelorMittal, Universite Lille 1, Inria, CNRS, clement.thery@arcelormittal.com

2Universite Lille 1, Inria, CNRS, christophe.biernacki@math.univ-lille1.fr

3Etudes Industrielles ArcelorMittal Dunkerque, gaetan.loridant@arcelormittal.com

Resume.La regression lineaire est penalisee par l'usage de variables explicatives correlees, situation frequente pour les bases de donnees d'origine industrielle ou les correlations sont nombreuses et menent a des estimateurs de forte variance. Le modele propose ex- plicite les correlations presentes sous la forme d'une famille de regressions lineaires en- tre covariables, permettant d'obtenir par marginalisation un modele de regression parci- monieux libere des correlations, facilement interpretable et consistant en une preselection de variables. La structure de correlations est estimee a l'aide d'un algorithme MCMC qui repose sur un modele generatif complet. Le packageCorReg(sur le CRAN) permet la mise en oeuvre en R de cette methode qui sera illustree sur donnees simulees et sur donnees reelles issues de l'industrie siderurgique. Mots-cles.Regression, correlations, industrie, selection de variables, modeles generatifs Abstract.Linear regression is generally penalized by correlated covariates, frequent situation for industrial datasets, in particular impacting the variance of the estimators. The proposed generative model consists in modeling explicitly the correlations with a family of linear regressions between the covariates permitting to obtain by marginalization a parsimonious correlation-free regression model, easily understandable and that can be seen as a variable preselection. The structure of correlations is found with an MCMC algorithm. An R package (CorReg) available on the CRAN implements this new method which will be illustrated on both simulated datasets and real-life datasets from steel industry. Keywords.Regression, correlations, industry, variable selection, generative models

1 Introduction

Les correlations entre variables en regression lineaire sont sources de problemes en ter- mes de variance des estimateurs et de selection de variables. En eet, pour une variable reponseY2 Rnet un ensemble de covariablesX2 Rnp, la regressionY=X+" avec" N(0;2In) (ouInest la matrice identite de taillen) et2 Rpvecteur desp 1 coecients donne un estimateur ^de variance Var(^jX) =2Y(X0X)1degenere si les colonnes deXsont lineairement correlees. Les methodes de selection comme le LASSO [4] muni du LAR [1] sont elles-m^emes touchees par ce probleme de correlation [5]. Notre idee est de modeliser explicitement les correlations presentes entre covariables sous la forme d'une famille de regressions entre celles-ci. L'estimation de cette famille consiste en un choix de modele generatif pour les variables explicatives a l'aide d'un algorithme MCMC que nous presentons en partie 3 avant d'illustrer dans les parties 4 et

5 l'ecacite de la methode sur donnees simulees puis sur donnees reelles avant de conclure.

2 Modele supprimant les covariables correlees

On suppose le modele generatif suivant :

Regression principale entreYetX:

Y jX;S=X+"Y=X11+X22+"Yavec"Y N(0;2YIn); (1) On rend alors explicites les correlations au sein deXsous la forme d'une structure de sous-regressions lineairesS= (I1;I2;p1;p2). Famille dep2regressions entre covariables deXcorrelees :

8j2I2:Xj

jX1;S=X1j+"javec"j N(0;2jIn); (2) ouI2est l'ensemble des indices des variables correlees a gauche dans (2) etI1=fI11;:::;Ip 1g est l'ensemble des ensembles des indices des variables a droite dans (2), avecIj 1=;si j =2I2. Lesj2 R(pp2)sont les coecients des regressions entre covariables. On a donc une partition des donneesX= (X1;X2) ouX2=XI2etX1=XnX2. On suppose en outreI1\I2=;,i:e:les variables dependantes dansXn'en expliquent pas d'autres. On notep2=]I2le nombre de regressions entre covariables etp1= (p11;:::;pp

1) qui est le

vecteur des longueurs des regressions au sein deXavecpj 1=]Ij 1. On remarque alors que (1) et (2) impliquent par simple integration surX2, un modele marginal de regression enYs'exprimantuniquement en fonction des variables non correleesX1: Y jX1;S=X1(1+X j2I2 jj) +X j2I2" jj+"Y=X1

1+"Y:(3)

En outre, ce nouveau modele marginal consiste en une regression lineaire classique qui peut donc benecier des outils de selection de variables au m^eme titre que le modele com- plet. On a ainsi un pretraitement sur les donnees par preselection visant a decorreler les 2 variables utilisees dans le modele enY. L'estimateur classique du Maximum de Vraisem- blance deest sans biais et s'ecrit

1= (X0

1X1)1X0

1Y(4)

En particulier sa matrice de variance

Var[

1jX;S] = (2Y+X

j2I2

2jj2)(X0

1X1)1(5)

peut ^etre notablement mieux conditionnee que celle de ^initial (dimension reduite et surtout variables orthogonales). Enn, la structure explicite permet de mieux comprendre les phenomenes en jeu et la parcimonie du modele facilite son interpretation. Remarque: En ajoutant une etape de selection de variables (de type LASSO) on obtient ainsi deux \types de 0" : ceux issus de l'etape de decorrelation et ceux issus de la selection.

3 Estimation de la structure de correlation

Pour choisir parmi des structures de taille dierente, on s'appuye surP(SjX) qui est pro- portionnel aP(X2jX1;S)P(X1jS)P(S). On fait alors l'hypothese de melanges gaussiens independants pour les covariables non correlees :

P(X1jS) :8j =2I2:Xjk

jX k=1 kN(kj;2k jIn); (6) On prend ensuite comme loia priorisurS, plut^ot qu'une loi uniforme simple, une loi uniforme hierarchiqueP(S) =P(I1jp1;I2;p2)P(p1jI2;p2)P(I2jp2)P(p2). L'equiprobabilite ainsi supposee desp2etpj

1vient penaliser la complexite sous l'hypothesep2 , hy- pothese realiste sur le nombre de regressions entre covariables. La recherche du meilleurS est combinatoire et un algorithme MCMC est utilise par souci d'ecacite et de exibilite. On optimise alors un critere de type BIC [3], note BIC BIC =BIC+ ln(P(S)):(7) A chaque etape de l'algorithme, pourS2 S(ensemble des structures realisables) on denit un voisinageVSet ensuite la fonction de transition est guidee parBICselon :
8(S;~S)2 S2:P(S;~S) =1f~S2VSgexp(12

BIC(~S))P
S l2VSexp(12
BIC(Sl)):(8)
La cha^ne de Markov ainsi constituee est ergodique dans un espace d'etats nis et possede une unique loi stationnaire dont le mode correspond a la structure qui optimiseBIC. 3
Qualite de
^SQualite de prediction (MSE) np
2bon gauchefaux gaucheLARCorReg
^SCorRegvraiS30168.484.883 511 185.2310 686.62738.89
303216.892.78565.51189.54139.24

50000529.94529.94529.94

50168.895.4347.59233.99197.95

503218.952.44163.7139.39121.56

4003223.491.06104.52103.6102.67
Table 1:Ydepend deXentier.CorReggagne logiquement. L'intialisation peut se faire en utilisant la matrice des correlations et/ou la methode du Graphical Lasso [2]. La grande dimension de l'espace parcouru rend preferable [8] (pour un temps de calcul egal) l'utilisation de multiples cha^nes courtes plut^ot qu'une seule tres longue (permettant aussi la parallelisation). En pratique, on commence par estimer pour chaque variable deXsa densite sous l'hypothese d'un melange gaussien (package Rmixmod de Mixmod [6]). On peut alors ensuite calculer la loi jointe deXpour chaque structure realisable rencontree durant l'algorithme MCMC. Notons cependant la souplesse de cette hypothese due a la grande exibilite des melanges gaussiens [7].
4 Resultats sur donnees simulees
L'ensemble de la methode a ete programme pour R (packageCorReg). Pour les simu- lations presentees dans les tableaux 1 et 2, chacune des congurations a ete simulee 100 fois. Les tableaux achent le nombre de variables dependantes trouvees (\bon gauche"), le nombre de variables jugees dependantes a tort (\faux gauche") et les erreurs moyennes en prediction (MSE) surYa partir d'echantillons de validation de 1 000 individus. Pour l'ensemble des simulationsp= 40,Y= 10,= 0:001, lesXindependants suivent des melanges gaussiens a= 5 classes de moyenne selon une loi de Poisson de parametre et d'ecart-type. Lesjsuivent la m^eme loi de Poisson mais avec un signe aleatoire. On cherche ici a se comparer a la methode LASSO dans les cas ou celle-ci est en diculte le vrai modele est constitue de correlations 2 a 2.CorRega travaille avecp2etp1libres. Les tableaux 1 et 2 montrent queCorRegest equivalent au LASSO en l'absence de correlations et le bat quand les correlations sont fortes. On retrouve le phenomene attendu du LASSO moins impacte par les correlations quandngrandit. On constate enn la convergence asymptotique deCorRegvers le vrai modele de regression. On remarque que quandp2augmente le LASSO commence a se ressaisir car il y a de plus en plus de faux modeles proches du vrai en termes de prediction donc le LASSO trouve des modeles inconsistants en interpretation mais relativement corrects en prediction. 4
Qualite de
^SQualite de prediction (MSE) np
2bon gauchefaux gaucheLARCorReg
^SCorRegvraiS30168.2955 851.45559.58340.29
3032172.59893196.01135.78

50168.985.19201.56164.58162.49

503219.052.32172.93136.77121.19

4003223.511.09104.49103.02102.26
Table 2:Ydepend deX2uniquement (cas normalement defavorable aCorReg).
5 Resultats d'une etude qualite chez ArcelorMittalFigure 1: Valeurs de
pourX(haut) etX1 (bas).Figure 2:R2adjdes 82 regressions obtenues.Figure 3: Longueur des regressions obtenues (p1). On notela valeur absolue des correlations. Les donnees siderurgiques etudiees (p=205 etn=3000) sont fortement correlees de maniere naturelle (Figure 1 en haut), comme la largeur et poids d'une brame (=0.905), la temperature avant et apres un outil (= 0:983), la rugosite des deux faces du produit (=0.919), une moyenne et un maximum (=0.911).CorRegtrouve en plus des correlations ci-dessus des modeles de regulation du process et des modeles physiques naturels pour un total dep2= 82 regressions (Figure
2) de longueur moyenne p1= 5 (Figure 3). EntreXetX1le nombre de >0:7 est
reduit de79;33% avec respectivement 150 et 31 paires de variables (Figure 1 en bas). IciYest un indicateur qualite produit (condentiel). Le MSE (sur echantillon de vali- dation de 847 nouveaux individus) obtenu parCorRegest1:55% meilleur que celui du LASSO, avec respectivement 31 et 20 variables dont 13 communes. LASSO propose 7 variables dierentes deCorRegmais elles sont toutes dansX2etCorRegreprend les variables explicatives des regressions correspondantes (R2adjmoyen de 0:82). De plusest 5
13:9% plus faible pour les variables deCorRegmalgre davantage de variables.
En termes d'interpretation, accompagner la regression enYavec la famille de regressions permet de mieux comprendre les consequences d'eventuelles mesures correctives sur l'ensemble du process. Cela permet typiquement de determiner lesactionneursqui in uent surY quand le LASSO fait ressortir des variablessubies. On peut donc plus facilement cor- riger le process pour atteindre l'objectif xe. L'enjeu de ces quelques pourcents de gain se chire en dizaine de milliers d'euros annuels sans compter l'impact sur les parts de marche (non chirable mais bien plus considerable).
6 Conclusion et perspectives
CorRegest disponible sur le CRAN et a d'ores et deja montre son ecacite sur de vraies problematiques de regression en entreprise. Sa force est la grande interpretabilite du modele propose, qui est constitue de plusieurs regression lineaires courtes et donc facile- ment accessibles aux non statisticiens tout en luttant ecacement contre les problematiques de correlations, omnipresentes dans l'industrie. On note neanmoins le besoin d'elargir le champ d'application a la gestion des valeurs manquantes, aussi tres presentes dans l'industrie. D'ailleurs le modele generatif actuel permettrait cette nouvelle fonctionnalite sans hypothese supplementaire, ce qui renforce encore son inter^et. Enn, le principe de CorRegqui est l'explicitation des regressions latentes entre covariables pourrait ^etre applique a d'autres methodes predictives (regression logistique,etc.).
Bibliographie
[1] Efron, B., Hastie, T., Johnstone,I. et Tibshirani, R. (2004), Least angle regression.
The Annals of statistics, 32(2):407-499.
[2] Friedman, J., Hastie, T. et Tibshirani, R. (2008), Sparse inverse covariance estimation with the graphical lasso.Biostatistics, 9(3):432-441 . [3] Lebarbier, E. et Mary-Huard,T. (2006), Une introduction au critere bic: fondements theoriques et interpretation.Journal de la SFdS, 147(1):39-57. [4] Tibshirani, R. (1996). Regression shrinkage and selection via the lasso,Journal of the Royal Statistical Society. Series B (Methodological), pages 267-288. [5] Zhao,P. et Yu,B. (2006), On model selection consistency of lasso,J. Mach. Learn.
Res.7:2541-2563.
[6] Biernacki, C., Celeux, G., Govaert, G., et Langrognet, F. (2006), Model-based cluster and discriminant analysis with the MIXMOD software, Computational Statistics & Data
Analysis, 51(2), 587-600.
[7] McLachlan, G., et Peel, D. (2004). Finite mixture models. Wiley. com. [8] Gilks, W. R., Richardson, S., et Spiegelhalter, D. J. (Eds.). (1996). Markov chain
Monte Carlo in practice (Vol. 2). CRC press.
6quotesdbs_dbs29.pdfusesText_35

[PDF] multicolinéarité stata

[PDF] multicolinéarité économétrie

[PDF] comment résoudre le problème de multicolinéarité

[PDF] multicolinéarité vif

[PDF] multicolinéarité spss

[PDF] fonction vif r

[PDF] facteur dinflation de la variance

[PDF] epicerie solidaire marseille

[PDF] bordereau colissimo imprimer

[PDF] tarif colissimo

[PDF] colissimo international

[PDF] suivi colissimo

[PDF] pédagogie travail collaboratif

[PDF] relation de travail entre collègues

[PDF] collaboration interprofessionnelle infirmière

[PDF] CorReg : Préselection de variables en régression linéaire avec

Quelles sont les variables explicatives ?

Comment identifier les variables explicatives ?

Comment savoir si deux variables sont corrélés ?

CorReg : Pr

Clement Thery

1& Christophe Biernacki2& Gaetan Loridant3

2Universite Lille 1, Inria, CNRS, christophe.biernacki@math.univ-lille1.fr

3Etudes Industrielles ArcelorMittal Dunkerque, gaetan.loridant@arcelormittal.com

1 Introduction

5 l'ecacite de la methode sur donnees simulees puis sur donnees reelles avant de conclure.

2 Modele supprimant les covariables correlees

On suppose le modele generatif suivant :

Regression principale entreYetX:

8j2I2:Xj

1) qui est le

1+"Y:(3)

1= (X0

1X1)1X0

En particulier sa matrice de variance

1jX;S] = (2Y+X

2jj2)(X0

1X1)1(5)

3 Estimation de la structure de correlation

P(X1jS) :8j =2I2:Xjk

8(S;~S)2 S2:P(S;~S) =1f~S2VSgexp(12

BIC(~S))P

BIC(Sl)):(8)

Qualite de

2bon gauchefaux gaucheLARCorReg

303216.892.78565.51189.54139.24

50000529.94529.94529.94

50168.895.4347.59233.99197.95

503218.952.44163.7139.39121.56

4003223.491.06104.52103.6102.67

4 Resultats sur donnees simulees

Qualite de

2bon gauchefaux gaucheLARCorReg

3032172.59893196.01135.78

50168.985.19201.56164.58162.49

503219.052.32172.93136.77121.19

4003223.511.09104.49103.02102.26

5 Resultats d'une etude qualite chez ArcelorMittalFigure 1: Valeurs de

2) de longueur moyenne p1= 5 (Figure 3). EntreXetX1le nombre de >0:7 est

13:9% plus faible pour les variables deCorRegmalgre davantage de variables.

6 Conclusion et perspectives

Bibliographie

The Annals of statistics, 32(2):407-499.

Res.7:2541-2563.

Analysis, 51(2), 587-600.

Monte Carlo in practice (Vol. 2). CRC press.