PDFprof.com Search Engine



Introduction à la Régression Linéaire

PDF
Images
List Docs
  • Quel est le principe d'une régression linéaire ?

    La régression linéaire utilise une technique d'estimation choisie, une variable dépendante et une ou plusieurs variables explicatives pour former une équation linéaire estimant les valeurs de la variable dépendante.
    Ceci en supposant qu'il existe une relation de causalité entre les deux variables.

  • Quand on utilise la régression linéaire ?

    Comme les autres modèles de régression, le modèle de régression linéaire est aussi bien utilisé pour chercher à prédire un phénomène que pour chercher à l'expliquer.
    Après avoir estimé un modèle de régression linéaire, on peut prédire quel serait le niveau de y pour des valeurs particulières de x.

  • Comment expliquer une régression ?

    La régression linéaire est une technique d'analyse de données qui prédit la valeur de données inconnues en utilisant une autre valeur de données apparentée et connue.
    Il modélise mathématiquement la variable inconnue ou dépendante et la variable connue ou indépendante sous forme d'équation linéaire.

  • Voir aussi

    Interaction (statistiques)Régression linéaire.Régression linéaire multiple.Régression polynomiale.Régression logistique.Modèle linéaire généraliséRégression non paramétrique.Modèles de régression multiple postulés et non postulés.

Introduction à la Régression Linéaire
Résumé du Cours de Mod`eles de Régression
ANALYSE DE RÉSEAUX
L'ANALYSE DE RÉSEAUX
Introduction à l'analyse réseau
INTRODUCTION À L'ANALYSE DES RÉSEAUX
Analyse de réseaux et histoire
MENER UNE ANALYSE DE RÉSEAUX I Définition des cadres de l
L'analyse des réseaux personnels dans les organisations
Modélisation et Analyse des Réseaux Complexes
CHIMIE PHARMACEUTIQUE
Next PDF List

Introduction à la Régression Linéaire

Introduction à laRégression LinéaireOlivier MartinINRA Avignon, BioSP(La régression linéaire)1/49Plan du cours1Cadre, rappels et objectifs2La régression linéaire simple3La régression linéaire multipe4Validation du modèle, analyse des résidus5Difficultés en régression multiple(La régression linéaire)2/49Cadre et objectifsOn dispose de 2 caractèresXetY.

On distingue deux objectifs :1On cherche àsavoir s"il existe un lien entre XetY2On cherche à savoir siXa une influence sur Y et éventuellementprédireYà partir deX.

1) Liaison entreXetY.On définit un indice de liaison : co eff.decorrélation, statistique du Khi-2,Estimation :mesure de l"intensité de la liaisonTest :Existence du lien2Infulence dexsur Y.

On modélise l"influence de x surY: régressionlogistique, analyse de la variance,régression linéaireEstimation :description de l"influence et prédictionTest :validation d"hypothèse particulière : absence d"influence,inlfuence linéaire, quadratique,(La régression linéaire)3/49Cadre et objectifsDéfinition :P ourdeux va riablesXetY, le coeff. de corrélation linéairer=ρ(X,Y)vaut :r=ρ(X,Y) =cov(X,Y)σXσY?[-1;1]ρest une mesure symétrique qui mesure lelien linéaire entre X et Y :ρ=-1 :XetYsont proportionnels et varient en sens opposéρ=1 :XetYsont proportionnels et varient dans le même sensρ=0 :XetYne sont pas corrélésLa corrélation n"indique aucune causalité.Propriétés :1SiXetYsont indépendants, alorsρ(X,Y) =0.

2) SiXetYsont gaussiens, il y a équivalence entre indépendance etcorrélation nulle.(La régression linéaire)4/49Cadre et objectifscor(x,y) =0.87cor(x,y) =0.8lllllllllll2468105101520xylllllllllllllll-4-20246810020406080100xycor(x,y) =0.7cor(x,y) =0.8lllllllllllll234567851015202530xyllllllllllllllll23456782345678xy(La régression linéaire)5/49Cadre et objectifsRappels variance et covariance empirique :cov(X,Y) =1nni=1(xi-¯x)(yi-¯y)S2X=1nni=1(xi-¯x)2r=ρ(X,Y) =cov(X,Y)SXSY?[-1;1](La régression linéaire)6/49Cadre et objectifsTest sur le coef. de corrélation :Dans le cas oùXetYsont supposés gaussiens, on peut réaliser un test surle coeff de corrélationH0:r=0 contreH1:r?=0.

On utlise la statistiqueR⎷1-R2⎷n-2≂H0Tn-2(R2est le coeff. de détermination, cf. plus loin dans le cours)Corrélation partielle et multiple :•On définit aussi la corrélation multiple entre une variablesYetpvariablesX1, ,Xp.•Dans le cas de plusieurs variables, on définit également le coeff. decorrélation partiel pour s"assurer que la corrélation entre 2 variablesn"est pas due en réalité aux variations d"une troisième variable.(La régression linéaire)7/49La régression simpleObjectif :On souhaite expliquer les va riationsde la va riableYà partir desvaleurs observées pour la variable x.Le problème n"est pas symétrique : les 2 variables n"ont pas le même statutDéfinition :Y=variable à expliquer ou réponse, supposéealétaoirex=variable explicative ou covariable ou régresseur, supposéefixeModèle :Y=f(x) +EoùEest un terme résiduel alétoire ou erreur.(La régression linéaire)8/49La régression simpleDonnées :On observe nindividus (i=1, ,n).Régression linéaire :On supp oseque p ourtout i:Yi=a+bxi+Eiavec{Ei}i.i.d et≂ N(0,σ2).Formulation équivalente :Les va riablesrép onses{Yi}sont indépendantesde lois respectivesYi≂ N(a+bxi,σ2)Hypothèses du modèle statistique :•L"espérance deYidépend linéairement dexi:E(Yi) =a+bxi.•La variance desYiest cste :V(Yi) =V(Ei) =σ2.•Les réponses et termes résiduels sont gaussiensetindépendants(La régression linéaire)9/49La régression simpleParamètres à estimer :a,b,σ2Deux approches : maximum de vraisemblance ou moindres carrésL"estimation par max. de vraisemblance ou moindres carrés sont deuxméthodes classiques pour l"estimation.

Ici, les estimations sont (quasi)identiques.Dans les 2 cas, on définit un critère qui mesure l"adéquation entre lesparamètres du modèle et les données observées.

On cherche alors lesparamètres qui maximisent ou minimisent ce critère.(La régression linéaire)10/49La régression simpleLe critère du maximum de vraisemblanceLa densité pour la réponseYiest :f(yi;a,b,σ2) =1σ⎷2πexp?-(yi-a-bxi)22σ2?Les données étant supposées indépendantes, la log-vraisemblance vaut :L(a,b,σ2) =-n2log(2π)-n2log(σ2)-12σ2?i(Yi-a-bxi)2Les estimateurs du max. de vraisemblance de a, b,σ2sont les valeurs quimaximisentL(a,b,σ2).

Les estimateurs sont obtenus à partir desréalisationsyi: ce sont desvariables alétoires qui possèdent une loi.(La régression linéaire)11/49La régression simpleLe critère du maximum des moindres carrés (SCR)On cherche les valeurs deaetbqui minimisent la somme des carrés desrésidus, i.e. les écarts entre les observations(Yi)et les prédictions(a+bxi)du modèle.SCR(a,b) =?i(Yi-(a+bxi))2On remarque que ce critère apparaît dans la log-vraisemblancePropriété :Les critères du max. de vraisemblance et des moindres carrés donnent lesmême estimateurs pouraetb.

Le critère des moindres carrés n"utilise pasl"hypothèse de distribution gaussienne des erreurs.(La régression linéaire)12/49La régression simpleLes estimateursAetBdeaetbA=¯Y-B¯xetB=?i(Yi-¯Y)(xi-¯x)?i(xi-¯x)2Les estimationsˆaetˆbdeaetbˆa= ¯y-ˆb¯xetˆb=?i(yi-¯y)(xi-¯x)?i(xi-¯x)2=cov(x,y)σ2xL"estimateur de la varianceσ2est donné par :S2n-2=1n-2?i(Yi-A-Bxi)2L"estimationˆσ2de la varianceσ2est :ˆσ2=1n-2?i(yi-(ˆa+ˆbxi))2=1n-2?iˆ?2i(La régression linéaire)13/49La régression simpleTemp.23.8 16.3 27.2 7.1 25.1 27.5 19.4 19.8 32.2 20.

7) O3115.4 76.8 113.8 81.6 115.4 125.0 83.6 75.2 136.8 102.8llllllllll10152025308090100110120130x=Tempy=O3llllllllllcor(x,y)=0.839les données( xi,yi)ˆaetˆbles estimationsPrédiction :ˆa+ˆbxiDroite de régression :ˆa+ˆbxErreurs :ˆei=yi-ˆa-ˆbxi(La régression linéaire)14/49La régression simpleLes estimateursA,BetS2n-2sont des variables aléatoires.En utlisant l"hypothèse de loi gaussienne sur les erreursEi, on obtient leslois de ces estimateurs.On peut alors réaliser des tests sur les paramètres, définir desintervalles de confiance, des intervalles de prédiction, comparer desmodèles de régression,(La régression linéaire)15/49La régression simpleMoments des estimateurs :A,BetS2n-2sont des estimateurs sans biais :E(A) =a,E(B) =bet devariance :V(A) =σ2[1n+¯x2?i(xi-¯x)2]etV(B) =σ2?i(xi-¯x)2.Commeσ2est inconnu, on obtient des estimations de ces variances enremplaçantσ2parˆσ2.Loi des estimateurs :A≂ N(a,V(A))B≂ N(b,V(B))(n-2)S2n-2σ2≂χ2n-2(La régression linéaire)16/49La régression simpleTemp.23.8 16.3 27.2 7.1 25.1 27.5 19.4 19.8 32.2 20.

7) O3115.4 76.8 113.8 81.6 115.4 125.0 83.6 75.2 136.8 102.8llllllllll10152025308090100110120130x=Tempy=O3llllllllllˆa=45 et?ˆV(A) =13.805b=2.63 et?ˆV(B) =0.602ˆσ2=160.64 etˆσ=12.67(La régression linéaire)17/49La régression simpleRésultat de la régression aveclm()sous R>summary(lm(O3~Tp))Call:lm(formula=O3~Tp)ResidualsMin 1Q Median 3Q Max-21.890 -9.001 3.856 7.514 17.919Coefficients:Estimate Std.Error t-value Pr(>|t|)(Intercept) 45.0044 13.8050 3.260 0.0115 *Tp 2.6306 0.6029 4.363 0.0024 **Signif. codes: 0 "***" 0.001 "**" 0.01 "*" 0.05 "." 0.1 " " 1Residual standard error: 12.67 on 8 degrees of freedomMultiple R-squared: 0.7041, Adjusted R-squared: 0.6671F-statistic: 19.03 on 1 and 8 DF, p-value: 0.002403(La régression linéaire)18/49La régression simpleTests sur les paramètresOn veut testerH0:b=0 contreH1:b?=0Loi deBB≂ N(b,V(B))?B-b⎷V(B)≂ N(0,1)?B-b⎷ˆV(B)≂ Tn-2Statistique de test sousH0T=B?ˆV(B)≂H0Tn-2Calcul de la p-valeurp-value=2?P(Tn-2>|ˆb⎷ˆV(B)|) =2?P(Tn-2<-|ˆb⎷ˆV(B)|)(La régression linéaire)19/49La régression simpleTestH0:b=0 contreH1:b?=0b=2.63,?ˆV(B) =0.603 donct=2.630.603=4.36p-value=2?P(Tn-2>|4.36|) =0.0024TestH0:a=0 contreH1:a?=0ˆa=45.00,?ˆV(A) =13.805 donct=4513.805=3.260p-value=2?P(Tn-2>|0.011|) =0.0011(La régression linéaire)20/49La régression simpleRésultat de la régression aveclm()sous R>summary(lm(O3~Tp))Call:lm(formula=O3~Tp)ResidualsMin 1Q Median 3Q Max-21.890 -9.001 3.856 7.514 17.919Coefficients:Estimate Std.Error t-value Pr(>|t|)(Intercept) 45.0044 13.8050 3.260 0.0115 *Tp 2.6306 0.6029 4.363 0.0024 **Signif. codes: 0 "***" 0.001 "**" 0.01 "*" 0.05 "." 0.1 " " 1Residual standard error: 12.67 on 8 degrees of freedomMultiple R-squared: 0.7041, Adjusted R-squared: 0.6671F-statistic: 19.03 on 1 and 8 DF, p-value: 0.002403(La régression linéaire)21/49La régression simple1L"ajustement du modèle calculé pour une covariablex0estY0=A+Bx0.Y0est une variable gaussienne telle que :E(ˆY0) =a+bx0etV(ˆY0) =σ2[1n+(x0-¯x)2?i(xi-¯x)2]2PrédictionOn peut prédire la réponseY0pour une valeurx0de la covariable :T0=A+Bx0+E0T0est une variable gaussienne telle que :E(T0) =a+bx0etV(T0) =V(ˆY0) +σ2=σ2[1n+(x0-¯x)2?i(xi-¯x)2+1](La régression linéaire)22/49La régression simplellllllllll51015202530358090100110120130x=Tempy=O3Ajustement :ˆy0= ˆa+ˆbx0Intervalle de confiance :[ˆy0±tn-2,1-α/2?V(ˆY0)]Intervalle de prédiction :[t0±tn-2,1-α/2?V(T0)](La régression linéaire)23/49La régression simpleLe coefficient d"ajustement ou de déterminationR2Somme des carrés totaleSCT=?i(Yi-¯Y)2variabilité totale à expliquerSomme des carrés due au modèleSCM=?i(ˆYi-¯ˆY)2=?i(ˆYi-¯Y)2variabilité expliquée par le modèleSomme des carrés résiduelleSCR=?i(Yi-ˆYi)2variabilité non expliquée par le modèleFormule d"analyse de variance :SCT=SCM+SCRCoefficient d"ajustementR2LeR2mesure la part de variabilité expliquée par le modèle :R2=SCMSCT=SCT-SCRSCT=1-SCRSCTRemarqueUn bon ajustement linéaire implique unR2proche de 1 (attention, laréciproque est fausse).

On montre la relationR2=ρ2.(La régression linéaire)24/49La régression simpleSCT=?i(Yi-¯Y)2=4342.944SCM=?i(ˆYi-¯Y)2=3057.806R2=3057.806/4342.944≈0.704SCR=?i(Yi-ˆYi)2=1285.138On peut réaliser un testH0:b=0 contreH0:b?=0 en utilisant lastatistiqueSCMSCR(n-2)≂H0F(1,n-2)En fait,SCMSCR=R21-R2.

On retrouve donc le test sur le coeff. de corrélationdéfinie au début et le fait que(Tn-2)2=F(1,n-2).

Testerρ=0 oub=0 est en effet équivalent : pas de lien de linéarité.(La régression linéaire)25/49La régression simplePour les données :R21-R2(n-2) =0.7041-0.704(10-8) =19.027etP(F(1,8)>19.027) =0.0024On a égalementρ2=0.8392=0.704=R2.(La régression linéaire)26/49La régression simpleRésultat de la régression aveclm()sous R>summary(lm(O3~Tp))Call:lm(formula=O3~Tp)ResidualsMin 1Q Median 3Q Max-21.890 -9.001 3.856 7.514 17.919Coefficients:Estimate Std.Error t-value Pr(>|t|)(Intercept) 45.0044 13.8050 3.260 0.0115 *Tp 2.6306 0.6029 4.363 0.0024 **Signif. codes: 0 "***" 0.001 "**" 0.01 "*" 0.05 "." 0.1 " " 1Residual standard error: 12.67 on 8 degrees of freedomMultiple R-squared: 0.7041, Adjusted R-squared: 0.6671F-statistic: 19.03 on 1 and 8 DF, p-value: 0.002403(La régression linéaire)27/49La régression multiplellllllllll51015202530358090100110120130x=Tempy=O3(La régression linéaire)28/49La régression multipleRégression quadratiqueLe lien entreYet la covariable est peut-être une fonction plus complexe.Exemples :M1:Yi=a+bxi+cx2i+Eiavec{Ei}i.i.d.N(0,σ2)M2:Yi=a+bx2i+Eiavec{Ei}i.i.d.N(0,σ2)M3:Yi=a+bxi+Eiavec{Ei}i.i.d.N(0,σ2)Remarque :Ces modèles sont tous des modèles linéaires.

Le modèleM1est un modèlede régression multiple (plus de une covariable dans le modèle).Les modèlesM2etM3sont deux modèles emboités (cas particuliers) deM1.(La régression linéaire)29/49La régression multiplellllllllll51015202530358090100110120130x=Tempy=O3M1:Yi=a+bxi+cx2i+EiM2:Yi=a+bx2i+EiM3:Yi=a+bxi+Ei(La régression linéaire)30/49La régression multipleCas de plusieurs covariablesx1, ,xpavecp

On peut utiliser par exemple lescommandespairs()etboxplot()sous R.Modèle de régressionx1, ,xpOn pose le modèle :Yi=a0+a1x1,i+ +apxp,i+EiavecEi≂ N(0,σ2)De même que dans le cas du modéle linéaire simple :On peut estimer les paramètresa0, ,apetσ2Faire des tests sur les paramètresCalculer leR2Faire un test sur le coef. de corrélation(La régression linéaire)31/49La régression multipleAnalyse de variance de la régression multipleOn souhaite tester l"hypothèse de non-régression, i.e.H0:a1= =ap=0 contreH1:au moins unai?=0On a alors la propriété suivante :R21-R2n-p-1p≂H0F(p,n-p-1)Pour le casp=1, on retrouve bien le cas de la régression simple.(La régression linéaire)32/49La régression multipleComparaison de modèles de régressionAttention, plus le nombre de variables sera grand et plus leR2sera grand.On définit leR2ajusté qui prend en compte le nombre de covariables.Il existe également des critères numériques tel que AIC (An informationcriteria ou critère de Akaike) pour sélectionner des modèles.

Ce critère estadapté pour un nombre pas trop important de covariables (<20)LeR2et leR2ajusté ne sontsurtout pasles seuls critères à regarderpour comparer des modèles.

L"analyse des résidus, des points extrêmes ouaberrants est tout aussi importante.(La régression linéaire)33/49La régression multipleTest pour la comparaison de modèles de régressionOn souhaite comparer 2 modèlesemboités:Mqavecqcovariables etMpavecpcovariables (et la cste fait partie des 2 modèles).Pour effectuer cette comparaion, on pose le test :H0:le "bon" modèle estMqH1:le "bon" modèle estMpavec la condition :q anova(lm(O3~Tp),lm(O3~Tp+I(Tp^2)))Analysis of Variance TableModel 1: O3 ~ TpModel 2: O3 ~ Tp + I(Tp^2)Res.Df RSS Df Sum of Sq F Pr(>F)1 8 1285.142 7 711.18 1 573.96 5.6494 0.04911 *> anova(lm(O3[-4]~Tp[-4]),lm(O3[-4]~Tp[-4]+I(Tp[-4]^2)))Analysis of Variance TableModel 1: O3[-4] ~ Tp[-4]Model 2: O3[-4] ~ Tp[-4] + I(Tp[-4]^2)Res.Df RSS Df Sum of Sq F Pr(>F)1 7 489.682 6 455.19 1 34.491 0.4546 0.5253(La régression linéaire)35/49Validation du modèleL"analyse des résidusOn estime l"erreur de l"ajustement par le résiduYi-ˆYi.

On représente enabscissexiet en ordonnéeEi=Yi-ˆYi. On peut également placeryienabscisse etEi=Yi-ˆYien ordonnée.

Le graphique ne doit montreraucune structure particulière.Modele 1 Modele 2llllllllll1015202530-20-10010Temp.Residusllllllllll1015202530-15-10-50510TempResidus(La régression linéaire)36/49Validation du modèleHypothèses vérifiées Hyp. gaussienne faussellllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllll020406080-2-1012IndexResidusllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllll020406080-3-2-101IndexResidusLinéarité fausse Variance non-homogènellllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllll020406080-3-2-10123IndexResidusllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllll020406080-6-4-20246IndexResidus(La régression linéaire)37/49Validation du modèleHypothèse de variance homogène des résidusLorsque une analyse des résidus permet d"identifier une variancenon-homogène, on peut réaliser une transformation des variablesYouxi.Les transformations classiques sont la transformation⎷.ou latransformationlog(.).(La régression linéaire)38/49Validation du modèleNormalité des résidusres=lm(03~Tp) ; qqnorm(res$residuals) ; qqline(res$residuals)res2=lm(03~Tp^2) ; qqnorm(res2$residuals) ; qqline(res2$residuals)llllllllll-1.5-1.0-0.50.00.51.01.5-20-10010Normal Q-Q PlotTheoretical QuantilesSample Quantilesllllllllll-1.5-1.0-0.50.00.51.01.5-15-10-50510Normal Q-Q PlotTheoretical QuantilesSample Quantiles(La régression linéaire)39/49Validation du modèleInfluence de certains pointsllllllllll10152025308090100110120130x=Tempy=O3lllllllllll1015202530-20-10010TempResidusl(La régression linéaire)40/49Validation du modèleInfluence de certains pointslllllllll51015202530358090100110120130x=Tempy=O3lllllllll202530-15-10-50510TpResidus(La régression linéaire)41/49Validation du modèleInfluence de certains points> summary(lm(O3~Tp))Coefficients:Estimate Std.

Error t value Pr(>|t|)(Intercept) 45.0044 13.8050 3.260 0.0115 *Tp 2.6306 0.6029 4.363 0.0024 **Residual standard error: 12.67 on 8 degrees of freedomMultiple R-squared: 0.7041, Adjusted R-squared: 0.6671F-statistic: 19.03 on 1 and 8 DF, p-value: 0.002403> summary(lm(O3[-4]~Tp[-4]))Coefficients:Estimate Std.

Error t value Pr(>|t|)(Intercept) 7.9669 14.2699 0.558 0.594039Tp[-4] 4.1184 0.5941 6.932 0.000225 ***Residual standard error: 8.364 on 7 degrees of freedomMultiple R-squared: 0.8728,Adjusted R-squared: 0.8547F-statistic: 48.05 on 1 and 7 DF, p-value: 0.0002248(La régression linéaire)42/49Difficulté en régression multipleDeux points doivent être abordés avec attention :1Les échelles des covariales (vraie aussi en régression simple)Il est souvent judicieux de ramener toutes les variables à une moyennenulle (centrage) et les variances empiriques de chacune des variables à1 (centrer et réduire) : utiliser la commandeboxplot()pour analyserces différences d"échelle.

2) La corrélation entre les variables explicativesLes corrélations entre variables peuvent induire de mauvaisesinterprétations.

Pour cela, on utilise parfois les axes d"une analyse encomposantes principales (ACP) comme variables explicatives.L"inconvénient de cette approche est qu"il est alors nécessaire dedonner le lien entre les co-variables de départ et les axes de l"ACP.On peut aussi utiliser la commandepairs()pour une première analyseet calculer les corrélations entre les covariables.(La régression linéaire)43/49Difficulté en régression multiple> summary(lm(O3~Tp+I(Tp^2)))Coefficients:Estimate Std.

Error t value Pr(>|t|)(Intercept) 88.96445 21.50810 4.136 0.00437 **Tp -2.50001 2.21118 -1.131 0.29546I(Tp^2) 0.13057 0.05493 2.377 0.04911 *Residual standard error: 10.08 on 7 degrees of freedomMultiple R-squared: 0.8362, Adjusted R-squared: 0.7895F-statistic: 17.87 on 2 and 7 DF, p-value: 0.001777> summary(lm(O3[-4]~Tp[-4]+I(Tp[-4]^2)))Coefficients:Estimate Std.

Error t value Pr(>|t|)(Intercept) -39.94750 72.59881 -0.550 0.602Tp[-4] 8.24747 6.15501 1.340 0.229I(Tp[-4]^2) -0.08554 0.12687 -0.674 0.525Residual standard error: 8.71 on 6 degrees of freedomMultiple R-squared: 0.8818, Adjusted R-squared: 0.8424F-statistic: 22.38 on 2 and 6 DF, p-value: 0.001651(La régression linéaire)44/49Difficulté en régression multipleLa corrélation partielleLe coefficient de corrélation partielle mesure la liaison entre 2 variableslorsque l"influence d"une troisième (ou de plusieurs autres) est gardéeconstante sur les 2 variables comparées.

Il a le même sens que lecoefficient de corrélation classique.y,x1|x2=ρy,x1-ρy,x1ρy,x2?1-ρ2y,x1?1-ρ2y,x2Lien entre corrélation partielle et corrélation multipley,xp+1|x1, ,xp=R2p+1-R2p1-R2pLe carré de la corrélation partielle, donne donc l"augmentation deR2relative á la portion de la variation deyinexpliquée par les variablesx1, ,xpdéjà dans l"équation.(La régression linéaire)45/49Difficulté en régression multipleLa corrélation partiellePour le jeu de données, on obtient :cor(O3,Tp|Tp2) =0.09 etcor(O3,Tp2|Tp) =0.12(La régression linéaire)46/49La régression multipleLes tests sur les paramètres dans le cadre de la régression multiple doiventêtre utilisés avec précaution en raison des possibles coorélations entre lesvariables.On pourrait éliminer des variables du modèle sur la base de ces tests (lesvariables aux coefficients significativement nuls).

Mais cette procédure estincorrecte.

Il ne faut pas oublier que le test d"un coefficient est effectuéalors que les autres variables sont fixées.

<