PDFprof.com Search Engine



Chapitre I Régression linéaire simple

PDF
Images
List Docs
  • Quelle sont les étapes de la régression linéaire ?

    Étapes de la régression linéaire
    Pour cet aperçu, considérez la forme la plus simple de l'équation de graphique linéaire entre y et x ; y=c*x+m, où c et m sont constants pour toutes les valeurs possibles de x et de y.
    Supposons, par exemple, que le jeu de données d'entrée pour (x, y) soit (1,5), (2,8) et (3,11).

  • Comment interpréter une régression linéaire simple ?

    Une régression linéaire simple consiste à identifier l'équation d'une droite expliquant la répartition d'un nuage de points.
    On peut l'écrire : y = ax + b.
    L'objectif est de trouver les valeurs de a (la pente) et de b (l'ordonnée à l'origine).

  • C'est quoi Intercept ?

    Nom commun. (Mathématiques) (Géométrie algébrique) Coordonnée d'un point d'intersection entre une courbe et un axe.

  • Calcul de la régression linéaire
    L'équation se présente sous la forme « Y = a + bX ».
    Vous pouvez également le reconnaître comme la formule de pente.
    Pour trouver l'équation linéaire à la main, vous devez obtenir la valeur de « a » et « b ».

Chapitre I Régression linéaire simple
Introduction à lanalyse de régression
INTRODUCTION A LA REGRESSION
Introduction à la régression multiple
Exercices sur le modèle de régression linéaire simple
MODELES LINEAIRES
Sélection de modèle en régression linéaire
LANALYSE DE RÉSEAUX
Introduction à lanalyse réseau
INTRODUCTION À LANALYSE DES RÉSEAUX
Introduction à lanalyse des réseaux sociaux
Next PDF List

Chapitre I Régression linéaire simple

Chapitre IRégression linéaire simpleLicence 3 MIASHS - Université de BordeauxMarie ChaventChapitre 1Régression linéaire simple 1/42Un exempleOn cherche àmo déliserla relation entre le p rixd"un appa rtementet sa surface .On pose :-y= prix en euros/1000,-x= surface enm2.On suppose que cettere lationest linéaire de la fo rme: y=0+1xOn veutestimer cette relation app elléedroite de régression théo rique.On utilise unéc hantillonde nappartements dont on connait le prix et lasurfaceChapitre 1Régression linéaire simple 2/42#==================================================# Prix des appartements en fonction de la surface#==================================================prix<-c(130,280,268,500,320,250,378,250,350,300,155,245,200,325,85,78,375,200,270,85)surface<-c(28,50,55,110,60,48,90,35,86,65,32,52,40,70,28,30,105,52,80,20)apparts<- da ta.frame(prix,surface)apparts## prix surface## 1 130 28## 2 280 50## 3 268 55## 4 500 110## 5 320 60## 6 250 48## 7 378 90## 8 250 35## 9 350 86## 10 300 65## 11 155 32## 12 245 52## 13 200 40## 14 325 70## 15 85 28## 16 78 30## 17 375 105## 18 200 52## 19 270 80## 20 85 20Chapitre 1Régression linéaire simple 3/42library(ggplot2)ggplot(apparts,aes (x=surface,y =prix))+ geom_point()+ geom_smooth(method=lm,se=FALSE)100200300400500306090surfaceprixcoef(lm(prix~ surface)) ## (Intercept) surface## 33.6 3.

8) Chapitre 1Régression linéaire simple 4/421.

Le modèleOn cherche à modéliser la relation entredeux va riablesquantitatives continues .Unmo dèlede régression li néairesimple est de la fo rmesuivante : y=0+1x+"(1)où :-yest lava riableà ex pliquer(à valeurs dans R);-xest lava riableexplicative (à valeurs dans R);-"est leterme d"erreur aléatoire du mo dèle;-0et1sont deux paramètres à estimer.Commentaires :-La désignation " simple" fait référence au fait qu"il n"y a qu"une seulevariable explicativexpour expliquery.-La désignation " linéaire" correspond au fait que le modèle (1) est linéaireen0et1.Chapitre 1Régression linéaire simple 5/42Pournobservations, on peut écrire le modèle de régression linéaire simple sousla forme :yi=0+1xi+"i(2)Dans ce chapitre, on suppose que :-"iest une variablealéatoire, non observée,-xiest observée etnon aléatoire,-yiest observée etaléatoire.On fait les troishypothèses additionnellessuivantes :(A1)E["i]= 0;8i=1;:::;n,ou de manière équivalente :E[yi]= 0+1xi;8i=1;:::;n.Commentaire sur l"hypothèse(A1): elle ind iqueque les erreurs sont centrées ce qui implique queyidépend seulement dexiet que les autres sources devariations deyisont aléatoires.Chapitre 1Régression linéaire simple 6/42(A2)V("i)= 2;8i=1;:::;n,ou de manière équivalente :V(yi)= 2;8i=1;:::;n.Commentaires sur l"hypothèse(A2): -On pa rled"hyp othèsed" homoscédasticité( 'homogénéité des variances).-Cette va rianceest supp oséeconstante et indép endantede xi.-Cette va riance2est unpa ramètredu mo dèlequ "ilfaudra estim er.(A3)Cov ("i;"j)= 0;8i6=jou de manière équivalente :Cov(yi;yj)= 0;8i6=j.Commentaire sur l"hypothèse(A3): -Sous cette hyp othèse,les termes d"erreur "isont non corrélés. -Lo rsquel"on rajoutera une hyp othèsede no rmalitésur les "i, les erreursiseront alorsindép endantes.Chapitre 1Régression linéaire simple 7/42On peut écrirematriciellement le mo dèle(2) de la manière suivante : Y=X+"(3)oùY=0BBBBBBBBBB@y1y2. yn1CCCCCCCCCCA;X=0BBBBBBBBBB@1x11x2. 1xn1CCCCCCCCCCA; =0BB@011CCA;et"=0BBBBBBBBBB@"1"2. "n1CCCCCCCCCCA:-Ydésigne le vecteur à expliquer de taillen1,-Xla matrice explicative de taillen2,-"le vecteur d"erreurs de taillen1.Exercice: TouverXetYpour les données sur les appartements.Chapitre 1Régression linéaire simple 8/42Exemple.Données simulées à pa rtirdu mo dèley=x+".library(ggplot2)n<- 20 ; sigma2<- 0.5 ; eps<- rnor m(n,0,sigma2)x<- rnorm (n,0,1)y<- - x+epsdata.frame(x,y)## x y## 1 -0.295 0.500## 2 2.573 -2.261## 3 -1.577 1.486## 4 -0.031 0.147## 5 -0.499 1.308## 6 -1.244 1.375## 7 0.719 -0.482## 8 -0.307 0.056## 9 0.385 0.343## 10 -1.863 1.190## 11 0.935 -1.023## 12 -0.365 0.070## 13 0.859 -0.955## 14 0.480 -0.296## 15 -2.058 2.753## 16 0.097 -0.173## 17 0.320 0.293## 18 -0.681 0.613## 19 1.462 -1.915## 20 0.890 -0.689Chapitre 1Régression linéaire simple 9/42library(ggplot2)ggplot(data.frame(x,y),aes (x=x,y =y))+ geom_point ()+ geom_smooth (method=lm,se=FALSE)-2-10123-2-1012xycoef(lm(y~ x ))## (Intercept) x## 0.11 -0.98Exercice: tapez ce code dans R et regardez ce qui se passe-lo rsquevous simulez plusieurs échantillons.

Rep résentezalo rsles valeurs estimées de0et1dans des boxplots.-lo rsquela valeur de 2varie, lorsque la valeur denvarie.Chapitre 1Régression linéaire simple 10/422.

Estimation des paramètres0,1et2A partir de l"echantillon (aléatoire) denobservationsf(xi;yi);i=1;:::;ng;on veutestimer les pa ramètres0,1et2.-P ourestimer 0et1, on peut utiliser lamétho dedes moindres ca rrésqui ne nécessite pas d"hypothèse supplémentaire sur la distribution de"i(oudeyi), contrairement à lamétho dedu maximum de vraisemblance (que l"on peut aussi utiliser) qui est fondée sur lano rmalitéde "i(ou deyi).-La métho dedes moindres ca rrésne fournit pas un estimateur de 2.Chapitre 1Régression linéaire simple 11/42Estimation de0et1par les moindres carrésOn chercheb0etb1qui minimisent la somme deserreurs quadratiques "2i= (yi01xi)2On doit donc résoudre lep roblèmed"optimisation suivant : (b0;b1)= Arg min(0;1)2R2nXi=1[yi(0+1xi)]2:(4)Vocabulaire :^yi=b0+b1xiest appelé lavaleur p rédite.^"i=yi^yiest appelé lerésidu .Chapitre 1Régression linéaire simple 12/42Interprétation graphiqueGraphiquement,b0etb1sont construits pour minimiser les distances verticalesentre les observations(yn)et ladroite de régression théo riquey=0+1x.Nous avons représenté ces distances sur les figures ci-dessous.-4 -2 0 2 4-4 -2 0 2 4XnYn-4 -2 0 2 4-4 -2 0 2 4XnYnLa droite d"équationy=b0+b1xest ladroite de régression estimée sur le nuage de pointsChapitre 1Régression linéaire simple 13/42Résolution du problème d"optimisationLe problème d"optimisation est :min(0;1)F(0;1);avecF(0;1)= Pni=1fyi(0+1xi)g2.Le minimum est atteint pour8>><>>:@F(0;1)@00=b0;1=b1=0;@F(0;1)@10=b0;1=b1=0;soit après quelques calculs :8>><>>:2Pni=1(yib0b1xi) =0;2Pni=1(yib0b1xi)xi=0:Chapitre 1Régression linéaire simple 14/42Solution du problème d"optimisationOn en déduit après quelques manipulations :8>>>>>><>>>>>>:b1=1nPni=1(xixn)(yiyn)1nPni=1(xixn)2=cx;ys2x;b0= ynb1xn:oùcx;yest la covariance empirique entre lesxiet lesyiets2Xest la varianceempirique desxi.Commentaires-Le minimum de Fest égal àPni=1^"2i.

Ce minimum est appelé lasomme des carrés des résidus(SCR). -La valeur p réditebyiestimeE[yi] =0+1xiet non pasyi.

Une meilleurenotation seraitdE[yi].-Aucune des hyp othèses(A1) ,(A2) et (A3) n"a été ut iliséeici p ourobtenir les estimateursb0etb1.Chapitre 1Régression linéaire simple 15/42Propriétés des estimateursb0etb1Sous les hypothèses(A1) ,(A 2)et (A3) , on peut montrer que-E[b0] =0,-E[b1] =1,-V(b0) =21n+(xn)2Pni=1(xixn)2,-V(b1) =2Pni=1(xixn)2.Commentaires-Les estimateurs b0etb1sontsans biais .-Ils sont aussi de va rianceminimale pa rmitous les estimat eurslinéaires (par rapport ày1;:::;yn) sans biais (propriété dite de Gauss-Markov).Chapitre 1Régression linéaire simple 16/42Estimation de2Le paramètre2est défini par2=V("i) =V(yi)=E(yiE[yi])2:En prenant^yi=b0+b1xicomme estimateur deE[yi], il apparaît natureld"estimer2pars2=Pni=1(yi^yi)2n2=Pni=1(b"i)2n2=SCRn2:Commentaires-s2est un estimateursans biais de 2-La p ertede deux degrés de lib ertédans l"exp ressionde s2est le "coût" del"estimation de0et de1nécessaire pour obtenir les^yi.Chapitre 1Régression linéaire simple 17/42Exemplede données réelles : les appa rtementsP arisiens.x<- apparts $surfacey<- apparts $prixplot(x,y,xlab="surface",ylab="prix",col=ifelse(x==50,"red ","black" ))20406080100100200300400500surfaceprixChapitre 1Régression linéaire simple 18/42Sorties Rmod<- lm (y~ x) #fonction linear modelnames(mod)## [1] "coefficients" "residuals" "effects" "rank" "fitted.values" "assign"## [7] "qr" "df.residual" "xlevels" "call" "terms" "model"summary(mod)#### Call:## lm(formula = y ~ x)#### Residuals:## Min 1Q Median 3Q Max## -71.47 -27.63 4.75 24.96 81.68#### Coefficients:## Estimate Std.

Error t value Pr(>|t|)## (Intercept) 33.644 24.445 1.38 0.19## x 3.848 0.392 9.81 1.2e-08 ***## ---## Signif. codes: 0"***"0.001"**"0.01"*"0.05"."0.1" "1#### Residual standard error: 45 on 18 degrees of freedom## Multiple R-squared: 0.842, Adjusted R-squared: 0.834## F-statistic: 96.3 on 1 and 18 DF, p-value: 1.2e-08Chapitre 1Régression linéaire simple 19/4220406080100100200300400500x=surfacey=prixround(data.frame(y,val.predites=fitted(mod),residus=resid(mod))[1:5,],digit=2)## y val.predites residus## 1 130 141 -11## 2 280 226 54## 3 268 245 23## 4 500 457 43## 5 320 265 55n<- 20 sqrt(sum(resid(mod)^2)/(n-2))#residual standard error (square root of SCR)## [1] 45Chapitre 1Régression linéaire simple 20/42Graphique croisant les valeurs prédites^yiet lesrésidus^"i=yi^yi100150200250300350400450-50050val.preditesresidusGraphique croisant les valeurs prédites^yiet lesvaleurs observéesyi100150200250300350400450100200300400500val.preditesprixChapitre 1Régression linéaire simple 21/423.

Test d"hypothèses et intervalle de confiance pour1Typiquement, les hypothèses portant sur1ont plus d"intérêt que cellesportant sur0.

On va donc se limiter à tester la nullité de la pente1(absencede liaison linéaire entrexety) :H0: \1=0"contreH1: \16=0"Pour faire ce test, il est nécessaire de faire unehypothèse supplémentaire:(A4)"iN (0;2)ou de manière équivalenteyiN (0+1xi;2).Commentaire.L"unique "nouveauté" ici est lano rmalité.Chapitre 1Régression linéaire simple 22/42Nouvelles propriétés pour les estimateursb1ets2Sous les hypothèses(A1)-(A4) , on a :(a)b1 N1;2Pni=1(xixn)2;(b)(n2)s222(n2);(c)b1ets2sont indépendants.Commentaires.La propriété(a) est facile à établir.

Les p ropriétés(b) et (c) seront démontrées ultérieurement.Un rappel de probabilitéSiUN (0;1),V2()etUest indépendant deV, alorsUqVT():Chapitre 1Régression linéaire simple 23/42On déduit alors des propriétés(a)-(c) que b11q2Pni=1(xixn)2s(n2)s22n2=b11s=pPni=1(xixn)2T(n2):Commentaire.On peut remarquer que le dénominateurs=pPni=1(xixn)2estun estimateur deqV(b1), l"écart-type deb1.On utilisera lastat istiquesuivante : Tn=b11s=pPni=1(xixn)2;qui est distribuée selonune loi de Student à n2 degrés de libertés.Chapitre 1Régression linéaire simple 24/42Test deH0contreH1Sous l"hypothèseH0: \1=0", on aTn=b1s=pPni=1(xixn)2T(n2):(5)Pour une hypothèse alternativeH1: \16=0"bilatérale, onrejette H0avec unrisque 01 sijtj tn2;1=2oùtest la réalisation deTnettn2;1=2est le fractile d"ordre 1=2 de laloiT(n2).Commentaire.Pour réaliser ce test, on peut également regarder lap-valeuraussi appelée niveau de signification du test : sip-valeur, on rejetteH0.Dans le cas d"un test bilatéral (H1: \16=0"), on a :p-valeur=P(jTnj>jtj=H0):(6)Onrejette H0sip-valeurChapitre 1Régression linéaire simple 25/42Intervalle de confiance pour1au niveau de confiance 1:L"intervalle de confiance de1est :[b1tn2;1=2spPni=1(xixn)2]:Commentaire.Onrej etteH0si 0 n"appartient pas à cet intervalle.Exemple des données appartements.summary(mod)$coefficients## Estimate Std.

Error t value Pr(>|t|)## (Intercept) 33.6 24.44 1.4 1.9e-01## x 3.8 0.39 9.8 1.2e-08qt(0.975,18)# quantile loi Student## [1] 2.1confint(mod)## 2.5 % 97.5 %## (Intercept) -18 85.0## x 3 4.

7) Chapitre 1Régression linéaire simple 26/42Table d"analyse de la variance (ANOVA) :On complète souvent l"étude en construisant la table d"ANOVA.Source de variationSomme des carrésddlcarré moyenFrégression (expliquée)SCE=Pni=1(byiyn)21Pni=1(byiyn)2SCESCR=(n2)RésiduelleSCR=Pni=1(yibyi)2n-21n2Pni=1(yibyi)2TotaleSCT=Pni=1(yiyn)2n-11n1Pni=1(yiyn)2Commentaire.La statistiqueF, ditestatistique de Fisher , permet de testerH0: \1=0"contreH1: \16=0".On rejetteH0siF>f1;n2;1oùf1;n2;1est le fractile d"ordre 1d"une loiF(1;n2).Chapitre 1Régression linéaire simple 27/42Commentaires.-Le ca rr