Pour rappel, la r égression linéaire simple est une méthode statistique classique, qui est employée pour évaluer la significativité du lien linéaire entre deux variables numériques continues.
Dans le langage de programmation R, l’équation est traduite par : où la variable prédite est placée à gauche du tilde et la variable prédicteur est à droite. Effectuer une régression linéaire avec R se découpe en trois étapes: Formuler et exécuter un modèle linéaire basé sur un hypothèse
Le premier graphique nous informe de la distribution des résidus en fonction des valeurs prédites par le modèle de régression linéaire. Chaque point représente la distance entre la variable réponse et la réponse prédite par le modèle. Il nous informe sur l’ indépendance des résidus et sur leur distribution.
Il faut se rappeler qu’avec la régression linéaire, nous avons besoin d’une distribution uniforme des résidus (condition d’ homoscédasticité ). Sur l’axe des y nous retrouvons les résidus ϵi ϵ i et sur l’axe des x les valeurs prédites ^yi = β0 +β1 ×xi y i ^ = β 0 + β 1 × x i.
For this example, we’ll create a fake dataset that contains the following two variables for 15 students: 1. Total hours studied for some exam 2. Exam score We’ll attempt to fit a simple linear regression model using hours as the explanatory variable and exam scoreas the response variable. The following code shows how to create this fake dataset in
Before we fit a simple linear regression model, we should first visualize the data to gain an understanding of it. First, we want to make sure that the relationship between hours and score is roughly linear, since that is a massive underlying assumption of simple linear regression. We can create a simple scatterplotto view the relationship between
Once we’ve confirmed that the relationship between our variables is linear and that there are no outliers present, we can proceed to fit a simple linear regression model using hours as the explanatory variable and scoreas the response variable: From the model summary we can see that the fitted regression equation is: Score = 65.334 + 1.982*(hours)
After we’ve fit the simple linear regression model to the data, the last step is to create residual plots. One of the key assumptions of linear regression is that the residuals of a regression model are roughly normally distributed and are homoscedasticat each level of the explanatory variable. If these assumptions are violated, then the results of