La régression linéaire multiple repose sur le même principe que la régression linéaire simple mis à part qu'elle utilise plus d'une variable explicative (dite indépendante) pour déterminer un résultat (la variable dite expliquée). Ce dernier est toujours continue alors que les variables explicatives peuvent êtres continues ou catégorielles.
Les modèles de régression linéaire peuvent par ailleurs ne pas être simples. Ainsi, la relation entre l’espérance de la variable Ypeut être représentée par une parabole, c’est-à-dire un polynôme de degré 2, combinaison linéaire33de xet de x².
a) On veut établir une régression linéaire entre les deux variables, quelle doit être la variable endogène? b) On admet l’existence d’une relation linéaire de la forme yi=axi+b+εcalculez les estimations des coefficients a et b.
Nous utiliserons dans la suite le même modèle et le même jeu de données que ceux utilisés dans l’article “la régression linéaire et l’interprétation des résultats”. On essaie de vérifier si le modèle de régression est adapté c’est à dire est-ce que la relation entre et est linéaire. On trace les résidus en fonction des valeurs ajustées (les ).
On peut calculer les leviers comme ceci, en sachant que le seuil des leviers est de $(2*frac{p}{n})$. On peut visualiser les leviers pour chaque point comme ceci : Pour sélectionner les points pour lesquels le levier est supérieur au seuil, on exécute ces 2 lignes : See full list on openclassrooms.com
Si l'on souhaite maintenant calculer les résidus studentisés, nous écrivons ceci, sachant que le seuil pour les résidus studentisés est une loi de Student à n-p-1 degrés de liberté : Visualisons les résidus studentisés : See full list on openclassrooms.com
Pour trouver la distance de Cook, nous exécutons ceci : Le seuil de la distance de Cook est de n-p : On peut détecter les observations influentes comme ceci : See full list on openclassrooms.com
Une autre chose à vérifier est l'éventuelle colinéarité approchée des variables : Ici, tous les coefficients sont inférieurs à 10, il n'y a donc pas de problème de colinéarité. See full list on openclassrooms.com
On peut également tester l’homoscédasticité (c'est-à-dire la constance de la variance) des résidus : La p-valeur ici n'est pas inférieure à 5 %, on ne rejette pas l'hypothèse $(H_0)$selon laquelle les variances sont constantes (l'hypothèse d’homoscédasticité). See full list on openclassrooms.com
Si l'on veut tester la normalité des résidus, on peut faire un test de Shapiro-Wilk. Ici, l'hypothèse de normalité est remise en cause. Néanmoins, l'observation des résidus, le fait qu'ils ne soient pas très différents d'une distribution symétrique, et le fait que l'échantillon soit de taille suffisante (supérieure à 30) permettent de dire que les