MODELES LINEAIRES PDF Selon la forme de la

LE SYMBOLE DE SOMMATION

1. Somme simple. Le symbole ? (sigma) s'utilise pour désigner de manière générale la somme de plusieurs termes. Ce symbole est généralement accompagné d'un

sigma-notation.pdf

Mathematics Learning Centre University of Sydney. 1. 1 Sigma Notation. 1.1 Understanding Sigma Notation. The symbol ? (capital sigma) is often used as

MODELES LINEAIRES

Selon la forme de la matrice X on est dans le cas de la régression linéaire (X est alors composée de la variable constante 1 et des p variables explicatives)

Calcul Algébrique

Maths en L?1gne. Calcul Algébrique. UJF Grenoble. 1 Cours. 1.1 Sommes et produits. Nous commençons par les sommes. L'écriture.

LISTES DES SYMBOLES MATHÉMATIQUES Alphabetgrec

LISTES DES SYMBOLES MATHÉMATIQUES. 1 - Lire les phrases mathématiques suivantes : ?y ? Y ?x ? X

Majoration du nombre de classes dun corps cubique cyclique

J. Math. Soc. Japan. Vol. 33 No. 4

THE SUMMATION SYMBOL

1. Simple sum. The symbol ? (sigma) is generally used to denote a sum of multiple terms. This symbol is generally accompanied by an index that varies to

On the Mobius and Allied Functions

TOKYO J. MATH. VOL. 3 No. 2

LATEX pour le prof de maths !

11 janv. 2021 3.2.1 Dans tout le document . ... 3.10.1 Des symboles dans un environnement mathématique . ... Phileft(dfrac{x-mu}{sigma} ight)$.

[PDF] LE SYMBOLE DE SOMMATION

Le symbole ? (sigma) s'utilise pour désigner de manière générale la somme de plusieurs termes Ce symbole est généralement accompagné d'un indice que l'on

[PDF] Les symboles somme et produit - Lycée dAdultes

27 fév 2017 · 1 LE SYMBOLE SOMME r 1 Le symbole somme r 1 1 Définition Définition 1 : Soit (ai) une suite de nombres réels ou complexes Soit deux

(PDF) Sigma binome (1) Manal Boucetta - Academiaedu

Sigma binome (1) Download Free PDF 1 http ://www maths-france 1 Le symbole ? 1 1 Etude d'un exemple Nécessité d'une nouvelle notation

[PDF] Thème 13: Le symbole de sommation ?

Exercice 13 3: Écrire les sommes suivantes sans le signe ? et calculer cette somme lorsque c'est possible a) S1 = 1 i i=1 4 ?

[PDF] Calcul Algébrique

Ce chapitre est consacré à la manipulation de formules algébriques constituées de variables formelles de réels ou de complexes

[PDF] [PDF] Séries - Exo7 - Cours de mathématiques

Cela reprouve bien sûr que la série harmonique diverge Mini-exercices 1 Calculer les sommes partielles Sn de la série dont le terme général est 1 4k

[PDF] Sommes et produits

Après un changement d'indice le nombre de termes dans la somme doit rester inchangé ! Exemples : E 1 p X k=2

[PDF] LES SYMBOLES ? ET ?

1ak 2ak 3) = a1a2a3 + a2 1a2 2a2 3 + a3 1a3 2a3 3 2 Propriétés 1 Nombres de termes : Soient m et n deux entiers naturels tels que m ? n

Sigma-Maths Casablanca - Facebook

Avis 50

[PDF] listes des symboles mathématiques

LISTES DES SYMBOLES MATHÉMATIQUES 1 - Lire les phrases mathématiques suivantes : ?y ? Y ?x ? X f(x) = y ?y ? Y ? !x ? X f(x) = y

M1 IMAT, Année 2009-2010

MODELES LINEAIRES

C.Chouquet

Laboratoire de Statistique et Probabilités - Université Paul Sabatier - Toulouse

Table des matières1 Préambule1

1.1 Démarche statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . 1

1.2 Un exemple introductif pour la modélisation linéaire d"une variable quantitative . . 2

1.2.1 Description de la population d"étude . . . . . . . . . . . . . .. . . . . . . . 2

1.2.2 Relation entre variables quantitatives . . . . . . . . . . .. . . . . . . . . . . 3

1.2.3 Relation entre variable quantitative et variables qualitatives . . . . . . . . . 4

1.2.4 Modélisation d"une variable quantitative en fonction de variables quantita-

tives et qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .5

2 Présentation du modèle linéaire gaussien6

2.1 Le modèle linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . 6

2.2 Le modèle linéaire gaussien . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . 7

2.2.1 Ecriture générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . 7

2.2.2 Le modèle de régression linéaire . . . . . . . . . . . . . . . . . .. . . . . . . 8

2.2.3 Le modèle factoriel . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . 8

3 Estimation9

3.1 Méthodes d"estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . 9

3.1.1 Principe des moindres carrés . . . . . . . . . . . . . . . . . . . . .. . . . . 9

3.1.2 Principe du Maximum de Vraisemblance . . . . . . . . . . . . . .. . . . . . 9

3.2 Estimation deθ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3.3 Valeurs ajustées et résidus calculés . . . . . . . . . . . . . . . .. . . . . . . . . . . 10

3.4 Estimation deσ2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3.5 Erreurs standard de?θj,?yi,?ei. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3.6 Construction de l"intervalle de confiance deθj. . . . . . . . . . . . . . . . . . . . . 12

3.7 Décomposition de la variance . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . 12

4 Test de Fisher13

4.1 Hypothèse testée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . 13

4.1.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .13

4.1.2 Calculs sousH0. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

4.2 Le test de Fisher-Snédécor . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . 13

4.2.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .13

4.2.2 La statistique de test . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . 14

4.2.3 Fonctionnement du test . . . . . . . . . . . . . . . . . . . . . . . . . .. . . 14

4.3 Cas particulier où q=1 : le test de Student . . . . . . . . . . . . .. . . . . . . . . . 15

5 La Régression linéaire16

5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . 16

5.1.1 La problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 16

5.1.2 Le modèle de régression linéaire simple . . . . . . . . . . . .. . . . . . . . . 16

5.1.3 Le modèle de régression linéaire multiple . . . . . . . . . .. . . . . . . . . . 17

5.2 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 17

IUP SID L3 - Modèles linéaires2

5.2.1 Résultats généraux . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . 17

5.2.2 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 18

5.2.3 Le coefficientR2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

5.2.4 Augmentation mécanique duR2. . . . . . . . . . . . . . . . . . . . . . . . 19

5.3 Tests et Intervalles de confiance . . . . . . . . . . . . . . . . . . . .. . . . . . . . . 20

5.3.1 Test de nullité d"un paramètre du modèle . . . . . . . . . . . .. . . . . . . 20

5.3.2 Test de nullité de quelques paramètres du modèle . . . . .. . . . . . . . . . 20

5.3.3 Test de nullité de tous les paramètres du modèle . . . . . .. . . . . . . . . 20

5.3.4 Intervalle de confiance deβj, de

Yiet deY0. . . . . . . . . . . . . . . . . . 21

5.3.5 Intervalle de prédiction . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . 22

5.4 Sélection des variables explicatives . . . . . . . . . . . . . . .. . . . . . . . . . . . 22

5.4.1 Les critères . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 22

5.4.2 Les méthodes de sélection . . . . . . . . . . . . . . . . . . . . . . . .. . . . 23

5.5 Validation du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . 23

5.5.1 Contrôle de l"ajustement du modèle . . . . . . . . . . . . . . . .. . . . . . 23

5.5.2 Etude des colinéarités des variables explicatives . .. . . . . . . . . . . . . . 24

6 L"analyse de variance26

6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . 26

6.2 L"analyse de variance à un facteur . . . . . . . . . . . . . . . . . . .. . . . . . . . 26

6.2.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .26

6.2.2 Le modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

6.2.3 Paramétrage centré . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . 27

6.2.4 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .27

6.2.5 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 28

6.2.6 Intervalles de confiance et tests d"hypothèses sur l"effet facteur . . . . . . . 29

6.2.7 Comparaisons multiples : Méthode de Bonferroni . . . . . .. . . . . . . . . 29

6.3 Analyse de variance à deux facteurs croisés . . . . . . . . . . .. . . . . . . . . . . 30

6.3.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .30

6.3.2 Le modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

6.3.3 La paramétrisation centrée . . . . . . . . . . . . . . . . . . . . . .. . . . . 31

6.3.4 Estimations des paramètres . . . . . . . . . . . . . . . . . . . . . .. . . . . 31

6.3.5 Le diagramme d"interactions . . . . . . . . . . . . . . . . . . . . .. . . . . . 32

6.3.6 Tests d"hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . 32

6.3.7 Tableau d"analyse de la variance à deux facteurs croisés dans le cas d"un

plan équilibré . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

7 Analyse de covariance35

7.1 Les données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 35

7.2 Le modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 35

7.3 La seconde paramétrisation . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . 35

7.4 Tests d"hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . 36

8 Quelques rappels de Statistique et de Probabilités 38

8.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . 38

8.2 Indicateurs statistiques pour variables quantitatives . . . . . . . . . . . . . . . . . . 39

8.2.1 Moyenne empirique d"une variable . . . . . . . . . . . . . . . . .. . . . . . 39

8.2.2 La covariance empirique . . . . . . . . . . . . . . . . . . . . . . . . .. . . . 39

8.2.3 Variance empirique et écart-type empirique . . . . . . . .. . . . . . . . . . 40

8.2.4 Coefficient de corrélation linéaire empirique . . . . . . . .. . . . . . . . . . 40

8.2.5 Interprétation géométrique de quelques indices statistiques . . . . . . . . . . 40

8.2.6 Expressions matricielles . . . . . . . . . . . . . . . . . . . . . . .. . . . . . 41

8.3 Rappels sur quelques lois de probabilité . . . . . . . . . . . . .. . . . . . . . . . . 42

8.3.1 La distribution NormaleN(μ,σ2). . . . . . . . . . . . . . . . . . . . . . . . 42

IUP SID L3 - Modèles linéaires3

8.3.2 La distribution n-NormaleNn(μ,Γ). . . . . . . . . . . . . . . . . . . . . . . 42

8.3.3 La distribution deχ2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

8.3.4 La distribution de Student . . . . . . . . . . . . . . . . . . . . . . .. . . . . 43

8.3.5 La distribution de Fisher-Snédécor . . . . . . . . . . . . . . .. . . . . . . . 44

8.4 Rappels de statistique inférentielle . . . . . . . . . . . . . . .. . . . . . . . . . . . 44

8.4.1 Estimation ponctuelle, estimation par intervalle deconfiance . . . . . . . . . 44

8.4.2 Notions générales sur la théorie des tests paramétriques . . . . . . . . . . . 44

Chapitre 1Préambule1.1 Démarche statistique

Population étudiée

Nombre d"individus,

variables observées quantitatives/qualitatives

Analyse univariée

Tableau de fréquences,

moyenne, écart-type, médiane, diagramme en bâtons, histogramme, box-plot

Analyse bivariée

Tableau croisé,χ2,

comparaison de moyennes, coefficient de corrélation, nuage de points

Analyse multivariée

issue de plusieurs variables pour mieux l"expliquer

Structurer et simplifier les données

issues de plusieurs variables, sans privilégier l"une d"entre elles en particulier

Expliquer une variable à l"aide

de plusieurs autres variables

Une variable

à expliquer

quantitative ?Une variable

à expliquer

qualitative

Analyse de Données

Multidimensionnelle

(ACP, AFC, ACM)

Modélisation

Linéaire :

Régression Linéaire simple

Régression Linéaire multiple

Analyse de variance

Analyse de covariance

Modèlisation

non-linéaire (logistique, ...) 1

IUP SID L3 - Modèles linéaires2

1.2 Un exemple introductif pour la modélisation linéaire d"une

variable quantitative

Pour illustrer la démarche statistique et les problématiques auxquelles peuvent répondre les mo-

dèles linéaires, nous présentons dans cette partie un exemple simple, mais complet d"une analyse

statistique. Cette feuille de bord, constituée de tableauxet de graphiques, a pour objectif de

rappeler les principaux outils de statistique descriptivesimple et d"introduire les différents types

de modèles linéaires que nous verrons dans cet enseignement.

Dans une entreprise, on a relevé les salaires des32employés (mensuel en euros, noté sal), ainsi

que certaines caractéristiques socio-démographiques telles que l"ancienneté dans l"entreprise (en

années, notée anc), le nombre d"années d"études après le bac(noté apbac), le sexe (1 =F/2 =M,

noté sex), le type d"emplois occupés (en3catégories codées de1à3, noté emp). Un extrait des

données est présenté ci-dessous : num anc sal sex apbac emp

1 7 1231 1 3 2

2 15 1550 1 3 2

33 12 1539 2 2 1

34 13 1587 2 2 2

L"objectif principal de cette étude est d"évaluer l"effet éventuel des caractéristiques socio-

démographiques sur le salaire des employés.

1.2.1 Description de la population d"étude

Les variables sont analysées différemment selon leur nature: quantitative ou qualitative. Les

variables quantitatives sont résumées sous forme d"indicateurs (moyenne, écart-type, ....), comme

dans le tableau ci-dessous, et sont présentées graphiquement sous forme d"histogramme et de boîtes à moustache ou box-plot (Figure 1). Variablen Moyenne Ecart-type Médiane Minimum Maximum

Ancienneté32 10.0 6.1 12 1.0 20.0

Salaire32 1365.4 308.0 1357 926.0 2024.0

Nombre d"années d"études32 2.3 1.5 2.0 0.0 5.0 Fig.1.1 -Box-plot et histogramme représentant la distribution des variables quantitatives : le salaire, l"ancienneté dans l"entreprise et le nombre d"années d"études après le bac

IUP SID L3 - Modèles linéaires3

Pour les variables qualitatives, on résume les données sousforme de tableau de fréquences (comme

ci-dessous) et on les présente graphiquement par des diagrammes en bâtons (Figure 2).

Variable ModalitésEffectif Fréquence(%)

Sexe Féminin (1)21 65.6%

Masculin (2)11 34.4%

Type d"emplois110 31.3%

217 53.1%

35 15.6%

Fig.1.2 -Diagramme en bâtons représentant la distribution des variables qualitatives : le sexe (1=F, 2=M) et le type d"emplois occupés (1, 2 ou 3)

1.2.2 Relation entre variables quantitatives

Etant donné l"objectif de l"étude, nous allons nous intéresser dans cette partie aux relations entre

le salaire et les autres variables renseignées. Là encore, selon la nature des variables, les méthodes

d"analyse sont différentes. Pour étudier la relation entre deux variables quantitatives (par exemple, entre le salaire et

l"ancienneté, et entre le salaire et le nombre d"année d"études), on peut tracer un nuage de points

(Figure 3) et calculer le coefficient de corrélation linéaire entre ces deux variables :

Pearson Correlation Coefficients, N = 32

Prob > |r| under H0: Rho=0

anc apbac sal 0.85559 0.42206 <.0001 0.0161 Fig.1.3 -Nuage de points représentant la relation entre le salaire etles deux autres variables quantitatives : l"ancienneté et le nombre d"années après lebac

IUP SID L3 - Modèles linéaires4

Le nuage de points peut être résumé par une droite que l"on appellera la droite derégression

linéaire simple. C"est le cas le plus simple de modèle linéaire, qui permet d"expliquer une variable

quantitative en fonction d"une autre variable quantitative. Par exemple, la droite de régression linéaire résumant la relation entre le salaire et l"ancienneté a pour équation : sal i= 934.5? constante à l"origine+ 42.9???? pente du salaire sur l"ancienneté×anci+ei

La constante à l"origine correspond au salaire moyen des employés au moment de l"entrée dans

l"entreprise. La pente représente la variation moyenne de salaire par année d"ancienneté. La pente

égale à 42.9 est significativement différente de0, montrant que le salaire et l"ancienneté sont liés de

façon significative. Il en est de même pour la régression linéaire du salaire sur le nombre d"année

d"études. Dans cet enseignement, on verra comment estimer les paramètres du modèle et tester

leur nullité.

Il peut être également intéressant de modéliser une variable en fonction de plusieurs autres

variables, par un modèle derégression linéaire multiple. Par exemple, on peut modéliser

le salaire en fonction de l"ancienneté et du nombre d"annéesd"études, ce qui donne l"équation

suivante : sal i= 858.9 + 40.2×anci+ 45.3×apbaci+ei

1.2.3 Relation entre variable quantitative et variables qualitatives

Il est possible d"étudier la relation entre une variable quantitative et une variable qualitative,

par exemple entre le salaire et le sexe, ou entre le salaire etle type d"emplois. Cette relation est représentée graphiquement par des box-plots parallèles (Figure 4). Fig.1.4 -Box-plots parallèles représentant la relation entre le salaire et les deux variables qualitatives : le sexe (1=F, 2=M) et le type d"emplois occupés (1, 2 ou 3) Intuitivement, pour comparer le salaire des hommes et celuides femmes, on va calculer le salaire

moyen -entre autre- pour chaque groupe. De la même façon pourétudier les différences éventuelles

entre les trois types d"emplois au niveau du salaire, on peutcalculer le salaire moyen pour chaque type d"emplois. Statistiquement, on modélise le salaire en fonction du sexeen mettant en oeuvre unmodèle d"analyse de variance à un facteurqui s"écrit sous la forme : sal i= 1315.7? salaire moyen des femmes×11sexei=1+ 1460.3???? salaire moyen des hommes×11sexei=2+ei

Il est également possible d"étudier l"effet conjoint du sexeet du type d"emplois sur le salaire.

Intuitivement, on peut étudier les moyennes par classe, en croisant les deux variables qualitatives,

IUP SID L3 - Modèles linéaires5

comme dans le tableau ci-dessous :

SexeF MTous sexes confondus

Type d"emplois11182.3 1111.21153.9

21312.8 1750.41441.5

31593.7 1433.01529.4

Tous types confondus1315.7 1460.3

Pour étudier l"effet combiné du sexe et du type d"emplois sur le salaire, on met en oeuvre unmodèle d"analyse de variance à deux facteurs croisés. Ce modèle nous permettra

d"étudier l"effet de chaque facteur (sexe et type d"emplois)sur le salaire, mais aussi de détecter

des combinaisons entre le sexe et le type d"emplois qui donneraient un salaire particulièrement différent des autres classes.

1.2.4 Modélisation d"une variable quantitative en fonction de variables quan-

titatives et qualitatives

Sur notre exemple, on peut tenter d"expliquer le salaire selon l"ancienneté (variable quantitative)

et le sexe (variable qualitative). Dans ce cas, on peut représenter deux nuages de points entre le salaire et l"ancienneté, l"un pour les femmes et l"autre pour les hommes, comme le montre la figure 5.

Fig.1.5 -Nuages de points représentant la relation entre le salaire et l"ancienneté selon le sexe

On peut ainsi comparer l"effet de l"ancienneté sur le salaire, selon le sexe. Cela nous amène à

mettre en oeuvre unmodèle d"analyse de la covariancepermettant de modéliser le salaire en fonction de l"ancienneté et du sexe.

Chapitre 2Présentation du modèle linéairegaussien2.1 Le modèle linéaireDéfinition :

On appellemodèle linéaireun modèle statistique qui peut s"écrire sous la forme Y=k? j=1θ jXj+E On définit les quantités qui interviennent dans ce modèle : -Yest une v.a.r. que l"on observe et que l"on souhaite expliquer et/ou prédire; on l"appelle variable à expliquerouvariable réponse; on suppose que la variance deYest constante : c"est ce qu"on appelle l"hypothèse d"homoscédasticité. - LeskvariablesX1,...,Xksont des variables réelles ou dichotomiques, non aléatoires et également observées; l"écriture de ce modèle suppose que l"ensemble desXjest censé expliquerYpar une relation de cause à effet; les variablesXjsont appeléesvariables explicativesouprédicteurs.

- Lesθj(j= 1,...,k)sont les paramètres du modèle, non observés et donc à estimerpar des

techniques statistiques appropriées. -Eest le terme d"erreur dans le modèle; c"est une v.a.r. non observée pour laquelle on pose les hypothèses suivantes :

E(E) = 0 ;V ar(E) =σ2>0

oùσ2est un paramètre inconnu, à estimer. - Les hypothèses posées surEimpliquent les caractéristiques suivantes surY:

E(Y) =k?

j=1θ jXj;V ar(Y) =σ2 En moyenne,Ys"écrit donc comme une combinaison linéaire desXj: la liaison entre lesXj

etYest de nature linéaire. C"est la raison pour laquelle ce modèle est appelémodèle linéaire.

L"estimation des paramètres de ce modèle est basée surnobservations simultanées des variables

jetYréalisées surnindividus supposés indépendants. Pour lai-ème observation, les valeurs

observées des variables sont notéesyi,x1i, ...,xki, de sorte que le modèle s"écrit : y i=k? j=1θ jxji+ei 6

IUP SID L3 - Modèles linéaires7

Introduisons maintenant :

-yle vecteur de IRncomposé des valeursy1,...yn, -Xla matrice (n,k) de rangk, contenant les valeurs observées deskvariables explicatives disposées en colonnes, -θle vecteur de IRkcontenant leskparamètres du modèle, -ele vecteur de IRndes erreurs du modèle. On peut donc écrire le modèle sous forme matricielle : y=Xθ+e

Selon la forme de la matriceX, on est dans le cas de la régression linéaire (Xest alors composée

de la variable constante1et despvariables explicatives) ou dans le cas du modèle factoriel (X est composée des variables indicatrices associées aux niveaux du (ou des) facteur(s)).

2.2 Le modèle linéaire gaussien

On reprend la définition précédente du modèle linéaire en ajoutant une hypothèse de normalité

des résidus. L"idée sous-jacente réside dans le fait qu"il existe une vraie valeur inconnueθ. Quand

on réalise une série d"expériences, on obtient, comme pour les moyennes, les proportions ou les

répartitions, une estimation?θ, c"est-à-dire une valeur approchée de la vraie valeurθ. Cette esti-

mation deθest différente selon les échantillons obtenus. D"après le Théorème Centrale Limite,

cette estimation tend en moyenne vers la vraie valeur deθ.?θest donc une variable aléatoire dont

on va chercher la distribution. Une fois posée la distribution de?θ, la question est de savoir si

l"approximation obtenue est bonne? Peut-on déterminer un intervalle du type[?θj-εj;?θj+εj]

qui contienne très probablement (avec un risque d"erreur petit) la vraie valeurθj?

L"hypothèse de normalité des résidus revient à poser que lesncomposantese1,...,endu vecteure

sont des observations indépendantes d"une variable aléatoireEdistribuée selon une loiN(0,σ2),

avecσ2inconnu.

2.2.1 Ecriture générale

On appelle modèle linéaire gaussien la donnée d"un vecteuryde IRntel que : y=Xθ+eoùXest une matrice(n,k)de rangk,

θest un vecteur inconnu de IRk,

eest un vecteur denréalisations indépendantes d"une v.a. normale de moyenne0et de varianceσ2inconnue. Cette nouvelle formulation du modèle linéaire a pour conséquences : -eest une réalisation d"une variable aléatoireEde distributionNn(0,σ2In); on peut dire aussi queeiest une observation de la v.a.Eidistribuée selon une loiN(0,σ2)et lesnv.a. réellesEisont indépendantes. -yest une observation deY=Xθ+Ede distributionNn(Xθ,σ2In):yiest l"observation deYide distributionN((Xθ)i,σ2)et cesnvariables aléatoires sont indépendantes.

En faisant intervenir les v.a.YetE, le modèle linéaire gaussien peut aussi s"écrire sous la forme :

X?M(n,k),connue, déterministe, de rangk,

θ?IRk,inconnu,

2?IR?+,inconnue.

IUP SID L3 - Modèles linéaires8

Il en découle la normalité deY:

Y≂Nn(Xθ,σ2In)

L"hypothèse de normalité des résidus peut se justifier :

1. par unargument théorique: les résidus sont caractérisables comme des erreurs de mesure.

Ceux sont une accumulation de petits aléas non-maîtrisables et indépendants. Par exemple, la mesure du poids d"un animal peut être soumise à des fluctuations dues à des erreurs de

mesure à la pesée, à l"état de santé de l"animal, à son bagage génétique, à l"effet individuel de

l"animal à prendre plus ou moins du poids. D"après le Théorème Central Limite, si tous ces

effets sont indépendants de même moyenne nulle et de même"petite"variance, leur somme tend vers une variable Normale. La distribution gaussiennemodélise assez bien toutes les situations où le hasard est la résultante de plusieurs causes indépendantes les unes des autres; les erreurs de mesure suivent généralement assez bien la loi gaussienne.

2. par unargument pratique: il est facile de contrôler si une variable aléatoire suit une loi

Normale. En étudianta posteriorila distribution des résidus calculés et en la comparant à

la distribution théorique (Normale), on constate souvent qu"elle peut être considérée comme

s"approchant de la loi gaussienne.

2.2.2 Le modèle de régression linéaire

On cherche à modéliser une variable quantitativeYen fonction de variables explicatives quanti-

tativesx1,x2, ...,xp. Sous l"hypothèse gaussienne, le modèle de régression linéaire s"écrit :

y i=β0+β1x1i+...+βpxpi+ei

avecβ0,β1, ...,βpinconnus, ete1, ...,ennobservations indépendantes d"une loiN(0,σ2)avecσ2

inconnue.

2.2.3 Le modèle factoriel

On cherche à modéliser une variable quantitativeYen fonction d"une (ou de plusieurs) variable(s)

explicative(s) qualitative(s) (appelée facteur). Sous l"hypothèse gaussienne, le modèle à un facteur

s"écrit : y ij=μi+eiji= 1,...I;j= 1,...,ni

avecμ1, ...,μIinconnus, ete11, ...,eInInobservations indépendantes d"une loiN(0,σ2)avecσ2

inconnue.

Chapitre 3Estimationθest le vecteur des paramètres à estimer. Dans le cas général que nous étudions dans ce chapitre,

θest un vecteurs àkcomposantes :θ1,θ2, ...,θk. On note :

Yla variable aléatoire à expliquer,

yune réalisation de cette v.a.Y,

θla vraie valeur théorique du vecteur des paramètres du modèle,?θl"estimateur deθ,?θ(y)une réalisation de la v.a.?θ(ou une estimation deθà partir des données observées).

3.1 Méthodes d"estimation

3.1.1 Principe des moindres carrés

La méthode des moindres carrés consiste à estimerθen minimisant la somme des carrés des

résidus (SSR), telle que ?(?θ(y)) =minn? i=1(?ei)2=minn? i=1(yi-?yi)2 Le critère des moindres carrés peut s"écrire aussi de la façon suivante :

Cette méthode d"estimation ne nécessite pas que l"on pose l"hypothèse de normalité des résidus.

3.1.2 Principe du Maximum de Vraisemblance

L"estimation par maximum de vraisemblance est basée sur la vraisemblance du modèle linéaire gaussien :

L(θ;y) =n?

i=1f(yi;θ) oùf(yi;θ)est la densité de la loi Normale surY.

Pour obtenir l"estimateur

?θdu maximum de vraisemblance, on maximise sa log-vraisemblance selonθen résolvant le système d"équations du maximum de vraisemblance : ∂θjlnL(θ1,...,θk;y) = 0pourj= 1,...,k. dont

?θ(y)est solution, sous réserve que la condition de seconde ordresoit vérifiée. On pourra

également obtenir l"estimateur du MV deσ2en maximisant la log-vraisemblance selonσ2. Remarque :Les estimateurs du Maximum de Vraisemblance deθsont équivalents aux estimateurs

des Moindres Carrés deθ. On pourra le montrer dans le cas de la régression linéaire. En revanche,

certaines propriétés ne sont possibles que sous l"hypothèse de normalité des résidus. 9

IUP SID L3 - Modèles linéaires10

3.2 Estimation deθ

Siyest la réalisation deY, l"estimation deθ,?θ(y), est l"unique élément de IRktel que X ?θ(y) =?y.

On a donc

?θ(y) = (X?X)-1X?y

?θ(y)est l"observation de la v.a.?θ= (X?X)-1X?Y:?θest la transformée deYpar l"a.l.(X?X)-1X?.

Propriétés

?θest un estimateur sans biais deθ. ?θa pour matrice de variance-covarianceΓbθ=σ2(X?X)-1. ?θsuit une loi Gaussienne dans IRk.

On peut donc écrire que :

?θ≂Nk(θ;σ2(X?X)-1)

3.3 Valeurs ajustées et résidus calculés

Les?yis"appellent lesvaleurs ajustéesouvaleurs préditespar le modèle :?yiest une valeur appro-

chée deyi. On estime également lesrésidus?ei. ?y=X(X?X)-1X?y e=y-?y ?y=X?θ(y)est le vecteur des valeurs ajustées. yest l"observation de la v.a.?Y=X(X?X)-1X?

HYavec?Y≂Nn(Xθ;σ2H).

H=X(X?X)-1X?est appelée la "matrice chapeau" ou "Hat Matrix". ?e=y-?yest le vecteur des résidus calculés. eest l"observation de la variable aléatoire?E=Y-?Y= (In-H)Yavec?E≂Nn(0;σ2(In-H)).

Propriétés :?Yet?Esont deux v.a. indépendantes;?Eet?θsont deux v.a. indépendantes.

3.4 Estimation deσ2

On note :

2la vraie valeur théorique de la variance des résidus,

?σ2l"estimateur deσ2, et

?σ2(y)la réalisation de la v.a.?σ2(ou une estimation deσ2à partir des données observées).

Définition

2est la variance "théorique" des résidus, on l"appellevariance résiduelle. Une autre définition de

2est donnée par la variance deYpourXfixé, c"est-à-dire la variance deYautour de la droite

de régression théorique. Cette définition deσ2suggère que son estimation est calculée à partir

IUP SID L3 - Modèles linéaires11

des écarts entre les valeurs observéesyet les valeurs ajustées?y.

L"estimateur deσ2est :

?σ2=1 n-k||?E||2=1n-k||Y-?Y||2

L"estimation deσ2est donc

σ2(y) =1

n-k||?e||2=1n-k||y-?y||2=||y||2- ||?y||2n-k Le dénominateur(n-k)provient du fait que l"on a estimékparamètres dans le modèle.

Rappelons que :||y||2=n?

i=1y

2iet que||?y||2=?θ(y)?(X?y).

Propriétés

(n-k)?σ2 σ2≂χ2n-k(Somme des carrés denv.a.N(0,1)qui vérifientkrelations linéaires). ?σ2est un estimateur sans biais deσ2et de variance2σ4 n-k. ?Yet?σ2sont deux v.a. indépendantes;?θet?σ2sont deux v.a. indépendantes.

3.5 Erreurs standard de

?θj,?yi,?ei La matrice de variance-covariance de?θnotéeΓbθ=σ2(X?X)-1est estimée par :

Γbθ=?σ2(X?X)-1.

V ar(?θj)est donc estimée par?σ2(X?X)-1jj.

L"erreur standard de

?θj(y)notéesejest donc : sej=??σ2(y)(X?X)-1jj Remarque : L"estimation de la matrice de variance-covariance?σ2(y)(X?X)-1est notéecov bpar SAS. La matrice des corrélations de?θ(y)a pour élément j,j" :quotesdbs_dbs28.pdfusesText_34

[PDF] les constants physique

[PDF] permittivité du vide valeur

[PDF] h physique

[PDF] valeur de k coulomb

[PDF] epsilon 0 valeur

[PDF] les constants biologique

[PDF] c chimie

[PDF] formule tableau de bord bts muc

[PDF] gestion clientèle bts nrc

[PDF] formule mgac bts nrc

[PDF] exercice calcul commerciaux bts nrc

[PDF] cours gestion bts muc

[PDF] exercice calcul commerciaux avec corrigé

[PDF] exercices corrigés calculs commerciaux bac pro commerce

[PDF] traitement de salaire ofppt exercice

[PDF] MODELES LINEAIRES Selon la forme de la

M1 IMAT, Année 2009-2010

MODELES LINEAIRES

C.Chouquet

Table des matières1 Préambule1

1.1 Démarche statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . 1

1.2 Un exemple introductif pour la modélisation linéaire d"une variable quantitative . . 2

1.2.1 Description de la population d"étude . . . . . . . . . . . . . .. . . . . . . . 2

1.2.2 Relation entre variables quantitatives . . . . . . . . . . .. . . . . . . . . . . 3

1.2.3 Relation entre variable quantitative et variables qualitatives . . . . . . . . . 4

1.2.4 Modélisation d"une variable quantitative en fonction de variables quantita-

2 Présentation du modèle linéaire gaussien6

2.1 Le modèle linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . 6

2.2 Le modèle linéaire gaussien . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . 7

2.2.1 Ecriture générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . 7

2.2.2 Le modèle de régression linéaire . . . . . . . . . . . . . . . . . .. . . . . . . 8

2.2.3 Le modèle factoriel . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . 8

3 Estimation9

3.1 Méthodes d"estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . 9

3.1.1 Principe des moindres carrés . . . . . . . . . . . . . . . . . . . . .. . . . . 9

3.1.2 Principe du Maximum de Vraisemblance . . . . . . . . . . . . . .. . . . . . 9

3.2 Estimation deθ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3.3 Valeurs ajustées et résidus calculés . . . . . . . . . . . . . . . .. . . . . . . . . . . 10

3.4 Estimation deσ2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3.5 Erreurs standard de?θj,?yi,?ei. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3.6 Construction de l"intervalle de confiance deθj. . . . . . . . . . . . . . . . . . . . . 12

3.7 Décomposition de la variance . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . 12

4 Test de Fisher13

4.1 Hypothèse testée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . 13

4.1.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .13

4.1.2 Calculs sousH0. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

4.2 Le test de Fisher-Snédécor . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . 13

4.2.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .13

4.2.2 La statistique de test . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . 14

4.2.3 Fonctionnement du test . . . . . . . . . . . . . . . . . . . . . . . . . .. . . 14

4.3 Cas particulier où q=1 : le test de Student . . . . . . . . . . . . .. . . . . . . . . . 15

5 La Régression linéaire16

5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . 16

5.1.1 La problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 16

5.1.2 Le modèle de régression linéaire simple . . . . . . . . . . . .. . . . . . . . . 16

5.1.3 Le modèle de régression linéaire multiple . . . . . . . . . .. . . . . . . . . . 17

5.2 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 17

IUP SID L3 - Modèles linéaires2

5.2.1 Résultats généraux . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . 17

5.2.2 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 18

5.2.3 Le coefficientR2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

5.2.4 Augmentation mécanique duR2. . . . . . . . . . . . . . . . . . . . . . . . 19

5.3 Tests et Intervalles de confiance . . . . . . . . . . . . . . . . . . . .. . . . . . . . . 20

5.3.1 Test de nullité d"un paramètre du modèle . . . . . . . . . . . .. . . . . . . 20

5.3.2 Test de nullité de quelques paramètres du modèle . . . . .. . . . . . . . . . 20

5.3.3 Test de nullité de tous les paramètres du modèle . . . . . .. . . . . . . . . 20

5.3.4 Intervalle de confiance deβj, de

Yiet deY0. . . . . . . . . . . . . . . . . . 21

5.3.5 Intervalle de prédiction . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . 22

5.4 Sélection des variables explicatives . . . . . . . . . . . . . . .. . . . . . . . . . . . 22

5.4.1 Les critères . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 22

5.4.2 Les méthodes de sélection . . . . . . . . . . . . . . . . . . . . . . . .. . . . 23

5.5 Validation du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . 23

5.5.1 Contrôle de l"ajustement du modèle . . . . . . . . . . . . . . . .. . . . . . 23

5.5.2 Etude des colinéarités des variables explicatives . .. . . . . . . . . . . . . . 24

6 L"analyse de variance26

6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . 26

6.2 L"analyse de variance à un facteur . . . . . . . . . . . . . . . . . . .. . . . . . . . 26

6.2.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .26

6.2.2 Le modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

6.2.3 Paramétrage centré . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . 27

6.2.4 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .27

6.2.5 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 28

6.2.6 Intervalles de confiance et tests d"hypothèses sur l"effet facteur . . . . . . . 29

6.2.7 Comparaisons multiples : Méthode de Bonferroni . . . . . .. . . . . . . . . 29

6.3 Analyse de variance à deux facteurs croisés . . . . . . . . . . .. . . . . . . . . . . 30

6.3.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .30

6.3.2 Le modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

6.3.3 La paramétrisation centrée . . . . . . . . . . . . . . . . . . . . . .. . . . . 31

6.3.4 Estimations des paramètres . . . . . . . . . . . . . . . . . . . . . .. . . . . 31

6.3.5 Le diagramme d"interactions . . . . . . . . . . . . . . . . . . . . .. . . . . . 32

6.3.6 Tests d"hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . 32

6.3.7 Tableau d"analyse de la variance à deux facteurs croisés dans le cas d"un

7 Analyse de covariance35

7.1 Les données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 35