[PDF] Fiche 6.1 : Modèle linéaire et incertitude associée





Previous PDF Next PDF



Régression linéaire multiple

25 mars 2011 Résultats retournés par Excel avec l'utilitaire d'analyse Régression linéaire. Statistiques de la régression. Coefficient de détermination.



Statistiques pour sciences sociales : applications - 7 - Régréssion

Excel. 2 Régression multiple. 2/5/2011ag 2/45 régression simple. Régression multiple introduction Coefficient de détermination R2 (Corrélation multiple).



2.4.3 Le coefficient de corrélation multiple (ou coefficient de

Le problème de la détermination de la matrice de covariance V des résidus est assez complexe et requiert habituellement des procédures itératives. Une fois V.



13 Régression linéaire simple

Régression avec EXCEL 19 résultats suivants : RAPPORT DÉTAILLÉ. Statistiques de la régression. Coefficient de détermination multiple. 0409915661.



Régression multiple : principes et exemples dapplication

fait appel à l'analyse par régression linéaire multiple selon différentes logiques a priori Le coefficient de détermination multiple est donné par :.



Régression linéaire multiple ou modèle gaussien

riables explicatives ne peut que faire croître le coefficient de détermination. La quantité R est appelée coefficient de corrélation multiple entre Y et les.



Activité Excel Régression linéaire avec Excel Il faut installer le

Le coefficient de détermination multiple nous indique si la corrélation est de bonne qualité ou pas du moment qu'on est entre 0



Régression linéaire simple dans Excel

Résultats retournés par Excel avec l'utilitaire d'analyse Régression linéaire. Statistiques de la régression. Coefficient de détermination multiple.



Régression linéaire simple

26 mars 2010 Résultats retournés par Excel avec l'utilitaire d'analyse Régression linéaire. Statistiques de la régression. Coefficient de détermination.



Fiche 6.1 : Modèle linéaire et incertitude associée

Détermination des coefficients a et b par la méthode des moindres carrés coefficient proposé par Excel se révèle être en fait un critère de Nash.



[PDF] Régression linéaire avec Excel

Comment effectuer une régression linéaire avec Excel le coefficient de détermination multiple (dans le cas à deux variables cela correspond



[PDF] Statistiques pour sciences sociales : applications - Régréssion linéaire

Excel 2 Régression multiple 2/5/2011ag 2/45 régression simple Régression multiple introduction Coefficient de détermination R2 (Corrélation multiple)



[PDF] 243 Le coefficient de corrélation multiple (ou coefficient de

Dans le calcul de corrélations simples tous les facteurs sont confondus Très souvent on est intéressé à éliminer l'effet (linéaire) d'une ou de plusieurs 



Analyse de données : la régression linéaire multiple avec Excel

24 jui 2017 · Première vidéo d'une série de vidéo sur les régressions avec Excel cette première vidéo explique Durée : 6:07Postée : 24 jui 2017



[PDF] Tracer une régression linéaire et exploiter des échantillons (Excel)

Tracer une régression linéaire en utilisant Excel L'exemple décrit est celui d'une gamme d'étalonnage de spectrophotométrie La feuille de calcul peut être 



[PDF] Activité Excel Régression linéaire avec Excel - Dimension K

Le coefficient de détermination multiple nous indique si la corrélation est de bonne qualité ou pas du moment qu'on est entre 095 et 1 on peut dire que le



[PDF] 13 Régression linéaire simple - Université du Québec

Régression avec EXCEL 19 résultats suivants : RAPPORT DÉTAILLÉ Statistiques de la régression Coefficient de détermination multiple 0409915661



[PDF] Pratique de la Régression Linéaire Multiple

3 4 Coefficient de corrélation partielle et sélection de variables La même régression sous EXCEL donne exactement les mêmes résultats (Figure 0 3)!



[PDF] Régression linéaire multiple sous Excel

30 mar 2018 · Le coefficient de détermination est fourni directement par DROITEREG R² = 0 935 (Figure 8) WEIGHT NICOTINE TAR constante 2 0793 0 5185



[PDF] Régression multiple : principes et exemples dapplication

fait appel à l'analyse par régression linéaire multiple selon différentes logiques a priori Le coefficient de détermination multiple est donné par :

  • Comment calculer le coefficient de corrélation multiple ?

    Le coefficient de corrélation multiple correspond au coefficient de corrélation entre les valeurs réelles de la variable aléatoire dépendante et les valeurs estimées par l'équation de régression. En résumé, le coefficient de corrélation multiple R est le cosinus de l'angle ? fait par y et y^.
  • Comment calculer le coefficient de détermination sur Excel ?

    Cliquer sur l'onglet Options puis cocher aussi les cases Afficher l'équation sur le graphique et Afficher le coefficient de détermination (R2) sur le graphique. Cliquer sur OK.
  • Comment calculer le coefficient de détermination R2 ?

    Par ailleurs, dans le cas de la régression linéaire simple, le R2 est égal au coefficient de corrélation de Pearson au carré, entre la variable réponse (Y), et la variable prédictive (X).
  • La régression linéaire multiple sont définies par les variables y représentant la variable réponse (continue) et x pour les variables explicatives (continues ou catégoriques). La valeur prédite de yi se définit comme : ^yi=?0+?1x1,i+?2x2,i+?3x3,i+ +?kxk,i.

Fiche 6.1 :

Modèle linéaire et

incertitude associée Rédacteur : Perret C., famillecperret@orange.fr Vérificateurs : Belleville A. (EDF DTG), Lang M. (IRSTEA), Garçon R. (EDF

DTG), Paquet E. (EDF DTG)

Mise à jour :

Février 2018

1. Introduction .................................................................................................................................... 1

4. Intervalle de prédiction ou intervalle de confiance? ..................................................................... 5

6. Résultats ......................................................................................................................................... 9

7. Applicabilité aux données journalières ........................................................................................ 11

8. La corrélation double .................................................................................................................... 11

9. Correlation sur la somme des variables explicatives .................................................................... 13

1. Introduction

une station référence. Le modèle est muni des quantiles 10 et 90 qui représentent un intervalle de

de la détailler à travers une fiche dédiée.

Les aspects théoriques sont illustrés à travers un exemple composé de deux séries de débits moyens

mensuels de 30 années soit 360 occurrences. La station S1 contrôle un bassin versant de 2170 km2 et

la station S2 un bassin de 3580 km2.

Soit deux séries de données de débits X (station S1) et Y (station S2) qui comportent chacune N

observations de débit : r=Ρ(XϙX)(YϙY) (Ρ(XϙX)2)(Ρ(YϙY)2)

On cherche à critiquer la série Y à partir de X. Un modèle linéaire peut être construit entre les deux

Y = a.X + b + (1)

Si on pose :

Y' = a.X + b (2)

On peut écrire :

= Y ʹ Y' (3)

série observée X. est couramment appelé ensemble des résidus du modèle linéaire. Détermination des coefficients a et b par la méthode des moindres carrés

(Murray R. Spiegel, 1972) et " parmi toutes les courbes qui approchent un ensemble de données », la

de la manière suivante : (5.1) (5.2) Y = a.X + N.b (6.1) XY = a.X2 + b.X (6.2)

Des équations (5.1) ou (6.1), on peut déduire une propriété importante de la régression linéaire : la

somme des résidus est nulle et on peut conclure que le modèle linéaire est sans biais : i = 0.

(7.1) (7.2)

Coefficient de corrélation

constitue un critère pour évaluer le " lien » qui relie les deux variables. Il vaut : (8) a=NΡXY(ΡX)(ΡY)

NΡX2(ΡX)2ΫS

Nash=1Ρ(YY')2

Ρ(YϙY)2r2=1Ρ(άi)2

Ρ(YϙY)2

a pas de lien entre les deux séries, donc pas de corrélation. On peut dire que les deux séries sont

indépendantes. Si r vaut 1, les deux vecteurs X et Y sont colinéaires donc parallèles. Si r vaut ʹ1, les

deux vecteurs sont colinéaires de sens inverse.

On remarquera au passage que la notion de corrélation est indépendante de tout modèle, linéaire ou

autre.

Coefficient de détermination

(9) La valeur de Nash est comprise entre - et 1. On considère que le modèle est correct lorsque la valeur de Nash est supérieure à 0,8. Dans le cas de la régression linéaire classique, on a : (10) Elle est comprise entre 0 et 1 et prend le nom de coefficient de détermination.

qualifier le modèle linéaire, r2 et Nash sont équivalents ce qui revient à conclure que pour un modèle

linéaire dont les coefficients sont ajustés par la méthode des moindres carrés, la valeur de Nash est

toujours comprise entre 0 et 1.

forte valeur et que les autres points sont très concentrés dans un domaine restreint, on obtiendra un

bonne corrélation.

Figure 1 : Modèle linéaire entre la variable à expliquer (Données mensuelles de la station Y) et la

ΫS

Ϋa=2[(X1Y1aX1

2)+(X2Y2aX2

2)+...+(XnYnaXn

2)]=0a=(ΡY)

(ΡX)a=(ΡXY) (ΡX)2

débits moyens observés à la station Y (Module égal à 78 m3/s) soit moins de 1%. On remarque

ensuite que le coefficient directeur a est comparable au rapport des bassins versants des deux

détermination est bon avec 0,977. Condition 1 : la variance des résidus doit être indépendante de la variable X.

Condition 2 : les résidus successifs doivent être indépendants autrement dit, il ne doit pas y

Condition 3 : La distribution des résidus doit suivre une loi Normale.

Duband juge la première condition " primordiale » et les deux autres " importantes mais pas

essentielles ». On reviendra sur ces trois conditions un peu plus loin.

De nombreux débats ont souvent eu lieu autour de la signification du coefficient b et notamment sur

son sens physique. Aussi, certains hydrologues préfèrent-ils utiliser une relation linéaire sans

Y = a.X + (11)

Si on pose :

Y' = a.X (12)

On peut écrire :

= Y ʹ Y' (13)

Elle est couramment appelée résidu.

Détermination du coefficient a par la méthode des moindres carrés

La méthode des moindres carrés peut aussi être appliquée pour trouver le coefficient a. La somme

du carré des résidus devient : S est minimale lorsque la dérivée de S par rapport à a est nulle : (15) (16)

pas nulle, ce qui ne va pas sans inconvénients si on doit modéliser le comportement de ces derniers.

Autre méthode pour déterminer a

Dans ce cas :

(17)

Coefficient de détermination

On a vu plus haut que le coefficient de détermination ne pouvait être déduit du coefficient de

Lorsque vous calez un modèle y = ax avec le logiciel Excel, ce dernier vous propose pourtant un

coefficient de détermination. Cette présentation est trompeuse car si vous vous amusez à saisir un

coefficient proposé par Excel se révèle être en fait un critère de Nash. On rappelle que celui-ci est

équivalent au coefficient de détermination pour une régression ax + b calée par la méthode des

moindres carrés. (équation 9).

Conclusion sur ce point

physique du coefficient b.

Si le débit de la station explicative X située en amont de la station expliquée Y, tend vers 0, le débit

de la station Y tend vers b. On en déduit que si la contribution du bassin versant contrôlé par X

deux bassins versants sont différentes, ce qui est tout à fait possible. Il est vrai alors que dans ce cas,

et de construire un modèle avec deux variables explicatives, surtout si le coefficient b représente une

valeur importante relativement aux débits observés à la station Y.

4. Incertitudes du modèle - Intervalle de prédiction ou intervalle de

confiance ?

Les coefficients a et b de la régression linéaire (7.1 et 7.2) permettent de déterminer la meilleure

représentation de la régression linéaire pour les populations X et Y. Ces dernières ne représentent

toutefois que des échantillons des débits des stations S1 et S2. Deux échantillons différents

représentant une période différente auraient donné un autre résultat pour a et b. Il faut donc

incertitude liée aussi aux incertitudes sur a et sur b. Sur le plan pratique, on peut envisager

pour plus détails, on se référera à Obled, Bois, Zin (2007). du modèle moyen. peut être élargi au seuil de confiance de 95% en étant multiplié par 1,96. (18)

IC=±1,96κάN1+(XiϙX)2

κx 2

de normalité de ces derniers, il peut être élargi au seuil de confiance de 95% en étant multiplié par

(19) des résidus du modèle. IP est finalement peu différent de 1.96 comme on le montre figure 2.

Figure 2 : Représentation des résidus du modèle linéaire en fonction du débit ʹ Intervalle de

confiance et Intervalle de prédiction faible comprise entre 0,84 m3/s et 2 m3/s en fonction du débit considéré.

Une valeur quelconque de débit observé a 95% de chance de présenter un écart de plus ou moins

18,3 m3/s par rapport à la valeur moyenne du modèle linéaire.

ou non les paramètres de base qui ont servi à construire la série de données. Le modèle linéaire est

répondre.

IP=±1,96κά1+1

N+(XiϙX)2

Nκx

2

Hétéroscédasticité des résidus

graphiquement.

Figure 3 : Evolution des deux sous populations des résidus en fonction du débit ʹ Valeurs des écarts

types respectifs.

estimation pour les débits forts. De plus, pour les faibles débits, on prend le risque de donner une

Auto corrélation des résidus

mois pour le pas de temps mensuel. occurrence

ά=ln(Y

Y')=ln(Y)ln(Y')

La figure 4 montre que la série des résidus du modèle présente une auto corrélation assez faible.

Normalité des résidus

type des résidus (0, ).

La figure 5 montre que la distribution empirique des résidus du modèle est peu différente de celle

Conclusions sur ce point

seuil de 70 % du modèle. Cette méthode reste cependant très imparfaite car en pratique,

tienne compte de ce constat.

La méthode a été développée à partir de 2003 à EDF DTG par M. Hervé sous la houlette de R. Garçon

logarithmes : (20) (21) (22)

On retient comme hypothèses :

ln(Y)=ά+ln(aX+B)Y=Y'eά le carré des erreurs du modèle linéaire est un bon estimateur de la variance des erreurs du modèle, et il peut être modéliser par une loi de type " puissance » : (23) (24) Pour que le modèle soit exempt de biais, b vaut : (25) Figure 6 : Modélisation de 2 en fonction des données observées

Le calcul des bornes haute et basse avec intervalle de prédiction au seuil de confiance de 95%, se fait

(26.1) (26.2)

Avec :

(27)

6. Résultats

La figure 7 propose une représentation des écarts relatifs entre les débits modélisés et les débits

observés. On a représenté : de confiance de 95%,

26.2), seuil de confiance de 95%.

Figure 7 : Ecarts relatifs entre les débits modélisés et les débits observés munis des intervalles de

prédiction au seuil de confiance de 95% calculés de deux façons différentes résidus.

(signal noir) comparés aux intervalles de prédiction calculés selon les deux manières (Figure 8).

Figure 8 : Hydrogramme des débits observés comparés aux intervalles de prédiction calculés

nécessairement tirer la conclusion que cette valeur est erronée mais cela doit inciter le gestionnaire

courbe de tarage.

7. Applicabilité aux données journalières

coefficients a et b du modèle linéaire avec des données mensuelles et de les appliquer à des données

séries journalières des mêmes stations dont les coefficients a et b ont été calés par la méthode des

moindres carrés.

Force est de constater que sur cet exemple, les résidus sont mieux auto-corrélés en données

mensuelles. On ne tirera pas de conclusions générales à partir de cet exemple mais on

recommandera une analyse au cas par cas aux utilisateurs potentiels.

8. La corrélation double

explicatives. Pour une démonstration exhaustive de la méthode, on se reportera aux documents cités

comme références (Duband, 1972) (Obled, Bois, Zin, 2007). On propose ici de donner les éléments

utiles pour une application avec deux variables explicatives, ce qui suffit dans la plupart des cas. On

du bassin versant intermédiaire entre S1 et S2. La S3 contrôle un bassin versant de 946 km2. Le modèle

Y = a.X + bZ + c + (28)

Si on pose :

Y' = a.X + bZ + c (29)

On peut écrire :

= Y ʹ Y' (30)

a=(r1r2.r3) (1r3 2)

κyκxb=(r2r1.r3)

(1r3 2)

Les coefficients a, b et c sont déterminés par la méthode des moindres carrés qui minimise la somme

du carré des résidus. On ne reprendra pas ici la démonstration pour se contenter de présenter les

expressions finales : (31) (32) (33) où :

r1, r2 et r3 représente respectivement les coefficients de corrélation (cf. expression 8) entre Y et X, Y

et Z et X et Z. sont les moyennes des variables X, Y et Z.

(chapitres 4 et 5). On présente figure 10 le résultat de la méthode appliquée aux stations Y, X et Z.

Figure 10 : Ecarts relatifs entre les débits modélisés et les débits observés munis des intervalles de

prédiction au seuil de confiance de 95% calculés de deux façons différentes pour le modèle linéaire

double

Si on compare les figures 7 et 10, on constate que le modèle linéaire double (Figure 10) permet de

pertinence physique aux coefficients a et b calculés, ce qui doit nous inciter à trouver une autre

solution pour la combinaison des variables.

9. Corrélation sur la somme des variables explicatives

On reprend les variables S1, S2 et S3 du paragraphe 8 et on va considérer que la variable explicative

du modèle est la somme X+Y. On revient donc à un modèle de corrélation simple et on déroule la

méthodologie exposée au paragraphe 2. On obtient : 'сϭ͕ϬϲϳΎ;нͿнϮ͕ϮϮ (34)

avec un coefficient de détermination de 0,9927. La qualité de la corrélation est un peu moins bonne

que pour la corrélation double mais reste supérieure à la corrélation calculée avec une seule variable

explicative.

Le coefficient directeur du modèle linéaire a une signification physique acceptable compte tenu de la

la même manière selon la méthodologie exposée au paragraphe 6. On obtient la figure 11 :

Figure 11 : Ecarts relatifs entre les débits modélisés et les débits observés munis des intervalles de

prédiction au deuil de confiance de 95% calculés de deux façons différentes pour le modèle linéaire

simple avec comme variable explicative (X + Z)

En examinant les figures 10 et 11, on peut voir que les intervalles de prédiction sont équivalents.

corrélation double.

10. Références

Duband D. (1973) Hydrologie approfondie Statistique appliquée ʹ ENSHG INPG

Obled C. Bois P. Zin (2007) I. Introduction au traitement de données en hydrologie ʹ ENSHMG INPG

Murray R. Spiegel (1972) Théorie et application de la statistique ʹSérie Schaum discussion of principles, Journal of Hydrology, 10 (3), 282ʹ290quotesdbs_dbs35.pdfusesText_40
[PDF] definition fonction de cout total

[PDF] corrélation entre plusieurs variables excel

[PDF] corrélation multiple excel

[PDF] fonction de cout marginal

[PDF] régression multiple excel

[PDF] cours microeconomie

[PDF] microéconomie cours 1ere année pdf

[PDF] introduction ? la microéconomie varian pdf

[PDF] introduction ? la microéconomie varian pdf gratuit

[PDF] les multiples de 7

[PDF] les multiples de 8

[PDF] comment reconnaitre un multiple de 4

[PDF] numero diviseur de 4

[PDF] les multiples de 2

[PDF] diviseurs de 36