Unité de Recherche Clinique et Évaluative PDF

Interprétation du test de Chow Le résultat du test de Chow est un test F. Ce l'hypothèse spécifique d'homoscédasticité inter-individus. STATA utilise un ...

Guide déconométrie appliquée pour Stata Pour ECN 3950 et FAS

2.1.4 Homoscédasticité vs Hétéroscédasticité Interprétation du Test L'hypothèse nulle de ce test est qu'il y a seulement ...

anova.pdf

Les p populations comparées ont même variance : Homogénéité des variances ou homoscédasticité. Page 13. Analyse de la variance à un facteur. 1. Indépendance :.

Chapitre 4 : Régression linéaire

Interprétation : Ne pas extrapoler la droite au delà des limites du domaine Analyse de l'homoscédasticité. Il n'existe pas de procédure précise pour vérifier ...

La mesure du risque systématique des actions : une approche

Ceci amène deux remarques : il faudra être très prudent dans l'interprétation du test d'homoscédasticité qui suit; l'interprétation statistique habituelle

ECONOMETRIE

24 jan. 2016 ∀t car on a supposé E(εt) = 0. ⇒ la variance de l'erreur est constante (soit homoscédasticité de l'erreur). H4 : Cov(εtεt') = E(εt. εt ...

Économétrie Appliquée: Recueil des cas pratiques sur EViews

19 avr. 2018 le modèle homoscédastique est celui transformé comme suit ... interprétation des résultats. Sur EViews

Régression linéaire simple

l'erreur est centrée et de variance constante (homoscédasticité) : ∀i = 1 Regression Analysis: Revenu versus Nb_appart. The regression equation is. Revenu ...

ECONOMETRIE DES SERIES TEMPORELLES

24 jan. 2016 ⎧ H0 : homoscédasticité et α1 = … = αq = 0. H1 : hétéroscédasticité et il y a au moins un coefficient αi significativement différent de 0 ...

anova.pdf

Homogénéité des variances ou homoscédasticité. Analysis of Variance Table ... Homoscédasticité : test de Bartlett ? par race : p-value = 0.1961.

Guide déconométrie appliquée pour Stata Pour ECN 3950 et FAS

2.1.4 Homoscédasticité vs Hétéroscédasticité . 2.6 L'INTERPRÉTATION DES RÉSULTATS. ... 3 Voir section 2.1.4 pour un définition de l'homoscédasticité.

Régression linéaire simple : 6. Vérification des hypothèse

Validation de l'hypoth`ese. 1. de linéarité E(Ei ) = 0 si les résidus ne présentent pas d'organisation particuli`ere. 2. d'homoscédasticité Y(Ei ) = ?2 si les

Unité de Recherche Clinique et Évaluative

Fréquemment rencontrés: • Normalité des résidus. • Homoscédasticité des résidus (variances égales). • Linéarité. • Indépendance (absence d'auto-corrélation).

Analyse statistique de populations pour linterprétation dimages

4 sept. 2015 de techniques pour l'analyse et l'interprétation des images ... de valider l'hypothèse d'homoscédasticité le test de Levene est normale-.

Chapitre 4 : Régression linéaire

d'homoscédasticité qu'il faudra vérifier). Interprétation : une augmentation de l'âge d'un an se traduit par une augmentation (ˆ b1 > 0) de la tension.

PREMIERS PAS en REGRESSION LINEAIRE avec SAS*

Test d'homoscédasticité et tracé du QQ-PLOT avec PROC REG. L'interprétation d'un coefficient de corrélation comme un cosinus est une propriété.

Économétrie II

8i : Homoscédasticité. 3. cov (?t?s) = 0 8t 6= s : Pas d'auto-corrélation. 4. E (?i xi ) = 0 8i : Exogénéité. 5. X La matrice X est de plein rang : Pas

Régression linéaire simple

2. l'erreur est centrée et de variance constante (homoscédasticité) : ?i = 1

Guide déconométrie appliquée à lintention des étudiants du cours

Interprétation des résultats des tests d'hétéroscédasticité Les deux tests n'expliquent pas la variance observée donc il y a homoscédasticité.

I S’il y a homoscédasticité dans les données de départ les données en moyenne seront hétéroscédastiques I y it avec var (y it)=18it I Mais on ne dispose que des moyennes 1 T g P t y it = y i où T g est la taille du groupe I Par ex : des moyennes annuelles de données mensuelles I var (y i)=1 T2 g var (P t y it)= 1 T2 g P var (y it

L'HOMOSCÉDASTICITÉ: QU'EST-CE QUE C'EST IMPORTANCE ET EXEMP

satisfaite Les autres hypothèses (homoscédasticité normalité) semblent raison-nables sur ce graphique L’équation de la droite de régression est la suivante : y? =21 7+9 1x On retrouve la moyenne du groupe X =0dans le rôle de la constante et la di?érence de moyenne entre les deux groupes dans le rôle de la pente de la droite

Chapitre 1 : REGRESSION LINÉAIRE SIMPLE Plan du Chapitre

??est constante s’appelle hypothèse de « Homoscédasticité » Comme ? est aléatoire alors Y est aussi une variable aléatoire Alors qu’il n’est pas nécessaire que la variable X soit aussi aléatoire (i ) ( ?i i )= + + = i + + (?i)? (i ) =+ E y E b ax b ax E E y b ax i [( )]2 [ ]2 ?Y i i ?i i E y E y E a bx a = ?

Cours : Régression Linéaire simple et Réalisée par: Dr

la variance de l' erreur est constante (l' hypothèse d' homoscédasticité ) ; 2 l x t t t t t t t t z ( ( c c c H H H H H V H H H I-3 Estimation des paramètres par la méthode des Moindres Carrés Ordinaires (MCO) Soit le modèle suivant : Y t E 0 E 1 X t H t

Notes de cours d’économétrie appliquée Commandes de Base Stata

Note : si on rejette l’homoscédasticité on a aucune idée de la forme prise par l’hétéroscédasticité Alors que l’avantage du test de White est de ne pas devoir spécifier les variables que l’on soupçonne être à l’origine du problème d’hétéroscédasticité on n’a pas de

Qu'est-ce que la régression homoscédastique ?

Un modèle de régression statistique de plusieurs variables indépendantes est appelé homoscédastique, uniquement si la variance de l'erreur de la variable prédite (ou l'écart type de la variable dépendante) reste uniforme pour différents groupes de valeurs des variables explicatives ou indépendantes.

Comment mesurer l’homoscédasticité des résidus ?

Des résidus également répartis sur la ligne horizontale indiquent l’homoscédasticité des résidus. Tracé résiduel vs effet de levier / Tracé de la distance de Cook : Le 4e point est le tracé de la distance du cuisinier, qui est utilisé pour mesurer l’influence des différents tracés.

Comment vérifier la linéarité et l’homoscédasticité d’un modèle ?

Ce tracé est utilisé pour vérifier la linéarité et l’homoscédasticité, si le modèle remplit la condition de relation linéaire, il devrait avoir une ligne horizontale avec beaucoup de déviation. Si le modèle satisfait à la condition d’homoscédasticité, le graphique doit être également réparti autour de la ligne y = 0.

Comment estimer la présence d’homoscédasticité ?

La présence d’homoscédasticité peut être estimée à l’aide de graphiques tels que le graphique Scale Location et le graphique Residual vs Legacy. Les tracés ci-dessus peuvent être utilisés pour valider et tester les hypothèses ci-dessus font partie du diagnostic de régression.

Validation de modèles paramétriques

Atelier de formation A09

Plateforme de recherche clinique et évaluative

Anne -Sophie Julien, M.Sc., biostatistique rechclinique@crchudequebec.ulaval.ca

V181001

Objectifsd'apprentissage

1.Connaîtreles postulatset les sources de biais

des principalesanalyses statistiques paramétriques

2.Pouvoirvérifiersiles résultatsobtenuspar un

modèled'ANOVA, de régressionlinéaireou logistiquesontfiables 1

Plan de la présentation

1.Définitionset concepts

2.Postulats

3.Sources de biaisstatistique

4.Pouvoirprédictif

5.Exemplede validation d'uneANOVA

6.Exemplede validation d'unerégressionlinéaire

7.Exemplede validation d'unerégression

logistique 2

Validation de modèlesparamétriques

-Postulats Hypothèsesdu modèledoiventêtrerespectés -Sources de biais

Sélectionnon aléatoiredes sujets

Absence de randomisation

HypothèsesH0& H1mal spécifiées

Valeursinfluentes

Multicolinéarité

Donnéesmanquantes

Sélectionvariables & observations

-Pouvoirprédictifdu modèle

Pouvoirexplicatifdes variables explicatives

Validation des prédictions

Validation croisée

Sans validation, la

conclusion d'une analyse pourrait

êtreerronnée!

Résidus

Résidu ordinaire: ݁

Oùܻ

valeurobservéeet ෠ܻ = valeurprédite

Bon modèle: Résidustousprèsde 0

Résidustudentisé: ݁

divisépar son écart-type Ramèneles résidussuruneéchelleconnue: scores Z 4

Section 1:

Postulats

Fréquemmentrencontrés:

Normalitédes résidus

Homoscédasticitédes résidus(variances égales)

Linéarité

Indépendance(absence d'auto-corrélation) 6

Normalitédes résidus

Les modèlessupposentqueles résidussuiventunedistribution normalede moyenne0 et de variance ߪ

(homoscédasticité) Analyses robustesà unelégèredéviationde la normalité Test T, ANOVA, Régressionlinéaire, et plusieursautres Validation graphique, par des statistiquesoudes tests 7

Normalitédes résidus

Vérificationgraphique

•Diagrammesà moustaches (symétrique, moyenne = médiane, peude valeursinfluentes, moustaches plus longuesquela boîte) •Histogramme(cloche) •QQ Plot / Droitede Henry (points surla diagonale) 8

Normalitédes résidus

Vérificationgraphique

Normalitédes résidus

Statistiqueset Tests

•Coefficient d'asymétrie ("Skewness») •Coefficient d'aplatissement ("Kurtosis») •Tests de normalité (Shapiro-Wilk, Kolmogorov-Smirnov) •H 0 : Distribution normale •H 1 : Distribution pas normale •On ne veut pas rejeter l'hypothèse nulle *Regarder plusieurs critères avant de prendre une décision* 10

Normalité

respectée si valeurs entre

1 et 1

Normalitédes résidus

Sources de non normalité

•Donnéesnon continues, ordinales, qui manquent de variabilité •Distribution asymétrique •Hétéroscédasticité •Concentrations logarithmiques

Impact

•Estimation biaisée 11

Normalitédes résidus

Solutions

•Transformation de Box-Cox pour Y •Exemple: concentrations -> log •Éliminer des données aberrantes (lorsque kurtosis

élevé)

•Analyses pour données ordinales (lorsque asymétrie et manque de variabilité) •Valider les résultats avec une analyse non paramétrique (lorsque possible) 12

Homogénéitédes variances

Les modèlessupposentqueles résidussuiventunedistribution normalede moyenne0 et de variance ߪ

(homoscédasticité)

Lorsquela variance des résidusdiffèreselonles groupesoula valeurde Y, ily a hétéroscédasticité

Test T, ANOVA, Régressionlinéaire& logistique, et plusieursautres

Validation graphiqueoupar des tests

Homogénéitédes variances

Vérificationgraphique

•Graphiquedes résidusstudentisésenfonctiondes valeursprédites •Pas de problèmesi: •Valeursentre [-3,3], limitesà 99% d'uneloinormale •Valeursaléatoiresenformede rectangle •Positifset négatifs •Problèmesi: •Variabilitédes résidusdiffèreselonla valeurprédite •Formed'entonnoir •Touspositifsounégatifs 14

Homogénéitédes variances

ANOVA / TestTRégressionlinéaire

Homoscédasticité

Hétéroscédasticité

Homogénéitédes variances

Test de Levene

•H 0 : Les variances sontégales •H 1 : Les variances sontinégales •On ne veutpas rejeterl'hypothèsenulle •Si P > 0,01 -> Ok, variances égales •Si P <= 0,01 -> Les variances sontinégales •Utiliser 0,01 plutôtque0,05: ne pas se casserla tête si le problèmen'estpas sévère 16

Homogénéitédes variances

Sources d'hétéroscédasticité

•Groupeplus variable qu'unautre(anova+ test T) •Donnéesaberrantes •Non normalité •Précisionvarieselonle Y

Impact

•Erreurs-type, intervallede confiance, significativité erronés 17

Homogénéitédes variances

Solutions à l'hétéroscédasticité

•Transformation de Box Cox •Régressionpondérée •Modèlesmixtes

NB: L'analysenon paramétriquen'estpas une

solution (Wilcoxon et Kruskall-Wallis supposent aussil'homogénéité) 18

Linéarité

Le modèlede régressionlinéairesuppose qu'ilexisteunerelation linéaireentre VD et VI

Le modèlede régressionlogistiquesuppose unerelation linéaireentre le logit de la probabilitéde succès(ʋ) et la VI

log Si la relation n'estpas linéaire, le modèlene sera pas un bon indicateurde la relation Vérificationgraphiqueoupar test d'ajoutde termesde degréssupérieurs 19

Linéarité

Vérificationgraphique

•Graphiquedes résidusenfonctiondes valeurs prédites •Pas de problèmesi: •Valeursentre [-3,3], limitesà 99% d'uneloinormale •Valeursaléatoiresdansle rectangle •Problèmessi: •Valeurssituéessurunecourbe 20

Linéarité

Linéaire

Non Linéaire

Linéarité

Sources de non linéarité

•Relation de degrésupérieur(quadratique, cubique, etc.) •Formeexponentielleoulogarithmique •Présenced'interactions

Impact

•Mauvaisecaractérisationde la relation, estimation biaisée 22

Linéarité

Solutions

•Ajouterdes termesde degréssupérieurs, des interactions •Transformation de Box-Cox pour la VD •Autrefamillede modèle 23

Non corrélationdes résidus

Les modèlessupposentqueles résidusne sontpas corrélés: ܥ A =0,്݆݅ Lorsquecen'estpas le cas, ily a auto-corrélation, oudépendanceentre les observations

Supposéepar tousles modèlesprésentésdansl'atelier2, saufles analyses pour donnéespairées(Mc Nemar, T Pairé, Wilcoxon rangssignés)

Vérificationgraphiqueoupar test

Non corrélationdes résidus

Vérificationgraphique

•Graphiquedes résidusenfonctiondes numéros d'observations •Pas de problèmesi: •Résidusnégatifssuivispar des résiduspositifs •Problèmesi: •Résidusnégatifssuccèdentà plusieursrésidusnégatifs et vice versa 25

Non corrélationdes résidus

Présenced'auto-corrélation

Absence d'auto-corrélation

Auto-corrélationdes résidus

Test de Durbin Watson

•0 <= D-W <= 4 •Prèsde 0: Autocorrélationpositive •Supérieurà 2: Autocorrélationnégative •Attention siD-W <1 •Tests et tables disponiblespour obtenirunevaleurp 27

Non corrélationdes résidus

Sources d'auto-corrélation

•Dépendancespatielleoutemporelleentre les observations la collecte

Impact

•Mauvaiseestimation de la variance, largeurde l'intervallede confiance, significativitéerronée 28

Auto-corrélationdes résidus

Solutions

•Ajouterunevariable explicative pour expliquerla dépendance •Modèlemixte •Modèlepour sérieschronologiques 29

Section 2:

Sources de biais statistique

Valeursinfluentes

Valeuraberrante

Observations ayant

unecombinaisonde valeurs(VI, VD) très différentedu reste des observations -> impact légerLevier

Observation ayant

unevaleurde VI loin de la moyennedes VI -> impact légerValeur influente

Observation avec levier et

valeur VD différente des autres avec même VI -> impact sur paramètres estimés et prédiction

Valeursinfluentes

Statistiques

Levier (LEV): Distance avec le centre des VI

Résidus studentiséssupprimés (SDR): Résidu basé sur l'échantillon sans la i e valeur DFFITS (DFF): Influence sur la valeur prédite

Distance de Cook (COO) et DFBETAS (DFB_): Influence sur l'estimation des coefficients de régression

COVRATIO (COV): Influence sur la variance des estimateurs 32

Valeursinfluentes

Identification

LEV se démarquant des autres

SDRse démarquant ou en dehors de [-3, 3].

DFFse démarquant ou en dehors de [-2,2].

COOse démarquant ou supérieur à 4/n

DFB_se démarquant ou supérieur à 2/racine(n) en valeur absolue COVprès de 0 ou très élevés, entre autres ceux inférieurs à 1-

3p/n et ceux supérieurs à 1+3p/n, où p

= # paramètres dans le modèle *Regarder plusieurs critères avant de prendre une décision* 33

Valeursinfluentes

Solutions

•Corrigerla valeurs'ils'agitd'erreurde saisie •Supprimerl'observationsiellene fait pas partie de la population cible •Analyse de sensibilité(avec et sans l'observation) siellefait partiede la population cible 34

Multicolinéarité

Problèmesurvenantlorsquedes observations

apportentde l'informationredondante, lorsqu'unedes VI estobtenuepar une combinaisonlinéairedes autresVI Impact surles variances, la sélectionde variables, les variables significatives 35

Multicolinéarité

36
Z ZZ Z

Multicolinéarité

Vérification

•Tolérance •% de variation d'uneVI qui n'estpas expliquépar les autresVI •Valeurssupérieuresà 10% -> ok •Facteurd'inflationde variance •VIF = 1/TOL = 1 / (1-ܴ •Coefficient multipliantla variance de ɴ •Valeursinférieuresà 10 -> ok •Index de condition •Valeursinférieuresà 30 -> ok •Proportion de variance •Proportion de variance de ɴexpliquépar la dépendancelinéaire •Les variables problématiquesontun PV > 60% surla lignede CI >30 37

Multicolinéarité

Solutions

•Supprimerunedes variables problématiques •Combiner les variables problématiques •Transformation non-linéaired'unedes variables •Autreméthoded'estimation 38

Donnéesmanquantes

Scénarios

•MCAR: Missing completely at random •MAR: Missing at random -> attention! •MNAR: Missing not at random -> danger!

Solutions(lorsqueconditions respectées)

•Imputation (plusieursméthodesexistent) •Méthoded'estimationplus complexe 39

Sélectiondes variables & observations

Variables confondantes

Omission de variables importantes

Observations non sélectionnéesaléatoirement ouabsence de randomisation aléatoire

Tailled'échantilloninsuffisante

Plan d'expérience(ouméthodede sélection) non incorporédansl'analyse

MauvaiseshypothèsesH0et H1

Section 3:

Pouvoir prédictif

Pouvoirprédictif(Rég. Linéaire)

Examiner résidusbruts: est-cequeles différencessont acceptables? R 2 = Coefficient de détermination -% de la variabilitéde VD expliquépar les VI -Prèsde 1: les VI sontdes bonsprédicteursde VD

Validation croisée, RMSE

Pouvoirprédictif(Rég. Logistique)

R 2 généralisé= Équivalentdu coefficient de détermination -N'estpas un % de variabilité -Plusieursformules: Cox & Snell, Nagelkerke, Tjur,

McFadden

-Le maximum n'estpas toujours1 -Utile pour comparer des modèles

Test d'ajustementde Hosmer& Lemeshow

-H 0 : Le modèles'ajustebienaux données -H 1 : Le modèles'ajustemal aux données -Grande valeurp souhaitée -Mauvaisajustement: ajouterdes interactions, degrés supérieurs, etc. 43

Pouvoirprédictif(Rég. Logistique)

CourbeROC

-Variable quantitative = Probabilitépréditepar le modèle -Variable d'état = VD -Impact de différentspoints de coupuresurla prédiction de VD -Airesous la courbe: 50% ->pas mieuxquele hazard.

100% -> trèsbon modèle

Classification des prédictions

-Choisirun point de coupurepour classifier les observations selonla probabilitéprédite -Tableau croiséavec la VD -% d'observationscorrectementclassées 44

Section 4:

Validation d'une ANOVA

quotesdbs_dbs17.pdfusesText_23

[PDF] homoscédasticité r

[PDF] homoscédasticité spss

[PDF] honeywell aerospace

[PDF] honeywell canada francais

[PDF] honeywell canada purificateur d'air

[PDF] honeywell canada thermostat

[PDF] honeywell distributeur quebec

[PDF] honeywell douchette

[PDF] honeywell francais

[PDF] honeywell france

[PDF] honeywell interrupteur programmable

[PDF] honeywell lyric

[PDF] honeywell montreal

[PDF] honeywell mougins

[PDF] honeywell products

[PDF] Unité de Recherche Clinique et Évaluative

Qu'est-ce que la régression homoscédastique ?

Comment mesurer l’homoscédasticité des résidus ?

Comment vérifier la linéarité et l’homoscédasticité d’un modèle ?

Comment estimer la présence d’homoscédasticité ?

Validation de modèles paramétriques

Atelier de formation A09

Plateforme de recherche clinique et évaluative

V181001

Objectifsd'apprentissage

1.Connaîtreles postulatset les sources de biais

2.Pouvoirvérifiersiles résultatsobtenuspar un

Plan de la présentation

1.Définitionset concepts

2.Postulats

3.Sources de biaisstatistique

4.Pouvoirprédictif

5.Exemplede validation d'uneANOVA

6.Exemplede validation d'unerégressionlinéaire

7.Exemplede validation d'unerégression

Validation de modèlesparamétriques

Sélectionnon aléatoiredes sujets

Absence de randomisation

HypothèsesH0& H1mal spécifiées

Valeursinfluentes

Multicolinéarité

Donnéesmanquantes

Sélectionvariables & observations

Pouvoirexplicatifdes variables explicatives

Validation des prédictions

Validation croisée

Sans validation, la

êtreerronnée!

Résidus

Résidu ordinaire: ݁

Oùܻ

Bon modèle: Résidustousprèsde 0

Résidustudentisé: ݁

Section 1:

Postulats

Postulats

Fréquemmentrencontrés:

Normalitédes résidus

Linéarité

Normalitédes résidus

Normalitédes résidus

Vérificationgraphique

Normalitédes résidus

Vérificationgraphique

Normalitédes résidus

Statistiqueset Tests

Normalité

1 et 1

Normalitédes résidus

Sources de non normalité

Impact

Normalitédes résidus

Solutions

élevé)

Homogénéitédes variances

Validation graphiqueoupar des tests

Homogénéitédes variances

Vérificationgraphique

Homogénéitédes variances

ANOVA / TestTRégressionlinéaire

Homoscédasticité

Hétéroscédasticité

Homogénéitédes variances

Test de Levene

Homogénéitédes variances

Sources d'hétéroscédasticité

Impact

Homogénéitédes variances

Solutions à l'hétéroscédasticité

NB: L'analysenon paramétriquen'estpas une

Linéarité

Linéarité

Vérificationgraphique

Linéarité

Linéaire

Sélectionnon aléatoiredes sujets

Absence de randomisation

HypothèsesH0& H1mal spécifiées

Valeursinfluentes

Multicolinéarité

Donnéesmanquantes

Sélectionvariables & observations

Pouvoirexplicatifdes variables explicatives

Validation des prédictions

Validation croisée

Résidu ordinaire: ݁

Oùܻ

Bon modèle: Résidustousprèsde 0

Résidustudentisé: ݁

Normalitédes résidus

Linéarité

Validation graphiqueoupar des tests

Vérificationgraphiqueoupar test

Levier (LEV): Distance avec le centre des VI

LEV se démarquant des autres

SDRse démarquant ou en dehors de [-3, 3].

DFFse démarquant ou en dehors de [-2,2].

COOse démarquant ou supérieur à 4/n

Problèmesurvenantlorsquedes observations