[PDF] Détection et traitement des valeurs extrêmes





Previous PDF Next PDF



Comment calculer la médiane dune série statistique ? Définition

Définition : La médiane d'une série statistique est un nombre tel qu'il y ait autant de valeurs inférieures ou égales à ce nombre que de valeurs supérieures ou 



Statistiques : moyenne médiane et étendue

La médiane d'une série statistique est le nombre qui partage cette série en deux parties de même effectif. Attention !!! Les valeurs du caractère doivent être 



Résumé du Cours de Statistique Descriptive

15 déc. 2010 Pouvoir appliquer les techniques de statistiques descriptives au moyen du language. R. – Références. Dodge Y.(2003) Premiers pas en statistique ...



Lanalyse des variables indépendantes continues et catégorielles

discutons différentes stratégies statistiques permettant d'analyser des plans expérimentaux médiane (participants 7 à 12) obtiennent un score de 2 et.



Cours de Statistiques niveau L1-L2

7 mai 2018 la répartition statistique d'une variable au sein de la population est souvent voisine de modèles mathématiques proposés par le calcul des ...



Détection et traitement des valeurs extrêmes

protocoles mis en oeuvre par les instituts de statistique pour assurer la estimateur robuste (par exemple la médiane) et l'écart-type par un.



Les statistiques : le pouvoir des données!

Plusieurs exemples d'information statistique produite à Statistique Canada seront présentés à la page suivante mais il est d'abord important de comprendre une 



Pour comprendre La mesure de la pauvreté

1 janv. 2012 Pour comprendre. ... L'Insee comme Eurostat (l'office statistique européen) et les ... niveau de vie médian de la population française.



Attention ! Ne pas confondre la moyenne et la médiane.

MATHS Ce que je dois savoir sur … Les statistiques à une variable 1GA 2. Page 1/2. 1) Les indicateurs statistiques . 1.1) Les indicateurs de tendance



Apprentissage des statistiques avec Jamovi

28 oct. 2019 philosophie du projet Ontostats1 que je mène avec quelques collègues (Ces clés sont les ... Rien de tout cela ne relève de la statistique ...

Détection et traitement des

valeurs extrêmes

COURS 12

1

1)Définitions

2)Motivation

Les valeurs extrêmes ont-ells une importance?

3)Détection

Comment détecter les valeurs extrêmes?

4)Traitement

Comment prendre en compte les valeurs extremes?

2

Préambule

Les suggestions partagées dans ce cours ne se substituent pas aux protocoles mis en oeuvre par les instituts de statistique pour assurer la qualité des données Elles sont censées offrir d'offrir des garanties supplémentaires une fois les vérifications "de routine" effectuées Utiles tant pour les analystesque pour les producteurs de données 3

Définitions

4

Une valeur extrême (outlier) est une

notoirement des autres éléments de (Grubbs, 1969)

Remarque: On se

concentre sur les valeurs extrêmes univariées, celles trouvées quand on regarde la distribution des valeurs dans une seule dimension (Ex: revenu).

Nous utilisons Venise

comme illustration

Plus haut niveau de la mer à Venise

7

Quelles sont les causes des valeurs extrêmes?

Erreurs humaines, ex: Erreurs de saisie

Erreurs de traitement des données, ex: Manipulation des données sources les données 8

Un dilemme

observations

Le challenge est double:

1.pour déterminer si une valeur extrême est bonne (authentique) ou mauvaise

(erreur)

2.pour évaluer son impact sur les statistiques d'intérêt

9

Les valeurs extrêmes ont-elles

une importance? 10

Trois papiers:

I.1996a

Frank Cowell et Maria-Pia Victoria-Feser

II.2007

Frank Cowell et Emmanuel Flachaire(*)

III.1996b

Frank Cowell et Maria-Pia Victoria-Feser

Cowell et Victoria-Feser(1996a)

Explique pourquoi les valeurs extrêmes

(bruits) sont de sérieuses menacespour de l'échantillon, alors toutes les mesures indépendantes de l'échelle ou de la traduction et décomposables ont une une catastrophe. catastrophe?

La fonction IFest une mesure du biaisde

extrêmes. que le biais peut être infiniment grand.

être infiniment grand, alors les valeurs

extrêmes sont une prioritépour les producteurs et les utilisateurs de données. 15

En pratique

Hlasny et Verme (2018: 191)

De nombreux chercheurs éliminentrégulièrement les observations aberrantes ou problématiques ou appliquent un codage de haut niveausans tenir compte des implications pour la mesure de l'inégalité

Un exemple pour illustrer

16

Elimination itérative

84%
74%
72%

1 % des valeurs

extrêmes vaut 10 de Gini

Valeurs extrêmes et mesures de la pauvreté

Cowell et Victoria-Feser(1996b)

Explique pourquoi les valeurs

extrêmessont rarementde sérieuses menacespour la plupart des mesures de la pauvreté.

Les mesures de la pauvreté ne

sont pas sensibles aux valeurs (réelles ou contaminées) des revenus des riches

Récapitulatif

La réponse à la question de savoir si les valeurs extrêmes ont un comptent (énormément). Ne pas tenir compte de cette question met en danger les comparaisons d'inégalités.

Pauvreté: pas tellement

Comment détecter les valeurs extrêmes?

22

Inspection visuelle

(Deaton et Tarozzi2005) ͞Nos procédures sont en partie graphiqueset en partie automatiques. Pour chaque élément, nous traçons des histogrammes et des graphiques à sens unique des logarithmes des valeurs unitaires, en utilisant chacun d'entre eux pour détecter la présence de valeurs aberrantes brutes en vue d'investigations ultérieures. [...] [La méthode automatique] ne supprime pas la nécessité de l'inspection graphique͟ 23

Inspection visuelle

Malawi IHS3, Dépenses relatives aux tubercules de manioc 24

Inspection visuelle

Malawi IHS3, Dépenses relatives aux tubercules de manioc 25

Inspection visuelle

Exemple1: Regard sur les statistiquesdescriptives

26

Inspection visuelle

Exemple2: Graphiquede la distribution des données 27

Inspection visuelle

28

Méthodes statistiques

extrêmes; En pratique, la plupart des méthodes utilisées dans les travaux empiriques dépendent de la distribution sous-jacente des données. transformerla variable pour induire la normalité fixer des seuilspour identifier les valeurs extrêmes Transformer la variable pour induire la normalité La transformation la plus simple consiste à prendre le logarithme de la variable Le logarithme "comprime" davantage les grandes valeurs, de sorte que les distributions aplaties deviennent plus symétriques et plus proches d'une distribution normale.

Définir un seuil

Règles des seuils communs : une observation est considérée comme une valeur extrême si elle est éloignée de plus de 2,5, 3, 3,5 écarts types de la moyenne de la distribution

En formule: ݔest une valeur extrême si

où ݖఈest égal à 2,5. On peut réécrire le même critère comme suit où le terme de gauche est appelé z-score (une variable avec une moyenne = 0 et une variance = 1) 31

Pourquoi 2,5, 3, 3,5, ou une autre valeur?

ݖఈൌʹǡͷimplique les valeurs extrêmes qui sont dans la region où ߙ pourcent des observations se situent normalement. 32

Deaton et Tarozzi(2005)

(2005) ont relevé des prix extrêmes dont les logarithmes dépassaient la moyenne des logarithmes de plus de 2,5

écarts types :

Transformation et seuils

Données brutes non transforméesDonnées transformées 0 .00005 .0001 .00015 .0002 .00025 kdensity pcexp

0500010000150002000025000x

0 .2 .4 .6 -505x

N(0,1)Std Box-Cox

Deux questions

1)Quelle est la qualité d'une telle approche?

2)Que faire après avoir repéré les valeurs extrêmes?

1)Quelle est la qualité d'une telle approche?

La log-transformation est très simple ʹex: Comment gérer les valeurs négatives? Non recommandé lorsque la distribution des logs ne peut être considérée comme normale Pourquoi devrions-nous fixer le seuil en utilisant la moyenneet l'écart-type, qui sont sensibles aux valeurs extrêmes, si c'est exactement ce qui nous préoccupe ?

On peut mieux faire

Une stratégie populaire

Robustesse

Bien qu'il n'y ait pas d'accord sur la meilleure méthode, une solution commune consiste à utiliser de solides mesures d'échelle et de localisationpour fixer le seuil de signalement des valeurs aberrantes l'idée est de remplacer la moyenne de l'échantillonҧݔpar un (EAM). 39

Robustesse du z-score

b = 1,4826 sila distribution est Gaussienne

Nous pouvons mieux faire

Rousseeuw et Croux (1993, JASA)

Rousseeuw et Croux (1993)

estimateur différent : Pour chaque ݆ǡon calcule la médiane de୨െ୧(ൌͳǡǥǡ݊). On obtient ainsi les chiffres de ݊, dont la médiane donne notre estimation finale.

Récapitulatif

2.Tester la robustesse du z-score est une meilleure pratique.

éléments

Prendre le log et travailler vs. z-scores robustes 44

PaysAnnéeValeursextrêmes(%)

Seuil= 3log-transformationz-scores robustes

GlobalGaucheDroiteGlobalGaucheDroite

(1)(2)(3)(4)(5)(6)

Malawi20170,750,140,610,300,220,08

Nigeria20121,350,111,240,720,320,40

India20121,390,031,360,620,130,49

Pakistan20141,580,021,560,390,210,18

Guatemala20141,140,061,080,610,150,46

Peru20150,360,090,270,280,160,12

Armenia20130,910,080,830,680,170,51

Georgia20150,750,250,500,730,320,41

45

PaysAnnéeIndicede Gini

Seuil= 3

BrutDécoupage(log)Découpage(Meil.)

(7)(8)(9)

Malawi201740.634.836.6

Nigeria201243.736.738.2

India201239.536.237.6

Pakistan201432.930.032.3

Guatemala201437.234.735.9

Peru201536.836.036.3

Armenia201328.926.726.9

Georgia201537.135.435.6

Comment gérer les valeurs extrêmes?

(en une diapositive) 46

Traitement des valeurs extrêmes

Trois principales méthodes sont utilisées pour gérer les valeurs extrêmes, hormis leur suppression des données:

1)Réduire la pondération des valeurs extrêmes(pondération de césure)

2)Changer les valeursdes valeurs extrêmes (Winsorisation, Césure, imputation ʹpar

exemple via la régression quantile) Documentation, transparence et reproductibilité

Leçons apprises

et documenter chaque étape du traitement des données

Détection des valeurs extrêmes:

décrire les données avec une distribution gaussienne. Cependant, les distributions son en general

étalées.

Traitement des valeurs extrêmes: Cela dépend. La regression quantile est un bon candidat. 48

Bibliographie

Lecturesobligatoires

Data.3rdedition.J.Wiley&Sons(Chapter1&2)

Lecturesrecommandées

Econ.,Bus.Ind.Eng,8,3276-3280.

andWelfareMeasurement,mimeo.

JournalofEconometrics,141(2),1044-1072.

Review,40(9),1761-1771.

http://go.worldbank.org/4YG7I5RGT0.

UsingtheEUSILCData.Econometrics,6(2),30.

Wealth

88(424),1273-1283.

Merci pour votreattention

50

Exercices

51

Exercice1 ʹInterrogerla littérature

Résumerles principals conclusions

du papier: Les valeursextrêmes ont-ells uneimportance? Pourquoi ouPourquoipas? 52

Anglais

1)Générerunedistribution de

richesse log-normale

3)Contaminerla distribution avec

quelquesvaleursextrêmes

Commenter le tableau 7.3 du rapport de

ů'(2013) p.172 (Voirslide suivante).

Que pouvez-vousdire de la sensibilitédes

desestimateursau traitementdes valeurs extremes? 57

OECD (2013)

58
quotesdbs_dbs46.pdfusesText_46
[PDF] les statistique niveau 3e

[PDF] les Statistique s

[PDF] Les statistiques

[PDF] les statistiques !

[PDF] les statistiques ! urgent

[PDF] les statistiques ( calculer le 1er et le 3ème quartiles )

[PDF] Les statistiques ( même exercice )

[PDF] Les Statistiques (DM)

[PDF] Les Statistiques (médianes, moyennes)

[PDF] Les statistiques (moyenne ect )

[PDF] les statistiques ,et effectif

[PDF] Les statistiques 3éme (Merci de bien vouloirs m'aider ;s

[PDF] les statistiques 3eme cours

[PDF] Les statistiques : caractère quantitatif discret

[PDF] Les statistiques : comparaison de moyenne et d'écart-type