Comment calculer la médiane dune série statistique ? Définition
Définition : La médiane d'une série statistique est un nombre tel qu'il y ait autant de valeurs inférieures ou égales à ce nombre que de valeurs supérieures ou
Statistiques : moyenne médiane et étendue
La médiane d'une série statistique est le nombre qui partage cette série en deux parties de même effectif. Attention !!! Les valeurs du caractère doivent être
Résumé du Cours de Statistique Descriptive
15 déc. 2010 Pouvoir appliquer les techniques de statistiques descriptives au moyen du language. R. – Références. Dodge Y.(2003) Premiers pas en statistique ...
Lanalyse des variables indépendantes continues et catégorielles
discutons différentes stratégies statistiques permettant d'analyser des plans expérimentaux médiane (participants 7 à 12) obtiennent un score de 2 et.
Cours de Statistiques niveau L1-L2
7 mai 2018 la répartition statistique d'une variable au sein de la population est souvent voisine de modèles mathématiques proposés par le calcul des ...
Détection et traitement des valeurs extrêmes
protocoles mis en oeuvre par les instituts de statistique pour assurer la estimateur robuste (par exemple la médiane) et l'écart-type par un.
Les statistiques : le pouvoir des données!
Plusieurs exemples d'information statistique produite à Statistique Canada seront présentés à la page suivante mais il est d'abord important de comprendre une
Pour comprendre La mesure de la pauvreté
1 janv. 2012 Pour comprendre. ... L'Insee comme Eurostat (l'office statistique européen) et les ... niveau de vie médian de la population française.
Attention ! Ne pas confondre la moyenne et la médiane.
MATHS Ce que je dois savoir sur … Les statistiques à une variable 1GA 2. Page 1/2. 1) Les indicateurs statistiques . 1.1) Les indicateurs de tendance
Apprentissage des statistiques avec Jamovi
28 oct. 2019 philosophie du projet Ontostats1 que je mène avec quelques collègues (Ces clés sont les ... Rien de tout cela ne relève de la statistique ...
Détection et traitement des
valeurs extrêmesCOURS 12
11)Définitions
2)Motivation
Les valeurs extrêmes ont-ells une importance?
3)Détection
Comment détecter les valeurs extrêmes?
4)Traitement
Comment prendre en compte les valeurs extremes?
2Préambule
Les suggestions partagées dans ce cours ne se substituent pas aux protocoles mis en oeuvre par les instituts de statistique pour assurer la qualité des données Elles sont censées offrir d'offrir des garanties supplémentaires une fois les vérifications "de routine" effectuées Utiles tant pour les analystesque pour les producteurs de données 3Définitions
4Une valeur extrême (outlier) est une
notoirement des autres éléments de (Grubbs, 1969)Remarque: On se
concentre sur les valeurs extrêmes univariées, celles trouvées quand on regarde la distribution des valeurs dans une seule dimension (Ex: revenu).Nous utilisons Venise
comme illustrationPlus haut niveau de la mer à Venise
7Quelles sont les causes des valeurs extrêmes?
Erreurs humaines, ex: Erreurs de saisie
Erreurs de traitement des données, ex: Manipulation des données sources les données 8Un dilemme
observationsLe challenge est double:
1.pour déterminer si une valeur extrême est bonne (authentique) ou mauvaise
(erreur)2.pour évaluer son impact sur les statistiques d'intérêt
9Les valeurs extrêmes ont-elles
une importance? 10Trois papiers:
I.1996a
Frank Cowell et Maria-Pia Victoria-Feser
II.2007
Frank Cowell et Emmanuel Flachaire(*)
III.1996b
Frank Cowell et Maria-Pia Victoria-Feser
Cowell et Victoria-Feser(1996a)
Explique pourquoi les valeurs extrêmes
(bruits) sont de sérieuses menacespour de l'échantillon, alors toutes les mesures indépendantes de l'échelle ou de la traduction et décomposables ont une une catastrophe. catastrophe?La fonction IFest une mesure du biaisde
extrêmes. que le biais peut être infiniment grand.être infiniment grand, alors les valeurs
extrêmes sont une prioritépour les producteurs et les utilisateurs de données. 15En pratique
Hlasny et Verme (2018: 191)
De nombreux chercheurs éliminentrégulièrement les observations aberrantes ou problématiques ou appliquent un codage de haut niveausans tenir compte des implications pour la mesure de l'inégalitéUn exemple pour illustrer
16Elimination itérative
84%74%
72%
1 % des valeurs
extrêmes vaut 10 de GiniValeurs extrêmes et mesures de la pauvreté
Cowell et Victoria-Feser(1996b)
Explique pourquoi les valeurs
extrêmessont rarementde sérieuses menacespour la plupart des mesures de la pauvreté.Les mesures de la pauvreté ne
sont pas sensibles aux valeurs (réelles ou contaminées) des revenus des richesRécapitulatif
La réponse à la question de savoir si les valeurs extrêmes ont un comptent (énormément). Ne pas tenir compte de cette question met en danger les comparaisons d'inégalités.Pauvreté: pas tellement
Comment détecter les valeurs extrêmes?
22Inspection visuelle
(Deaton et Tarozzi2005) ͞Nos procédures sont en partie graphiqueset en partie automatiques. Pour chaque élément, nous traçons des histogrammes et des graphiques à sens unique des logarithmes des valeurs unitaires, en utilisant chacun d'entre eux pour détecter la présence de valeurs aberrantes brutes en vue d'investigations ultérieures. [...] [La méthode automatique] ne supprime pas la nécessité de l'inspection graphique͟ 23Inspection visuelle
Malawi IHS3, Dépenses relatives aux tubercules de manioc 24Inspection visuelle
Malawi IHS3, Dépenses relatives aux tubercules de manioc 25Inspection visuelle
Exemple1: Regard sur les statistiquesdescriptives
26Inspection visuelle
Exemple2: Graphiquede la distribution des données 27Inspection visuelle
28Méthodes statistiques
extrêmes; En pratique, la plupart des méthodes utilisées dans les travaux empiriques dépendent de la distribution sous-jacente des données. transformerla variable pour induire la normalité fixer des seuilspour identifier les valeurs extrêmes Transformer la variable pour induire la normalité La transformation la plus simple consiste à prendre le logarithme de la variable Le logarithme "comprime" davantage les grandes valeurs, de sorte que les distributions aplaties deviennent plus symétriques et plus proches d'une distribution normale.Définir un seuil
Règles des seuils communs : une observation est considérée comme une valeur extrême si elle est éloignée de plus de 2,5, 3, 3,5 écarts types de la moyenne de la distributionEn formule: ݔest une valeur extrême si
où ݖఈest égal à 2,5. On peut réécrire le même critère comme suit où le terme de gauche est appelé z-score (une variable avec une moyenne = 0 et une variance = 1) 31Pourquoi 2,5, 3, 3,5, ou une autre valeur?
ݖఈൌʹǡͷimplique les valeurs extrêmes qui sont dans la region où ߙ pourcent des observations se situent normalement. 32Deaton et Tarozzi(2005)
(2005) ont relevé des prix extrêmes dont les logarithmes dépassaient la moyenne des logarithmes de plus de 2,5écarts types :
Transformation et seuils
Données brutes non transforméesDonnées transformées 0 .00005 .0001 .00015 .0002 .00025 kdensity pcexp0500010000150002000025000x
0 .2 .4 .6 -505xN(0,1)Std Box-Cox
Deux questions
1)Quelle est la qualité d'une telle approche?
2)Que faire après avoir repéré les valeurs extrêmes?
1)Quelle est la qualité d'une telle approche?
La log-transformation est très simple ʹex: Comment gérer les valeurs négatives? Non recommandé lorsque la distribution des logs ne peut être considérée comme normale Pourquoi devrions-nous fixer le seuil en utilisant la moyenneet l'écart-type, qui sont sensibles aux valeurs extrêmes, si c'est exactement ce qui nous préoccupe ?On peut mieux faire
Une stratégie populaire
Robustesse
Bien qu'il n'y ait pas d'accord sur la meilleure méthode, une solution commune consiste à utiliser de solides mesures d'échelle et de localisationpour fixer le seuil de signalement des valeurs aberrantes l'idée est de remplacer la moyenne de l'échantillonҧݔpar un (EAM). 39Robustesse du z-score
b = 1,4826 sila distribution est GaussienneNous pouvons mieux faire
Rousseeuw et Croux (1993, JASA)
Rousseeuw et Croux (1993)
estimateur différent : Pour chaque ݆ǡon calcule la médiane de୨െ୧(ൌͳǡǥǡ݊). On obtient ainsi les chiffres de ݊, dont la médiane donne notre estimation finale.Récapitulatif
2.Tester la robustesse du z-score est une meilleure pratique.
éléments
Prendre le log et travailler vs. z-scores robustes 44PaysAnnéeValeursextrêmes(%)
Seuil= 3log-transformationz-scores robustes
GlobalGaucheDroiteGlobalGaucheDroite
(1)(2)(3)(4)(5)(6)Malawi20170,750,140,610,300,220,08
Nigeria20121,350,111,240,720,320,40
India20121,390,031,360,620,130,49
Pakistan20141,580,021,560,390,210,18
Guatemala20141,140,061,080,610,150,46
Peru20150,360,090,270,280,160,12
Armenia20130,910,080,830,680,170,51
Georgia20150,750,250,500,730,320,41
45PaysAnnéeIndicede Gini
Seuil= 3
BrutDécoupage(log)Découpage(Meil.)
(7)(8)(9)Malawi201740.634.836.6
Nigeria201243.736.738.2
India201239.536.237.6
Pakistan201432.930.032.3
Guatemala201437.234.735.9
Peru201536.836.036.3
Armenia201328.926.726.9
Georgia201537.135.435.6
Comment gérer les valeurs extrêmes?
(en une diapositive) 46Traitement des valeurs extrêmes
Trois principales méthodes sont utilisées pour gérer les valeurs extrêmes, hormis leur suppression des données:1)Réduire la pondération des valeurs extrêmes(pondération de césure)
2)Changer les valeursdes valeurs extrêmes (Winsorisation, Césure, imputation ʹpar
exemple via la régression quantile) Documentation, transparence et reproductibilitéLeçons apprises
et documenter chaque étape du traitement des donnéesDétection des valeurs extrêmes:
décrire les données avec une distribution gaussienne. Cependant, les distributions son en general
étalées.
Traitement des valeurs extrêmes: Cela dépend. La regression quantile est un bon candidat. 48Bibliographie
Lecturesobligatoires
Data.3rdedition.J.Wiley&Sons(Chapter1&2)
Lecturesrecommandées
Econ.,Bus.Ind.Eng,8,3276-3280.
andWelfareMeasurement,mimeo.JournalofEconometrics,141(2),1044-1072.
Review,40(9),1761-1771.
http://go.worldbank.org/4YG7I5RGT0.UsingtheEUSILCData.Econometrics,6(2),30.
Wealth
88(424),1273-1283.
Merci pour votreattention
50Exercices
51Exercice1 ʹInterrogerla littérature
Résumerles principals conclusions
du papier: Les valeursextrêmes ont-ells uneimportance? Pourquoi ouPourquoipas? 52Anglais
1)Générerunedistribution de
richesse log-normale3)Contaminerla distribution avec
quelquesvaleursextrêmesCommenter le tableau 7.3 du rapport de
ů'(2013) p.172 (Voirslide suivante).
Que pouvez-vousdire de la sensibilitédes
desestimateursau traitementdes valeurs extremes? 57OECD (2013)
58quotesdbs_dbs46.pdfusesText_46
[PDF] les Statistique s
[PDF] Les statistiques
[PDF] les statistiques !
[PDF] les statistiques ! urgent
[PDF] les statistiques ( calculer le 1er et le 3ème quartiles )
[PDF] Les statistiques ( même exercice )
[PDF] Les Statistiques (DM)
[PDF] Les Statistiques (médianes, moyennes)
[PDF] Les statistiques (moyenne ect )
[PDF] les statistiques ,et effectif
[PDF] Les statistiques 3éme (Merci de bien vouloirs m'aider ;s
[PDF] les statistiques 3eme cours
[PDF] Les statistiques : caractère quantitatif discret
[PDF] Les statistiques : comparaison de moyenne et d'écart-type