[PDF] La correction de la non-réponse par repondération ». Insee





Previous PDF Next PDF



Corrigé du baccalauréat S Amérique du Sud 24 novembre 2015

24 nov. 2015 u(x)dx = f (4)? f (1). On en déduit que A = f (1)? f (4) = ?3?(3?5ln4) = 5ln4?6 unité d'aire. 2. Pour tout réel ? supérieur ou égal à ...



CALCULS dAIRES Correction

CALCULS d'AIRES. Correction. 1 2 – 3 – 1. 11 A = 42 cm². 2 A = 32 carreaux. 12 A = 40 cm². 3 A = 24 carreaux. 13 A = 31 cm². 4 A = 25 cm².



CALCULS dAIRES Correction

CALCULS d'AIRES ?. Correction. 1 1 – 2 – 3. 11 A = 28 carreaux. 2 2 – 3 – 1. 12 Voir avec la maitresse. 3 A = 32 carreaux. 13 A figure 2 = 30 cm².



La correction de la non-réponse par repondération ». Insee

Les enquêtes de la statistique publique sont réalisées sur des parties de la population totale des ménages ou des entreprises appelées échantillons



Corrigé du brevet des collèges Pondichéry 28 avril 2015

28 avr. 2015 Ce qui veut dire que l'on ne pas répartir les 2 530 poissons dans 19 paquets (il eh reste 3). 2. Le plus grand nombre de paquets qu'il peut ...



Insee

L'estimateur du taux de chômage 1 calculé sur les répondants sur-estimera le taux de chômage dans la population. Les différentes méthodes de correction de la 



NET ET PRÉCIS

Par un matin brumeux le peintre installe sa toile immaculée sur son chevalet portable. Il sort ses pinceaux fins et commence à peindre le décor majestueux.



STI2D_ETT - CORRIGE - Bornes VE_v28jan.1

L'émergence des VE rend indispensable la mise en place d'un réseau de distribution intelligent pour les raisons suivantes :.



NATUROMO

arbre petit des finir il mais et jamais. 2 Un mot a toujours la même nature quelle que soit sa place dans la phrase. Je peux remplacer un mot par un autre 



éduSCOL

Question 1. À l'aide du diagramme d'exigences du récipient (document 1) préciser celle des contraintes à respecter qui est liée au design.

La correction de la non-r

´eponse par repond´eration

Thomas Deroyon

R ´esum´e-L"objectif de cette note m´ethodologique est de d ´ecrire de fac¸on rapide le principe de la correction de la non- r ´eponse par repond´eration et les m´ethodes les plus fr´equemment utilis

´ees pour la mettre en oeuvre.

I. RAPPELS SUR LES SONDAGES AL´EATOIRES

Les enqu

ˆetes de la statistique publique sont r´ealis´ees sur des parties de la population totale des m

´enages

ou des entreprises, appel

´ees´echantillons, s´electionn´ees

al ´eatoirement. Cette m´ethode pr´esente en effet de bonnes propri ´et´es statistiques. Elle consiste`a associer`a chaque partie sde la population une probabilit´ep(s)d"ˆetre s´electionn´ee, et de choisir la partie de la population qui sera interrog

´ee en

respectant ces probabilit

´es. Le plan de sondage ainsi d´efini

conduit `a associer`a chaque individuide la population une probabilit ´epid"ˆetre interrog´e, appel´ee probabilit´e d"inclusion. Dans ce cadre, si l"on souhaite estimer le total sur la po- pulationUd"une variable d"int´erˆety`a partir de l"´echantillon interrog ´eS, alors l"estimateur par expansion classique, appel´e egalement estimateur de Sen-Horvitz-Thompson, d´efini par

YS=å

i2Sy ip i(1) est un estimateur sans biais sous le plan de sondage. Cela veut dire que sa moyenne sur l"ensemble des

´echantillons

possibles, pond ´er´ee par leur probabilit´e d"ˆetre choisis, sUp(s)ˆYs, est´egale au vrai total deysur la population i2Uyi. De plus, la variance de l"estimateur sous le plan de son- dage, åsUp(s)[ˆYsåi2Uyi]2peutˆetre estim´ee`a partir des donn ´ees disponibles sur l"´echantillonS, plus ou moins ais ´ement suivant la complexit´e du plan de sondage. II. LA NON-R´EPONSE:D´EFINITION ET CONS´EQUENCES A. D

´efinition

Un individu de l"

´echantillon est non-r´epondant s"il n"a pas et´e possible d"obtenir une information exploitable sur tout ou partie du questionnaire pour cet individu. Si l"ensemble du questionnaire ou une trop grande partie du questionnaire est inexploitable, l"individu est ennon-r´eponse totale: il n"a fourni aucune information r

´eellement utilisable. Si seules

certaines questions sont inexploitables, l"individu est ennon- r

´eponse partielle.

B. Baisse de la pr

´ecision

La variance des estimateurs calcul

´es sur des´echantillons

al ´eatoires est en g´en´eral inversement proportionnelle au nombre d"unit ´es disponibles dans l"´echantillon. Or, la non- r ´eponse fait baisser la taille de l"´echantillon exploitable et augmente de ce fait la variance des estimateurs. Ce probl `emepeut cependant ˆetre en partie trait´e en amont, en anticipant le taux de r ´eponse`a l"enquˆete et en augmentant la taille de l" ´echantillon s´electionn´e. De cette fac¸on, le nombre de r ´epondants`a l"enquˆete sera suffisant pour que les estimateurs satisfassent les objectifs ou les contraintes de pr

´ecision im-

pos

´ees`a l"enquˆete.

C. Biais d"estimation

Le deuxi

`eme probl`eme que pose la non-r´eponse est le plus important : l"estimateur par expansion calcul

´e sur les seuls

r

´epondantsR,åi2Ryip

i, est biais´e. Ce biais a deux origines : Id´efaut de couverture: la somme des poids de sondage 1p isur l"´echantillon est, en moyenne,´egale`a la taille de la populationU. La somme des poids des seuls r ´epondants est, par contre, toujours inf´erieure`a la taille de la population. Ceci tient au fait que chaque unit ´e de l"´echantillon repr´esente un certain nombre d"unit ´es de la population. La non-r´eponse entraˆıne ainsi qu"une partie de la population n"est pas repr

´esent´ee par

l"

´echantillon;

Ibiais de s´election: les r´epondants sont susceptibles de diff ´erer des non-r´epondants. Ainsi, dans une enquˆete comme l"enqu

ˆete sur l"emploi en continu qui a pour

but d"estimer le taux de ch

ˆomage, si les personnes

non-r

´epondantes sont plus souvent des personnes en

emploi, la part des ch

ˆomeurs parmi les r´epondants sera

sup ´erieure`a la part effective dans la population. L"esti- mateur du taux de ch

ˆomage1calcul´e sur les r´epondants

avec des poids non corrig

´es de la non-r´eponse sur-

estimera le taux de ch

ˆomage dans la population.

Les diff

´erentes m´ethodes de correction de la non-r´eponse ont pour but de limiter, voire supprimer, le biais qu"introduit la non-r ´eponse. Il existe deux principales familles de m´ethodes : Iles m´ethodes de r´epond´eration, d´ecrites dans la suite de cette note; Iles m´ethodes d"imputation, d´ecrites dans la note m ´ethodologique sur la correction de la non-r´eponse par imputation.

III. LA CORRECTION DE LA NON-R´EPONSE PAR

REPOND

´ERATION

A. Principe

Le principe de la correction de la non-r

´eponse par

repond ´eration (voir [2] et [9]) est d"augmenter les poids 1. d ´efini comme le nombre de chˆomeurs sur le nombre d"actifs,i.e.la somme du nombre de ch

ˆomeurs et du nombre de personnes en emploi.

©Insee

des r ´epondants pour compenser le biais introduit par les non-r ´epondants. Pour ce faire, la non-r´eponse est d´ecrite comme un ph ´enom`ene al´eatoire. Tout se passe comme si chaque unit ´e de l"´echantillon avait une certaine probabilit´e, inconnue et non nulle, de r

´epondre,ri. Ainsi, la s´election

des r ´epondants dans l"´echantillon peutˆetre vue comme une phase additionnelle du plan de sondage (voir figure 1). Les r ´epondants sont de fait s´electionn´es dans la population totale en deux ´etapes : la s´election de l"´echantillonSdans la populationU, suivant un plan de sondage connu et maˆıtris´e; puis la s ´election des r´epondants dans l"´echantillon, suivant un plan de sondage inconnu, que la r

´epond´eration a pour

objectif de d

´ecrire.PopulationUEchantillonSR

´epondantsRS

´election de

l"

´echantillonS

selon le plan de sondage initialS

´election al´eatoire

des r

´epondants

dans l"

´echantillon

Sselon un plan de

sondage inconnuFig. 1. La non-r ´eponse comme phase additionnelle du plan de sondage En effet, si l"on peut construire des estimateurs convergents des probabilit ´es de r´eponseˆri, l"estimateur corrig´e de la non- r

´eponse

YR=å

i2Ry ip iˆri(2) est un estimateur asymptotiquement

2sans biais sous le plan

de sondage du total deydans la population. Plusieurs m ´ethodes sont fr´equemment utilis´ees pour estimer les pro- babilit ´es de r´eponseri. Nous n"´evoquons dans la suite de cette note que les deux m

´ethodes les plus utilis´ees dans les

enqu ˆetes de la statistique publique en France : la m´ethode des groupes de r ´eponse homog`ene et le calage sur marges en une etape.

IV. LES GROUPES DE R´EPONSE HOMOG`ENE(GRH)

A. Principe

Dans cette m

´ethode (voir [3]), on suppose qu"il est

possible de d ´ecouper l"´echantillon en parties disjointes, appel ´ees groupes de r´eponse homog`ene, telles qu"`a l"int ´erieur de ces groupes, toutes les unit´es de l"´echantillon aient des comportements de r

´eponseind´ependants3et aient

la m

ˆeme probabilit´e de r´eponse.

2.i.e.quand les tailles de l"´echantillon et de la population tendent vers

l"infini. L"estimateur est de ce fait approximativement sans biais d `es que la population et l"

´echantillon sont de taille raisonnable.

3.i.e.le fait qu"une unit´e r´eponde n"a aucune incidence sur le compor-

tement de r ´eponse d"une autre unit´e du groupe.Dans chaque groupe, la probabilit

´e de r´eponse commune

est estim ´ee soit comme le nombre d"unit´es r´epondantes divis´e par le nombre total d"unit

´es de l"´echantillon appartenant au

groupe, soit comme la somme des poids de sondage 1=pides unit ´es r´epondantes divis´ee par la somme des poids des unit´es r ´epondantes ou non-r´epondantes appartenant au groupe. La m ´ethode des groupes de r´eponse homog`ene est souvent consid ´er´ee comme relativement robuste. En effet, l"estimateur corrig

´e de la non-r´eponse obtenu avec des

groupes de r ´eponse homog`ene peutˆetre approximativement sans biais m ˆeme si les hypoth`eses sur lesquelles repose la m ´ethode,i.e.que toutes les unit´es d"un mˆeme groupe ont la m ˆeme probabilit´e de r´eponse, est fausse. En effet, on peut montrer (voir [1]) que le biais de l"estimateur obtenu avec des GRH est nul si la corr

´elation,

dans chaque groupe, entre la variable d"int

´erˆet dont on

estime le total et la probabilit

´e de r´eponse des unit´es est

nulle. Enfin, chaque groupe doit contenir suffisamment d"unit

´es,

r ´epondantes ou non-r´epondantes, pour que la probabilit´e de r ´eponse commune soit estim´ee avec assez de pr´ecision. Il n"existe pas de r `egle autre qu"empirique concernant la taille minimale des groupes : on recommande en g

´en´eral que

chaque groupe contienne au moins 100 unit

´es, et d"´eviter dans

tous les cas les groupes contenant moins de 50 unit

´es.

B. Les m

´ethodes pour construire des groupes de r´eponse homog `ene

La propri

´et´e´evoqu´ee dans la section pr´ec´edente IV-A et d ´emontr´ee dans [1] guide les m´ethodes de construction des groupes de r

´eponse homog`ene. Ceux-ci doiventˆetre des

groupes dans lesquels soit la variable d"int

´erˆet est homog`ene,

soit la probabilit ´e de r´eponse des unit´es est proche, pour limiter la corr ´elation entre ces deux variables dans le groupe.

Comme les enqu

ˆetes ont de nombreuses variables d"int´erˆet, les GRH sont le plus souvent construits de mani `ere`a regrou- per des unit ´es dont les probabilit´es de r´eponse diff`erent peu.

Pour ce faire, de nombreuses m

´ethodes sont disponibles. Nous

nous limitons `a celles utilis´ees dans la statistique publique en

France :

a.Lam

´ethodeparcroisements

La m ´ethode consiste`a identifier dans un premier temps, les variables auxiliaires qualitatives

4disponibles au

niveau individuel pour les r

´epondants et les non-

r ´epondants5corr´el´ees au fait d"ˆetre r´epondant. Les

GRH sont constitu

´es en croisant les modalit´es de

ces variables. Ainsi, ils regroupent des unit

´es entre

lesquelles on ne peut plus mettre en

´evidence de

corr ´elation entre le fait d"ˆetre r´epondant et les variables auxiliaires disponibles. On suppose de ce fait qu"il n"y a pas non plus, dans ces groupes, de corr ´elation entre le comportement de r´eponse et les

4. Les variables auxiliaires continues, comme le revenu pour un m

´enage

ou le chiffre d"affaires pour une entreprise, doivent

ˆetre pr´ealablement

discr

´etis´ees.

5. Ces variables peuvent venir de la base de sondage, de fichiers

administratifs appari ´es avec la base de sondage. Il peut´egalement s"agir de paradonn

´ees d´ecrivant le processus de collecte.

©Insee

variables mesur

´ees dans l"enquˆete.

En pratique, les variables auxiliaires corr

´el´ees au com-

portement de r

´eponse sont identifi´ees`a l"aide d"une

premi `ere´etape de mod´elisation, par exemple par un mod `ele de r´egression logistique, qui permet de les classer de la plus `a la moins corr´el´ee. Les GRH sont ensuite construits it

´erativement, soit en croisant les mo-

dalit ´es de toutes les variables et en regroupant, quand les groupes ainsi obtenus sont de taille trop faible, les modalit

´es des variables les moins significativement

corr ´el´ees; soit`a l"inverse en d´ecoupant l"´echantillon suivant les modalit

´es de la variable auxiliaire la plus

significativement corr ´el´ee au fait d"ˆetre r´epondant, puis en d ´ecoupant it´erativement les groupes ainsi obtenus suivant les modalit

´es des autres variables par ordre d"in-

tensit ´e de la corr´elation avec le fait d"ˆetre r´epondant, tant que les groupes obtenus sont de taille suffisante.

L"algorithme CHAID (Chi-square Automatic Interac-

tion Detection, voir [6]) est assez proche de la m´ethode par croisements. Il consiste `a d´ecouper it´erativement l" ´echantillon en groupes sur la base des modalit´es de la variable auxiliaire la plus corr

´el´ee au fait d"ˆetre

r ´epondant, celle-ci´etant identifi´ee cette fois sur la base de tests de corr

´elation duc2.

g.Lam

´ethodedesquantiles

La m ´ethode des quantiles (voir [5]), comme la m´ethode de Haziza et Beaumont, sont des m

´ethodes des scores.

Ces m ´ethodes supposent deux´etapes. Dans un premier temps, on construit une estimation des probabilit

´es

de r ´eponseˆriviaun mod`ele de r´egression logistique expliquant le fait d"

ˆetre r´epondant par les variables

auxiliaires disponibles sur les r

´epondants et les non-

r ´epondants6. Les GRH sont ensuite constitu´es en re- groupant les unit

´es, r´epondantes ou non-r´epondantes,

dont les probabilit

´es de r´eponse estim´eesˆri, sont

proches.

Dans la m

´ethode des quantiles, les GRH sont construits

en se basant sur les quantiles de la distribution des probabilit ´es de r´eponse. Si l"on construit par exemple

10 GRH, le premier GRH est form

´e de l"ensemble des

unit ´es dont les probabilit´es de r´eponse estim´ees sont inf ´erieures au premier d´ecile de la distribution desˆri.

Le nombre de GRH peut

ˆetre d´etermin´e en fonction

de la taille souhait

´ee pour ceux-ci, ou sur la base

d"une proc ´edure analogue`a celle propos´ee par Haziza et Beaumont. d.Lam

´ethodedeHazizaetBeaumont

Les GRH sont construits (voir [7]) en appliquant un algorithme des centres mobiles, la distance entre unit

´es

etant d´efinie comme le carr´e de la diff´erence entre leurs probabilit ´es de r´eponse estim´ees. Le nombre de GRH est d ´etermin´e en l"augmentant progressivement et en s"arr

ˆetant au nombre le plus faible de GRH rendant

6. D"autres techniques, par exemple demachine learning, comme le

bagging, le boosting ou les for ˆets al´eatoires, peuvent´egalementˆetre utilis´ees pour estimer les ˆri.compte d"une partie suffisante de la dispersion des probabilit ´es de r´eponse estim´eesˆri. Plus pr´ecis´ement :

Ion construit d"abord deux GRH;

Ion estime ensuite la r´egression lin´eaire des proba- bilit ´e de r´eponse estim´eesˆrisur les indicatrices d"appartenance aux GRH; Isi le coefficient de d´etermination du mod`ele7est sup ´erieur`a un seuil fix´ea priori, par exemple de

95 % ou 99 %, alors le mod

`ele rend compte de

95 % ou 99 % de la dispersion des

ˆri. On s"arrˆete

donc `a deux GRH. A l"inverse, si leR2du mod`ele est inf

´erieur au seuil, on recommence le processus

avec trois GRH; Ion augmente le nombre de GRH jusqu"`a obtenir des GRH rendant compte d"une part de la dispersion des risup´erieure au seuil fix´ea priori.

Les points de d

´epart de l"algorithme peuventˆetre choi-

sis au hasard, ou correspondre aux centres des groupes obtenus par la m

´ethode des quantiles. Il est´egalement

possible d"appliquer l"algorithme avec plusieurs points de d ´epart choisis al´eatoirement et d"identifier les formes fortes,i.e.les ensembles d"unit´es qui appartiennent toujours aux m

ˆemes groupes, quels que soient les

points de dquotesdbs_dbs22.pdfusesText_28
[PDF] INSTRUMEN VALIDASI/VERIFIKASI DOKUMEN KURIKULUM

[PDF] Sujet officiel complet du bac S Histoire-Géographie 2011 - Métropole

[PDF] Sujet du bac S Mathématiques Obligatoire 2017 - Pondichéry

[PDF] Baccalauréat S Nouvelle-Calédonie 14 novembre 2013 - Apmep

[PDF] Sujet corrigé de Mathématiques - Baccalauréat S (Scientifique

[PDF] Sujet officiel complet du bac S Philosophie 2013 - Sujet de bac

[PDF] Sujet officiel complet du bac S Philosophie 2013 - Métropole

[PDF] Corrigé du bac S Physique-Chimie Spécialité 2016 - Asie

[PDF] Corrigé du bac S Physique-Chimie Obligatoire 2015 - Polynésie

[PDF] Sujet du bac S Physique-Chimie Obligatoire 2017 - Pondichéry

[PDF] Correction BAC 2012 Sciences de l 'ingénieur Camper - Gecifnet

[PDF] Corrigé officiel complet du bac S SVT Obligatoire 2011 - Métropole

[PDF] Corrigé du bac S SVT Obligatoire 2015 - Polynésie - Sujet de bac

[PDF] Sujet du bac S SVT Spécialité 2016 - Métropole - Sujet de bac

[PDF] Corrigé du bac S SVT Obligatoire 2016 - Centres - Sujet de bac